Warenkorbanalyse mit Hilfe der Statistiksoftware R



Ähnliche Dokumente
Warenkorbanalyse mit Hilfe der Statistik-Software R 2

Business Analytics im E-Commerce

Data Mining und Marketing am Beispiel der explorativen Warenkorbanalyse

Entwicklung des Dentalmarktes in 2010 und Papier versus Plastik.

Data Mining mit der SEMMA Methodik. Reinhard Strüby, SAS Institute Stephanie Freese, Herlitz PBS AG

Ermittlung von Assoziationsregeln aus großen Datenmengen. Zielsetzung

Bedienungsanleitung für den Online-Shop


PPC und Data Mining. Seminar aus Informatik LV Michael Brugger. Fachbereich der Angewandten Informatik Universität Salzburg. 28.

Einfache und effiziente Zusammenarbeit in der Cloud. EASY-PM Office Add-Ins Handbuch

Erfolgsfaktor Payment

Vergleich: Positionen der Word 2003-Befehle in Word

Innovative Kommunikations- und Verwaltungslösung für Unternehmen in der Pflege- und Gesundheitsbranche

Die Invaliden-Versicherung ändert sich

Tipps & Tricks Neuerungen Nr. 5/ Externe Web-Shops im UniKat für Laborverbrauchsmaterial & Chemikalien

Installation und Bedienung von vappx unter Android

Dokumentation Artikelsammlungen

Web-Shop Kurzanleitung

ITIL Incident Management

esearch one-single-point-of-information Federated Search Modul

Exploration und Klassifikation von BigData

Willkommen bei KONTAKTMANAGEMENT INTERAKTIVE-TOUR

Assoziationsmining. Datalab Brown-Bag-Seminar. Thoralf Mildenberger

Was ist pcon.update? Girsberger Manual Registrierung pcon.update Service - Marketing Edition Sep Seite 1

Studie: Gastarifrechner Testsieger Portal AG, Hamburg, 16. Dezember 2010

1 Zugangsdaten. 1.1 Registrieren. 1.2 Neu im Service Bund? ServiceBund ecommerce Plattform

Summer Workshop Mehr Innovationskraft mit Change Management

Ergebnisse der forsa-umfrage: Wie stellt sich der Autokunde den Vertrieb der Zukunft vor?

Installation und Bedienung von vappx unter ios

Meet the Germans. Lerntipp zur Schulung der Fertigkeit des Sprechens. Lerntipp und Redemittel zur Präsentation oder einen Vortrag halten

ERP-Evaluation systematisch und sicher zum optimalen ERP-System

Corporate Design Manual 750 Jahre

STRATEGIEN FÜR DAS NÄCHSTE JAHRZEHNT

Industrie 4.0 in Deutschland

1. Das Projekt LEFOS 2. Empfehlungssysteme für Cross-Selling 3. Kundenanalyse zur weiteren Personalisierung 4. Zusammenfassung

Ein Vorwort, das Sie lesen müssen!

Handbuch - Mail-Sheriff Verwaltung

Enjoy OCI direkt in SAP mit dem SAP Open Catalog Interface (SAP OCI)

Matrix42. Use Case - Bearbeiten einer Störung unter Verwendung von Inventardaten, Aktionen und Knowledge Base. Version

Die Software für Visualisierung und Analyse von Strukturinformationen aus EDM- und PDM-Systemen.

GDPdU Export. Modulbeschreibung. GDPdU Export. Software-Lösungen. Stand: Seite 1

Überprüfung der Bildungsstandards in den Naturwissenschaften. Chemie Marcus Mössner

Relative Ideen-Stärke

Mobile Advertising am Point-of-Sale

BETTER.SECURITY AWARENESS FÜR INFORMATIONSSICHERHEIT

Powered by isolutions AG

Workshop. Die Wolken lichten sich. Cloud Computing"-Lösungen rechtssicher realisieren

Kosten senken und Innovation finanzieren.

Umfrage zur Berufsorientierung

Java Enterprise Architekturen Willkommen in der Realität

How-to: Webserver NAT. Securepoint Security System Version 2007nx

Orientierungstest für angehende Industriemeister. Vorbereitungskurs Mathematik

Eva Douma: Die Vorteile und Nachteile der Ökonomisierung in der Sozialen Arbeit

Hauptseminar am Fachgebiet für Quantitative Methoden der Wirtschaftswissenschaften

Techniken der Projektentwicklungen

Künstliches binäres Neuron

Modul 7: Geschäftsprozesse, SLA, ITIL und CMDB (Fortsetzung)

Die Gesellschaftsformen

Kontaktlos bezahlen mit Visa

UserManual. Handbuch zur Konfiguration einer FRITZ!Box. Autor: Version: Hansruedi Steiner 2.0, November 2014

Web Services stellen eine Integrationsarchitektur dar, die die Kommunikation zwischen verschiedenen Anwendungen

Institut für Computational Engineering ICE. N ä h e r d ra n a m S ys t e m d e r Te c h n i k d e r Z u ku n f t. w w w. n t b.

Doing Economics with the Computer Sommersemester Excel Solver 1

DISKUSSIONSBEITRÄGE DER FAKULTÄT FÜR BETRIEBSWIRTSCHAFTSLEHRE MERCATOR SCHOOL OF MANAGEMENT UNIVERSITÄT DUISBURG-ESSEN. Nr. 374

STUDIE ZUR NUTZUNG VON WORD OF MOUTH BEI WERBETREIBENDEN UNTERNEHMEN

iq digital quarterly 2015 #1 Content wirkt!

Gestiegene Unternehmenswerte der richtige Zeitpunkt für einen Unternehmensverkauf?

t r Lineare Codierung von Binärbbäumen (Wörter über dem Alphabet {, }) Beispiel code( ) = code(, t l, t r ) = code(t l ) code(t r )

Buchhandel.de Callback. Konfiguration, Parameter und Rückgabewerte

Workflow Systeme mit der Windows Workflow Foundation

Folgende Einstellungen sind notwendig, damit die Kommunikation zwischen Server und Client funktioniert:

SHOPPING CLOUD SHOPPING.GUETSEL.DE

YouTube: Video-Untertitel übersetzen

Managed Reseller im Partner Incentives-Portal. Erste Schritte: Anzeigen von Einnahmen

Was meinen die Leute eigentlich mit: Grexit?

SharePoint-Migration.docx

Prospektbeilagen 2014

A-CERT CERTIFICATION SERVICE 1

AGENDA BUNDESWEHR IN FÜHRUNG AKTIV. ATTRAKTIV. ANDERS.

Outlook Erstellen einer aus einer HTML - Vorlage INHALT

Repräsentative Umfrage zur Beratungsqualität im deutschen Einzelhandel (Auszug)

OUTSOURCING ADVISOR. Analyse von SW-Anwendungen und IT-Dienstleistungen auf ihre Global Sourcing Eignung. Bewertung von Dienstleistern und Standorten

Dokumentation PuSCH App. windows-phone

On Line Ordering QUICK-GUIDE. Der beste Weg Ihre Büromaterialien online zu bestellen

ALEMÃO. Text 1. Lernen, lernen, lernen

«Eine Person ist funktional gesund, wenn sie möglichst kompetent mit einem möglichst gesunden Körper an möglichst normalisierten Lebensbereichen

Vorhersagemodell für die Verfügbarkeit von IT-Services

Die Wahlpflichtfächer. Operations Research Statistik/Ökonometrie. Optimierung linearer Modelle Statistische Analyseverfahren

Wissenschaftspreis der Kooperationen 2012 Bewerbungsbogen

Architekturplanung und IS-Portfolio-

PaySquare Online. Benutzerhandbuch Demoversion

Empfehlungen zur Nutzung der CD zum Buch: Klee & Wiemann: Beweglichkeit und Dehnfähigkeit. Schorndorf: Hofmann,

mybookshop Partner für Ihren Erfolg Beim Verlag surfen, im Buchhandel bestellen

Standortfaktoren für Startups der TIME-Branche Analyse relevanter Faktoren eines Startup-Ökosystems aus Perspektive der Stakeholder

Fair-Fairer-Hamburg? Impulsvortrag zur Podiumsdiskussion

MehrWert durch IT. REALTECH Assessment Services für SAP Kosten und Performance Optimierung durch Marktvergleich

Informationswirtschaft II Rational Unified Process (RUP)

Informationswirtschaft II

Transkript:

Warenkorbanalyse mit Hilfe der Statistiksoftware R Michael Hahsler (1), Kurt Hornik (2) & Thomas Reutterer (3) (1) Institut für Informationswirtschaft, WU-Wien. (2) Institut für Statistik und Mathematik, WU-Wien. (3) Institut für Handel und Marketing, WU-Wien.

Inhalt des Vortrags 1. Einführung zu Nachfrageverbund und Warenkorbanalyse 2. R-Erweiterungspaket arules 3. Transaktionsdaten 4. Analysen Affinitätsanalyse Verdichtung von Transaktionsdaten Assoziationsregeln 5. Zusammenfassung und Ausblick 2

Einführung: Nachfrageverbund Analyse des Nachfrageverbunds zwischen Bestandteilen von Einzelhandelssortimenten (Produkte, Warengruppen, etc.) Verwertung mittels marketingpolitischer Maßnahmen Category-Managements des Handels: Platzierung, Preis- und Sonderangebotspolitik, etc. (vgl. Müller-Hagedorn 2005) Auf kundenindividuellem oder segment-spezifischem Niveau: Gestaltung maßgeschneiderter Cross- und Upselling-Aktionen innerhalb von Loyalitätsprogrammen (vgl. Mild/Reutterer 2003; Boztug/Reutterer 2006; Reutterer et al. 2006). 3

Einführung: Nachfrageverbund Erklärende Ansätze: Auswirkungen (Kreuzeffekte) von Marketing- Aktionen in einer Warengruppe auf das Kaufverhalten von Kunden in einer anderen Warengruppe (Hruschka et al. 1999, Manchanda et al. 1999; Russell/Petersen 2000; Boztug/Hildebrandt 2006) In der Regel wegen ihrer Komplexität nur auf sehr kleine Ausschnitte des Sortiments beschränkt (vgl. Boztug/Reutterer 2006). Explorative Ansätze: große Datenmengen für die Analyse zu verdichten, Verbundeffekte effizient aufzufinden und für den/die Benutzer zu visualisieren (Berry/Linoff 1997, Schnedlitz et al. 2001). 4

Explorative Warenkorbanalyse Ansatz Ausgewählte Quellen Affinitätsanalyse Böcker (1975, 1978) Merkle (1979, 1981) Dickinson/Harris/Sircar (1992) Julander (1992) Schnedlitz/Kleinberg (1994) Prototypenbildende Clusterverfahren Schnedlitz/Reutterer/Joos (2001) Decker/Monien (2003) Decker (2005) Reutterer et al. (2006) Assoziationsregeln Agrawal/Srikant (1994) Hildermann et al. (1998) Decker/Schimmelpfennig (2002) Brin et al. (1997) Brijs et al. (2004) Hahsler/Hornik/Reutterer (2006) Methodische Kurzcharakteristik Repräsentation einer Verbundmatrix bestehend aus paarweisen Assoziationsmaßen Verdichtung von Verbundbeziehungen in Warenkörben zu prototypischen Warenkorbklassen Generierung von Verbundregeln als Implikationen des Kaufs einer Warengruppe A auf eine (oder mehrere) andere Warengruppe(n) B (C, D, ) Aggregationsniveau Aggregiert Disaggregiert (segmentspezifisch) Aggregiert 5

R-Erweiterungspaket arules R (http://www.r-project.org) ist eine freie Programmierumgebung für statistische Anwendungen. Comprehensive R Archive Network (http://cran.r-project.org/ ) Bezug des R Basissystems und von Erweiterungspaketen wie arules. arules stellt die Infrastruktur für explorative Warenkorbanalyse zur Verfügung und ermöglicht unter anderem: Affinitätsanalyse, Prototypenbildende Clusterverfahren und die Suchen nach Assoziationsregeln. 6

Transaktionsdaten Transaktionsdaten fallen über Scanningsysteme am Kassen-Check- Out ( Point-Of-Sale ; POS) in Form von Warenkörben an (Hruschka 1991; Berry/Linoff 1997) Typische Darstellungen als binäre Kaufinzidenzmatrix: 7

Beispiel: Supermarktdaten R> library("arules") R> data("groceries") R> summary(groceries) transactions as itemmatrix in sparse format with 9835 rows (elements/itemsets/transactions) and 169 columns (items) most frequent items: whole milk other vegetables rolls/buns soda yogurt (Other) 2513 1903 1809 1715 1372 34055 element (itemset/transaction) length distribution: Min. 1st Qu. Median Mean 3rd Qu. Max. 1.000 2.000 3.000 4.409 6.000 32.000 includes extended item information - examples: labels level2 level1 1 frankfurter sausage meet and sausage 2 sausage sausage meet and sausage 8

Beispiel: Supermarktdaten R> which(size(groceries) > 25) [1] 1092 1217 2939 2974 4431 5611 9002 R> hist(size(groceries)) R> itemfrequencyplot(groceries, support = 0.05) Vollmilch 9

Affinitätsanalyse Frequenzmatrix enthält die gemeinsamen Kaufhäufigkeiten für Paare von Warengruppen (vgl. Böcker 1978, Merkle 1981, Hruschka 1991). R> ct <- crosstable(groceries) R> ct[1:5, 1:5] frankfurter sausage liver loaf ham meat frankfurter 580 99 7 25 32 sausage 99 924 10 49 52 liver loaf 7 10 50 3 0 ham 25 49 3 256 9 meat 32 52 0 9 254 Kann mittels eines geeigneten Assoziationskoeffizienten in eine Verbundmatrix überführt werden. 10

Affinitätsanalyse Verdichtung durch hierarchische Clusteranalyse (vgl. Merkle 1979; Bordemann 1986; Decker/Schimmelpfennig 2002) R> diss <- dissimilarity(groceries[, itemfrequency(groceries) > 0.02], method = "Jaccard", which = "items") R> hc <- hclust(diss, method = "ward") R> plot(hc) 11

Affinitätsanalyse Absatzpolitische Relevanz: Verbundplatzierungen im Verkaufsraum oder für Werbemedien (zum Beispiel Flugblätter, Kataloge). Category-Management: Nachfragerorientierte Bildung sogenannter 'Categories' (vgl. Bordemann 1986, Zielke 2002, Müller- Hagedorn 2005). 12

Verdichtung von Transaktionsdaten zu Prototypen Warenkorb-Typologie: Einzelne Transaktionen zu einer (kleinen) Gruppe von prototypischen Warenkörben zuordnen (vgl. Schnedlitz et al. 2001). Die Verdichtung zu sog. Warenkorb-Protoypen kann beispielsweise durch Clusterbildung basierend auf den binären Transaktionsdaten realisiert werden. R> samp <- sample(groc, 2000) R> diss <- dissimilarity(samp, method = "Jaccard") R> library("cluster") R> clust <- pam(diss, k = 5) 13

Verdichtung von Transaktionsdaten zu Prototypen R> itemfrequencyplot(samp[clust$clustering == 2], population = Groceries, support = 0.05) Dosenbier 14

Verdichtung von Transaktionsdaten zu Prototypen R> itemfrequencyplot(samp[clust$clustering == 5], population = Groceries, support = 0.05) 15

Verdichtung von Transaktionsdaten zu Prototypen Hauptvorzug: disaggregierte bzw. segmentspezifische Betrachtungsweise (z.b. bei Loyalitätsprogrammen). Erweiterung in Richtung dynamischer Kundensegmentierung (vgl. Reutterer et al. 2006). Vorverdichtung und Warenkorbselektion für segmentspezifisch maßgeschneiderte Erklärungsmodelle (Kreuzeffekte zwischen Warengruppen) (vgl. Boztug und Reutterer 2006). 16

Generierung von bedeutsamen Assoziationsregeln Assoziationsregeln (Association Rules) sind ein Ansatz aus dem Data-Mining (Agrawal/Srikant 1994). Analyse der gemeinsamen Kaufhäufigkeiten von Artikeln/Warengruppen in Transaktionsdaten. Assoziationsregeln formalisieren Regeln als Implikationen der Art (Agrawal/Imielinski/Swami 1993) {Brot, Milch} {Butter} (Support: 1%, Konfidenz: 50%). 17

Generierung von bedeutsamen Assoziationsregeln R> rules <- apriori(groceries, parameter = list(support = 0.001, confidence = 0.2)) R> summary(rules) set of 21574 rules rule length distribution (lhs + rhs): 1 2 3 4 5 1 620 9337 9824 1792 Min. 1st Qu. Median Mean 3rd Qu. Max. 1.000 3.000 4.000 3.593 4.000 5.000 summary of quality measures: support confidence lift Min. :0.00102 Min. :0.200 Min. : 0.803 1st Qu.:0.00112 1st Qu.:0.263 1st Qu.: 2.115 Median :0.00132 Median :0.355 Median : 2.756 Mean :0.00196 Mean :0.396 Mean : 3.016 3rd Qu.:0.00193 3rd Qu.:0.500 3rd Qu.: 3.612 Max. :0.25552 Max. :1.000 Max. :35.716 18

Generierung von bedeutsamen Assoziationsregeln Auswahl von Regeln mit Rindfleisch als Konsequenz R> rulesbeef <- subset(rules, rhs %in% "beef") R> inspect(sort(rulesbeef, by = "conf")[1:3]) lhs rhs support confidence lift 1 {root vegetables, whole milk, butter, rolls/buns} => {beef} 0.001118 0.4783 9.116 2 {sausage, root vegetables, butter} => {beef} 0.001017 0.4545 8.664 3 {root vegetables, butter, yogurt} => {beef} 0.001525 0.3947 7.524 19

Generierung von bedeutsamen Assoziationsregeln Entscheidungsunterstützung in den Bereichen Sortiments-, Platzierungs- und Werbeplanung auf Artikelebene (vgl. Brijs et al. 2004, Van den Poel/De Schamphelaere/Wets 2004). Vorteile: Effiziente Algorithmen ermöglichen die gleichzeitige Analyse mit sehr vielen Warengruppen oder einzelnen Artikeln. Probleme: Die Maße Support, Konfidenz und Lift werden systematisch durch die Kaufhäufigkeit der Artikel beeinflusst (vgl. Hahsler/Hornik/Reutterer 2006). 20

Zusammenfassung und Ausblick Das R-Erweiterungspaket arules erleichtert die explorative Warenkorbanalyse. Eine Vielzahl von aufschlussreichen Analysen können schnell und einfach durchgeführt werden. arules ermöglicht die unkomplizierte und rasche Erweiterungen durch die Verwendung weiterer R-Pakete. Beispielsweise durch in cba enthaltene Algorithmen für:»moderne Kompressionsverfahren»nachbarschaftsbasierte Clusteralgorithmen 21