WAZ Zeitungsgruppe optimiert Direkt-Marketing durch die Bestimmung von Adresspotenzialen Dr. Ana Moya Senior Analyst
Who we are Titel und Kennzahlen NRW Vier (Haupt-) Tageszeitungen - Westdeutsche Allgemeine Zeitung (WAZ) - Neue Rhein Zeitung (NRZ) - Westfälische Rundschau (WR) - Westfallen Post (WP) Reichweite: 35,1 %, dies sind insgesamt 2,04 Mio. Leser* Gesamtauflage Q4/2012: 718.998** * Medienanalyse 2012 ** IVW-Gemeldet 2013 International Business Machines Corporation 2
Where we are Das Verbreitungsgebiet erstreckt sich von der niederländischen Grenze im Nordwesten bis Rheinland-Pfalz im Süden von Raum Moers im Westen bis nach Marsberg im Osten 2013 International Business Machines Corporation 3
Überblick Hauptziel Welche Zielgruppen mit welchen Merkmalen haben eine überdurchschnittliche Responsewahrscheinlichkeit? Ansatz & Daten Ergebnisse Daten: Die soziodemographischen Variablen liegen auf PLZ8-Ebene vor. Für ehemalige Abonnenten ist auch Abo-Information vorhanden. Ansatz: Reagierer-Profilierung (Deskriptive Analyse) Responseanalyse (Bayes'sches Netze, Entscheidungsbäume sowie logistische Regression) Identifizierung der Merkmale, die den größten Einfluss auf die Responsewahrscheinlichkeit auswirken. Ableitung von Regeln, die die Klassenzugehörigkeit eines noch nicht zugeordneten Adressaten bestimmen bzw. vorhersagen. Festlegung des Responseverhaltens im Bezug auf unsere Titel, so dass dem Adressaten der passendste Titel angeboten werden kann. 2013 International Business Machines Corporation 4
Übersicht der Analyseschritte Plausibilitätsprüfung Reagierer-Profilierung Verfügbare Adressen Geocodierung (Zuordnung einer PLZ8) Anreicherung mit Geodaten (auf PLZ8-Ebene) Modellierung Unabhängige Abhängige Variablen Variablen (lineare) Funktion (f) X 1, X 2, Y. Klassenzugehörigkeit Vorhersagen Responseverhalten Einflussreichste Variablen 2013 International Business Machines Corporation 5
Übersicht der Modellierungsansatz Datenbestand 1 GEWINNSPIEL Reine Adresse Datenbestand 2 MAILINGCUBE Datenbestand 3 ALTBESTAND Adresse sowie Abo-Infos, u.a. der letzte bestellte Titel, Monate seit dem letzten Vollabo Ausländerquote Kaufkraft Lebensphase Straßentyp Haushaltsstatus PLZ 8 Ø 500 HH Limbic Type Haustyp Familienstruktur Sinus Milieus Arbeitslosenquote Gegeben: Response (R) als dichotomische Variable 0: NEIN 1: JA Gesucht: (R=1) Є [0,1] Datenbestände microgeographische Daten Response Unabhängige Variablen (lineare) Funktion (f) Abhängige Variablen X 1, X 2,. P(R=1) 2013 International Business Machines Corporation 6
Übersicht der geographischen Hierarchien 2013 International Business Machines Corporation 7
PLZ8 Ein Beispiel Abonnentendichte nach PLZ8 Gebieten Zoom Abonnentendichte=Anzahl Abonnenten/Anzahl Haushalte im Gebiet Kundendichte stark unterdurchschnittlich (bis 15%) unterdurchschnittlich (>15-20%) durchschnittlich (>20-25%) überdurchschnittlich (>25-35%) stark überdurchschnittlich (>35%) 2013 International Business Machines Corporation 8
Ansatz - Erste Validierung Drei Datenbestände wurden untersucht: 1) Gewinnspieladressen 2) Mailingcubeadressen (zwischen 3 und 36 Monaten ohne Abo) und 3) Altadressen (mehr als 36 Monate ohne Abo) Hypothesen: H 0 : Die Herkunft der Daten und die Responsequote sind stochastisch unabhängig. Der Chi-Quadrat-Unabhängigkeitstest lieferte letztendlich das Ergebnis, dass bei einem Konfidenzniveau von 99% die Nullhypothese verworfen werden kann, so dass zwischen den getesteten Variablen eine stochastische Abhängigkeit vorliegt. 2013 International Business Machines Corporation 9
Ansatz Reagierer-Profilierung Reagierer aus dem Altbestand weisen eine besonders überdurchschnittliche Kaufkraft auf. Eine unterdurchschnittliche Ausländerquote weist keiner von den hier betrachteten Datenbeständen auf. Reagierer aus dem Mailingcube wohnen eher in 6-9 Familienhäusern, während der Reagierer aus dem Altbestandcube eher in 1-2 Familienhäusern lebt. In allen Datenbeständen dominiert ein unterdurchschnittlicher Status. 2013 International Business Machines Corporation 10
Reagierer und Nicht-Reagierer im direkten Vergleich Deskriptive Statistik (Zusammenfassung) Variable Kaufkraft Ausländerquote Überdurchschnittlich Überdurchschnittlich Arbeitslosenquote Überdurchschnittlich Ausprägung im Vergleich der Reagierer zu Nicht-Reagieren für Mailing Geschlecht Männlich Weiblich Altersgruppen Einwohner unter 14 Einwohner zw. 15-29 Einwohner zw. 30-44 Einwohner zw. 45-59 Einwohner zw. 60-74 Einwohner über 75 Sinus Milieus Konservativ-Etablierte Hedonisten Performer Bürgerliche Mitte Sozialökologische Traditionelle Prekäre Andere Limbic Type Traditionalisten Disziplinierte Performer Abenteurer Hedonisten Harmoniser Offene Lebensphase Junge Paare Junge Familie mit Kind Singles Paare Familie mit Kind Alleinstehende Senioren Ältere Paare Straßentyp Reine Wohnstraße Läden und Dienstleistungen Mischform Gewerbestraße Extrem gewerblich Familienstruktur Alleinstehend/ Singlehaushalte Überdurchschnittlicher Anteil Singlehaushalte Haushaltsstatus: Niedrigster Status Sehr niedriger Status Haustyp: 1-2 Familienhäuser in homogen bebautem Straßenabschnitt Gemischte Familienstruktur Überdurchschnittlicher Anteil Familie mit Kindern Unterdurchschnittlicher Status Durchschnittlicher Status 1-2 Familienhäuser in nicht homogen bebautem Straßenabschnitt 3-5 Familienhäuser 6-9 Familienhäuser Nahezu ausschließlich Familien mit Kind Überdurchschnittlicher Status Wohnblocks mit 10-19 Haushalten Höchster Status Hochhäuser mit 20 und mehr Haushalten überwiegend gewerblich genutzte Häuser Die Merkmale Kaufkraft, Ausländerquote und Arbeitslosenquote unterscheiden sich von den übrigen. Für diese Merkmale wird jeweils ein Wert im Verhältnis zum Durchschnittswert der BRD dargestellt. Für die übrigen Felder bzw. Merkmalsausprägungen wird jeweils die Tendenz zwischen Reagieren und Nicht-Reagierern dargestellt. Schwächer Ausgeprägt* Gleich Ausgeprägt* Stärker Ausgeprägt* *im Vergleich zu den Nicht-Reagierern 2013 International Business Machines Corporation 11
Scoremodelle und Potenzial Anhängige Variablen: Responsewahrscheinlichkeit 2013 International Business Machines Corporation 12
Scoremodell - Vergleichskriterien Scoring-Methoden sind Punktbewertungsmethoden. Responsewahrscheinlichkeit - nicht nur eine ordinale Ratingnote ist das Ziel, sondern auch eine genaue Responsewahrscheinlichkeit. Vollständigkeit - Multikollinearität und einen Anstieg der Prognoseunsicherheit zu verhindern. Prognose Genauigkeit es werden unterschiedliche Modelle untersucht und nach ihrer Prognosefähigkeit (Prozentsatz für richtige und falsche Vorhersagen auf der Testmenge) geprüft. Ein Modell für jeden Datenbestand: GEWINNSPIEL MAILINGCUBE (Vertiefung) ALTBESTAND 2013 International Business Machines Corporation 13
Scoremodell Beste Prognosefähigkeit Ein Bayes'sches Netz dient dazu, die gemeinsame Wahrscheinlichkeitsverteilung aller beteiligten Variablen unter Ausnutzung bekannter bedingter Unabhängigkeiten möglichst kompakt zu repräsentieren. Dabei wird die bedingte (Un)abhängigkeit von Untermengen der Variablen mit dem A-priori-Wissen kombiniert. GEWINNSPIEL MAILINGCUBE (Vertiefung) ALTBESTAND 2013 International Business Machines Corporation 14
Scoremodelle und Potenzial Scorewert (Dezile*) Kum_Ant_Potenzial Kum_Ant_Responses 1 10% 21,40% 2 20% 35,80% 3 30% 47,50% 5 40% 57,60% 4 50% 67,60% 6 60% 76,50% 7 70% 84,20% 9 80% 91,50% 8 90% 97,30% 10 100% 100,00% Bei zufälliger Auswahl von 20% der Adressen aus dem Referenzbestand (Potenzial) befinden sich auch nur 20% der Zielgruppe Reagierer (siehe rote Linie) in diesem Segment, während es bei einer Selektion nach Score ca. 35,80% (siehe blaue Linie) sind. *) Durch Dezile (lat. Zehntelwerte ) wird die Menge der verteilten Werte in 10 umfangsgleiche Teile zerlegt 2013 International Business Machines Corporation 15
Verteilung der Aussandmengen und der Scorewerte über die Zielgruppe 2013 International Business Machines Corporation 16
Aussandmengen und Scorewerte Sehr niedrige Niedrige Mittlere Hohe Sehr hohe Gebiete mit wenig Potenzial (schlechtem Scorewert) und trotzdem viele Adressen vorhanden (hohe Ansprache). Gebiete mit viel Potenzial (gutem Scorewert) und trotzdem nicht genügend Adressen vorhanden (niedrige Ansprache). 2013 International Business Machines Corporation 17
Scorewerte und Titel Unterschiedliche Responseverhalten können auch im Bezug auf den Titel festgestellt werden, so dass dem Adressaten der passendste Titel angeboten werden kann. Scorewert Scorewert < 2013 International Business Machines Corporation 18
Zusammenfassung Voruntersuchung Daten- Quelle Die Herkunft der Daten (Datenbestand) ist (stochastisch) abhängig von der Responsequote. Unterschiedliche Modelle pro Datenquelle sinnvoll. Titel Unterschiedliche Responseverhalten konnten auch nach Titel festgestellt werden. Je nach Gebiet kann Angebot optimiert werden 2013 International Business Machines Corporation 19
Zusammenfassung Analyseprozess Identifikation der einflussreichten Merkmale, die es ermöglichen die Reagierer zu profilieren. Ableitung von Regeln, die die Klassenzugehörigkeit eines noch nicht zugeordneten Adressaten bestimmen bzw. sein Verhalten vorhersagen. Kennzeichnung der vielversprechenden Potenziale im inaktiven Bestand (Scorewerte) 2013 International Business Machines Corporation 20
Zusammenfassung Ergebnisse Analyse vorherige Mailings Analyse ergibt, dass bislang Gebiete gab mit hohem Potenzial und trotzdem relativ geringen Aussandmengen auswiesen und umgekehrt. => Optimierung Aussandmengen nach Gebiet Maßnahme für neue Mailings Neues Mailing unter Verwendung optimierter Adressdaten und optimierter Angebotswahl (Titel) nach Gebiet => Zweifache Optimierung Business Benefit Signifikante Steigerung des Response bei gleicher Marktausschöpfung Einsparung Kosten durch verbesserte räumliche und produktspezifische Ansprache 2013 International Business Machines Corporation 21