Institut für angewandte Datenanalyse GmbH

Überblick Vorstellung Marktforschung oder Data Mining? Database Enrichment Machine-Learning-Verfahren Zwei Fallstudien Ausblick und Fazit

Vorstellung IfaD Institut für angewandte Datenanalyse Seit fast 40 Jahren Dienstleister für Marktforscher in Instituten und Unternehmen Über 50 Mitarbeiter Umfassendes Service-Angebot Datenerhebung Datenverarbeitung Präsentation Analyse Zu meiner Person Naturwissenschaftlicher Hintergrund Promotion in der Elementarteilchen-Physik Seit 1½ Jahren bei IfaD Schwerpunkte Statistische Methoden Data Mining Software-Entwicklung

Marktforschung vs. Data Mining? Wozu im Big-Data-Zeitalter neue Daten erheben? Wozu noch Marktforschung, wenn man sowieso schon alles weiß? Marktforschung Big Data Einstellung, Meinung Inhalt Verhalten, Beschreibung Erhebungsaufwand Verfügbarkeit Liegen ohnehin vor Hoch Qualität Bearbeitungsaufwand Subjektiv Validität Objektiv Hoch Relevanz Analyseaufwand Will ein Unternehmen erfolgreich sein, muss es seine Kunden verstehen Muss es tatsächlich die Einstellung und Meinung kennen? Nicht unbedingt: Mit ausreichend Daten über Stimuli + Reaktionen lässt sich die Frage nach der Meinung umgehen Aber: Selten liegen diese Daten ausreichend vor Was ist mit echten Innovationen?

Marktforschung und Data Mining! Beide Welten für sich ergeben kein komplettes Bild Mehrwert durch Verknüpfung von Big Data mit sorgfältig erhobenen Marktforschungsdaten Quantität und Objektivität von Big Data Qualität und Relevanz von Marktforschungsdaten 360-Grad-Sicht auf den Kunden Herausforderung Daten-getriebener Ansatz Mustererkennung in den Zusammenhängen: Welche Verhaltensweisen und welche Eigenschaften lassen auf welche Einstellung und welche Meinung schließen? Fallweise Prognosen der Einstellung und Meinung

Simples Beispiel Befragung: Welche Eissorte mögen Sie am liebsten? Mehrheiten Weiblich Männlich Kinder Schoko Schoko Erwachsene Erdbeere Vanille Für jede Person, von der Alter und Geschlecht bekannt sind, kann das Lieblingseis geschätzt werden Als Vorhersage-Modell Alter und Geschlecht dienen als Prädiktoren Modell mit Befragungsdaten trainiert Alter Modell w/m Mit diesem Modell könnte eine Datenbank um die Variable Lieblingseis ergänzt werden Database Enrichment Lieblingseis

Database Enrichment DATENBANK BIG DATA : Verhalten, Beschreibung MARKTFORSCHUNG: Einstellung, Meinung

Database Enrichment Modell erstellen DATENBANK BIG DATA : Verhalten, Beschreibung MARKTFORSCHUNG: Einstellung, Meinung Modell anwenden MODELL- VORHERSAGEN

repräsentativ Database Enrichment externe Daten z.b. Panel DATENBANK BIG DATA : Verhalten, Beschreibung MARKTFORSCHUNG: Datenbank-Variablen Einstellung, Meinung

Database Enrichment externe Daten z.b. Panel Modell erstellen DATENBANK BIG DATA : Verhalten, Beschreibung MARKTFORSCHUNG: Datenbank-Variablen Einstellung, Meinung Modell anwenden MODELL- VORHERSAGEN

Verfahren: Predictive Analytics Intuitives Verfahren: k-nearest-neighbors Verknüpfung der Fälle, die einander in den Prädiktoren am ähnlichsten sind Was heißt k? Nicht nur der ähnlichste Fall, sondern die k nächsten Nachbarn Schätzung: Mittelwert, Mehrheit der Nachbarn Klassische Verfahren Diskriminanzanalyse: lineare Trennung zwischen den Klassen Lineare Regression: lineare Funktion, um eine kontinuierliche Zielvariable zu beschreiben Machine Learning Überwachtes maschinelles Lernen Trainingsdatensatz mit vollständigen Fällen Komplexere Verfahren, die Wechselwirkungen und Nicht-Linearitäten besser abbilden können Entscheidungsbäume Neuronale Netze Support-Vector-Machines

Machine Learning: Entscheidungsbäume Fälle werden hierarchisch in Gruppen aufgeteilt Alle Ein Prädiktor je Teilung X < 10 X > 10 Random Forest Viele Bäume mit zufällig gewählten Prädiktoren Y = A, C Y = B Z < 0 Z > 0 Ergebnis: Mehrheit/Mittelwert der Bäume Boosted Trees Aufeinander aufbauende Entscheidungsbäume Jeder Baum versucht, die Schwächen des vorherigen auszugleichen Vor- und Nachteile + z.t. inhaltlich interpretierbar + Kann mit fehlenden Werten umgehen + Kann mit verschiedenen Skalenniveaus umgehen Splits orthogonal: Problem bei starken Abhängigkeiten zwischen Prädiktoren

Prädiktoren Hidden Layer Zielvariable Machine Learning: Neuronale Netze Feed-forward Perceptron Netzwerk aus Neuronenschichten 1. Schicht: Prädiktoren Letzte Schicht: Zielvariable Dazwischen: Hidden Layers Reize nur an Neuronen der nächsten Schicht Ein Hidden Layer ausreichend für sehr viele Anforderungen Lernprozess: Anpassen der Stärke, mit der ein Reiz an das folgende Neuron weitergegeben wird ( Gewicht ) In letzter Zeit wieder populärer: Deep Learning mit vielen Hidden Layers Vor- und Nachteile + Können sehr komplexe Prozesse abbilden Black Box : Modelle nicht interpretierbar Nur kontinuierliche Prädiktoren Schwierig zu optimieren

ϕ2(x) X2 Machine Learning: Support Vector Machines (SVM) Suche nach Trennfläche zwischen Klassen, definiert durch Stützvektoren Maximaler Leerraum zwischen Klassen Nicht-linear durch Transformation ( Kernel-Trick ) Verschiedene Funktionen Effektiv: Projektion in höherdimensionalen Raum Lineare Trennung Eigentlich nur dichotome Klassifikation Erweiterbar für mehr als zwei Klassen oder kontinuierliche Zielvariable Vor- und Nachteile + Mathematisch elegant + Art der Nicht-Linearität steuerbar Black Box : Modelle nicht interpretierbar Nur kontinuierliche Prädiktoren X1 ϕ1(x) Transformation

Welches Verfahren ist das beste? Keine allgemeingültige Antwort Hängt von vielen Faktoren ab: Was ist die Aufgabenstellung? Welche Anforderungen gibt es? Wie sind die Daten? Komplexität Fallzahl Geringe Fallzahl kann zu großen Fluktuationen führen Einfache Modelle stabiler Das Modell sollte nicht komplexer sein als das Problem Lineare Zusammenhänge werden am besten von linearen Modellen erklärt Fehlende Werte Fehlende Werte in wichtigen Prädiktoren? Imputation sinnvoll? Manche Modelle können mit fehlenden Werten umgehen Prädiktoren Anzahl und Skalenniveaus Wechselwirkungen zwischen den Prädiktoren Verteilung der Information auf die Prädiktoren Best Practice Testen und vergleichen

Fallbeispiele Illustration anhand von zwei Fallbeispielen Reine Befragungen mit jeweils hohen Fallzahlen Aufteilung in Datenbank- und Marktforschungsdaten nachträglich Fälle: zufällig, wiederholt Variablen: typisch Die Ergebnisse der Verfahren können wirklich getestet werden Allerdings: keine echten Verhaltensdaten 1. Der Schuh-Händler 40 000 Fälle Segmentierung Kategorische Zielvariable: Klassifikation 2. Der Event-Veranstalter 15 000 Fälle Zufriedenheits-Score Kontinuierliche Zielvariable: Regression

1. Fallbeispiel: Der Schuh-Händler Ergebnis der Befragung: Kundentypisierung Einstellung zu Schuhen, Kleidung und Mode 5 Segmente: Praktisch, modebewusst, experimentierfreudig, Ziel der Analyse Individuelle Ansprache zugeschnitten auf den Kundentyp, Sonderangebote, Prädiktoren Präferenzen zu konkreten Schuhmodellen Schuhgröße Alter, Körpergröße, Körpergewicht In einer realen Situation könnten weitaus mehr Informationen vorliegen, sofern Befragte aus Datenbank entnommen Bisherige Einkäufe Reklamationen, Bewertungen Klickverhalten im Webshop

Der Schuh-Händler: Test-Setup Fallzahl: Testen aller Modelle mit verschiedenen Fallzahlen 500 1000 2000 5000 12000 Fluktuationen: Wiederholte Aufteilung der Fälle in Befragungs- und Datenbankdaten Test Cluster- Analyse Übertrag anhand der Befragungsvariablen Prognose anhand der Datenbankvariablen Durch Übertrag ist der wahre Kunden-Typ für alle Fälle bekannt Übertrag nur möglich, da alle Daten aus der Befragung Dadurch können Modelle tatsächlich getestet werden

Der Schuh-Händler: Modell-Güte Erwartbare Güte Bei 5 gleichgroßen Segmenten wird 1/5 der Fälle (20%) per Zufall richtig zugeordnet Trennschärfe der Segmente Lässt sich jeder Kunde eindeutig einem Segment zuordnen? Prognose kann nicht genauer sein, als die Segmente selbst Gütemaße Klassifikation Trefferquote: Anteil der richtigen Prognosen an allen Fällen Problem bei verschieden großen Gruppen Cohens Kappa Setzt die erreichte Trefferquote ins Verhältnis zum Zufall Fälle zufällig zugeordnet κ = 0 Alle Fälle in der Mehrheitsklasse κ = 0 Alle Fälle richtig zugeordnet κ = 1 Zuordnung schlechter als zufällig κ < 0

Der Schuh-Händler: Ergebnis

Der Schuh-Händler: Bestimmung der Güte Wie gut sind die Prognosen? Muss in Realität aus den vorliegenden Daten geschätzt werden Hier konnte getestet werden, wie gut die Schätzung funktioniert Am Beispiel der Prognosen des SVM-Modells Differenz der geschätzten von der tatsächlichen Trefferquote Höhere Fallzahlen führen nicht nur zu besseren Modellen, die Modell-Qualität lässt sich auch besser abschätzen

2. Fallbeispiel: Der Event-Veranstalter Befragung der lokalen Partner im Anschluss an eine Veranstaltung Verschiedene Aspekte der Zufriedenheit Zusammengefasst in einem Score Ziel der Analyse Individuelle Ansprache, Gestaltung der weitere Zusammenarbeit Prävention von Unzufriedenheit Prädiktoren Art der Veranstaltung Charakteristika der Partnerschaft Branche, Charakteristika des Partnerunternehmens Gütemaß Regression Bestimmtheitsmaß R 2 Quadrat der Korrelation zwischen den wahren und der vorhergesagten Werten Anteil erklärte Varianz Alle Fälle exakt vorhergesagt R 2 = 1 Zufällige Prognosen R 2 = 0

Der Event-Veranstalter: Ergebnis

Der Event-Veranstalter: Ergebnis-Einordnung Bestes Modell: R 2 = 0.2 Ein Fünftel der Varianz des Zufriedenheits-Scores kann durch das Modell erklärt werden Gut genug? Was steckt in den Daten? Geht es besser? Hängt von Fragestellung und Anforderungen ab Bsp.: spezielles Angebot um möglicher Unzufriedenheit entgegenzuwirken Angebot an ein Viertel der Partner: 50% der Unzufriedenen können erreicht werden

Ausblick Feature Selection Auswahl der Prädiktoren für ein Modell Optimierung des Modells Vereinfachung des Modells Meta-Learning Statt eines Modells eine Kombination mehrerer Modelle Verknüpfung der Ergebnisse einzelner Modelle zu einem Gesamtergebnis Vorhersagen eines oder mehrerer Modelle als (zusätzliche) Prädiktoren für ein finales Modell verwenden Real-Life-Test Tatsächlicher Effekt durch Anreicherung der Daten im echten Leben Bsp. Mailing: Kann die Response-Rate tatsächlich erhöht werden? Test-Gruppe als Vergleich

Fazit Marktforschung kann Big Data um eine neue Qualität ergänzen. Data Mining kann Marktforschung nicht ersetzen, wohl aber dazu beitragen, dass Marktforschungsdaten im Big-Data-Umfeld genutzt werden können. Mit Machine-Learning-Algorithmen können Erkenntnisse aus der Marktforschung z.b. mit CRM-Daten verknüpft werden. Die Modelle müssen sorgsam erstellt und validiert werden. Informationserhaltung: Was in den Daten nicht drinsteckt, kann man auch nicht rausholen. Wofür braucht Big Data die Marktforschung? Um zu lernen, wie von den Eigenschaften und dem Verhalten eines Kunden auf dessen Einstellung zu schließen ist.