Institut für angewandte Datenanalyse GmbH

Ähnliche Dokumente
SKOPOS Webinar 22. Mai 2018

Globale und Individuelle Schmerz-Klassifikatoren auf Basis relationaler Mimikdaten

Modellierung mit künstlicher Intelligenz

Statistisches Analyseverfahren

Vergleich von SVM und Regel- und Entscheidungsbaum-Lernern

Klassifikation und Ähnlichkeitssuche

Data Science Marktforschung

Feature Selection / Preprocessing

Viele Fragen? Und doch kurze Interviews! Über Modularisierung und Data Mining. Institut für angewandte Datenanalyse GmbH

Institut für angewandte Datenanalyse GmbH

Testtheorie und Gütekriterien von Messinstrumenten. Objektivität Reliabilität Validität

Kann SAS Ihre Handschrift lesen? Machine Learning am Beispiel von Stacked Denoising Autoencoders

Neuronale Netze. Christian Böhm.

Vorlesung Digitale Bildverarbeitung Sommersemester 2013

Predictive Analytics. Warum datenbasierte Vorhersagen kein Hexenwerk sind. ASQF Automation Day Dr. Stefano Signoriello

Der Sprung in die Zukunft! Einführung in neuronale Netzwerke

Klausurvorbereitung - Statistik

Frequent Itemset Mining + Association Rule Mining

Big Data - und nun? Was kann die Bioinformatik?

Jens Schmidt Senior Member Technical Staff

Human-machine learning im Bereich Soccer Analytics Vergleich verschiedener Prognoseansätze am Beispiel Fußball

Business Analytics Day Predictive Sales in CRM

Support Vector Machines (SVM)

Business Analytics. Aktuelle Methoden und Werkzeuge im Zeitalter der Digitalisierung. Business Analytics

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Niels Landwehr, Jules Rasetaharison, Christoph Sawade, Tobias Scheffer

Case-Based Reasoning und anderen Inferenzmechanismen

Textmining Klassifikation von Texten Teil 2: Im Vektorraummodell

Teil: lineare Regression

Data Mining Kapitel 11: Machine Learning. Johannes Zschache Wintersemester 2018/19


ELEMENTARE EINFÜHRUNG IN DIE MATHEMATISCHE STATISTIK

Supervised & Unsupervised Machine Learning

OPT Optimierende Clusteranalyse

Machine Learning. Dr. Bartholomäus Wissmath 3. Swiss Innovation Day

Prognose von Kostenschwankungen mit Predictive Analytics DOAG 2016

Wie beurteilen Studierende computergestützte Prüfungen? Erste Ergebnisse der Evaluation der E-Examinations an der Freien Universität Berlin

Regression ein kleiner Rückblick. Methodenseminar Dozent: Uwe Altmann Alexandra Kuhn, Melanie Spate

2. Datenvorverarbeitung

Validation Model Selection Kreuz-Validierung Handlungsanweisungen. Validation. Oktober, von 20 Validation

Data Mining - Wiederholung

Mathematische Grundlagen III

Inhalt. 4.1 Motivation. 4.2 Evaluation. 4.3 Logistische Regression. 4.4 k-nächste Nachbarn. 4.5 Naïve Bayes. 4.6 Entscheidungsbäume

Vorwort... V. Abbildungsverzeichnis... XIII. 1. Überblick über die behandelten Problembereiche... 3

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Maschinelles Lernen

Eine Einführung in R: Hochdimensionale Daten: n << p Teil II

Lernzielkatalog für das Modul Einführung in die Wissenschaftstheorie

Deep Learning Prof. Dr. E. Rahm und Mitarbeiter

BACKPROPAGATION & FEED-FORWARD DAS MULTILAYER PERZEPTRON

Ridge Regression und Kernalized Support Vector Machines : Einführung und Vergleich an einem Anwendungsbeispiel

Artificial Intelligence. Was ist das? Was kann das?

Jetzt mitmachen: CASA Monitor B2C Finanzen. Multi Client-Studie zum deutschen Finanzmarkt auf Basis der Befragung von 2.

Decision-Tree-Klassifikator

INTELLIGENTE DATENANALYSE IN MATLAB

Aufgabensammlung (Nicht-MC-Aufgaben) Klausur Ökonometrie SS ( = 57 Punkte)

Inhaltsverzeichnis. Vorwort

2.2. Wissenschaftstheoretische Grundzüge der Gewinnung von Erkenntnissen über Märkte 10

Wir haben in den vorherigen Kapiteln verschiedene Verfahren zur Regression und Klassifikation kennengelernt (z.b. lineare Regression, SVMs)

Inhaltsverzeichnis. 1 Über dieses Buch Zum Inhalt dieses Buches Danksagung Zur Relevanz der Statistik...

DISSERTATION. Nichtlineare Analyse und Klassifikation von instationären Biosignalen mit Anwendung in der Kognitionsforschung

Einsatz von Alterungsmodellen zur Prognose der Zustandsentwicklung von Abwasserkanälen. Nicolas Caradot, Hauke Sonnenberg, Pascale Rouault

Kapitel 5. Prognose. Zeitreihenanalyse wird aus drei Gründen betrieben: Beschreibung des Verlaufs von Zeitreihen.

Vorlesung. Data und Web Mining. Kurzinformation zur. Univ.-Prof. Dr. Ralph Bergmann. Lehrstuhl für Wirtschaftsinformatik II

Data Mining und maschinelles Lernen

Biometrieübung 10 Lineare Regression. 2. Abhängigkeit der Körpergröße von der Schuhgröße bei Männern

H E R Z L I C H W I L L K O M M E N Z U R D O A G K O N F E R E N Z

Weitere Untersuchungen hinsichtlich der Anwendung von KNN für Solvency 2. Tom Schelthoff

Analytics Der Weg zu datengetriebenen Geschäftsprozessen

Big Data und die Energiewende: Kann man genug Daten haben?

Entscheidungsbäume aus großen Datenbanken: SLIQ

Maschinelles Lernen und Data Mining

Algorithmische Modelle als neues Paradigma

Methoden zur Cluster - Analyse

Über die Autoren 7 Widmung 8 Danksagung 9. Einführung 21

W09 p. 1. Prof. Dr. Christoph Kleinn Institut für Waldinventur und Waldwachstum Arbeitsbereich Waldinventur und Fernerkundung

INTEGER Visuelle Entscheidungsunterstützung bei der Auswertung von Daten aus sozialen Netzwerken

Marco Dohle & Gerhard Vowe. Mediatisierung aus subjektiver Sicht. Untersuchungen zur Einschätzung der politischen Relevanz von Medien.

Entwicklung einer Entscheidungssystematik für Data- Mining-Verfahren zur Erhöhung der Planungsgüte in der Produktion

Was ist, kann und darf Deep Learning? Dr. Beat Tödtli Laboratory for Web Science

Lineare Regression 2: Gute Vorhersagen

insara: Hierarchische Netzwerke zur Analyse, Visualisierung und Vorhersage von Struktur-Aktivitäts-Beziehungen

Wilhelm Nüsser (Hrsg.) Carsten Weigand (Hrsg.) Raphael Fockel (Autor) Methoden des Data Mining im praktischen Einsatz

Echtzeitfähige Algorithmen für markerloses Tracking und Umfelderkennung , Dr.-Ing. Steffen Herbort, A.R.T. GmbH

Business Intelligence & Machine Learning

Konzepte der AI Neuronale Netze

limhatewerzeoelhiniii

Inhaltsverzeichnis. Bibliografische Informationen digitalisiert durch

Maschinelle Sprachverarbeitung Übung

5. Lektion: Einfache Signifikanztests

Künstliche Intelligenz im Maschinen- und Anlagenbau Heilsbringer oder Hypebringer?

Standardisierte Vorgehensweisen und Regeln zur Gewährleistung von: Eindeutigkeit Schlussfolgerungen aus empirischen Befunden sind nur dann zwingend

Von der Marktforschung zur Wertforschung

Der diskrete Kalman Filter

Stichwortverzeichnis. E Extrapolation, außerhalb des Datenbereichs 230

Data Mining und Statistik: Gemeinsamkeiten und Unterschiede. Daniel Meschenmoser

Data Mining Künstliche Neuronale Netze vs. Entscheidungsbäume

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Maschinelles Lernen. Tobias Scheffer Michael Brückner

PPC und Data Mining. Seminar aus Informatik LV Michael Brugger. Fachbereich der Angewandten Informatik Universität Salzburg. 28.

Florian Keller. Strukturelle Faktoren. des Bildungserfolgs. Wie das Bildungssystem den. Übertritt ins Berufsleben bestimmt.

Transkript:

Institut für angewandte Datenanalyse GmbH

Überblick Vorstellung Marktforschung oder Data Mining? Database Enrichment Machine-Learning-Verfahren Zwei Fallstudien Ausblick und Fazit

Vorstellung IfaD Institut für angewandte Datenanalyse Seit fast 40 Jahren Dienstleister für Marktforscher in Instituten und Unternehmen Über 50 Mitarbeiter Umfassendes Service-Angebot Datenerhebung Datenverarbeitung Präsentation Analyse Zu meiner Person Naturwissenschaftlicher Hintergrund Promotion in der Elementarteilchen-Physik Seit 1½ Jahren bei IfaD Schwerpunkte Statistische Methoden Data Mining Software-Entwicklung

Marktforschung vs. Data Mining? Wozu im Big-Data-Zeitalter neue Daten erheben? Wozu noch Marktforschung, wenn man sowieso schon alles weiß? Marktforschung Big Data Einstellung, Meinung Inhalt Verhalten, Beschreibung Erhebungsaufwand Verfügbarkeit Liegen ohnehin vor Hoch Qualität Bearbeitungsaufwand Subjektiv Validität Objektiv Hoch Relevanz Analyseaufwand Will ein Unternehmen erfolgreich sein, muss es seine Kunden verstehen Muss es tatsächlich die Einstellung und Meinung kennen? Nicht unbedingt: Mit ausreichend Daten über Stimuli + Reaktionen lässt sich die Frage nach der Meinung umgehen Aber: Selten liegen diese Daten ausreichend vor Was ist mit echten Innovationen?

Marktforschung und Data Mining! Beide Welten für sich ergeben kein komplettes Bild Mehrwert durch Verknüpfung von Big Data mit sorgfältig erhobenen Marktforschungsdaten Quantität und Objektivität von Big Data Qualität und Relevanz von Marktforschungsdaten 360-Grad-Sicht auf den Kunden Herausforderung Daten-getriebener Ansatz Mustererkennung in den Zusammenhängen: Welche Verhaltensweisen und welche Eigenschaften lassen auf welche Einstellung und welche Meinung schließen? Fallweise Prognosen der Einstellung und Meinung

Simples Beispiel Befragung: Welche Eissorte mögen Sie am liebsten? Mehrheiten Weiblich Männlich Kinder Schoko Schoko Erwachsene Erdbeere Vanille Für jede Person, von der Alter und Geschlecht bekannt sind, kann das Lieblingseis geschätzt werden Als Vorhersage-Modell Alter und Geschlecht dienen als Prädiktoren Modell mit Befragungsdaten trainiert Alter Modell w/m Mit diesem Modell könnte eine Datenbank um die Variable Lieblingseis ergänzt werden Database Enrichment Lieblingseis

Database Enrichment DATENBANK BIG DATA : Verhalten, Beschreibung MARKTFORSCHUNG: Einstellung, Meinung

Database Enrichment Modell erstellen DATENBANK BIG DATA : Verhalten, Beschreibung MARKTFORSCHUNG: Einstellung, Meinung Modell anwenden MODELL- VORHERSAGEN

repräsentativ Database Enrichment externe Daten z.b. Panel DATENBANK BIG DATA : Verhalten, Beschreibung MARKTFORSCHUNG: Datenbank-Variablen Einstellung, Meinung

Database Enrichment externe Daten z.b. Panel Modell erstellen DATENBANK BIG DATA : Verhalten, Beschreibung MARKTFORSCHUNG: Datenbank-Variablen Einstellung, Meinung Modell anwenden MODELL- VORHERSAGEN

Verfahren: Predictive Analytics Intuitives Verfahren: k-nearest-neighbors Verknüpfung der Fälle, die einander in den Prädiktoren am ähnlichsten sind Was heißt k? Nicht nur der ähnlichste Fall, sondern die k nächsten Nachbarn Schätzung: Mittelwert, Mehrheit der Nachbarn Klassische Verfahren Diskriminanzanalyse: lineare Trennung zwischen den Klassen Lineare Regression: lineare Funktion, um eine kontinuierliche Zielvariable zu beschreiben Machine Learning Überwachtes maschinelles Lernen Trainingsdatensatz mit vollständigen Fällen Komplexere Verfahren, die Wechselwirkungen und Nicht-Linearitäten besser abbilden können Entscheidungsbäume Neuronale Netze Support-Vector-Machines

Machine Learning: Entscheidungsbäume Fälle werden hierarchisch in Gruppen aufgeteilt Alle Ein Prädiktor je Teilung X < 10 X > 10 Random Forest Viele Bäume mit zufällig gewählten Prädiktoren Y = A, C Y = B Z < 0 Z > 0 Ergebnis: Mehrheit/Mittelwert der Bäume Boosted Trees Aufeinander aufbauende Entscheidungsbäume Jeder Baum versucht, die Schwächen des vorherigen auszugleichen Vor- und Nachteile + z.t. inhaltlich interpretierbar + Kann mit fehlenden Werten umgehen + Kann mit verschiedenen Skalenniveaus umgehen Splits orthogonal: Problem bei starken Abhängigkeiten zwischen Prädiktoren

Prädiktoren Hidden Layer Zielvariable Machine Learning: Neuronale Netze Feed-forward Perceptron Netzwerk aus Neuronenschichten 1. Schicht: Prädiktoren Letzte Schicht: Zielvariable Dazwischen: Hidden Layers Reize nur an Neuronen der nächsten Schicht Ein Hidden Layer ausreichend für sehr viele Anforderungen Lernprozess: Anpassen der Stärke, mit der ein Reiz an das folgende Neuron weitergegeben wird ( Gewicht ) In letzter Zeit wieder populärer: Deep Learning mit vielen Hidden Layers Vor- und Nachteile + Können sehr komplexe Prozesse abbilden Black Box : Modelle nicht interpretierbar Nur kontinuierliche Prädiktoren Schwierig zu optimieren

ϕ2(x) X2 Machine Learning: Support Vector Machines (SVM) Suche nach Trennfläche zwischen Klassen, definiert durch Stützvektoren Maximaler Leerraum zwischen Klassen Nicht-linear durch Transformation ( Kernel-Trick ) Verschiedene Funktionen Effektiv: Projektion in höherdimensionalen Raum Lineare Trennung Eigentlich nur dichotome Klassifikation Erweiterbar für mehr als zwei Klassen oder kontinuierliche Zielvariable Vor- und Nachteile + Mathematisch elegant + Art der Nicht-Linearität steuerbar Black Box : Modelle nicht interpretierbar Nur kontinuierliche Prädiktoren X1 ϕ1(x) Transformation

Welches Verfahren ist das beste? Keine allgemeingültige Antwort Hängt von vielen Faktoren ab: Was ist die Aufgabenstellung? Welche Anforderungen gibt es? Wie sind die Daten? Komplexität Fallzahl Geringe Fallzahl kann zu großen Fluktuationen führen Einfache Modelle stabiler Das Modell sollte nicht komplexer sein als das Problem Lineare Zusammenhänge werden am besten von linearen Modellen erklärt Fehlende Werte Fehlende Werte in wichtigen Prädiktoren? Imputation sinnvoll? Manche Modelle können mit fehlenden Werten umgehen Prädiktoren Anzahl und Skalenniveaus Wechselwirkungen zwischen den Prädiktoren Verteilung der Information auf die Prädiktoren Best Practice Testen und vergleichen

Fallbeispiele Illustration anhand von zwei Fallbeispielen Reine Befragungen mit jeweils hohen Fallzahlen Aufteilung in Datenbank- und Marktforschungsdaten nachträglich Fälle: zufällig, wiederholt Variablen: typisch Die Ergebnisse der Verfahren können wirklich getestet werden Allerdings: keine echten Verhaltensdaten 1. Der Schuh-Händler 40 000 Fälle Segmentierung Kategorische Zielvariable: Klassifikation 2. Der Event-Veranstalter 15 000 Fälle Zufriedenheits-Score Kontinuierliche Zielvariable: Regression

1. Fallbeispiel: Der Schuh-Händler Ergebnis der Befragung: Kundentypisierung Einstellung zu Schuhen, Kleidung und Mode 5 Segmente: Praktisch, modebewusst, experimentierfreudig, Ziel der Analyse Individuelle Ansprache zugeschnitten auf den Kundentyp, Sonderangebote, Prädiktoren Präferenzen zu konkreten Schuhmodellen Schuhgröße Alter, Körpergröße, Körpergewicht In einer realen Situation könnten weitaus mehr Informationen vorliegen, sofern Befragte aus Datenbank entnommen Bisherige Einkäufe Reklamationen, Bewertungen Klickverhalten im Webshop

Der Schuh-Händler: Test-Setup Fallzahl: Testen aller Modelle mit verschiedenen Fallzahlen 500 1000 2000 5000 12000 Fluktuationen: Wiederholte Aufteilung der Fälle in Befragungs- und Datenbankdaten Test Cluster- Analyse Übertrag anhand der Befragungsvariablen Prognose anhand der Datenbankvariablen Durch Übertrag ist der wahre Kunden-Typ für alle Fälle bekannt Übertrag nur möglich, da alle Daten aus der Befragung Dadurch können Modelle tatsächlich getestet werden

Der Schuh-Händler: Modell-Güte Erwartbare Güte Bei 5 gleichgroßen Segmenten wird 1/5 der Fälle (20%) per Zufall richtig zugeordnet Trennschärfe der Segmente Lässt sich jeder Kunde eindeutig einem Segment zuordnen? Prognose kann nicht genauer sein, als die Segmente selbst Gütemaße Klassifikation Trefferquote: Anteil der richtigen Prognosen an allen Fällen Problem bei verschieden großen Gruppen Cohens Kappa Setzt die erreichte Trefferquote ins Verhältnis zum Zufall Fälle zufällig zugeordnet κ = 0 Alle Fälle in der Mehrheitsklasse κ = 0 Alle Fälle richtig zugeordnet κ = 1 Zuordnung schlechter als zufällig κ < 0

Der Schuh-Händler: Ergebnis

Der Schuh-Händler: Bestimmung der Güte Wie gut sind die Prognosen? Muss in Realität aus den vorliegenden Daten geschätzt werden Hier konnte getestet werden, wie gut die Schätzung funktioniert Am Beispiel der Prognosen des SVM-Modells Differenz der geschätzten von der tatsächlichen Trefferquote Höhere Fallzahlen führen nicht nur zu besseren Modellen, die Modell-Qualität lässt sich auch besser abschätzen

2. Fallbeispiel: Der Event-Veranstalter Befragung der lokalen Partner im Anschluss an eine Veranstaltung Verschiedene Aspekte der Zufriedenheit Zusammengefasst in einem Score Ziel der Analyse Individuelle Ansprache, Gestaltung der weitere Zusammenarbeit Prävention von Unzufriedenheit Prädiktoren Art der Veranstaltung Charakteristika der Partnerschaft Branche, Charakteristika des Partnerunternehmens Gütemaß Regression Bestimmtheitsmaß R 2 Quadrat der Korrelation zwischen den wahren und der vorhergesagten Werten Anteil erklärte Varianz Alle Fälle exakt vorhergesagt R 2 = 1 Zufällige Prognosen R 2 = 0

Der Event-Veranstalter: Ergebnis

Der Event-Veranstalter: Ergebnis

Der Event-Veranstalter: Ergebnis-Einordnung Bestes Modell: R 2 = 0.2 Ein Fünftel der Varianz des Zufriedenheits-Scores kann durch das Modell erklärt werden Gut genug? Was steckt in den Daten? Geht es besser? Hängt von Fragestellung und Anforderungen ab Bsp.: spezielles Angebot um möglicher Unzufriedenheit entgegenzuwirken Angebot an ein Viertel der Partner: 50% der Unzufriedenen können erreicht werden

Ausblick Feature Selection Auswahl der Prädiktoren für ein Modell Optimierung des Modells Vereinfachung des Modells Meta-Learning Statt eines Modells eine Kombination mehrerer Modelle Verknüpfung der Ergebnisse einzelner Modelle zu einem Gesamtergebnis Vorhersagen eines oder mehrerer Modelle als (zusätzliche) Prädiktoren für ein finales Modell verwenden Real-Life-Test Tatsächlicher Effekt durch Anreicherung der Daten im echten Leben Bsp. Mailing: Kann die Response-Rate tatsächlich erhöht werden? Test-Gruppe als Vergleich

Fazit Marktforschung kann Big Data um eine neue Qualität ergänzen. Data Mining kann Marktforschung nicht ersetzen, wohl aber dazu beitragen, dass Marktforschungsdaten im Big-Data-Umfeld genutzt werden können. Mit Machine-Learning-Algorithmen können Erkenntnisse aus der Marktforschung z.b. mit CRM-Daten verknüpft werden. Die Modelle müssen sorgsam erstellt und validiert werden. Informationserhaltung: Was in den Daten nicht drinsteckt, kann man auch nicht rausholen. Wofür braucht Big Data die Marktforschung? Um zu lernen, wie von den Eigenschaften und dem Verhalten eines Kunden auf dessen Einstellung zu schließen ist.