GeorgAugustUniversität Göttingen 26. GIL Jahrestagung Einsatz von künstlichen Neuronalen Netzen im Informationsmanagement der Land und Ernährungswirtschaft: Ein empirischer Methodenvergleich Holger Schulze, Achim Spiller 6. März 2006 Schulze, Spiller Einsatz von KNN im Informationsmanagement 1
Gliederung 1 Einleitung: Verwendung von statistischen in der Primärforschung 2 Methodische Vorgehensweise 3 Ergebnisse des empirischen svergleich 4 Fazit 6. März 2006 Schulze, Spiller Einsatz von KNN im Informationsmanagement 2
Gliederung 1 Verwendung von statistischen in der Primärforschung 2 Methodische Vorgehensweise 3 Ergebnisse des empirischen svergleich 4 Fazit 6. März 2006 Schulze, Spiller Einsatz von KNN im Informationsmanagement 3
Die Ablaufschritte des Marktforschungsprozesses Schritt 1 Problemdefinition Beobachtungen Befragungen Schritt 2 Marktforschungsdesign Primärdaten Schritt 3 Schritt 4 Schritt 5 Datengewinnung Datenanalyse Kommunikation der Ergebnisse Erhebungsart, Aktualität, Detailliertheit, Objektivität, Relevanz, Fallzahl, Variablenanzahl, Skalenniveau interne Quellen Sekundärdaten externe Quellen Quelle: Eigene Darstellung in Anlehnung an HÜTTNER 1999: 23; BEREKOVEN et al. 1999: 49 6. März 2006 Schulze, Spiller Einsatz von KNN im Informationsmanagement 4
Die Ablaufschritte des Marktforschungsprozesses Schritt 1 Problemdefinition univariate bivariate multivariate Schritt 2 Marktforschungsdesign Primärdaten Schritt 3 Datengewinnung künstliche Neuronale Netze Data Mining Schritt 4 Datenanalyse Sekundärdaten Schritt 5 Kommunikation der Ergebnisse univariate bivariate multivariate Quelle: Eigene Darstellung in Anlehnung an HÜTTNER 1999: 23; BEREKOVEN et al. 1999: 49 6. März 2006 Schulze, Spiller Einsatz von KNN im Informationsmanagement 5
Ziel der Studie Ziel der folgenden Studie ist es, zu untersuchen, ob durch den Einsatz von künstlichen Neuronalen Netzen in der Primärforschung eine Verbesserung der analytischen Informationsgewinnung im Vergleich zu den bisher eingesetzten multivariaten möglich ist. 6. März 2006 Schulze, Spiller Einsatz von KNN im Informationsmanagement 6
Gliederung 1 Verwendung von statistischen in der Primärforschung 2 Methodische Vorgehensweise 3 Ergebnisse des empirischen svergleich 4 Fazit 6. März 2006 Schulze, Spiller Einsatz von KNN im Informationsmanagement 7
Vergleich von KNN und multivariaten multivariate Neuronale Netze Dependenzanalyse Regressionsanalyse Interdependenzanalyse Clusteranalyse MultiLayer Perceptrons SelfOrganizing Maps Quelle: Eigene Darstellung Software: Clementine 8.5 und SPSS 12 6. März 2006 Schulze, Spiller Einsatz von KNN im Informationsmanagement 8
Kriterien zur Beurteilung der Kriterien zur Beurteilung der Leistungsfähigkeit direkte Kriterien indirekte Kriterien datenorientierte Kriterien Datendeformation Datenqualität Datenmenge methodenorientierte Kriterien Ergebnissicherheit Generalisierbarkeit Modellprämissen anwenderorientierte Kriterien Interessantheit Verständlichkeit Interpretierbarkeit Bedienbarkeit Flexibilität Verfügbarkeit Quelle: Eigene Darstellung in Anlehnung an BERRY et al. 1997: 422f.; KÜPPERS 1999: 87f. 6. März 2006 Schulze, Spiller Einsatz von KNN im Informationsmanagement 9
Übersicht über die Fallstudien und die Modelle Fallstudie/ Anwendungsschwerpunkt svergleich Stichprobengröße Modelle Fallstudie 1: Meinungsforschung zum Stallbau in Diemarden/ Ursachenanalyse (Strukturabbildung) 164 Anwohner MLP vs. MRA Modell 1: explorative Faktorenanalyse mit anschließender Ursachenanalyse Modell 2: Aufnahme aller unabhängigen Variablen in das Modell mit anschließendem sequentiellen Ausschluss nichtsignifikanter Variablen Fallstudie 2: Markenpräferenz bei Chinesischen Konsumenten/ Typlogisierung (Strukturentdeckung) 800 Konsumenten SOM vs. CLU (Ward, KMeans) Modell 1: explorative Faktorenanalyse mit anschließender Clusterung auf Basis von 3 clusterbildenden Variablen Modell 2: Clusterung auf Basis von 11 clusterbildenden Variablen Quelle: Eigene Darstellung 6. März 2006 Schulze, Spiller Einsatz von KNN im Informationsmanagement 10
Gliederung 1 Verwendung von statistischen in der Primärforschung 2 Methodische Vorgehensweise 3 Ergebnisse des empirischen svergleich 4 Fazit 6. März 2006 Schulze, Spiller Einsatz von KNN im Informationsmanagement 11
Prognosequalität im svergleich (Fallstudie 1) Modelle InSample Qualität OutofSample Qualität MSE RMSE MSE RMSE Multiple Regressionsanalyse Modell 1 Modell 2 0,039 0,024 0,196 0,154 0,070 0,046 0,266 0,216 MultiLayer Perceptrons Modell 1 0,044 0,210 0,073 0,270 Regressionsanalyse (Modell 1, InSample Menge) nach dem MSE um 12,81 % besser als MLP Regressionsanalyse (Modell 1, OutofSample Menge) nach dem MSE um 2,72 % besser als MLP Quelle: Eigene Berechnungen 6. März 2006 Schulze, Spiller Einsatz von KNN im Informationsmanagement 12
SOM, KMeans und Ward im Vergleich (Fallstudie 2) Fehlerquadratsumme 2000 1800 1600 1400 1200 1000 800 600 400 200 0 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Ward KMeans SOM Quelle: Eigene Berechnungen Anzahl der Cluster 6. März 2006 Schulze, Spiller Einsatz von KNN im Informationsmanagement 13
Validität der Clusterlösungen im svergleich Fallstudie 2, Modell 1 Cluster Validierung interne Validität relative Validität eta² eta DA = Diskriminanzanalyse Quelle: Eigene Berechnungen Wilks` Lambda Gütekriterium Übereinstimmungsquote der DA Übereinstimmungsquote der RCLU KappaWert der RCLU KMeans 0,55 0,74 96,30 0,084 78,20 0,726 SOM 0,46 0,60 88,00 0,097 52,82 0,401 RCLU = replizierte Clusteranalyse Nur 58 % der Objekte wurden durch die SOM und KMeans gleich klassifiziert! 6. März 2006 Schulze, Spiller Einsatz von KNN im Informationsmanagement 14
Bewertung von multivariaten und KNN (Teil 1) Kriterium datenorientierte Kriterien Datendeformation Datenqualität Datenmengen methodenorientierte Kriterien Ergebnissicherheit Generalisierung Modellprämissen Quelle: Eigene Darstellung Strukturentdeckung Clusteranalyse SOM Strukturabbildung Regressionsanalyse MLP 6. März 2006 Schulze, Spiller Einsatz von KNN im Informationsmanagement 15
Bewertung von multivariaten und KNN (Teil 2) Kriterium anwenderorientierte Kriterien Interessantheit Verständlichkeit Interpretierbarkeit Bedienbarkeit Flexibilität Verfügbarkeit Strukturentdeckung Clusteranalyse SOM Strukturabbildung Regressionsanalyse MLP Quelle: Eigene Darstellung 6. März 2006 Schulze, Spiller Einsatz von KNN im Informationsmanagement 16
Einordnung der Analyseverfahren anwenderorientierte Anforderungen Neuronale Netze multivariate bivariate univariate methoden und datenorientierte Anforderungen Quelle: Eigene Darstellung 6. März 2006 Schulze, Spiller Einsatz von KNN im Informationsmanagement 17
Gliederung 1 Verwendung von statistischen in der Primärforschung 2 Methodische Vorgehensweise 3 Ergebnisse des empirischen svergleich 4 Fazit 6. März 2006 Schulze, Spiller Einsatz von KNN im Informationsmanagement 18
Fazit Der Einsatz von KNN zur Datenanalyse in der Primärforschung ist prinzipiell möglich Erweiterung des Methodenvorrates Keine besseren Güteergebnisse und Informationsgewinne durch die KNN Was ist bei komplexeren, nichtlinearen Zusammenhängen in den Datenstrukturen? KNN weisen Schwächen in der Anwendbarkeit auf BlackBox Charakter und TrialandError Entwicklungsprozess 6. März 2006 Schulze, Spiller Einsatz von KNN im Informationsmanagement 19
Fazit Handlungsempfehlung: Einsatz von KNN in der Wissenschaften und in Marktforschungsunternehmen Einsatz von multivariaten in der betrieblichen Praxis zukünftige Entwicklungen: weitere Studien zum Einsatz von KNN in der Primärforschung Software mit anwenderorientierte Benutzeroberfläche Potenziale KNN: Eigenschaften (Nichtlinearität, Lernfähigkeit usw.) hohes Verbesserungs und Weiterentwicklungspotenziale 6. März 2006 Schulze, Spiller Einsatz von KNN im Informationsmanagement 20
GeorgAugustUniversität Göttingen Vielen Dank für Ihre Aufmerksamkeit! 6. März 2006 Schulze, Spiller Einsatz von KNN im Informationsmanagement 21