9 Resümee. Resümee 216

Resümee 216 9 Resümee In der vorliegenden Arbeit werden verschiedene Methoden der Datenreduktion auf ihre Leistungsfähigkeit im sozialwissenschaftlichstatistischen Umfeld anhand eines konkreten Anwendungsfalls geprüft. Bewertungskriterien der Leistungsfähigkeit sind der Umfang des Erkenntnisgewinns sowie die Fähigkeit neue Untersuchungshypothesen zu generieren. Dabei berücksichtigen die untersuchten Methoden neben bewährten Analyseverfahren wie die Indexkonstruktion, Clusteranalyse und multiple Regression auch neuere algorithmengesteuerte Auswertungsmöglichkeiten wie die Entscheidungsbaum- und Assoziationsanalyse. Die algorithmengesteuerten Verfahren resultieren aus der Entwicklung der Datenverarbeitung mit ihren Möglichkeiten, große Datenmengen zu speichern: Umfangreiche Datensätze enthalten potenziell relevante Informationen, die jedoch mit einer manuellen Analyse vom Rechenaufwand her nicht mehr erfassbar sind. Diese Herausforderung führte zur Entwicklung des neuen Aufgabenbereichs des Knowledge Discovery in Databases (KDD), als der Prozess der (semi-) automatischen Extraktion von Wissen aus Datenbanken 207. Der KDD-Prozess umfasst den Teilprozess Data Mining für die Analyse und Auswertung von Daten mittels Verfahren und Techniken zur Identifikation von unbekannten Muster, Zusammenhängen und Trends 208. In der Statistik finden sich diese Funktionen unter dem Begriff der explorativen Datenanalyse wieder. Der Einsatz der explorativen Analyse ist auch bei der konfirmatorischen Analyse nicht neu: Häufig werden Daten, die theoriegeleitet erhoben wurden, semi-automatisch auf Korrelationen untersucht, um anhand der 207 208 Ester/Sander, 2000, S. 1 Data Mining bedient sich überwiegend der gängigen statistischen Methoden. Lediglich die algorithmengesteuerten Verfahren wie Entscheidungsbaum- und Assoziationsanalysen können als spezifische Data Mining-Methoden identifziert werden.

Resümee 217 Ergebnisse die untersuchungsleitenden Hypothesen zu überprüfen. Im Rahmen der konfirmatorischen Analyse hat diese Suche nach Mustern oder Strukturen jedoch eher den Charakter einer inoffiziellen Zwischenrechnung als einer offensiven Vorgehensweise, um neue und unvermutete Erkenntnisse mittels eines theoriefreien Vorgehens zu entdecken. Es ist erkennbar, dass die neuen Computertechnologien mit ihren weit reichenden Möglichkeiten auch die Forschungsweise der Angewandten Sozialforschung beeinflussen: Die theorie- und modellgeleitete Vorgehensweise der konfirmatorischen Analyse wird zunehmend um die explorative Datenanalyse ergänzt, die aus bereits existierenden Datensätzen neue Informationen (semi-) automatisch generiert. Die nachfolgende Tabelle zeigt das Spektrum gängiger statistischer Verfahren nach Anwendungsbereichen des Data Mining 209 bzw. der explorativen Datenanalyse. 209 vgl. Bankhofer, 2004, S. 3 und Hippner/Wilde 2001, S. 74

Resümee 218 Anwendungsbereiche deskriptive Datenanalyse explorative Datenanalyse induktive Datenanalyse Segmentierung Konzentrations- Clusteranalysen Varianzanalyse Bildung von Klassen aufgrund von Ähnlichkeiten der Objekte maße Lage- und Streuungsmaße Faktorenanalyse Neuronale Netze Lage- und Streuungsmaße Klassifikation Konzentrations- Diskriminanzanalyse Korrelationsanalyse Identifikation der Klassenzugehörigkeit von Objekten auf der Basis gegebener Merkmale maße Lage- und Streuungsmaße Entscheidungsbaumanalyse Neuronale Netze Vorhersage Prognose der Werte einer abhängigen kontinuierlichen Variablen auf Basis einer funktionalen Beziehung Assoziation Aufdeckung von strukturellen Zusammenhängen in Datenbasen mit Hilfe von Regeln Beschreibung von Zeitreihen Neuronale Netze Entscheidungsbaumanalyse Netzdiagramm Assoziationsanalyse - Regressionsanalyse Logit- Analyse Tabelle 100: Statistische Methoden nach Art der Datenanalyse und Anwendungen Die in der Tabelle grau unterlegten Methoden sind in der vorliegenden Arbeit eingesetzt worden. Im ersten Teil der Arbeit werden in Kapitel 2 die demografischen Ergebnisse mittels der Methoden der deskriptiven Statistik wie z.b. des arithmetischen Mittels, der Klassifizierung, der Kreuztabellen und der Balkendiagramme datenverdichtet dargestellt und auf ihre Repräsentativität überprüft. Kapitel 3 untersucht die Frage, inwieweit das Sicherheitsempfinden der Befragten sich im Zeitraum von 2002 bis 2005 verändert hat. Während in 2002 noch 46,0 Prozent der befragten Frauen sich sicher fühlten, waren es in 2005 nur noch 44,6 Prozent. Eine

Resümee 219 gegenläufige Tendenz ist bei den befragten Männern feststellbar: In 2002 gaben 52,8 Prozent an, sich sicher zu fühlen, in 2005 waren es sogar 55,7 Prozent. Jedoch ist diese Entwicklung nicht statistisch signifikant. Der zweite Teil der Arbeit konzentriert sich auf die Demonstration der Wirkungsweise datenreduzierender Verfahren und die Prüfung ihrer Leistungsfähigkeit anhand der Kriterien Erkenntnisgewinn und der Möglichkeit, neue Untersuchungshypothesen zu generieren. Dazu wird in Kapitel 4 ein Unsicherheitsindex konstruiert. Die Resultate geschlechtsspezifischer Faktorenanalysen und Häufigkeitsauszählungen verdeutlichen, dass die geschlechtsspezifischen Ergebnisse auch im Rahmen eines geschlechtsneutralen Indexes angemessen vertreten sind. Im Rahmen der Indexkonstruktion werden folgende Ergebnisse ermittelt: - Frauen fühlen sich eher unsicher als Männer. - Jüngere Menschen fühlen sich eher unsicher als ältere. - Verheiratete/Verwitwete fühlen sich eher unsicher als Ledige/Geschiedene. - Nicht-Abiturienten fühlen sich eher unsicher als Befragte mit Abitur sowie ggf.höherem Bildungsabschluss. - Nicht-Erwerbstätige fühlen sich eher unsicher als Erwerbstätige. Mit den Methoden der multiplen Regression in Kapitel 5 kann über die Ergebnisse einer Faktorenanalyse darauf geschlossen werden, dass die Variable Geschlecht/Beruf ungefähr gleichbedeutsam auf den Unsicherheitsindex wirkt wie die Variable Alter/Familienstand. Dieses Ergebnis wird bezogen auf die oben genannten Bewertungskriterien Erkenntnisgewinn und die Möglichkeit, neue Untersuchungshypothesen zu generieren als eher weniger interessant beurteilt. Die Clusterzentrenanalyse in Kapitel 6 generiert bereits bei 4 Clustern interpretierbare Ergebnisse, die einerseits die bislang ermittelten Resultate tendenziell bestätigen, zudem aber auch andere Ergebnisoptionen liefern. Somit bietet das Ergebnis der Clusterzentrenanalyse die Möglichkeit eines zusätzlichen Erkenntnisgewinns sowie die Chance, neue

Resümee 220 Untersuchungshypothesen zu formulieren. Von daher sind mit der Methode der Clusterzentrenanalyse für die vorliegende Fragestellung eher interessante Ergebnisse ermittelt worden. Auch die Ergebnisse der Entscheidungsbaumanalysen in Kapitel 7 bestätigen tendenziell die bisherigen Befunde. Darüber hinaus können mit den Entscheidungsbaumanalysen diese Resultate noch weiter spezifiziert werden. Die Entscheidungsbaumanalyse bietet mit dem Endknoten als Ergebnistyp ein eindeutiges, nachvollziehbares Resultat. Diese Optimalitätseigenschaft bezüglich eines Kriteriums unterscheidet die Entscheidungsbaumanalysen von den Ergebnissen einer Clusteranalyse. 210 Da in der Entscheidungsbaumanalyse die Knotenergebnisse vom ersten Stammknoten bis zum Endknoten dokumentiert sind, bietet sie die Informationen, die zu einer Formulierung weitergehender Untersuchungshypothesen beitragen können. Von daher werden die Resultate der Entscheidungsbaumanalyse bezogen auf den Erkenntnisgewinn als auch die Chance weiterführende Untersuchungshypothesen zu generieren, als eher interessant eingestuft 211. Die Assoziationsanalyse wird als Verfahren der explorativen Datenanalyse den heuristischen Methoden zugeordnet. Dies zeigt sich auch bei den überwachten und unüberwachten Assoziationsanalysen in Kapitel 8, die eine Vielzahl von Regeln produzieren. Aus dieser Regelmenge können mittels der Kennzahlen Support, Confidence oder Lift interessante Regeln identifiziert und für weitergehende Analysen ausgewählt werden. Aufgrund der Vielzahl von Ergebnistypen, die ggf. über neue Muster und Strukturen in den Daten zu einem Erkenntnisgewinn beitragen können sowie der Möglichkeit weiterführende Untersuchungshypothesen zu formulieren, sind die Ergebnisse der Assoziationsanalyse als eher interessant zu bewerten. Einleitend wurde die Frage gestellt, inwieweit Data Mining-Methoden wie Entscheidungsbaum- und Assoziationsanalyse auch für 210 211 Baltes-Götz, 2004, S. 4 Die Analyse zeigt, dass bei heterogenen Datensätzen das Ergebnis je nach Art des eingesetzten Algorithmus variieren kann.

Resümee 221 sozialwissenschaftlich-statistische Analysen nutzbringend zu verwenden sind. Die Ergebnisse, die im Rahmen der vorliegenden Arbeit mit diesen Methoden ermittelt worden sind, weisen darauf hin, dass diese Verfahren auch für sozialwissenschaftlich-statistische Forschungsfragen, insbesondere bei umfangreichen Datenbeständen nutzbringend eingesetzt werden können. Die sich immer schneller entwickelnde Informationstechnologie fördert die Analyse extrem komplexer sozialwissenschaftlicher Fragestellungen mit informatikbasierten Methoden. Angesichts solcher Entwicklungen 212 wird die sozialwissenschaftliche Informatik 213 zunehmend an Relevanz gewinnen. 212 213 Die Deutsche Forschungsgemeinschaft fördert z.b. die Entwicklung des neuen Forschungsfeldes Sozionik, das die Soziologie und Künstliche Intelligenz verbindet. In der Sozionik geht es um die Frage, wie es möglich ist, Vorbilder aus der sozialen Welt aufzugreifen, um daraus intelligente Computertechnologien zu entwickeln. Quelle: http://www.tu-harburg.de/tbg/deutsch/spp/start_spp.htm, Stand: 12.09.2006 Sozialwissenschaftliche Informatik ist die Wissenschaft von den gesellschaftlichen Funktionszusammenhängen automatisierter Informationsverarbeitung und den Informationsverarbeitungsverfahren in Politik und Verwaltung., Quelle: http://www.unikoblenz.de/~sozinf/ueberblick/aufgaben.html, Stand: 12.09.2006