9 Resümee. Resümee 216



Ähnliche Dokumente
Tiefgreifende Prozessverbesserung und Wissensmanagement durch Data Mining

Mitarbeiterbefragung als PE- und OE-Instrument

DISKUSSIONSBEITRÄGE DER FAKULTÄT FÜR BETRIEBSWIRTSCHAFTSLEHRE MERCATOR SCHOOL OF MANAGEMENT UNIVERSITÄT DUISBURG-ESSEN. Nr. 374

Seminar Business Intelligence Teil II. Data Mining & Knowledge Discovery

Visualisierung. Rückblick. Scientific Visualization vs. Informationsvisualisierung. Allgemeine Ziele und Anforderungen Prof. Dr.-Ing.

Überprüfung der Bildungsstandards in den Naturwissenschaften. Chemie Marcus Mössner

Event-Konzept (Stand )

PPC und Data Mining. Seminar aus Informatik LV Michael Brugger. Fachbereich der Angewandten Informatik Universität Salzburg. 28.

Markus Demary / Michael Voigtländer

Pflegedossier für die kreisfreie Stadt Frankfurt (Oder)

Data Mining als Arbeitsprozess

Die Quantitative und Qualitative Sozialforschung unterscheiden sich bei signifikanten Punkten wie das Forschungsverständnis, der Ausgangspunkt oder

Data Mining-Projekte

Leseauszug DGQ-Band 14-26

Kindervorsorgeuntersuchungen

26. GIL Jahrestagung

Pflegedossier für den Landkreis Potsdam-Mittelmark

Virtual Roundtable: Business Intelligence - Trends

Schnelle Antwort, gute klare Beratung. Ich bin wirklich sehr zufrieden. Auswertung der Mandantenbefragung 2007


8. Grundlagen der empirischen Sozialforschung

Fachbericht zum Thema: Anforderungen an ein Datenbanksystem

Cross-Selling bei Versicherungen. Empirische Analyse zu Status quo, Trends und zukünftigen Anforderungen

Entwicklung des Dentalmarktes in 2010 und Papier versus Plastik.

Anlage 1 zur Arbeitshilfe zur Hilfe zur Pflege nach 61 SGB XII in Tagespflegeeinrichtungen. Berechnungsbeispiele zu Ziffer Stand

Requirements Engineering für IT Systeme

Einführung in statistische Analysen

Warum. Natural AnalyticsTM. wichtig ist

Second Steps in eport 2.0 So ordern Sie Credits und Berichte

1 Einleitung. 1.1 Motivation und Zielsetzung der Untersuchung

FORUM HANDREICHUNG (STAND: AUGUST 2013)

Einleitende Bemerkungen

proles-login. Inhalt [Dokument: L / v1.0 vom ]

Auswerten mit Excel. Viele Video-Tutorials auf Youtube z.b.

YouTube: Video-Untertitel übersetzen

Abb. 30: Antwortprofil zum Statement Diese Kennzahl ist sinnvoll

Wissenschaftsjahr Die demografische Chance

Umgang mit Schaubildern am Beispiel Deutschland surft

Kurzbeschreibung GVB-Marktstudie. Top-Anbieter von Telematiksystemen in der Transportlogistik

Data Quality Management: Abgleich großer, redundanter Datenmengen

Anleitung zur Bearbeitung von Prüferkommentaren in der Nachreichung

Mai Hauptseminar: Nichtrelationale Datenbanken Historisch-Kulturwissenschaftliche Informationsverarbeitung Universität zu Köln

Bundesverband Flachglas Großhandel Isolierglasherstellung Veredlung e.v. U g -Werte-Tabellen nach DIN EN 673. Flachglasbranche.

Ohne den gewerkschaftlichen Rechtsschutz hätte ich meine Rechte nicht durchsetzen können.

Regressionsanalyse zur Optimierung von künstlichen neuronalen Netzen bei der DAX-Prognose

Drahtlosnetzwerke automatisch konfigurieren mit WCN (Windows Connect Now) unter Windows Vista

Meinungen der Bürgerinnen und Bürger in Hamburg und Berlin zu einer Bewerbung um die Austragung der Olympischen Spiele

How to do? Projekte - Zeiterfassung

Emergency Room für Projektleiter

Ablaufbeschreibung für das neu Aufsetzen von Firebird und Interbase Datenbanken mit der IBOConsole

Prof. Dr.-Ing. Rainer Schmidt 1

Profil der Wirtschaftsinformatik

Kurzeinführung Moodle

Handbuch ECDL 2003 Basic Modul 5: Datenbank Grundlagen von relationalen Datenbanken

Solarstrom selbst erzeugen und speichern so geht s!

Vermögensbildung: Sparen und Wertsteigerung bei Immobilien liegen vorn

UMFRAGE II. QUARTAL 2014

Was meinen die Leute eigentlich mit: Grexit?

Datenbank-Verschlüsselung mit DbDefence und Webanwendungen.

Schuljahreswechsel im Schul-Webportal

riskkv Scorenalyse riskkv Scoring Seite 1 von 9

Die Post hat eine Umfrage gemacht

1. Berufsbegleitende Nachqualifizierung zum Berufsabschluß

Nachkalkulation. Hat sich das Objekt CVO Auxilium hilden im Juni rentiert?

personal.net Neue Quellensteuertarifcodes ab dem

Zimmertypen. Zimmertypen anlegen

Mitteilung der Kommission. Muster für eine Erklärung über die zur Einstufung als KMU erforderlichen Angaben (2003/C 118/03)

XT Großhandelsangebote

Statistik II. Statistik II, SS 2001, Seite 1 von 5

Anleitung zur Datensicherung und -rücksicherung in der VR-NetWorld Software

Pflegedossier für den Landkreis Oberspreewald- Lausitz

SEPA-Umstellungsanleitung VR-NetWorld Software

Deutliche Mehrheit der Bevölkerung für aktive Sterbehilfe

Theorie qualitativen Denkens

Wissenswertes über die Bewertung. Arbeitshilfe

Inhalt... 1 Einleitung... 1 Systemanforderungen... 1 Software Download... 1 Prüfdokumentation... 4 Probleme... 5 Hintergrund... 5

Projekte für reale Herausforderungen Projektarbeit: Einleitung und Gliederung. Projekte für reale Herausforderungen

ACDSee Pro 2. ACDSee Pro 2 Tutorials: Übertragung von Fotos (+ Datenbank) auf einen anderen Computer. Über Metadaten und die Datenbank

Zentrum. Zentrum Ideenmanagement. Zentrum Ideenmanagement. Umfrage zur Nutzung von mobilen Endgeräten im Ideenmanagement

Angewandte Ökonometrie, WS 2012/13, 1. Teilprüfung am Lösungen. Das folgende Modell ist ein GARCH(1,1)-Modell:

Grundlagen der Inferenzstatistik

Anleitungen zum KMG- -Konto

Data Mining: Einige Grundlagen aus der Stochastik

Datensicherung und Wiederherstellung

AZK 1- Freistil. Der Dialog "Arbeitszeitkonten" Grundsätzliches zum Dialog "Arbeitszeitkonten"

Erfolg und Vermögensrückgänge angefertigt im Rahmen der Lehrveranstaltung Nachrichtentechnik von: Eric Hansen, am:

Ihre Stimme für 7 % für Kinder!

IGT-Richtlinie 01: Anforderungen an Smarthome-Systeme

Begriffsbestimmung CRISP-DM-Modell Betriebswirtschaftliche Einsatzgebiete des Data Mining Web Mining und Text Mining

Neuerungen in ReviPS Version 12g

Dokumentation EGVP-Übertmittlungsfehler bei Server-Engpässen Vorgehensweise Seite 1 von 5

Ergebnisse der forsa-umfrage: Wie stellt sich der Autokunde den Vertrieb der Zukunft vor?

Zwischenbericht der UAG NEGS- Fortschreibung

Inhouse-Schulung For tbildung.mal-alt-werden.de

Professionelle Seminare im Bereich MS-Office

SEPA-Umstellungsanleitung VR-NetWorld Software

Datenübernahme von HKO 5.9 zur. Advolux Kanzleisoftware

Statistische Materialien zu Existenzgründung und Selbstständigkeit der Wohnbevölkerung mit Migrationshintergrund

Lehrerbefragung Kostenlose Bildungsmedien online (Abstract, 9. Oktober 2013)

Anforderungen an die HIS

Transkript:

Resümee 216 9 Resümee In der vorliegenden Arbeit werden verschiedene Methoden der Datenreduktion auf ihre Leistungsfähigkeit im sozialwissenschaftlichstatistischen Umfeld anhand eines konkreten Anwendungsfalls geprüft. Bewertungskriterien der Leistungsfähigkeit sind der Umfang des Erkenntnisgewinns sowie die Fähigkeit neue Untersuchungshypothesen zu generieren. Dabei berücksichtigen die untersuchten Methoden neben bewährten Analyseverfahren wie die Indexkonstruktion, Clusteranalyse und multiple Regression auch neuere algorithmengesteuerte Auswertungsmöglichkeiten wie die Entscheidungsbaum- und Assoziationsanalyse. Die algorithmengesteuerten Verfahren resultieren aus der Entwicklung der Datenverarbeitung mit ihren Möglichkeiten, große Datenmengen zu speichern: Umfangreiche Datensätze enthalten potenziell relevante Informationen, die jedoch mit einer manuellen Analyse vom Rechenaufwand her nicht mehr erfassbar sind. Diese Herausforderung führte zur Entwicklung des neuen Aufgabenbereichs des Knowledge Discovery in Databases (KDD), als der Prozess der (semi-) automatischen Extraktion von Wissen aus Datenbanken 207. Der KDD-Prozess umfasst den Teilprozess Data Mining für die Analyse und Auswertung von Daten mittels Verfahren und Techniken zur Identifikation von unbekannten Muster, Zusammenhängen und Trends 208. In der Statistik finden sich diese Funktionen unter dem Begriff der explorativen Datenanalyse wieder. Der Einsatz der explorativen Analyse ist auch bei der konfirmatorischen Analyse nicht neu: Häufig werden Daten, die theoriegeleitet erhoben wurden, semi-automatisch auf Korrelationen untersucht, um anhand der 207 208 Ester/Sander, 2000, S. 1 Data Mining bedient sich überwiegend der gängigen statistischen Methoden. Lediglich die algorithmengesteuerten Verfahren wie Entscheidungsbaum- und Assoziationsanalysen können als spezifische Data Mining-Methoden identifziert werden.

Resümee 217 Ergebnisse die untersuchungsleitenden Hypothesen zu überprüfen. Im Rahmen der konfirmatorischen Analyse hat diese Suche nach Mustern oder Strukturen jedoch eher den Charakter einer inoffiziellen Zwischenrechnung als einer offensiven Vorgehensweise, um neue und unvermutete Erkenntnisse mittels eines theoriefreien Vorgehens zu entdecken. Es ist erkennbar, dass die neuen Computertechnologien mit ihren weit reichenden Möglichkeiten auch die Forschungsweise der Angewandten Sozialforschung beeinflussen: Die theorie- und modellgeleitete Vorgehensweise der konfirmatorischen Analyse wird zunehmend um die explorative Datenanalyse ergänzt, die aus bereits existierenden Datensätzen neue Informationen (semi-) automatisch generiert. Die nachfolgende Tabelle zeigt das Spektrum gängiger statistischer Verfahren nach Anwendungsbereichen des Data Mining 209 bzw. der explorativen Datenanalyse. 209 vgl. Bankhofer, 2004, S. 3 und Hippner/Wilde 2001, S. 74

Resümee 218 Anwendungsbereiche deskriptive Datenanalyse explorative Datenanalyse induktive Datenanalyse Segmentierung Konzentrations- Clusteranalysen Varianzanalyse Bildung von Klassen aufgrund von Ähnlichkeiten der Objekte maße Lage- und Streuungsmaße Faktorenanalyse Neuronale Netze Lage- und Streuungsmaße Klassifikation Konzentrations- Diskriminanzanalyse Korrelationsanalyse Identifikation der Klassenzugehörigkeit von Objekten auf der Basis gegebener Merkmale maße Lage- und Streuungsmaße Entscheidungsbaumanalyse Neuronale Netze Vorhersage Prognose der Werte einer abhängigen kontinuierlichen Variablen auf Basis einer funktionalen Beziehung Assoziation Aufdeckung von strukturellen Zusammenhängen in Datenbasen mit Hilfe von Regeln Beschreibung von Zeitreihen Neuronale Netze Entscheidungsbaumanalyse Netzdiagramm Assoziationsanalyse - Regressionsanalyse Logit- Analyse Tabelle 100: Statistische Methoden nach Art der Datenanalyse und Anwendungen Die in der Tabelle grau unterlegten Methoden sind in der vorliegenden Arbeit eingesetzt worden. Im ersten Teil der Arbeit werden in Kapitel 2 die demografischen Ergebnisse mittels der Methoden der deskriptiven Statistik wie z.b. des arithmetischen Mittels, der Klassifizierung, der Kreuztabellen und der Balkendiagramme datenverdichtet dargestellt und auf ihre Repräsentativität überprüft. Kapitel 3 untersucht die Frage, inwieweit das Sicherheitsempfinden der Befragten sich im Zeitraum von 2002 bis 2005 verändert hat. Während in 2002 noch 46,0 Prozent der befragten Frauen sich sicher fühlten, waren es in 2005 nur noch 44,6 Prozent. Eine

Resümee 219 gegenläufige Tendenz ist bei den befragten Männern feststellbar: In 2002 gaben 52,8 Prozent an, sich sicher zu fühlen, in 2005 waren es sogar 55,7 Prozent. Jedoch ist diese Entwicklung nicht statistisch signifikant. Der zweite Teil der Arbeit konzentriert sich auf die Demonstration der Wirkungsweise datenreduzierender Verfahren und die Prüfung ihrer Leistungsfähigkeit anhand der Kriterien Erkenntnisgewinn und der Möglichkeit, neue Untersuchungshypothesen zu generieren. Dazu wird in Kapitel 4 ein Unsicherheitsindex konstruiert. Die Resultate geschlechtsspezifischer Faktorenanalysen und Häufigkeitsauszählungen verdeutlichen, dass die geschlechtsspezifischen Ergebnisse auch im Rahmen eines geschlechtsneutralen Indexes angemessen vertreten sind. Im Rahmen der Indexkonstruktion werden folgende Ergebnisse ermittelt: - Frauen fühlen sich eher unsicher als Männer. - Jüngere Menschen fühlen sich eher unsicher als ältere. - Verheiratete/Verwitwete fühlen sich eher unsicher als Ledige/Geschiedene. - Nicht-Abiturienten fühlen sich eher unsicher als Befragte mit Abitur sowie ggf.höherem Bildungsabschluss. - Nicht-Erwerbstätige fühlen sich eher unsicher als Erwerbstätige. Mit den Methoden der multiplen Regression in Kapitel 5 kann über die Ergebnisse einer Faktorenanalyse darauf geschlossen werden, dass die Variable Geschlecht/Beruf ungefähr gleichbedeutsam auf den Unsicherheitsindex wirkt wie die Variable Alter/Familienstand. Dieses Ergebnis wird bezogen auf die oben genannten Bewertungskriterien Erkenntnisgewinn und die Möglichkeit, neue Untersuchungshypothesen zu generieren als eher weniger interessant beurteilt. Die Clusterzentrenanalyse in Kapitel 6 generiert bereits bei 4 Clustern interpretierbare Ergebnisse, die einerseits die bislang ermittelten Resultate tendenziell bestätigen, zudem aber auch andere Ergebnisoptionen liefern. Somit bietet das Ergebnis der Clusterzentrenanalyse die Möglichkeit eines zusätzlichen Erkenntnisgewinns sowie die Chance, neue

Resümee 220 Untersuchungshypothesen zu formulieren. Von daher sind mit der Methode der Clusterzentrenanalyse für die vorliegende Fragestellung eher interessante Ergebnisse ermittelt worden. Auch die Ergebnisse der Entscheidungsbaumanalysen in Kapitel 7 bestätigen tendenziell die bisherigen Befunde. Darüber hinaus können mit den Entscheidungsbaumanalysen diese Resultate noch weiter spezifiziert werden. Die Entscheidungsbaumanalyse bietet mit dem Endknoten als Ergebnistyp ein eindeutiges, nachvollziehbares Resultat. Diese Optimalitätseigenschaft bezüglich eines Kriteriums unterscheidet die Entscheidungsbaumanalysen von den Ergebnissen einer Clusteranalyse. 210 Da in der Entscheidungsbaumanalyse die Knotenergebnisse vom ersten Stammknoten bis zum Endknoten dokumentiert sind, bietet sie die Informationen, die zu einer Formulierung weitergehender Untersuchungshypothesen beitragen können. Von daher werden die Resultate der Entscheidungsbaumanalyse bezogen auf den Erkenntnisgewinn als auch die Chance weiterführende Untersuchungshypothesen zu generieren, als eher interessant eingestuft 211. Die Assoziationsanalyse wird als Verfahren der explorativen Datenanalyse den heuristischen Methoden zugeordnet. Dies zeigt sich auch bei den überwachten und unüberwachten Assoziationsanalysen in Kapitel 8, die eine Vielzahl von Regeln produzieren. Aus dieser Regelmenge können mittels der Kennzahlen Support, Confidence oder Lift interessante Regeln identifiziert und für weitergehende Analysen ausgewählt werden. Aufgrund der Vielzahl von Ergebnistypen, die ggf. über neue Muster und Strukturen in den Daten zu einem Erkenntnisgewinn beitragen können sowie der Möglichkeit weiterführende Untersuchungshypothesen zu formulieren, sind die Ergebnisse der Assoziationsanalyse als eher interessant zu bewerten. Einleitend wurde die Frage gestellt, inwieweit Data Mining-Methoden wie Entscheidungsbaum- und Assoziationsanalyse auch für 210 211 Baltes-Götz, 2004, S. 4 Die Analyse zeigt, dass bei heterogenen Datensätzen das Ergebnis je nach Art des eingesetzten Algorithmus variieren kann.

Resümee 221 sozialwissenschaftlich-statistische Analysen nutzbringend zu verwenden sind. Die Ergebnisse, die im Rahmen der vorliegenden Arbeit mit diesen Methoden ermittelt worden sind, weisen darauf hin, dass diese Verfahren auch für sozialwissenschaftlich-statistische Forschungsfragen, insbesondere bei umfangreichen Datenbeständen nutzbringend eingesetzt werden können. Die sich immer schneller entwickelnde Informationstechnologie fördert die Analyse extrem komplexer sozialwissenschaftlicher Fragestellungen mit informatikbasierten Methoden. Angesichts solcher Entwicklungen 212 wird die sozialwissenschaftliche Informatik 213 zunehmend an Relevanz gewinnen. 212 213 Die Deutsche Forschungsgemeinschaft fördert z.b. die Entwicklung des neuen Forschungsfeldes Sozionik, das die Soziologie und Künstliche Intelligenz verbindet. In der Sozionik geht es um die Frage, wie es möglich ist, Vorbilder aus der sozialen Welt aufzugreifen, um daraus intelligente Computertechnologien zu entwickeln. Quelle: http://www.tu-harburg.de/tbg/deutsch/spp/start_spp.htm, Stand: 12.09.2006 Sozialwissenschaftliche Informatik ist die Wissenschaft von den gesellschaftlichen Funktionszusammenhängen automatisierter Informationsverarbeitung und den Informationsverarbeitungsverfahren in Politik und Verwaltung., Quelle: http://www.unikoblenz.de/~sozinf/ueberblick/aufgaben.html, Stand: 12.09.2006