Datenanalyse und Data Mining

Transkript

1 Datenanalyse und Data Mining TM (B. Eng.), BM (B. A.) (Materialien) Prof. Dr. Stefan Etschberger Hochschule Weingarten Sommersemester SS 2010 Veranstaltungskonzept Konzept Bis auf einige Grundlagen keine Vorlesung, seminaristischer Ansatz Jeder Teilnehmer arbeitet sich in ein Thema ein, arbeitet Theorie und Praxisanwendung in einem Foliensatz aus und präsentiert die Ergebnisse im Plenum 3 Absprache- und Fragetermine (Terminkoordination) Dann 2 oder 3 Präsentationstermine der Ergebnisse Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS

2 Übersicht 1. Grundlegendes 1 Grundlegendes Grundbegriffe Anwendungsbereiche Dreiteilung der Datenanalyse Objekte und Merkmale Merkmalstypen und Skalenarten 2 Fehlende Daten 3 Distanzen 4 Repräsentation 5 Klassifikation Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS Bücher 1. Grundlegendes Backhaus, K.; Erichson, B.; Plinke, W.; Weiber, R. (2003): Multivariate Analysemethoden, Springer, Berlin and Heidelberg and New York, 10. Auflage. Fahrmeir, L.; Hamerle, A.; G.Tutz (1996): Multivariate statistische Verfahren, de Gruyter, Berlin, 2. Auflage. Handl, A. (2002): Multivariate Analysemethoden, Springer, Berlin et al. Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS

3 1. Grundlegendes Grundbegriffe Einleitung Problemstellung Die Datenanalyse (Numerische Taxonomie, Multivariatenanalyse) stellt sich die Aufgabe, Ähnlichkeitsbeziehungen zwischen Elementen einer bestimmten Menge zu analysieren. Die Datenanalyse ist ein Teilgebiet der Statistik und kommt in der Regel dann zum Einsatz, wenn große Datenmengen durch mehrere Merkmale charakterisiert werden. Ausgangspunkt der Datenanalyse ist stets eine Datenmatrix oder eine Distanzmatrix. Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS Datenmatrix 1. Grundlegendes Grundbegriffe Die Datenmatrix enthält zeilenweise Objekte (Merkmalsträger, cases) enthält spaltenweise Merkmale (variables, items) Beispiel Merkmale Objekte Preis PS Verbrauch Land Wertverlust ABS Tipo 1600 I.E I hoch nein Honda Civic JAP mittel nein Mitsubishi Colt JAP niedrig nein Kadett LS 1.6i D mittel ja Renault 19 GTS F mittel ja VW Golf CL D niedrig ja Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS

4 Distanzen 1. Grundlegendes Grundbegriffe Die Distanzmatrix enthält zeilen- und spaltenweise Objekte. Die Einträge der Matrix sind Werte für die Verschiedenheit (Distanzen) zweier Objekte. Beispiel Objekte Objekte Tipo 1600 I.E. Honda Civic 1.3 Mitsub. Colt 1.5 Kadett LS 1.6i Renault 19 GTS VW CL Golf Tipo 1600 I.E Honda Civic Mitsubishi Colt Kadett LS 1.6i Renault 19 GTS VW Golf CL Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS Teilbereiche 1. Grundlegendes Grundbegriffe 3 Teilbereiche der Datenanalyse nach dem Zweck der Anwendung Datenverdichtende Verfahren (deskriptiv) Kennzahlen Indizes Faktorenanalyse Strukturaufdeckende Verfahren (explorativ) Strukturprüfende Verfahren (induktiv) Varianzanalyse Regressionsanalyse logistische Regression Diskriminanzanalyse Conjoint-Analyse Kreuztabellen Faktorenanalyse Clusteranalyse MDS Korrespondenzanalyse Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS

5 1. Grundlegendes Anwendungsbereiche Klassische Anwendungsbereiche der Datenanalyse Beispielanwendungen Marketing/ Marktforschung Marktsegmentierung Kundentypisierung Aufdecken von Marktnischen Ermittlung von Marktreaktionen Sozialwissenschaften Einstellungsanalysen Qualifikationsprofile Biologie Medizin Hilfe bei Diagnosen Überprüfung von Therapieerfolgen Volkswirtschaft Input-Output-Analysen zur Abgrenzung und Aggregation von Wirtschaftssektoren Bibliothekswesen Katalogisierung Auffinden von ähnlichen Werken Zuordnung von Pflanzen oder Tieren zu Gattungen Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS Einleitung 1. Grundlegendes Dreiteilung der Datenanalyse Die klassische Dreiteilung der DA Segmentierung (Clusteranalyse): Zusammenfassung von Objekten zu homogenen Klassen aufgrund von Ähnlichkeiten in wichtigen Merkmalsbereichen Repräsentation: Darstellung von Objekten durch Punkte im 2- oder 3-dimensionalen Raum, wobei Ähnlichkeitsbeziehungen durch räumliche Nähe zum Ausdruck kommen sollen Identifikation: Reproduktion einer gegebenen Segmentierung oder Repräsentation mit Hilfe weniger aussagekräftiger Merkmale (Ziel: Prognose, Klassifikation) Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS

6 Einleitung 1. Grundlegendes Dreiteilung der Datenanalyse Datenanalyse Segmentierung Clusteranalyse Repräsentation Identifikation MDS Korrespondenzanalyse Faktorenanalyse einer Klassifikation einer Repräsentation Diskriminanzanalyse Conjointanalyse Regressionsanalyse Varianzanalyse Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS Einleitung 1. Grundlegendes Dreiteilung der Datenanalyse Segmentierung Eine meist unübersichtliche Menge von Untersuchungsobjekten (z.b. Kunden, Produkte) ist in Gruppen, Typen oder Klassen so aufzuteilen, dass die Objekte einer Klasse möglichst ähnlich, die Objekte je zweier Klassen möglichst verschieden sind. K 1 K 2 K 3 Anwendung: Kundentypologien, Produktkategorien, Marktsegmente Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS

7 Einleitung Beispiel einer Segmentierung 1. Grundlegendes Dreiteilung der Datenanalyse Fusion index Oldsmobile Cutlass Supreme V6 Ford Taurus V6 Eagle Premier V6 Chrysler New Yorker V6 Buick Le Sabre V6 Ford Thunderbird V6 Ford Aerostar V6 Dodge Grand Caravan V6 Chevrolet Caprice V8 Ford LTD Crown Victoria V8 Chevrolet Camaro V8 Ford Mustang V8 Buick Century 4 Oldsmobile Cutlass Ciera 4 Chevrolet Lumina APV V6 Chrysler Le Baron V6 Chrysler Le Baron Coupe Ford Tempo 4 Oldsmobile Calais 4 Buick Skylark 4 Chevrolet Beretta 4 Plymouth Laser Dodge Daytona Ford Probe Eagle Summit 4 Ford Escort 4 Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS Einleitung 1. Grundlegendes Dreiteilung der Datenanalyse Typische Fragestellungen der Segmentierung in der Marktforschung Lassen sich die Kunden eines Kaufhauses entsprechend ihrer Bedürfnisse in Gruppen einteilen? Gibt es bei Zeitschriften verschiedene Lesertypen? Wie kann man die Käuferschaft eines Produktes entsprechend ihrer Mediengewohnheiten aufteilen? Welche Produkte sind einander besonders ähnlich (werden als besonders ähnlich empfunden)? Wie sollte ein neues Produkt aussehen (empfunden werden)? Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS

8 1. Grundlegendes Dreiteilung der Datenanalyse Einleitung Repräsentation Eine gegebene Menge von Untersuchungsobjekten (Produkte, Konkurrenten) ist in einem möglichst niedrig dimensionierten Raum graphisch so anzuordnen, dass die Ähnlichkeit von Objektpaaren durch ihre räumliche Distanz gut wiedergegeben wird. D 2 D 1 Etschberger Anwendung: (HS Weingarten) Marktnischen, Datenanalyse -verdichtungen, und Data Mining Konkurrenzanalysen Sommersemester SS Beispiele Repräsentation 1. Grundlegendes Dreiteilung der Datenanalyse Multidimensionale Skalierung (MDS) MDS 2 dimensional Representation (grouped by attribute Area) Typische Fragestellungen der MDS in der Marktforschung: Configuration Variable Calabria Coast Sardinia East Liguria Inland Sardinia North Apulia Sicily South Apulia Umbria West Liguria Inwieweit entspricht das eigene Produkt den Idealvorstellungen der Konsumenten? Welches Image besitzt die Marke XY? Hat sich die Einstellung der Konsumenten zu einer Marke in den letzten Jahren verändert? Configuration Variable 1 Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS

9 Beispiele Repräsentation 1. Grundlegendes Dreiteilung der Datenanalyse Hauptkomponentenanalyse Comp Murder Mississippi North Carolina South Carolina Georgia Alabama Alaska Louisiana Tennessee West Virginia Vermont Arkansas Kentucky South Dakota Montana North Dakota Maryland Wyoming Maine New Mexico Virginia Idaho Florida New Hampshire Michigan Indiana Iowa Nebraska Missouri Kansas Delaware Oklahoma Rape Texas Oregon Pennsylvania Illinois Minnesota Wisconsin Nevada Arizona Ohio New York Colorado Washington Connecticut California New Jersey Massachusetts Rhode Utah Island Hawaii Assault UrbanPop Typische Fragestellungen der Faktorenanalyse in der Marktforschung Lässt sich die Vielzahl der Eigenschaften, die die Käufer einer Marke als wichtig empfinden, auf wenige komplexe Faktoren reduzieren? Wie lassen sich darauf aufbauend die verschiedenen Marken anhand dieser Faktoren beschreiben? Etschberger (HS Weingarten) Comp.1 Datenanalyse und Data Mining Sommersemester SS Identifikation 1. Grundlegendes Dreiteilung der Datenanalyse Identifikation Die erhobenen Merkmale sind auf Zusammenhänge hin zu überprüfen (Korrelation). Ferner ist aufzuzeigen, ob und gegebenenfalls wie bestimmte Merkmale durch andere Merkmale erklärt werden können. Regressionsanalyse Varianzanalyse M 1, M 2,... M 1, M 2,... Erklärung von Marktvariablen (Marktanteil, etc.) durch Unternehmensvariablen Analyse von Gruppenunterschieden Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS

10 Beispiele Identifikation 1. Grundlegendes Dreiteilung der Datenanalyse Varianzanalyse Absatz Anzeige Lautspr Plakat Absatz pers selbst Typische Fragestellungen der Varianzanalyse in der Marktforschung Hat die Art der Werbung einen Einfluss auf die Höhe der Absatzmenge? Gibt es Interaktionseffekte zwischen der Art der Werbung und der Bedienungsart? Werbung Bedienung Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS Grundlegendes Dreiteilung der Datenanalyse Typische Fragestellungen der Identifikation Regressionsanalyse Wie verändert sich die Absatzmenge eines Produktes, wenn die Werbeausgaben um x% gekürzt werden? Wie läßt sich der Preis für ein Produkt in den kommenden Monaten schätzen? Hat die Qualität einer Werbeanzeige einen signifikanten Einfluss auf das Kaufverhalten der Adressaten? Diskriminanzanalyse In welcher Hinsicht unterscheiden sich Käufer von Nicht-Käufern? Welche Merkmale einer Anzeige tragen am meisten zu ihrer Erinnerung bei? Lassen sich bestimmte Kreditkunden anhand der Merkmale Einkommen, Schulbildung, Alter etc. als kreditwürdig einstufen? Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS

11 Einleitung 1. Grundlegendes Dreiteilung der Datenanalyse Ablauf einer datenanalytischen Untersuchung 1. Präzisierung des Untersuchungsziels Formulierung der Zielsetzung Abgrenzung der Untersuchungsobjekte Ableitung der taxonomischen Aufgabenstellung - Segmentierung - Repräsentation - Identifikation 2. Diskussion der Datenbasis Auswahl der Merkmale Festlegung des Skalenniveaus oder Charakterisierung der Objekte durch direkte Vergleiche 3. Datenerhebung und -erfassung Primär- oder Sekundärerhebung Vollerhebung oder Teilerhebung (Stichprobenauswahl!) Datencodierung und ggf. Dateneingabe in DV-Systeme 4. Datenanalyse Univariate Datenanalyse (Screening, erster Einblick in die Merkmalsstruktur, Plausibilitätsprüfung) Multivariate Datenanalyse (nicht statistics all, sondern Verfahrenseinsatz nach Aufgabenstellung und Zielsetzung) 5. Interpretation der Ergebnisse Deskriptive Verfahren Explorative und induktive Verfahren Klassenstatistiken und Bezeichnungen bei Clusteranalysen Benennung der Achsen bei Repräsentationsverfahren Zusammenfassung signifikanter Einflussgrößen bei Identifikationsverfahren Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS Daten 1. Grundlegendes Objekte und Merkmale Einige grundlegende Definitionen: G = {1,2,3,...} N = {1,...,n} Falls G = N Falls N G M = {1,...,m} Grundgesamtheit von Objekten Objektmenge Vollerhebung Stichprobe aus der Grundgesamtheit Merkmalsmenge Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS

12 Daten 1. Grundlegendes Objekte und Merkmale Die Datenmatrix a a 1m A = (a ik ) n m =..... a n1... a nm mit a ik als Ausprägung des Merkmals k bei Objekt i Datenmatrix Zeilen von A (Objektvektoren): a i = (a i1,...,a im ), i N a 1k Spalten von A (Merkmalsvektoren): a k =.., k M a nk A k Menge der möglichen Ausprägungen bei Merkmal k Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS Daten 1. Grundlegendes Objekte und Merkmale Beispiel: Hörer einer Vorlesung Merkmale Alter Geschlecht Wohnort Semester Studiengang Prüfungen Objekte 1 22 männlich Augsburg 5 BWL mit VD 2 25 männlich Karlsruhe 10 Mathe mit HD 3 21 weiblich München 4 VWL mit VD 4 28 männlich Augsburg 13 BWL mit VD 5 24 männlich Augsburg 8 BWL ohne VD = A Merkmal k Ausprägungsmenge A k Alter Menge der natürlichen Zahlen Geschlecht {männlich, weiblich} Wohnort Menge aller Orte Semester Menge der natürlichen Zahlen Studiengang {BWL, VWL, Mathematik, Informatik,...} Prüfungen {ohne Vordiplom, mit Vordiplom, mit Hauptdiplom} Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS

13 1. Grundlegendes Merkmalstypen und Skalenarten Daten Unterscheidung zwischen Merkmalstypen: Quantitative Merkmale: Alle Ausprägungen des Merkmals werden intuitiv durch reelle Zahlen benannt. Qualitative Merkmale: Die Ausprägungen des Merkmals werden intuitiv durch Worte oder Begriffe, nicht aber durch Zahlen, wiedergegeben (nominale oder ordinale Merkmale). Häufig von Vorteil: Ausprägungen eines Merkmals werden durch Zahlen wiedergegeben Also: Quantifizierung auch von qualitativen Merkmalen. Mittels: einer Abbildung, die man Skala nennt. Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS Daten 1. Grundlegendes Merkmalstypen und Skalenarten Definition Skala: Sei k ein Merkmal mit der Ausprägungsmenge A k. Dann heißt die Abbildung f : A k R eine Skala. Bemerkung: Wahl von f: So, dass die Informationen und Relationen, die für bzw. zwischen den einzelnen Merkmalsausprägungen a ik gelten, auch für die Bildwerte f(a ik ) korrekt sind. Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS

14 1. Grundlegendes Merkmalstypen und Skalenarten Daten Nominale Merkmale Definition: Ein Merkmal k heißt nominal oder klassifikatorisch, wenn für die Ausprägungen nur nach Gleichheit (=) oder Ungleichheit ( ) unterschieden werden kann. Bezüglich der Äquivalenz ( ) zweier Objekte gilt: i k j a ik = a jk bzw. i k j a ik a jk Die Abbildung f : A k R mit a ik a jk f(a ik ) f(a jk ) heißt Nominalskala. Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS Daten 1. Grundlegendes Merkmalstypen und Skalenarten Unterscheidung nominaler Merkmale Ein Merkmal heißt dichotom (zweiwertig, binär), wenn es genau zwei Ausprägungen besitzt. Beispiel: Geschlecht Ein Merkmal heißt polytom oder mehrwertig, wenn es mehr als zwei Ausprägungen besitzt. Beispiel: Wohnort Bemerkung: Jedes mehrwertige Merkmal mit r Ausprägungen kann durch r dichotome Merkmale ersetzt werden, wobei jede Ausprägung ein Merkmal darstellt. Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS

15 Daten 1. Grundlegendes Merkmalstypen und Skalenarten Beispiel: Nominale Merkmale Alter Geschlecht Wohnort Semester Studiengang Prüfungen Objekte mit VD mit HD mit VD mit VD ohne VD Geschlecht: f Geschlecht (weiblich) = 0 f Geschlecht (männlich) = 1 Dabei wird folgende Skalierung verwendet: Wohnort: f Wohnort (Augsburg) = 1 f Wohnort (Karlsruhe) = 2 f Wohnort (München) = 3 Studiengang: f Studiengang (BWL) = 1 f Studiengang (Mathe) = 2 f Studiengang (VWL) = 3 Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS Daten 1. Grundlegendes Merkmalstypen und Skalenarten Ordinale Merkmale Definition: Ein Merkmal k heißt ordinal (komparativ), wenn die Ausprägungen vollständig geordnet werden können. Bezüglich der Ordnung zweier Objekte gilt: i j a ik < a jk niedrigerer Rang k i j k a ik = a jk gleicher Rang i k j a ik > a jk höherer Rang Die Abbildung f : A k R mit heißt Ordinalskala. a ik < a jk f(a ik ) < f(a jk ) Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS

16 1. Grundlegendes Merkmalstypen und Skalenarten Daten Beispiel: ordinale Merkmale: Prüfungen der Hörer Alter Geschlecht Wohnort Semester Studiengang Prüfungen Objekte Dabei wird folgende Skalierung verwendet: Prüfungen: f(ohne VD) = 1, f(mit VD) = 2, f(mit HD) = 3 Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS Daten 1. Grundlegendes Merkmalstypen und Skalenarten Quantitative Merkmale Definition: Ein Merkmal k heißt quantitativ (kardinal, metrisch), wenn es ordinal ist und die Differenzen von Ausprägungspaaren vollständig geordnet werden können. Dies bedeutet insbesondere, dass das Ausmaß der Unterschiedlichkeit zweier Ausprägungen bestimmt werden kann und aussagekräftig ist. Je nachdem, welche Aussagen bzgl. dieses Ausmaßes getroffen werden können, unterscheidet man dabei die Typen Intervallskala, Verhältnisskala und Absolutskala. Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS

17 Daten 1. Grundlegendes Merkmalstypen und Skalenarten Definition: Intervallskala Die Abbildung f : A k R mit f(a ik ) = α a ik + β (α > 0, β R) heißt Intervallskala. Nur der Abstand zwischen zwei Ausprägungen kann verglichen werden: - Kein natürlicher Nullpunkt - z.b. Temperatur (Celsius, Fahrenheit) Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS Daten 1. Grundlegendes Merkmalstypen und Skalenarten Definition: Verhältnisskala Die Abbildung f : A k R mit f(a ik ) = α a ik (α > 0) heißt Verhältnisskala. Das Verhältnis zwischen zwei Ausprägungen kann sinnvoller Weise verglichen werden: - Existenz eines natürlichen Nullpunktes - z.b. Längen, Preise, Zeiten Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS

18 1. Grundlegendes Merkmalstypen und Skalenarten Daten Definition: Absolutskala Die Abbildung f : A k IN 0 mit f(a ik ) = a ik heißt Absolutskala. Es existiert eine natürliche Maßeinheit: - z.b. Stückzahlen Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS Daten 1. Grundlegendes Merkmalstypen und Skalenarten Skalendegression und Skalenprogression Ziel der Skalierung: Angemessene Abbildung der durch Datenmatrix gegebene Information angemessen Möglichst ohne Über- bzw. Unterschätzungen zu riskieren. Es gilt: - Grundsätzlich können alle Merkmale nominal skaliert werden. - Grundsätzlich kann jedes metrische Merkmal ordinal skaliert werden. Diese Änderungen der Skalenniveaus nennt man Skalendegression. Dabei ist ein Informationsverlust in Kauf zu nehmen. Aber es gilt auch: - Nominale Merkmale dürfen nicht ordinal- oder metrisch skaliert werden. - Ordinale Merkmale dürfen nicht metrisch skaliert werden. Dieses Vorgehen nennt man Skalenprogression, bei der mehr Informationen in die Merkmale interpretiert würde, als inhaltlich vertretbar ist (Gefahr der Fehlinterpretation) Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS

19 Daten 1. Grundlegendes Merkmalstypen und Skalenarten Klassische Informationsniveaus Absolutskala Verhältnisskala Intervallskala Nominal Ordinal Metrisch Informationsniveau hoch niedrig Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS Übersicht Fehlende Daten 1 Grundlegendes 2 Fehlende Daten Ursachen fehlender Daten Ausfallmechanismen Strukturanalyse Behandlung fehlender Daten 3 Distanzen 4 Repräsentation 5 Klassifikation Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS

20 Fehlende Daten Ursachen fehlender Daten Fehlende Daten Ursachen für das Fehlen von Daten in den der eigentlichen Datenanalyse vorgelagerten Stufen: Ablauf einer datenanalytischen Untersuchung: a) Präzisierung des Untersuchungsziels b) Diskussion der Datenbasis: Merkmalsauswahl, Skalenniveau c) Datenerhebung und -erfassung: Datenaufbereitung (PC-gestützt) d) Datenanalyse e) Interpretation der Ergebnisse Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS Fehlende Daten Ursachen fehlender Daten Fehlende Daten Allgemeine Ausfallursachen Datenerhebung aus Primärquellen Unangenehme oder persönliche Fragen Übersehen von Fragen Mangelndes Wissen der Befragten Antwortverweigerung Motivationsprobleme bei der Befragung Verständnisprobleme Meinungslosigkeit Zeitknappheit Datenerhebung aus Sekundärquellen Unvollständigkeit der Sekundärquellen Verwendung mehrerer Sekundärquellen Akualitätsprobleme Datenaufbereitung bzw. -erfassung Codierfehler Übertragungsfehler Löschung unmöglicher Daten Löschung fehlerhafter Daten Diskussion der Datenbasis Fehlerhaftes Untersuchungsdesign, z.b. Alter der Kinder Mangelhaftes Untersuchungsdesign, z.b. durch missverständliche Fragen, unübersichtliche oder zu lange Fragebögen Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS

21 Fehlende Daten Ausfallmechanismen Fehlende Daten Bei fehlenden Daten sind nicht Ausfallursachen an sich, sondern lediglich die Auswirkungen auf das Datenmaterial von Bedeutung. Ausfallursachen haben aber Auswirkungen auf das vorliegende Datenmaterial. Frage nach nach dem Mechanismus der zum Fehlen der Daten führt. Man unterscheidet dabei zwei Arten von MD: - Unsystematisch bzw. zufällig fehlende Daten - Systematisch bzw. nicht-zufällig fehlende Daten Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS Fehlende Daten Ausfallmechanismen Systematisch Fehlende Daten Ursache des Fehlens hierbei in Merkmalsausprägungen der fehlenden Daten. Bedeutung: Charakterisierung der entsprechenden Objekte anhand der fehlenden Ausprägungen ist möglich. Wirkung: Unter Umständen erhebliche Verzerrungen der Ergebnisse, wenn bei der Auswertung nur die vorhandenen Daten betrachtet werden. Beispiel In Befragung Erhebung von Einkommen und Alter Verfälschung dann, wenn beim Merkmal Einkommen lediglich Personen mit einem niedrigen Einkommen Antwort verweigern würden. Schätzung des mittleren Einkommens auf Basis der vorhandenen Daten überschätzt dann wahren Wert. Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS

22 Fehlende Daten Ausfallmechanismen Unsystematisch fehlende Daten Unsystematisch fehlende Daten werden durch Einflußfaktoren auf die Untersuchungssituation hervorgerufen, die sich nicht eindeutig auf bestimmte Objekte oder Merkmale konzentrieren. Ursachen: Unaufmerksamkeiten bei der Datenerhebung und/oder -aufbereitung Verzerrungen der Ergebnisse sind nicht zu erwarten, wenn bei der Auswertung nur die vorhandenen Daten betrachtet werden. Definition Daten werden als zufällig fehlend bezeichnet, wenn die fehlenden Daten gleichmäßig über die Matrix gestreut sind (keine Konzentration), für ein Objekt ein fehlende Merkmalsausprägung unabhängig von jeder anderen Merkmalsausprägung ist, für ein gegebenes Merkmal die fehlenden Ausprägungen dieselbe Verteilung besitzen wie der ganze Merkmalsvektor, d.h. kein Zusammenhang zwischen dem Ausfallmechanismus und dem Wertebereich eines Merkmals existiert, zwischen den fehlenden Daten zweier Merkmale kein Zusammenhang besteht. Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS Fehlende Daten Ausfallmechanismen Ausfallmechanismen: MAR und MCAR Definition Kategorien unystematisch fehlender Daten Daten heißen missing at random (MAR), wenn das Fehlen der Daten unabhängig von den fehlenden Werten selbst ist, aber von anderen Merkmalen abhängen kann. Daten heißen missing completely at random (MCAR), wenn das Fehlen der Daten in keinerlei Beziehung zu den fehlenden und den vorhandenen Werten oder anderen Merkmalen und ihren Ausprägungen bei den Objekten mit fehlenden Werten steht. Beispiel unsystematisch fehlender Daten Erhebung der Merkmale Einkommen und Alter, wobei einige Personen die Angabe des Einkommens verweigern. Die Daten sind MAR, wenn das Fehlen der Einkommensangaben nicht von der Höhe des Einkommens selbst abhängt, es aber möglich ist, dass z.b ältere Personen die Antwort tendenziell öfter verweigern. Ist das Fehlen der Einkommensangabe unabhängig von der Höhe des Einkommens und des Alters, dann sind die Daten sogar MCAR. Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS

23 Fehlende Daten Ausfallmechanismen Konsequenzen für die Datenauswertung Behandlung der MV mit Verfahren, die vorhandene Werte verwenden Daten sind MCAR unsystematisch Daten sind MAR Behandlung der MV mit Verfahren, die auf der Likelihood-/Bayes- Theorie basieren Ausfallmechanismus systematisch AM bekannt Behandlung der MV mit einem Modell des Ausfallmechnismus AM unbekannt Adäquate Behandlung der fehlenden Daten ist nicht möglich Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS Fehlende Daten Fehlende Daten Strukturanalyse Bemerkung: Im Rahmen einer Strukturanalyse können im allgemeinen nur bestimmte Beziehungen, die fehlende Daten verursachen untersucht werden. Die Untersuchung aller Einflussfaktoren ist i.a. nicht möglich. Die Ergebnisse der Strukturanalyse können! somit zwar hinreichend für eine Verwerfung, aber nur notwendig für eine Akzeptierung eines bestimmten unsystematischen Ausfallmechanismus sein. Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS

24 Fehlende Daten Fehlende Daten Strukturanalyse Die Indikatormatrix Ausgangspunkt jeder Strukturanalyse fehlender Daten ist i.a. die sogenannte Indikatormatrix v v 1m V = (v ik ) n m =..... Indikatormatrix v n1... v nm mit v ik als Indikator für das Fehlen der Ausprägung des Merkmals k bei Objekt i { 1 falls aik vorhanden Es gilt dabei: v ik = 0 sonst Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS Fehlende Daten Fehlende Daten Strukturanalyse Beispiel: Hörer einer Vorlesung Merkmale Alter Geschlecht Wohnort Semester Studiengang Prüfungen Objekte 1 männlich 5 BWL mit VD 2 25 männlich Karlsruhe München 4 VWL mit VD 4 28 männlich Augsburg 13 BWL mit VD 5 24 männlich 8 BWL ohne VD A G W Se St P = V = Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS

25 Fehlende Daten Strukturanalyse Fehlende Daten Möglichkeiten der Strukturanalyse Die Strukturanalyse läßt sich grundsätzlich in folgende Bereiche untergliedern: Deskriptive Analyse Explorative Analyse Induktive Analyse Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS Fehlende Daten Strukturanalyse Fehlende Daten Deskriptive Analyse Zur rein deskriptiven Analyse der Datenmatrix hinsichtlich des Auftretens fehlender Daten bieten sich Kennzahlen (Missing-Data-Maße) oder graphische Verfahren an, die erste Anhaltspunkte bezüglich des vorliegenden Ausfallmechanismus ergeben (können). Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS

26 Fehlende Daten Fehlende Daten Strukturanalyse Missing-Data-Maße - Teil I Missing-Data-Maße (MD-Maße) verdichten die in den Indikatormatrizen enthaltenen Information und geben sie mit Hilfe einer Kennzahl wieder. Es existieren u.a. folgende Maße: MD-Indikator für Objekt i MD-Indikator für Merkmal k v ind i = v ind k = 1 falls m 0 sonst k=1 1 falls n 0 sonst i=1 v ik = m v ik = n Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS Fehlende Daten Fehlende Daten Strukturanalyse Missing-Data-Maße - Teil II Anzahl der fehlenden Daten und der vorhandenen bei Objekt i v mis i = m v obs i = m m v ik k=1 Anzahl der fehlenden Daten und der vorhandenen bei Merkmal k v mis k = n v obs k = n n v ik i=1 Anzahl der vorhandenen Daten in der Datenmatrix i v obs = n i=1 v obs i = m k=1 v obs k = m n v ik k=1 i=1 Anzahl der vorhandenen Daten in der Datenmatrix i v mis = m n v obs Des weiteren sind alle dargestellten Kennzahlen auch noch als relative Kennzahlen denkbar. Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS

27 Fehlende Daten Strukturanalyse Fehlende Daten Beispiel: Hörer einer Vorlesung, Missing-Data-Maße V = A G W Se St P Objekt v ind i v mis i v obs i Merkmal A G W Se St P v ind k v mis k v obs k Des Weiteren gilt: n = 5, m = 6, n m = 30, v mis = 6, v obs = 24 Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS Fehlende Daten Strukturanalyse Fehlende Daten Graphische Verfahren Bei einer graphischen Darstellung der Indikatormatrix V können sowohl das Ausmaß wie auch Konzentrationstendenzen der fehlenden Daten untersucht werden. Sind die fehlenden Werte jeweils regellos über die gesamte Matrix verteilt, dann wird man einen unsystematischen Ausfallmechanismus vermuten. (Im nächsten, induktiven Schritt, entsteht dann das Problem, ein objektives Maß für systematischen Ausfall zu finden.) Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS

28 Fehlende Daten Fehlende Daten Strukturanalyse Beispiel: Hörer einer Vorlesung Merkmale Alter Geschlecht Wohnort Semester Studiengang Prüfungen Objekte 1 männlich 5 BWL mit VD 2 25 männlich Karlsruhe München 4 VWL mit VD 4 28 männlich Augsburg 13 BWL mit VD 5 24 männlich 8 BWL ohne VD Fehlende Ausprägungen werden durch das Symbol dargestellt = A G W Se St P Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS Fehlende Daten Fehlende Daten Strukturanalyse Graphische Verfahren mit Sortierreihenfolge Gerade bei größeren Datenmatrizen kann eine übersichtlichere Darstellung der MD-Muster erreicht werden, wenn die Indikatormatrix bezüglich der Objekte sortiert wurde. Dabei kann der Sortieralgorithmus die Objekte mit den wenigsten MD zu Beginn stellen, solche mit vielen MD eher am Ende. Alternativ kann nach der Anzahl der MD innerhalb eines Objektes und der Spaltenposition einer fehlenden Merkmalsausprägung in der Datenmatrix geordnet werden Ausfallmechanismen sind nach dem Sortiervorgang oft besser zu erkennen. Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS

29 Fehlende Daten Fehlende Daten Strukturanalyse Ein Sortieralgorithmus Sortierrangfolge mittels der sogenannten Objekt-Pattern- Variablen PV, die gemäß m PV i = 2 m 1 v ik 2 k 1 k=1 berechnet werden kann. Aufsteigende bzw absteigende Sortierung der Objekte wird dann nach der Regel vorgenommen. Objekt i vor Objekt j PV i PV j Analog kann die transponierte Indikatomatrix V T durch die geeignete Konstruktion einer Merkmals-Pattern-Variable sortiert werden. Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS Fehlende Daten Fehlende Daten Strukturanalyse Beispiel: Hörer einer Vorlesung Merkmale Alter Geschlecht Wohnort Semester Studiengang Prüfungen Objekte 1 männlich 5 BWL mit VD 2 25 männlich Karlsruhe München 4 VWL mit VD 4 28 männlich Augsburg 13 BWL mit VD 5 24 männlich 8 BWL ohne VD Sortierung mittels PV PV i = 2 m 1 m k=1 k 1 v ik 2 = i PV i A G W Se St P Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS

30 Fehlende Daten Strukturanalyse Fehlende Daten Explorative Analyse Gesucht: Zusammenhänge innerhalb einer unvollständigen Datenmatrix, um dadurch evtl. vorliegende Abhängigkeitsbeziehungen der fehlenden Werte aufzudecken. Ausgangspunkt: Datenmatrix, Indikatormatrix Untersuchung der Eigenschaft MAR mit korrelationsanalytischen, faktoren-analytischen, clusteranalytischen sowie dependenz-analytischen Ansätzen. Untersuchung der Abhängigkeit der MD von den Realisierungen der Daten selbst: I.A. nicht möglich, da zusätzliche (externe) Informationen, (zum Beispiel die Verteilung der Grundgesamtheit) oft nicht bekannt sind. Einschränkung: Explorative Methoden lediglich zur Entdeckung von Abhängigkeitsbeziehungen der fehlenden Werte innerhalb der Datenmatrix aufgezeigt, keine statistische Überprüfung Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS Fehlende Daten Strukturanalyse Explorative Analyse Korrelationsanalytische Ansätze Untersuchung der Abhängigkeit der fehlenden Ausprägungen vom Fehlen der Daten bei anderen Merkmalen. Berechnung kann mit Hilfe aller gängigen Korrelationskoeffizienten, angewandt auf die Spalten der Indikatormatrix V Besonders geeignet: Phi-Koeffizient Φ entspricht dem Bravais-Pearson-Koeffizient r für binäre Variablen) Phi-Koeffizient Φ: entwickelt speziell für 2 2-Kontingenztabellen Definition: Φ kl = α kl δ kl β kl γ kl (αkl + β kl ) (γ kl + δ kl ) (α kl + γ kl ) (β kl + δ kl ) Mit α kl = {i : v ik = 0, v il = 0} und β kl,γ kl, δ kl analog und α kl β kl 1 γ kl δ kl Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS

31 Fehlende Daten Strukturanalyse Phi-Koeffizient Phi-Koeffizient Eigenschaften Φ kann dabei Werte zwischen -1 Es existieren nur (0,1)/(1,0)-Paare und +1 Es existieren nur (0,0)/(1,1)-Paare annehmen. Werte in der Nähe von Null weisen daraufhin, dass zwischen dem Fehlen der Werte beim ersten Merkmal und dem Fehlen der Werte beim zweiten Merkmal kein Zusammenhang besteht. Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS Fehlende Daten Strukturanalyse Fehlende Daten Beispiel: Hörer einer Vorlesung Merkmale Alter Geschlecht Wohnort Semester Studiengang Prüfungen Objekte 1 männlich 5 BWL mit VD 2 25 männlich Karlsruhe München 4 VWL mit VD 4 28 männlich Augsburg 13 BWL mit VD 5 24 männlich 8 BWL ohne VD Korrelationsmatrix der Φ Koeffizienten (Homogenes Merkmal Semester weggelassen) = A G W St P A G W St 1 1 P 1 Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS

32 Fehlende Daten Strukturanalyse Weitere explorative Ansätze Die Faktorenanalytische Untersuchung dient ebenfalls der Untersuchung der Abhängigkeit der fehlenden Ausprägungen vom Fehlen der Daten bei anderen Merkmalen und basiert auf der oben beschriebenen Korrelationsmatrix. Die Clusteranalyse untersucht die Ähnlichkeit der Missing-Data-Muster der Merkmale/Objekte und verwendet die Indikatormatrix selbst als Ausgangspunkt. Die Zielrichtung ist aber dieselbe wie oben. Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS Fehlende Daten Strukturanalyse Fehlende Daten Induktive Analyse Induktive Analyse unvollständiger Datenmatrizen: Überprüfung zuvor formulierter Hypothesen bezüglich der fehlenden Werte mittels statistischer Testverfahren. Dabei: Relevante Hypothesen betreffen Vorliegen von unsystematischen Ausfallmechanismen. Allgemeine Form solcher Hypothesen: H 0 : Die Daten fehlen zufällig. H 1 : Die Daten fehlen systematisch. Achtung: Alle Tests zur Überprüfung dieser Hypothesen bestätigen nie das zufällige Fehlen von Daten sondern schließen nur bestimmte Formen eines zufälligen Fehlens mit der Irrtumswahrscheinlichkeit α aus. Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS

33 Fehlende Daten Strukturanalyse Induktive Analyse fehlender Daten Typen von Testverfahren Typ 1: Untersuchung der Abhängigkeit der MD von den an sich unbekannten Realisierungen dieser Werte (MAR): (Anpassungstest, parametrische Einstichproben-Tests) Typ 2: Untersuchung der Abhängigkeit der MD vom Fehlen der Daten bei anderen Merkmalen (MAR): (Test der Korrelationskoeffizienten bzw. -matrix) Typ 3: Untersuchung der Abhängigkeit der MD von den vorhandenen Ausprägungen bei anderen Merkmalen; Testen auf MCAR, wenn MAR vorliegt: (Test auf Lokalisationsunterschiede bzw. Unabhängigkeit) Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS Fehlende Daten Strukturanalyse Induktive Analyse fehlender Daten Testverfahren - Typ 1 Untersuchung der Abhängigkeit der MD von den unbekannten Realisierungen dieser Werte (MAR) Überprüfung, inwieweit die für ein Merkmal vorliegenden Daten einer hypothetischen Verteilung genügen damit Berücksichtigung externer Informationen notwendig, wie z.b. Verteilungsannahmen bezüglich der Grundgesamtheit praktische Anwendung stark eingeschränkt! Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS

34 Fehlende Daten Strukturanalyse Induktive Analyse fehlender Daten Beispiel: Der χ 2 -Anpassungstest Überprüft für ein nominales oder ordinales Merkmal, ob die vorliegenden Daten einer hypothetischen Verteilung genügen (H 0 ). Kann sinnvoll angewandt werden, wenn nur wenige verschiedene Merkmalsausprägungen vorliegen benötigt eine Stichprobengröße, die garantiert, dass jede Merkmalsausprägung mindestens fünf Beobachtungen aufweist; ansonsten müssen Merkmalsklassen gebildet werden; sinnvollerweise aus benachbarten Werten. Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS Fehlende Daten Strukturanalyse Induktive Analyse fehlender Daten Der χ 2 -Anpassungstest: Definition Die Wahrscheinlichkeit einer Merkmalsausprägung a t sei p t, die beobachtete Häufigkeit sei h t. Insgesamt können k verschiedene Ausprägungen bei n Objekten beobachtet werden. Der Testfunktionswert T des χ 2 -Anpassungstests ist dann wie folgt definiert: T = k t=1 (h t n p t ) 2 n p t T folgt näherungsweise einer χ 2 (k 1)-Verteilung. Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS

35 Fehlende Daten Strukturanalyse Induktive Analyse fehlender Daten Beispiel: χ 2 -Anpassungstest für MD Im Rahmen einer Analyse werden 100 Personen befragt, von denen 35 beim Merkmal Geschlecht keine Antwort gegeben haben. Unter den Verbleibenden waren 30 Männer und 35 Frauen. Von der zugrunde gelegten Grundgesamtheit weiß man, dass die beiden Geschlechter im Verhältnis 2 : 3 verteilt sind. Für den Testfunktionswert T ergibt sich T = k t=1 (h t n p t ) 2 n p t = ( ) ( ) = Das 95%-Fraktil der χ 2 (1)-Verteilung ist 3.84, der Testfunktionswert ist in diesem Fall kleiner, die Nullhypothese kann also nicht verworfen werden. Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS Fehlende Daten Strukturanalyse Induktive Analyse fehlender Daten Testverfahren - Typ 2 Untersuchung der Abhängigkeit der MD vom Fehlen der Daten bei anderen Merkmalen (MAR) Überprüfung, inwieweit das Fehlen der Daten bei einem Merkmal vom Fehlen der Daten bei einem anderen Merkmal abhängt Berechnung der Korrelationskoeffizienten Φ bzw. der Korrelationsmatrix R Berücksichtigung zusätzlicher, also externer Informationen nicht notwendig und damit sehr praxisnah Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS

36 Fehlende Daten Strukturanalyse Induktive Analyse fehlender Daten Typ 2 Beispiel: Globaltest der Korrelationsmatrix R Gegeben: R = (Φ kl ) = (r kl ) die nicht-singuläre Korrelationsmatrix der Dimension q q, die auf Basis der Indikatormatrix V die Abhängigkeit zwischen dem Fehlen der Daten innerhalb der Datenmatrix beschreibt mit: 2 q m. Testfunktionswert W des Globalen Korrelationstests: W = ( 4 3 q n + 5 6) ln(det R) W folgt approximativ einer χ 2 -Verteilung. Die Anzahl der Freiheitsgrade df bestimmt sich gemäß df = 1 2 q (q 1) Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS Fehlende Daten Strukturanalyse Induktive Analyse fehlender Daten Typ 2 Beispiel: Hörer einer Vorlesung Ist Fehlen der Daten in den ersten drei Merkmalen zufällig oder systematisch? Dazu: Korrelationsmatrix R der ersten drei Merkmale, dann Globaltest R A G W A G W det(r) = Teststatistik W: W = ( ) ln(0.5224) = W ist kleiner als das 95%-Fraktil der χ 2 (3)-Verteilung (7.81) Nullhypothese kann nicht verworfen werden. Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS

37 Fehlende Daten Strukturanalyse Induktive Analyse fehlender Daten Testverfahren - Typ 3: auf MCAR Untersuchung der Abhängigkeit der MD von den vorhandenen Ausprägungen bei anderen Merkmalen: MCAR. Voraussetzung: MAR ist schon gezeigt oder kann angenommen werden. Überprüfung, inwieweit das Fehlen der Daten bei Merkmal k auf bestimmte Ausprägungen eines Merkmals l k zurückzuführen sind Berechnung skalenniveau-adäquater Lageparameter für sinnvolle Merkmale l, möglichst ohne MD in l, wobei eine Gruppierung in Merkmal k fehlt bzw. Merkmal k fehlt nicht erfolgt anschließend Test der Lageparameter auf Gleichheit Berücksichtigung externer Informationen nicht notwendig und damit sehr praxisnah Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS Fehlende Daten Strukturanalyse Induktive Analyse fehlender Daten Testverfahren - Typ 3, Beispiel: Approximativer Zweistichenproben-Gaußtest überprüft, inwieweit die für ein kardinales Merkmal in zwei Gruppen vorliegenden Daten parametrischen, hypothetischen Verteilungen genügen, die durch die Erwartungswerte µ 1 und µ 2 charakterisiert sind (H 0 : µ 1 = µ 2 ). benötigt zwei Stichproben, die je mindestens 30 Beobachtungen enthalten. Bei weniger als 30 Beobachtungen: Alternative Zweistichproben-Test, z.b. exakter 2-Stip-B(n, p)-test, falls Anzahl der Beobachtungen nicht zu groß, siehe Bamberg, Baur, S. 193f. Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS

38 Fehlende Daten Strukturanalyse Induktive Analyse fehlender Daten Testverfahren - Typ 3, Beispiel: Approximativer Zweistichenproben-Gaußtest (Definition) X bzw. Y seien Mittelwert der n 1 bzw. n 2 vorhandenen Ausprägungen bei Merkmal l für die Objekte, für die bei Merkmal k fehlende bzw. vorhandene Daten vorliegen. S 1 und S 2 seien die zugehörigen empirischen Standardabweichungen. Dann: Testfunktionswert T des approximativen Zweistichproben-Gaußtest wie folgt: T = X Y S 2 1 n 1 + S2 2 n 2 Approximativ gilt: T N(0, 1)-Verteilung. Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS Fehlende Daten Strukturanalyse Induktive Analyse fehlender Daten Testverfahren - Typ 3, Beispiel: Approximativer Zweistichenproben-Gaußtest, konkreter Fall Bei der Befragung von 100 Personen haben 35 beim Merkmal Geschlecht keine Antwort gegeben. Beim Merkmal Alter hingegen antworteten alle Personen Das Durchschnittsalter unter den Verweigerern ist 28.4, bei den Antwortenden aber Die separate Berechnung der empirischen Standardabweichung ergibt die Werte 2 bzw. 3 Jahre. Berechnung des Testfunktionswerts T : T = = 3.58 T ist im Verwerfungsbereich (, 1.96) (1.96, ) der N(0, 1)-Verteilung zur Irrtumswahrscheinlichkeit von 5% Also: Die Nullhypothese kann verworfen werden. Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS

39 Fehlende Daten Behandlung fehlender Daten Verfahren zu Behandlung Ergebnis der Strukturanalyse liefert eventuell geeignete Verfahren zur Behandlung der fehlenden Daten Unterscheidung zwischen Verfahrenskategorien: - Eliminierungsverfahren - Imputationsverfahren - Sonstige Verfahren Eliminierungsverfahren (EV) Schließen Objekte bzw. Merkmale mit fehlenden Werten aus der Untersuchung aus. Eliminieren von Objekten ist nur unter der Annahme, dass die Daten der Bedingung MCAR genügen, uneingeschränkt anwendbar. Anschließend: Auswertung mit reduziertem, aber MD-freiem Datenmaterial erfolgen. Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS Fehlende Daten Behandlung fehlender Daten Eliminierung Complete-Case Analysis Nur die Objekte werden in einer Analyse verwendet, deren Merkmalsausprägungen bezüglich aller Merkmale vorliegen. Alternativ: Auswertung nur für vollständig erhobene Merkmale. Akzeptabel, falls Datenmatrix einen geringen Prozentsatz fehlender Werte aufweist (< 5%) Gefahr: Erhebliche Verzerrungen, wenn Voraussetzung MCAR nicht gesichert ist. Available-Case Analysis Bei univariaten oder bivariaten Kennzahlen bzw. Verfahren und unvollständigen Datenmatrizen: Nicht sinnvoll, alle Objekte zu eliminieren, die überhaupt ein MD vorweisen. Sinnvoller hier: Eliminieren nur der Objekte, mit fehlenden Werten bei dem bzw. den betrachteten Merkmal(en) Sprechweise dann: Available-case analysis bzw. Pairwise available-case analysis. Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS

40 Fehlende Daten Behandlung fehlender Daten Eliminierung Beispiele Für: Available-case analysis: Berechnung aller univariaten Kennzahlen, z.b. Lageparameter oder Streuungsparameter durch vorhandene Daten des Merkmals Für Pairwise available-case analysis: Berechnung der Korrelation zwischen zwei Merkmalen mit den Objekten, für die bei beiden Merkmalen Werte vorliegen. Eigenschaften der Eliminierungsverfahren + Vorteil: Einfache Anwendbarkeit Resultat: Vollständige Datenmatrix - Nachteil: Informationsverlust durch die Eliminierung vorhandener Daten potentielle Strukturverzerrung Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS Fehlende Daten Behandlung fehlender Daten Imputation Imputationsverfahren (IV) fehlende Werte in der Datenmatrix werden durch Schätzungen ersetzt, die auf den vorhandenen Werten basieren. In Abhängigkeit von der Imputationstechnik müssen die Daten MAR oder MCAR sein. Anschließend Auswertung möglich wie bei vollständigem Datenmaterial Aber: Meist Verzerrungen, die aber oft auf ein akzeptables Maß reduziert werden können. Einfache Imputationstechniken Die hier vorgestellten IV liefern ohne großen Aufwand Schätzungen für die fehlenden Daten setzen aber voraus, dass das Fehlen einzelner Werte unabhängig von den fehlenden sowie den vorhandenen Werte der Datenmatrix ist (MCAR) Man unterscheidet dabei vor allem Imputation des Lageparameters Imputation mittels Verhältnisschätzer Imputation mittels Zufallsauswahl Imputation auf Basis von Expertenratings Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS

41 Imputation Fehlende Daten Behandlung fehlender Daten Imputation des Lageparameters Imputationswert z.b. durch Lageparameter Je nach Skalenniveau der Merkmale dann z.b. als Schätzwert für fehlende Werte - für metrisch skalierte Merkmale einer Datenmatrix das arithmetische Mittel a ik = a k = 1 a jk i, k : v ik = 0, N k j N k - für ordinal skalierte den Median - für nominal skalierte den Modus Dabei: N k = {i : v ik = 1} a ik = a Med k i, k : v ik = 0 und a ik = a Mod k i, k : v ik = 0. Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS Imputation Fehlende Daten Behandlung fehlender Daten Imputation mittels Verhältnisschätzer Voraussetzungen: 1. Merkmal M k mit MD hat metrisches Datennvieau und es existiert ein weiteres, zu M k hoch korreliertes Merkmal M l, das ebenfalls metrisches Datenniveau besitzt. 2. Beim Hilfsmerkmal M l müssen mindestens für die Objekte, bei denen beim zu ersetzenden Merkmal M k Daten zu schätzen sind, Werte vorhanden sein. Dabei werden die fehlenden Daten von M k durch die Verwendung des Hilfsmerkmals M l geeignet ersetzt: a jl a jk a ik = a Ratio j N k = l j N k N l a jl j N k ( i,k : v ik = 0; k,l M, N k N l ) Bemerkungen: - N k = N l a Ratio k = a k - Für sinnvolle Verhältnisschätzungen sollte deswegen N k N l gelten - Ideal wäre N l = {1,..., n} Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS

42 Fehlende Daten Behandlung fehlender Daten Imputation und sonstige Verfahren zur Behandlung Imputation mittels Zufallszahlen Bedingung: MCAR Dabei: Ersetzung durch einen von einem Zufallszahlengenerator erzeugten Wert oder durch eine Zufallsauswahl aus den vorhandenen Daten Sonstige Verfahren Parameterschätzverfahren Schätzung von Erwartungswert, Varianz und Kovarianz auf Basis der nicht vervollständigten Daten Techniken: - Maximum-Likelihood-Theorie - EM-Algorithmus (Expectation Maximization) Multivariate Analyseverfahren: Entwicklung spezieller Verfahren, die das Fehlen von Daten explizit berücksichtigen, z.b. bei der Clusteranalyse mit Missing value linkage oder der Multidimensionalen Skalierung mit ALSCAL Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS Übersicht Distanzen 1 Grundlegendes 2 Fehlende Daten 3 Distanzen Vorüberlegungen und Begriffe Gewinnung von Distanzen Merkmalsweise Distanzen Aggregation von Distanzen 4 Repräsentation 5 Klassifikation Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS

43 Distanzen Vorüberlegungen und Begriffe Distanzen Ähnlichkeit contra Verschiedenheit Benötigt: Ein Maß, das die Ähnlichkeit zweier Objekte quantifiziert Ähnlichkeitsmaß (AM): Je größer, desto ähnlicher sind sich zwei Objekte. Folgen: - Was bedeutet ein Wert AM = 0? - Wie groß ist die Ähnlichkeit zweier identischer Objekte? Übergang zu einem Verschiedenheitsmaß = Distanz Definition: Distanzindex Sei N = 1,...,n eine Menge von n Objekten Die Abbildung heißt Distanzindex, wenn gilt: d : N N R + d(i, i) = 0 [Reflexivität] d(i, j) = d(j, i) [Symmetrie] d(i, j) 0 [Nichtnegativität] Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS Distanzen Vorüberlegungen und Begriffe Distanzen Distanzindex: Mögliche Eigenschaften Dreiecksungleichung ( ): d(i, j) d(i, h) + d(h, j) i,j, h N j Ist beispielsweise erfüllt bei räumlichem Abstandsbegriff i h Aber: Ist nicht immer haltbar bzw. sinnvoll (Beispiel: Hoher Distanzindex entspricht schwachem Bedarfsverbund bei Supermarkteinkauf) Tee Zucker Kaffee Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS