Datenanalyse und Data Mining
|
|
- Linus Baum
- vor 8 Jahren
- Abrufe
Transkript
1 Datenanalyse und Data Mining TM (B. Eng.), BM (B. A.) (Materialien) Prof. Dr. Stefan Etschberger Hochschule Weingarten Sommersemester SS 2010 Veranstaltungskonzept Konzept Bis auf einige Grundlagen keine Vorlesung, seminaristischer Ansatz Jeder Teilnehmer arbeitet sich in ein Thema ein, arbeitet Theorie und Praxisanwendung in einem Foliensatz aus und präsentiert die Ergebnisse im Plenum 3 Absprache- und Fragetermine (Terminkoordination) Dann 2 oder 3 Präsentationstermine der Ergebnisse Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS
2 Übersicht 1. Grundlegendes 1 Grundlegendes Grundbegriffe Anwendungsbereiche Dreiteilung der Datenanalyse Objekte und Merkmale Merkmalstypen und Skalenarten 2 Fehlende Daten 3 Distanzen 4 Repräsentation 5 Klassifikation Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS Bücher 1. Grundlegendes Backhaus, K.; Erichson, B.; Plinke, W.; Weiber, R. (2003): Multivariate Analysemethoden, Springer, Berlin and Heidelberg and New York, 10. Auflage. Fahrmeir, L.; Hamerle, A.; G.Tutz (1996): Multivariate statistische Verfahren, de Gruyter, Berlin, 2. Auflage. Handl, A. (2002): Multivariate Analysemethoden, Springer, Berlin et al. Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS
3 1. Grundlegendes Grundbegriffe Einleitung Problemstellung Die Datenanalyse (Numerische Taxonomie, Multivariatenanalyse) stellt sich die Aufgabe, Ähnlichkeitsbeziehungen zwischen Elementen einer bestimmten Menge zu analysieren. Die Datenanalyse ist ein Teilgebiet der Statistik und kommt in der Regel dann zum Einsatz, wenn große Datenmengen durch mehrere Merkmale charakterisiert werden. Ausgangspunkt der Datenanalyse ist stets eine Datenmatrix oder eine Distanzmatrix. Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS Datenmatrix 1. Grundlegendes Grundbegriffe Die Datenmatrix enthält zeilenweise Objekte (Merkmalsträger, cases) enthält spaltenweise Merkmale (variables, items) Beispiel Merkmale Objekte Preis PS Verbrauch Land Wertverlust ABS Tipo 1600 I.E I hoch nein Honda Civic JAP mittel nein Mitsubishi Colt JAP niedrig nein Kadett LS 1.6i D mittel ja Renault 19 GTS F mittel ja VW Golf CL D niedrig ja Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS
4 Distanzen 1. Grundlegendes Grundbegriffe Die Distanzmatrix enthält zeilen- und spaltenweise Objekte. Die Einträge der Matrix sind Werte für die Verschiedenheit (Distanzen) zweier Objekte. Beispiel Objekte Objekte Tipo 1600 I.E. Honda Civic 1.3 Mitsub. Colt 1.5 Kadett LS 1.6i Renault 19 GTS VW CL Golf Tipo 1600 I.E Honda Civic Mitsubishi Colt Kadett LS 1.6i Renault 19 GTS VW Golf CL Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS Teilbereiche 1. Grundlegendes Grundbegriffe 3 Teilbereiche der Datenanalyse nach dem Zweck der Anwendung Datenverdichtende Verfahren (deskriptiv) Kennzahlen Indizes Faktorenanalyse Strukturaufdeckende Verfahren (explorativ) Strukturprüfende Verfahren (induktiv) Varianzanalyse Regressionsanalyse logistische Regression Diskriminanzanalyse Conjoint-Analyse Kreuztabellen Faktorenanalyse Clusteranalyse MDS Korrespondenzanalyse Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS
5 1. Grundlegendes Anwendungsbereiche Klassische Anwendungsbereiche der Datenanalyse Beispielanwendungen Marketing/ Marktforschung Marktsegmentierung Kundentypisierung Aufdecken von Marktnischen Ermittlung von Marktreaktionen Sozialwissenschaften Einstellungsanalysen Qualifikationsprofile Biologie Medizin Hilfe bei Diagnosen Überprüfung von Therapieerfolgen Volkswirtschaft Input-Output-Analysen zur Abgrenzung und Aggregation von Wirtschaftssektoren Bibliothekswesen Katalogisierung Auffinden von ähnlichen Werken Zuordnung von Pflanzen oder Tieren zu Gattungen Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS Einleitung 1. Grundlegendes Dreiteilung der Datenanalyse Die klassische Dreiteilung der DA Segmentierung (Clusteranalyse): Zusammenfassung von Objekten zu homogenen Klassen aufgrund von Ähnlichkeiten in wichtigen Merkmalsbereichen Repräsentation: Darstellung von Objekten durch Punkte im 2- oder 3-dimensionalen Raum, wobei Ähnlichkeitsbeziehungen durch räumliche Nähe zum Ausdruck kommen sollen Identifikation: Reproduktion einer gegebenen Segmentierung oder Repräsentation mit Hilfe weniger aussagekräftiger Merkmale (Ziel: Prognose, Klassifikation) Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS
6 Einleitung 1. Grundlegendes Dreiteilung der Datenanalyse Datenanalyse Segmentierung Clusteranalyse Repräsentation Identifikation MDS Korrespondenzanalyse Faktorenanalyse einer Klassifikation einer Repräsentation Diskriminanzanalyse Conjointanalyse Regressionsanalyse Varianzanalyse Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS Einleitung 1. Grundlegendes Dreiteilung der Datenanalyse Segmentierung Eine meist unübersichtliche Menge von Untersuchungsobjekten (z.b. Kunden, Produkte) ist in Gruppen, Typen oder Klassen so aufzuteilen, dass die Objekte einer Klasse möglichst ähnlich, die Objekte je zweier Klassen möglichst verschieden sind. K 1 K 2 K 3 Anwendung: Kundentypologien, Produktkategorien, Marktsegmente Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS
7 Einleitung Beispiel einer Segmentierung 1. Grundlegendes Dreiteilung der Datenanalyse Fusion index Oldsmobile Cutlass Supreme V6 Ford Taurus V6 Eagle Premier V6 Chrysler New Yorker V6 Buick Le Sabre V6 Ford Thunderbird V6 Ford Aerostar V6 Dodge Grand Caravan V6 Chevrolet Caprice V8 Ford LTD Crown Victoria V8 Chevrolet Camaro V8 Ford Mustang V8 Buick Century 4 Oldsmobile Cutlass Ciera 4 Chevrolet Lumina APV V6 Chrysler Le Baron V6 Chrysler Le Baron Coupe Ford Tempo 4 Oldsmobile Calais 4 Buick Skylark 4 Chevrolet Beretta 4 Plymouth Laser Dodge Daytona Ford Probe Eagle Summit 4 Ford Escort 4 Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS Einleitung 1. Grundlegendes Dreiteilung der Datenanalyse Typische Fragestellungen der Segmentierung in der Marktforschung Lassen sich die Kunden eines Kaufhauses entsprechend ihrer Bedürfnisse in Gruppen einteilen? Gibt es bei Zeitschriften verschiedene Lesertypen? Wie kann man die Käuferschaft eines Produktes entsprechend ihrer Mediengewohnheiten aufteilen? Welche Produkte sind einander besonders ähnlich (werden als besonders ähnlich empfunden)? Wie sollte ein neues Produkt aussehen (empfunden werden)? Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS
8 1. Grundlegendes Dreiteilung der Datenanalyse Einleitung Repräsentation Eine gegebene Menge von Untersuchungsobjekten (Produkte, Konkurrenten) ist in einem möglichst niedrig dimensionierten Raum graphisch so anzuordnen, dass die Ähnlichkeit von Objektpaaren durch ihre räumliche Distanz gut wiedergegeben wird. D 2 D 1 Etschberger Anwendung: (HS Weingarten) Marktnischen, Datenanalyse -verdichtungen, und Data Mining Konkurrenzanalysen Sommersemester SS Beispiele Repräsentation 1. Grundlegendes Dreiteilung der Datenanalyse Multidimensionale Skalierung (MDS) MDS 2 dimensional Representation (grouped by attribute Area) Typische Fragestellungen der MDS in der Marktforschung: Configuration Variable Calabria Coast Sardinia East Liguria Inland Sardinia North Apulia Sicily South Apulia Umbria West Liguria Inwieweit entspricht das eigene Produkt den Idealvorstellungen der Konsumenten? Welches Image besitzt die Marke XY? Hat sich die Einstellung der Konsumenten zu einer Marke in den letzten Jahren verändert? Configuration Variable 1 Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS
9 Beispiele Repräsentation 1. Grundlegendes Dreiteilung der Datenanalyse Hauptkomponentenanalyse Comp Murder Mississippi North Carolina South Carolina Georgia Alabama Alaska Louisiana Tennessee West Virginia Vermont Arkansas Kentucky South Dakota Montana North Dakota Maryland Wyoming Maine New Mexico Virginia Idaho Florida New Hampshire Michigan Indiana Iowa Nebraska Missouri Kansas Delaware Oklahoma Rape Texas Oregon Pennsylvania Illinois Minnesota Wisconsin Nevada Arizona Ohio New York Colorado Washington Connecticut California New Jersey Massachusetts Rhode Utah Island Hawaii Assault UrbanPop Typische Fragestellungen der Faktorenanalyse in der Marktforschung Lässt sich die Vielzahl der Eigenschaften, die die Käufer einer Marke als wichtig empfinden, auf wenige komplexe Faktoren reduzieren? Wie lassen sich darauf aufbauend die verschiedenen Marken anhand dieser Faktoren beschreiben? Etschberger (HS Weingarten) Comp.1 Datenanalyse und Data Mining Sommersemester SS Identifikation 1. Grundlegendes Dreiteilung der Datenanalyse Identifikation Die erhobenen Merkmale sind auf Zusammenhänge hin zu überprüfen (Korrelation). Ferner ist aufzuzeigen, ob und gegebenenfalls wie bestimmte Merkmale durch andere Merkmale erklärt werden können. Regressionsanalyse Varianzanalyse M 1, M 2,... M 1, M 2,... Erklärung von Marktvariablen (Marktanteil, etc.) durch Unternehmensvariablen Analyse von Gruppenunterschieden Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS
10 Beispiele Identifikation 1. Grundlegendes Dreiteilung der Datenanalyse Varianzanalyse Absatz Anzeige Lautspr Plakat Absatz pers selbst Typische Fragestellungen der Varianzanalyse in der Marktforschung Hat die Art der Werbung einen Einfluss auf die Höhe der Absatzmenge? Gibt es Interaktionseffekte zwischen der Art der Werbung und der Bedienungsart? Werbung Bedienung Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS Grundlegendes Dreiteilung der Datenanalyse Typische Fragestellungen der Identifikation Regressionsanalyse Wie verändert sich die Absatzmenge eines Produktes, wenn die Werbeausgaben um x% gekürzt werden? Wie läßt sich der Preis für ein Produkt in den kommenden Monaten schätzen? Hat die Qualität einer Werbeanzeige einen signifikanten Einfluss auf das Kaufverhalten der Adressaten? Diskriminanzanalyse In welcher Hinsicht unterscheiden sich Käufer von Nicht-Käufern? Welche Merkmale einer Anzeige tragen am meisten zu ihrer Erinnerung bei? Lassen sich bestimmte Kreditkunden anhand der Merkmale Einkommen, Schulbildung, Alter etc. als kreditwürdig einstufen? Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS
11 Einleitung 1. Grundlegendes Dreiteilung der Datenanalyse Ablauf einer datenanalytischen Untersuchung 1. Präzisierung des Untersuchungsziels Formulierung der Zielsetzung Abgrenzung der Untersuchungsobjekte Ableitung der taxonomischen Aufgabenstellung - Segmentierung - Repräsentation - Identifikation 2. Diskussion der Datenbasis Auswahl der Merkmale Festlegung des Skalenniveaus oder Charakterisierung der Objekte durch direkte Vergleiche 3. Datenerhebung und -erfassung Primär- oder Sekundärerhebung Vollerhebung oder Teilerhebung (Stichprobenauswahl!) Datencodierung und ggf. Dateneingabe in DV-Systeme 4. Datenanalyse Univariate Datenanalyse (Screening, erster Einblick in die Merkmalsstruktur, Plausibilitätsprüfung) Multivariate Datenanalyse (nicht statistics all, sondern Verfahrenseinsatz nach Aufgabenstellung und Zielsetzung) 5. Interpretation der Ergebnisse Deskriptive Verfahren Explorative und induktive Verfahren Klassenstatistiken und Bezeichnungen bei Clusteranalysen Benennung der Achsen bei Repräsentationsverfahren Zusammenfassung signifikanter Einflussgrößen bei Identifikationsverfahren Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS Daten 1. Grundlegendes Objekte und Merkmale Einige grundlegende Definitionen: G = {1,2,3,...} N = {1,...,n} Falls G = N Falls N G M = {1,...,m} Grundgesamtheit von Objekten Objektmenge Vollerhebung Stichprobe aus der Grundgesamtheit Merkmalsmenge Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS
12 Daten 1. Grundlegendes Objekte und Merkmale Die Datenmatrix a a 1m A = (a ik ) n m =..... a n1... a nm mit a ik als Ausprägung des Merkmals k bei Objekt i Datenmatrix Zeilen von A (Objektvektoren): a i = (a i1,...,a im ), i N a 1k Spalten von A (Merkmalsvektoren): a k =.., k M a nk A k Menge der möglichen Ausprägungen bei Merkmal k Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS Daten 1. Grundlegendes Objekte und Merkmale Beispiel: Hörer einer Vorlesung Merkmale Alter Geschlecht Wohnort Semester Studiengang Prüfungen Objekte 1 22 männlich Augsburg 5 BWL mit VD 2 25 männlich Karlsruhe 10 Mathe mit HD 3 21 weiblich München 4 VWL mit VD 4 28 männlich Augsburg 13 BWL mit VD 5 24 männlich Augsburg 8 BWL ohne VD = A Merkmal k Ausprägungsmenge A k Alter Menge der natürlichen Zahlen Geschlecht {männlich, weiblich} Wohnort Menge aller Orte Semester Menge der natürlichen Zahlen Studiengang {BWL, VWL, Mathematik, Informatik,...} Prüfungen {ohne Vordiplom, mit Vordiplom, mit Hauptdiplom} Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS
13 1. Grundlegendes Merkmalstypen und Skalenarten Daten Unterscheidung zwischen Merkmalstypen: Quantitative Merkmale: Alle Ausprägungen des Merkmals werden intuitiv durch reelle Zahlen benannt. Qualitative Merkmale: Die Ausprägungen des Merkmals werden intuitiv durch Worte oder Begriffe, nicht aber durch Zahlen, wiedergegeben (nominale oder ordinale Merkmale). Häufig von Vorteil: Ausprägungen eines Merkmals werden durch Zahlen wiedergegeben Also: Quantifizierung auch von qualitativen Merkmalen. Mittels: einer Abbildung, die man Skala nennt. Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS Daten 1. Grundlegendes Merkmalstypen und Skalenarten Definition Skala: Sei k ein Merkmal mit der Ausprägungsmenge A k. Dann heißt die Abbildung f : A k R eine Skala. Bemerkung: Wahl von f: So, dass die Informationen und Relationen, die für bzw. zwischen den einzelnen Merkmalsausprägungen a ik gelten, auch für die Bildwerte f(a ik ) korrekt sind. Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS
14 1. Grundlegendes Merkmalstypen und Skalenarten Daten Nominale Merkmale Definition: Ein Merkmal k heißt nominal oder klassifikatorisch, wenn für die Ausprägungen nur nach Gleichheit (=) oder Ungleichheit ( ) unterschieden werden kann. Bezüglich der Äquivalenz ( ) zweier Objekte gilt: i k j a ik = a jk bzw. i k j a ik a jk Die Abbildung f : A k R mit a ik a jk f(a ik ) f(a jk ) heißt Nominalskala. Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS Daten 1. Grundlegendes Merkmalstypen und Skalenarten Unterscheidung nominaler Merkmale Ein Merkmal heißt dichotom (zweiwertig, binär), wenn es genau zwei Ausprägungen besitzt. Beispiel: Geschlecht Ein Merkmal heißt polytom oder mehrwertig, wenn es mehr als zwei Ausprägungen besitzt. Beispiel: Wohnort Bemerkung: Jedes mehrwertige Merkmal mit r Ausprägungen kann durch r dichotome Merkmale ersetzt werden, wobei jede Ausprägung ein Merkmal darstellt. Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS
15 Daten 1. Grundlegendes Merkmalstypen und Skalenarten Beispiel: Nominale Merkmale Alter Geschlecht Wohnort Semester Studiengang Prüfungen Objekte mit VD mit HD mit VD mit VD ohne VD Geschlecht: f Geschlecht (weiblich) = 0 f Geschlecht (männlich) = 1 Dabei wird folgende Skalierung verwendet: Wohnort: f Wohnort (Augsburg) = 1 f Wohnort (Karlsruhe) = 2 f Wohnort (München) = 3 Studiengang: f Studiengang (BWL) = 1 f Studiengang (Mathe) = 2 f Studiengang (VWL) = 3 Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS Daten 1. Grundlegendes Merkmalstypen und Skalenarten Ordinale Merkmale Definition: Ein Merkmal k heißt ordinal (komparativ), wenn die Ausprägungen vollständig geordnet werden können. Bezüglich der Ordnung zweier Objekte gilt: i j a ik < a jk niedrigerer Rang k i j k a ik = a jk gleicher Rang i k j a ik > a jk höherer Rang Die Abbildung f : A k R mit heißt Ordinalskala. a ik < a jk f(a ik ) < f(a jk ) Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS
16 1. Grundlegendes Merkmalstypen und Skalenarten Daten Beispiel: ordinale Merkmale: Prüfungen der Hörer Alter Geschlecht Wohnort Semester Studiengang Prüfungen Objekte Dabei wird folgende Skalierung verwendet: Prüfungen: f(ohne VD) = 1, f(mit VD) = 2, f(mit HD) = 3 Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS Daten 1. Grundlegendes Merkmalstypen und Skalenarten Quantitative Merkmale Definition: Ein Merkmal k heißt quantitativ (kardinal, metrisch), wenn es ordinal ist und die Differenzen von Ausprägungspaaren vollständig geordnet werden können. Dies bedeutet insbesondere, dass das Ausmaß der Unterschiedlichkeit zweier Ausprägungen bestimmt werden kann und aussagekräftig ist. Je nachdem, welche Aussagen bzgl. dieses Ausmaßes getroffen werden können, unterscheidet man dabei die Typen Intervallskala, Verhältnisskala und Absolutskala. Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS
17 Daten 1. Grundlegendes Merkmalstypen und Skalenarten Definition: Intervallskala Die Abbildung f : A k R mit f(a ik ) = α a ik + β (α > 0, β R) heißt Intervallskala. Nur der Abstand zwischen zwei Ausprägungen kann verglichen werden: - Kein natürlicher Nullpunkt - z.b. Temperatur (Celsius, Fahrenheit) Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS Daten 1. Grundlegendes Merkmalstypen und Skalenarten Definition: Verhältnisskala Die Abbildung f : A k R mit f(a ik ) = α a ik (α > 0) heißt Verhältnisskala. Das Verhältnis zwischen zwei Ausprägungen kann sinnvoller Weise verglichen werden: - Existenz eines natürlichen Nullpunktes - z.b. Längen, Preise, Zeiten Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS
18 1. Grundlegendes Merkmalstypen und Skalenarten Daten Definition: Absolutskala Die Abbildung f : A k IN 0 mit f(a ik ) = a ik heißt Absolutskala. Es existiert eine natürliche Maßeinheit: - z.b. Stückzahlen Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS Daten 1. Grundlegendes Merkmalstypen und Skalenarten Skalendegression und Skalenprogression Ziel der Skalierung: Angemessene Abbildung der durch Datenmatrix gegebene Information angemessen Möglichst ohne Über- bzw. Unterschätzungen zu riskieren. Es gilt: - Grundsätzlich können alle Merkmale nominal skaliert werden. - Grundsätzlich kann jedes metrische Merkmal ordinal skaliert werden. Diese Änderungen der Skalenniveaus nennt man Skalendegression. Dabei ist ein Informationsverlust in Kauf zu nehmen. Aber es gilt auch: - Nominale Merkmale dürfen nicht ordinal- oder metrisch skaliert werden. - Ordinale Merkmale dürfen nicht metrisch skaliert werden. Dieses Vorgehen nennt man Skalenprogression, bei der mehr Informationen in die Merkmale interpretiert würde, als inhaltlich vertretbar ist (Gefahr der Fehlinterpretation) Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS
19 Daten 1. Grundlegendes Merkmalstypen und Skalenarten Klassische Informationsniveaus Absolutskala Verhältnisskala Intervallskala Nominal Ordinal Metrisch Informationsniveau hoch niedrig Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS Übersicht Fehlende Daten 1 Grundlegendes 2 Fehlende Daten Ursachen fehlender Daten Ausfallmechanismen Strukturanalyse Behandlung fehlender Daten 3 Distanzen 4 Repräsentation 5 Klassifikation Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS
20 Fehlende Daten Ursachen fehlender Daten Fehlende Daten Ursachen für das Fehlen von Daten in den der eigentlichen Datenanalyse vorgelagerten Stufen: Ablauf einer datenanalytischen Untersuchung: a) Präzisierung des Untersuchungsziels b) Diskussion der Datenbasis: Merkmalsauswahl, Skalenniveau c) Datenerhebung und -erfassung: Datenaufbereitung (PC-gestützt) d) Datenanalyse e) Interpretation der Ergebnisse Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS Fehlende Daten Ursachen fehlender Daten Fehlende Daten Allgemeine Ausfallursachen Datenerhebung aus Primärquellen Unangenehme oder persönliche Fragen Übersehen von Fragen Mangelndes Wissen der Befragten Antwortverweigerung Motivationsprobleme bei der Befragung Verständnisprobleme Meinungslosigkeit Zeitknappheit Datenerhebung aus Sekundärquellen Unvollständigkeit der Sekundärquellen Verwendung mehrerer Sekundärquellen Akualitätsprobleme Datenaufbereitung bzw. -erfassung Codierfehler Übertragungsfehler Löschung unmöglicher Daten Löschung fehlerhafter Daten Diskussion der Datenbasis Fehlerhaftes Untersuchungsdesign, z.b. Alter der Kinder Mangelhaftes Untersuchungsdesign, z.b. durch missverständliche Fragen, unübersichtliche oder zu lange Fragebögen Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS
21 Fehlende Daten Ausfallmechanismen Fehlende Daten Bei fehlenden Daten sind nicht Ausfallursachen an sich, sondern lediglich die Auswirkungen auf das Datenmaterial von Bedeutung. Ausfallursachen haben aber Auswirkungen auf das vorliegende Datenmaterial. Frage nach nach dem Mechanismus der zum Fehlen der Daten führt. Man unterscheidet dabei zwei Arten von MD: - Unsystematisch bzw. zufällig fehlende Daten - Systematisch bzw. nicht-zufällig fehlende Daten Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS Fehlende Daten Ausfallmechanismen Systematisch Fehlende Daten Ursache des Fehlens hierbei in Merkmalsausprägungen der fehlenden Daten. Bedeutung: Charakterisierung der entsprechenden Objekte anhand der fehlenden Ausprägungen ist möglich. Wirkung: Unter Umständen erhebliche Verzerrungen der Ergebnisse, wenn bei der Auswertung nur die vorhandenen Daten betrachtet werden. Beispiel In Befragung Erhebung von Einkommen und Alter Verfälschung dann, wenn beim Merkmal Einkommen lediglich Personen mit einem niedrigen Einkommen Antwort verweigern würden. Schätzung des mittleren Einkommens auf Basis der vorhandenen Daten überschätzt dann wahren Wert. Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS
22 Fehlende Daten Ausfallmechanismen Unsystematisch fehlende Daten Unsystematisch fehlende Daten werden durch Einflußfaktoren auf die Untersuchungssituation hervorgerufen, die sich nicht eindeutig auf bestimmte Objekte oder Merkmale konzentrieren. Ursachen: Unaufmerksamkeiten bei der Datenerhebung und/oder -aufbereitung Verzerrungen der Ergebnisse sind nicht zu erwarten, wenn bei der Auswertung nur die vorhandenen Daten betrachtet werden. Definition Daten werden als zufällig fehlend bezeichnet, wenn die fehlenden Daten gleichmäßig über die Matrix gestreut sind (keine Konzentration), für ein Objekt ein fehlende Merkmalsausprägung unabhängig von jeder anderen Merkmalsausprägung ist, für ein gegebenes Merkmal die fehlenden Ausprägungen dieselbe Verteilung besitzen wie der ganze Merkmalsvektor, d.h. kein Zusammenhang zwischen dem Ausfallmechanismus und dem Wertebereich eines Merkmals existiert, zwischen den fehlenden Daten zweier Merkmale kein Zusammenhang besteht. Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS Fehlende Daten Ausfallmechanismen Ausfallmechanismen: MAR und MCAR Definition Kategorien unystematisch fehlender Daten Daten heißen missing at random (MAR), wenn das Fehlen der Daten unabhängig von den fehlenden Werten selbst ist, aber von anderen Merkmalen abhängen kann. Daten heißen missing completely at random (MCAR), wenn das Fehlen der Daten in keinerlei Beziehung zu den fehlenden und den vorhandenen Werten oder anderen Merkmalen und ihren Ausprägungen bei den Objekten mit fehlenden Werten steht. Beispiel unsystematisch fehlender Daten Erhebung der Merkmale Einkommen und Alter, wobei einige Personen die Angabe des Einkommens verweigern. Die Daten sind MAR, wenn das Fehlen der Einkommensangaben nicht von der Höhe des Einkommens selbst abhängt, es aber möglich ist, dass z.b ältere Personen die Antwort tendenziell öfter verweigern. Ist das Fehlen der Einkommensangabe unabhängig von der Höhe des Einkommens und des Alters, dann sind die Daten sogar MCAR. Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS
23 Fehlende Daten Ausfallmechanismen Konsequenzen für die Datenauswertung Behandlung der MV mit Verfahren, die vorhandene Werte verwenden Daten sind MCAR unsystematisch Daten sind MAR Behandlung der MV mit Verfahren, die auf der Likelihood-/Bayes- Theorie basieren Ausfallmechanismus systematisch AM bekannt Behandlung der MV mit einem Modell des Ausfallmechnismus AM unbekannt Adäquate Behandlung der fehlenden Daten ist nicht möglich Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS Fehlende Daten Fehlende Daten Strukturanalyse Bemerkung: Im Rahmen einer Strukturanalyse können im allgemeinen nur bestimmte Beziehungen, die fehlende Daten verursachen untersucht werden. Die Untersuchung aller Einflussfaktoren ist i.a. nicht möglich. Die Ergebnisse der Strukturanalyse können! somit zwar hinreichend für eine Verwerfung, aber nur notwendig für eine Akzeptierung eines bestimmten unsystematischen Ausfallmechanismus sein. Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS
24 Fehlende Daten Fehlende Daten Strukturanalyse Die Indikatormatrix Ausgangspunkt jeder Strukturanalyse fehlender Daten ist i.a. die sogenannte Indikatormatrix v v 1m V = (v ik ) n m =..... Indikatormatrix v n1... v nm mit v ik als Indikator für das Fehlen der Ausprägung des Merkmals k bei Objekt i { 1 falls aik vorhanden Es gilt dabei: v ik = 0 sonst Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS Fehlende Daten Fehlende Daten Strukturanalyse Beispiel: Hörer einer Vorlesung Merkmale Alter Geschlecht Wohnort Semester Studiengang Prüfungen Objekte 1 männlich 5 BWL mit VD 2 25 männlich Karlsruhe München 4 VWL mit VD 4 28 männlich Augsburg 13 BWL mit VD 5 24 männlich 8 BWL ohne VD A G W Se St P = V = Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS
25 Fehlende Daten Strukturanalyse Fehlende Daten Möglichkeiten der Strukturanalyse Die Strukturanalyse läßt sich grundsätzlich in folgende Bereiche untergliedern: Deskriptive Analyse Explorative Analyse Induktive Analyse Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS Fehlende Daten Strukturanalyse Fehlende Daten Deskriptive Analyse Zur rein deskriptiven Analyse der Datenmatrix hinsichtlich des Auftretens fehlender Daten bieten sich Kennzahlen (Missing-Data-Maße) oder graphische Verfahren an, die erste Anhaltspunkte bezüglich des vorliegenden Ausfallmechanismus ergeben (können). Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS
26 Fehlende Daten Fehlende Daten Strukturanalyse Missing-Data-Maße - Teil I Missing-Data-Maße (MD-Maße) verdichten die in den Indikatormatrizen enthaltenen Information und geben sie mit Hilfe einer Kennzahl wieder. Es existieren u.a. folgende Maße: MD-Indikator für Objekt i MD-Indikator für Merkmal k v ind i = v ind k = 1 falls m 0 sonst k=1 1 falls n 0 sonst i=1 v ik = m v ik = n Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS Fehlende Daten Fehlende Daten Strukturanalyse Missing-Data-Maße - Teil II Anzahl der fehlenden Daten und der vorhandenen bei Objekt i v mis i = m v obs i = m m v ik k=1 Anzahl der fehlenden Daten und der vorhandenen bei Merkmal k v mis k = n v obs k = n n v ik i=1 Anzahl der vorhandenen Daten in der Datenmatrix i v obs = n i=1 v obs i = m k=1 v obs k = m n v ik k=1 i=1 Anzahl der vorhandenen Daten in der Datenmatrix i v mis = m n v obs Des weiteren sind alle dargestellten Kennzahlen auch noch als relative Kennzahlen denkbar. Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS
27 Fehlende Daten Strukturanalyse Fehlende Daten Beispiel: Hörer einer Vorlesung, Missing-Data-Maße V = A G W Se St P Objekt v ind i v mis i v obs i Merkmal A G W Se St P v ind k v mis k v obs k Des Weiteren gilt: n = 5, m = 6, n m = 30, v mis = 6, v obs = 24 Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS Fehlende Daten Strukturanalyse Fehlende Daten Graphische Verfahren Bei einer graphischen Darstellung der Indikatormatrix V können sowohl das Ausmaß wie auch Konzentrationstendenzen der fehlenden Daten untersucht werden. Sind die fehlenden Werte jeweils regellos über die gesamte Matrix verteilt, dann wird man einen unsystematischen Ausfallmechanismus vermuten. (Im nächsten, induktiven Schritt, entsteht dann das Problem, ein objektives Maß für systematischen Ausfall zu finden.) Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS
28 Fehlende Daten Fehlende Daten Strukturanalyse Beispiel: Hörer einer Vorlesung Merkmale Alter Geschlecht Wohnort Semester Studiengang Prüfungen Objekte 1 männlich 5 BWL mit VD 2 25 männlich Karlsruhe München 4 VWL mit VD 4 28 männlich Augsburg 13 BWL mit VD 5 24 männlich 8 BWL ohne VD Fehlende Ausprägungen werden durch das Symbol dargestellt = A G W Se St P Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS Fehlende Daten Fehlende Daten Strukturanalyse Graphische Verfahren mit Sortierreihenfolge Gerade bei größeren Datenmatrizen kann eine übersichtlichere Darstellung der MD-Muster erreicht werden, wenn die Indikatormatrix bezüglich der Objekte sortiert wurde. Dabei kann der Sortieralgorithmus die Objekte mit den wenigsten MD zu Beginn stellen, solche mit vielen MD eher am Ende. Alternativ kann nach der Anzahl der MD innerhalb eines Objektes und der Spaltenposition einer fehlenden Merkmalsausprägung in der Datenmatrix geordnet werden Ausfallmechanismen sind nach dem Sortiervorgang oft besser zu erkennen. Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS
29 Fehlende Daten Fehlende Daten Strukturanalyse Ein Sortieralgorithmus Sortierrangfolge mittels der sogenannten Objekt-Pattern- Variablen PV, die gemäß m PV i = 2 m 1 v ik 2 k 1 k=1 berechnet werden kann. Aufsteigende bzw absteigende Sortierung der Objekte wird dann nach der Regel vorgenommen. Objekt i vor Objekt j PV i PV j Analog kann die transponierte Indikatomatrix V T durch die geeignete Konstruktion einer Merkmals-Pattern-Variable sortiert werden. Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS Fehlende Daten Fehlende Daten Strukturanalyse Beispiel: Hörer einer Vorlesung Merkmale Alter Geschlecht Wohnort Semester Studiengang Prüfungen Objekte 1 männlich 5 BWL mit VD 2 25 männlich Karlsruhe München 4 VWL mit VD 4 28 männlich Augsburg 13 BWL mit VD 5 24 männlich 8 BWL ohne VD Sortierung mittels PV PV i = 2 m 1 m k=1 k 1 v ik 2 = i PV i A G W Se St P Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS
30 Fehlende Daten Strukturanalyse Fehlende Daten Explorative Analyse Gesucht: Zusammenhänge innerhalb einer unvollständigen Datenmatrix, um dadurch evtl. vorliegende Abhängigkeitsbeziehungen der fehlenden Werte aufzudecken. Ausgangspunkt: Datenmatrix, Indikatormatrix Untersuchung der Eigenschaft MAR mit korrelationsanalytischen, faktoren-analytischen, clusteranalytischen sowie dependenz-analytischen Ansätzen. Untersuchung der Abhängigkeit der MD von den Realisierungen der Daten selbst: I.A. nicht möglich, da zusätzliche (externe) Informationen, (zum Beispiel die Verteilung der Grundgesamtheit) oft nicht bekannt sind. Einschränkung: Explorative Methoden lediglich zur Entdeckung von Abhängigkeitsbeziehungen der fehlenden Werte innerhalb der Datenmatrix aufgezeigt, keine statistische Überprüfung Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS Fehlende Daten Strukturanalyse Explorative Analyse Korrelationsanalytische Ansätze Untersuchung der Abhängigkeit der fehlenden Ausprägungen vom Fehlen der Daten bei anderen Merkmalen. Berechnung kann mit Hilfe aller gängigen Korrelationskoeffizienten, angewandt auf die Spalten der Indikatormatrix V Besonders geeignet: Phi-Koeffizient Φ entspricht dem Bravais-Pearson-Koeffizient r für binäre Variablen) Phi-Koeffizient Φ: entwickelt speziell für 2 2-Kontingenztabellen Definition: Φ kl = α kl δ kl β kl γ kl (αkl + β kl ) (γ kl + δ kl ) (α kl + γ kl ) (β kl + δ kl ) Mit α kl = {i : v ik = 0, v il = 0} und β kl,γ kl, δ kl analog und α kl β kl 1 γ kl δ kl Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS
31 Fehlende Daten Strukturanalyse Phi-Koeffizient Phi-Koeffizient Eigenschaften Φ kann dabei Werte zwischen -1 Es existieren nur (0,1)/(1,0)-Paare und +1 Es existieren nur (0,0)/(1,1)-Paare annehmen. Werte in der Nähe von Null weisen daraufhin, dass zwischen dem Fehlen der Werte beim ersten Merkmal und dem Fehlen der Werte beim zweiten Merkmal kein Zusammenhang besteht. Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS Fehlende Daten Strukturanalyse Fehlende Daten Beispiel: Hörer einer Vorlesung Merkmale Alter Geschlecht Wohnort Semester Studiengang Prüfungen Objekte 1 männlich 5 BWL mit VD 2 25 männlich Karlsruhe München 4 VWL mit VD 4 28 männlich Augsburg 13 BWL mit VD 5 24 männlich 8 BWL ohne VD Korrelationsmatrix der Φ Koeffizienten (Homogenes Merkmal Semester weggelassen) = A G W St P A G W St 1 1 P 1 Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS
32 Fehlende Daten Strukturanalyse Weitere explorative Ansätze Die Faktorenanalytische Untersuchung dient ebenfalls der Untersuchung der Abhängigkeit der fehlenden Ausprägungen vom Fehlen der Daten bei anderen Merkmalen und basiert auf der oben beschriebenen Korrelationsmatrix. Die Clusteranalyse untersucht die Ähnlichkeit der Missing-Data-Muster der Merkmale/Objekte und verwendet die Indikatormatrix selbst als Ausgangspunkt. Die Zielrichtung ist aber dieselbe wie oben. Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS Fehlende Daten Strukturanalyse Fehlende Daten Induktive Analyse Induktive Analyse unvollständiger Datenmatrizen: Überprüfung zuvor formulierter Hypothesen bezüglich der fehlenden Werte mittels statistischer Testverfahren. Dabei: Relevante Hypothesen betreffen Vorliegen von unsystematischen Ausfallmechanismen. Allgemeine Form solcher Hypothesen: H 0 : Die Daten fehlen zufällig. H 1 : Die Daten fehlen systematisch. Achtung: Alle Tests zur Überprüfung dieser Hypothesen bestätigen nie das zufällige Fehlen von Daten sondern schließen nur bestimmte Formen eines zufälligen Fehlens mit der Irrtumswahrscheinlichkeit α aus. Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS
33 Fehlende Daten Strukturanalyse Induktive Analyse fehlender Daten Typen von Testverfahren Typ 1: Untersuchung der Abhängigkeit der MD von den an sich unbekannten Realisierungen dieser Werte (MAR): (Anpassungstest, parametrische Einstichproben-Tests) Typ 2: Untersuchung der Abhängigkeit der MD vom Fehlen der Daten bei anderen Merkmalen (MAR): (Test der Korrelationskoeffizienten bzw. -matrix) Typ 3: Untersuchung der Abhängigkeit der MD von den vorhandenen Ausprägungen bei anderen Merkmalen; Testen auf MCAR, wenn MAR vorliegt: (Test auf Lokalisationsunterschiede bzw. Unabhängigkeit) Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS Fehlende Daten Strukturanalyse Induktive Analyse fehlender Daten Testverfahren - Typ 1 Untersuchung der Abhängigkeit der MD von den unbekannten Realisierungen dieser Werte (MAR) Überprüfung, inwieweit die für ein Merkmal vorliegenden Daten einer hypothetischen Verteilung genügen damit Berücksichtigung externer Informationen notwendig, wie z.b. Verteilungsannahmen bezüglich der Grundgesamtheit praktische Anwendung stark eingeschränkt! Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS
34 Fehlende Daten Strukturanalyse Induktive Analyse fehlender Daten Beispiel: Der χ 2 -Anpassungstest Überprüft für ein nominales oder ordinales Merkmal, ob die vorliegenden Daten einer hypothetischen Verteilung genügen (H 0 ). Kann sinnvoll angewandt werden, wenn nur wenige verschiedene Merkmalsausprägungen vorliegen benötigt eine Stichprobengröße, die garantiert, dass jede Merkmalsausprägung mindestens fünf Beobachtungen aufweist; ansonsten müssen Merkmalsklassen gebildet werden; sinnvollerweise aus benachbarten Werten. Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS Fehlende Daten Strukturanalyse Induktive Analyse fehlender Daten Der χ 2 -Anpassungstest: Definition Die Wahrscheinlichkeit einer Merkmalsausprägung a t sei p t, die beobachtete Häufigkeit sei h t. Insgesamt können k verschiedene Ausprägungen bei n Objekten beobachtet werden. Der Testfunktionswert T des χ 2 -Anpassungstests ist dann wie folgt definiert: T = k t=1 (h t n p t ) 2 n p t T folgt näherungsweise einer χ 2 (k 1)-Verteilung. Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS
35 Fehlende Daten Strukturanalyse Induktive Analyse fehlender Daten Beispiel: χ 2 -Anpassungstest für MD Im Rahmen einer Analyse werden 100 Personen befragt, von denen 35 beim Merkmal Geschlecht keine Antwort gegeben haben. Unter den Verbleibenden waren 30 Männer und 35 Frauen. Von der zugrunde gelegten Grundgesamtheit weiß man, dass die beiden Geschlechter im Verhältnis 2 : 3 verteilt sind. Für den Testfunktionswert T ergibt sich T = k t=1 (h t n p t ) 2 n p t = ( ) ( ) = Das 95%-Fraktil der χ 2 (1)-Verteilung ist 3.84, der Testfunktionswert ist in diesem Fall kleiner, die Nullhypothese kann also nicht verworfen werden. Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS Fehlende Daten Strukturanalyse Induktive Analyse fehlender Daten Testverfahren - Typ 2 Untersuchung der Abhängigkeit der MD vom Fehlen der Daten bei anderen Merkmalen (MAR) Überprüfung, inwieweit das Fehlen der Daten bei einem Merkmal vom Fehlen der Daten bei einem anderen Merkmal abhängt Berechnung der Korrelationskoeffizienten Φ bzw. der Korrelationsmatrix R Berücksichtigung zusätzlicher, also externer Informationen nicht notwendig und damit sehr praxisnah Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS
36 Fehlende Daten Strukturanalyse Induktive Analyse fehlender Daten Typ 2 Beispiel: Globaltest der Korrelationsmatrix R Gegeben: R = (Φ kl ) = (r kl ) die nicht-singuläre Korrelationsmatrix der Dimension q q, die auf Basis der Indikatormatrix V die Abhängigkeit zwischen dem Fehlen der Daten innerhalb der Datenmatrix beschreibt mit: 2 q m. Testfunktionswert W des Globalen Korrelationstests: W = ( 4 3 q n + 5 6) ln(det R) W folgt approximativ einer χ 2 -Verteilung. Die Anzahl der Freiheitsgrade df bestimmt sich gemäß df = 1 2 q (q 1) Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS Fehlende Daten Strukturanalyse Induktive Analyse fehlender Daten Typ 2 Beispiel: Hörer einer Vorlesung Ist Fehlen der Daten in den ersten drei Merkmalen zufällig oder systematisch? Dazu: Korrelationsmatrix R der ersten drei Merkmale, dann Globaltest R A G W A G W det(r) = Teststatistik W: W = ( ) ln(0.5224) = W ist kleiner als das 95%-Fraktil der χ 2 (3)-Verteilung (7.81) Nullhypothese kann nicht verworfen werden. Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS
37 Fehlende Daten Strukturanalyse Induktive Analyse fehlender Daten Testverfahren - Typ 3: auf MCAR Untersuchung der Abhängigkeit der MD von den vorhandenen Ausprägungen bei anderen Merkmalen: MCAR. Voraussetzung: MAR ist schon gezeigt oder kann angenommen werden. Überprüfung, inwieweit das Fehlen der Daten bei Merkmal k auf bestimmte Ausprägungen eines Merkmals l k zurückzuführen sind Berechnung skalenniveau-adäquater Lageparameter für sinnvolle Merkmale l, möglichst ohne MD in l, wobei eine Gruppierung in Merkmal k fehlt bzw. Merkmal k fehlt nicht erfolgt anschließend Test der Lageparameter auf Gleichheit Berücksichtigung externer Informationen nicht notwendig und damit sehr praxisnah Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS Fehlende Daten Strukturanalyse Induktive Analyse fehlender Daten Testverfahren - Typ 3, Beispiel: Approximativer Zweistichenproben-Gaußtest überprüft, inwieweit die für ein kardinales Merkmal in zwei Gruppen vorliegenden Daten parametrischen, hypothetischen Verteilungen genügen, die durch die Erwartungswerte µ 1 und µ 2 charakterisiert sind (H 0 : µ 1 = µ 2 ). benötigt zwei Stichproben, die je mindestens 30 Beobachtungen enthalten. Bei weniger als 30 Beobachtungen: Alternative Zweistichproben-Test, z.b. exakter 2-Stip-B(n, p)-test, falls Anzahl der Beobachtungen nicht zu groß, siehe Bamberg, Baur, S. 193f. Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS
38 Fehlende Daten Strukturanalyse Induktive Analyse fehlender Daten Testverfahren - Typ 3, Beispiel: Approximativer Zweistichenproben-Gaußtest (Definition) X bzw. Y seien Mittelwert der n 1 bzw. n 2 vorhandenen Ausprägungen bei Merkmal l für die Objekte, für die bei Merkmal k fehlende bzw. vorhandene Daten vorliegen. S 1 und S 2 seien die zugehörigen empirischen Standardabweichungen. Dann: Testfunktionswert T des approximativen Zweistichproben-Gaußtest wie folgt: T = X Y S 2 1 n 1 + S2 2 n 2 Approximativ gilt: T N(0, 1)-Verteilung. Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS Fehlende Daten Strukturanalyse Induktive Analyse fehlender Daten Testverfahren - Typ 3, Beispiel: Approximativer Zweistichenproben-Gaußtest, konkreter Fall Bei der Befragung von 100 Personen haben 35 beim Merkmal Geschlecht keine Antwort gegeben. Beim Merkmal Alter hingegen antworteten alle Personen Das Durchschnittsalter unter den Verweigerern ist 28.4, bei den Antwortenden aber Die separate Berechnung der empirischen Standardabweichung ergibt die Werte 2 bzw. 3 Jahre. Berechnung des Testfunktionswerts T : T = = 3.58 T ist im Verwerfungsbereich (, 1.96) (1.96, ) der N(0, 1)-Verteilung zur Irrtumswahrscheinlichkeit von 5% Also: Die Nullhypothese kann verworfen werden. Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS
39 Fehlende Daten Behandlung fehlender Daten Verfahren zu Behandlung Ergebnis der Strukturanalyse liefert eventuell geeignete Verfahren zur Behandlung der fehlenden Daten Unterscheidung zwischen Verfahrenskategorien: - Eliminierungsverfahren - Imputationsverfahren - Sonstige Verfahren Eliminierungsverfahren (EV) Schließen Objekte bzw. Merkmale mit fehlenden Werten aus der Untersuchung aus. Eliminieren von Objekten ist nur unter der Annahme, dass die Daten der Bedingung MCAR genügen, uneingeschränkt anwendbar. Anschließend: Auswertung mit reduziertem, aber MD-freiem Datenmaterial erfolgen. Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS Fehlende Daten Behandlung fehlender Daten Eliminierung Complete-Case Analysis Nur die Objekte werden in einer Analyse verwendet, deren Merkmalsausprägungen bezüglich aller Merkmale vorliegen. Alternativ: Auswertung nur für vollständig erhobene Merkmale. Akzeptabel, falls Datenmatrix einen geringen Prozentsatz fehlender Werte aufweist (< 5%) Gefahr: Erhebliche Verzerrungen, wenn Voraussetzung MCAR nicht gesichert ist. Available-Case Analysis Bei univariaten oder bivariaten Kennzahlen bzw. Verfahren und unvollständigen Datenmatrizen: Nicht sinnvoll, alle Objekte zu eliminieren, die überhaupt ein MD vorweisen. Sinnvoller hier: Eliminieren nur der Objekte, mit fehlenden Werten bei dem bzw. den betrachteten Merkmal(en) Sprechweise dann: Available-case analysis bzw. Pairwise available-case analysis. Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS
40 Fehlende Daten Behandlung fehlender Daten Eliminierung Beispiele Für: Available-case analysis: Berechnung aller univariaten Kennzahlen, z.b. Lageparameter oder Streuungsparameter durch vorhandene Daten des Merkmals Für Pairwise available-case analysis: Berechnung der Korrelation zwischen zwei Merkmalen mit den Objekten, für die bei beiden Merkmalen Werte vorliegen. Eigenschaften der Eliminierungsverfahren + Vorteil: Einfache Anwendbarkeit Resultat: Vollständige Datenmatrix - Nachteil: Informationsverlust durch die Eliminierung vorhandener Daten potentielle Strukturverzerrung Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS Fehlende Daten Behandlung fehlender Daten Imputation Imputationsverfahren (IV) fehlende Werte in der Datenmatrix werden durch Schätzungen ersetzt, die auf den vorhandenen Werten basieren. In Abhängigkeit von der Imputationstechnik müssen die Daten MAR oder MCAR sein. Anschließend Auswertung möglich wie bei vollständigem Datenmaterial Aber: Meist Verzerrungen, die aber oft auf ein akzeptables Maß reduziert werden können. Einfache Imputationstechniken Die hier vorgestellten IV liefern ohne großen Aufwand Schätzungen für die fehlenden Daten setzen aber voraus, dass das Fehlen einzelner Werte unabhängig von den fehlenden sowie den vorhandenen Werte der Datenmatrix ist (MCAR) Man unterscheidet dabei vor allem Imputation des Lageparameters Imputation mittels Verhältnisschätzer Imputation mittels Zufallsauswahl Imputation auf Basis von Expertenratings Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS
41 Imputation Fehlende Daten Behandlung fehlender Daten Imputation des Lageparameters Imputationswert z.b. durch Lageparameter Je nach Skalenniveau der Merkmale dann z.b. als Schätzwert für fehlende Werte - für metrisch skalierte Merkmale einer Datenmatrix das arithmetische Mittel a ik = a k = 1 a jk i, k : v ik = 0, N k j N k - für ordinal skalierte den Median - für nominal skalierte den Modus Dabei: N k = {i : v ik = 1} a ik = a Med k i, k : v ik = 0 und a ik = a Mod k i, k : v ik = 0. Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS Imputation Fehlende Daten Behandlung fehlender Daten Imputation mittels Verhältnisschätzer Voraussetzungen: 1. Merkmal M k mit MD hat metrisches Datennvieau und es existiert ein weiteres, zu M k hoch korreliertes Merkmal M l, das ebenfalls metrisches Datenniveau besitzt. 2. Beim Hilfsmerkmal M l müssen mindestens für die Objekte, bei denen beim zu ersetzenden Merkmal M k Daten zu schätzen sind, Werte vorhanden sein. Dabei werden die fehlenden Daten von M k durch die Verwendung des Hilfsmerkmals M l geeignet ersetzt: a jl a jk a ik = a Ratio j N k = l j N k N l a jl j N k ( i,k : v ik = 0; k,l M, N k N l ) Bemerkungen: - N k = N l a Ratio k = a k - Für sinnvolle Verhältnisschätzungen sollte deswegen N k N l gelten - Ideal wäre N l = {1,..., n} Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS
42 Fehlende Daten Behandlung fehlender Daten Imputation und sonstige Verfahren zur Behandlung Imputation mittels Zufallszahlen Bedingung: MCAR Dabei: Ersetzung durch einen von einem Zufallszahlengenerator erzeugten Wert oder durch eine Zufallsauswahl aus den vorhandenen Daten Sonstige Verfahren Parameterschätzverfahren Schätzung von Erwartungswert, Varianz und Kovarianz auf Basis der nicht vervollständigten Daten Techniken: - Maximum-Likelihood-Theorie - EM-Algorithmus (Expectation Maximization) Multivariate Analyseverfahren: Entwicklung spezieller Verfahren, die das Fehlen von Daten explizit berücksichtigen, z.b. bei der Clusteranalyse mit Missing value linkage oder der Multidimensionalen Skalierung mit ALSCAL Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS Übersicht Distanzen 1 Grundlegendes 2 Fehlende Daten 3 Distanzen Vorüberlegungen und Begriffe Gewinnung von Distanzen Merkmalsweise Distanzen Aggregation von Distanzen 4 Repräsentation 5 Klassifikation Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS
43 Distanzen Vorüberlegungen und Begriffe Distanzen Ähnlichkeit contra Verschiedenheit Benötigt: Ein Maß, das die Ähnlichkeit zweier Objekte quantifiziert Ähnlichkeitsmaß (AM): Je größer, desto ähnlicher sind sich zwei Objekte. Folgen: - Was bedeutet ein Wert AM = 0? - Wie groß ist die Ähnlichkeit zweier identischer Objekte? Übergang zu einem Verschiedenheitsmaß = Distanz Definition: Distanzindex Sei N = 1,...,n eine Menge von n Objekten Die Abbildung heißt Distanzindex, wenn gilt: d : N N R + d(i, i) = 0 [Reflexivität] d(i, j) = d(j, i) [Symmetrie] d(i, j) 0 [Nichtnegativität] Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS Distanzen Vorüberlegungen und Begriffe Distanzen Distanzindex: Mögliche Eigenschaften Dreiecksungleichung ( ): d(i, j) d(i, h) + d(h, j) i,j, h N j Ist beispielsweise erfüllt bei räumlichem Abstandsbegriff i h Aber: Ist nicht immer haltbar bzw. sinnvoll (Beispiel: Hoher Distanzindex entspricht schwachem Bedarfsverbund bei Supermarkteinkauf) Tee Zucker Kaffee Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS
Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg. Datenanalyse II. Stefan Etschberger Sommersemester 2005
Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse II Stefan Etschberger Sommersemester 2005 Organisatorisches Vorlesung Montag, 10.15-11.45 Uhr Vorlesungsmaterialien
MehrHauptseminar am Fachgebiet für Quantitative Methoden der Wirtschaftswissenschaften
Hauptseminar am Fachgebiet für Quantitative Methoden der Wirtschaftswissenschaften Fehlende Daten in der Multivariaten Statistik SS 2011 Allgemeines Das Seminar richtet sich in erster Linie an Studierende
MehrStatistische Auswertung:
Statistische Auswertung: Die erhobenen Daten mittels der selbst erstellten Tests (Surfaufgaben) Statistics Punkte aus dem Punkte aus Surftheorietest Punkte aus dem dem und dem Surftheorietest max.14p.
MehrKorrelation (II) Korrelation und Kausalität
Korrelation (II) Korrelation und Kausalität Situation: Seien X, Y zwei metrisch skalierte Merkmale mit Ausprägungen (x 1, x 2,..., x n ) bzw. (y 1, y 2,..., y n ). D.h. für jede i = 1, 2,..., n bezeichnen
MehrGüte von Tests. die Wahrscheinlichkeit für den Fehler 2. Art bei der Testentscheidung, nämlich. falsch ist. Darauf haben wir bereits im Kapitel über
Güte von s Grundlegendes zum Konzept der Güte Ableitung der Gütefunktion des Gauss im Einstichprobenproblem Grafische Darstellung der Gütefunktionen des Gauss im Einstichprobenproblem Ableitung der Gütefunktion
MehrTutorial: Homogenitätstest
Tutorial: Homogenitätstest Eine Bank möchte die Kreditwürdigkeit potenzieller Kreditnehmer abschätzen. Einerseits lebt die Bank ja von der Vergabe von Krediten, andererseits verursachen Problemkredite
Mehr50. Mathematik-Olympiade 2. Stufe (Regionalrunde) Klasse 11 13. 501322 Lösung 10 Punkte
50. Mathematik-Olympiade. Stufe (Regionalrunde) Klasse 3 Lösungen c 00 Aufgabenausschuss des Mathematik-Olympiaden e.v. www.mathematik-olympiaden.de. Alle Rechte vorbehalten. 503 Lösung 0 Punkte Es seien
MehrEinfache Varianzanalyse für abhängige
Einfache Varianzanalyse für abhängige Stichproben Wie beim t-test gibt es auch bei der VA eine Alternative für abhängige Stichproben. Anmerkung: Was man unter abhängigen Stichproben versteht und wie diese
MehrLineargleichungssysteme: Additions-/ Subtraktionsverfahren
Lineargleichungssysteme: Additions-/ Subtraktionsverfahren W. Kippels 22. Februar 2014 Inhaltsverzeichnis 1 Einleitung 2 2 Lineargleichungssysteme zweiten Grades 2 3 Lineargleichungssysteme höheren als
Mehr1 Mathematische Grundlagen
Mathematische Grundlagen - 1-1 Mathematische Grundlagen Der Begriff der Menge ist einer der grundlegenden Begriffe in der Mathematik. Mengen dienen dazu, Dinge oder Objekte zu einer Einheit zusammenzufassen.
MehrPrimzahlen und RSA-Verschlüsselung
Primzahlen und RSA-Verschlüsselung Michael Fütterer und Jonathan Zachhuber 1 Einiges zu Primzahlen Ein paar Definitionen: Wir bezeichnen mit Z die Menge der positiven und negativen ganzen Zahlen, also
MehrLineare Gleichungssysteme
Brückenkurs Mathematik TU Dresden 2015 Lineare Gleichungssysteme Schwerpunkte: Modellbildung geometrische Interpretation Lösungsmethoden Prof. Dr. F. Schuricht TU Dresden, Fachbereich Mathematik auf der
MehrEinfache statistische Auswertungen mit dem Programm SPSS
Einfache statistische Auswertungen mit dem Programm SPSS Datensatz: fiktive_daten.sav Dipl. Päd. Anne Haßelkus Dr. Dorothea Dette-Hagenmeyer 11/2011 Überblick 1 Deskriptive Statistiken; Mittelwert berechnen...
MehrUnivariates Chi-Quadrat-Verfahren für ein dichotomes Merkmal und eine Messwiederholung: Test nach McNemar
Univariates Chi-Quadrat-Verfahren für ein dichotomes Merkmal und eine Messwiederholung: Test nach McNemar Inhaltsverzeichnis Univariates Chi-Quadrat-Verfahren für ein dichotomes Merkmal und eine Messwiederholung:
MehrQM: Prüfen -1- KN16.08.2010
QM: Prüfen -1- KN16.08.2010 2.4 Prüfen 2.4.1 Begriffe, Definitionen Ein wesentlicher Bestandteil der Qualitätssicherung ist das Prüfen. Sie wird aber nicht wie früher nach der Fertigung durch einen Prüfer,
MehrData Mining: Einige Grundlagen aus der Stochastik
Data Mining: Einige Grundlagen aus der Stochastik Hagen Knaf Studiengang Angewandte Mathematik Hochschule RheinMain 21. Oktober 2015 Vorwort Das vorliegende Skript enthält eine Zusammenfassung verschiedener
MehrKlausur zu Methoden der Statistik I (mit Kurzlösung) Wintersemester 2007/2008. Aufgabe 1
Lehrstuhl für Statistik und Ökonometrie der Otto-Friedrich-Universität Bamberg Prof. Dr. Susanne Rässler Klausur zu Methoden der Statistik I (mit Kurzlösung) Wintersemester 2007/2008 Aufgabe 1 Ihnen liegt
MehrDie Optimalität von Randomisationstests
Die Optimalität von Randomisationstests Diplomarbeit Elena Regourd Mathematisches Institut der Heinrich-Heine-Universität Düsseldorf Düsseldorf im Dezember 2001 Betreuung: Prof. Dr. A. Janssen Inhaltsverzeichnis
MehrIntrinsisch motivierte Mitarbeiter als Erfolgsfaktor für das Ideenmanagement: Eine empirische Untersuchung
Intrinsisch motivierte Mitarbeiter als Erfolgsfaktor für das Ideenmanagement: Eine empirische Untersuchung Bearbeitet von Martina Sümnig Erstauflage 2015. Taschenbuch. 176 S. Paperback ISBN 978 3 95485
MehrBehörde für Bildung und Sport Abitur 2008 Lehrermaterialien zum Leistungskurs Mathematik
Abitur 8 II. Insektenpopulation LA/AG In den Tropen legen die Weibchen einer in Deutschland unbekannten Insektenpopulation jedes Jahr kurz vor Beginn der Regenzeit jeweils 9 Eier und sterben bald darauf.
MehrLineare Funktionen. 1 Proportionale Funktionen 3 1.1 Definition... 3 1.2 Eigenschaften... 3. 2 Steigungsdreieck 3
Lineare Funktionen Inhaltsverzeichnis 1 Proportionale Funktionen 3 1.1 Definition............................... 3 1.2 Eigenschaften............................. 3 2 Steigungsdreieck 3 3 Lineare Funktionen
MehrStatistik II Wahrscheinlichkeitsrechnung und induktive Statistik Erste Klausur zum Sommersemester 2005 26. Juli 2005
Statistik II Wahrscheinlichkeitsrechnung und induktive Statistik Erste Klausur zum Sommersemester 2005 26. Juli 2005 Aufgabe 1: Grundzüge der Wahrscheinlichkeitsrechnung 19 P. Als Manager eines großen
Mehr2. Deskriptive Statistik 2.1. Häufigkeitstabellen, Histogramme, empirische Verteilungsfunktionen
4. Datenanalyse und Modellbildung Deskriptive Statistik 2-1 2. Deskriptive Statistik 2.1. Häufigkeitstabellen, Histogramme, empirische Verteilungsfunktionen Für die Auswertung einer Messreihe, die in Form
MehrEinführung in die Algebra
Prof. Dr. H. Brenner Osnabrück SS 2009 Einführung in die Algebra Vorlesung 13 Einheiten Definition 13.1. Ein Element u in einem Ring R heißt Einheit, wenn es ein Element v R gibt mit uv = vu = 1. DasElementv
MehrBeweisbar sichere Verschlüsselung
Beweisbar sichere Verschlüsselung ITS-Wahlpflichtvorlesung Dr. Bodo Möller Ruhr-Universität Bochum Horst-Görtz-Institut für IT-Sicherheit Lehrstuhl für Kommunikationssicherheit bmoeller@crypto.rub.de 6
Mehr7 Rechnen mit Polynomen
7 Rechnen mit Polynomen Zu Polynomfunktionen Satz. Zwei Polynomfunktionen und f : R R, x a n x n + a n 1 x n 1 + a 1 x + a 0 g : R R, x b n x n + b n 1 x n 1 + b 1 x + b 0 sind genau dann gleich, wenn
MehrMelanie Kaspar, Prof. Dr. B. Grabowski 1
7. Hypothesentests Ausgangssituation: Man muss sich zwischen 2 Möglichkeiten (=Hypothesen) entscheiden. Diese Entscheidung soll mit Hilfe von Beobachtungen ( Stichprobe ) getroffen werden. Die Hypothesen
MehrKontingenzkoeffizient (nach Pearson)
Assoziationsmaß für zwei nominale Merkmale misst die Unabhängigkeit zweier Merkmale gibt keine Richtung eines Zusammenhanges an 46 o jl beobachtete Häufigkeiten der Kombination von Merkmalsausprägungen
MehrBerechnung der Erhöhung der Durchschnittsprämien
Wolfram Fischer Berechnung der Erhöhung der Durchschnittsprämien Oktober 2004 1 Zusammenfassung Zur Berechnung der Durchschnittsprämien wird das gesamte gemeldete Prämienvolumen Zusammenfassung durch die
MehrLU-Zerlegung. Zusätze zum Gelben Rechenbuch. Peter Furlan. Verlag Martina Furlan. Inhaltsverzeichnis. 1 Definitionen.
Zusätze zum Gelben Rechenbuch LU-Zerlegung Peter Furlan Verlag Martina Furlan Inhaltsverzeichnis Definitionen 2 (Allgemeine) LU-Zerlegung 2 3 Vereinfachte LU-Zerlegung 3 4 Lösung eines linearen Gleichungssystems
MehrElemente der Analysis I Kapitel 2: Einführung II, Gleichungen
Elemente der Analysis I Kapitel 2: Einführung II, Gleichungen Prof. Dr. Volker Schulz Universität Trier / FB IV / Abt. Mathematik 8. November 2010 http://www.mathematik.uni-trier.de/ schulz/elan-ws1011.html
MehrInstitut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg. Datenanalyse I. Stefan Etschberger Wintersemester 2004/2005
Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg analyse I Stefan Etschberger Wintersemester 2004/2005 Organisatorisches Vorlesung Montag, 8.30-10.15 Uhr Vorlesungsmaterialien
MehrProfil A 49,3 48,2 50,7 50,9 49,8 48,7 49,6 50,1 Profil B 51,8 49,6 53,2 51,1 51,1 53,4 50,7 50 51,5 51,7 48,8
1. Aufgabe: Eine Reifenfirma hat für Winterreifen unterschiedliche Profile entwickelt. Bei jeweils gleicher Geschwindigkeit und auch sonst gleichen Bedingungen wurden die Bremswirkungen gemessen. Die gemessenen
MehrBachelorabschlussseminar Dipl.-Kfm. Daniel Cracau
1 Einführung in die statistische Datenanalyse Bachelorabschlussseminar Dipl.-Kfm. Daniel Cracau 2 Gliederung 1.Grundlagen 2.Nicht-parametrische Tests a. Mann-Whitney-Wilcoxon-U Test b. Wilcoxon-Signed-Rank
MehrGrundlagen der Datenanalyse am Beispiel von SPSS
Grundlagen der Datenanalyse am Beispiel von SPSS Einführung Dipl. - Psych. Fabian Hölzenbein hoelzenbein@psychologie.uni-freiburg.de Einführung Organisatorisches Was ist Empirie? Was ist Statistik? Dateneingabe
MehrEinführung in statistische Analysen
Einführung in statistische Analysen Andreas Thams Econ Boot Camp 2008 Wozu braucht man Statistik? Statistik begegnet uns jeden Tag... Weihnachten macht Deutschen Einkaufslaune. Im Advent überkommt die
MehrÜberblick über die Tests
Anhang A Überblick über die Tests A.1 Ein-Stichproben-Tests A.1.1 Tests auf Verteilungsannahmen ˆ Shapiro-Wilk-Test Situation: Test auf Normalverteilung H 0 : X N(µ, σ 2 ) H 1 : X nicht normalverteilt
MehrLineare Gleichungssysteme
Lineare Gleichungssysteme Eines der am häufigsten auftretenden Standardprobleme der angewandten Mathematik ist das Lösen linearer Gleichungssysteme, etwa zur Netzwerkberechnung in der Elektrotechnik oder
MehrVerband der TÜV e. V. STUDIE ZUM IMAGE DER MPU
Verband der TÜV e. V. STUDIE ZUM IMAGE DER MPU 2 DIE MEDIZINISCH-PSYCHOLOGISCHE UNTERSUCHUNG (MPU) IST HOCH ANGESEHEN Das Image der Medizinisch-Psychologischen Untersuchung (MPU) ist zwiespältig: Das ist
MehrGleichungen Lösen. Ein graphischer Blick auf Gleichungen
Gleichungen Lösen Was bedeutet es, eine Gleichung zu lösen? Was ist überhaupt eine Gleichung? Eine Gleichung ist, grundsätzlich eine Aussage über zwei mathematische Terme, dass sie gleich sind. Ein Term
MehrLineare Gleichungssysteme I (Matrixgleichungen)
Lineare Gleichungssysteme I (Matrigleichungen) Eine lineare Gleichung mit einer Variable hat bei Zahlen a, b, die Form a b. Falls hierbei der Kehrwert von a gebildet werden darf (a 0), kann eindeutig aufgelöst
MehrEtwas positive Tendenz ist beim Wechsel der Temperatur von 120 auf 170 zu erkennen.
Explorative Datenanalyse Erstmal die Grafiken: Aufreisskraft und Temperatur 3 1-1 N = 1 15 17 Temperatur Diagramm 3 1 95% CI -1 N = 1 15 17 Temperatur Etwas positive Tendenz ist beim Wechsel der Temperatur
MehrVon der Untersuchungsfrage zu statistischen Hypothesen, und wie war das nochmal mit dem α- und
Von der Untersuchungsfrage zu statistischen Hypothesen, und wie war das nochmal mit dem α- und β-fehler? Sven Garbade Fakultät für Angewandte Psychologie SRH Hochschule Heidelberg sven.garbade@hochschule-heidelberg.de
MehrAuswertung mit dem Statistikprogramm SPSS: 30.11.05
Auswertung mit dem Statistikprogramm SPSS: 30.11.05 Seite 1 Einführung SPSS Was ist eine Fragestellung? Beispiel Welche statistische Prozedur gehört zu welcher Hypothese? Statistische Berechnungen mit
Mehr9. Schätzen und Testen bei unbekannter Varianz
9. Schätzen und Testen bei unbekannter Varianz Dr. Antje Kiesel Institut für Angewandte Mathematik WS 2011/2012 Schätzen und Testen bei unbekannter Varianz Wenn wir die Standardabweichung σ nicht kennen,
MehrForschungsmethoden in der Sozialen Arbeit
Forschungsmethoden in der Sozialen Arbeit Erhebungsinstrument Lehrveranstaltung an der Fachhochschule für Sozialarbeit und Sozialpädagogik "Alice Salomon" Hochschule für Soziale Arbeit, Gesundheit, Erziehung
Mehr4. Erstellen von Klassen
Statistik mit Tabellenkalkulation 4. Erstellen von Klassen Mit einem einfachen Befehl lässt sich eine Liste von Zahlen auf die Häufigkeit der einzelnen Werte untersuchen. Verwenden Sie dazu den Befehl
MehrWillkommen zur Vorlesung Statistik
Willkommen zur Vorlesung Statistik Thema dieser Vorlesung: Varianzanalyse Prof. Dr. Wolfgang Ludwig-Mayerhofer Universität Siegen Philosophische Fakultät, Seminar für Sozialwissenschaften Prof. Dr. Wolfgang
MehrStatistik I für Betriebswirte Vorlesung 11
Statistik I für Betriebswirte Vorlesung 11 Prof. Dr. Hans-Jörg Starkloff TU Bergakademie Freiberg Institut für Stochastik 22. Juni 2012 Prof. Dr. Hans-Jörg Starkloff Statistik I für Betriebswirte Vorlesung
MehrGrundlagen der Inferenzstatistik
Grundlagen der Inferenzstatistik (Induktive Statistik oder schließende Statistik) Dr. Winfried Zinn 1 Deskriptive Statistik versus Inferenzstatistik Die Deskriptive Statistik stellt Kenngrößen zur Verfügung,
MehrStudiendesign/ Evaluierungsdesign
Jennifer Ziegert Studiendesign/ Evaluierungsdesign Praxisprojekt: Nutzerorientierte Evaluierung von Visualisierungen in Daffodil mittels Eyetracker Warum Studien /Evaluierungsdesign Das Design einer Untersuchung
MehrTeil I: Deskriptive Statistik
Teil I: Deskriptive Statistik 2 Grundbegriffe 2.1 Merkmal und Stichprobe 2.2 Skalenniveau von Merkmalen 2.3 Geordnete Stichproben und Ränge 2.1 Merkmal und Stichprobe An (geeignet ausgewählten) Untersuchungseinheiten
MehrStatistik für Studenten der Sportwissenschaften SS 2008
Statistik für Studenten der Sportwissenschaften SS 008 Aufgabe 1 Man weiß von Rehabilitanden, die sich einer bestimmten Gymnastik unterziehen, dass sie im Mittel µ=54 Jahre (σ=3 Jahre) alt sind. a) Welcher
MehrÜberblick über die Verfahren für Ordinaldaten
Verfahren zur Analyse ordinalskalierten Daten 1 Überblick über die Verfahren für Ordinaldaten Unterschiede bei unabhängigen Stichproben Test U Test nach Mann & Whitney H Test nach Kruskal & Wallis parametrische
MehrInformationsblatt Induktionsbeweis
Sommer 015 Informationsblatt Induktionsbeweis 31. März 015 Motivation Die vollständige Induktion ist ein wichtiges Beweisverfahren in der Informatik. Sie wird häufig dazu gebraucht, um mathematische Formeln
MehrAnwendungshinweise zur Anwendung der Soziometrie
Anwendungshinweise zur Anwendung der Soziometrie Einführung Die Soziometrie ist ein Verfahren, welches sich besonders gut dafür eignet, Beziehungen zwischen Mitgliedern einer Gruppe darzustellen. Das Verfahren
MehrDie reellen Lösungen der kubischen Gleichung
Die reellen Lösungen der kubischen Gleichung Klaus-R. Löffler Inhaltsverzeichnis 1 Einfach zu behandelnde Sonderfälle 1 2 Die ganzrationale Funktion dritten Grades 2 2.1 Reduktion...........................................
MehrMessung von Veränderungen. Dr. Julia Kneer Universität des Saarlandes
von Veränderungen Dr. Julia Kneer Universität des Saarlandes Veränderungsmessung Veränderungsmessung kennzeichnet ein Teilgebiet der Methodenlehre, das direkt mit grundlegenden Fragestellungen der Psychologie
MehrII. Zum Jugendbegleiter-Programm
II. Zum Jugendbegleiter-Programm A. Zu den Jugendbegleiter/inne/n 1. Einsatz von Jugendbegleiter/inne/n Seit Beginn des Schuljahres 2007/2008 setzen die 501 Modellschulen 7.068 Jugendbegleiter/innen ein.
MehrDie Gleichung A x = a hat für A 0 die eindeutig bestimmte Lösung. Für A=0 und a 0 existiert keine Lösung.
Lineare Gleichungen mit einer Unbekannten Die Grundform der linearen Gleichung mit einer Unbekannten x lautet A x = a Dabei sind A, a reelle Zahlen. Die Gleichung lösen heißt, alle reellen Zahlen anzugeben,
MehrMean Time Between Failures (MTBF)
Mean Time Between Failures (MTBF) Hintergrundinformation zur MTBF Was steht hier? Die Mean Time Between Failure (MTBF) ist ein statistischer Mittelwert für den störungsfreien Betrieb eines elektronischen
MehrWürfelt man dabei je genau 10 - mal eine 1, 2, 3, 4, 5 und 6, so beträgt die Anzahl. der verschiedenen Reihenfolgen, in denen man dies tun kann, 60!.
040304 Übung 9a Analysis, Abschnitt 4, Folie 8 Die Wahrscheinlichkeit, dass bei n - maliger Durchführung eines Zufallexperiments ein Ereignis A ( mit Wahrscheinlichkeit p p ( A ) ) für eine beliebige Anzahl
Mehr1.3 Die Beurteilung von Testleistungen
1.3 Die Beurteilung von Testleistungen Um das Testergebnis einer Vp zu interpretieren und daraus diagnostische Urteile ableiten zu können, benötigen wir einen Vergleichsmaßstab. Im Falle des klassischen
MehrPrognose des Studienerfolgs mittels Creditpoints
Prognose des Studienerfolgs mittels Creditpoints HAW-Modell Das Analyse-Modell der HAW Hamburg misst den quantitativen Erfolg eines Studierenden, indem die bis zum Ende eines Semesters erworbenen Creditpoints
MehrRisikodiversifikation. Birgit Hausmann
diversifikation Birgit Hausmann Übersicht: 1. Definitionen 1.1. 1.2. diversifikation 2. messung 2.1. messung im Überblick 2.2. Gesamtaktienrisiko und Volatilität 2.3. Systematisches und Betafaktor 2.4.
MehrGrundlagen der Theoretischen Informatik, SoSe 2008
1. Aufgabenblatt zur Vorlesung Grundlagen der Theoretischen Informatik, SoSe 2008 (Dr. Frank Hoffmann) Lösung von Manuel Jain und Benjamin Bortfeldt Aufgabe 2 Zustandsdiagramme (6 Punkte, wird korrigiert)
MehrVermögensbildung: Sparen und Wertsteigerung bei Immobilien liegen vorn
An die Redaktionen von Presse, Funk und Fernsehen 32 02. 09. 2002 Vermögensbildung: Sparen und Wertsteigerung bei Immobilien liegen vorn Das aktive Sparen ist nach wie vor die wichtigste Einflussgröße
MehrVersuchsplanung. Inhalt. Grundlagen. Faktor-Effekt. Allgemeine faktorielle Versuchspläne. Zweiwertige faktorielle Versuchspläne
Inhalt Versuchsplanung Faktorielle Versuchspläne Dr. Tobias Kiesling Allgemeine faktorielle Versuchspläne Faktorielle Versuchspläne mit zwei Faktoren Erweiterungen Zweiwertige
MehrZusammenhänge zwischen metrischen Merkmalen
Zusammenhänge zwischen metrischen Merkmalen Darstellung des Zusammenhangs, Korrelation und Regression Daten liegen zu zwei metrischen Merkmalen vor: Datenpaare (x i, y i ), i = 1,..., n Beispiel: x: Anzahl
MehrTipp III: Leiten Sie eine immer direkt anwendbare Formel her zur Berechnung der sogenannten "bedingten Wahrscheinlichkeit".
Mathematik- Unterrichts- Einheiten- Datei e. V. Klasse 9 12 04/2015 Diabetes-Test Infos: www.mued.de Blutspenden werden auf Diabetes untersucht, das mit 8 % in der Bevölkerung verbreitet ist. Dabei werden
MehrLeseprobe. Wilhelm Kleppmann. Versuchsplanung. Produkte und Prozesse optimieren ISBN: 978-3-446-42033-5. Weitere Informationen oder Bestellungen unter
Leseprobe Wilhelm Kleppmann Versuchsplanung Produkte und Prozesse optimieren ISBN: -3-44-4033-5 Weitere Informationen oder Bestellungen unter http://www.hanser.de/-3-44-4033-5 sowie im Buchhandel. Carl
MehrSUDOKU - Strategien zur Lösung
SUDOKU Strategien v. /00 SUDOKU - Strategien zur Lösung. Naked Single (Eindeutiger Wert)? "Es gibt nur einen einzigen Wert, der hier stehen kann". Sind alle anderen Werte bis auf einen für eine Zelle unmöglich,
MehrSchleswig-Holstein 2011. Kernfach Mathematik
Aufgabe 6: Stochastik Vorbemerkung: Führen Sie stets geeignete Zufallsvariablen und Namen für Ereignisse ein. Machen Sie auch Angaben über die Verteilung der jeweiligen Zufallsvariablen. Eine repräsentative
MehrIm Jahr t = 0 hat eine Stadt 10.000 Einwohner. Nach 15 Jahren hat sich die Einwohnerzahl verdoppelt. z(t) = at + b
Aufgabe 1: Im Jahr t = 0 hat eine Stadt 10.000 Einwohner. Nach 15 Jahren hat sich die Einwohnerzahl verdoppelt. (a) Nehmen Sie lineares Wachstum gemäß z(t) = at + b an, wobei z die Einwohnerzahl ist und
Mehr4 Vorlesung: 21.11. 2005 Matrix und Determinante
4 Vorlesung: 2111 2005 Matrix und Determinante 41 Matrix und Determinante Zur Lösung von m Gleichungen mit n Unbekannten kann man alle Parameter der Gleichungen in einem rechteckigen Zahlenschema, einer
MehrWelche Lagen können zwei Geraden (im Raum) zueinander haben? Welche Lagen kann eine Gerade bezüglich einer Ebene im Raum einnehmen?
Welche Lagen können zwei Geraden (im Raum) zueinander haben? Welche Lagen können zwei Ebenen (im Raum) zueinander haben? Welche Lagen kann eine Gerade bezüglich einer Ebene im Raum einnehmen? Wie heiÿt
MehrCharakteristikum des Gutachtenstils: Es wird mit einer Frage begonnen, sodann werden die Voraussetzungen Schritt für Schritt aufgezeigt und erörtert.
Der Gutachtenstil: Charakteristikum des Gutachtenstils: Es wird mit einer Frage begonnen, sodann werden die Voraussetzungen Schritt für Schritt aufgezeigt und erörtert. Das Ergebnis steht am Schluß. Charakteristikum
MehrDefinition 3.1: Ein Differentialgleichungssystem 1. Ordnung
Kapitel 3 Dynamische Systeme Definition 31: Ein Differentialgleichungssystem 1 Ordnung = f(t, y) ; y R N ; f : R R N R N heißt namisches System auf dem Phasenraum R N Der Parameter t wird die Zeit genannt
MehrR ist freie Software und kann von der Website. www.r-project.org
R R ist freie Software und kann von der Website heruntergeladen werden. www.r-project.org Nach dem Herunterladen und der Installation von R kann man R durch Doppelklicken auf das R-Symbol starten. R wird
MehrInsiderwissen 2013. Hintergrund
Insiderwissen 213 XING EVENTS mit der Eventmanagement-Software für Online Eventregistrierung &Ticketing amiando, hat es sich erneut zur Aufgabe gemacht zu analysieren, wie Eventveranstalter ihre Veranstaltungen
MehrLEITFADEN ZUR SCHÄTZUNG DER BEITRAGSNACHWEISE
STOTAX GEHALT UND LOHN Stollfuß Medien LEITFADEN ZUR SCHÄTZUNG DER BEITRAGSNACHWEISE Stand 09.12.2009 Seit dem Januar 2006 hat der Gesetzgeber die Fälligkeit der SV-Beiträge vorgezogen. So kann es vorkommen,
MehrFortgeschrittene Statistik Logistische Regression
Fortgeschrittene Statistik Logistische Regression O D D S, O D D S - R A T I O, L O G I T T R A N S F O R M A T I O N, I N T E R P R E T A T I O N V O N K O E F F I Z I E N T E N, L O G I S T I S C H E
MehrBetragsgleichungen und die Methode der Fallunterscheidungen
mathe online Skripten http://www.mathe-online.at/skripten/ Betragsgleichungen und die Methode der Fallunterscheidungen Franz Embacher Fakultät für Mathematik der Universität Wien E-mail: franz.embacher@univie.ac.at
MehrGrundbegriffe der Informatik
Grundbegriffe der Informatik Einheit 15: Reguläre Ausdrücke und rechtslineare Grammatiken Thomas Worsch Universität Karlsruhe, Fakultät für Informatik Wintersemester 2008/2009 1/25 Was kann man mit endlichen
MehrAuswerten mit Excel. Viele Video-Tutorials auf Youtube z.b. http://www.youtube.com/watch?v=vuuky6xxjro
Auswerten mit Excel Viele Video-Tutorials auf Youtube z.b. http://www.youtube.com/watch?v=vuuky6xxjro 1. Pivot-Tabellen erstellen: In der Datenmaske in eine beliebige Zelle klicken Registerkarte Einfügen
MehrW-Rechnung und Statistik für Ingenieure Übung 11
W-Rechnung und Statistik für Ingenieure Übung 11 Christoph Kustosz (kustosz@statistik.tu-dortmund.de) Mathematikgebäude Raum 715 Christoph Kustosz (kustosz@statistik.tu-dortmund.de) W-Rechnung und Statistik
MehrAbb. 30: Antwortprofil zum Statement Diese Kennzahl ist sinnvoll
Reklamationsquote Stornierungsquote Inkassoquote Customer-Lifetime-Value Hinsichtlich der obengenannten Kennzahlen bzw. Kontrollgrößen für die Neukundengewinnung wurden den befragten Unternehmen drei Statements
MehrOutlook. sysplus.ch outlook - mail-grundlagen Seite 1/8. Mail-Grundlagen. Posteingang
sysplus.ch outlook - mail-grundlagen Seite 1/8 Outlook Mail-Grundlagen Posteingang Es gibt verschiedene Möglichkeiten, um zum Posteingang zu gelangen. Man kann links im Outlook-Fenster auf die Schaltfläche
MehrDAS PARETO PRINZIP DER SCHLÜSSEL ZUM ERFOLG
DAS PARETO PRINZIP DER SCHLÜSSEL ZUM ERFOLG von Urs Schaffer Copyright by Urs Schaffer Schaffer Consulting GmbH Basel www.schaffer-consulting.ch Info@schaffer-consulting.ch Haben Sie gewusst dass... >
MehrV 2 B, C, D Drinks. Möglicher Lösungsweg a) Gleichungssystem: 300x + 400 y = 520 300x + 500y = 597,5 2x3 Matrix: Energydrink 0,7 Mineralwasser 0,775,
Aufgabenpool für angewandte Mathematik / 1. Jahrgang V B, C, D Drinks Ein gastronomischer Betrieb kauft 300 Dosen Energydrinks (0,3 l) und 400 Liter Flaschen Mineralwasser und zahlt dafür 50, Euro. Einen
Mehretutor Benutzerhandbuch XQuery Benutzerhandbuch Georg Nitsche
etutor Benutzerhandbuch Benutzerhandbuch XQuery Georg Nitsche Version 1.0 Stand März 2006 Versionsverlauf: Version Autor Datum Änderungen 1.0 gn 06.03.2006 Fertigstellung der ersten Version Inhaltsverzeichnis:
MehrAUTOMATISIERTE HANDELSSYSTEME
UweGresser Stefan Listing AUTOMATISIERTE HANDELSSYSTEME Erfolgreich investieren mit Gresser K9 FinanzBuch Verlag 1 Einsatz des automatisierten Handelssystems Gresser K9 im Portfoliomanagement Portfoliotheorie
MehrZeichen bei Zahlen entschlüsseln
Zeichen bei Zahlen entschlüsseln In diesem Kapitel... Verwendung des Zahlenstrahls Absolut richtige Bestimmung von absoluten Werten Operationen bei Zahlen mit Vorzeichen: Addieren, Subtrahieren, Multiplizieren
MehrStatistik I für Betriebswirte Vorlesung 5
Statistik I für Betriebswirte Vorlesung 5 PD Dr. Frank Heyde TU Bergakademie Freiberg Institut für Stochastik 07. Mai 2015 PD Dr. Frank Heyde Statistik I für Betriebswirte Vorlesung 5 1 Klassische Wahrscheinlichkeitsdefinition
MehrProjekt-Ideenskizze. Markt: Telekommunikation
Projekt-Ideenskizze Markt: Telekommunikation 1. Zu untersuchende Fragestellung 2. Zielsetzung des Marktforschungsprojektes 3. Geplante Marktforschungsmethoden + Begründung 4. Planung der Durchführung 5.
MehrStatistik mit Excel. für Praktiker: Statistiken aufbereiten und präsentieren HORST-DIETER RADKE
Statistik mit Excel für Praktiker: Statistiken aufbereiten und präsentieren HORST-DIETER RADKE INHALTS- VERZEICHNIS Vorwort 13 Schreiben Sie uns! 15 1 Statistische Untersuchungen 17 Wozu Statistik? 18
MehrReligionsmonitor Online-Befragung Hintergrundinformationen 15.12.2009
Religionsmonitor Online-Befragung Hintergrundinformationen 15.12.2009 Religionsmonitor Online-Befragung Hintergrundinformationen Seite 2 Religionsmonitor Online-Befragung Hintergrundinformationen Methodische
Mehr13. Lineare DGL höherer Ordnung. Eine DGL heißt von n-ter Ordnung, wenn Ableitungen y, y, y,... bis zur n-ten Ableitung y (n) darin vorkommen.
13. Lineare DGL höherer Ordnung. Eine DGL heißt von n-ter Ordnung, wenn Ableitungen y, y, y,... bis zur n-ten Ableitung y (n) darin vorkommen. Sie heißt linear, wenn sie die Form y (n) + a n 1 y (n 1)
Mehr