Datenanalyse und Data Mining

Größe: px
Ab Seite anzeigen:

Download "Datenanalyse und Data Mining"

Transkript

1 Datenanalyse und Data Mining TM (B. Eng.), BM (B. A.) (Materialien) Prof. Dr. Stefan Etschberger Hochschule Weingarten Sommersemester SS 2010 Veranstaltungskonzept Konzept Bis auf einige Grundlagen keine Vorlesung, seminaristischer Ansatz Jeder Teilnehmer arbeitet sich in ein Thema ein, arbeitet Theorie und Praxisanwendung in einem Foliensatz aus und präsentiert die Ergebnisse im Plenum 3 Absprache- und Fragetermine (Terminkoordination) Dann 2 oder 3 Präsentationstermine der Ergebnisse Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS

2 Übersicht 1. Grundlegendes 1 Grundlegendes Grundbegriffe Anwendungsbereiche Dreiteilung der Datenanalyse Objekte und Merkmale Merkmalstypen und Skalenarten 2 Fehlende Daten 3 Distanzen 4 Repräsentation 5 Klassifikation Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS Bücher 1. Grundlegendes Backhaus, K.; Erichson, B.; Plinke, W.; Weiber, R. (2003): Multivariate Analysemethoden, Springer, Berlin and Heidelberg and New York, 10. Auflage. Fahrmeir, L.; Hamerle, A.; G.Tutz (1996): Multivariate statistische Verfahren, de Gruyter, Berlin, 2. Auflage. Handl, A. (2002): Multivariate Analysemethoden, Springer, Berlin et al. Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS

3 1. Grundlegendes Grundbegriffe Einleitung Problemstellung Die Datenanalyse (Numerische Taxonomie, Multivariatenanalyse) stellt sich die Aufgabe, Ähnlichkeitsbeziehungen zwischen Elementen einer bestimmten Menge zu analysieren. Die Datenanalyse ist ein Teilgebiet der Statistik und kommt in der Regel dann zum Einsatz, wenn große Datenmengen durch mehrere Merkmale charakterisiert werden. Ausgangspunkt der Datenanalyse ist stets eine Datenmatrix oder eine Distanzmatrix. Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS Datenmatrix 1. Grundlegendes Grundbegriffe Die Datenmatrix enthält zeilenweise Objekte (Merkmalsträger, cases) enthält spaltenweise Merkmale (variables, items) Beispiel Merkmale Objekte Preis PS Verbrauch Land Wertverlust ABS Tipo 1600 I.E I hoch nein Honda Civic JAP mittel nein Mitsubishi Colt JAP niedrig nein Kadett LS 1.6i D mittel ja Renault 19 GTS F mittel ja VW Golf CL D niedrig ja Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS

4 Distanzen 1. Grundlegendes Grundbegriffe Die Distanzmatrix enthält zeilen- und spaltenweise Objekte. Die Einträge der Matrix sind Werte für die Verschiedenheit (Distanzen) zweier Objekte. Beispiel Objekte Objekte Tipo 1600 I.E. Honda Civic 1.3 Mitsub. Colt 1.5 Kadett LS 1.6i Renault 19 GTS VW CL Golf Tipo 1600 I.E Honda Civic Mitsubishi Colt Kadett LS 1.6i Renault 19 GTS VW Golf CL Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS Teilbereiche 1. Grundlegendes Grundbegriffe 3 Teilbereiche der Datenanalyse nach dem Zweck der Anwendung Datenverdichtende Verfahren (deskriptiv) Kennzahlen Indizes Faktorenanalyse Strukturaufdeckende Verfahren (explorativ) Strukturprüfende Verfahren (induktiv) Varianzanalyse Regressionsanalyse logistische Regression Diskriminanzanalyse Conjoint-Analyse Kreuztabellen Faktorenanalyse Clusteranalyse MDS Korrespondenzanalyse Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS

5 1. Grundlegendes Anwendungsbereiche Klassische Anwendungsbereiche der Datenanalyse Beispielanwendungen Marketing/ Marktforschung Marktsegmentierung Kundentypisierung Aufdecken von Marktnischen Ermittlung von Marktreaktionen Sozialwissenschaften Einstellungsanalysen Qualifikationsprofile Biologie Medizin Hilfe bei Diagnosen Überprüfung von Therapieerfolgen Volkswirtschaft Input-Output-Analysen zur Abgrenzung und Aggregation von Wirtschaftssektoren Bibliothekswesen Katalogisierung Auffinden von ähnlichen Werken Zuordnung von Pflanzen oder Tieren zu Gattungen Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS Einleitung 1. Grundlegendes Dreiteilung der Datenanalyse Die klassische Dreiteilung der DA Segmentierung (Clusteranalyse): Zusammenfassung von Objekten zu homogenen Klassen aufgrund von Ähnlichkeiten in wichtigen Merkmalsbereichen Repräsentation: Darstellung von Objekten durch Punkte im 2- oder 3-dimensionalen Raum, wobei Ähnlichkeitsbeziehungen durch räumliche Nähe zum Ausdruck kommen sollen Identifikation: Reproduktion einer gegebenen Segmentierung oder Repräsentation mit Hilfe weniger aussagekräftiger Merkmale (Ziel: Prognose, Klassifikation) Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS

6 Einleitung 1. Grundlegendes Dreiteilung der Datenanalyse Datenanalyse Segmentierung Clusteranalyse Repräsentation Identifikation MDS Korrespondenzanalyse Faktorenanalyse einer Klassifikation einer Repräsentation Diskriminanzanalyse Conjointanalyse Regressionsanalyse Varianzanalyse Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS Einleitung 1. Grundlegendes Dreiteilung der Datenanalyse Segmentierung Eine meist unübersichtliche Menge von Untersuchungsobjekten (z.b. Kunden, Produkte) ist in Gruppen, Typen oder Klassen so aufzuteilen, dass die Objekte einer Klasse möglichst ähnlich, die Objekte je zweier Klassen möglichst verschieden sind. K 1 K 2 K 3 Anwendung: Kundentypologien, Produktkategorien, Marktsegmente Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS

7 Einleitung Beispiel einer Segmentierung 1. Grundlegendes Dreiteilung der Datenanalyse Fusion index Oldsmobile Cutlass Supreme V6 Ford Taurus V6 Eagle Premier V6 Chrysler New Yorker V6 Buick Le Sabre V6 Ford Thunderbird V6 Ford Aerostar V6 Dodge Grand Caravan V6 Chevrolet Caprice V8 Ford LTD Crown Victoria V8 Chevrolet Camaro V8 Ford Mustang V8 Buick Century 4 Oldsmobile Cutlass Ciera 4 Chevrolet Lumina APV V6 Chrysler Le Baron V6 Chrysler Le Baron Coupe Ford Tempo 4 Oldsmobile Calais 4 Buick Skylark 4 Chevrolet Beretta 4 Plymouth Laser Dodge Daytona Ford Probe Eagle Summit 4 Ford Escort 4 Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS Einleitung 1. Grundlegendes Dreiteilung der Datenanalyse Typische Fragestellungen der Segmentierung in der Marktforschung Lassen sich die Kunden eines Kaufhauses entsprechend ihrer Bedürfnisse in Gruppen einteilen? Gibt es bei Zeitschriften verschiedene Lesertypen? Wie kann man die Käuferschaft eines Produktes entsprechend ihrer Mediengewohnheiten aufteilen? Welche Produkte sind einander besonders ähnlich (werden als besonders ähnlich empfunden)? Wie sollte ein neues Produkt aussehen (empfunden werden)? Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS

8 1. Grundlegendes Dreiteilung der Datenanalyse Einleitung Repräsentation Eine gegebene Menge von Untersuchungsobjekten (Produkte, Konkurrenten) ist in einem möglichst niedrig dimensionierten Raum graphisch so anzuordnen, dass die Ähnlichkeit von Objektpaaren durch ihre räumliche Distanz gut wiedergegeben wird. D 2 D 1 Etschberger Anwendung: (HS Weingarten) Marktnischen, Datenanalyse -verdichtungen, und Data Mining Konkurrenzanalysen Sommersemester SS Beispiele Repräsentation 1. Grundlegendes Dreiteilung der Datenanalyse Multidimensionale Skalierung (MDS) MDS 2 dimensional Representation (grouped by attribute Area) Typische Fragestellungen der MDS in der Marktforschung: Configuration Variable Calabria Coast Sardinia East Liguria Inland Sardinia North Apulia Sicily South Apulia Umbria West Liguria Inwieweit entspricht das eigene Produkt den Idealvorstellungen der Konsumenten? Welches Image besitzt die Marke XY? Hat sich die Einstellung der Konsumenten zu einer Marke in den letzten Jahren verändert? Configuration Variable 1 Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS

9 Beispiele Repräsentation 1. Grundlegendes Dreiteilung der Datenanalyse Hauptkomponentenanalyse Comp Murder Mississippi North Carolina South Carolina Georgia Alabama Alaska Louisiana Tennessee West Virginia Vermont Arkansas Kentucky South Dakota Montana North Dakota Maryland Wyoming Maine New Mexico Virginia Idaho Florida New Hampshire Michigan Indiana Iowa Nebraska Missouri Kansas Delaware Oklahoma Rape Texas Oregon Pennsylvania Illinois Minnesota Wisconsin Nevada Arizona Ohio New York Colorado Washington Connecticut California New Jersey Massachusetts Rhode Utah Island Hawaii Assault UrbanPop Typische Fragestellungen der Faktorenanalyse in der Marktforschung Lässt sich die Vielzahl der Eigenschaften, die die Käufer einer Marke als wichtig empfinden, auf wenige komplexe Faktoren reduzieren? Wie lassen sich darauf aufbauend die verschiedenen Marken anhand dieser Faktoren beschreiben? Etschberger (HS Weingarten) Comp.1 Datenanalyse und Data Mining Sommersemester SS Identifikation 1. Grundlegendes Dreiteilung der Datenanalyse Identifikation Die erhobenen Merkmale sind auf Zusammenhänge hin zu überprüfen (Korrelation). Ferner ist aufzuzeigen, ob und gegebenenfalls wie bestimmte Merkmale durch andere Merkmale erklärt werden können. Regressionsanalyse Varianzanalyse M 1, M 2,... M 1, M 2,... Erklärung von Marktvariablen (Marktanteil, etc.) durch Unternehmensvariablen Analyse von Gruppenunterschieden Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS

10 Beispiele Identifikation 1. Grundlegendes Dreiteilung der Datenanalyse Varianzanalyse Absatz Anzeige Lautspr Plakat Absatz pers selbst Typische Fragestellungen der Varianzanalyse in der Marktforschung Hat die Art der Werbung einen Einfluss auf die Höhe der Absatzmenge? Gibt es Interaktionseffekte zwischen der Art der Werbung und der Bedienungsart? Werbung Bedienung Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS Grundlegendes Dreiteilung der Datenanalyse Typische Fragestellungen der Identifikation Regressionsanalyse Wie verändert sich die Absatzmenge eines Produktes, wenn die Werbeausgaben um x% gekürzt werden? Wie läßt sich der Preis für ein Produkt in den kommenden Monaten schätzen? Hat die Qualität einer Werbeanzeige einen signifikanten Einfluss auf das Kaufverhalten der Adressaten? Diskriminanzanalyse In welcher Hinsicht unterscheiden sich Käufer von Nicht-Käufern? Welche Merkmale einer Anzeige tragen am meisten zu ihrer Erinnerung bei? Lassen sich bestimmte Kreditkunden anhand der Merkmale Einkommen, Schulbildung, Alter etc. als kreditwürdig einstufen? Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS

11 Einleitung 1. Grundlegendes Dreiteilung der Datenanalyse Ablauf einer datenanalytischen Untersuchung 1. Präzisierung des Untersuchungsziels Formulierung der Zielsetzung Abgrenzung der Untersuchungsobjekte Ableitung der taxonomischen Aufgabenstellung - Segmentierung - Repräsentation - Identifikation 2. Diskussion der Datenbasis Auswahl der Merkmale Festlegung des Skalenniveaus oder Charakterisierung der Objekte durch direkte Vergleiche 3. Datenerhebung und -erfassung Primär- oder Sekundärerhebung Vollerhebung oder Teilerhebung (Stichprobenauswahl!) Datencodierung und ggf. Dateneingabe in DV-Systeme 4. Datenanalyse Univariate Datenanalyse (Screening, erster Einblick in die Merkmalsstruktur, Plausibilitätsprüfung) Multivariate Datenanalyse (nicht statistics all, sondern Verfahrenseinsatz nach Aufgabenstellung und Zielsetzung) 5. Interpretation der Ergebnisse Deskriptive Verfahren Explorative und induktive Verfahren Klassenstatistiken und Bezeichnungen bei Clusteranalysen Benennung der Achsen bei Repräsentationsverfahren Zusammenfassung signifikanter Einflussgrößen bei Identifikationsverfahren Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS Daten 1. Grundlegendes Objekte und Merkmale Einige grundlegende Definitionen: G = {1,2,3,...} N = {1,...,n} Falls G = N Falls N G M = {1,...,m} Grundgesamtheit von Objekten Objektmenge Vollerhebung Stichprobe aus der Grundgesamtheit Merkmalsmenge Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS

12 Daten 1. Grundlegendes Objekte und Merkmale Die Datenmatrix a a 1m A = (a ik ) n m =..... a n1... a nm mit a ik als Ausprägung des Merkmals k bei Objekt i Datenmatrix Zeilen von A (Objektvektoren): a i = (a i1,...,a im ), i N a 1k Spalten von A (Merkmalsvektoren): a k =.., k M a nk A k Menge der möglichen Ausprägungen bei Merkmal k Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS Daten 1. Grundlegendes Objekte und Merkmale Beispiel: Hörer einer Vorlesung Merkmale Alter Geschlecht Wohnort Semester Studiengang Prüfungen Objekte 1 22 männlich Augsburg 5 BWL mit VD 2 25 männlich Karlsruhe 10 Mathe mit HD 3 21 weiblich München 4 VWL mit VD 4 28 männlich Augsburg 13 BWL mit VD 5 24 männlich Augsburg 8 BWL ohne VD = A Merkmal k Ausprägungsmenge A k Alter Menge der natürlichen Zahlen Geschlecht {männlich, weiblich} Wohnort Menge aller Orte Semester Menge der natürlichen Zahlen Studiengang {BWL, VWL, Mathematik, Informatik,...} Prüfungen {ohne Vordiplom, mit Vordiplom, mit Hauptdiplom} Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS

13 1. Grundlegendes Merkmalstypen und Skalenarten Daten Unterscheidung zwischen Merkmalstypen: Quantitative Merkmale: Alle Ausprägungen des Merkmals werden intuitiv durch reelle Zahlen benannt. Qualitative Merkmale: Die Ausprägungen des Merkmals werden intuitiv durch Worte oder Begriffe, nicht aber durch Zahlen, wiedergegeben (nominale oder ordinale Merkmale). Häufig von Vorteil: Ausprägungen eines Merkmals werden durch Zahlen wiedergegeben Also: Quantifizierung auch von qualitativen Merkmalen. Mittels: einer Abbildung, die man Skala nennt. Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS Daten 1. Grundlegendes Merkmalstypen und Skalenarten Definition Skala: Sei k ein Merkmal mit der Ausprägungsmenge A k. Dann heißt die Abbildung f : A k R eine Skala. Bemerkung: Wahl von f: So, dass die Informationen und Relationen, die für bzw. zwischen den einzelnen Merkmalsausprägungen a ik gelten, auch für die Bildwerte f(a ik ) korrekt sind. Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS

14 1. Grundlegendes Merkmalstypen und Skalenarten Daten Nominale Merkmale Definition: Ein Merkmal k heißt nominal oder klassifikatorisch, wenn für die Ausprägungen nur nach Gleichheit (=) oder Ungleichheit ( ) unterschieden werden kann. Bezüglich der Äquivalenz ( ) zweier Objekte gilt: i k j a ik = a jk bzw. i k j a ik a jk Die Abbildung f : A k R mit a ik a jk f(a ik ) f(a jk ) heißt Nominalskala. Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS Daten 1. Grundlegendes Merkmalstypen und Skalenarten Unterscheidung nominaler Merkmale Ein Merkmal heißt dichotom (zweiwertig, binär), wenn es genau zwei Ausprägungen besitzt. Beispiel: Geschlecht Ein Merkmal heißt polytom oder mehrwertig, wenn es mehr als zwei Ausprägungen besitzt. Beispiel: Wohnort Bemerkung: Jedes mehrwertige Merkmal mit r Ausprägungen kann durch r dichotome Merkmale ersetzt werden, wobei jede Ausprägung ein Merkmal darstellt. Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS

15 Daten 1. Grundlegendes Merkmalstypen und Skalenarten Beispiel: Nominale Merkmale Alter Geschlecht Wohnort Semester Studiengang Prüfungen Objekte mit VD mit HD mit VD mit VD ohne VD Geschlecht: f Geschlecht (weiblich) = 0 f Geschlecht (männlich) = 1 Dabei wird folgende Skalierung verwendet: Wohnort: f Wohnort (Augsburg) = 1 f Wohnort (Karlsruhe) = 2 f Wohnort (München) = 3 Studiengang: f Studiengang (BWL) = 1 f Studiengang (Mathe) = 2 f Studiengang (VWL) = 3 Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS Daten 1. Grundlegendes Merkmalstypen und Skalenarten Ordinale Merkmale Definition: Ein Merkmal k heißt ordinal (komparativ), wenn die Ausprägungen vollständig geordnet werden können. Bezüglich der Ordnung zweier Objekte gilt: i j a ik < a jk niedrigerer Rang k i j k a ik = a jk gleicher Rang i k j a ik > a jk höherer Rang Die Abbildung f : A k R mit heißt Ordinalskala. a ik < a jk f(a ik ) < f(a jk ) Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS

16 1. Grundlegendes Merkmalstypen und Skalenarten Daten Beispiel: ordinale Merkmale: Prüfungen der Hörer Alter Geschlecht Wohnort Semester Studiengang Prüfungen Objekte Dabei wird folgende Skalierung verwendet: Prüfungen: f(ohne VD) = 1, f(mit VD) = 2, f(mit HD) = 3 Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS Daten 1. Grundlegendes Merkmalstypen und Skalenarten Quantitative Merkmale Definition: Ein Merkmal k heißt quantitativ (kardinal, metrisch), wenn es ordinal ist und die Differenzen von Ausprägungspaaren vollständig geordnet werden können. Dies bedeutet insbesondere, dass das Ausmaß der Unterschiedlichkeit zweier Ausprägungen bestimmt werden kann und aussagekräftig ist. Je nachdem, welche Aussagen bzgl. dieses Ausmaßes getroffen werden können, unterscheidet man dabei die Typen Intervallskala, Verhältnisskala und Absolutskala. Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS

17 Daten 1. Grundlegendes Merkmalstypen und Skalenarten Definition: Intervallskala Die Abbildung f : A k R mit f(a ik ) = α a ik + β (α > 0, β R) heißt Intervallskala. Nur der Abstand zwischen zwei Ausprägungen kann verglichen werden: - Kein natürlicher Nullpunkt - z.b. Temperatur (Celsius, Fahrenheit) Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS Daten 1. Grundlegendes Merkmalstypen und Skalenarten Definition: Verhältnisskala Die Abbildung f : A k R mit f(a ik ) = α a ik (α > 0) heißt Verhältnisskala. Das Verhältnis zwischen zwei Ausprägungen kann sinnvoller Weise verglichen werden: - Existenz eines natürlichen Nullpunktes - z.b. Längen, Preise, Zeiten Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS

18 1. Grundlegendes Merkmalstypen und Skalenarten Daten Definition: Absolutskala Die Abbildung f : A k IN 0 mit f(a ik ) = a ik heißt Absolutskala. Es existiert eine natürliche Maßeinheit: - z.b. Stückzahlen Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS Daten 1. Grundlegendes Merkmalstypen und Skalenarten Skalendegression und Skalenprogression Ziel der Skalierung: Angemessene Abbildung der durch Datenmatrix gegebene Information angemessen Möglichst ohne Über- bzw. Unterschätzungen zu riskieren. Es gilt: - Grundsätzlich können alle Merkmale nominal skaliert werden. - Grundsätzlich kann jedes metrische Merkmal ordinal skaliert werden. Diese Änderungen der Skalenniveaus nennt man Skalendegression. Dabei ist ein Informationsverlust in Kauf zu nehmen. Aber es gilt auch: - Nominale Merkmale dürfen nicht ordinal- oder metrisch skaliert werden. - Ordinale Merkmale dürfen nicht metrisch skaliert werden. Dieses Vorgehen nennt man Skalenprogression, bei der mehr Informationen in die Merkmale interpretiert würde, als inhaltlich vertretbar ist (Gefahr der Fehlinterpretation) Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS

19 Daten 1. Grundlegendes Merkmalstypen und Skalenarten Klassische Informationsniveaus Absolutskala Verhältnisskala Intervallskala Nominal Ordinal Metrisch Informationsniveau hoch niedrig Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS Übersicht Fehlende Daten 1 Grundlegendes 2 Fehlende Daten Ursachen fehlender Daten Ausfallmechanismen Strukturanalyse Behandlung fehlender Daten 3 Distanzen 4 Repräsentation 5 Klassifikation Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS

20 Fehlende Daten Ursachen fehlender Daten Fehlende Daten Ursachen für das Fehlen von Daten in den der eigentlichen Datenanalyse vorgelagerten Stufen: Ablauf einer datenanalytischen Untersuchung: a) Präzisierung des Untersuchungsziels b) Diskussion der Datenbasis: Merkmalsauswahl, Skalenniveau c) Datenerhebung und -erfassung: Datenaufbereitung (PC-gestützt) d) Datenanalyse e) Interpretation der Ergebnisse Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS Fehlende Daten Ursachen fehlender Daten Fehlende Daten Allgemeine Ausfallursachen Datenerhebung aus Primärquellen Unangenehme oder persönliche Fragen Übersehen von Fragen Mangelndes Wissen der Befragten Antwortverweigerung Motivationsprobleme bei der Befragung Verständnisprobleme Meinungslosigkeit Zeitknappheit Datenerhebung aus Sekundärquellen Unvollständigkeit der Sekundärquellen Verwendung mehrerer Sekundärquellen Akualitätsprobleme Datenaufbereitung bzw. -erfassung Codierfehler Übertragungsfehler Löschung unmöglicher Daten Löschung fehlerhafter Daten Diskussion der Datenbasis Fehlerhaftes Untersuchungsdesign, z.b. Alter der Kinder Mangelhaftes Untersuchungsdesign, z.b. durch missverständliche Fragen, unübersichtliche oder zu lange Fragebögen Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS

21 Fehlende Daten Ausfallmechanismen Fehlende Daten Bei fehlenden Daten sind nicht Ausfallursachen an sich, sondern lediglich die Auswirkungen auf das Datenmaterial von Bedeutung. Ausfallursachen haben aber Auswirkungen auf das vorliegende Datenmaterial. Frage nach nach dem Mechanismus der zum Fehlen der Daten führt. Man unterscheidet dabei zwei Arten von MD: - Unsystematisch bzw. zufällig fehlende Daten - Systematisch bzw. nicht-zufällig fehlende Daten Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS Fehlende Daten Ausfallmechanismen Systematisch Fehlende Daten Ursache des Fehlens hierbei in Merkmalsausprägungen der fehlenden Daten. Bedeutung: Charakterisierung der entsprechenden Objekte anhand der fehlenden Ausprägungen ist möglich. Wirkung: Unter Umständen erhebliche Verzerrungen der Ergebnisse, wenn bei der Auswertung nur die vorhandenen Daten betrachtet werden. Beispiel In Befragung Erhebung von Einkommen und Alter Verfälschung dann, wenn beim Merkmal Einkommen lediglich Personen mit einem niedrigen Einkommen Antwort verweigern würden. Schätzung des mittleren Einkommens auf Basis der vorhandenen Daten überschätzt dann wahren Wert. Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS

22 Fehlende Daten Ausfallmechanismen Unsystematisch fehlende Daten Unsystematisch fehlende Daten werden durch Einflußfaktoren auf die Untersuchungssituation hervorgerufen, die sich nicht eindeutig auf bestimmte Objekte oder Merkmale konzentrieren. Ursachen: Unaufmerksamkeiten bei der Datenerhebung und/oder -aufbereitung Verzerrungen der Ergebnisse sind nicht zu erwarten, wenn bei der Auswertung nur die vorhandenen Daten betrachtet werden. Definition Daten werden als zufällig fehlend bezeichnet, wenn die fehlenden Daten gleichmäßig über die Matrix gestreut sind (keine Konzentration), für ein Objekt ein fehlende Merkmalsausprägung unabhängig von jeder anderen Merkmalsausprägung ist, für ein gegebenes Merkmal die fehlenden Ausprägungen dieselbe Verteilung besitzen wie der ganze Merkmalsvektor, d.h. kein Zusammenhang zwischen dem Ausfallmechanismus und dem Wertebereich eines Merkmals existiert, zwischen den fehlenden Daten zweier Merkmale kein Zusammenhang besteht. Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS Fehlende Daten Ausfallmechanismen Ausfallmechanismen: MAR und MCAR Definition Kategorien unystematisch fehlender Daten Daten heißen missing at random (MAR), wenn das Fehlen der Daten unabhängig von den fehlenden Werten selbst ist, aber von anderen Merkmalen abhängen kann. Daten heißen missing completely at random (MCAR), wenn das Fehlen der Daten in keinerlei Beziehung zu den fehlenden und den vorhandenen Werten oder anderen Merkmalen und ihren Ausprägungen bei den Objekten mit fehlenden Werten steht. Beispiel unsystematisch fehlender Daten Erhebung der Merkmale Einkommen und Alter, wobei einige Personen die Angabe des Einkommens verweigern. Die Daten sind MAR, wenn das Fehlen der Einkommensangaben nicht von der Höhe des Einkommens selbst abhängt, es aber möglich ist, dass z.b ältere Personen die Antwort tendenziell öfter verweigern. Ist das Fehlen der Einkommensangabe unabhängig von der Höhe des Einkommens und des Alters, dann sind die Daten sogar MCAR. Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS

23 Fehlende Daten Ausfallmechanismen Konsequenzen für die Datenauswertung Behandlung der MV mit Verfahren, die vorhandene Werte verwenden Daten sind MCAR unsystematisch Daten sind MAR Behandlung der MV mit Verfahren, die auf der Likelihood-/Bayes- Theorie basieren Ausfallmechanismus systematisch AM bekannt Behandlung der MV mit einem Modell des Ausfallmechnismus AM unbekannt Adäquate Behandlung der fehlenden Daten ist nicht möglich Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS Fehlende Daten Fehlende Daten Strukturanalyse Bemerkung: Im Rahmen einer Strukturanalyse können im allgemeinen nur bestimmte Beziehungen, die fehlende Daten verursachen untersucht werden. Die Untersuchung aller Einflussfaktoren ist i.a. nicht möglich. Die Ergebnisse der Strukturanalyse können! somit zwar hinreichend für eine Verwerfung, aber nur notwendig für eine Akzeptierung eines bestimmten unsystematischen Ausfallmechanismus sein. Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS

24 Fehlende Daten Fehlende Daten Strukturanalyse Die Indikatormatrix Ausgangspunkt jeder Strukturanalyse fehlender Daten ist i.a. die sogenannte Indikatormatrix v v 1m V = (v ik ) n m =..... Indikatormatrix v n1... v nm mit v ik als Indikator für das Fehlen der Ausprägung des Merkmals k bei Objekt i { 1 falls aik vorhanden Es gilt dabei: v ik = 0 sonst Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS Fehlende Daten Fehlende Daten Strukturanalyse Beispiel: Hörer einer Vorlesung Merkmale Alter Geschlecht Wohnort Semester Studiengang Prüfungen Objekte 1 männlich 5 BWL mit VD 2 25 männlich Karlsruhe München 4 VWL mit VD 4 28 männlich Augsburg 13 BWL mit VD 5 24 männlich 8 BWL ohne VD A G W Se St P = V = Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS

25 Fehlende Daten Strukturanalyse Fehlende Daten Möglichkeiten der Strukturanalyse Die Strukturanalyse läßt sich grundsätzlich in folgende Bereiche untergliedern: Deskriptive Analyse Explorative Analyse Induktive Analyse Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS Fehlende Daten Strukturanalyse Fehlende Daten Deskriptive Analyse Zur rein deskriptiven Analyse der Datenmatrix hinsichtlich des Auftretens fehlender Daten bieten sich Kennzahlen (Missing-Data-Maße) oder graphische Verfahren an, die erste Anhaltspunkte bezüglich des vorliegenden Ausfallmechanismus ergeben (können). Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS

26 Fehlende Daten Fehlende Daten Strukturanalyse Missing-Data-Maße - Teil I Missing-Data-Maße (MD-Maße) verdichten die in den Indikatormatrizen enthaltenen Information und geben sie mit Hilfe einer Kennzahl wieder. Es existieren u.a. folgende Maße: MD-Indikator für Objekt i MD-Indikator für Merkmal k v ind i = v ind k = 1 falls m 0 sonst k=1 1 falls n 0 sonst i=1 v ik = m v ik = n Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS Fehlende Daten Fehlende Daten Strukturanalyse Missing-Data-Maße - Teil II Anzahl der fehlenden Daten und der vorhandenen bei Objekt i v mis i = m v obs i = m m v ik k=1 Anzahl der fehlenden Daten und der vorhandenen bei Merkmal k v mis k = n v obs k = n n v ik i=1 Anzahl der vorhandenen Daten in der Datenmatrix i v obs = n i=1 v obs i = m k=1 v obs k = m n v ik k=1 i=1 Anzahl der vorhandenen Daten in der Datenmatrix i v mis = m n v obs Des weiteren sind alle dargestellten Kennzahlen auch noch als relative Kennzahlen denkbar. Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS

27 Fehlende Daten Strukturanalyse Fehlende Daten Beispiel: Hörer einer Vorlesung, Missing-Data-Maße V = A G W Se St P Objekt v ind i v mis i v obs i Merkmal A G W Se St P v ind k v mis k v obs k Des Weiteren gilt: n = 5, m = 6, n m = 30, v mis = 6, v obs = 24 Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS Fehlende Daten Strukturanalyse Fehlende Daten Graphische Verfahren Bei einer graphischen Darstellung der Indikatormatrix V können sowohl das Ausmaß wie auch Konzentrationstendenzen der fehlenden Daten untersucht werden. Sind die fehlenden Werte jeweils regellos über die gesamte Matrix verteilt, dann wird man einen unsystematischen Ausfallmechanismus vermuten. (Im nächsten, induktiven Schritt, entsteht dann das Problem, ein objektives Maß für systematischen Ausfall zu finden.) Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS

28 Fehlende Daten Fehlende Daten Strukturanalyse Beispiel: Hörer einer Vorlesung Merkmale Alter Geschlecht Wohnort Semester Studiengang Prüfungen Objekte 1 männlich 5 BWL mit VD 2 25 männlich Karlsruhe München 4 VWL mit VD 4 28 männlich Augsburg 13 BWL mit VD 5 24 männlich 8 BWL ohne VD Fehlende Ausprägungen werden durch das Symbol dargestellt = A G W Se St P Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS Fehlende Daten Fehlende Daten Strukturanalyse Graphische Verfahren mit Sortierreihenfolge Gerade bei größeren Datenmatrizen kann eine übersichtlichere Darstellung der MD-Muster erreicht werden, wenn die Indikatormatrix bezüglich der Objekte sortiert wurde. Dabei kann der Sortieralgorithmus die Objekte mit den wenigsten MD zu Beginn stellen, solche mit vielen MD eher am Ende. Alternativ kann nach der Anzahl der MD innerhalb eines Objektes und der Spaltenposition einer fehlenden Merkmalsausprägung in der Datenmatrix geordnet werden Ausfallmechanismen sind nach dem Sortiervorgang oft besser zu erkennen. Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS

29 Fehlende Daten Fehlende Daten Strukturanalyse Ein Sortieralgorithmus Sortierrangfolge mittels der sogenannten Objekt-Pattern- Variablen PV, die gemäß m PV i = 2 m 1 v ik 2 k 1 k=1 berechnet werden kann. Aufsteigende bzw absteigende Sortierung der Objekte wird dann nach der Regel vorgenommen. Objekt i vor Objekt j PV i PV j Analog kann die transponierte Indikatomatrix V T durch die geeignete Konstruktion einer Merkmals-Pattern-Variable sortiert werden. Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS Fehlende Daten Fehlende Daten Strukturanalyse Beispiel: Hörer einer Vorlesung Merkmale Alter Geschlecht Wohnort Semester Studiengang Prüfungen Objekte 1 männlich 5 BWL mit VD 2 25 männlich Karlsruhe München 4 VWL mit VD 4 28 männlich Augsburg 13 BWL mit VD 5 24 männlich 8 BWL ohne VD Sortierung mittels PV PV i = 2 m 1 m k=1 k 1 v ik 2 = i PV i A G W Se St P Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS

30 Fehlende Daten Strukturanalyse Fehlende Daten Explorative Analyse Gesucht: Zusammenhänge innerhalb einer unvollständigen Datenmatrix, um dadurch evtl. vorliegende Abhängigkeitsbeziehungen der fehlenden Werte aufzudecken. Ausgangspunkt: Datenmatrix, Indikatormatrix Untersuchung der Eigenschaft MAR mit korrelationsanalytischen, faktoren-analytischen, clusteranalytischen sowie dependenz-analytischen Ansätzen. Untersuchung der Abhängigkeit der MD von den Realisierungen der Daten selbst: I.A. nicht möglich, da zusätzliche (externe) Informationen, (zum Beispiel die Verteilung der Grundgesamtheit) oft nicht bekannt sind. Einschränkung: Explorative Methoden lediglich zur Entdeckung von Abhängigkeitsbeziehungen der fehlenden Werte innerhalb der Datenmatrix aufgezeigt, keine statistische Überprüfung Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS Fehlende Daten Strukturanalyse Explorative Analyse Korrelationsanalytische Ansätze Untersuchung der Abhängigkeit der fehlenden Ausprägungen vom Fehlen der Daten bei anderen Merkmalen. Berechnung kann mit Hilfe aller gängigen Korrelationskoeffizienten, angewandt auf die Spalten der Indikatormatrix V Besonders geeignet: Phi-Koeffizient Φ entspricht dem Bravais-Pearson-Koeffizient r für binäre Variablen) Phi-Koeffizient Φ: entwickelt speziell für 2 2-Kontingenztabellen Definition: Φ kl = α kl δ kl β kl γ kl (αkl + β kl ) (γ kl + δ kl ) (α kl + γ kl ) (β kl + δ kl ) Mit α kl = {i : v ik = 0, v il = 0} und β kl,γ kl, δ kl analog und α kl β kl 1 γ kl δ kl Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS

31 Fehlende Daten Strukturanalyse Phi-Koeffizient Phi-Koeffizient Eigenschaften Φ kann dabei Werte zwischen -1 Es existieren nur (0,1)/(1,0)-Paare und +1 Es existieren nur (0,0)/(1,1)-Paare annehmen. Werte in der Nähe von Null weisen daraufhin, dass zwischen dem Fehlen der Werte beim ersten Merkmal und dem Fehlen der Werte beim zweiten Merkmal kein Zusammenhang besteht. Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS Fehlende Daten Strukturanalyse Fehlende Daten Beispiel: Hörer einer Vorlesung Merkmale Alter Geschlecht Wohnort Semester Studiengang Prüfungen Objekte 1 männlich 5 BWL mit VD 2 25 männlich Karlsruhe München 4 VWL mit VD 4 28 männlich Augsburg 13 BWL mit VD 5 24 männlich 8 BWL ohne VD Korrelationsmatrix der Φ Koeffizienten (Homogenes Merkmal Semester weggelassen) = A G W St P A G W St 1 1 P 1 Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS

32 Fehlende Daten Strukturanalyse Weitere explorative Ansätze Die Faktorenanalytische Untersuchung dient ebenfalls der Untersuchung der Abhängigkeit der fehlenden Ausprägungen vom Fehlen der Daten bei anderen Merkmalen und basiert auf der oben beschriebenen Korrelationsmatrix. Die Clusteranalyse untersucht die Ähnlichkeit der Missing-Data-Muster der Merkmale/Objekte und verwendet die Indikatormatrix selbst als Ausgangspunkt. Die Zielrichtung ist aber dieselbe wie oben. Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS Fehlende Daten Strukturanalyse Fehlende Daten Induktive Analyse Induktive Analyse unvollständiger Datenmatrizen: Überprüfung zuvor formulierter Hypothesen bezüglich der fehlenden Werte mittels statistischer Testverfahren. Dabei: Relevante Hypothesen betreffen Vorliegen von unsystematischen Ausfallmechanismen. Allgemeine Form solcher Hypothesen: H 0 : Die Daten fehlen zufällig. H 1 : Die Daten fehlen systematisch. Achtung: Alle Tests zur Überprüfung dieser Hypothesen bestätigen nie das zufällige Fehlen von Daten sondern schließen nur bestimmte Formen eines zufälligen Fehlens mit der Irrtumswahrscheinlichkeit α aus. Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS

33 Fehlende Daten Strukturanalyse Induktive Analyse fehlender Daten Typen von Testverfahren Typ 1: Untersuchung der Abhängigkeit der MD von den an sich unbekannten Realisierungen dieser Werte (MAR): (Anpassungstest, parametrische Einstichproben-Tests) Typ 2: Untersuchung der Abhängigkeit der MD vom Fehlen der Daten bei anderen Merkmalen (MAR): (Test der Korrelationskoeffizienten bzw. -matrix) Typ 3: Untersuchung der Abhängigkeit der MD von den vorhandenen Ausprägungen bei anderen Merkmalen; Testen auf MCAR, wenn MAR vorliegt: (Test auf Lokalisationsunterschiede bzw. Unabhängigkeit) Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS Fehlende Daten Strukturanalyse Induktive Analyse fehlender Daten Testverfahren - Typ 1 Untersuchung der Abhängigkeit der MD von den unbekannten Realisierungen dieser Werte (MAR) Überprüfung, inwieweit die für ein Merkmal vorliegenden Daten einer hypothetischen Verteilung genügen damit Berücksichtigung externer Informationen notwendig, wie z.b. Verteilungsannahmen bezüglich der Grundgesamtheit praktische Anwendung stark eingeschränkt! Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS

34 Fehlende Daten Strukturanalyse Induktive Analyse fehlender Daten Beispiel: Der χ 2 -Anpassungstest Überprüft für ein nominales oder ordinales Merkmal, ob die vorliegenden Daten einer hypothetischen Verteilung genügen (H 0 ). Kann sinnvoll angewandt werden, wenn nur wenige verschiedene Merkmalsausprägungen vorliegen benötigt eine Stichprobengröße, die garantiert, dass jede Merkmalsausprägung mindestens fünf Beobachtungen aufweist; ansonsten müssen Merkmalsklassen gebildet werden; sinnvollerweise aus benachbarten Werten. Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS Fehlende Daten Strukturanalyse Induktive Analyse fehlender Daten Der χ 2 -Anpassungstest: Definition Die Wahrscheinlichkeit einer Merkmalsausprägung a t sei p t, die beobachtete Häufigkeit sei h t. Insgesamt können k verschiedene Ausprägungen bei n Objekten beobachtet werden. Der Testfunktionswert T des χ 2 -Anpassungstests ist dann wie folgt definiert: T = k t=1 (h t n p t ) 2 n p t T folgt näherungsweise einer χ 2 (k 1)-Verteilung. Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS

35 Fehlende Daten Strukturanalyse Induktive Analyse fehlender Daten Beispiel: χ 2 -Anpassungstest für MD Im Rahmen einer Analyse werden 100 Personen befragt, von denen 35 beim Merkmal Geschlecht keine Antwort gegeben haben. Unter den Verbleibenden waren 30 Männer und 35 Frauen. Von der zugrunde gelegten Grundgesamtheit weiß man, dass die beiden Geschlechter im Verhältnis 2 : 3 verteilt sind. Für den Testfunktionswert T ergibt sich T = k t=1 (h t n p t ) 2 n p t = ( ) ( ) = Das 95%-Fraktil der χ 2 (1)-Verteilung ist 3.84, der Testfunktionswert ist in diesem Fall kleiner, die Nullhypothese kann also nicht verworfen werden. Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS Fehlende Daten Strukturanalyse Induktive Analyse fehlender Daten Testverfahren - Typ 2 Untersuchung der Abhängigkeit der MD vom Fehlen der Daten bei anderen Merkmalen (MAR) Überprüfung, inwieweit das Fehlen der Daten bei einem Merkmal vom Fehlen der Daten bei einem anderen Merkmal abhängt Berechnung der Korrelationskoeffizienten Φ bzw. der Korrelationsmatrix R Berücksichtigung zusätzlicher, also externer Informationen nicht notwendig und damit sehr praxisnah Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS

36 Fehlende Daten Strukturanalyse Induktive Analyse fehlender Daten Typ 2 Beispiel: Globaltest der Korrelationsmatrix R Gegeben: R = (Φ kl ) = (r kl ) die nicht-singuläre Korrelationsmatrix der Dimension q q, die auf Basis der Indikatormatrix V die Abhängigkeit zwischen dem Fehlen der Daten innerhalb der Datenmatrix beschreibt mit: 2 q m. Testfunktionswert W des Globalen Korrelationstests: W = ( 4 3 q n + 5 6) ln(det R) W folgt approximativ einer χ 2 -Verteilung. Die Anzahl der Freiheitsgrade df bestimmt sich gemäß df = 1 2 q (q 1) Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS Fehlende Daten Strukturanalyse Induktive Analyse fehlender Daten Typ 2 Beispiel: Hörer einer Vorlesung Ist Fehlen der Daten in den ersten drei Merkmalen zufällig oder systematisch? Dazu: Korrelationsmatrix R der ersten drei Merkmale, dann Globaltest R A G W A G W det(r) = Teststatistik W: W = ( ) ln(0.5224) = W ist kleiner als das 95%-Fraktil der χ 2 (3)-Verteilung (7.81) Nullhypothese kann nicht verworfen werden. Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS

37 Fehlende Daten Strukturanalyse Induktive Analyse fehlender Daten Testverfahren - Typ 3: auf MCAR Untersuchung der Abhängigkeit der MD von den vorhandenen Ausprägungen bei anderen Merkmalen: MCAR. Voraussetzung: MAR ist schon gezeigt oder kann angenommen werden. Überprüfung, inwieweit das Fehlen der Daten bei Merkmal k auf bestimmte Ausprägungen eines Merkmals l k zurückzuführen sind Berechnung skalenniveau-adäquater Lageparameter für sinnvolle Merkmale l, möglichst ohne MD in l, wobei eine Gruppierung in Merkmal k fehlt bzw. Merkmal k fehlt nicht erfolgt anschließend Test der Lageparameter auf Gleichheit Berücksichtigung externer Informationen nicht notwendig und damit sehr praxisnah Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS Fehlende Daten Strukturanalyse Induktive Analyse fehlender Daten Testverfahren - Typ 3, Beispiel: Approximativer Zweistichenproben-Gaußtest überprüft, inwieweit die für ein kardinales Merkmal in zwei Gruppen vorliegenden Daten parametrischen, hypothetischen Verteilungen genügen, die durch die Erwartungswerte µ 1 und µ 2 charakterisiert sind (H 0 : µ 1 = µ 2 ). benötigt zwei Stichproben, die je mindestens 30 Beobachtungen enthalten. Bei weniger als 30 Beobachtungen: Alternative Zweistichproben-Test, z.b. exakter 2-Stip-B(n, p)-test, falls Anzahl der Beobachtungen nicht zu groß, siehe Bamberg, Baur, S. 193f. Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS

38 Fehlende Daten Strukturanalyse Induktive Analyse fehlender Daten Testverfahren - Typ 3, Beispiel: Approximativer Zweistichenproben-Gaußtest (Definition) X bzw. Y seien Mittelwert der n 1 bzw. n 2 vorhandenen Ausprägungen bei Merkmal l für die Objekte, für die bei Merkmal k fehlende bzw. vorhandene Daten vorliegen. S 1 und S 2 seien die zugehörigen empirischen Standardabweichungen. Dann: Testfunktionswert T des approximativen Zweistichproben-Gaußtest wie folgt: T = X Y S 2 1 n 1 + S2 2 n 2 Approximativ gilt: T N(0, 1)-Verteilung. Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS Fehlende Daten Strukturanalyse Induktive Analyse fehlender Daten Testverfahren - Typ 3, Beispiel: Approximativer Zweistichenproben-Gaußtest, konkreter Fall Bei der Befragung von 100 Personen haben 35 beim Merkmal Geschlecht keine Antwort gegeben. Beim Merkmal Alter hingegen antworteten alle Personen Das Durchschnittsalter unter den Verweigerern ist 28.4, bei den Antwortenden aber Die separate Berechnung der empirischen Standardabweichung ergibt die Werte 2 bzw. 3 Jahre. Berechnung des Testfunktionswerts T : T = = 3.58 T ist im Verwerfungsbereich (, 1.96) (1.96, ) der N(0, 1)-Verteilung zur Irrtumswahrscheinlichkeit von 5% Also: Die Nullhypothese kann verworfen werden. Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS

39 Fehlende Daten Behandlung fehlender Daten Verfahren zu Behandlung Ergebnis der Strukturanalyse liefert eventuell geeignete Verfahren zur Behandlung der fehlenden Daten Unterscheidung zwischen Verfahrenskategorien: - Eliminierungsverfahren - Imputationsverfahren - Sonstige Verfahren Eliminierungsverfahren (EV) Schließen Objekte bzw. Merkmale mit fehlenden Werten aus der Untersuchung aus. Eliminieren von Objekten ist nur unter der Annahme, dass die Daten der Bedingung MCAR genügen, uneingeschränkt anwendbar. Anschließend: Auswertung mit reduziertem, aber MD-freiem Datenmaterial erfolgen. Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS Fehlende Daten Behandlung fehlender Daten Eliminierung Complete-Case Analysis Nur die Objekte werden in einer Analyse verwendet, deren Merkmalsausprägungen bezüglich aller Merkmale vorliegen. Alternativ: Auswertung nur für vollständig erhobene Merkmale. Akzeptabel, falls Datenmatrix einen geringen Prozentsatz fehlender Werte aufweist (< 5%) Gefahr: Erhebliche Verzerrungen, wenn Voraussetzung MCAR nicht gesichert ist. Available-Case Analysis Bei univariaten oder bivariaten Kennzahlen bzw. Verfahren und unvollständigen Datenmatrizen: Nicht sinnvoll, alle Objekte zu eliminieren, die überhaupt ein MD vorweisen. Sinnvoller hier: Eliminieren nur der Objekte, mit fehlenden Werten bei dem bzw. den betrachteten Merkmal(en) Sprechweise dann: Available-case analysis bzw. Pairwise available-case analysis. Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS

40 Fehlende Daten Behandlung fehlender Daten Eliminierung Beispiele Für: Available-case analysis: Berechnung aller univariaten Kennzahlen, z.b. Lageparameter oder Streuungsparameter durch vorhandene Daten des Merkmals Für Pairwise available-case analysis: Berechnung der Korrelation zwischen zwei Merkmalen mit den Objekten, für die bei beiden Merkmalen Werte vorliegen. Eigenschaften der Eliminierungsverfahren + Vorteil: Einfache Anwendbarkeit Resultat: Vollständige Datenmatrix - Nachteil: Informationsverlust durch die Eliminierung vorhandener Daten potentielle Strukturverzerrung Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS Fehlende Daten Behandlung fehlender Daten Imputation Imputationsverfahren (IV) fehlende Werte in der Datenmatrix werden durch Schätzungen ersetzt, die auf den vorhandenen Werten basieren. In Abhängigkeit von der Imputationstechnik müssen die Daten MAR oder MCAR sein. Anschließend Auswertung möglich wie bei vollständigem Datenmaterial Aber: Meist Verzerrungen, die aber oft auf ein akzeptables Maß reduziert werden können. Einfache Imputationstechniken Die hier vorgestellten IV liefern ohne großen Aufwand Schätzungen für die fehlenden Daten setzen aber voraus, dass das Fehlen einzelner Werte unabhängig von den fehlenden sowie den vorhandenen Werte der Datenmatrix ist (MCAR) Man unterscheidet dabei vor allem Imputation des Lageparameters Imputation mittels Verhältnisschätzer Imputation mittels Zufallsauswahl Imputation auf Basis von Expertenratings Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS

41 Imputation Fehlende Daten Behandlung fehlender Daten Imputation des Lageparameters Imputationswert z.b. durch Lageparameter Je nach Skalenniveau der Merkmale dann z.b. als Schätzwert für fehlende Werte - für metrisch skalierte Merkmale einer Datenmatrix das arithmetische Mittel a ik = a k = 1 a jk i, k : v ik = 0, N k j N k - für ordinal skalierte den Median - für nominal skalierte den Modus Dabei: N k = {i : v ik = 1} a ik = a Med k i, k : v ik = 0 und a ik = a Mod k i, k : v ik = 0. Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS Imputation Fehlende Daten Behandlung fehlender Daten Imputation mittels Verhältnisschätzer Voraussetzungen: 1. Merkmal M k mit MD hat metrisches Datennvieau und es existiert ein weiteres, zu M k hoch korreliertes Merkmal M l, das ebenfalls metrisches Datenniveau besitzt. 2. Beim Hilfsmerkmal M l müssen mindestens für die Objekte, bei denen beim zu ersetzenden Merkmal M k Daten zu schätzen sind, Werte vorhanden sein. Dabei werden die fehlenden Daten von M k durch die Verwendung des Hilfsmerkmals M l geeignet ersetzt: a jl a jk a ik = a Ratio j N k = l j N k N l a jl j N k ( i,k : v ik = 0; k,l M, N k N l ) Bemerkungen: - N k = N l a Ratio k = a k - Für sinnvolle Verhältnisschätzungen sollte deswegen N k N l gelten - Ideal wäre N l = {1,..., n} Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS

42 Fehlende Daten Behandlung fehlender Daten Imputation und sonstige Verfahren zur Behandlung Imputation mittels Zufallszahlen Bedingung: MCAR Dabei: Ersetzung durch einen von einem Zufallszahlengenerator erzeugten Wert oder durch eine Zufallsauswahl aus den vorhandenen Daten Sonstige Verfahren Parameterschätzverfahren Schätzung von Erwartungswert, Varianz und Kovarianz auf Basis der nicht vervollständigten Daten Techniken: - Maximum-Likelihood-Theorie - EM-Algorithmus (Expectation Maximization) Multivariate Analyseverfahren: Entwicklung spezieller Verfahren, die das Fehlen von Daten explizit berücksichtigen, z.b. bei der Clusteranalyse mit Missing value linkage oder der Multidimensionalen Skalierung mit ALSCAL Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS Übersicht Distanzen 1 Grundlegendes 2 Fehlende Daten 3 Distanzen Vorüberlegungen und Begriffe Gewinnung von Distanzen Merkmalsweise Distanzen Aggregation von Distanzen 4 Repräsentation 5 Klassifikation Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS

43 Distanzen Vorüberlegungen und Begriffe Distanzen Ähnlichkeit contra Verschiedenheit Benötigt: Ein Maß, das die Ähnlichkeit zweier Objekte quantifiziert Ähnlichkeitsmaß (AM): Je größer, desto ähnlicher sind sich zwei Objekte. Folgen: - Was bedeutet ein Wert AM = 0? - Wie groß ist die Ähnlichkeit zweier identischer Objekte? Übergang zu einem Verschiedenheitsmaß = Distanz Definition: Distanzindex Sei N = 1,...,n eine Menge von n Objekten Die Abbildung heißt Distanzindex, wenn gilt: d : N N R + d(i, i) = 0 [Reflexivität] d(i, j) = d(j, i) [Symmetrie] d(i, j) 0 [Nichtnegativität] Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS Distanzen Vorüberlegungen und Begriffe Distanzen Distanzindex: Mögliche Eigenschaften Dreiecksungleichung ( ): d(i, j) d(i, h) + d(h, j) i,j, h N j Ist beispielsweise erfüllt bei räumlichem Abstandsbegriff i h Aber: Ist nicht immer haltbar bzw. sinnvoll (Beispiel: Hoher Distanzindex entspricht schwachem Bedarfsverbund bei Supermarkteinkauf) Tee Zucker Kaffee Etschberger (HS Weingarten) Datenanalyse und Data Mining Sommersemester SS

Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg. Datenanalyse II. Stefan Etschberger Sommersemester 2005

Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg. Datenanalyse II. Stefan Etschberger Sommersemester 2005 Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg Datenanalyse II Stefan Etschberger Sommersemester 2005 Organisatorisches Vorlesung Montag, 10.15-11.45 Uhr Vorlesungsmaterialien

Mehr

Hauptseminar am Fachgebiet für Quantitative Methoden der Wirtschaftswissenschaften

Hauptseminar am Fachgebiet für Quantitative Methoden der Wirtschaftswissenschaften Hauptseminar am Fachgebiet für Quantitative Methoden der Wirtschaftswissenschaften Fehlende Daten in der Multivariaten Statistik SS 2011 Allgemeines Das Seminar richtet sich in erster Linie an Studierende

Mehr

Statistische Auswertung:

Statistische Auswertung: Statistische Auswertung: Die erhobenen Daten mittels der selbst erstellten Tests (Surfaufgaben) Statistics Punkte aus dem Punkte aus Surftheorietest Punkte aus dem dem und dem Surftheorietest max.14p.

Mehr

Korrelation (II) Korrelation und Kausalität

Korrelation (II) Korrelation und Kausalität Korrelation (II) Korrelation und Kausalität Situation: Seien X, Y zwei metrisch skalierte Merkmale mit Ausprägungen (x 1, x 2,..., x n ) bzw. (y 1, y 2,..., y n ). D.h. für jede i = 1, 2,..., n bezeichnen

Mehr

Güte von Tests. die Wahrscheinlichkeit für den Fehler 2. Art bei der Testentscheidung, nämlich. falsch ist. Darauf haben wir bereits im Kapitel über

Güte von Tests. die Wahrscheinlichkeit für den Fehler 2. Art bei der Testentscheidung, nämlich. falsch ist. Darauf haben wir bereits im Kapitel über Güte von s Grundlegendes zum Konzept der Güte Ableitung der Gütefunktion des Gauss im Einstichprobenproblem Grafische Darstellung der Gütefunktionen des Gauss im Einstichprobenproblem Ableitung der Gütefunktion

Mehr

Tutorial: Homogenitätstest

Tutorial: Homogenitätstest Tutorial: Homogenitätstest Eine Bank möchte die Kreditwürdigkeit potenzieller Kreditnehmer abschätzen. Einerseits lebt die Bank ja von der Vergabe von Krediten, andererseits verursachen Problemkredite

Mehr

50. Mathematik-Olympiade 2. Stufe (Regionalrunde) Klasse 11 13. 501322 Lösung 10 Punkte

50. Mathematik-Olympiade 2. Stufe (Regionalrunde) Klasse 11 13. 501322 Lösung 10 Punkte 50. Mathematik-Olympiade. Stufe (Regionalrunde) Klasse 3 Lösungen c 00 Aufgabenausschuss des Mathematik-Olympiaden e.v. www.mathematik-olympiaden.de. Alle Rechte vorbehalten. 503 Lösung 0 Punkte Es seien

Mehr

Einfache Varianzanalyse für abhängige

Einfache Varianzanalyse für abhängige Einfache Varianzanalyse für abhängige Stichproben Wie beim t-test gibt es auch bei der VA eine Alternative für abhängige Stichproben. Anmerkung: Was man unter abhängigen Stichproben versteht und wie diese

Mehr

Lineargleichungssysteme: Additions-/ Subtraktionsverfahren

Lineargleichungssysteme: Additions-/ Subtraktionsverfahren Lineargleichungssysteme: Additions-/ Subtraktionsverfahren W. Kippels 22. Februar 2014 Inhaltsverzeichnis 1 Einleitung 2 2 Lineargleichungssysteme zweiten Grades 2 3 Lineargleichungssysteme höheren als

Mehr

1 Mathematische Grundlagen

1 Mathematische Grundlagen Mathematische Grundlagen - 1-1 Mathematische Grundlagen Der Begriff der Menge ist einer der grundlegenden Begriffe in der Mathematik. Mengen dienen dazu, Dinge oder Objekte zu einer Einheit zusammenzufassen.

Mehr

Primzahlen und RSA-Verschlüsselung

Primzahlen und RSA-Verschlüsselung Primzahlen und RSA-Verschlüsselung Michael Fütterer und Jonathan Zachhuber 1 Einiges zu Primzahlen Ein paar Definitionen: Wir bezeichnen mit Z die Menge der positiven und negativen ganzen Zahlen, also

Mehr

Lineare Gleichungssysteme

Lineare Gleichungssysteme Brückenkurs Mathematik TU Dresden 2015 Lineare Gleichungssysteme Schwerpunkte: Modellbildung geometrische Interpretation Lösungsmethoden Prof. Dr. F. Schuricht TU Dresden, Fachbereich Mathematik auf der

Mehr

Einfache statistische Auswertungen mit dem Programm SPSS

Einfache statistische Auswertungen mit dem Programm SPSS Einfache statistische Auswertungen mit dem Programm SPSS Datensatz: fiktive_daten.sav Dipl. Päd. Anne Haßelkus Dr. Dorothea Dette-Hagenmeyer 11/2011 Überblick 1 Deskriptive Statistiken; Mittelwert berechnen...

Mehr

Univariates Chi-Quadrat-Verfahren für ein dichotomes Merkmal und eine Messwiederholung: Test nach McNemar

Univariates Chi-Quadrat-Verfahren für ein dichotomes Merkmal und eine Messwiederholung: Test nach McNemar Univariates Chi-Quadrat-Verfahren für ein dichotomes Merkmal und eine Messwiederholung: Test nach McNemar Inhaltsverzeichnis Univariates Chi-Quadrat-Verfahren für ein dichotomes Merkmal und eine Messwiederholung:

Mehr

QM: Prüfen -1- KN16.08.2010

QM: Prüfen -1- KN16.08.2010 QM: Prüfen -1- KN16.08.2010 2.4 Prüfen 2.4.1 Begriffe, Definitionen Ein wesentlicher Bestandteil der Qualitätssicherung ist das Prüfen. Sie wird aber nicht wie früher nach der Fertigung durch einen Prüfer,

Mehr

Data Mining: Einige Grundlagen aus der Stochastik

Data Mining: Einige Grundlagen aus der Stochastik Data Mining: Einige Grundlagen aus der Stochastik Hagen Knaf Studiengang Angewandte Mathematik Hochschule RheinMain 21. Oktober 2015 Vorwort Das vorliegende Skript enthält eine Zusammenfassung verschiedener

Mehr

Klausur zu Methoden der Statistik I (mit Kurzlösung) Wintersemester 2007/2008. Aufgabe 1

Klausur zu Methoden der Statistik I (mit Kurzlösung) Wintersemester 2007/2008. Aufgabe 1 Lehrstuhl für Statistik und Ökonometrie der Otto-Friedrich-Universität Bamberg Prof. Dr. Susanne Rässler Klausur zu Methoden der Statistik I (mit Kurzlösung) Wintersemester 2007/2008 Aufgabe 1 Ihnen liegt

Mehr

Die Optimalität von Randomisationstests

Die Optimalität von Randomisationstests Die Optimalität von Randomisationstests Diplomarbeit Elena Regourd Mathematisches Institut der Heinrich-Heine-Universität Düsseldorf Düsseldorf im Dezember 2001 Betreuung: Prof. Dr. A. Janssen Inhaltsverzeichnis

Mehr

Intrinsisch motivierte Mitarbeiter als Erfolgsfaktor für das Ideenmanagement: Eine empirische Untersuchung

Intrinsisch motivierte Mitarbeiter als Erfolgsfaktor für das Ideenmanagement: Eine empirische Untersuchung Intrinsisch motivierte Mitarbeiter als Erfolgsfaktor für das Ideenmanagement: Eine empirische Untersuchung Bearbeitet von Martina Sümnig Erstauflage 2015. Taschenbuch. 176 S. Paperback ISBN 978 3 95485

Mehr

Behörde für Bildung und Sport Abitur 2008 Lehrermaterialien zum Leistungskurs Mathematik

Behörde für Bildung und Sport Abitur 2008 Lehrermaterialien zum Leistungskurs Mathematik Abitur 8 II. Insektenpopulation LA/AG In den Tropen legen die Weibchen einer in Deutschland unbekannten Insektenpopulation jedes Jahr kurz vor Beginn der Regenzeit jeweils 9 Eier und sterben bald darauf.

Mehr

Lineare Funktionen. 1 Proportionale Funktionen 3 1.1 Definition... 3 1.2 Eigenschaften... 3. 2 Steigungsdreieck 3

Lineare Funktionen. 1 Proportionale Funktionen 3 1.1 Definition... 3 1.2 Eigenschaften... 3. 2 Steigungsdreieck 3 Lineare Funktionen Inhaltsverzeichnis 1 Proportionale Funktionen 3 1.1 Definition............................... 3 1.2 Eigenschaften............................. 3 2 Steigungsdreieck 3 3 Lineare Funktionen

Mehr

Statistik II Wahrscheinlichkeitsrechnung und induktive Statistik Erste Klausur zum Sommersemester 2005 26. Juli 2005

Statistik II Wahrscheinlichkeitsrechnung und induktive Statistik Erste Klausur zum Sommersemester 2005 26. Juli 2005 Statistik II Wahrscheinlichkeitsrechnung und induktive Statistik Erste Klausur zum Sommersemester 2005 26. Juli 2005 Aufgabe 1: Grundzüge der Wahrscheinlichkeitsrechnung 19 P. Als Manager eines großen

Mehr

2. Deskriptive Statistik 2.1. Häufigkeitstabellen, Histogramme, empirische Verteilungsfunktionen

2. Deskriptive Statistik 2.1. Häufigkeitstabellen, Histogramme, empirische Verteilungsfunktionen 4. Datenanalyse und Modellbildung Deskriptive Statistik 2-1 2. Deskriptive Statistik 2.1. Häufigkeitstabellen, Histogramme, empirische Verteilungsfunktionen Für die Auswertung einer Messreihe, die in Form

Mehr

Einführung in die Algebra

Einführung in die Algebra Prof. Dr. H. Brenner Osnabrück SS 2009 Einführung in die Algebra Vorlesung 13 Einheiten Definition 13.1. Ein Element u in einem Ring R heißt Einheit, wenn es ein Element v R gibt mit uv = vu = 1. DasElementv

Mehr

Beweisbar sichere Verschlüsselung

Beweisbar sichere Verschlüsselung Beweisbar sichere Verschlüsselung ITS-Wahlpflichtvorlesung Dr. Bodo Möller Ruhr-Universität Bochum Horst-Görtz-Institut für IT-Sicherheit Lehrstuhl für Kommunikationssicherheit bmoeller@crypto.rub.de 6

Mehr

7 Rechnen mit Polynomen

7 Rechnen mit Polynomen 7 Rechnen mit Polynomen Zu Polynomfunktionen Satz. Zwei Polynomfunktionen und f : R R, x a n x n + a n 1 x n 1 + a 1 x + a 0 g : R R, x b n x n + b n 1 x n 1 + b 1 x + b 0 sind genau dann gleich, wenn

Mehr

Melanie Kaspar, Prof. Dr. B. Grabowski 1

Melanie Kaspar, Prof. Dr. B. Grabowski 1 7. Hypothesentests Ausgangssituation: Man muss sich zwischen 2 Möglichkeiten (=Hypothesen) entscheiden. Diese Entscheidung soll mit Hilfe von Beobachtungen ( Stichprobe ) getroffen werden. Die Hypothesen

Mehr

Kontingenzkoeffizient (nach Pearson)

Kontingenzkoeffizient (nach Pearson) Assoziationsmaß für zwei nominale Merkmale misst die Unabhängigkeit zweier Merkmale gibt keine Richtung eines Zusammenhanges an 46 o jl beobachtete Häufigkeiten der Kombination von Merkmalsausprägungen

Mehr

Berechnung der Erhöhung der Durchschnittsprämien

Berechnung der Erhöhung der Durchschnittsprämien Wolfram Fischer Berechnung der Erhöhung der Durchschnittsprämien Oktober 2004 1 Zusammenfassung Zur Berechnung der Durchschnittsprämien wird das gesamte gemeldete Prämienvolumen Zusammenfassung durch die

Mehr

LU-Zerlegung. Zusätze zum Gelben Rechenbuch. Peter Furlan. Verlag Martina Furlan. Inhaltsverzeichnis. 1 Definitionen.

LU-Zerlegung. Zusätze zum Gelben Rechenbuch. Peter Furlan. Verlag Martina Furlan. Inhaltsverzeichnis. 1 Definitionen. Zusätze zum Gelben Rechenbuch LU-Zerlegung Peter Furlan Verlag Martina Furlan Inhaltsverzeichnis Definitionen 2 (Allgemeine) LU-Zerlegung 2 3 Vereinfachte LU-Zerlegung 3 4 Lösung eines linearen Gleichungssystems

Mehr

Elemente der Analysis I Kapitel 2: Einführung II, Gleichungen

Elemente der Analysis I Kapitel 2: Einführung II, Gleichungen Elemente der Analysis I Kapitel 2: Einführung II, Gleichungen Prof. Dr. Volker Schulz Universität Trier / FB IV / Abt. Mathematik 8. November 2010 http://www.mathematik.uni-trier.de/ schulz/elan-ws1011.html

Mehr

Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg. Datenanalyse I. Stefan Etschberger Wintersemester 2004/2005

Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg. Datenanalyse I. Stefan Etschberger Wintersemester 2004/2005 Institut für Statistik und Mathematische Wirtschaftstheorie Universität Augsburg analyse I Stefan Etschberger Wintersemester 2004/2005 Organisatorisches Vorlesung Montag, 8.30-10.15 Uhr Vorlesungsmaterialien

Mehr

Profil A 49,3 48,2 50,7 50,9 49,8 48,7 49,6 50,1 Profil B 51,8 49,6 53,2 51,1 51,1 53,4 50,7 50 51,5 51,7 48,8

Profil A 49,3 48,2 50,7 50,9 49,8 48,7 49,6 50,1 Profil B 51,8 49,6 53,2 51,1 51,1 53,4 50,7 50 51,5 51,7 48,8 1. Aufgabe: Eine Reifenfirma hat für Winterreifen unterschiedliche Profile entwickelt. Bei jeweils gleicher Geschwindigkeit und auch sonst gleichen Bedingungen wurden die Bremswirkungen gemessen. Die gemessenen

Mehr

Bachelorabschlussseminar Dipl.-Kfm. Daniel Cracau

Bachelorabschlussseminar Dipl.-Kfm. Daniel Cracau 1 Einführung in die statistische Datenanalyse Bachelorabschlussseminar Dipl.-Kfm. Daniel Cracau 2 Gliederung 1.Grundlagen 2.Nicht-parametrische Tests a. Mann-Whitney-Wilcoxon-U Test b. Wilcoxon-Signed-Rank

Mehr

Grundlagen der Datenanalyse am Beispiel von SPSS

Grundlagen der Datenanalyse am Beispiel von SPSS Grundlagen der Datenanalyse am Beispiel von SPSS Einführung Dipl. - Psych. Fabian Hölzenbein hoelzenbein@psychologie.uni-freiburg.de Einführung Organisatorisches Was ist Empirie? Was ist Statistik? Dateneingabe

Mehr

Einführung in statistische Analysen

Einführung in statistische Analysen Einführung in statistische Analysen Andreas Thams Econ Boot Camp 2008 Wozu braucht man Statistik? Statistik begegnet uns jeden Tag... Weihnachten macht Deutschen Einkaufslaune. Im Advent überkommt die

Mehr

Überblick über die Tests

Überblick über die Tests Anhang A Überblick über die Tests A.1 Ein-Stichproben-Tests A.1.1 Tests auf Verteilungsannahmen ˆ Shapiro-Wilk-Test Situation: Test auf Normalverteilung H 0 : X N(µ, σ 2 ) H 1 : X nicht normalverteilt

Mehr

Lineare Gleichungssysteme

Lineare Gleichungssysteme Lineare Gleichungssysteme Eines der am häufigsten auftretenden Standardprobleme der angewandten Mathematik ist das Lösen linearer Gleichungssysteme, etwa zur Netzwerkberechnung in der Elektrotechnik oder

Mehr

Verband der TÜV e. V. STUDIE ZUM IMAGE DER MPU

Verband der TÜV e. V. STUDIE ZUM IMAGE DER MPU Verband der TÜV e. V. STUDIE ZUM IMAGE DER MPU 2 DIE MEDIZINISCH-PSYCHOLOGISCHE UNTERSUCHUNG (MPU) IST HOCH ANGESEHEN Das Image der Medizinisch-Psychologischen Untersuchung (MPU) ist zwiespältig: Das ist

Mehr

Gleichungen Lösen. Ein graphischer Blick auf Gleichungen

Gleichungen Lösen. Ein graphischer Blick auf Gleichungen Gleichungen Lösen Was bedeutet es, eine Gleichung zu lösen? Was ist überhaupt eine Gleichung? Eine Gleichung ist, grundsätzlich eine Aussage über zwei mathematische Terme, dass sie gleich sind. Ein Term

Mehr

Lineare Gleichungssysteme I (Matrixgleichungen)

Lineare Gleichungssysteme I (Matrixgleichungen) Lineare Gleichungssysteme I (Matrigleichungen) Eine lineare Gleichung mit einer Variable hat bei Zahlen a, b, die Form a b. Falls hierbei der Kehrwert von a gebildet werden darf (a 0), kann eindeutig aufgelöst

Mehr

Etwas positive Tendenz ist beim Wechsel der Temperatur von 120 auf 170 zu erkennen.

Etwas positive Tendenz ist beim Wechsel der Temperatur von 120 auf 170 zu erkennen. Explorative Datenanalyse Erstmal die Grafiken: Aufreisskraft und Temperatur 3 1-1 N = 1 15 17 Temperatur Diagramm 3 1 95% CI -1 N = 1 15 17 Temperatur Etwas positive Tendenz ist beim Wechsel der Temperatur

Mehr

Von der Untersuchungsfrage zu statistischen Hypothesen, und wie war das nochmal mit dem α- und

Von der Untersuchungsfrage zu statistischen Hypothesen, und wie war das nochmal mit dem α- und Von der Untersuchungsfrage zu statistischen Hypothesen, und wie war das nochmal mit dem α- und β-fehler? Sven Garbade Fakultät für Angewandte Psychologie SRH Hochschule Heidelberg sven.garbade@hochschule-heidelberg.de

Mehr

Auswertung mit dem Statistikprogramm SPSS: 30.11.05

Auswertung mit dem Statistikprogramm SPSS: 30.11.05 Auswertung mit dem Statistikprogramm SPSS: 30.11.05 Seite 1 Einführung SPSS Was ist eine Fragestellung? Beispiel Welche statistische Prozedur gehört zu welcher Hypothese? Statistische Berechnungen mit

Mehr

9. Schätzen und Testen bei unbekannter Varianz

9. Schätzen und Testen bei unbekannter Varianz 9. Schätzen und Testen bei unbekannter Varianz Dr. Antje Kiesel Institut für Angewandte Mathematik WS 2011/2012 Schätzen und Testen bei unbekannter Varianz Wenn wir die Standardabweichung σ nicht kennen,

Mehr

Forschungsmethoden in der Sozialen Arbeit

Forschungsmethoden in der Sozialen Arbeit Forschungsmethoden in der Sozialen Arbeit Erhebungsinstrument Lehrveranstaltung an der Fachhochschule für Sozialarbeit und Sozialpädagogik "Alice Salomon" Hochschule für Soziale Arbeit, Gesundheit, Erziehung

Mehr

4. Erstellen von Klassen

4. Erstellen von Klassen Statistik mit Tabellenkalkulation 4. Erstellen von Klassen Mit einem einfachen Befehl lässt sich eine Liste von Zahlen auf die Häufigkeit der einzelnen Werte untersuchen. Verwenden Sie dazu den Befehl

Mehr

Willkommen zur Vorlesung Statistik

Willkommen zur Vorlesung Statistik Willkommen zur Vorlesung Statistik Thema dieser Vorlesung: Varianzanalyse Prof. Dr. Wolfgang Ludwig-Mayerhofer Universität Siegen Philosophische Fakultät, Seminar für Sozialwissenschaften Prof. Dr. Wolfgang

Mehr

Statistik I für Betriebswirte Vorlesung 11

Statistik I für Betriebswirte Vorlesung 11 Statistik I für Betriebswirte Vorlesung 11 Prof. Dr. Hans-Jörg Starkloff TU Bergakademie Freiberg Institut für Stochastik 22. Juni 2012 Prof. Dr. Hans-Jörg Starkloff Statistik I für Betriebswirte Vorlesung

Mehr

Grundlagen der Inferenzstatistik

Grundlagen der Inferenzstatistik Grundlagen der Inferenzstatistik (Induktive Statistik oder schließende Statistik) Dr. Winfried Zinn 1 Deskriptive Statistik versus Inferenzstatistik Die Deskriptive Statistik stellt Kenngrößen zur Verfügung,

Mehr

Studiendesign/ Evaluierungsdesign

Studiendesign/ Evaluierungsdesign Jennifer Ziegert Studiendesign/ Evaluierungsdesign Praxisprojekt: Nutzerorientierte Evaluierung von Visualisierungen in Daffodil mittels Eyetracker Warum Studien /Evaluierungsdesign Das Design einer Untersuchung

Mehr

Teil I: Deskriptive Statistik

Teil I: Deskriptive Statistik Teil I: Deskriptive Statistik 2 Grundbegriffe 2.1 Merkmal und Stichprobe 2.2 Skalenniveau von Merkmalen 2.3 Geordnete Stichproben und Ränge 2.1 Merkmal und Stichprobe An (geeignet ausgewählten) Untersuchungseinheiten

Mehr

Statistik für Studenten der Sportwissenschaften SS 2008

Statistik für Studenten der Sportwissenschaften SS 2008 Statistik für Studenten der Sportwissenschaften SS 008 Aufgabe 1 Man weiß von Rehabilitanden, die sich einer bestimmten Gymnastik unterziehen, dass sie im Mittel µ=54 Jahre (σ=3 Jahre) alt sind. a) Welcher

Mehr

Überblick über die Verfahren für Ordinaldaten

Überblick über die Verfahren für Ordinaldaten Verfahren zur Analyse ordinalskalierten Daten 1 Überblick über die Verfahren für Ordinaldaten Unterschiede bei unabhängigen Stichproben Test U Test nach Mann & Whitney H Test nach Kruskal & Wallis parametrische

Mehr

Informationsblatt Induktionsbeweis

Informationsblatt Induktionsbeweis Sommer 015 Informationsblatt Induktionsbeweis 31. März 015 Motivation Die vollständige Induktion ist ein wichtiges Beweisverfahren in der Informatik. Sie wird häufig dazu gebraucht, um mathematische Formeln

Mehr

Anwendungshinweise zur Anwendung der Soziometrie

Anwendungshinweise zur Anwendung der Soziometrie Anwendungshinweise zur Anwendung der Soziometrie Einführung Die Soziometrie ist ein Verfahren, welches sich besonders gut dafür eignet, Beziehungen zwischen Mitgliedern einer Gruppe darzustellen. Das Verfahren

Mehr

Die reellen Lösungen der kubischen Gleichung

Die reellen Lösungen der kubischen Gleichung Die reellen Lösungen der kubischen Gleichung Klaus-R. Löffler Inhaltsverzeichnis 1 Einfach zu behandelnde Sonderfälle 1 2 Die ganzrationale Funktion dritten Grades 2 2.1 Reduktion...........................................

Mehr

Messung von Veränderungen. Dr. Julia Kneer Universität des Saarlandes

Messung von Veränderungen. Dr. Julia Kneer Universität des Saarlandes von Veränderungen Dr. Julia Kneer Universität des Saarlandes Veränderungsmessung Veränderungsmessung kennzeichnet ein Teilgebiet der Methodenlehre, das direkt mit grundlegenden Fragestellungen der Psychologie

Mehr

II. Zum Jugendbegleiter-Programm

II. Zum Jugendbegleiter-Programm II. Zum Jugendbegleiter-Programm A. Zu den Jugendbegleiter/inne/n 1. Einsatz von Jugendbegleiter/inne/n Seit Beginn des Schuljahres 2007/2008 setzen die 501 Modellschulen 7.068 Jugendbegleiter/innen ein.

Mehr

Die Gleichung A x = a hat für A 0 die eindeutig bestimmte Lösung. Für A=0 und a 0 existiert keine Lösung.

Die Gleichung A x = a hat für A 0 die eindeutig bestimmte Lösung. Für A=0 und a 0 existiert keine Lösung. Lineare Gleichungen mit einer Unbekannten Die Grundform der linearen Gleichung mit einer Unbekannten x lautet A x = a Dabei sind A, a reelle Zahlen. Die Gleichung lösen heißt, alle reellen Zahlen anzugeben,

Mehr

Mean Time Between Failures (MTBF)

Mean Time Between Failures (MTBF) Mean Time Between Failures (MTBF) Hintergrundinformation zur MTBF Was steht hier? Die Mean Time Between Failure (MTBF) ist ein statistischer Mittelwert für den störungsfreien Betrieb eines elektronischen

Mehr

Würfelt man dabei je genau 10 - mal eine 1, 2, 3, 4, 5 und 6, so beträgt die Anzahl. der verschiedenen Reihenfolgen, in denen man dies tun kann, 60!.

Würfelt man dabei je genau 10 - mal eine 1, 2, 3, 4, 5 und 6, so beträgt die Anzahl. der verschiedenen Reihenfolgen, in denen man dies tun kann, 60!. 040304 Übung 9a Analysis, Abschnitt 4, Folie 8 Die Wahrscheinlichkeit, dass bei n - maliger Durchführung eines Zufallexperiments ein Ereignis A ( mit Wahrscheinlichkeit p p ( A ) ) für eine beliebige Anzahl

Mehr

1.3 Die Beurteilung von Testleistungen

1.3 Die Beurteilung von Testleistungen 1.3 Die Beurteilung von Testleistungen Um das Testergebnis einer Vp zu interpretieren und daraus diagnostische Urteile ableiten zu können, benötigen wir einen Vergleichsmaßstab. Im Falle des klassischen

Mehr

Prognose des Studienerfolgs mittels Creditpoints

Prognose des Studienerfolgs mittels Creditpoints Prognose des Studienerfolgs mittels Creditpoints HAW-Modell Das Analyse-Modell der HAW Hamburg misst den quantitativen Erfolg eines Studierenden, indem die bis zum Ende eines Semesters erworbenen Creditpoints

Mehr

Risikodiversifikation. Birgit Hausmann

Risikodiversifikation. Birgit Hausmann diversifikation Birgit Hausmann Übersicht: 1. Definitionen 1.1. 1.2. diversifikation 2. messung 2.1. messung im Überblick 2.2. Gesamtaktienrisiko und Volatilität 2.3. Systematisches und Betafaktor 2.4.

Mehr

Grundlagen der Theoretischen Informatik, SoSe 2008

Grundlagen der Theoretischen Informatik, SoSe 2008 1. Aufgabenblatt zur Vorlesung Grundlagen der Theoretischen Informatik, SoSe 2008 (Dr. Frank Hoffmann) Lösung von Manuel Jain und Benjamin Bortfeldt Aufgabe 2 Zustandsdiagramme (6 Punkte, wird korrigiert)

Mehr

Vermögensbildung: Sparen und Wertsteigerung bei Immobilien liegen vorn

Vermögensbildung: Sparen und Wertsteigerung bei Immobilien liegen vorn An die Redaktionen von Presse, Funk und Fernsehen 32 02. 09. 2002 Vermögensbildung: Sparen und Wertsteigerung bei Immobilien liegen vorn Das aktive Sparen ist nach wie vor die wichtigste Einflussgröße

Mehr

Versuchsplanung. Inhalt. Grundlagen. Faktor-Effekt. Allgemeine faktorielle Versuchspläne. Zweiwertige faktorielle Versuchspläne

Versuchsplanung. Inhalt. Grundlagen. Faktor-Effekt. Allgemeine faktorielle Versuchspläne. Zweiwertige faktorielle Versuchspläne Inhalt Versuchsplanung Faktorielle Versuchspläne Dr. Tobias Kiesling Allgemeine faktorielle Versuchspläne Faktorielle Versuchspläne mit zwei Faktoren Erweiterungen Zweiwertige

Mehr

Zusammenhänge zwischen metrischen Merkmalen

Zusammenhänge zwischen metrischen Merkmalen Zusammenhänge zwischen metrischen Merkmalen Darstellung des Zusammenhangs, Korrelation und Regression Daten liegen zu zwei metrischen Merkmalen vor: Datenpaare (x i, y i ), i = 1,..., n Beispiel: x: Anzahl

Mehr

Tipp III: Leiten Sie eine immer direkt anwendbare Formel her zur Berechnung der sogenannten "bedingten Wahrscheinlichkeit".

Tipp III: Leiten Sie eine immer direkt anwendbare Formel her zur Berechnung der sogenannten bedingten Wahrscheinlichkeit. Mathematik- Unterrichts- Einheiten- Datei e. V. Klasse 9 12 04/2015 Diabetes-Test Infos: www.mued.de Blutspenden werden auf Diabetes untersucht, das mit 8 % in der Bevölkerung verbreitet ist. Dabei werden

Mehr

Leseprobe. Wilhelm Kleppmann. Versuchsplanung. Produkte und Prozesse optimieren ISBN: 978-3-446-42033-5. Weitere Informationen oder Bestellungen unter

Leseprobe. Wilhelm Kleppmann. Versuchsplanung. Produkte und Prozesse optimieren ISBN: 978-3-446-42033-5. Weitere Informationen oder Bestellungen unter Leseprobe Wilhelm Kleppmann Versuchsplanung Produkte und Prozesse optimieren ISBN: -3-44-4033-5 Weitere Informationen oder Bestellungen unter http://www.hanser.de/-3-44-4033-5 sowie im Buchhandel. Carl

Mehr

SUDOKU - Strategien zur Lösung

SUDOKU - Strategien zur Lösung SUDOKU Strategien v. /00 SUDOKU - Strategien zur Lösung. Naked Single (Eindeutiger Wert)? "Es gibt nur einen einzigen Wert, der hier stehen kann". Sind alle anderen Werte bis auf einen für eine Zelle unmöglich,

Mehr

Schleswig-Holstein 2011. Kernfach Mathematik

Schleswig-Holstein 2011. Kernfach Mathematik Aufgabe 6: Stochastik Vorbemerkung: Führen Sie stets geeignete Zufallsvariablen und Namen für Ereignisse ein. Machen Sie auch Angaben über die Verteilung der jeweiligen Zufallsvariablen. Eine repräsentative

Mehr

Im Jahr t = 0 hat eine Stadt 10.000 Einwohner. Nach 15 Jahren hat sich die Einwohnerzahl verdoppelt. z(t) = at + b

Im Jahr t = 0 hat eine Stadt 10.000 Einwohner. Nach 15 Jahren hat sich die Einwohnerzahl verdoppelt. z(t) = at + b Aufgabe 1: Im Jahr t = 0 hat eine Stadt 10.000 Einwohner. Nach 15 Jahren hat sich die Einwohnerzahl verdoppelt. (a) Nehmen Sie lineares Wachstum gemäß z(t) = at + b an, wobei z die Einwohnerzahl ist und

Mehr

4 Vorlesung: 21.11. 2005 Matrix und Determinante

4 Vorlesung: 21.11. 2005 Matrix und Determinante 4 Vorlesung: 2111 2005 Matrix und Determinante 41 Matrix und Determinante Zur Lösung von m Gleichungen mit n Unbekannten kann man alle Parameter der Gleichungen in einem rechteckigen Zahlenschema, einer

Mehr

Welche Lagen können zwei Geraden (im Raum) zueinander haben? Welche Lagen kann eine Gerade bezüglich einer Ebene im Raum einnehmen?

Welche Lagen können zwei Geraden (im Raum) zueinander haben? Welche Lagen kann eine Gerade bezüglich einer Ebene im Raum einnehmen? Welche Lagen können zwei Geraden (im Raum) zueinander haben? Welche Lagen können zwei Ebenen (im Raum) zueinander haben? Welche Lagen kann eine Gerade bezüglich einer Ebene im Raum einnehmen? Wie heiÿt

Mehr

Charakteristikum des Gutachtenstils: Es wird mit einer Frage begonnen, sodann werden die Voraussetzungen Schritt für Schritt aufgezeigt und erörtert.

Charakteristikum des Gutachtenstils: Es wird mit einer Frage begonnen, sodann werden die Voraussetzungen Schritt für Schritt aufgezeigt und erörtert. Der Gutachtenstil: Charakteristikum des Gutachtenstils: Es wird mit einer Frage begonnen, sodann werden die Voraussetzungen Schritt für Schritt aufgezeigt und erörtert. Das Ergebnis steht am Schluß. Charakteristikum

Mehr

Definition 3.1: Ein Differentialgleichungssystem 1. Ordnung

Definition 3.1: Ein Differentialgleichungssystem 1. Ordnung Kapitel 3 Dynamische Systeme Definition 31: Ein Differentialgleichungssystem 1 Ordnung = f(t, y) ; y R N ; f : R R N R N heißt namisches System auf dem Phasenraum R N Der Parameter t wird die Zeit genannt

Mehr

R ist freie Software und kann von der Website. www.r-project.org

R ist freie Software und kann von der Website. www.r-project.org R R ist freie Software und kann von der Website heruntergeladen werden. www.r-project.org Nach dem Herunterladen und der Installation von R kann man R durch Doppelklicken auf das R-Symbol starten. R wird

Mehr

Insiderwissen 2013. Hintergrund

Insiderwissen 2013. Hintergrund Insiderwissen 213 XING EVENTS mit der Eventmanagement-Software für Online Eventregistrierung &Ticketing amiando, hat es sich erneut zur Aufgabe gemacht zu analysieren, wie Eventveranstalter ihre Veranstaltungen

Mehr

LEITFADEN ZUR SCHÄTZUNG DER BEITRAGSNACHWEISE

LEITFADEN ZUR SCHÄTZUNG DER BEITRAGSNACHWEISE STOTAX GEHALT UND LOHN Stollfuß Medien LEITFADEN ZUR SCHÄTZUNG DER BEITRAGSNACHWEISE Stand 09.12.2009 Seit dem Januar 2006 hat der Gesetzgeber die Fälligkeit der SV-Beiträge vorgezogen. So kann es vorkommen,

Mehr

Fortgeschrittene Statistik Logistische Regression

Fortgeschrittene Statistik Logistische Regression Fortgeschrittene Statistik Logistische Regression O D D S, O D D S - R A T I O, L O G I T T R A N S F O R M A T I O N, I N T E R P R E T A T I O N V O N K O E F F I Z I E N T E N, L O G I S T I S C H E

Mehr

Betragsgleichungen und die Methode der Fallunterscheidungen

Betragsgleichungen und die Methode der Fallunterscheidungen mathe online Skripten http://www.mathe-online.at/skripten/ Betragsgleichungen und die Methode der Fallunterscheidungen Franz Embacher Fakultät für Mathematik der Universität Wien E-mail: franz.embacher@univie.ac.at

Mehr

Grundbegriffe der Informatik

Grundbegriffe der Informatik Grundbegriffe der Informatik Einheit 15: Reguläre Ausdrücke und rechtslineare Grammatiken Thomas Worsch Universität Karlsruhe, Fakultät für Informatik Wintersemester 2008/2009 1/25 Was kann man mit endlichen

Mehr

Auswerten mit Excel. Viele Video-Tutorials auf Youtube z.b. http://www.youtube.com/watch?v=vuuky6xxjro

Auswerten mit Excel. Viele Video-Tutorials auf Youtube z.b. http://www.youtube.com/watch?v=vuuky6xxjro Auswerten mit Excel Viele Video-Tutorials auf Youtube z.b. http://www.youtube.com/watch?v=vuuky6xxjro 1. Pivot-Tabellen erstellen: In der Datenmaske in eine beliebige Zelle klicken Registerkarte Einfügen

Mehr

W-Rechnung und Statistik für Ingenieure Übung 11

W-Rechnung und Statistik für Ingenieure Übung 11 W-Rechnung und Statistik für Ingenieure Übung 11 Christoph Kustosz (kustosz@statistik.tu-dortmund.de) Mathematikgebäude Raum 715 Christoph Kustosz (kustosz@statistik.tu-dortmund.de) W-Rechnung und Statistik

Mehr

Abb. 30: Antwortprofil zum Statement Diese Kennzahl ist sinnvoll

Abb. 30: Antwortprofil zum Statement Diese Kennzahl ist sinnvoll Reklamationsquote Stornierungsquote Inkassoquote Customer-Lifetime-Value Hinsichtlich der obengenannten Kennzahlen bzw. Kontrollgrößen für die Neukundengewinnung wurden den befragten Unternehmen drei Statements

Mehr

Outlook. sysplus.ch outlook - mail-grundlagen Seite 1/8. Mail-Grundlagen. Posteingang

Outlook. sysplus.ch outlook - mail-grundlagen Seite 1/8. Mail-Grundlagen. Posteingang sysplus.ch outlook - mail-grundlagen Seite 1/8 Outlook Mail-Grundlagen Posteingang Es gibt verschiedene Möglichkeiten, um zum Posteingang zu gelangen. Man kann links im Outlook-Fenster auf die Schaltfläche

Mehr

DAS PARETO PRINZIP DER SCHLÜSSEL ZUM ERFOLG

DAS PARETO PRINZIP DER SCHLÜSSEL ZUM ERFOLG DAS PARETO PRINZIP DER SCHLÜSSEL ZUM ERFOLG von Urs Schaffer Copyright by Urs Schaffer Schaffer Consulting GmbH Basel www.schaffer-consulting.ch Info@schaffer-consulting.ch Haben Sie gewusst dass... >

Mehr

V 2 B, C, D Drinks. Möglicher Lösungsweg a) Gleichungssystem: 300x + 400 y = 520 300x + 500y = 597,5 2x3 Matrix: Energydrink 0,7 Mineralwasser 0,775,

V 2 B, C, D Drinks. Möglicher Lösungsweg a) Gleichungssystem: 300x + 400 y = 520 300x + 500y = 597,5 2x3 Matrix: Energydrink 0,7 Mineralwasser 0,775, Aufgabenpool für angewandte Mathematik / 1. Jahrgang V B, C, D Drinks Ein gastronomischer Betrieb kauft 300 Dosen Energydrinks (0,3 l) und 400 Liter Flaschen Mineralwasser und zahlt dafür 50, Euro. Einen

Mehr

etutor Benutzerhandbuch XQuery Benutzerhandbuch Georg Nitsche

etutor Benutzerhandbuch XQuery Benutzerhandbuch Georg Nitsche etutor Benutzerhandbuch Benutzerhandbuch XQuery Georg Nitsche Version 1.0 Stand März 2006 Versionsverlauf: Version Autor Datum Änderungen 1.0 gn 06.03.2006 Fertigstellung der ersten Version Inhaltsverzeichnis:

Mehr

AUTOMATISIERTE HANDELSSYSTEME

AUTOMATISIERTE HANDELSSYSTEME UweGresser Stefan Listing AUTOMATISIERTE HANDELSSYSTEME Erfolgreich investieren mit Gresser K9 FinanzBuch Verlag 1 Einsatz des automatisierten Handelssystems Gresser K9 im Portfoliomanagement Portfoliotheorie

Mehr

Zeichen bei Zahlen entschlüsseln

Zeichen bei Zahlen entschlüsseln Zeichen bei Zahlen entschlüsseln In diesem Kapitel... Verwendung des Zahlenstrahls Absolut richtige Bestimmung von absoluten Werten Operationen bei Zahlen mit Vorzeichen: Addieren, Subtrahieren, Multiplizieren

Mehr

Statistik I für Betriebswirte Vorlesung 5

Statistik I für Betriebswirte Vorlesung 5 Statistik I für Betriebswirte Vorlesung 5 PD Dr. Frank Heyde TU Bergakademie Freiberg Institut für Stochastik 07. Mai 2015 PD Dr. Frank Heyde Statistik I für Betriebswirte Vorlesung 5 1 Klassische Wahrscheinlichkeitsdefinition

Mehr

Projekt-Ideenskizze. Markt: Telekommunikation

Projekt-Ideenskizze. Markt: Telekommunikation Projekt-Ideenskizze Markt: Telekommunikation 1. Zu untersuchende Fragestellung 2. Zielsetzung des Marktforschungsprojektes 3. Geplante Marktforschungsmethoden + Begründung 4. Planung der Durchführung 5.

Mehr

Statistik mit Excel. für Praktiker: Statistiken aufbereiten und präsentieren HORST-DIETER RADKE

Statistik mit Excel. für Praktiker: Statistiken aufbereiten und präsentieren HORST-DIETER RADKE Statistik mit Excel für Praktiker: Statistiken aufbereiten und präsentieren HORST-DIETER RADKE INHALTS- VERZEICHNIS Vorwort 13 Schreiben Sie uns! 15 1 Statistische Untersuchungen 17 Wozu Statistik? 18

Mehr

Religionsmonitor Online-Befragung Hintergrundinformationen 15.12.2009

Religionsmonitor Online-Befragung Hintergrundinformationen 15.12.2009 Religionsmonitor Online-Befragung Hintergrundinformationen 15.12.2009 Religionsmonitor Online-Befragung Hintergrundinformationen Seite 2 Religionsmonitor Online-Befragung Hintergrundinformationen Methodische

Mehr

13. Lineare DGL höherer Ordnung. Eine DGL heißt von n-ter Ordnung, wenn Ableitungen y, y, y,... bis zur n-ten Ableitung y (n) darin vorkommen.

13. Lineare DGL höherer Ordnung. Eine DGL heißt von n-ter Ordnung, wenn Ableitungen y, y, y,... bis zur n-ten Ableitung y (n) darin vorkommen. 13. Lineare DGL höherer Ordnung. Eine DGL heißt von n-ter Ordnung, wenn Ableitungen y, y, y,... bis zur n-ten Ableitung y (n) darin vorkommen. Sie heißt linear, wenn sie die Form y (n) + a n 1 y (n 1)

Mehr