Statistik für Ingenieure Vorlesung 7

Ähnliche Dokumente
Statistik für Ingenieure Vorlesung 8

Modul 04: Messbarkeit von Merkmalen, Skalen und Klassierung. Prof. Dr. W. Laufner Beschreibende Statistik

3. Merkmale und Daten

Stochastik und Statistik für Ingenieure Vorlesung 8

Kapitel III - Merkmalsarten

Teil I: Deskriptive Statistik

Grundbegriffe. Bibliografie

Standardisierte Vorgehensweisen und Regeln zur Gewährleistung von: Eindeutigkeit Schlussfolgerungen aus empirischen Befunden sind nur dann zwingend

Forschungsmethoden in der Sozialen Arbeit

Deskriptive Statistik Kapitel III - Merkmalsarten

Angewandte Statistik 3. Semester

Daten, Datentypen, Skalen

Datenerhebung, Skalenniveaus und Systemdatei

Statistik II: Grundlagen und Definitionen der Statistik

Phasen des Forschungsprozesses (hypothesenprüfende Studie)

Teil I: Deskriptive Statistik

Allgemeine Grundlagen Seite Termin: Eindimensionale Häufigkeitsverteilung

Statistische Grundlagen I

Statistikpraktikum. Carsten Rezny. Sommersemester Institut für angewandte Mathematik Universität Bonn

1. GEGENSTAND UND GRUNDBEGRIFFE DER STATISTIK

Skript zur Übung: Grundlagen der empirischen Sozialforschung - Datenanalyse

1 Einführung und Grundbegriffe

Statistik. Jan Müller

STATISTIK FÜR STATISTIK-AGNOSTIKER Teil 1 (wie mich)

Zusammenfassung Mathe II. Themenschwerpunkt 2: Stochastik (ean) 1. Ein- und mehrstufige Zufallsexperimente; Ergebnismengen

Alle weiteren Messoperationen schließen die Klassifikation als Minimaloperation ein.

Grundbegriffe (1) Grundbegriffe (2)

Vorlesung Grundlagen der Biometrie WS 2011/12 1. Grundbegriffe

Forschungsstatistik I

2.Übung Stochastik und Statistik WS09/10 (Boogaart, Jansen)

Skalenniveaus =,!=, >, <, +, -

Informatik II Grundbegriffe der Wahrscheinlichkeitsrechnung

Kapitel 1: Gegenstand und Grundbegriffe der Statistik

Wiederholung Statistik I. Statistik für SozialwissenschaftlerInnen II p.8

Deskriptive Statistik 1 behaftet.

1 Vorbemerkungen 1. 2 Zufallsexperimente - grundlegende Begriffe und Eigenschaften 2. 3 Wahrscheinlichkeitsaxiome 4. 4 Laplace-Experimente 6

Beispiel für Anwendung: z-tabelle kann genutzt werden, um z.b. Poissonverteilung näherungsweise zu integrieren. Beispiel: wie wahrscheinlich ist es

0 Einführung: Was ist Statistik

TEIL 7: EINFÜHRUNG UNIVARIATE ANALYSE TABELLARISCHE DARSTELLUNG / AUSWERTUNG

Skalenniveau Grundlegende Konzepte

DATENERHEBUNG: MESSEN-OPERATIONALISIEREN - SKALENARTEN

Data Mining (ehem. Entscheidungsunterstützungssysteme)

Zufallsvariablen [random variable]

P (A B) P (B) = P ({3}) P ({1, 3, 5}) = 1 3.

4. Schließende Statistik (Inferenzstatistik, konfirmatorische Verfahren)

WISTA WIRTSCHAFTSSTATISTIK

Vorlesung. Mathematische Statistik für Studierende. der Hydrologie und Abfallwissenschaften

Glossar Biometrie / Statistik. Auszug für Fragebogen Fallzahlberechnung/-begründung

Statistik I für Betriebswirte Vorlesung 2

Statistik und Wahrscheinlichkeitsrechnung

JOACHIM BEHNKE / NINA BAUR / NATHALIE BEHNKE. Empirische Methoden der Politikwissenschaft

Einführung. 2. Sie entstehen erst durch Beobachtung, Erhebung, Befragung, Experiment

Einführung in die Statistik Einführung

VS PLUS

Auswahlverfahren. Zufallsauswahl Bewusste Auswahl Willkürliche Auswahl. Dipl.-Päd. Ivonne Bemerburg

P (X = 2) = 1/36, P (X = 3) = 2/36,...

Vorlesung 1: Grundbegriffe, einführende Begriffe, Merkmale in der Statistik Gliederung und Aufgaben einer Vorlesung Statistik

Grundlagen der Datenanalyse

Vorlesung Stichproben WS 2009/2010

Fachrechnen für Tierpfleger

Probleme und Möglichkeiten der Behandlung der bedingten Wahrscheinlichkeit

Bitte am PC mit Windows anmelden!

QUANTITATIVE VS QUALITATIVE STUDIEN

Florian Frötscher und Demet Özçetin

Gründe für die Behandlung von stochastischen Problemen (nach KÜTTING)

Was heißt messen? Konzeptspezifikation Operationalisierung Qualität der Messung

Überblick. Linguistische Anwendungen: æ Spracherkennung æ Textretrival æ probabilistische Grammatiken: z.b. Disambiguierung. Problem: woher Daten?

3.2 Stichprobenauswahl (Sampling)

Es können keine oder mehrere Antworten richtig sein. Eine Frage ist NUR dann richtig beantwortet, wenn ALLE richtigen Antworten angekreuzt wurden.

Wahrscheinlichkeitsrechnung und Statistik

Biometrie im neuen Antragsverfahren

Bivariate Analyseverfahren

Deskriptive Statistik

Statistik für das Psychologiestudium

STATISTIK Teil 2 Wahrscheinlichkeitsrechnung und schließende Statistik. Mögliche Ergebnisse, auch Elementarereignisse bezeichnet

3. Deskriptive Statistik

Phasen des Forschungsprozesses (hypothesenprüfende Studie)

Kapitel 5. Univariate Zufallsvariablen. 5.1 Diskrete Zufallsvariablen

Stochastik und Statistik für Ingenieure Vorlesung 4

Grundgesamtheit und Stichprobe

3 Bedingte Wahrscheinlichkeit, Unabhängigkeit

Empirische Sozialforschung

WISTA WIRTSCHAFTSSTATISTIK

1. Grundlagen der Wahrscheinlichkeitsrechnung

Frequent Itemset Mining + Association Rule Mining

Inhaltsverzeichnis. Inhalt Teil I: Beschreibende (Deskriptive) Statistik Seite. 1.0 Erste Begriffsbildungen Merkmale und Skalen 5

Statistische Tests zu ausgewählten Problemen

Deskriptive Statistik

Konfidenzintervalle Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Anteilswert Differenzen von Erwartungswert Anteilswert

GLIEDERUNG Das Messen eine Umschreibung Skalenniveaus von Variablen Drei Gütekriterien von Messungen Konstruierte Skalen in den Sozialwissenschaften

Teil: lineare Regression

Grundlagen der Mengenlehre

Methodik für Linguisten

Transkript:

Statistik für Ingenieure Vorlesung 7 Prof. Dr. Hans-Jörg Starkloff TU Bergakademie Freiberg Institut für Stochastik 12. Dezember 2017

4. Deskriptive Statistik 4.1. Grundbegriffe der Statistik Der Begriff Statistik wurde Ende des 17. Jahrhunderts geprägt für die verbale oder numerische Beschreibung eines bestimmten Staates oder den Inbegriff der Staatsmerkwürdigkeiten eines Landes oder Volkes (er hat dieselbe Wortwurzel wie Staat oder Staatsmann ). Heute hat dieser Begriff viele verschiedene Bedeutungen, z.b. für eine tabellarische oder grafische Darstellung von erhobenen Daten; einen Fachausdruck für eine Stichprobenfunktion; eine methodische Hilfswissenschaft zur quantitativen Untersuchung von Massenerscheinungen. Hier soll mit dem Begriff Statistik eine Zusammenfassung von Methoden verstanden werden, die zur zahlenmäßigen oder grafischen Analyse von Daten dienen soll, insbesondere im Zusammenhang mit Massenerscheinungen und zufallsbehafteten Vorgängen. Prof. Dr. Hans-Jörg Starkloff Statistik für Ingenieure Vorlesung 7 Geändert: 7. Dezember 2017 2

Teilgebiete der Statistik Die beschreibende oder deskriptive Statistik behandelt zum Beispiel beschreibende Aussagen über statistische Daten, deren Veranschaulichung oder Möglichkeiten der Datenreduktion. Eng damit verwandt ist die explorative Datenanalyse, bei der zum Beispiel Daten auf Unstimmigkeiten hin untersucht werden oder Modellvorstellungen über die den Daten zugrundeliegenden Gesetzmäßigkeiten entwickelt werden. Die Methoden der schließenden oder beurteilenden Statistik dienen zum Beispiel zur Ableitung von statistisch gesicherten Aussagen über die den Daten zugrunde liegenden Sachverhalte, etwa die Schätzung von Kenngrößen oder die Durchführung von statistischen Tests. Insbesondere in der schließenden Statistik werden Methoden verwendet, deren (Weiter-)Entwicklung und Begründung durch die mathematische Statistik erfolgt. Insgesamt bestehen enge Beziehungen zwischen Statistik und Wahrscheinlichkeitstheorie. Prof. Dr. Hans-Jörg Starkloff Statistik für Ingenieure Vorlesung 7 Geändert: 7. Dezember 2017 3

Untersuchungseinheiten, Grundgesamtheit und Stichprobe Daten werden an gewissen Objekten (den Untersuchungseinheiten oder statistischen Einheiten) beobachtet, z.b. die Wirksamkeit eines Medikaments an Patienten; Lebensdauern an elektronischen Geräten; Ankunftsraten an Bahnkunden. Eine Untersuchungseinheit ist ein Einzelobjekt einer statistischen Untersuchung. Eine Grundgesamtheit ist eine Menge von Untersuchungseinheiten, für die vom Untersuchungsziel her eine Frage geklärt werden soll. Sie muss durch übereinstimmende Identifikationskriterien der betrachteten Untersuchungseinheiten zeitlich, räumlich und sachlich eindeutig abgegrenzt werden. Eine Stichprobe ist die Teilmenge der Grundgesamtheit, die bei einer statistischen Untersuchung (Teilerhebung) erfasst wird. Prof. Dr. Hans-Jörg Starkloff Statistik für Ingenieure Vorlesung 7 Geändert: 7. Dezember 2017 4

Merkmale und Merkmalsausprägungen Eigentlich interessieren nicht die Untersuchungseinheiten selbst, sondern bestimmte Eigenschaften der Untersuchungseinheiten (sogenannte Merkmale). Z.B. interessiert nicht der Patient selbst, sondern ob oder wie das Medikament bei ihm wirkt; bei Umfragen interessiert nicht der Passant, sondern seine Meinung. Ein Merkmal ist eine Größe oder Eigenschaft einer Untersuchungseinheit, die auf Grund der interessierenden Fragestellung erhoben bzw. gemessen wird. Eine Merkmalsausprägung ist ein möglicher Wert, den ein Merkmal annehmen kann. Eine Untersuchungseinheit wird auch Merkmalsträger genannt. Prof. Dr. Hans-Jörg Starkloff Statistik für Ingenieure Vorlesung 7 Geändert: 7. Dezember 2017 5

Beispiel Mietspiegel Nettomiete abhängig von Merkmalen wie Art: Altbau, Neubau,... ; Lage: Innenstadt, Stadtrand,... ; Größe: 40m 2, 95m 2,... ; Baujahr: }{{} 1932, 1965, 1983, 1995,.... }{{} Merkmale Ausprägungen In der Regel werden mehrere Merkmale an einem Merkmalsträger beobachtet; z.b. Merkmalsträger: Wetter zu einem bestimmten Zeitpunkt an einem bestimmten Ort; Merkmale: Temperatur, Niederschlagsmenge, Luftdruck, Bewölkung, Luftfeuchtigkeit, Sicht,.... Merkmalsausprägungen müssen keine Zahlen sein, z.b. Bewölkung: wolkenlos, heiter, leicht bewölkt, wolkig, bedeckt,... ; Autofarbe: rot, grün, schwarz,.... Prof. Dr. Hans-Jörg Starkloff Statistik für Ingenieure Vorlesung 7 Geändert: 7. Dezember 2017 6

Bezeichnungen und Klassifikationen von Merkmalen Bezeichnungen: Grundgesamtheit: Ω. Untersuchungseinheit: ω oder i. Merkmale: X, Y, Z oder auch X1, X 2, X 3,.... Menge der Merkmalsausprägungen: S. Merkmalsausprägungen oder -werte: x = X (ω) oder x i = X (i). Mathematisch betrachtet ist ein Merkmal eine Funktion X : Ω S, die jeder Untersuchungseinheit die zugehörige Merkmalsausprägung zuordnet. Klassifikationen von Merkmalen: zum Beispiel qualitative Merkmale, Rangmerkmale und quantitative Merkmale; diskrete, stetige und spezielle Merkmale. Prof. Dr. Hans-Jörg Starkloff Statistik für Ingenieure Vorlesung 7 Geändert: 7. Dezember 2017 7

Merkmalstypen Qualitatives Merkmal: es gibt weder eine natürliche Ordnung der Ausprägungen, noch ist es sinnvoll, Abstände oder Verhältnisse der Ausprägungen zu betrachten; Ausprägungen werden meist verbal beschrieben. Rangmerkmal: es gibt eine natürliche Ordnung der Ausprägungen, aber es ist nicht sinnvoll, Abstände oder Verhältnisse zu betrachten; Ausprägungen werden verbal oder durch ganze Zahlen beschrieben. Quantitatives Merkmal: Ausprägungen sind Zahlen, es gibt eine natürliche Ordnung, Abstände oder Verhältnisse sind interpretierbar. Diskretes Merkmal: Ausprägungen sind isolierte Zustände, die Menge der möglichen Ausprägungen ist höchstens abzählbar. Stetiges Merkmal: Ausprägungen (Werte) sind Zahlen, sie liegen dicht, zwischen je zwei Ausprägungen ist stets eine weitere möglich. Beachte: Jede praktische Messung bei stetigen Merkmalen ist durch die jeweilige Grenze der Messgenauigkeit bedingt diskret. Prof. Dr. Hans-Jörg Starkloff Statistik für Ingenieure Vorlesung 7 Geändert: 7. Dezember 2017 8

Merkmalstypen (Beispiele) Merkmal Ausprägungen Art Geschlecht m / w keine Ordnung qualitativ Automarke Fiat, Toyota,... keine Ordnung qualitativ Prüfungsnote 1, 2, 3, 4, 5 Ordnung, Rangmerkmal Abst. nicht interpr. Beliebtheit von sehr, mäßig, nicht Ordnung, Rangmerkmal Politikern Abst. nicht interpr. Anzahl Kinder 0, 1, 2, 3,... Ordnung, quantitativ, in einer Familie Abst. interpr., diskret keine Auspr. zw. 2 anderen mögl. Regenmenge 20mm, 50mm,... Ordnung, quantitativ, an einem Tag Abst. interpr., stetig Verhältn. interpr., zwischen 2 Auspr. immer weitere mögl. Prof. Dr. Hans-Jörg Starkloff Statistik für Ingenieure Vorlesung 7 Geändert: 7. Dezember 2017 9

Skalenniveaus Je nach Art des Merkmals werden die Merkmalsausprägungen anhand verschiedener Skalen gemessen: Nominalskala (lat. nomen = Name); Ordinalskala (lat. ordinare = ordnen, auch Rangskala); Intervallskala; Verhältnisskala (auch Ratioskala, Rationalskala, Proportionalskala); Absolutskala. Intervall-, Verhältnis- und Absolutskala werden auch in dem Oberbegriff metrische Skala (oder Kardinalskala; griech. metron = Maß) zusammengefasst. Auch feinere oder andere Unterteilungen und spezielle Skalen werden genutzt. Prof. Dr. Hans-Jörg Starkloff Statistik für Ingenieure Vorlesung 7 Geändert: 7. Dezember 2017 10

Nominalskala Die Merkmalsausprägungen entsprechen begrifflichen Kategorien. Es gibt keine natürliche Ordnungsrelation. Sind nur zwei Ausprägungen vorhanden, spricht man auch von dichotomen Merkmalen, z.b. Geschlecht ( männlich, weiblich ); Zustimmung ( Ja, Nein ). Gibt es eine vor der Datenerhebung feststehende Einteilung der Grundgesamtheit in endlich viele disjunkte Klassen und wird jede Untersuchungseinheit eindeutig in eine der Klassen eingeordnet, spricht man auch von einer kategoriellen Skala. Die Ausprägungen heißen dann auch Kategorien oder Stufen des Merkmals. Beispiele sind Familienstand ( ledig, verheiratet, geschieden, verwitwet ); Status ( Eigentümer, Hauptmieter, Untermieter ); Status ( Azubi, Geselle, Meister ); Behandlung ( Placebo, altes Medikament, neues Medikament ). Prof. Dr. Hans-Jörg Starkloff Statistik für Ingenieure Vorlesung 7 Geändert: 7. Dezember 2017 11

Ordinalskala Zwischen den Merkmalsausprägungen besteht eine natürliche Reihenfolge (Ordnungsrelation, Anordnung). Abstände zwischen zwei Ausprägungen (oder Quotienten) haben keine inhaltliche Bedeutung. Beispiele sind Höchster Schulabschluss ( Keiner, Hauptschule, Mittlere Reife, Hochschulreife ); Status ( Eigentümer, Hauptmieter, Untermieter ); Status ( Azubi, Geselle, Meister ); Bewertung ( gut, mittel, schlecht ). Eine Ordinalskala mit ganzzahligen Ordungsziffern (Rängen, Rangziffern), die mit 1 beginnend in ununterbrochener Reihenfolge hintereinander stehen, heißt auch Rangskala, z.b. Rangplätze in der Bundesliga. Prof. Dr. Hans-Jörg Starkloff Statistik für Ingenieure Vorlesung 7 Geändert: 7. Dezember 2017 12

Intervallskala Merkmalsausprägungen (Merkmalswerte) sind reelle Zahlen. Neben der Ordnungsrelation zwischen den Merkmalsausprägungen lassen sich auch deren Abstände interpretieren. Es existiert allerdings ein willkürlich gesetzter Nullpunkt. Beispiel: Temperatur in C. Quotienten dürfen nicht gebildet werden, so ist z.b. die Aussage 20 C ist doppelt so warm wie 10 C sinnlos. Eine Intervallskala wird auch reelle Skala genannt. Prof. Dr. Hans-Jörg Starkloff Statistik für Ingenieure Vorlesung 7 Geändert: 7. Dezember 2017 13

Verhältnisskala Bei einer Verhältnisskala (auch ratio, positiv reell, relativen Skala) können nur positive Zahlen beobachtet werden. Zusätzlich zu den Eigenschaften der Intervallskala gibt es einen natürlichen Nullpunkt. Multiplikation und Division sind inhaltlich sinnvolle Operationen, der Quotient von zwei Werten ist inhaltlich sinnvoll (4 ist doppelt so groß wie 2). Beispiele: Gewichte, Längen. Bei stetigen Merkmalen in der relativen Skala kann man überlegen (und eventuell versuchen), durch Logarithmieren der Daten zu einer reellen Skala zu gelangen. Oft kann man dann zugrundeliegende Gesetzmäßigkeiten viel besser erkennen. Prof. Dr. Hans-Jörg Starkloff Statistik für Ingenieure Vorlesung 7 Geändert: 7. Dezember 2017 14

Absolutskala Zusätzlich zu den Forderungen der Verhältnisskala ist neben dem natürlichen Nullpunkt hier auch eine natürliche Einheit zwingend vorgeschrieben. Dies ist zum Beispiel bei Merkmalen der Fall, wenn die Merkmalsausprägungen Anzahlen sind. Beispiel Anzahl von Kindern in einem Haushalt. Prof. Dr. Hans-Jörg Starkloff Statistik für Ingenieure Vorlesung 7 Geändert: 7. Dezember 2017 15

Bemerkung Auch andere bzw. weitere Einteilungen und spezielle Skalen werden genutzt, z.b. die Anteilskala. Bei einer Variable in der Anteilskala (auch Wahrscheinlichkeitsskala) können nur Werte zwischen 0 und 1 beobachtet werden. Die Werte sind als Anteile interpretierbar. Durch die natürliche Beschränkung auf das Intervall [0, 1] können die Werte nicht beliebig addiert werden und der Rest bis zur 1 spielt immer eine Rolle. Sind nur kleine Anteile von Interesse, kann oft mit einer Ratio-Skala gearbeitet werden, sind auch größere Anteile wichtig, sollte man mit der Anteilskala rechnen. Prof. Dr. Hans-Jörg Starkloff Statistik für Ingenieure Vorlesung 7 Geändert: 7. Dezember 2017 16

Das Problem der Repräsentativität Die Repräsentativität spielt für statistische Auswertungen und Aussagen eine sehr große Rolle. Dabei können unter anderem zwei Probleme bei Teilerhebungen von Bedeutung sein. Das Auswahlverfahren der Individuen aus der Grundgesamtheit (das Ziehen der Stichprobe). Dieses sollte so organisiert sein, dass jedes Individuum die gleiche Chance hat, ausgewählt zu werden und dass die Individuen unabhängig voneinander ausgewählt werden. Zu beachten ist, dass zu jedem Individuum auch mehrere Merkmale beobachtet werden können. Die Erhebung einer Stichprobe aus Zufallsexperimenten. Dabei sollte gewährleistet sein, dass die Versuche unter gleichbleibenden Versuchsbedingungen durchgeführt werden und dass die Zufallsexperimente unabhängig voneinander durchgeführt werden. Auch in diesem Fall können mehrere Merkmale von Interesse sein. Prof. Dr. Hans-Jörg Starkloff Statistik für Ingenieure Vorlesung 7 Geändert: 7. Dezember 2017 17

Verbundene Stichproben Liegen zwei oder mehr Stichproben vor, deren Werte einander paarweise zugeordnet sind, spricht man von einer gepaarten Stichprobe bzw. von verbundenen Stichproben. Diese entstehen zum Beispiel dann, wenn man zwei oder mehr Merkmale an ein- und demselben statistischen Objekt beobachtet. Beispiele: Messwerte für die Wirkungen jeweils zweier Medikamente für ein- und dieselben Patienten; Anzahl von Bestellungen einer Kundengruppe vor (1. Stichprobe) und nach (2. Stichprobe) einer Werbeaktion. Verbundene (mathematische) Stichproben werden durch unabhängige Zufallsvektoren (X 1, Y 1 ),..., (X n, Y n ) modelliert. Prof. Dr. Hans-Jörg Starkloff Statistik für Ingenieure Vorlesung 7 Geändert: 7. Dezember 2017 18

Erste Analyseschritte für einen neuen Datensatz Eine Datenauswertung beginnt mit folgenden Analyseschritten: Wie liegen die Daten vor? Datenmatrix, Datentafel, unvorbereitet,.... Welche Variablen gibt es und was bedeuten sie? Dazugehörige Beschreibung beachten. Welche Skala haben die einzelnen Variablen? diskret: nominal, kategoriell, ordinal, Intervall, Anzahl; stetig: reell, ratio, Anteil, (Anzahlverstetigung, z.b. Preise); speziell: irgendwie anders. Ein-, Zwei-, oder Mehrstichprobensituation, verbundene (gepaarte) oder gepoolte Größen in der Stichprobe? Eine Grundgesamtheit, zwei oder mehrere bzw. ein Zufallsexperiment, zwei oder mehrere? Prof. Dr. Hans-Jörg Starkloff Statistik für Ingenieure Vorlesung 7 Geändert: 7. Dezember 2017 19

Fortsetzung: erste Analyseschritte Was sind die Grundgesamtheiten? Welche wünschen wir uns? Für welche sind die Daten wohl repräsentativ? Sind die Daten für die Grundgesamtheit repräsentativ? Wie sind die Daten zustandegekommen, gab es eine unabhängige und gleichwahrscheinliche Auswahl der statistischen Individuen und/oder unabhängige Zufallsexperimente unter gleichbleibenden Bedingungen, so dass die Variablen als unabhängig und identisch verteilt angesehen werden können? Prof. Dr. Hans-Jörg Starkloff Statistik für Ingenieure Vorlesung 7 Geändert: 7. Dezember 2017 20