Grundbegriffe der Statistik

Ähnliche Dokumente
Dr. Barbara Lindemann. Fragebogen. Kolloquium zur Externen Praxisphase. Dr. Barbara Lindemann 1

Statistische Grundlagen I

Standardisierte Vorgehensweisen und Regeln zur Gewährleistung von: Eindeutigkeit Schlussfolgerungen aus empirischen Befunden sind nur dann zwingend

Statistik II: Grundlagen und Definitionen der Statistik

Alle weiteren Messoperationen schließen die Klassifikation als Minimaloperation ein.

Skalenniveaus =,!=, >, <, +, -

DATENERHEBUNG: MESSEN-OPERATIONALISIEREN - SKALENARTEN

Forschungsmethoden in der Sozialen Arbeit

Wiederholung Statistik I. Statistik für SozialwissenschaftlerInnen II p.8

Statistik. Jan Müller

Angewandte Statistik 3. Semester

Brückenkurs Statistik für Wirtschaftswissenschaften

Messen und Statistik

Statistik und Wahrscheinlichkeitsrechnung

0 Einführung: Was ist Statistik

Teil I: Deskriptive Statistik

STATISTIK FÜR STATISTIK-AGNOSTIKER Teil 1 (wie mich)

Daten, Datentypen, Skalen

Grundbegriffe (1) Grundbegriffe (2)

Modul 04: Messbarkeit von Merkmalen, Skalen und Klassierung. Prof. Dr. W. Laufner Beschreibende Statistik

Lage- und Streuungsparameter

1. Maße der zentralen Tendenz Beispiel: Variable Anzahl der Geschwister aus Jugend '92. Valid Cum Value Frequency Percent Percent Percent

3. Merkmale und Daten

Statistik für das Psychologiestudium

Markt- und Werbepsychologie. Band 1 Grundlagen

Statistikpraktikum. Carsten Rezny. Sommersemester Institut für angewandte Mathematik Universität Bonn

Teil: lineare Regression

Fachrechnen für Tierpfleger

Computerübung 5. Empirische Wirtschaftsforschung. Willi Mutschler. Ökonometrie und Wirtschaftsstatistik Uni Münster. 26.

Statistik eindimensionaler Größen

3. Deskriptive Statistik

Es können keine oder mehrere Antworten richtig sein. Eine Frage ist NUR dann richtig beantwortet, wenn ALLE richtigen Antworten angekreuzt wurden.

Ein- und Zweistichprobentests

JOACHIM BEHNKE / NINA BAUR / NATHALIE BEHNKE. Empirische Methoden der Politikwissenschaft

Häufigkeitsauszählungen, zentrale statistische Kennwerte und Mittelwertvergleiche

GLIEDERUNG Das Messen eine Umschreibung Skalenniveaus von Variablen Drei Gütekriterien von Messungen Konstruierte Skalen in den Sozialwissenschaften

Heinz Holling & Günther Gediga. Statistik - Deskriptive Verfahren

Statistik, Geostatistik

Einführung in die Statistik für Politikwissenschaftler Sommersemester 2011

Univariate Häufigkeitsverteilungen Kühnel, Krebs 2001: Statistik für die Sozialwissenschaften, S.41-66

Florian Frötscher und Demet Özçetin

Datenerhebung, Skalenniveaus und Systemdatei

Bei näherer Betrachtung des Diagramms Nr. 3 fällt folgendes auf:

Inhaltsverzeichnis. Inhalt Teil I: Beschreibende (Deskriptive) Statistik Seite. 1.0 Erste Begriffsbildungen Merkmale und Skalen 5

Modul G.1 WS 07/08: Statistik

Einführung in die Statistik Einführung

Auswertung mit dem Statistikprogramm SPSS:

3 Lage- und Streuungsmaße

Phasen des Forschungsprozesses (hypothesenprüfende Studie)

Beispiel für Anwendung: z-tabelle kann genutzt werden, um z.b. Poissonverteilung näherungsweise zu integrieren. Beispiel: wie wahrscheinlich ist es

10 Der statistische Test

Regression ein kleiner Rückblick. Methodenseminar Dozent: Uwe Altmann Alexandra Kuhn, Melanie Spate

Skript zur Übung: Grundlagen der empirischen Sozialforschung - Datenanalyse

Teil I: Deskriptive Statistik

Beide Verteilungen der Zeiten sind leicht schief. Der Quartilsabstand für Zeiten zum Surfen ist kleiner als der zum Fernsehen.

Konfidenzintervalle Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Anteilswert Differenzen von Erwartungswert Anteilswert

Deskriptive Statistik Kapitel III - Merkmalsarten

Was heißt messen? Konzeptspezifikation Operationalisierung Qualität der Messung

Bitte am PC mit Windows anmelden!

Inhaltsverzeichnis. Teil 1 Basiswissen und Werkzeuge, um Statistik anzuwenden

1 Messfehler. 1.1 Systematischer Fehler. 1.2 Statistische Fehler

Elisabeth Raab-Steiner/ Michael Benesch. Der Fragebogen. Von der Forschungsidee zur SPSS-Auswertung. 3., aktualisierte und überarbeitete Auflage

Charakterisierung der Daten: Sind es genug? Sind alle notwendig? Was ist naturgegeben, was von Menschen beeinflusst (beeinflussbar)?

Übungen (HS-2010): Urteilsfehler. Autor: Siegfried Macho

Grundlegende Eigenschaften von Punktschätzern

Anteile Häufigkeiten Verteilungen Lagemaße Streuungsmaße Merkmale von Verteilungen. Anteile Häufigkeiten Verteilungen

I. Deskriptive Statistik 1

Beschreibende Statistik

PROC MEANS. zum Berechnen statistischer Maßzahlen (für quantitative Merkmale)

ÜBUNGSAUFGABEN ZUR DESKRIPTIVEN UND EXPLORATIVEN DATENANALYSE

Einführung in die Korrelationsrechnung

Glossar Biometrie / Statistik. Auszug für Fragebogen Fallzahlberechnung/-begründung

VS PLUS

8. Statistik Beispiel Noten. Informationsbestände analysieren Statistik

Deskriptive Statistik 1 behaftet.

Testen von Hypothesen:

Gütekriterien: Validität (15.5.)

Kapitel III - Merkmalsarten

8. Konfidenzintervalle und Hypothesentests

Einführung in die Wahrscheinlichkeitsrechnung und Statistik für Ingenieure

Thema: Mittelwert einer Häufigkeitsverteilung. Welche Informationen kann der Mittelwert geben?

Deskriptive Statistik

Statistik II Übung 1: Einfache lineare Regression

4. Schließende Statistik (Inferenzstatistik, konfirmatorische Verfahren)

STATISTISCHE MUSTERANALYSE - DARSTELLUNGSVORSCHLAG

Statistik Testverfahren. Heinz Holling Günther Gediga. Bachelorstudium Psychologie. hogrefe.de

1. GEGENSTAND UND GRUNDBEGRIFFE DER STATISTIK

Prinzipien der Fragebogenkonstruktion. Allgemeine Bestandteile. Richtlinien zur Formulierung. Die 10 Gebote der Frageformulierung (II)

Aufgaben und Ziele der Wissenschaften

Kapitel 1 Beschreibende Statistik

Quantitative Methoden (Vertretung für Prof. Th. Pechmann)

Campbell (1920): "... die Zuweisung von Zahlen, um Eigenschaften darzustellen."

4.2 Grundlagen der Testtheorie

Dr. I. Fahrner WiSe 2016/17 Fakultät Grundlagen Hochschule Esslingen Übungsblatt 2. Statistik

Tutorium Testtheorie. Termin 3. Inhalt: WH: Hauptgütekriterien- Reliabilität & Validität. Charlotte Gagern

Lösungen zur Biomathe-Klausur Gruppe A Montag, den 16. Juli 2001

Transkript:

- 1 - Grundbegriffe der Statistik Skriptum Quelle: SACHS, L.: Statistische Methoden: Planung und Auswertung. Berlin Heidelberg 1993. Grundbegriffe der Statistik 15 1 Größe IQ 5 1. Einleitung Zahlen bestimmen unseren Alltag. Einerseits ermöglichen sie manchmal erst die Kommunikation über abstrakte, der direkten Anschauung weitgehend entzogene Wesenheiten ( kommunikativer Aspekt ) und andererseits liefern sie oft die Grundlage für individuelle oder kollektive Entscheidungen ( pragmatischer Aspekt ). Für diese beiden Funktionen von Quantifizierung (= Erfassung durch Zahlen) lassen sich leicht Beispiele finden man denke etwa an Wirtschaftswachstum, Intelligenz, Schulleistung, Blutdruck, Preisstabilität (Inflation). Aufgabe 1: Finde weitere Beispiele für die Verwendung von Zahlen im Alltagsleben. Diskutiere die kommunikative und pragmatische Bedeutung von Zahlen am Beispiel von Schulnoten: (a) Wie erleichtern bzw. ermöglichen Schulnoten die Kommunikation über Schulleistung? (b) Welche (individuelle oder kollektive) Entscheidungen gründen auf Schulnoten? Allgemein versteht man unter Messung die Zuordnung von Skalenwerten (nicht unbedingt immer Zahlen) zu Ausprägungsgraden einer Messgröße. (1) Beispiele: (1) Gewichtsklassen bzw. Güteklassen von Eiern () Verschiedene Temperaturskalen (Celsius, Fahrenheit,...)

- - (3) Schulnotenskala von Sehr gut bis Nicht genügend () Intelligenzquotient wird als ganze Zahl ausgedrückt (5) Messung verschiedener physikalischer Größen (Zeit, Masse, Kraft,...) Messung setzt ein Messinstrument (Uhr, Waage, Test, Maßstab,...) und genaue Messvorschriften (= Regeln zur Anwendung des Messinstruments) voraus. Darüber hinaus sind mit einer Messung bestimmte Qualitätsansprüche ( Gütekriterien der Messung ) verbunden: Objektivität meint die Unabhängigkeit des Messergebnisses von der Person des Messenden unter sonst gleichen Bedingungen sollen verschiedene Anwender des Messinstruments zu übereinstimmenden Ergebnissen kommen. Reliabilität ist die Zuverlässigkeit eines Messinstruments bei wiederholter Anwendung unter gleichen Bedingungen sollen sich gleiche Ergebnisse einstellen (unabhängig davon, ob tatsächlich das gemessen wird, was erfasst werden soll). Gemeint ist also die Stabilität der Messergebnisse bei gleichen Bedingungen. Die Reliabilität eines Messverfahrens beruht auf dem Vergleich der Messergebnisse untereinander. Validität bezeichnet die Gültigkeit einer Messung hohe Validität eines Messergebnisses bedeutet, dass tatsächlich das erfasst wurde, was gemessen werden sollte. Die Validität eines Messverfahrens beruht auf dem Vergleich der Messergebnisse mit einem Außenkriterium (anderer Test, Beobachtung, Modellvorstellung,...). Aufgabe : (a) Diskutiere die Objektivität, Reliabilität und Validität von Schulnoten. (b) Welcher Zusammenhang besteht zwischen Reliabilität und Validität? Diskutiere diese Frage an folgenden Beispielen: - Körpergröße als Maß der Intelligenz - Intelligenztest mit hoher Validität, aber geringer Reliabilität.. Aufgaben der Statistik Beschreibende (deskriptive) Statistik: Erfassung von Lage (Mittelwerte), Verteilung (Varianz, Standardabweichung) und Zusammenhang von Datenmengen. Beurteilende bzw. schließende Statistik (Inferenzstatistik): Schluss von einer Stichprobe auf eine Grundgesamtheit Anwendung statistischer Tests zur Signifikanzprüfung. 3. Skalenniveaus Daten können auf verschiedenen Skalenniveaus erfasst werden ( Messung ): Nominalskala: Gleichheit / Ungleichheit von Objekten Klassifizierung; ergibt mit Namen versehene ungeordnete Werte A = B; A B Beispiele: Geschlecht; Beruf; Postleitzahl; Farbe. Ordinalskala: Geordnete Werte / Größer-Kleiner-Relation Rangreihe; ergibt Werte, die ihrer Größe entsprechend geordnet sind A = B; A B; A B

- 3 - Beispiele: Schulnoten; Güteklassen (etwa von Eiern); Ränge (Sport, Militär). Intervallskala: Skala mit konstanten Abständen und willkürlichem Nullpunkt Gleichheit von Differenzen bzw. Intervallen erfassbar A = B; A B; A B; A B Beispiele: Temperatur in Grad Celsius; Kalenderdatum; Punktewert beim Intelligenztest. Verhältnisskala: Intervallskala mit echtem ( natürlichem ) Nullpunkt exakt vergleichbare Verhältnisse A = B; A B; A B; A B; A. B; A : B Beispiele: Länge; Gewicht; Alter; Kosten; Phon.. Statistische Kennzahlen (1) Maßzahlen der Lage ( Mittelwerte ): Median m: Wert in der Mitte der ihrer Größe nach geordneten Daten er teilt die Datenmenge in zwei gleich große Teilmengen. Beispiel: (a) 5, 11, 3, 1, 17, 5, 1 3, 5, 11, 1, 17, 1, 5 Median m = 1 (b),, 9, 15,, 7,,, 9, 15, 7 Median m = 7,5 (arithmetisches Mittel (s.u.) der beiden mittleren Werte). Bemerkung: (a) Der Median ist sinnvoll für zumindest ordinalskalierte Daten. (b) Der Median ist unempfindlich gegenüber Ausreißern die beiden Datenmengen {,,, 9, 15, 7} und {-13,,, 9, 15, 357} haben denselben Median (nämlich 7,5). Arithmetisches Mittel x : x x 1 Beispiel: x... x n n (für Messwerte Arithmetisches Mittel von, 7,, 9, 1, 3 =? 7 9 1 3 x,33 () Maßzahlen der Verteilung ( Streuungsmaße ): x, x,... x 1 n ) Streuungsmaße sagen etwas über die Verteilung der Daten aus (eng konzentriert oder über einen weiten Bereich verteilt). Varianz s 1 n s : ( x1 x) ( x x)... ( xn x) ( x = arithmetisches Mittel) Beispiel: (a) Varianz von 1, 1, 1, 5, 5, 5 x = 3

- - 1 s (1 3) (1 3) (1 3) (5 3) (5 3) (5 3) (b) Varianz von 3, 3, 3, 3, 3, 3 x = 3 1 s (3 3) (3 3) (3 3) (3 3) (3 3) (3 3) Standardabweichung s : Die Standardabweichung ist die Quadratwurzel aus der Varianz. (3) Maßzahlen des Zusammenhangs ( Korrelationskoeffizienten ): Der Korrelationskoeffizient r ist ein Maß für den linearen Zusammenhang von paarweise gegebenen Daten. r = 1: perfekter positiver linearer Zusammenhang r = : kein linearer Zusammenhang r = -1: perfekter negativer linearer Zusammenhang Beispiel für Korrelationskoeffizienten: r = 1 r =,57 7 5 3 1 1 1 1 r = -,5 r = -,975 1 1 1 1 1 1 Beispiel: Zusammenhang Durchschnittsnote Fehlstundenanzahl (3c Schuljahr 3/) Gibt es einen linearen Zusammenhang zwischen der Durchschnittsnote und der Anzahl der Fehlstunden?

- 5-1 Zusammenhang Durchschnittsnote - Fehlstunden: r =,7 1 Durchschnittsnote Fehlstunden/1 1 3 5 7 9 11 13 15 17 19 1 3 5 7 Zusammenhang Durchschnittsnote - Fehlstunden: r =,7 Fehlstunden / 1 1 1,5 1 1,5,5 3 3,5 Es gibt einen gewissen positiven linearen Zusammenhang Durchschnittsnote (r =,7) zwischen der Durchschnittsnote im Jahreszeugnis und der Anzahl der Fehlstunden, d.h. tendenziell haben Schülerinnen mit einer höheren Fehlstundenzahl auch höhere (also schlechtere) Jahresdurchschnittsnoten. Mit r =,7 ist der Zusammenhang mäßig stark ausgeprägt. Bemerkung: Korrelationen dürfen nicht automatisch kausal interpretiert werden, d.h. auch wenn zwischen Variablen X und Y eine hohe (positive oder negative) Korrelation gefunden wird, so ist nicht unbedingt eine der beiden Variable eine Ursache für die andere. Es gibt zunächst immer mehrere Möglichkeiten: X beeinflusst Y: X Y Y beeinflusst X: Y X Es gibt eine dritte Variable Z, die X und Y beeinflusst: X Z Y

- - Im Beispiel des Zusammenhangs von Durchschnittsnote und Fehlstundenanzahl bedeutet das: Häufiges Fehlen (nicht unbedingt selbstverschuldet) kann die Noten negativ beeinflussen. Schlechte Schulnoten können die Motivation zum Schulbesuch reduzieren man geht dann einfach nicht mehr so gern in die Schule. Schulunlust und fehlende Motivation bewirken einerseits häufiges Fernbleiben vom Unterricht und andererseits sind sie auch Ursache für schlechte Leistungen in der Schule. Voreilige bzw. ungerechtfertigte kausale Interpretation von Korrelationen führt nicht selten zu Fehlschlüssen und unsinnigen Behauptungen. So wurde zum Beispiel tatsächlich eine relativ hohe positive Korrelation zwischen der Anzahl der Störche und der Anzahl der Geburten im Burgenland gefunden ist damit endlich bewiesen, dass Störche die Babies bringen? Ein einfaches Beispiel soll zeigen, dass jedes der drei Maße (Lage, Verteilung, Zusammenhang) seine spezifische Bedeutung hat und Informationen liefert, die in den anderen Maßen nicht enthalten sind. Betrachten wir etwa die Einkommensverhältnisse in einem Land (oder auch in einer Region oder einer Firma), so können wir uns zunächst für das Durchschnittseinkommen interessieren. Dieses sagt durchaus etwas über den Wohlstand einer Region aus und wird auch oft angegeben, um die wirtschaftliche Prosperität grob zu charakterisieren. Was dabei aber verschwindet ist Information über die Verteilung der Einkommen wir wissen nicht, ob ein bestimmtes Durchschnittseinkommen dadurch zustande kommt, dass die Einkommen weitgehend gleich verteilt sind oder ob es vielleicht einige wenige Personen mit extrem hohen Einkünften gibt, denen viele Menschen mit sehr geringen Einnahmen gegenüber stehen. Die Frage der Verteilung der Einkommen kann für die Entwicklung und Stabilität einer Gesellschaft bedeutsam sein (man denke an Verteilungskämpfe und den sozialen Frieden). Schließlich kann es interessant sein, die Einkommensverhältnisse in verschiedenen Gesellschaften zu anderen wichtigen Parametern (Bildungsstand, Lebenserwartung, Kindersterblichkeit, Produktivität, Bruttosozialprodukt,...) in Beziehung zu setzen also einen Zusammenhang zwischen diversen, für eine Gesellschaft bedeutsamen Faktoren und den Einkommensverhältnissen herzustellen. Das ist besonders wichtig im Zuge wirtschaftswissenschaftlicher Modellbildung und bei der empirischen Prüfung entsprechender Hypothesen. Übungen und Ergänzungen (1) Bestimme jeweils das Skalenniveau, auf dem gemessen wird: Autonummern Körpergröße Schuhgröße Luftdruck

- 7 - Gesamtkalkül bei der Matura mit den Beurteilungsstufen Mit Auszeichnung bestanden, Mit gutem Erfolg bestanden, Bestanden und Nicht bestanden Postleitzahlen Herzfrequenz Tabellenstand der Fußball-Bundesliga () Wie könnte man Kreativität messen? Beschreibe eine mögliche Vorgangsweise. Welche Probleme ergeben sich dabei hinsichtlich Objektivität, Reliabilität und Validität? (3) Ein Psychologe möchte untersuchen, ob ein Zusammenhang zwischen Schulleistung und Intelligenz besteht. Wie könnte er dabei vorgehen? In welcher Hinsicht ist seine Methode problematisch? () Nach einer Eignungsprüfung werden die 9 erfolgreichen KandidatInnen in drei Klassen mit jeweils 3 SchülerInnen eingeteilt. Wie müsste man vorgehen um Klassen zusammenzustellen, die im Hinblick auf ihre Leistungsfähigkeit (a) möglichst homogen (b) möglichst ähnlich sind? ( Wie kann man die Homogenität bzw. die Ähnlichkeit der Leistungsfähigkeit einer Klasse messen?) Welcher der beiden Alternativen (Homogenität versus Ähnlichkeit) ist der Vorzug zu geben (etwa im Hinblick auf pädagogische Überlegungen)? Begründe die Antwort! (5) Zwischen der Körpergröße und dem Körpergewicht wäre eine relativ hohe positive Korrelation zu erwarten. Finde selbst weitere Beispiele, bei denen man (a) eine hohe positive Korrelation (b) eine stark negative Korrelation erwarten würde. () Ein Arzt findet eine sehr hohe positive Korrelation zwischen dem Körpergewicht und dem Blutdruck. Ist Übergewicht die Ursache für Hypertonie (= Bluthochdruck)? (7) Korrelationskoeffizienten nahe Null bedeuten nicht notwendig das Fehlen jeglichen Zusammenhangs. Betrachten wir dazu das folgende Beispiel: Ein Psychologe untersuchte die Frage, ob das Aktivierungsniveau (= Grad der Aufgeregtheit ) einer Person mit deren Konzentrationsfähigkeit zusammenhängt. Dazu wurden (in Vortests) zunächst Personen ausgewählt, die sich hinsichtlich ihrer Konzentrationsfähigkeit in entspanntem Zustand wenig unterschieden. Diese Personen unterzogen sich dann auf verschiedenen Aktivierungsniveaus (von völliger Entspannung bis höchster Aufregung) einem Konzentrationstest. Der Psychologe fand folgende Werte (wobei uns hier Einzelheiten der Messmethoden und der Skalen nicht beschäftigen sollen): Aktivierung 1 3 5 7 9 1 Konzentration 7, 19,3 3, 13, 1, 1, Für diese Daten erhält man einen Korrelationskoeffizienten (linearer Zusammenhang)

- - von r -, es scheint also kein Zusammenhang zwischen Aktivierung und Konzentration zu bestehen. Wenn wir aber die Daten graphisch darstellen, so wird doch ein Effekt deutlich: Aktivierung - Konzentrationsfähigkeit Konzentrationsfähigkeit 3 5 15 1 5 5 1 15 Aktivierungsniveau Es scheint ein umgekehrt U-förmiger Zusammenhang (statt eines linearen) vorzuliegen. Die Konzentrationsfähigkeit ist bei mittlerer Aktivierung am höchsten und nimmt bei starker Entspannung und großer Aufregung rasch ab. Die Verteilung der Punkte folgt in etwa einer Parabel es scheint also ein quadratischer Zusammenhang zwischen den beiden Variablen zu bestehen. Lernziele Prüfungsfragen Welche wichtigen Funktionen erfüllt Quantifizierung im Alltag? Erläutere die verwendeten Begriffe und gib Beispiele für jede dieser Funktionen an! Was versteht man unter Messung? Erläutere den Begriff Messung an Beispielen! Nenne drei Gütekriterien für Messung! Erkläre den Begriff Objektivität! Erkläre den Begriff Reliabilität! Erkläre den Begriff Validität! Was versteht man unter (a) deskriptiver Statistik und (b) Inferenzstatistik? Nenne die vier Skalenniveaus von Messung und gib Beispiele dafür an!

- 9 - Nenne die Grundtypen statistischer Kennzahlen und gib dabei für jeden Typus mindestens ein solches Maß an! Lässt sich von einer vorhandenen (positiven oder negativen) Korrelation auf einen Kausalzusammenhang schließen? Begründe die Antwort (etwa durch ein Beispiel)! Zeige an einem einfachen Beispiel, dass jede der drei statistischen Kennzahlen ihre spezielle Bedeutung hat! Skizziere an einem Beispiel (Punktwolke!) (a) eine hohe positive Korrelation (b) eine stark negative Korrelation (c) eine schwach positive Korrelation und (d) eine Korrelation nahe Null! Im Zuge einer empirischen Untersuchung wurde für die Variablen X und Y ein Korrelationskoeffizient von r =,13 gefunden. Bedeutet dies, dass keinerlei Zusammenhang zwischen X und Y besteht? Begründe die Antwort! Gib ein Beispiel für eine höchst objektive, aber nicht valide Messung! Anmerkungen: (1) Diese Definition weicht insofern von der üblichen Begriffsverwendung ab, als bei einer Messung Zahlen als Skalenwerte vorausgesetzt werden (vgl. dazu SACHS (1993), S. 11).