Änderungssensitivität und Responsivität von generischen Patientenfragebogen in der Rehabilitation

Größe: px
Ab Seite anzeigen:

Download "Änderungssensitivität und Responsivität von generischen Patientenfragebogen in der Rehabilitation"

Transkript

1 Inauguraldissertation zur Erlangung der Doktorwürde der Wirtschafts- und Verhaltenswissenschaftlichen Fakultät der Albert-Ludwigs-Universität zu Freiburg i. Br. Änderungssensitivität und Responsivität von generischen Patientenfragebogen in der Rehabilitation vorgelegt von Wilmar Igl aus Regensburg Würzburg, im Februar 2007

2 Dekan: Prof. Dr. Dr. Jürgen Bengel Erster Gutachter: Zweiter Gutachter: Prof. Dr. Dr. Jürgen Bengel Prof. Dr. Dr. Hermann Faller Datum des Promotionsbeschlusses: 7. Mai 2007 Bibliographische Angaben author = title = school = {Wilmar Igl}, year = {2007}, type = address = {Änderungssensitivität und Responsivität von generischen Patientenfragebogen in der Rehabilitation}, {Wirtschafts- und Verhaltenswissenschaftliche Fakultät der Albert-Ludwigs-Universität}, {Dissertation}, {Freiburg im Breisgau}, note = {Veröffentlicht am 16. Mai 2007, verfügbar unter Kontakt: wilmar.igl[at]gmx.de}}

3 Inhaltsverzeichnis 1 Einleitung Hintergrund und Fragestellung Überblick über die Arbeit I Stand der Forschung 5 2 Diagnostische Grundlagen Begriffsbestimmung Test Die Klassische Testtheorie Messtheoretische Annahmen Gütekriterien Kritik an der Klassischen Testtheorie Fehlen eines Messmodells Verletzung von Annahmen durch die Empirie Abhängigkeit von der Stichprobe Reliabilitäts-Validitäts-Dilemma Beurteilung von Messwertdifferenzen Gütekriterien für Messinstrumente zur Zustandsmessung Vorbemerkung Hauptgütekriterien Reliabilität Validität Nebengütekriterien Normierung Vergleichbarkeit Nützlichkeit Ökonomie, Praktikabilität, Akzeptanz Gütekriterien für Messinstrumente zur Veränderungsmessung Hintergrund Änderungssensitivität und Responsivität Begriffsbestimmung Ein Klassifikationsmodell der Änderungssensitivität Einordnung in die Testtheorie Entwicklung von evaluativen Messinstrumenten iii

4 Inhaltsverzeichnis Definition der Messziele Produktion und Reduktion von Fragen Selektion des Antwortformats Bewertung von evaluativen Messinstrumenten Vorbemerkung Studiendesigns Kennwerte Anwendung von evaluativen Messinstrumenten Anwendungssituationen Variabilität von Kennwerten Änderungssensitivität, Power- und Fallzahlanalyse Zusammenfassung Generische Patientenfragebogen Gesundheit und Lebensqualität IRES Hintergrund Versionen, Struktur und Auswertung Hauptgütekriterien Nebengütekriterien SF Hintergrund Versionen, Struktur, Auswertung Hauptgütekriterien Nebengütekriterien SCL-90-R Hintergrund Versionen, Struktur, Auswertung Hauptgütekriterien Nebengütekriterien Fragestellungen 131 II Empirischer Teil Methodik Stichprobe Studienplan Messzeitpunkte und Organisation Unabhängige Variablen Abhängige Variablen Statistische Auswertung Vorgehen beim Vergleich der Scores iv

5 Inhaltsverzeichnis Gütekriterien der Zustandsmessung Gütekriterien der Veränderungsmessung Verwendete statistische Software und Auswertungsprogramme Ergebnisse Stichprobe und Studiendesign Stichprobe Studiendesign Gütekriterien der Zustandsmessung Reliabilität der Zustandsmessung Validität der Zustandsmessung Gütekriterien der Veränderungsmessung Methodenvergleich Konstrukt Allgemeine Gesundheit Konstrukte Somatische Gesundheit und Schmerz Konstrukt Psychische Gesundheit Konstrukt Soziale Gesundheit Konstrukt Funktionale Gesundheit im Alltag Konstrukt Funktionale Gesundheit im Beruf Konstrukt Gesundheitsbezogenes Verhalten Konstrukt Krankheitsbewältigung Diskussion Überblick Änderungssensitivität und Responsivität im wissenschaftlichen Diskurs Probleme Lösungen Vergleich der Methoden Methoden zur Beurteilung der Änderungssensitivität Methoden zur Beurteilung der Reliabilität Vergleich der Messinstrumente Allgemeines Vorgehen bei der Zuordnung der Scores Gütekriterien der Zustandsmessung Gütekriterien der Veränderungsmessung Zusammenfassung Methodische Einschränkungen Wahl der Stichprobe, Studienverweigerer und -abbrecher Personenmerkmale, Reihenfolgeeffekte und selektive Beantwortung Intervention und Messzeitpunkte Inhaltliche Vergleichbarkeit der Fragebogenscores Inferenzstatistische Methoden Bedeutung für die wissenschaftliche Praxis Wirksamkeitsstudien in der Rehabilitationswissenschaft Ökonomische vs. psychometrische Anforderungen v

6 Inhaltsverzeichnis 10 Schluss Zusammenfassung Summary 221 Literatur 225 Danksagung 247 III Anhang 249 A Übersicht über aggregierte Scores in IRES-3, SF-36 und SCL-90-R 251 B Ergebnisse bisheriger Studien 257 C Ergebnisse der aktuellen Studie 261 D Beteiligte Studienzentren 283 E Elektronische Ressourcen 285 vi

7 Abkürzungsverzeichnis Abkürzung Erläuterung Allgemein BfA Bundesversicherungsanstalt für Angestellte GLQ Gesundheitsbezogene Lebensqualität HRQOL health-related quality of life (engl.) DRV Deutsche Rentenversicherung LVA Landesversicherungsanstalt für Arbeiter n. b. nicht bekannt, nicht berichtet, nicht berechnet VDR Verband deutscher Rentenversicherungsträger O, Ortho Orthopädie R, Rheuma Rheumatologie K, Kardio Kardiologie PS, PsySom Psychosomatik IRES-3 Fragebogen Indikatoren des Reha-Status (Version 3) SF-36 Fragebogen Medical Outcome Studies Short Form-36 Health Survey SCL-90-R Fragebogen Symptom-Checkliste-90-Revidiert SV Studienverweigerer SA Studienabbrecher Statistische Abkürzungen 1-stg., 2-stg. einseitige bzw. zweiseitige Testung A (prozentualer) Anteil m, M arithmetischer Mittelwert M boot Md Mittelwert aus Stichprobenverteilung, welche durch bootstrapping gewonnen wird Median s, S, SD Standardabweichung (engl. standard deviation) COV(x, y) Kovarianz der Variablen x und y r Produkt-Moment-Korrelationskoeffizient nach Pearson p, P probability (engl.), Wahrscheinlichkeit (eines Testergebnisses) P Teststärke, Macht (engl. power) eines statistischen Tests n, N Stichprobenumfang (n = Teilstichprobe, N = Gesamtstichprobe) df degrees of freedom (engl.), Freiheitsgrade (dt.) FW Fehlwerte NV Normalverteilung t Messzeitpunkt (t 1 = Behandlungsbeginn, t 2 = Behandlungsende, usw.), Wert der t-verteilung z Wert der z-verteilung (Normalverteilung) Fortsetzung nächste Seite vii

8 Fortsetzung Abkürzung Erläuterung ANOVA analysis of variance (engl.), Varianzanalyse (dt.) ANCOVA analysis of covariance (engl.), Kovarianzanalyse (dt.) MANOVA multivariate analysis of variance (engl.), multivariate Varianzanalyse (dt.) Diagnostische Abkürzungen x, X Messwert eines Individuums i, I Individuum bzw. Proband t, T wahrer Wert (engl. true value), Test c, C valides Außenkriterium (engl. criterion) e, E Messfehler (engl. error) d, D Messwertdifferenz Rel Reliabilität, Zuverlässigkeit, Genauigkeit Val Validität, Gültigkeit, Wahrheitsgehalt Det Determinationskoeffizient SEM standard error of measurement (engl.), Standardmessfehler (dt.) CI confidence interval (engl.), Konfidenzintervall (dt.) r tt r tt r 12 ICC CCC SRD SES SRM GRI Test-Retest-Reliabilität Parallel-Test-Reliabilität Testhalbierungs-Reliabilität intraclass correlation coefficient (engl.), Intra-Klassen-Korrelationskoeffizent (dt.) concordance correlation coefficient (engl.), Konkordanzkorrelationskoeffizient (dt.) smallest real difference standardized effect size standardized response mean Guyatt s responsiveness index S Koeffizienten (für ANOVA, ANCOVA) nach Norman (1989) Griechisches Alphabet alpha, α Fehler I. Art, Interne Konsistenz (Cronbach s α) beta, β Fehler II. Art eta, η bzw. η 2 Effektstärke (Varianzanalyse) my, µ wahrer Mittelwert, Erwartungswert sigma, σ wahre Standardabweichung rho, ρ wahre Korrelation Anmerkungen: Die Reihenfolge der Abkürzungen folgt einer groben, inhaltlichen Ordnung. Abkürzungen wurden in der vorliegenden Arbeit nicht immer einheitlich verwendet, da in unterschiedlichem Kontext z. T. gleiche Abkürzungen eingesetzt werden, z. B. α für den Fehler I. Art (Inferenzstatistik) und als Maß der Internen Konsistenz (Diagnostik). Griechische Buchstaben bedeuten, dass der wahre Populationsparameter gemeint ist, römische Buchstaben, dass der Koeffizient empirisch aus der Verteilung einer Stichprobe bestimmt wird. Zum Teil wurde Groß- und Kleinschreibung in Text und Formeln aus Darstellungsgründen variiert. Abkürzungen der aggregierten Scores (Skalen, Dimensionen, Gesamt) der Messinstrumente werden im fortlaufenden Text bzw. im Anhang in den Tabellen A.1, A.2 und A.3 erläutert. viii

9 1 Einleitung As health sciences research invests more heavily in health status questionnaires as tools to measure response, so too must it invest in comparative research to determine the relative merits of various instruments. Clearly, the most useful data is obtained by taking response measures with multiple instruments on each sample of patients. Data from different instruments can be judged using standardized indices of response, several of which have been proposed. Simply estimating an index is not enough.... there can be substantial sampling variability associated with each estimate. Therefore, future comparisons among instruments should incorporate sampling variability to construct interval estimates and to perform hypothesis tests. [Liang, Fossel & Larson 1990, S. 641] 1.1 Hintergrund und Fragestellung Die Entwicklungen im deutschen Gesundheitswesen seit den 1990er Jahren sind mit stärker werdenden Forderungen einhergegangen, die Effektivität von medizinischen Behandlungsmaßnahmen auf der Basis von empirischen Untersuchungen zu evaluieren (vgl. evidence-based medicine). Diese trifft insbesondere auch auf den Bereich der Rehabilitation zu. Da die Rehabilitation in der Regel das Ziel hat, den Gesundheitszustand nicht nur zu erhalten, sondern zu verbessern, steht im Rahmen von Wirksamkeitsstudien die Evaluation der erzielten Veränderungen im Mittelpunkt [Verband Deutscher Rentenversicherungsträger (VDR) 1992, S. 213 ff., 246, Schaub & Schliehe 1994, S. 101 ff.]. Aufgrund der Besonderheiten der behandelten Krankheiten der Rehabilitanden, welche vorwiegend chronische Erkrankungen aufweisen, darf die Beurteilung des Gesundheitszustands der Rehabilitanden nicht nur durch objektive, biomedizinische Maße, z. B. Gelenkbeweglichkeit oder Blutdruck, erfolgen, sondern es sollte insbesondere auch das subjektive Urteil der Patienten zu somatischen, psychosozialen und funktionalen Aspekten ihres Gesundheitszustands, z. B. Bewältigung von Alltagsanforderungen, miteinbezogen werden [Turner 1990, S. 247]. Dadurch kann ein umfassenderes Bild des Wirkungsspektrums einer Behandlung gewonnen werden und eine angemessenere Beurteilung von Behandlungsmaßnahmen erfolgen. So kann der Erfolg einer Intervention, welche zwar nicht primär den körperlichen Zustand eines Patienten verbessert, sich aber trotzdem positiv auf seine Lebenssituation auswirkt, gemessen werden. Schließlich ist auch für die Beurteilung der Leistungsfähigkeit eines Menschen im Beruf primär seine subjektive Einschätzung ausschlaggebend, da z. B. seine Fehlzeiten stärker von der subjektiv empfundenen Überforderung und weniger von objektiven Kriterien abhängen werden [Gerdes & Jäckel 1992, S. 74]. Derartige Ansätze, welche die subjektive Wahrnehmung der Gesundheit aus einer mehrdimensionalen Perspektive betonen, werden dabei unter den Begriffen Gesundheitsbezogene Lebensqualität (GLQ) (engl. health-related quality of life, HRQOL) bzw. Subjektive Gesundheit (engl. subjective health) zusammengefasst [Bullinger 1997b]. 1

10 1 Einleitung Das Ergebnis von Evaluationsstudien wird dabei nicht nur von der angewendeten Intervention oder den gewählten statistischen Verfahren beeinflusst, sondern auch in erheblichem Maße durch die Eigenschaften der eingesetzten Messinstrumente. Aus diesem Grunde ist, wie Liang, Fossel & Larson (1990, S. 641) hervorheben, die messtheoretische Prüfung der Messinstrumente eine wichtige Aufgabe der Gesundheitsforschung im Allgemeinen bzw. der Rehabilitationswissenschaften im Besonderen. Zur Messung der Subjektiven Gesundheit liegt inzwischen eine Vielzahl von Assessmentinstrumenten vor [Biefang, Potthoff & Schliehe 1999, Institut für Qualitätssicherung in Prävention und Rehabilitation (IQPR) 2005 u. a.]. Um die Güte dieser Messinstrumente beurteilen bzw. gewährleisten zu können, ist für viele dieser Fragebogen eine psychometrische Prüfung hinsichtlich ihrer Gütekriterien, insbesondere Reliabilität und Validität, durchgeführt worden. Verschiedene Autoren, vor allem Wissenschaftler der Arbeitsgruppe um Guyatt [z. B. Guyatt, Walter & Norman 1987, Guyatt, Kirshner & Jaeschke 1992, Guyatt, King, Feeny, Stubbing & Goldstein 1999, Kirshner & Guyatt 1985], weisen jedoch seit Mitte der 1980er Jahren darauf hin, dass die bisherigen Methoden bzw. Kennwerte zur Beurteilung der Güte von Messinstrumenten im Falle von sogenannten evaluativen Fragebogen zur Messung von Veränderungen nicht ausreichend sind. Stattdessen fordern sie die empirische Untersuchung der Eigenschaft von Messinstrumenten, wahre Veränderungen des untersuchten Merkmals abzubilden. Diese Eigenschaft wird als Änderungssensitivität (engl. sensitivity to change) bezeichnet. Synonym zum Begriff der Änderungssensitivität wird vorwiegend in der angloamerikanischen Literatur auch der Begriff der Responsivität (engl. responsiveness) verwendet. Teilweise wird hier der Begriff auch mit einer engeren Bedeutung in dem Sinne gebraucht, dass Responsivität die Eigenschaft eines Tests beschreibt, (minimale) klinisch bedeutsame Unterschiede (engl. minimal clinically important differences, MCID) zu erfassen [Guyatt, Walter & Norman 1987, S. 174, Liang 2000, S. II-85 f.]. Die Untersuchung deutschsprachiger Fragebogen der Gesundheitsbezogenen Lebensqualität hinsichtlich ihrer Eignung zur Messung von Veränderungen im Kontext der medizinischen Rehabilitation wurde jedoch bisher vernachlässigt [Zwingmann, Schuck, Reusch & Faller 2002, S. 59 f., Petermann 1986, S. 4 ff.]. Da aber das Konstrukt der Gesundheitsbezogenen Lebensqualität beständig an Bedeutung gewinnt und aktuell zu den wichtigsten Ergebniskriterien in vielen klinischen Studien zählt, ist ein besonders hoher Bedarf nach methodischer Klarheit bei der Entwicklung und Selektion von Instrumenten vorhanden [Terwee, Dekker, Wiersinga, Prummel & Bossuyt 2003, S. 349]. Die vorliegende Arbeit beschäftigt sich daher zunächst in theoretischer und methodischer Hinsicht mit den verschiedenen Konzepten und Methoden zur Untersuchung der Eigenschaften von Messinstrumenten. Des Weiteren werden die Ergebnisse einer empirischen, vergleichenden Studie präsentiert, welche die Eignung der am weitesten verbreiteten deutschsprachigen krankheitsübergreifenden Assessmentinstrumente zur Messung von Veränderungen in der Rehabilitation untersucht. Zu diesen Instrumenten zählen die Fragebogen Indikatoren des Reha-Status (Version 3) (IRES-3 ) [Bührlen, Gerdes & Jäckel 2005], Short Form-36 Health Survey (SF-36 ) [Bullinger & Kirchberger 1998] und Skalen der Symptom-Checkliste-90-Revidiert (SCL-90-R) [Franke 1995; Franke 2002]. Die ermittelten Kennwerte sollen die Beurteilung 2

11 1.2 Überblick über die Arbeit der Messinstrumente hinsichtlich ihrer Änderungssensitivität ermöglichen und die Grundlage für die Auswahl der am besten geeigneten Fragebogen(skalen) zur Veränderungsmessung liefern. 1.2 Überblick über die Arbeit Die Arbeit gliedert sich in drei übergeordnete Teile. Im ersten Teil (Kapitel 2 bis 6) wird der aktuelle Stand der Forschung zur Beurteilung von Messinstrumenten, insbesondere zur Gesundheitsbezogenen Lebensqualität, dargestellt, aus welchem die Fragestellung abgeleitet wird. Im zweiten Teil (Kapitel 7 bis 10) wird die durchgeführte empirische Untersuchung berichtet und werden die Ergebnisse diskutiert. Kapitel 11 und 12 enthalten eine deutsche bzw. englische Zusammenfassung der Arbeit. Im dritten Teil befindet sich der Anhang mit ergänzenden Ergebnissen und Materialien zur Studie. Stand der Forschung Im Kapitel 2 werden diagnostische Grundlagen auf der Basis der Klassischen Testtheorie behandelt. Nach der Begriffsbestimmung von Tests wird ein Schwerpunkt auf die Ableitung und Diskussion von Gütekriterien für Messinstrumente (Reliabilität, Validität) gelegt. Ausführlich werden Kritikpunkte an der Klassischen Testtheorie erörtert, insbesondere die als mangelhaft beurteilte Reliabilität von Messwertdifferenzen, da diese Probleme den Anstoß für die Entwicklung von neuen Konzepten für die Beurteilung von Instrumenten zur Veränderungsmessung gaben. Kapitel 3 widmet sich den etablierten Gütekriterien und Methoden für Messinstrumente zur Zustandsmessung, welche in Haupt- und Nebengütekriterien unterteilt werden. Nach einem Rahmenmodell von Kirshner & Guyatt (1985) gelten diese Gütekriterien und Methoden sowohl für diskriminative Messinstrumente zur Unterscheidung von Gruppen und prognostische Messinstrumente zur Vorhersage von (zukünftigen) Kriterien. Da aus verschiedenen Gründen konventionelle Methoden zur Bestimmung der Eignung von evaluativen Instrumenten zur Veränderungsmessung als ungeeignet erscheinen, werden in Kapitel 4 unter den Begriffen Änderungssensitivität (engl. sensitivity to change) bzw. synonym Responsivität (engl. responsiveness) verschiedene Erweiterungen vorgestellt. Ausgehend von einer intensiven Diskussion einschlägiger Konzepte werden zunächst Vorschläge zur Entwicklung von evaluativen Messinstrumenten gemacht. Darauf folgt eine umfangreiche Diskussion von Studiendesigns und Kennwerten zur quantitativen Erfassung der Änderungssensitivität. Dieser Abschnitt wird mit Ausführungen zur praktischen Bedeutung von Änderungssensitivität bei der Anwendung von evaluativen Messinstrumenten abgeschlossen. Kapitel 5 stellt nach einem kurzen Exkurs zur Bedeutung des zu Grunde liegenden Konstrukts der Gesundheitsbezogenen Lebensqualität die in der empirischen Studie untersuchten generischen Patientenfragebogen vor. Dies sind die Indikatoren des Reha-Status (Version 3) (IRES-3 ) [Bührlen, Gerdes & Jäckel 2005], der Short Form-36 Health Survey (SF-36 ) [Bullinger & Kirchberger 1998] und Skalen der Symptom-Checkliste-90-Revidiert (SCL-90-R) [Franke 1995; Franke 2002]. Die Fragestellungen, welche Gegenstand der durchgeführten empirischen Studie sind, werden in Kapitel 6 abgeleitet. Diese betreffen sowohl die zufallskritische als auch relative Bewertung der messtheoretischen Eigenschaften der Fragebogen im Hinblick auf die Veränderungsmessung. 3

12 1 Einleitung Empirischer Teil Kapitel 7 behandelt die Methodik der Studie, welche Stichprobe, Studiendesign, Messinstrumente und die statistische Auswertung betrifft. Aus den vielfältigen Methoden zur Messung psychometrischer Eigenschaften wird eine begründete Auswahl der angewendeten Vorgehensweise vorgenommen. Dies betrifft u. a. die Zuordnungsregeln zu vergleichender Scores sowie die Bestimmung von Reliabilität und Validität der Zustandsmessungen und der Änderungssensitivität. Methoden zur inferenzstatistischen Beurteilung der zufallskritischen und relativen Änderungssensitivität werden erläutert. In Kapitel 8 werden die Ergebnisse berichtet, wobei zunächst die Merkmale der untersuchten Stichprobe und des Studiendesigns beschrieben werden. Es werden Analysen zu möglichen Störfaktoren wie Fehlwerten, Reihenfolgeeffekten und Unterschieden zwischen Subgruppen durchgeführt. Anschließend werden Gütekriterien der Zustandsmessung dargestellt, welche sowohl die Stabilität als auch Innere Konsistenz der Scores erfassen. Weiterhin werden Auswertungen zur Konstruktvalidität der Fragebogenskalen durchgeführt. Die folgenden Abschnitte behandeln die Änderungssensitivität bzw. Responsivität der untersuchten Messinstrumente. Nachdem ein Methodenvergleich zu einschlägigen Koeffizienten erfolgt ist, werden verteilungsund kriteriumsbasierte Kennwerte abhängig von Konstrukt, Aggregationsebene, Indikation und Messzeitintervall dargestellt und inferenzstatistisch bewertet. Die Diskussion in Kapitel 9 fasst zu Beginn die wesentlichen Probleme und Lösungen im wissenschaftlichen Diskurs zur Änderungssensitivität zusammen und erläutert deren Konsequenzen für die Interpretation der Ergebnisse. Danach werden auf der Basis der durchgeführten Sensitivitätsanalysen Vor- und Nachteile der angewendeten Methoden der Änderungssensitivität diskutiert. Im folgenden Text werden dann die Ergebnisse zur zufallskritischen und relativen Änderungssensitivität vergleichend interpretiert und Empfehlungen für den Einsatz der Messinstrumente in evaluativen Studien gegeben. Nach einer kritischen Betrachtung methodischer Einschränkungen der vorliegenden Studie, wird ihre Bedeutung für die wissenschaftliche Praxis diskutiert. Abschließende Bemerkungen finden sich in Kapitel 10. 4

13 Teil I Stand der Forschung 5

14

15 2 Diagnostische Grundlagen Das folgende Kapitel behandelt die messtheoretischen Grundlagen auf der Basis der Klassischen Testtheorie. Dabei werden die Annahmen, welche der Klassischen Testtheorie zu Grunde liegen erläutert, die abgeleiteten messtheoretischen Gütekriterien, wie Reliabilität und Validität, dargestellt und es wird auf verschiedene Kritikpunkte an diesem Ansatz eingegangen. 2.1 Begriffsbestimmung Test Zur Begriffsbestimmung von psychologischen Messinstrumenten haben Lienert & Raatz eine klassische Definition von Tests vorgestellt: Ein Test ist ein wissenschaftliches Routineverfahren zur Untersuchung eines oder mehrerer empirisch abgrenzbarer Persönlichkeitsmerkmale mit dem Ziel einer möglichst quantitativen Aussage über den relativen Grad der individuellen Merkmalsausprägung. [Lienert & Raatz 1994, S. 7] Nach dieser Definition sollte ein Test auf einer inhaltlichen Theorie (z. B. Persönlichkeitsmodell) beruhen ( wissenschaftlich ), welche auch durch Beobachtungen in der Realität geprüft werden kann ( empirisch abgrenzbar ). Gegenstand der Untersuchung sind dabei relativ stabile, überdauernde und homogene Eigenschaften einer Person ( Persönlichkeitsmerkmale ). Das Verfahren sollte des Weiteren bereits an einer größeren Zahl von Fällen erprobt sein ( Routineverfahren ). Es sollte ein numerisches Ergebnis liefern, welches eine Aussage über eine einzelne Person im Verhältnis zu allen anderen Personen der untersuchten Population ermöglicht ( relativer Grad der individuellen Merkmalsausprägung ). Lienert & Raatz (1994, S. 8) schränken jedoch die Allgemeingültigkeit ihrer Definition selbst ein und betonen, dass diese lediglich eine operationale Umschreibung der Messverfahren liefern soll, welche im selben Werk behandelt werden. Kritisch ist daher anzumerken, dass durch diese Definition Messinstrumente, welche keine stabilen Merkmale (engl. traits) sondern z. B. aktuelle Befindlichkeiten (engl. states) erfassen, hier nicht enthalten sind. Hinzu kommt, dass Fragebogen, welche keine quantitativen (intervallskalierten), sondern lediglich qualitative (nominalskalierte) oder geordnete (ordinalskalierte) Aussagen liefern, ebenfalls vernachlässigt werden. Schließlich ist noch darauf hinzuweisen, dass eine Vielzahl von psychologischen Instrumenten existiert, welche als Forschungsinstrumente auf Gruppenebene eingesetzt werden, bei denen die Einordnung eines Individuums in eine Normstichprobe nicht erforderlich ist, um vergleichende Aussagen z. B. zur Wirksamkeit von zwei Interventionen zu treffen. Auch Rost (2004, S. 17) bezieht sich auf psychologische Tests als Verfahren zur Erfassung psychischer Eigenschaften oder Merkmale von Personen, welche also ebenfalls eher langfristige 7

16 2 Diagnostische Grundlagen Stabilität besitzen. Er unterscheidet dabei Tests im engeren Sinn, welche nicht durch die getestete Person willentlich in eine gewünschte Richtung verfälscht werden können, und Tests im weiteren Sinn, denen diese Objektivität fehlt, wie z. B. Fragebogen, standardisierte Interviews und standardisierte Beobachtungen. Diese inhaltliche Schwerpunktsetzung wird auch aus den von Rost (2004, S. 44) genannten Kategorien von Tests deutlich. 1 Rost liefert jedoch einen innovativen Ansatz zur Definition von Tests, in welchem er eine Analogie zwischen psychologischen Tests und psychologischen Experimenten herstellt: Bei einem Test handelt es sich um ein spezielles psychologisches Experiment mit dem Ziel, vergleichende Aussagen über die Personen abzuleiten. [Rost 2004, S. 18 ff.] Ein psychologisches Experiment zeichnet sich durch die Variation einer unabhängigen Variable aus. Unter den hergestellten, unterschiedlichen Bedingungen wird eine abhängige Variable gemessen, wobei auftretende Unterschiede der abhängigen Variable zwischen den Versuchsbedingungen auf den Einfluss der unabhängigen Variable zurückgeführt werden. Dieser Kausalschluß wird möglich durch die geplante Herstellung von Versuchsbedingungen, welche den Einfluss von Störvariablen, welche alternative Erklärungen liefern könnten, kontrollieren. Bei einem Test bestehen die unabhängigen Variablen zum einen in der Aufgabenstellung, welche durch die Formulierung unterschiedlicher Fragen bzw. Aufgaben (engl. items) variiert wird, zum anderen in den Personen, deren Eigenschaften und Fertigkeiten in unterschiedlichem Maße ausgeprägt sind. Die abhängige Variable ist die Antwort der untersuchten Person auf die Fragestellung, welche ihre Reaktion auf die verschiedenen Versuchsbedingungen, z. B. verschiedene Items, wiedergibt. Der Versuchsplan sozusagen, der einem Test zu Grunde liegt, besteht aus einem zweifaktoriellen Design, bei dem ein unabhängiger Faktor Person und ein abhängiger Faktor Items vorliegt, der durch Messwiederholung erhoben wird. Im Gegensatz zu einem herkömmlichen Experiment bezieht sich in der Regel die Fragestellung nicht auf den Haupteffekt des Faktors Items, sondern auf die Unterschiede in den Reaktionen zwischen den Personen bzw. Personengruppen. Ausgehend von dieser Definition eines psychologischen Tests als Experiment wird diese im Rahmen der vorliegenden Arbeit in der Hinsicht erweitert, dass auch psychische Konstrukte erfasst werden, deren zeitliche Dauer von kurzfristigen Zuständen, z. B. akuter Angst, bis hin zu langfristigen Persönlichkeitscharakterisken, z. B. generalisierte Ängstlichkeit, reicht. Des Weiteren sollen nicht nur Tests im klassischen Sinne, welche vorwiegend zur Einzelfalldiagnostik eingesetzt werden und auf die Einordnung von Individuen in eine Normstichprobe abzielen, eingeschlossen werden, sondern auch Forschungsinstrumente, z. B. standardisierte Fragebogen, welche Gruppen von Individuen vergleichen, ohne diesen Normwerte zuzuordnen. 1 Rost (2004, S. 44) unterscheidet Leistungstests, Persönlichkeitsfragebogen, objektive Persönlichkeitstests, projektive Tests, Situationsfragebogen, Symptomlisten, Einstellungstests, Motivations- und Interessensfragebogen und Verhaltensfragebogen. 8

17 2.2 Die Klassische Testtheorie 2.2 Die Klassische Testtheorie Bei der Messung von Eigenschaften an Personen werden bestimmte Annahmen über die beobachteten Daten zu Grunde gelegt, welche als Messtheorie die Auswertungsschritte der Daten festlegt und begründet. Die in der Psychologie als Klassische Testtheorie bezeichnete Messtheorie beinhaltet insbesondere Aussagen zu den Messfehlern der Beobachtungen, weswegen sie auch als eine Allgemeine Messfehlertheorie bezeichnet wird [Rost 2004, S. 10, 34 ff.]. Ursprünglich stammt dieser Ansatz aus der Physik und ist dort als das Klassische Statistische Messmodell bekannt [Holle 1995, S. 38]. Gegenwärtig bildet die Klassische Testtheorie [Gulliksen 1950, Lienert & Raatz 1994, Lord & Novick 1976] die Grundlage für ca. 95% der existierenden psychologischen Testverfahren [Rost 2004, S. 1]. Die vorliegende Arbeit wird sich daher bei der Untersuchung der Änderungssensitivität von Testverfahren im Wesentlichen auf diese Theorie stützen, welche daher ausführlicher erläutert werden wird. Alternative Testtheorien, z. B. aus der Familie der Item-Response-Theorien (IRT), werden nicht behandelt, sondern es wird auf weiterführende Literatur, z. B. Rost (2004) und Steyer, Eid & Mayer (2001), verwiesen Messtheoretische Annahmen Da der Ursprung der Klassischen Testtheorie der Psychologie im klassischen statistischen Messmodell der Physik liegt, werden zunächst die Annahmen und daraus abgeleiteten Gütekriterien der Physik erläutert und denjenigen der Psychologie vergleichend gegenübergestellt. Annahmen für physikalische Messungen Nach der klassischen Theorie des statistischen Messens setzt sich ein beobachteter Wert X i eines Individuums i aus einem wahren Wert (engl. true value) T i und einem Messfehler E i (engl. error) zusammen (s. Gleichung 2.1). Dieser Ausdruck wird auch als Grundgleichung der Messfehlertheorie bezeichnet [Rost 2004, S. 34]. X i = T i + E i (2.1) Der Messfehler E i besteht dabei sowohl aus einer systematischen als auch einer unsystematischen Komponente, welche sich entsprechend einer Normalverteilung NV(M E,S E ) verhalten. 2 Aus dieser Verteilung lassen sich dann in anschaulicher Weise Kennwerte für die Güte eines Messverfahrens bestimmen, wie anschließend erläutert wird. 1 Bisher sind Anwendungen der Item-Response-Theorie, z. B. Rasch-Analyse, bei der Entwicklung von deutschsprachigen Assessmentinstrumenten noch die Ausnahme. Beispiele im Bereich der Reha-Wissenschaften sind z. B. die Weiterentwicklung des SF-36 im Rahmen des IQOLA-Projekts [Ware, Gandek, Keller & The IQUOLA Project Group 1996] oder die Konstruktion des IRES-24 [Wirtz, Farin, Bengel, Jäckel, Hämmmerer & Gerdes 2005]. 2 Weitere Arten von Messfehlern, welche sich jedoch in die genannten Kategorien subsummieren lassen, werden von Schmidt & Hunter (1999, passim) und Lipsey (1983, S. 153) diskutiert. 9

18 2 Diagnostische Grundlagen Annahmen für psychologische Messungen Wie bereits erwähnt, beruht die Klassische Testtheorie auf bestimmten Annahmen, welche von Gulliksen (1950) als die vier Axiome der klassischen Messtheorie (s. Formeln 2.3 bis 2.6) formuliert wurden und sich ausschließlich auf die Eigenschaften des Messfehlers beziehen. Die klassische Testtheorie geht zunächst wie das klassische statistische Messmodell davon aus, dass eine wahre Ausprägung T i eines Merkmals einer Person i vorhanden ist. Bei der Messung dieses wahren Wertes tritt jedoch ein zufälliger Fehler E i auf. Die Summe dieser beiden Werte ergibt schließlich den beobachteten Wert X i. Dieser Zusammenhang wird in der Grundgleichung der Messfehlertheorie formuliert (s. Formel 2.2). Wichtig ist an dieser Stelle, dass der wahre Wert eines Merkmals als der Erwartungswert (µ) der intraindividuellen Verteilung der beobachteten Werte definiert wird und der Messfehler die Abweichung von diesem Erwartungswert darstellt. X i = T i + E i (2.2) Die Annahmen der Klassischen Testtheorie sollen zunächst für wiederholte Messungen an einem Objekt (bzw. Person) P 1 unter stabilen Bedingungen erläutert werden: Das erste Axiom besagt, dass der Erwartungswert des Messfehlers bei unendlich vielen Messwiederholungen gegen Null strebt. Darin ist auch die Aussage enthalten, dass der Erwartungswert der beobachteten Werte sich dem wahren Wert immer mehr annähert (s. Formel 2.3). Der beobachtete Wert unterschätzt bzw. überschätzt den wahren Wert auf Grund des Messfehlers in unsystematischer Weise, weswegen dieser von einer systematischen Verzerrung (engl. bias) zu unterscheiden ist. Das heißt, im Unterschied zu physikalischen Messungen liegt hier keine systematische Messfehlerkomponente vor. Auf Grund von theoretischen Überlegungen und empirischen Beobachtungen geht man dabei davon aus, dass sich die Messfehler entsprechend einer Normalverteilung NV(M E, S E ) verhalten, welche durch ihren Mittelwert M E und ihre Standardabweichung S E determiniert ist. Diese Parameter ermöglichen die Ableitung von Gütekriterien für Tests, wie später noch erläutert wird. µ(e P 1 ) = 0 bzw. µ(x P 1 ) = T P 1 (2.3) Die zweite Annahme behandelt die Korrelation (ρ) zwischen dem Messfehler und dem wahren Wert, welcher ebenfalls gleich Null ist (s. Formel 2.4). Das bedeutet, dass abhängig von der wahren Ausprägung eines Merkmals der Messfehler sich nicht verändert. Diese Annahme wird dabei nicht verletzt, wenn z. B. bei zunehmender Merkmalsausprägung der Betrag des Messfehlers ebenfalls zunimmt, falls das Ausmaß der Überschätzungen den Unterschätzungen entspricht. ρ(e P 1, T P 1 ) = 0 (2.4) Das dritte und vierte Axiom betreffen Messungen verschiedener Variablen am selben Objekt, wobei die Unabhängigkeit des Messfehlers einer Variable V 1 sowohl vom wahren Wert als auch vom Messfehler einer beliebigen anderen Variablen V 2 postuliert wird (s. Formeln 2.5 u. 2.6). ρ(e V 1, T V 2 ) = 0 (2.5) 10

19 2.2 Die Klassische Testtheorie ρ(e V 1, E V 2 ) = 0 (2.6) Nach Steyer, Eid & Mayer (2001, S. 103 ff., 109 ff.) stellen die Gleichungen von Gulliksen (1950) jedoch keine Axiome oder Grundannahmen dar, sondern sind Folgerungen aus der Definition von beobachtetem Wert, wahrem Wert und Messfehler (vgl. Grundgleichung der Messfehlertheorie). Insofern sind diese Gleichungen logisch ableitbar und können empirisch nicht wiederlegt werden. Eine Ausnahme bildet jedoch die vierte Gleichung (s. Formel 2.6), welche nicht aus der Grundgleichung der Messfehlertheorie hervorgeht. Sie stellt lediglich eine zusätzliche Annahme dar, welche mathematische Ableitungen erleichtert, und kann somit auch in empirischen Untersuchungen verletzt sein [Tack 1986a, S. 54]. Die Axiome der Klassischen Testtheorie lassen sich auch auf mehrere Objekte (bzw. Personen) mit wiederholten Messungen unter stabilen Bedingungen verallgemeinern. In diesem Falle kommt die Forderung hinzu, dass die Verteilung des Messfehlers NV(M E, S E ) für alle Objekte und Merkmalsausprägungen gleich ist. Die Unabhängigkeit der Messfehler bezieht sich hier außerdem nicht nur auf mehrfache Messungen am selben Objekt zu verschiedenen Messzeitpunkten oder von unterschiedlichen Merkmalen, sondern nun auch auf verschiedene Objekte untereinander [Bühner 2004, S. 22, Holle 1995, S. 40] Gütekriterien Gütekriterien für physikalische Messinstrumente Ausgehend von den Axiomen der Klassischen Testtheorie können Kriterien zur Beurteilung der Güte von Messinstrumenten abgeleitet werden. Die Qualität eines Messinstruments hängt dabei in erste Linie von der Verteilung der Messfehler ab. Unter der Voraussetzung einer Normalverteilung NV(M E, S E ) ist diese durch den Mittelwert und die Standardabweichung definiert [Holle 1995, S. 38 ff.]. Zu beachten ist hierbei, dass bei physikalischen Messinstrumenten nicht nur der unsystematische Messfehler von Bedeutung ist, sondern auch ein systematischer Messfehler angenommen wird, welcher zu einer Verzerrung der Ergebnisse führen kann. Der Erwartungswert M E stellt dabei den systematischen Messfehler dar und ist ein Maß für die Unverzerrtheit 1 der Messmethode. Die Standardabweichung S E steht dagegen für den unsystematischen, zufälligen Messfehler und gibt die Genauigkeit 2 des Messinstruments an. 3 Diese Gütekriterien werden im Kontext von physikalischen Messungen zur Beurteilung von Messinstrumenten herangezogen. Unter der Genauigkeit eines Messinstruments versteht man, dass die zufälligen Schwankungen von Messwerten unter stabilen Bedingungen gering sind. Von Unverzerrtheit spricht man, wenn keine systematische Abweichung der Werte eines Messinstruments von den wahren Werten, welche durch ein Referenzverfahren bestimmt werden, vorliegen. Dies bedeutet, dass Präzision und Unverzerrtheit unabhängige Eigenschaften eines Messinstruments darstellen [Holle 1995, S. 21 f.]. 1 auch: Richtigkeit (dt.); unbiasedness, accuracy (engl.) 2 auch: Präzision, Reproduzierbarkeit (dt.); precision, repeatability (engl.) 3 Die Kriterien Unverzerrtheit und Genauigkeit können zu einem übergeordneten Kriterium zusammengefasst werden, welches gelegentlich ebenfalls als Richtigkeit bezeichnet wird und in statistischer Hinsicht z. B. durch die mittlere quadratische Abweichung vom wahren Wert definiert werden kann [Holle 1995, S. 40]. 11

20 2 Diagnostische Grundlagen Zum besseren Verständnis sollen diese Kriterien auf das Beispiel der Beurteilung der Güte bzw. Treffsicherheit eines Bogenschützen angewendet werden. Schießt dieser z. B. ein Bündel Pfeile auf eine Zielscheibe, so stellt der Abstand des Zentrums der Einschlaglöcher von der Mitte der Zielscheibe ein Maß für die Unverzerrtheit der Schüsse dar. Der Radius der Einschlaglöcher, in welchem diese streuen, ist hingegen ein Maß für die Genauigkeit des Schützen. Diese Kennwerte können nun unabhängig voneinander variieren. So kann ein Schütze mehrere Pfeile exakt auf eine münzgroße Stelle der Zielscheibe platzieren (hohe Genauigkeit), welche jedoch weit von der Mitte der Zielscheibe entfernt ist (niedrige Unverzerrtheit). Im umgekehrten Fall können die Pfeile über die ganze Zielscheibe verstreut sein (niedrige Genauigkeit), aber das Zentrum der Einschlaglöcher und der Zielscheibe exakt übereinander liegen (hohe Unverzerrtheit). Gütekriterien für psychologische Messinstrumente Bei psychologischen Messungen werden ebenfalls die Genauigkeit (hier: Reliabilität, Zuverlässigkeit) und Unverzerrtheit bzw. Richtigkeit (hier: Validität, Gültigkeit) zur Beurteilung von Tests herangezogen, wobei diese jedoch nicht als unabhängig voneinander betrachtet werden, sondern Reliabilität als Voraussetzung für Validität gilt. Der Grund hierfür ist, dass bei psychologischen Messungen von abstrakten Konstrukten in der Regel keine Referenzmethoden vorliegen, welche über den wahren Wert und seine Skalierung Auskunft geben können. Aus diesem Grund sind auch Differenzen zwischen zwei einzelnen Messungen, welche mit verschiedenen psychologischen Tests durchgeführt wurden, nicht interpretierbar. Der systematische Messfehler ist daher bei der Beurteilung von psychologischen Messinstrumenten in der Regel ohne Bedeutung bzw. wird auf Null gesetzt [Holle 1995, S. 22 f., 38 ff.]. 1 Reliabilität Vor dem Hintergrund dieser Überlegungen wird verständlich, dass sich die Kennwerte der Reliabilität von psychologischen Tests auf die Streuung des Messfehlers beziehen, welcher auch als Standardmessfehler (engl. standard error of measurement, SEM) bezeichnet wird. Dabei kann man skalenabhängige und skalenunabhängige Kennwerte unterscheiden [Holle 1995, S. 41 ff.]. Der Standardmessfehler S E selbst stellt einen einfachen skalenabhängigen Kennwert der Reliabilität dar und kann für eine Variable X nach folgender Formel berechnet werden (s. Formel 2.7): S E = S X 1 Rel(X) (2.7) Unter der Annahme einer Normalverteilung kann aus der Kenntnis des Standardmessfehlers geschlossen werden, dass ca. 68% (bzw. 95%) der Messwerte im Bereich [M X S E ; M X + S E ] (bzw. [M X 1.96 S E ; M X S E ]) liegen. Anpassung an andere Wahrscheinlichkeitsbereiche werden auch als Konfidenzintervalle (engl. confidence intervals, CI) bezeichnet. Diese 1 Eine Ausnahme bilden Messinstrumente zur Prädiktion, z. B. zur Vorhersage der Wahrscheinlichkeit der Rückfälligkeit von Straftätern nach Entlassung. Üblicherweise würde man von hoher Validität eines Test für Rückfälligkeit ausgehen, wenn der Test hoch mit der tatsächlichen Rückfallhäufigkeit korreliert. Ein Test, welcher sehr genau die Rückfallwahrscheinlichkeit unterschätzt, wäre jedoch in der Praxis unbrauchbar, falls diese Verzerrung nicht entdeckt wird, da dies die Freilassung von gefährlichen Straftätern begünstigen würde. Vielmehr ist hier die Vorhersage der exakten, absoluten Rückfallwahrscheinlichkeit erforderlich, um zu richtigen Entscheidungen (weitere Sicherheitsverwahrung vs. zukünftige Entlassung) zu gelangen. 12

21 2.2 Die Klassische Testtheorie geben darüber Auskunft, in welchem Bereich der wahre Wert einer Messung (einer Person oder Gruppe) sich mit einer bestimmten Wahrscheinlichkeit (hier: P = 1 α = 95%) befindet (s. Formel 2.8). Derartige Konfidenzintervalle können auch zur Bestimmung der Unsicherheit von Messwertdifferenzen ermittelt werden [Rost 2004, S. 357 ff.]. CI 95% (X) = [M X z 97.5% S E ; M + z 97.5% S E ] (2.8) Der Standardmessfehler und die auf ihm basierenden Konfidenzintervalle stellen skalenabhängige Kennwerte dar und sind daher in einfacher Weise interpretierbar. Darüber hinaus ist der Standardmessfehler weitgehend unabhängig von der Streuung des Merkmals in der Population, da mit steigender Streung S X auch die Reliabilität Rel(X) zunimmt bzw. der Term 1 Rel(X) abnimmt. Ein Nachteil dieser Kennwerte ist jedoch, dass sie zwischen verschiedenen psychologischen Messinstrumenten nur schwierig verglichen werden können, da diese in der Regel eine eigene Skalierung besitzen. Durch skalenunabhängige Kennwerte der Reliabilität kann jedoch diese Schwierigkeit überwunden werden. Dies erreicht man dadurch, dass man einen Determinationskoeffizienten (Det) aus der Varianz des Messfehlers (SE 2 ) und der Varianz der beobachteten Werte (S2 X ) bildet, welcher den Anteil der wahren Varianz an der gesamten Varianz bildet (s. Formel 2.9) [Rost 2004, S. 36]: Det Rel (X) = 1 S2 E S 2 X = S2 T S 2 X (2.9) Durch diesen Koeffizienten liegt ein relativer, skalenunabhängiger Kennwert der Reliabilität für den Vergleich zwischen zwei Messinstrumenten vor. Eingeschränkt wird seine Aussagekraft jedoch dadurch, dass er durch die Varianz der untersuchten Population beeinflusst wird. Kennwerte von Messinstrumenten, welche mit Stichproben aus verschiedenen Populationen (mit unterschiedlicher Merkmalsverteilung) ermittelt wurden, können daher zunächst nicht in einfacher Weise miteinander verglichen werden. Validität Die Klassische Testtheorie nimmt für psychologische Tests an, dass alle systematischen Einflüsse auf den Messwert der wahren Ausprägung des Merkmals zuzuordnen sind. Der Mittelwert der Normalverteilung des Messfehlers NV(M E, S E ) wird somit gleich Null gesetzt und steht nicht zur Beurteilung der Unverzerrtheit bzw. Validität eines Tests zur Verfügung. Da darüber hinaus für psychologische Tests in der Regel kein Referenzverfahren vorhanden ist, welches die exakte Ausprägung eines Merkmals einer Person mit der gleichen Skalierung des Testverfahrens angibt, ist beim Vergleich eines zu prüfenden Tests ein Kennwert erforderlich, welcher weder durch systematische Verzerrungen noch durch die unterschiedlichen Skalierung der Tests beeinflusst wird [Holle 1995, S. 22 f., 38 ff.]. Für quantitative Variablen ist der Produkt-Moment-Korrelationskoeffizient nach Pearson 1 das geeignete Maß, um den Zusammenhang zwischen einem zu prüfenden Test T und einem Außenkriterium C zu erfassen. Durch Quadrierung des Korrelationskoeffizienten erhält man einen 1 Der Korrelationskoeffizient nach Pearson wird auch als Inter-Klassen-Korrelationskoeffizient bezeichnet, da er Zusammenhänge zwischen unterschiedlich skalierten Maßen, z. B. Größe und Gewicht, quantifizieren kann [McGraw & Wong 1996, S. 30]. 13

22 2 Diagnostische Grundlagen Determinationskoeffizienten (Det) analog zur Reliabilität, welcher den Anteil der gemeinsamen Varianz der beiden Messverfahren wiedergibt (s. Formel 2.10). Det V al (T) = r 2 (T,C) = COV (T,C) S(T) S(C) (2.10) Da das Referenzverfahren jedoch in der Regel ebenfalls nicht frei von Messfehlern ist, ist bei der Interpretation dieses Kennwerts der Validität zu beachten, dass die maximale Höhe der Validität durch die Reliabilität der Einzeltests begrenzt wird (s. Formel 2.11) [Bühner 2004, S. 34, Turner 1990, S. 255]. V al max = Rel(T) Rel(C) (2.11) Dies hat zur Folge, dass Validität (bzw. Unverzerrheit) und Reliabilität (bzw. Präzision) nicht mehr unabhängig voneinander existieren, sondern Validität immer Reliabilität impliziert bzw. voraussetzt [Holle 1995, S. 22 f.]. 2.3 Kritik an der Klassischen Testtheorie Als eine der am längsten bekannten Messtheorien der psychologischen Forschung ist die Klassische Testtheorie vielfacher Kritik ausgesetzt gewesen, auf Grund welcher neue messtheoretische Ansätze entwickelt wurden (vgl. Item-Response-Theorie [Rost 2004, Steyer, Eid & Mayer 2001]). Im folgenden Abschnitt werden einige wesentliche Kritikpunkt zusammengefasst Fehlen eines Messmodells Wie bereits erläutert wurde, beschränkt sich die Klassische Testtheorie auf die Definition von beobachtetem Wert, wahrem Wert und Messfehler und leitet daraus Aussagen über die Eigenschaften des Messfehlers ab. Die Klassische Testtheorie geht dabei von den Messwerten einer Person aus und wertet diese entsprechend ihren Annahmen aus. Ein Modell über den Zusammenhang zwischen einem latenten Konstrukt, z. B. der Fähigkeit einer Person, und dem Antwortverhalten bei der Bearbeitung eines Tests, wie dies z. B. in der Item-Response-Theorie enthalten ist, fehlt jedoch [Rost 2004, S. 10]. Innerhalb der Klassischen Testtheorie kann insofern auch nicht unterschieden werden, ob die Antworten in einem Test auf Grund der wahren Ausprägung des Merkmals bei der Person oder in systematischer Weise auch noch durch andere Einflüsse, z. B. durch Simulation oder Dissimulation, mitbestimmt werden. In diesem Falle würde auch die Annahme der Eindimensionaliät eines Skalenwerts beeinträchtigt [Bühner 2004, S. 27]. In der älteren Literatur ist dieses Problem auch als Messbedeutungsproblem oder Physikalismus- Subjektivismus-Dilemma bezeichnet worden [Bereiter 1963, S. 15 ff., Petermann 1978, S. 32 f.]. Es bezeichnet die Schwierigkeit, exakt quantifizierbare Merkmale zu erheben, welche zugleich sinnvoll interpretiert werden können. Ein Beispiel hierfür ist die Messung von Willensstärke in einem Experiment zur Raucherentwöhnung. Der Test mit welchem Willensstärke erfasst werden soll, ist die Reduktion des durchschnittlichen Zigarettenkonsums pro Tag. Vergleicht man nun zwei Gruppen von Rauchern, welche beide ihren Konsum um durchschnittlich fünf Zigaretten pro Tag gesenkt haben, so ist zu fragen, inwieweit dies wirklich ihre Willenstärken 14

23 2.3 Kritik an der Klassischen Testtheorie wiedergibt. So ist denkbar, dass manche Raucher unterstützende Einflüsse erleben, z. B. durch eine Familie aus Nichtrauchern, während andere erschwerenden Faktoren ausgesetzt sind, z. B. rauchende Kollegen und familiäre Probleme. Die Interpretation der Veränderung im Sinne des zu messenden Konstrukts wird dadurch beeinträchtigt Verletzung von Annahmen durch die Empirie Obwohl die grundlegenden Annahmen der Klassischen Testtheorie mathematisch befriedigend formuliert bzw. logisch ableitbar sind, gibt es einige Annahmen, welche in der Empirie schwer haltbar sind. So geht die Klassische Testtheorie davon aus, dass alle systematischen Einflüsse durch den wahren Wert verursacht werden und kein systematischer Messfehler (engl. bias) auftritt, wie er z. B. bei naturwissenschaftlichen Messungen berücksichtigt wird. Dies erscheint nicht plausibel, da auch Übungs- und Transfereffekte oder soziale Erwünschtheit sich systematisch auf die Testleistung auswirken können [Bühner 2004, S. 27]. Wie bereits erläutert wurde, spielt dies in der Regel bei psychologischen Messinstrumenten eine vernachlässigbare Rolle, da keine Referenzstandards vorliegen, welche über den wahren Wert und die Skalierung des Merkmals Auskunft geben könnten. Außerdem erfolgt die Interpretation von Testergebnissen in der Regel nicht absolut, sondern nur relativ im Vergleich zu einer Normstichprobe oder einer anderen Kontrollgruppe. Eine Ausnahme liegt jedoch im Fall der prädiktiven Validität vor, wenn es z. B. um die Vorhersage der Wahrscheinlichkeit der absoluten Ausprägung eines Merkmals oder eines Ereignisses geht. Hier spielt die Unverzerrheit der vorhergesagten und die absolute Übereinstimmung mit der tatsächlichen Ausprägung des Merkmals bzw. Wahrscheinlichkeit eine wichtige Rolle. Diese Eigenschaft eines Messinstruments wird als Kalibration bezeichnet und ist dem Gütekriterium der Validität zuzuordnen [Holle 1995, S. 36]. Wie bereits erwähnt wurde, ist die Annahme der Unkorreliertheit der Messfehler über verschiedene Variablen, Personen oder Messzeitpunkte keine notwendige Annahme der Klassischen Testtheorie und kann in empirischen Untersuchungen möglicherweise nicht gegeben sein [Steyer, Eid & Mayer 2001, S. 103 ff., 109 ff., Tack 1986a, S. 54]. Eine Verletzung der Annahmen, z. B. bei Messwiederholungen, kann in einer Überschätzung der Reliabilität resultieren. Dies kann in der Hinsicht interpretiert werden, dass im Fall der Korreliertheit eine systematische Komponente zum wahren Wert addiert wird, welche im Fall der Unkorrelierheit in den Messfehler eingeht [Willett 1989, S. 599]. Des Weiteren ist die Annahme einer identischen Normalverteilung der Messfehler über verschiedene Zeitpunkte und Personen hinweg, welche z. B. inferenzstatistischen Berechnungen zu Grunde gelegt wird, fraglich [Holle 1995, S. 46] Abhängigkeit von der Stichprobe Wie aus den vorangegangenen Ausführungen deutlich geworden ist, basieren die Gütekriterien eines Tests auf Maßen der Variabilität. D. h. für skalenunabhängige Kennwerte, dass mit zunehmender Merkmalsstreuung eine höhere Reliabilität eines Messinstruments zu erwarten ist. Die Variabilität kann sich jedoch zwischen verschiedenen Stichproben oder Populationen sehr stark unterscheiden, was sich auch auf die Eigenschaften des Tests auswirken kann. So kann man davon ausgehen, dass Fragebogen zur Subjektiven Gesundheit in relativ homogenen Stichproben, z. B. Wehrdienstleistenden, geringere Reliabilität aufweisen als in der Allgemeinbevölkerung. 15

Gütekriterien für evaluative Messinstrumente in der Rehabilitation

Gütekriterien für evaluative Messinstrumente in der Rehabilitation 12. Rehabilitationswissenschaftliches Kolloquium Rehabilitation im Gesundheitssystem Bad Kreuznach, 10. bis 12. März 2003 Gütekriterien für evaluative Messinstrumente in der Rehabilitation Dipl.-Psych.

Mehr

Modul G.1 WS 07/08: Statistik 17.01.2008 1. Die Korrelation ist ein standardisiertes Maß für den linearen Zusammenhangzwischen zwei Variablen.

Modul G.1 WS 07/08: Statistik 17.01.2008 1. Die Korrelation ist ein standardisiertes Maß für den linearen Zusammenhangzwischen zwei Variablen. Modul G.1 WS 07/08: Statistik 17.01.2008 1 Wiederholung Kovarianz und Korrelation Kovarianz = Maß für den linearen Zusammenhang zwischen zwei Variablen x und y Korrelation Die Korrelation ist ein standardisiertes

Mehr

Messung von Lebensqualität: So einfach wie möglich, so differenziert wie nötig

Messung von Lebensqualität: So einfach wie möglich, so differenziert wie nötig IQWiG-Herbst-Symposium Köln, 29.-30. November 2013 Messung von Lebensqualität: So einfach wie möglich, so differenziert wie nötig Thomas Kohlmann Institut für Community Medicine Universität Greifswald

Mehr

0 Einführung: Was ist Statistik

0 Einführung: Was ist Statistik 0 Einführung: Was ist Statistik 1 Datenerhebung und Messung Die Messung Skalenniveaus 2 Univariate deskriptive Statistik 3 Multivariate Statistik 4 Regression 5 Ergänzungen Grundbegriffe Statistische Einheit,

Mehr

Messsystemanalyse (MSA)

Messsystemanalyse (MSA) Messsystemanalyse (MSA) Inhaltsverzeichnis Ursachen & Auswirkungen von Messabweichungen Qualifikations- und Fähigkeitsnachweise Vorteile einer Fähigkeitsuntersuchung Anforderungen an das Messsystem Genauigkeit

Mehr

Varianzanalyse * (1) Varianzanalyse (2)

Varianzanalyse * (1) Varianzanalyse (2) Varianzanalyse * (1) Einfaktorielle Varianzanalyse (I) Die Varianzanalyse (ANOVA = ANalysis Of VAriance) wird benutzt, um Unterschiede zwischen Mittelwerten von drei oder mehr Stichproben auf Signifikanz

Mehr

Glück ist wie ein Schmetterling?

Glück ist wie ein Schmetterling? Glück ist wie ein Schmetterling? Zur Stabilität und Variabilität subjektiven Wohlbefindens Michael Eid Freie Universität Berlin Glück ist wie ein Schmetterling es kommt zu dir und fliegt davon (Mouskouri)

Mehr

Lösung zu Kapitel 11: Beispiel 1

Lösung zu Kapitel 11: Beispiel 1 Lösung zu Kapitel 11: Beispiel 1 Eine Untersuchung bei 253 Personen zur Kundenzufriedenheit mit einer Einzelhandelskette im Südosten der USA enthält Variablen mit sozialstatistischen Daten der befragten

Mehr

Business Value Launch 2006

Business Value Launch 2006 Quantitative Methoden Inferenzstatistik alea iacta est 11.04.2008 Prof. Dr. Walter Hussy und David Tobinski UDE.EDUcation College im Rahmen des dokforums Universität Duisburg-Essen Inferenzstatistik Erläuterung

Mehr

Patient Reported Outcomes in der Qualitätssicherung

Patient Reported Outcomes in der Qualitätssicherung 7. Qualitätssicherungskonferenz des Gemeinsamen Bundesausschuss Patient Reported Outcomes in der Qualitätssicherung Dr. Konstanze Blatt Institut für Qualitätssicherung und Transparenz im Gesundheitswesen

Mehr

Messen im psychologischen Kontext II: Reliabilitätsüberprüfung und explorative Faktorenanalyse

Messen im psychologischen Kontext II: Reliabilitätsüberprüfung und explorative Faktorenanalyse Messen im psychologischen Kontext II: Reliabilitätsüberprüfung und explorative Faktorenanalyse Dominik Ernst 26.05.2009 Bachelor Seminar Dominik Ernst Reliabilität und explorative Faktorenanalyse 1/20

Mehr

Dr. Heidemarie Keller

Dr. Heidemarie Keller Reliabilität und Validität der deutschen Version der OPTION Scale Dr. Heidemarie Keller Abteilung für Allgemeinmedizin, Präventive und Rehabilitative Medizin Philipps-Universität Marburg EbM & Individualisierte

Mehr

Norm- vs. Kriteriumsorientiertes Testen

Norm- vs. Kriteriumsorientiertes Testen Norm- vs. Kriteriumsorientiertes Testen Aus psychologischen Test ergibt sich in der Regel ein numerisches Testergebnis, das Auskunft über die Merkmalsausprägung der Testperson geben soll. Die aus der Testauswertung

Mehr

Psychologische Tests. Name

Psychologische Tests. Name Universität Bielefeld Fakultät für Wirtschaftswissenschaften Lehrstuhl für BWL, insb. Organisation, Personal u. Unternehmensführung Sommersemester 2009 Veranstaltung: HRll: Personalfunktion Veranstalter:

Mehr

Messgeräte: Mess-System-Analyse und Messmittelfähigkeit

Messgeräte: Mess-System-Analyse und Messmittelfähigkeit Messgeräte: Mess-System-Analyse und Messmittelfähigkeit Andreas Berlin 14. Juli 2009 Bachelor-Seminar: Messen und Statistik Inhalt: 1 Aspekte einer Messung 2 Mess-System-Analyse 2.1 ANOVA-Methode 2.2 Maße

Mehr

Behandlung fehlender Werte

Behandlung fehlender Werte Halle/Saale, 8.6.2 Behandlung fehlender Werte Dipl.-Psych. Wilmar Igl - Methodenberatung - Rehabilitationswissenschaftlicher Forschungsverbund Bayern Einleitung () Fehlende Werte als allgegenwärtiges Problem

Mehr

Prof. Dr. Gabriele Helga Franke TESTTHEORIE UND TESTKONSTRUKTION

Prof. Dr. Gabriele Helga Franke TESTTHEORIE UND TESTKONSTRUKTION Prof. Dr. Gabriele Helga Franke TESTTHEORIE UND TESTKONSTRUKTION 2. FS Master Rehabilitationspsychologie, SoSe 2012 Faktorenanalyse/ faktorielle Validität 2 Einleitung Allgemeines zu Faktorenanalysen (FA)

Mehr

Fragebogen- und Testkonstruktion in der Online-Forschung

Fragebogen- und Testkonstruktion in der Online-Forschung Fragebogen- und Testkonstruktion in der Online-Forschung Dr. Meinald T. Thielsch 13. Juni 2008 Globalpark Innovations 2008 Diagnostisches Problem der (Online-)Forschung Es werden in vielen Arbeiten der

Mehr

Kritik standardisierter Testverfahren. am Beispiel des IST-70

Kritik standardisierter Testverfahren. am Beispiel des IST-70 Technische Fachhochschule Berlin Fachbereich Wirtschaftsinformatik WS 02/03 Betriebspsychologie II Kritik standardisierter Testverfahren am Beispiel des IST-70 Referentinnen: Petra Fechner Anja Köllner

Mehr

Webergänzung zu Kapitel 10

Webergänzung zu Kapitel 10 Webergänzung zu Kapitel 10 10.1.4 Varianzanalyse (ANOVA: analysis of variance) Im Kapitel 10 haben wir uns hauptsächlich mit Forschungsbeispielen beschäftigt, die nur zwei Ergebnissätze hatten (entweder

Mehr

Psychologische Tests

Psychologische Tests Psychologische Tests 1. Begriffsbestimmung 'Test' 2. Aufgaben von Tests 3. Anwendungsbereiche psychologischer Tests 3.1 Tests im Arbeitsbereich 4. Klassische Testtheorie 4.1 Objektivität 4.2 Reliabilität

Mehr

E ektgrößen Metaanalysen. Zusammenhänge und Unterschiede quantifizieren E ektgrößen

E ektgrößen Metaanalysen. Zusammenhänge und Unterschiede quantifizieren E ektgrößen DAS THEMA: EFFEKTGRÖßEN UND METAANALYSE E ektgrößen Metaanalysen Zusammenhänge und Unterschiede quantifizieren E ektgrößen Was ist ein E ekt? Was sind E ektgrößen? Berechnung von E ektgrößen Interpretation

Mehr

4.2 Grundlagen der Testtheorie

4.2 Grundlagen der Testtheorie 4.2 Grundlagen der Testtheorie Wintersemester 2009/ 2010 Hochschule Magdeburg-Stendal (FH) Studiengang Rehabilitationspsychologie B.Sc. Prof. Dr. Gabriele Helga Franke Das schönste Beispiel für einen Test

Mehr

Willkommen zur Vorlesung Statistik (Master)

Willkommen zur Vorlesung Statistik (Master) Willkommen zur Vorlesung Statistik (Master) Thema dieser Vorlesung: Verteilungsfreie Verfahren Prof. Dr. Wolfgang Ludwig-Mayerhofer Universität Siegen Philosophische Fakultät, Seminar für Sozialwissenschaften

Mehr

Multiple Regression. Ziel: Vorhersage der Werte einer Variable (Kriterium) bei Kenntnis der Werte von zwei oder mehr anderen Variablen (Prädiktoren)

Multiple Regression. Ziel: Vorhersage der Werte einer Variable (Kriterium) bei Kenntnis der Werte von zwei oder mehr anderen Variablen (Prädiktoren) Multiple Regression 1 Was ist multiple lineare Regression? Ziel: Vorhersage der Werte einer Variable (Kriterium) bei Kenntnis der Werte von zwei oder mehr anderen Variablen (Prädiktoren) Annahme: Der Zusammenhang

Mehr

Umgang mit und Ersetzen von fehlenden Werten bei multivariaten Analysen

Umgang mit und Ersetzen von fehlenden Werten bei multivariaten Analysen Umgang mit und Ersetzen von fehlenden Werten bei multivariaten Analysen Warum überhaupt Gedanken machen? Was fehlt, ist doch weg, oder? Allgegenwärtiges Problem in psychologischer Forschung Bringt Fehlerquellen

Mehr

Herzlich Willkommen zur Vorlesung Statistik

Herzlich Willkommen zur Vorlesung Statistik Herzlich Willkommen zur Vorlesung Statistik Thema dieser Vorlesung: Kovarianz und Korrelation Prof. Dr. Wolfgang Ludwig-Mayerhofer Universität Siegen Philosophische Fakultät, Seminar für Sozialwissenschaften

Mehr

Messen im medizinischen Kontext II: Expositionsmessung

Messen im medizinischen Kontext II: Expositionsmessung Messen im medizinischen Kontext II: Expositionsmessung Bachelor-Seminar Messen und Statistik Institut für Statistik LMU Daniel Krklec Daniel.Krklec@campus.lmu.de 16. Juni 2009 Inhaltsverzeichnis 1 Begriffsklärung

Mehr

Intrinsisch motivierte Mitarbeiter als Erfolgsfaktor für das Ideenmanagement: Eine empirische Untersuchung

Intrinsisch motivierte Mitarbeiter als Erfolgsfaktor für das Ideenmanagement: Eine empirische Untersuchung Intrinsisch motivierte Mitarbeiter als Erfolgsfaktor für das Ideenmanagement: Eine empirische Untersuchung Bearbeitet von Martina Sümnig Erstauflage 2015. Taschenbuch. 176 S. Paperback ISBN 978 3 95485

Mehr

Prüfen von Mittelwertsunterschieden: t-test

Prüfen von Mittelwertsunterschieden: t-test Prüfen von Mittelwertsunterschieden: t-test Sven Garbade Fakultät für Angewandte Psychologie SRH Hochschule Heidelberg sven.garbade@hochschule-heidelberg.de Statistik 1 S. Garbade (SRH Heidelberg) t-test

Mehr

Kontrollüberzeugungen als Prädiktor für subjektive Systembewertungen

Kontrollüberzeugungen als Prädiktor für subjektive Systembewertungen Wenke Ohlemüller Schlüsselwörter: Usability, Prototypen, Kontrollüberzeugungen Zusammenfassung Dieses Paper stellt das psychologische Konstrukt der Kontrollüberzeugungen nach Julian Rotter in den Mittelpunkt

Mehr

Varianzanalytische Methoden Zweifaktorielle Versuchspläne 4/13. Durchführung in SPSS (File Trait Angst.sav)

Varianzanalytische Methoden Zweifaktorielle Versuchspläne 4/13. Durchführung in SPSS (File Trait Angst.sav) Zweifaktorielle Versuchspläne 4/13 Durchführung in SPSS (File Trait Angst.sav) Analysieren > Allgemeines Lineares Modell > Univariat Zweifaktorielle Versuchspläne 5/13 Haupteffekte Geschlecht und Gruppe

Mehr

Kapitel 7: Varianzanalyse mit Messwiederholung

Kapitel 7: Varianzanalyse mit Messwiederholung Kapitel 7: Varianzanalyse mit Messwiederholung Durchführung einer einfaktoriellen Varianzanalyse mit Messwiederholung 1 Durchführung einer zweifaktoriellen Varianzanalyse mit Messwiederholung auf einem

Mehr

Stichprobenauslegung. für stetige und binäre Datentypen

Stichprobenauslegung. für stetige und binäre Datentypen Stichprobenauslegung für stetige und binäre Datentypen Roadmap zu Stichproben Hypothese über das interessierende Merkmal aufstellen Stichprobe entnehmen Beobachtete Messwerte abbilden Schluss von der Beobachtung

Mehr

Weitere (wählbare) Kontraste in der SPSS Prozedur Allgemeines Lineares Modell

Weitere (wählbare) Kontraste in der SPSS Prozedur Allgemeines Lineares Modell Einfaktorielle Versuchspläne 27/40 Weitere (wählbare) Kontraste in der SPSS Prozedur Allgemeines Lineares Modell Abweichung Einfach Differenz Helmert Wiederholt Vergleich Jede Gruppe mit Gesamtmittelwert

Mehr

1.3 Zusammenfassung und Ausblick 26. 2 Medizinische Grundlagen des Diabetes mellitus 27

1.3 Zusammenfassung und Ausblick 26. 2 Medizinische Grundlagen des Diabetes mellitus 27 Inhaltsverzeichnis Inhaltsverzeichnis I Abbildungsverzeichnis VIII Tabellenverzeichnis IX Abkürzungsverzeichnis XI Zusammenfassung 1 Abstract 3 Einleitung 5 I. Stand der Forschung 9 1 Depressive Störungen

Mehr

Zufriedenheitsforschung

Zufriedenheitsforschung Zufriedenheitsforschung Seminarvortrag im Rahmen des Seminars: Statistische Herausforderungen sozialwissenschaftlicher Studien (Vorbereitungsmaterial) Joachim Copony Betreuerin: Andrea Wiencierz Institut

Mehr

12 Teilnehmervoraussetzungen zum Umschulungsbeginn

12 Teilnehmervoraussetzungen zum Umschulungsbeginn Teilnehmervoraussetzungen zum Umschulungsbeginn 187 12 Teilnehmervoraussetzungen zum Umschulungsbeginn An dieser Stelle werden die wichtigsten Voraussetzungen beschrieben, die die Umschüler mit in die

Mehr

Risikomanagement für IT-Projekte: Vergleich von Risiken und Methoden

Risikomanagement für IT-Projekte: Vergleich von Risiken und Methoden Sperrvermerk Risikomanagement für IT-Projekte: Vergleich von Risiken und Methoden Bachelorarbeit Zur Erlangung des akademischen Grades Bachelor of Science (B.Sc.) im Studiengang Wirtschaftswissenschaft

Mehr

Hypothesenentwicklung und Fragebogengestaltung

Hypothesenentwicklung und Fragebogengestaltung Hypothesenentwicklung und Fragebogengestaltung 1 1 Hypothesen: Grundlagen 2 Die Entwicklung und Untersuchung von Hypothesen Typischer Forschungsablauf zur Untersuchung handelswissenschaftlicher Hypothesen

Mehr

Marktliquidität von Aktien

Marktliquidität von Aktien Marktliquidität von Aktien Inauguraldissertation zur Erlangung der Würde eines Doctor rerum oeconomicarum der Wirtschafts- und Sozialwissenschaftlichen Fakultät der Universität Bern Lukas Roth Die Fakultät

Mehr

E. Farin-Glattacker. Lebensqualität, Patientenzufriedenheit und andere patient reported outcomes : Der Weg zum richtigen Instrument

E. Farin-Glattacker. Lebensqualität, Patientenzufriedenheit und andere patient reported outcomes : Der Weg zum richtigen Instrument E. Farin-Glattacker Lebensqualität, Patientenzufriedenheit und andere patient reported outcomes : Der Weg zum richtigen Instrument Drei Fragen 1. Was sind patient-reported outcomes (PROs)? Und warum sind

Mehr

V A R I A N Z A N A L Y S E

V A R I A N Z A N A L Y S E V A R I A N Z A N A L Y S E Ziel / Funktion: statistische Beurteilung des Einflusses von nominal skalierten (kategorialen) Faktoren auf intervallskalierte abhängige Variablen Vorteil: die Wirkung von mehreren,

Mehr

Biostatistik, WS 2015/2016 Der zwei-stichproben-t-test

Biostatistik, WS 2015/2016 Der zwei-stichproben-t-test 1/29 Biostatistik, WS 2015/2016 Der zwei-stichproben-t-test (t-test für ungepaarte Stichproben) Matthias Birkner http://www.staff.uni-mainz.de/birkner/biostatistik1516/ 11.12.2015 2/29 Inhalt 1 t-test

Mehr

Dr. habil. Rüdiger Jacob Methoden und Techniken der empirischen Sozialforschung Vorlesung mit Diskussion

Dr. habil. Rüdiger Jacob Methoden und Techniken der empirischen Sozialforschung Vorlesung mit Diskussion Dr. habil. Rüdiger Jacob Methoden und Techniken der empirischen Sozialforschung Vorlesung mit Diskussion 4. Messtheorie Messen in den Sozialwissenschaften, Operationalisierung und Indikatoren, Messniveaus,

Mehr

Nichtparametrische Analyse longitudinaler Daten in faktoriellen Experimenten. Frank Konietschke

Nichtparametrische Analyse longitudinaler Daten in faktoriellen Experimenten. Frank Konietschke Nichtparametrische Analyse longitudinaler Daten in faktoriellen Experimenten Frank Konietschke Abteilung für Medizinische Statistik Universität Göttingen 1 Übersicht Beispiele CGI (repeated measures) γ-gt

Mehr

Ästhetik von Websites

Ästhetik von Websites Meinald T. Thielsch Ästhetik von Websites Wahrnehmung von Ästhetik und deren Beziehung zu Inhalt, Usability und Persönlichkeitsmerkmalen Inhaltsverzeichnis Vorwort xiii I Theoretische Grundlagen 1 1 Das

Mehr

FAKTORIELLE VERSUCHSPLÄNE. Andreas Handl

FAKTORIELLE VERSUCHSPLÄNE. Andreas Handl FAKTORIELLE VERSUCHSPLÄNE Andreas Handl 1 Inhaltsverzeichnis 1 Versuchsplanung 4 2 Einfaktorielle Varianzanalyse 6 2.1 DieAnnahmen... 6 2.2 Die ANOVA-Tabelle und der F -Test... 6 2.3 Versuche mit zwei

Mehr

18.04.2013. Prinzipien der Fragebogenkonstruktion. Allgemeine Bestandteile. Richtlinien zur Formulierung. Die 10 Gebote der Frageformulierung (II)

18.04.2013. Prinzipien der Fragebogenkonstruktion. Allgemeine Bestandteile. Richtlinien zur Formulierung. Die 10 Gebote der Frageformulierung (II) Prinzipien der Fragebogenkonstruktion Seminar: Patricia Lugert, Marcel Götze 17.04.2012 Medien-Bildung-Räume Inhalt Fragebogenerstellung Grundlagen Arten von Fragen Grundlegende Begriffe: Merkmal, Variable,

Mehr

Studiendesign/ Evaluierungsdesign

Studiendesign/ Evaluierungsdesign Jennifer Ziegert Studiendesign/ Evaluierungsdesign Praxisprojekt: Nutzerorientierte Evaluierung von Visualisierungen in Daffodil mittels Eyetracker Warum Studien /Evaluierungsdesign Das Design einer Untersuchung

Mehr

Konzeption einer Optimierung der Reputationsmessung

Konzeption einer Optimierung der Reputationsmessung nachweisen; für das Wissen konnte kein signifikanter Effekt nachgewiesen werden (2009, 219). Dazu ist jedoch zu bemerken, dass die in der vorliegenden Arbeit verwendeten Messmodelle attribut-bezogen operationalisiert

Mehr

DOE am Beispiel Laserpointer

DOE am Beispiel Laserpointer DOE am Beispiel Laserpointer Swen Günther Ein wesentliches Ziel im Rahmen der Neuproduktentwicklung ist die aus Kundesicht bestmögliche, d.h. nutzenmaximale Konzeption des Produktes zu bestimmen (vgl.

Mehr

Im Modell der Varianzanalyse (mit festen Effekten) ist das. aus dem Durchschnittsmesswert für y plus dem Effekt des.

Im Modell der Varianzanalyse (mit festen Effekten) ist das. aus dem Durchschnittsmesswert für y plus dem Effekt des. Einfatorielle Varianzanalyse Varianzanalyse untersucht den Einfluss verschiedener Bedingungen ( = nominalsalierte(r) Variable(r)) auf eine metrische Variable. Die Bedingungen heißen auch atoren und ihre

Mehr

Auswertung mit dem Statistikprogramm SPSS: 30.11.05

Auswertung mit dem Statistikprogramm SPSS: 30.11.05 Auswertung mit dem Statistikprogramm SPSS: 30.11.05 Seite 1 Einführung SPSS Was ist eine Fragestellung? Beispiel Welche statistische Prozedur gehört zu welcher Hypothese? Statistische Berechnungen mit

Mehr

Weitere Fragestellungen im Zusammenhang mit einer linearen Einfachregression

Weitere Fragestellungen im Zusammenhang mit einer linearen Einfachregression Weitere Fragestellungen im Zusammenhang mit einer linearen Einfachregression Speziell im Zusammenhang mit der Ablehnung der Globalhypothese werden bei einer linearen Einfachregression weitere Fragestellungen

Mehr

Von der Untersuchungsfrage zu statistischen Hypothesen, und wie war das nochmal mit dem α- und

Von der Untersuchungsfrage zu statistischen Hypothesen, und wie war das nochmal mit dem α- und Von der Untersuchungsfrage zu statistischen Hypothesen, und wie war das nochmal mit dem α- und β-fehler? Sven Garbade Fakultät für Angewandte Psychologie SRH Hochschule Heidelberg sven.garbade@hochschule-heidelberg.de

Mehr

Tutorial. Mediationsanalyse mit PROCESS. stefan.pfattheicher@uni-ulm.de. Das Konzept Mediation

Tutorial. Mediationsanalyse mit PROCESS. stefan.pfattheicher@uni-ulm.de. Das Konzept Mediation Tutorial Mediationsanalyse mit PROCESS stefan.pfattheicher@uni-ulm.de Das Konzept Mediation Ein Mediator (folgend M) erklärt den Zusammenhang zwischen unabhängiger Variable (folgend X) und einer abhängigen

Mehr

Messung von Veränderungen. Dr. Julia Kneer Universität des Saarlandes

Messung von Veränderungen. Dr. Julia Kneer Universität des Saarlandes von Veränderungen Dr. Julia Kneer Universität des Saarlandes Veränderungsmessung Veränderungsmessung kennzeichnet ein Teilgebiet der Methodenlehre, das direkt mit grundlegenden Fragestellungen der Psychologie

Mehr

Internetausgabe des Tagungsbandes. 12. Rehabilitationswissenschaftlichen Kolloquium

Internetausgabe des Tagungsbandes. 12. Rehabilitationswissenschaftlichen Kolloquium Internetausgabe des Tagungsbandes zum 12. Rehabilitationswissenschaftlichen Kolloquium erschienen im März 2003 innerhalb der DRV-Schriften als Band 40 Herausgeber Verband Deutscher Rentenversicherungsträger,

Mehr

Leseprobe. Wilhelm Kleppmann. Versuchsplanung. Produkte und Prozesse optimieren ISBN: 978-3-446-42033-5. Weitere Informationen oder Bestellungen unter

Leseprobe. Wilhelm Kleppmann. Versuchsplanung. Produkte und Prozesse optimieren ISBN: 978-3-446-42033-5. Weitere Informationen oder Bestellungen unter Leseprobe Wilhelm Kleppmann Versuchsplanung Produkte und Prozesse optimieren ISBN: -3-44-4033-5 Weitere Informationen oder Bestellungen unter http://www.hanser.de/-3-44-4033-5 sowie im Buchhandel. Carl

Mehr

METHODENLEHRE I WS 2013/14 THOMAS SCHÄFER

METHODENLEHRE I WS 2013/14 THOMAS SCHÄFER METHODENLEHRE I WS 2013/14 THOMAS SCHÄFER DAS THEMA: INFERENZSTATISTIK IV INFERENZSTATISTISCHE AUSSAGEN FÜR ZUSAMMENHÄNGE UND UNTERSCHIEDE Inferenzstatistik für Zusammenhänge Inferenzstatistik für Unterschiede

Mehr

Numerische Optionsbepreisung durch Monte-Carlo-Simulation und Vergleich mit dem Black-Scholes-Modell

Numerische Optionsbepreisung durch Monte-Carlo-Simulation und Vergleich mit dem Black-Scholes-Modell Numerische Optionsbepreisung durch Monte-Carlo-Simulation und Vergleich mit dem Black-Scholes-Modell Bachelorarbeit zur Erlangung des akademischen Grades Bachelor of Science (B.Sc.) im Studiengang Wirtschaftswissenschaft

Mehr

Korrelation - Regression. Berghold, IMI

Korrelation - Regression. Berghold, IMI Korrelation - Regression Zusammenhang zwischen Variablen Bivariate Datenanalyse - Zusammenhang zwischen 2 stetigen Variablen Korrelation Einfaches lineares Regressionsmodell 1. Schritt: Erstellung eines

Mehr

Willkommen zur Vorlesung Statistik

Willkommen zur Vorlesung Statistik Willkommen zur Vorlesung Statistik Thema dieser Vorlesung: Varianzanalyse Prof. Dr. Wolfgang Ludwig-Mayerhofer Universität Siegen Philosophische Fakultät, Seminar für Sozialwissenschaften Prof. Dr. Wolfgang

Mehr

Florian Frötscher und Demet Özçetin

Florian Frötscher und Demet Özçetin Statistische Tests in der Mehrsprachigkeitsforschung Aufgaben, Anforderungen, Probleme. Florian Frötscher und Demet Özçetin florian.froetscher@uni-hamburg.de SFB 538 Mehrsprachigkeit Max-Brauer-Allee 60

Mehr

Einführung in die Methoden der empirischen Sozialforschung

Einführung in die Methoden der empirischen Sozialforschung Einführung in die Methoden der empirischen Sozialforschung Überblick Population - nauswahl Definition der Begriffe Quantitative Studien: Ziehen von n (= Sampling) Qualitative Studien: Ziehen von n (= Sampling)

Mehr

QM: Prüfen -1- KN16.08.2010

QM: Prüfen -1- KN16.08.2010 QM: Prüfen -1- KN16.08.2010 2.4 Prüfen 2.4.1 Begriffe, Definitionen Ein wesentlicher Bestandteil der Qualitätssicherung ist das Prüfen. Sie wird aber nicht wie früher nach der Fertigung durch einen Prüfer,

Mehr

Analyse von Querschnittsdaten. Regression mit Dummy-Variablen

Analyse von Querschnittsdaten. Regression mit Dummy-Variablen Analyse von Querschnittsdaten Regression mit Dummy-Variablen Warum geht es in den folgenden Sitzungen? Datum Vorlesung 9.0.05 Einführung 26.0.05 Beispiele 02..05 Forschungsdesigns & Datenstrukturen 09..05

Mehr

Gestaltungsempfehlungen

Gestaltungsempfehlungen Professur E-Learning und Neue Medien Institut für Medienforschung Philosophische Fakultät Lehren und Lernen mit Medien I Gestaltungsempfehlungen Überblick Auswahl der Empfehlungen Gestaltungseffekte Empirische

Mehr

Überblick über die Verfahren für Ordinaldaten

Überblick über die Verfahren für Ordinaldaten Verfahren zur Analyse ordinalskalierten Daten 1 Überblick über die Verfahren für Ordinaldaten Unterschiede bei unabhängigen Stichproben Test U Test nach Mann & Whitney H Test nach Kruskal & Wallis parametrische

Mehr

Wie schreibt man eine Ausarbeitung?

Wie schreibt man eine Ausarbeitung? Wie schreibt man eine Ausarbeitung? Holger Karl Holger.karl@upb.de Computer Networks Group Universität Paderborn Übersicht Ziel einer Ausarbeitung Struktur Sprache Korrektes Zitieren Weitere Informationen

Mehr

1.1 Studientitel: XY 1.2 Studienleiter: XY 1.3 Medizinischer Hintergrund

1.1 Studientitel: XY 1.2 Studienleiter: XY 1.3 Medizinischer Hintergrund 1.1 Studientitel: XY 1.2 Studienleiter: XY 1.3 Medizinischer Hintergrund Patienten, welche unter chronischer Herzinsuffizienz leiden erleben häufig Rückfälle nach einem klinischen Aufenthalt. Die Ursache

Mehr

Thema: Bootstrap-Methoden für die Regressionsanalyse. Bachelorarbeit. im Fachgebiet Wirtschaftsinformatik am Lehrstuhl für Quantitative Methoden

Thema: Bootstrap-Methoden für die Regressionsanalyse. Bachelorarbeit. im Fachgebiet Wirtschaftsinformatik am Lehrstuhl für Quantitative Methoden Westfälische Wilhelms-Universität Münster Thema: Bootstrap-Methoden für die Regressionsanalyse Bachelorarbeit im Fachgebiet Wirtschaftsinformatik am Lehrstuhl für Quantitative Methoden Themensteller: Prof.

Mehr

Indextest bietet klare und schnelle Antworten auf immer wiederkehrende Fragen

Indextest bietet klare und schnelle Antworten auf immer wiederkehrende Fragen 06. August 2013 ForschungsWerk mit Innovation auf dem Markt: Indextest bietet klare und schnelle Antworten auf immer wiederkehrende Fragen NÜRNBERG - ForschungsWerk hat mit Indextest ein Tool entwickelt,

Mehr

Reha-Leistungen zur Förderung der Erwerbsfähigkeit - Prädiktoren einer erfolgreichen medizinischen Rehabilitation

Reha-Leistungen zur Förderung der Erwerbsfähigkeit - Prädiktoren einer erfolgreichen medizinischen Rehabilitation Reha-Leistungen zur Förderung der Erwerbsfähigkeit - Prädiktoren einer erfolgreichen medizinischen Rehabilitation Mag. Dr. Karin Meng Institut für Psychotherapie und Medizinische Psychologie, AB Rehabilitationswissenschaften,

Mehr

IT-basierte Erstellung von Nachhaltigkeitsberichten. Diplomarbeit

IT-basierte Erstellung von Nachhaltigkeitsberichten. Diplomarbeit IT-basierte Erstellung von Nachhaltigkeitsberichten Diplomarbeit zur Erlangung des Grades eines Diplom-Ökonomen der Wirtschaftswissenschaftlichen Fakultät der Leibniz Universität Hannover vorgelegt von

Mehr

Kontingenzkoeffizient (nach Pearson)

Kontingenzkoeffizient (nach Pearson) Assoziationsmaß für zwei nominale Merkmale misst die Unabhängigkeit zweier Merkmale gibt keine Richtung eines Zusammenhanges an 46 o jl beobachtete Häufigkeiten der Kombination von Merkmalsausprägungen

Mehr

Inhaltsverzeichnis. Regressionsanalyse. http://mesosworld.ch - Stand vom: 20.1.2010 1

Inhaltsverzeichnis. Regressionsanalyse. http://mesosworld.ch - Stand vom: 20.1.2010 1 Inhaltsverzeichnis Regressionsanalyse... 2 Lernhinweise... 2 Einführung... 2 Theorie (1-8)... 2 1. Allgemeine Beziehungen... 3 2. 'Best Fit'... 3 3. 'Ordinary Least Squares'... 4 4. Formel der Regressionskoeffizienten...

Mehr

Fragebogen zum Arbeits- und Gesundheitsschutz

Fragebogen zum Arbeits- und Gesundheitsschutz Münchner Beiträge zur Wirtschafts- und Sozialpsychologie Marc Sta pp Fragebogen zum Arbeits- und Gesundheitsschutz (F AGS) Ein Instrument zur Bewertung des betrieblichen Arbeits- und Gesundheitsschutzmanagements

Mehr

Pflegebezogene Kompetenzen und Gesundheitsbezogene Lebensqualität von Dualstudierenden eines grundständigen Pflegestudienganges

Pflegebezogene Kompetenzen und Gesundheitsbezogene Lebensqualität von Dualstudierenden eines grundständigen Pflegestudienganges Pflegebezogene Kompetenzen und Gesundheitsbezogene Lebensqualität von Dualstudierenden eines grundständigen Pflegestudienganges 3-Länderkonferenz Pflege und Pflegewissenschaft 21.9.2015 Dipl.-Psych. Christoph

Mehr

Klinische Forschung. Klinische Forschung. Effectiveness Gap. Versorgungsforschung und evidenzbasierte Medizin. Conclusion

Klinische Forschung. Klinische Forschung. Effectiveness Gap. Versorgungsforschung und evidenzbasierte Medizin. Conclusion Versorgungsforschung und evidenzbasierte Medizin Klinische Forschung 00qm\univkli\klifo2a.cdr DFG Denkschrift 1999 Aktuelles Konzept 2006 Workshop der PaulMartiniStiftung Methoden der Versorgungsforschung

Mehr

2. Statistische Methoden in der Diagnostik. Elemente des Studiendesigns

2. Statistische Methoden in der Diagnostik. Elemente des Studiendesigns 2. Statistische Methoden in der Diagnostik Elemente des Studiendesigns Diagnosestudien in der Medizin Klassifikation in krank - nicht krank basierend auf diagnostischem Test Beispiel: Diagnose von Brustkrebs

Mehr

Versuchsplanung. Teil 1 Einführung und Grundlagen. Dr. Tobias Kiesling <kiesling@stat.uni-muenchen.de> Einführung in die Versuchsplanung

Versuchsplanung. Teil 1 Einführung und Grundlagen. Dr. Tobias Kiesling <kiesling@stat.uni-muenchen.de> Einführung in die Versuchsplanung Versuchsplanung Teil 1 Einführung und Grundlagen Dr. Tobias Kiesling Inhalt Einführung in die Versuchsplanung Hintergründe Grundlegende Prinzipien und Begriffe Vorgehensweise

Mehr

Einführung in die Test- und Fragebogenkonstruktion

Einführung in die Test- und Fragebogenkonstruktion Markus Bühner Einführung in die Test- und Fragebogenkonstruktion 2., aktualisierte und erweiterte Auflage ein Imprint von Pearson Education München Boston San Francisco Harlow, England Don Mills, Ontario

Mehr

Lineare Modelle in R: Einweg-Varianzanalyse

Lineare Modelle in R: Einweg-Varianzanalyse Lineare Modelle in R: Einweg-Varianzanalyse Achim Zeileis 2009-02-20 1 Datenaufbereitung Wie schon in der Vorlesung wollen wir hier zur Illustration der Einweg-Analyse die logarithmierten Ausgaben der

Mehr

Grundlagen quantitativer Sozialforschung Interferenzstatistische Datenanalyse in MS Excel

Grundlagen quantitativer Sozialforschung Interferenzstatistische Datenanalyse in MS Excel Grundlagen quantitativer Sozialforschung Interferenzstatistische Datenanalyse in MS Excel 16.11.01 MP1 - Grundlagen quantitativer Sozialforschung - (4) Datenanalyse 1 Gliederung Datenanalyse (inferenzstatistisch)

Mehr

Einfache Varianzanalyse für abhängige

Einfache Varianzanalyse für abhängige Einfache Varianzanalyse für abhängige Stichproben Wie beim t-test gibt es auch bei der VA eine Alternative für abhängige Stichproben. Anmerkung: Was man unter abhängigen Stichproben versteht und wie diese

Mehr

Untersuchungen zum Thema Tracking Error

Untersuchungen zum Thema Tracking Error Untersuchungen zum Thema Tracking Error J. Fulmek 24. August 2003 1 Einleitung Im Folgenden werden folgende Punkte untersucht: 1. verschiedene in der Literatur übliche Definitionen des Tracking Errors

Mehr

Varianzanalyse (ANOVA: analysis of variance)

Varianzanalyse (ANOVA: analysis of variance) Varianzanalyse (AOVA: analysis of variance) Einfaktorielle VA Auf der Basis von zwei Stichproben wird bezüglich der Gleichheit der Mittelwerte getestet. Variablen müssen Variablen nur nominalskaliert sein.

Mehr

Wie man leicht erkennen kann, steigt die Anzahl notwendiger Versuche zur Basis 2 bei jeder Modellerweiterung um einen weiteren Faktor.

Wie man leicht erkennen kann, steigt die Anzahl notwendiger Versuche zur Basis 2 bei jeder Modellerweiterung um einen weiteren Faktor. Ziel Prinzip Bestimmung der relevanten Einflussgrößen und Effekte unabhängiger Eingangsvariablen auf das Ergebnis eines Produktes oder Prozess mit einem Minimum an Versuchsaufwand. DoE (Design of Experiment)

Mehr

Vorlesung Organisationspsychologie WS 06/07 Personaldiagnostik I

Vorlesung Organisationspsychologie WS 06/07 Personaldiagnostik I Vorlesung Organisationspsychologie WS 06/07 Personaldiagnostik I Dr. Uwe Peter Kanning Westfälische Wilhelms-Universität Münster Beratungsstelle für Organisationen Überblick 1. Anwendungsfelder 2. Prozess

Mehr

Statische Versuchsplanung (DoE - Design of Experiments)

Statische Versuchsplanung (DoE - Design of Experiments) Statische Versuchsplanung (DoE - Design of Experiments) Übersicht Bei der statistischen Versuchsplanung wird die Wirkung von Steuerparametern unter dem Einfluss von Störparametern untersucht. Mit Hilfe

Mehr

Ergebnisqualität in der Versorgungsforschung: Von der individuellen Bewertung einer Therapie bis zum fairen Einrichtungsvergleich

Ergebnisqualität in der Versorgungsforschung: Von der individuellen Bewertung einer Therapie bis zum fairen Einrichtungsvergleich Mitglied der Ergebnisqualität in der Versorgungsforschung: Von der individuellen Bewertung einer Therapie bis zum fairen Einrichtungsvergleich Deutscher Kongress für Versorgungsforschung 24.10.2013 Röhrig

Mehr

Bezugsquelle: STANGL, W., Institut für Pädagogik und Psychologie, Johannes Kepler Universität Linz, A-4040 Linz-Auhof Österreich

Bezugsquelle: STANGL, W., Institut für Pädagogik und Psychologie, Johannes Kepler Universität Linz, A-4040 Linz-Auhof Österreich BESTT BEHINDERTEN-EINSTELLUNGSSTRUKTUR-TEST Bezugsquelle: STANGL, W., Institut für Pädagogik und Psychologie, Johannes Kepler Universität Linz, A-4040 Linz-Auhof Österreich 1. Testkonzept 1.1. Theoretischer

Mehr

1. Einleitung. 1.1. Ausgangssituation

1. Einleitung. 1.1. Ausgangssituation 1. Einleitung In der vorliegenden Arbeit wird untersucht, welche Faktoren den erfolgreichen Ausgang eines Supply-Chain-Projektes zwischen zwei Projektpartnern beeinflussen. Dazu werden zum einen mögliche

Mehr

Auswertung und Darstellung wissenschaftlicher Daten (1)

Auswertung und Darstellung wissenschaftlicher Daten (1) Auswertung und Darstellung wissenschaftlicher Daten () Mag. Dr. Andrea Payrhuber Zwei Schritte der Auswertung. Deskriptive Darstellung aller Daten 2. analytische Darstellung (Gruppenvergleiche) SPSS-Andrea

Mehr