Psychologische und soziologische Grundlagen der Ärzte zwischen Einzelfall und Wissenschaft: Forschungsmethoden und evidenzbasierte - Wie kommen wir zu unseren Daten und glauben Sie der Statistik? MSE_P_201 ische Psychologie / ische Soziologie
Gliederung: Forschungsfragen und Hypothesenbildung Studienplanung Operationalisierung Methoden der Datengewinnung Datenanalyse Ergebnisbewertung
Fragestellungen: Sollte Laura (18) ihre PKU-Diät lockern oder streng beibehalten? Setzen Patienten die Empfehlungen zur Lebensstiländerung nach einer Reha um?
Fragestellung und Hypothesenbildung Sollte Laura (18) ihre PKU-Diät lockern oder streng aufrecht erhalten? Literaturrecherche: im Säuglingsalter phe-werte wie bei Gesunden < 4 mg/dl Vorschulalter 0,7 15 mg/dl Schulkinder (ca. 11 J.) 0,7 15 mg/dl Jugendliche < 20 mg/dl Erwachsene??? Gibt es auch bei Erwachsenen Beeinträchtigungen der geistigen oder körperlichen Leistungsfähigkeit durch einen erhöhten Phe-Spiegel?
Hypothesen Hypothesen sind wissenschaftliche Annahmen über den Zusammenhang von Variablen, die exakt und eindeutig formuliert sind, d.h. die nicht tautologisch (sich selbst erklärend), widerspruchsfrei, deren Geltungsbedingungen aufgezählt sind die falsifizierbar (widerlegbar) sein müssen. Sind Hypothesen hinreichend überprüft, können sie ein System bilden, das als Theorie bezeichnet wird.
Hypothesen Die Hypothese behauptet einen Sachverhalt Die Nullhypothese bestreitet einen Zusammenhang zwischen den zu untersuchenden Sachverhalten. Hypothesen können nicht bewiesen (verifiziert), sondern nur falsifiziert werden. Deshalb muss eine wissenschaftliche Hypothese falsifizierbar sein. Deterministische Hypothesen beinhalten absolute Tatsachenbehauptungen. Probabilistischen Hypothesen postulieren das wahrscheinliche Eintreten eines erwartbaren Sachverhalts.
Modellstudiengang Forschungsdesign Wie überprüfen wir die Hypothesen?
Operationalisierung Wenn etwas (geistige Leistungsfähigkeit) untersucht werden soll, muss es fassbar, beschreibbar und messbar sein. Operationalisierung ist die Umsetzung theoretischer Behauptungen in Messvorschriften. Die Operationalisierung umfasst sowohl die Beschreibung der Vorgehensweise bei der Messung, als auch die Beschreibung der eingesetzten Messinstrumente. Intelligenztest HAWIK III
(Psychologische) Messinstrumente Anhand einer Skala (standardisiertes psychometrisches Messinstrument) können hypothetische Konstrukte (Intelligenz, Depression, Ängstlichkeit, sozialer Status, soziale Distanz, Stresserleben) eindeutig bestimmt und in ihrer Variabilität gemessen quantifiziert - werden. Die Präzision der Messung wird durch das Skalenniveau beschrieben Ziele: Verhaltensweisen/Erleben Zahlenwerten zuordnen Vergleiche anstellen einzelne Personen in Relation zu anderen bewerten
Psychologische Messinstrumente Wissenschaftliches Routineverfahren (standardisiert) Standardisierung; unabhängige Durchführung/Auswertung eindeutige Interpretierbarkeit Normierung Ł Interpretierbarkeit Gütekriterien: Objektivität / Reliabilität / Validität Spezifität (gesunde Fälle als gesund) und Sensitivität (pathologische Fälle als krank)
Gütekriterien der klassischen Testtheorie Objektivität: unabhängige Durchführung, Auswertung und Interpretation Reliabilität (Zuverlässigkeit): Wie genau wird gemessen? Retest-Reliabilität, Paralleltest-Reliabilität Validität (Gültigkeit); Wird das gemessen, was gemessen werden soll? Inhaltsvalidität: direkter Bezug der Items zum Thema Kriterienbezogene Validität: späterer Erfolg, Vorhersageleistung Konstruktvalidität: theoretische Aussagen über das Material werden mit anderen Verteilungen verglichen. Normierung: Vergleichsdaten großer Stichproben zur Interpretation individueller Daten Ökonomie: (Aufwand an Zeit, Material etc.)
Psychologische Messinstrumente Verbal-IQ Handlungs-IQ Verbales Verständnis Wahrnehmungsorganisation Arbeitsgedächtnis Arbeitsgeschwindigkeit Hamburg-Wechsler-Intelligenztest für Erwachsene (HAWIE-R) Hamburg-Wechsler-Intelligenztest für Kinder (HAWIK-III)
Qualität der Daten Eigenschaften von Merkmalen (Geschlecht, geistige Leistungsfähigkeit, Depressivität, RR) können auf unterschiedlichem Skalenniveau dargestellt werden. Das Skalenniveau bestimmt die (mathematischen) Operationen, die mit einer entsprechend skalierten Variable zulässig sind. Dabei können Operationen, die bei Variablen eines bestimmten Skalenniveaus zulässig sind, grundsätzlich auch auf Variablen aller höheren Skalenniveaus durchgeführt werden.
Skalenniveau Präzision der Daten: Skalenniveau Unterscheidungskriterien der Ausprägungen Unterschied -liche Beispiele Beispiel Alter Maße der zentralen Tendenz Nominalskala 1. Zuordnung zu bestimmten Kategorien ja nein männlich - weiblich im erwerbsfähigen Alter (1) im nicht erwerbsfähigen Alter (2) Modus Ordinalskala 1. Zuordnung zu bestimmten Kategorien 2. Rangordnung Schulnoten Sozialstatus nie-seltenhäufigimmer bis 18 Jahre (1) 19 bis 36 Jahre (2) 37 bis 65 Jahre (3) über 65 Jahre (4) Median Intervallskala 1. Zuordnung zu bestimmten Kategorien 2. Rangordnung 3. Gleichheit der Intervalle Temperatur Sozialindex RR Geburtsjahr:... arithmetisches Mittel Rationalskala 1. Zuordnung zu bestimmten Kategorien 2. Rangordnung 3. Gleichheit der Intervalle 4. Gleichheit der Verhältnisse der Werte Gewicht Zeit Alter Alter in Jahren... geometrisches Mittel
Forschungsdesign Operationalisierung: Intelligenztest (Intervallskalierte Daten) Studiendesign
Untersuchungsplanung Studiendesign: alle Angaben und Festlegungen zur Durchführung der Untersuchung. Forschungsplanung: unter welchen Bedingungen welche Daten mit welchen Datenerhebungsverfahren Experiment: Eine Situation soll planmäßig beeinflusst und in ihren Veränderungen kontrolliert überprüft werden. Wesentliche Voraussetzungen für das Experiment sind die Wiederholbarkeit, die Kausalanalyse und die Kontrolle der Bedingungen. Quasiexperiment: Verfahren, in denen nicht alle Anforderungen an ein Experiments realisiert werden können. Felduntersuchungen: Daten nicht in experimentellen bzw. unter Laborbedingungen erhoben werden, sondern in der Umgebung, in der sich das zu untersuchende Phänomen normalerweise abspielt. Längsschnittstudie: mehrfache Untersuchung einer Bevölkerungsstichprobe oder Kohorte Querschnittstudie: einmalige Untersuchung von verschiedenen Gruppen zu einem festen Zeitpunkt..
Untersuchungsplanung: Phe-Wert Nullhypothese: Es gibt keinen Unterschied bezogen auf die Intelligenzleistung abhängig von der Einhaltung der Diät. Gegenhypothese: Es gibt einen Unterschied in der Intelligenzleistung abhängig von der Einhaltung der Diät. Operationalisierung: Leistung im Intelligenztest, speziell die Subskalen: Wahrnehmungsorganisation, Arbeitsgedächtnis, Arbeitsgeschwindigkeit Experimentell: Diät vs. keine Diät? Querschnitt oder Längsschnitt? Stichprobe?
Stichprobenziehung Voraussetzungen für eine Stichprobe Repräsentativität der verschiedenen Elemente der Grundgesamtheit, Definition der Stichprobenelemente, Definition der Grundgesamtheit, Definition des Stichprobenauswahlverfahrens. Man unterscheidet generell folgende Stichprobenarten: Zufallsstichprobe, Quotastichprobe (Quotenauswahl nach zentralen Merkmalen, z. B. Krankheitsverlauf, Ausprägung, Geschlecht, ) Je größer der Stichprobenumfang, desto kleiner ist der Stichprobenfehler.
Experiment: Phe-Wert bei Erwachsenen Gegenhypothese: Es gibt einen Unterschied in der Intelligenzleistung abhängig von der Einhaltung der Diät. Operationalisierung: Intelligenztest Stichprobe: Zufallsstichprobe n = 200 randomisiert doppelblind? IQ-Test (initial) Phe-Wert.. DIÄT n = 100 Keine DIÄT n = 100 Studienphase (3 Monate) IQ-Test (3 Monate) Phe-Wert. DIÄT Keine DIÄT
Experiment: Phe-Wert bei Erwachsenen Gegenhypothese: Es gibt einen Unterschied in der Intelligenzleistung abhängig von der Einhaltung der Diät. Operationalisierung: Intelligenztest Stichprobe: Zufallsstichprobe n = 200 randomisiert doppelblind? IQ-Test (initial): MW/Stdabw.: 96 ± 15,1 101 ± 19,6 Studienphase (3 Monate) IQ-Test (3 Monate): MW: 110 ± 17,1 104 ± 15,2 Inferenzstatistische Hypothesenprüfung
Modellstudiengang Entscheidungsfehler
Grundstruktur inferenzstatistischer Tests Die Fehlerstreuung innerhalb der Gruppen wird in Beziehung zur Streuung zwischen den Gruppen gesetzt. Verwerfen der Nullhypothese bis zum maximal tolerierbaren - Fehlerrisikio (signifikant). Signifikanz sagt nichts über die klinische Relevanz aus. Ein nicht-signifikantes Ergebnis ist kein Beleg für die Richtigkeit der Null-Hypothese!
Experiment: Phe-Wert bei Erwachsenen Realität: Selektive Stichprobe derjenigen, die zur Teilnahme bereit sind Ethische Frage: Ist es vertretbar, das gesundheitliche Risiko einzugehen? Abhängigkeit bei Quasiexperiment: Diejenigen, die keine Diät mehr einhalten, unterscheiden sich systematisch von denjenigen, die eine Diät einhalten. Konfundierende Variablen: Intelligenz ist genetisch und sozial determiniert; die aktuelle Leistungsfähigkeit wird durch Infekte etc. beeinflusst. Die Zahl der möglichen Studienteilnehmer ist begrenzt (bei seltenen Krankheiten). Forschungsgelder.?
Bevölkerungsstudien: Die Untersuchung (häufig?) auftretender Risiken Das Risiko eines Herzinfarkts in der Altersgruppe der 30 bis 64- jährigen ist bei Langzeitarbeitslosen (16-24 Monate) im Vergleich zu Beschäftigten um mehr als das Dreifache erhöht (=relatives Risiko). Wie hoch ist das absolute Risiko eines Herzinfarkts? Daten einer Versichertenpopulation (N= 105 554) über einen Zeitraum von 9 Jahren: Männer mit Herzinfarkt: 0,5% (n = 388) Männer arbeitslos: 9312 (12,4%) Frauen mit Herzinfarkt : 0,2% (n = 72) Frauen arbeitslos: 4579 (14,9%)
Anlage von Bevölkerungsstudien (1): Querschnitt: Ziehung einer Stichprobe aus der Allgemeinbevölkerung Erfassung der interessierenden Merkmale Alter Geschlecht Beschäftigtenstatus Auftreten eines Herzinfarkts in einem definierten Zeitraum beschäftigt arbeitslos Herzinfarkt: ja Herzinfarkt: nein
Anlage von Bevölkerungsstudien (2): Längsschnitt: Ziehung einer Stichprobe aus der Allgemeinbevölkerung Beobachtungszeitraum T0 T1 Tn Beschäftigt Herzinfarkt Stichprobe Kein Herzinfarkt Herzinfarkt Arbeitslos Kein Herzinfarkt
Quasi-experimentelle Studien: wenn Randomisierung nicht möglich ist Arbeitsbelastungen und Krankheitsrisiko: Veränderung der Arbeitsorganisation mit der Einführung leistungsbezogener Löhne Studiendauer: 2 Jahre Unternehmen 1 Krankenstand, subjektive Gesundheit, Erkrankungen Krankenstand, subjektive Gesundheit, Erkrankungen Unternehmen 2 Krankenstand, subjektive Gesundheit, Erkrankungen Arbeitsorg. verändert Krankenstand, subjektive Gesundheit, Erkrankungen Unternehmen 3 Krankenstand, subjektive Gesundheit, Erkrankungen Arbeitsorganis. verändert + Leistungslohn Krankenstand, subjektive Gesundheit, Erkrankungen
Standardisierte Interviews Fragen sind wörtlich vorgegeben und müssen in dieser Form verlesen werden Die Antworten sind vorgegeben und werden entweder verlesen oder sie werden in Gestalt von Antwortkarten vorgelegt Zusätzlich können Sortieraufgaben (Karten), Bilder, Tests oder Untersuchungen in ein Interview integriert werden Die Interviewerrolle ist im standardisierten Interview passiv-neutral
Schriftliche Befragungen.. waren lange Zeit die am häufigsten verwendete Art der Datenerhebung Zentrales Problem: niedrige Rücklaufquoten von oftmals nicht mehr als 25% Die Tailored Design Method nach Dillman (1978, 2000): Fragebogengestaltung Kontaktaufnahme Frankierte Rückumschläge Personalisierte Anschreiben Die Einhaltung der Regeln sollte Ausschöpfungsquoten zwischen 50 und 70% ermöglichen, in spezifischen Zielgruppen mehr
Fragebogengestaltung Gebundenes Heft, nicht geklammert Interessantes, aber neutrales Deckblatt Länge maximal 12 bis 16 Seiten Lesbare Schriftgröße Sehr kurze Fragebögen sind kontraproduktiv; sie signalisieren Irrelevanz des Themas
Modellstudiengang Postalische Befragung: Frontseite
Ablaufschema der Kontaktaufnahme bei schriftlicher Befragung Anschreiben mit der Ankündigung der Befragung Wenige Tage später Versendung des Fragebogens mit einer detaillierten Erläuterung der Studie Bis zu einer Woche später Dankespostkarte, verbunden mit einer Erinnerung, falls noch nicht geantwortet wurde 1 bis zu 3 Wochen später Zweiter Fragebogen, der die Dringlichkeit der Beantwortung verdeutlichen soll Etwa eine Woche später Abschlusskontakt per Post oder telefonisch
Ausschöpfung nach der Anzahl der Nachfassaktionen Anzahl Prozent Bereinigte Stichprobe 2373 100 Keine Reaktion 403 17,0 Realisierte Interviews Nach Erstversand 575 24,2 Nach 1.Nachfaßaktion 951 40,1 Nach 2.Nachfaßaktion 329 13,9 Nach 3.Nachfaßaktion 100 4,2 Gesamtausschöpfung 1955 82,4 (aus: Thoma und Zimmermann, 1996: 150; Darstellung modifiziert)
Bei Kindern verwendeter Fragebogen Quelle: Stockhorst et al.; Med. Psychologie der Uni Düsseldorf
Charakteristika von Telefonsurveys Die Präsentationszeit für Fragen und Informationen ist kürzer als in Face-to-Face Interviews. Die Antworten auf offene Fragen sind wesentlich kürzer als in Interviews mit direkter persönlicher Anwesenheit der Interviewer In Telefoninterviews läuft die Kommunikation nur über ein Medium, das Gehör. Material, das für persönliche Interviews erzeugt wurde, ist dann nicht verwendbar. Antworten auf offene Fragen sind wesentlich kürzer als in Interviews mit direkter persönlicher Anwesenheit der Interviewer. Im Telefoninterview ist es im Gegensatz zum face-to-face-interview nicht möglich, zusätzliche Hilfsmittel oder Stimulusmaterial zu verwenden
Determinanten der Teilnahmebereitschaft in telefonischen Befragungen: Der Zeitpunkt des ersten Anrufs, d.h. in welcher Verfassung oder Situation befinden sich die potentiellen Befragten? Ob ein Rückruf vereinbart wird, wenn ein Interview zum Zeitpunkt des ersten Kontakts nicht durchgeführt werden kann. Der Aufwand, der zur Überzeugung der potentiellen Befragten getrieben wird; welche Inhalte und Argumentationsmuster im einzelnen über den Erfolg entscheiden, ist nicht genau geklärt Die Nennung des Auftraggebers der Befragung, bzw. des durchführenden Instituts und der Sitz des Instituts
Anzahl der realisierten Interviews nach der Zahl der Kontaktversuche im telefonischen Interview Zahl der Kontakte N Kumulativ % % 1 101 28,0 28,0 2 86 23,8 51,8 3-5 83 23 74,8 6-10 51 14,1 88,9 > 11 40 11,1 100 361 100 (aus :Blasius & Reuband, 1995:73)
Sekundäranalysen: Die Analyse bereits vorhandener Daten Daten bereits durchgeführter Studien Behandlungsdaten von Arztpraxen Daten von Krankenkassen Daten über die Internetnutzung Bereits vorhandene Statistiken und Tabellen
Methodenkenntnisse Trauen Sie nur der Statistik, deren Zustandekommen Sie nachvollziehen können