grundsätzlich: der Fehler ist reiner Zufallsfehler, korreliert mit nichts - ist statistisch berechenbar

Ähnliche Dokumente
Messen im psychologischen Kontext II: Reliabilitätsüberprüfung und explorative Faktorenanalyse

Eigene MC-Fragen Kap. 4 Faktorenanalyse, Aggregation, Normierung. 1. Welche Aussage zu den Prinzipien der Faktorenanalyse ist zutreffend?

Tutorium Testtheorie. Termin 3. Inhalt: WH: Hauptgütekriterien- Reliabilität & Validität. Charlotte Gagern

Standardisierte Vorgehensweisen und Regeln zur Gewährleistung von: Eindeutigkeit Schlussfolgerungen aus empirischen Befunden sind nur dann zwingend

Concept-Map. Pospeschill / Spinath: Psychologische Diagnostik 2009 by Ernst Reinhardt Verlag, GmbH und Co KG, Verlag, München

Grundlagen sportwissenschaftlicher Forschung Test

Explorative Faktorenanalyse

Was ist ein Test? Grundlagen psychologisch- diagnostischer Verfahren. Rorschach-Test

Gütekriterien: Validität (15.5.)

Messen im psychologischem Kontext II: Reliabilität und explorative Faktorenanalyse

6. Faktorenanalyse (FA) von Tests

Hausaufgaben. Antwort und 4 guten Distraktoren zum gelesenen Text!

Inhaltsverzeichnis. Vorwort zur 3. Auflage 11. Kapitel 1 Einführung 13. Kapitel 2 Testtheoretische Grundlagen 29

GLIEDERUNG Das Messen eine Umschreibung Skalenniveaus von Variablen Drei Gütekriterien von Messungen Konstruierte Skalen in den Sozialwissenschaften

Fragebogen- und Testkonstruktion in der Online-Forschung

QUANTITATIVE VS QUALITATIVE STUDIEN

4. Skalenbildung: Faktorenanalyse, Aggregation von Items & Normierung

Prof. Dr. Gabriele Helga Franke TESTTHEORIE UND TESTKONSTRUKTION

0 Einführung: Was ist Statistik

4.2 Grundlagen der Testtheorie

Dr. Barbara Lindemann. Fragebogen. Kolloquium zur Externen Praxisphase. Dr. Barbara Lindemann 1

Was heißt messen? Konzeptspezifikation Operationalisierung Qualität der Messung

Angewandte Statistik 3. Semester

Faktorenanalyse. 1. Grundlegende Verfahren. Bacher, SoSe2007

Statistik. Jan Müller

INHALTSVERZEICHNIS Inhaltsverzeichnis Tabellenverzeichnis Abbildungsverzeichnis Anhangsverzeichnis Abkürzungsverzeichnis. 1.

Methodenlehre. Vorlesung 10. Prof. Dr. Björn Rasch, Cognitive Biopsychology and Methods University of Fribourg

Psychologische Tests. Name

Computergestützte Methoden. Master of Science Prof. Dr. G. H. Franke WS 07/08

Untersuchungsarten im quantitativen Paradigma

VU Testtheorie und Testkonstruktion WS 08/09; Lengenfelder, Fritz, Moser, Kogler

Rating-Skalen: Definition

Forschungsmethoden in der Sozialen Arbeit

Experimentelle und quasiexperimentelle

Messung Emotionaler Intelligenz. Prof. Dr. Astrid Schütz - Universität Bamberg

Brückenkurs Statistik für Wirtschaftswissenschaften

Lösungen zu Janssen/Laatz, Statistische Datenanalyse mit SPSS 1

Vorlesung Testtheorien. Dr. Tobias Constantin Haupt, MBA Sommersemester 2007

1 Inhaltsverzeichnis. 1 Einführung...1

Teil: lineare Regression

Multiple Regression. Ziel: Vorhersage der Werte einer Variable (Kriterium) bei Kenntnis der Werte von zwei oder mehr anderen Variablen (Prädiktoren)

Pflichtlektüre: Kapitel 12 - Signifikanztest Wie funktioniert ein Signifikanztest? Vorgehensweise nach R. A. Fisher.

4.2 Grundlagen der Testtheorie. Wintersemester 2008 / 2009 Hochschule Magdeburg-Stendal (FH) Frau Prof. Dr. Gabriele Helga Franke

Einführung in SPSS. Sitzung 5: Faktoranalyse und Mittelwertsvergleiche. Knut Wenzig. 22. Januar 2007

Klausur Statistik I. Dr. Andreas Voß Wintersemester 2005/06

Konfidenzintervalle Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Anteilswert Differenzen von Erwartungswert Anteilswert

Norm- vs. Kriteriumsorientiertes Testen

Kapitel 6. Zusammenfassung der wichtigsten Ergebnisse dieser Arbeit

Inhalt. 2. Ein empirisches Beispiel als Hintergrund 2.1 Die Studie von Preckel & Freund (2006) 2.2 Rückblick

Empirisches Relativ: Eine Menge von Objekten, über die eine Relation definiert wurde.

Aufgaben und Ziele der Wissenschaften

IST-Screening [de]: Form A (Intelligenz-Struktur-Test Screening) Gymnasiasten, altersspezifisch - SW Standardwerte (100+/-10z)

Dr. Heidemarie Keller

explorative Faktorenanalyse Spickzettel

Prof. Dr. Carolin Strobl

Herzlich Willkommen!

Faktorenanalyse. Fakultät für Human und Sozialwissenschaften Professur für Forschungsmethodik und Evaluation in der Psychologie

Teil I: Deskriptive Statistik

Anteile Häufigkeiten Verteilungen Lagemaße Streuungsmaße Merkmale von Verteilungen. Anteile Häufigkeiten Verteilungen

Personenparameter + Itemparameter

JOACHIM BEHNKE / NINA BAUR / NATHALIE BEHNKE. Empirische Methoden der Politikwissenschaft

Statistik. Für Sozialwissenschaftler. Dritte, neu bearbeitete Auflage Mit 71 Abbildungen und 224 Tabellen

12 Teilnehmervoraussetzungen zum Umschulungsbeginn

Dr. habil. Rüdiger Jacob Methoden und Techniken der empirischen Sozialforschung Vorlesung mit Diskussion

Analytische Statistik II

Regression ein kleiner Rückblick. Methodenseminar Dozent: Uwe Altmann Alexandra Kuhn, Melanie Spate

Modul G.1 WS 07/08: Statistik Die Korrelation ist ein standardisiertes Maß für den linearen Zusammenhangzwischen zwei Variablen.

Häufigkeitsauszählungen, zentrale statistische Kennwerte und Mittelwertvergleiche

9 Faktorenanalyse. Wir gehen zunächst von dem folgenden Modell aus (Modell der Hauptkomponentenanalyse): Z = F L T

Statistik Testverfahren. Heinz Holling Günther Gediga. Bachelorstudium Psychologie. hogrefe.de

INFERENZSTATISTISCHE AUSSAGEN FÜR LAGEMAßE UND STREUUNGSMAßE. Inferenzstatistik für Lagemaße Inferenzstatistik für Streuungsmaße

Markt- und Werbepsychologie. Band 1 Grundlagen

Statistische Grundlagen I

Messen im psychologischen Kontext I. Testentwicklung, Entwicklung von Items, Trennschärfeanalyse und Normierung

Ein- und Zweistichprobentests

METHODENLEHRE I WS 2013/14 THOMAS SCHÄFER

Messung, Skalen, Indices

Grundzüge der Faktorenanalyse

Statistik für das Psychologiestudium

Pädagogisch-psychologische Diagnostik und Evaluation

Aufgaben zu Kapitel 7:

Vortrag Evaluation und Fragebogenkonstruktion

Kontrolle und Aufbereitung der Daten. Peter Wilhelm Herbstsemester 2014

Kurs Bernd Marcus. Grundlagen der Testkonstruktion. Kultur- und Sozialwissenschaften

Daten, Datentypen, Skalen

Kritik standardisierter Testverfahren. am Beispiel des IST-70

Übersicht zur Veranstaltung

Florian Frötscher und Demet Özçetin

1 Leistungstests im Personalmanagement

Gerechtigkeit in Partnerschaften

Einführung zur Kurseinheit Interview

IBS-KJ Interviews zu Belastungsstörungen bei Kindern und Jugendlichen

Teil II: Einführung in die Statistik

BIP. Bochumer Inventar zur berufsbezogenen Persönlichkeitsbeschreibung

Einführung in die Testkonstruktion

VS PLUS

Transkript:

Definition psych. Tests: wissenschaftlich Routineverfahren Untersuchung eines o. mehrerer empirisch abgrenzbarer Persönlichkeitsmerkmale Ziel mgl. quantitative Aussagen über den relativen Grad der indiv. Merkmalsausprägung (Vgl. mit einer Stichprobe zum gleichen Kriterium) Arten v. Testverfahren: Inhalt! ----> Leistung: richtig/falsche Antwort möglich (Messung an objektiven Maßstäben! ----> psychometrische Persönlichkeitstests (Selbst-/Fremdeinschätzg.)! ----> Persönlichkeitsentfaltungstests (projektive Tests,!!!!!! qualitative Erhebung, diffuse Vorlagen) Teststrategie!----> Speed vs. Power (Leistungstests) meist beide kombiniert,!!!!!! nur Speed D-2 (Konzentrationstest),!!!!!! nur Power Hochbegabtenforschung!! ----> ein- vs. mehrdimensional (Inventar)!! ----> Gruppen vs. Einzel!! ----> Paper vs. PC (Medieneinsatz), mit PC adaptives Testen mögl.!!!!!!! (nach PTT) - relativ schnell kalibrieren,!!!!!!! welche Fähigkeit Testperson hat!!!!!!! mit PC können Reaktionszeiten erfasst!!!!!!! werden KTT Theorie des Messfehlers Axiome = Setzung, nicht überprüfbar x = T + E! M (E) = 0! r(e,t) = 0! r(e,e ) = 0 r(e,t ) = 0 Fehler mittelt sich aus Fehler und Messwerte korrelieren nicht (alles Zufallsfehler) grundsätzlich: der Fehler ist reiner Zufallsfehler, korreliert mit nichts - ist statistisch berechenbar ----> systematischer Fehler sind nicht einbezogen - kann zu Verzerrungen (bias) führen! (z.b. traits wie Prüfungsangst) Unterscheidung zwischen!reliabilität!! und!! Validität! erkennbar:!!! rtt = st 2 / (st 2 + se 2 )!!! rtc = sc 2 / (sc 2 + sb 2 + se 2 )!!!!!!!!!!!!!!!! hier geht es nur um die inhaltlich!!!!!!!! wahre Varianz in der KTT ist Validität kein Inhalt - hier nur zur Veranschaulichung! Grenzen der KTT in der Mitte testen die Ergebnisse reliabler als in den Extrembereichen

Eindimensionalität wird nicht getestet (könnte man mit CFA machen) in PTT integraler Bestandteil des Verfahrens Von der Planung zum Entwurf (Kap.2) Merkmalsbereich: Konstrukt, was? was nicht? bei kriterienorientierten Tests z.b. Lernziele - Aufgabenuniversum (ist willkürlich gesetzt) Geltungsbereich: Wo? Kontext (Forschung, Beruf/ Eignung..., Klinisch etc.) bei wem? Population wofür? Zweck Vier idealtypische Vorgehensweisen: RATIONAL theoriegeleitet! > exakte Definition eines Konstrukts o. Aufgabenuniversums deduktiv!! > theoriekonforme Items abgeleitet!!! > 1. Testentwurf ohne Empirie!!! > Inhaltsvalidität EXTERNAL empirisch!! > könnte theoriefrei sein - man muss wissen, was vorhergesagt/!!! diagnostiziert werden soll!!!! > man misst Merkmale, die etwas über das Kriterium aussagen!!! > empirische Selektion von Items ( egal welche Items das sind, ob!!! dahinter eine Theorie steht oder nicht)!!! > Zusammenhang nicht immer begreifbar (durch Items), daher häufig!!! schlechte Replizierbarkeit!!! > zwingend Kreuzvalidierung (mit anderer Stichprobe), um zu sehen,!!! ob es replizierbar ist!!! > Inhalt ist häufig heterogen, meist nicht eindimensional --> macht!! nichts, solange es den Zweck erfüllt!!! > über das Kriterium selbst muss man klare Vorstellungen haben!!! > Kriteriumsvalidität INTERNAL induktiv!! > Mischverfahren aus rational und external!!! > abgegrenzter Merkmalsbereich (meist breit z.b. Intelligenz)!!! > sinnvolle Strukturierung finden (Binnenstruktur)!!! > Faktorenanalyse nutzen, um genaues Bild vom Bereich zu!!! bekommen, über Empirie!!! > Konstruktvalidität TYPOLOGISIEREND > man ordnet Personen Typen zu > in der Interpretation relativ einfach - praktisch besonders für Schubkastendenken suboptimal - die Probleme/ Menschen sind meist viel komplexer (unabhängige Messung einzelner Kriterien gibt mehr Auskunft als ein bestehendes Muster) > Verfahren meist sehr eingeschränkte Informationen und empirisch instabil > äusserste Skepsis der wissenschaftlichen Psychologie

> sinnvoll in Konsumentenforschung > Aussage ist Folgende: ein Mensch der A hat hat B so und C so..., man geht von vorgegebenen Mustern aus. > Clusteranalyse Methode der Wahl (Ähnlichkeit innerhalb eines Clusters, begrenzte Zahl starrer Muster von Merkmalen) Itemgenerierung Regelsystem hilfreich rational: klare Arbeitsdefinition, Facetten external: Literaturrecherche AFA! qualitatives Verfahren, Merkmale und Verhaltensweisen durch externe Menschen erfragt und generiert, Prototypikalität erfasst; psychometrisches Problem: Verhaltenshäufigkeiten - Verzerrungen Formulierungsregeln beachten! besonders doppelte Verneinungen vermeiden (auch durch Verkopplung von Frage und Antwort) Fremdworte vermeiden, alle sollen das Gleiche verstehen etc. Antwortmöglichkeiten: freies Format! kein Routineverfahren mehr!!! nicht mehr unabhängig von subjektiver Einschätzung um quantitative!!! Werte zu erhalten!!! unökonomisch!!! für explorative Zusammenhänge sinnvoll standardisierte Formate Ratingskalen streng genommen keine metrische Skala, gute Verankerung (Beschriftung) dann Annäherung möglich nicht weniger Abstufungen, als die, die jemand unterscheiden kann (zw. 5-9 guter Bereich) mittlerer Bereich als Ausweichkategorie (weglassen hat auch Nachteil, verringeert Akzeptanz den Test auszufüllen) Abstände zwischen Stufen sollen mgl. gleich wahrgenommen werden - Annäherung an metrisches Skalenniveau unipolar - Nullpunkt am Skalenanfang (weniger als nie ist schwer zu definieren) bipolar - zwischen Ablehung und Zustimmung (Nullpunkt in der Mitte) Anfälligkeit für soziale Erwünschtheit - hängt meist von der Formulierung der Items ab dichotomes Format hoher Informationsverlust, daher nicht mehr oft benutzt man braucht viel mehr Items, da weniger Informationen - schlechter unterschiedbar MC Leistungstest Distraktoren von großer Bedeutung ein gutes MC Item ist: wenn Leute, die keine Ahnung vom Thema haben, alle Antwortoptionen für gleich möglich erachten

MC in Persönlichkeitstest: Forced Choice Wahl des am zutreffendsten Items Verhinderung von sozialer Erwünschtheit hoher Aufwand technisches Problem: stochastische Unabhängigkeit der Merkmale nicht mehr gegeben (künstlich negative Korrelation erzeugt) durch ipsative Messung (Zwang zur Auswahl), das schließt automatisch die anderen Items aus Itemanalyse nach KTT Recodierung nicht vergessen deskriptive Analyse Verteilungseigenschaften:! Items häufig nicht normalverteilt, egal; wichtiger zu betrachten ist: bimodale Verteilung (2gipflig - das Item könnte unterschiedlich verstanden worden sein) Item-Schwierigkeit:!! kommt aus Leistungstests Anteil richtiger Lösungen an allen Lösungen P = (NR/N) x 100 ----> hoher Schwierigkeitsindex = leichtes Item (denn die meisten können es lösen) mit Zufallskorrektur: PZK = (NR - (NF/m-1))/N x 100 Inangriffnahmekorrektur: interessant bei Speedtests, sonst nicht bei Ratingskalen: Skala transformieren (geringste Wert muss 0 sein) --- häufig Indikator für soz. Erwünschtheit Index 50% bedeutet: maximale Zahl von Unterschiedungsmöglichkeiten (50 die es richtig gelöst haben, sind unterscheidbar von 50 die es falsch gelöst haben) 50x50 Unterscheidungsmöglichkeiten = 2500 - maximiert die Varianz/ Kovariation (Anteil der wechselseitigen Varianz, die aufgeklärt wird) Index 90% = 90 die richtige Lsg haben sind unterscheidbar von 10 die falsche Lösung haben, 90x10 = 900 Varianz ist minimiert (im Vergleich zu vorher) nur was variiert, kann mit was anderem kovariieren... :) korrelative Zusammenhänge Eigentrennschärfe: Korrelation eines Items mit der gesamten Skala part whole Korrektur - Einzelitem selbst raus gerechnet (sonst partielle Eigenkorrelation) wie prototypisch ist das Item für die Skala? hohe Trennschärfe führt zu hoher interner Konsitenz (interne Reliabilität) Cronbachs Alpha Fremdtrennschärfe: Items mit einer anderen Skala korrelieren - ob das Item evtl. zu einer anderen Skala passt Homogenität: Eindimensionalität (genau ein Merkmal wird gemessen) mittlere Item Korrelation MIC (in Spss) - hoher Wert = hohe Homogenität! MIC sagt nicht zwingend etwas über Eindimensionalität des Tests aus ein Test ist dann homogener, wenn alle Itemkorrelationen ähnlich streuen Cronbachs Alpha und MIC - Anhaltspunkte für Homogenität

höhere Itemschwierigkeit = höhere Trennschärfe (nur was variiert, kann mit was anderem kovariieren - Item was nicht streut ist sinnlos) keine Faustregel für Trennschärfe oder Schwierigkeit, Gesamtheit der Kennwerte berücksichtigen --> Entscheidungskriterium : theoretisch beurteilen - was soll der Test messen bei mittlerer Schwierigkeit der Skala - Transformation beachten! PTT siehe Vorlesung FernUni explorative Faktorenanalyse Voraussetzung: Items müssen sinnvoll korrelieren deskriptive Statistik: KMO - soll 0.5 sein für FA Bartlett Test soll signifikant sein Extraktion: aus Variablensatz reduzieren, vereinfachen Hauptkomponentenanalyse: welche Komponeneten stecken dahinter? Hauptachsenanalyse: welches theoretische Modell steckt dahinter, welche Strukturen?!!!! vereinfachen falls Modell spezifizieren - CFA (passt Modell zu Daten?) Ziel des faktorenanalytischen Modells: hinter Daten steckt latente Variable(n) z.b. Hauptachsenanalyse und Maximum Likelihood Hauptkomponentenanalyse: was steckt hinter den Daten?!!!! vereinfachen!!!! Fehler egal!!!! es wird nicht nach dahinter liegendem Modell gefragt Wonach wird beurteilt wieviele Faktoren extrahiert werden? Eigenwert 1 alle Daten, die Wert < 1 haben tragen nichts zur Datenreduktion bei (Variablen standardisiert auf Varianz =1) Sceeplott: Varianzabfall sortiert Items nach Bedeutung Eigenwertabfall wird beurteilt sollten 2 Werte auf gleicher Höhe liegen, müssen beide rein genommen werden, da gleicher Eigenwert Parallelanalyse nach Horn: Simulation, alles zu 0 miteinander korreliert Zufallsberechnung, welche Eigenwerte würden gezogen, wenn keine Korrelation da wäre? sehr zuverlässige Methode Stichprobenabhängigkeit groß

Rotation: wird gemacht, damit Einfachstruktur mehr hervortritt - also Itemzuordnung mgl mit einem Faktor eindeutiger und ein Faktor mit mgl vielen Items beschrieben werden kann Achsen werden verschoben, Items bleiben am Platz orthogonal = rechtwinklig, sehr begrenzt, zusätzliche Einschränkung (muss immer begründet werden) oblique = schiefwinklig, mehrere Möglichkeiten; Nachteil: braucht Korrelation der Faktoren (keine Datenreduktion mehr mgl) Interpretation: Mustermatrix interpretieren - Partialkorrelation (bei Strukturmatrix lässt man Korrelation zw. Item und Faktor zu) Mustermatrix zeigt: hohe Korrelationswerte = hohe inhaltliche Korrelation Markiervariablen = hoch ladende Items auf Faktor CFA siehe Vorlesung FernUni Gütekriterien (Kap 5) für Rezensionen - Grundlagen der Bewertung z.b. Cotan System (berücksichtigt gut dir verschiedenen Anwendungsbereiche und damit verbundene Konsequenzen) Richtlinien: ethische Verhaltensrichtlinien Qualitätsrichtinien Din 33430: berufseignungsdiagnostische Normen/ Was einen guten Test von einem Schlechten Test unterscheidet (Nebengütekriterien fehlen) Qualifikationnen der Anwender Beurteilungskriterien für Tests nichtpsychometrische Gütekriterien: Kosten - Nutzen rechtliche Grundlagen Fairness Zumutbarkeit (distributive und prozedurale Gerechtigkeit) Unverfälschbarkeit (gegen Selbstdarstellung z.b. bei Gutachten, bogus-items sind tauglicher als Items aus sozialen Erwünschtheitsskalen) Einzelfalldiagnostik Einzelwert wird zur Norm betrachtet meist z-standardisierung (lineare Transformation), lediglich Prozentrangskala maßgeblich abweichend davon -Verzerrung, Ränge in der Mitte viel enger Normierungsanforderung: Stichprobengröße (300TN gute Größe), Repräsentativität für Population/Kontext/Zweck, Aktualität Messgenauigkeit: Reliabilität (i.s. KTT) Äquivalenzhypothese, Regressionshypothese (Schätzwert liegt immer näher zur Mitte, kritische Differenzen -immer Rangfolgen) Hauptgütekriterien siehe Vorlesung FernUni