grundsätzlich: der Fehler ist reiner Zufallsfehler, korreliert mit nichts - ist statistisch berechenbar

Definition psych. Tests: wissenschaftlich Routineverfahren Untersuchung eines o. mehrerer empirisch abgrenzbarer Persönlichkeitsmerkmale Ziel mgl. quantitative Aussagen über den relativen Grad der indiv. Merkmalsausprägung (Vgl. mit einer Stichprobe zum gleichen Kriterium) Arten v. Testverfahren: Inhalt! ----> Leistung: richtig/falsche Antwort möglich (Messung an objektiven Maßstäben! ----> psychometrische Persönlichkeitstests (Selbst-/Fremdeinschätzg.)! ----> Persönlichkeitsentfaltungstests (projektive Tests,!!!!!! qualitative Erhebung, diffuse Vorlagen) Teststrategie!----> Speed vs. Power (Leistungstests) meist beide kombiniert,!!!!!! nur Speed D-2 (Konzentrationstest),!!!!!! nur Power Hochbegabtenforschung!! ----> ein- vs. mehrdimensional (Inventar)!! ----> Gruppen vs. Einzel!! ----> Paper vs. PC (Medieneinsatz), mit PC adaptives Testen mögl.!!!!!!! (nach PTT) - relativ schnell kalibrieren,!!!!!!! welche Fähigkeit Testperson hat!!!!!!! mit PC können Reaktionszeiten erfasst!!!!!!! werden KTT Theorie des Messfehlers Axiome = Setzung, nicht überprüfbar x = T + E! M (E) = 0! r(e,t) = 0! r(e,e ) = 0 r(e,t ) = 0 Fehler mittelt sich aus Fehler und Messwerte korrelieren nicht (alles Zufallsfehler) grundsätzlich: der Fehler ist reiner Zufallsfehler, korreliert mit nichts - ist statistisch berechenbar ----> systematischer Fehler sind nicht einbezogen - kann zu Verzerrungen (bias) führen! (z.b. traits wie Prüfungsangst) Unterscheidung zwischen!reliabilität!! und!! Validität! erkennbar:!!! rtt = st 2 / (st 2 + se 2 )!!! rtc = sc 2 / (sc 2 + sb 2 + se 2 )!!!!!!!!!!!!!!!! hier geht es nur um die inhaltlich!!!!!!!! wahre Varianz in der KTT ist Validität kein Inhalt - hier nur zur Veranschaulichung! Grenzen der KTT in der Mitte testen die Ergebnisse reliabler als in den Extrembereichen

Eindimensionalität wird nicht getestet (könnte man mit CFA machen) in PTT integraler Bestandteil des Verfahrens Von der Planung zum Entwurf (Kap.2) Merkmalsbereich: Konstrukt, was? was nicht? bei kriterienorientierten Tests z.b. Lernziele - Aufgabenuniversum (ist willkürlich gesetzt) Geltungsbereich: Wo? Kontext (Forschung, Beruf/ Eignung..., Klinisch etc.) bei wem? Population wofür? Zweck Vier idealtypische Vorgehensweisen: RATIONAL theoriegeleitet! > exakte Definition eines Konstrukts o. Aufgabenuniversums deduktiv!! > theoriekonforme Items abgeleitet!!! > 1. Testentwurf ohne Empirie!!! > Inhaltsvalidität EXTERNAL empirisch!! > könnte theoriefrei sein - man muss wissen, was vorhergesagt/!!! diagnostiziert werden soll!!!! > man misst Merkmale, die etwas über das Kriterium aussagen!!! > empirische Selektion von Items ( egal welche Items das sind, ob!!! dahinter eine Theorie steht oder nicht)!!! > Zusammenhang nicht immer begreifbar (durch Items), daher häufig!!! schlechte Replizierbarkeit!!! > zwingend Kreuzvalidierung (mit anderer Stichprobe), um zu sehen,!!! ob es replizierbar ist!!! > Inhalt ist häufig heterogen, meist nicht eindimensional --> macht!! nichts, solange es den Zweck erfüllt!!! > über das Kriterium selbst muss man klare Vorstellungen haben!!! > Kriteriumsvalidität INTERNAL induktiv!! > Mischverfahren aus rational und external!!! > abgegrenzter Merkmalsbereich (meist breit z.b. Intelligenz)!!! > sinnvolle Strukturierung finden (Binnenstruktur)!!! > Faktorenanalyse nutzen, um genaues Bild vom Bereich zu!!! bekommen, über Empirie!!! > Konstruktvalidität TYPOLOGISIEREND > man ordnet Personen Typen zu > in der Interpretation relativ einfach - praktisch besonders für Schubkastendenken suboptimal - die Probleme/ Menschen sind meist viel komplexer (unabhängige Messung einzelner Kriterien gibt mehr Auskunft als ein bestehendes Muster) > Verfahren meist sehr eingeschränkte Informationen und empirisch instabil > äusserste Skepsis der wissenschaftlichen Psychologie

> sinnvoll in Konsumentenforschung > Aussage ist Folgende: ein Mensch der A hat hat B so und C so..., man geht von vorgegebenen Mustern aus. > Clusteranalyse Methode der Wahl (Ähnlichkeit innerhalb eines Clusters, begrenzte Zahl starrer Muster von Merkmalen) Itemgenerierung Regelsystem hilfreich rational: klare Arbeitsdefinition, Facetten external: Literaturrecherche AFA! qualitatives Verfahren, Merkmale und Verhaltensweisen durch externe Menschen erfragt und generiert, Prototypikalität erfasst; psychometrisches Problem: Verhaltenshäufigkeiten - Verzerrungen Formulierungsregeln beachten! besonders doppelte Verneinungen vermeiden (auch durch Verkopplung von Frage und Antwort) Fremdworte vermeiden, alle sollen das Gleiche verstehen etc. Antwortmöglichkeiten: freies Format! kein Routineverfahren mehr!!! nicht mehr unabhängig von subjektiver Einschätzung um quantitative!!! Werte zu erhalten!!! unökonomisch!!! für explorative Zusammenhänge sinnvoll standardisierte Formate Ratingskalen streng genommen keine metrische Skala, gute Verankerung (Beschriftung) dann Annäherung möglich nicht weniger Abstufungen, als die, die jemand unterscheiden kann (zw. 5-9 guter Bereich) mittlerer Bereich als Ausweichkategorie (weglassen hat auch Nachteil, verringeert Akzeptanz den Test auszufüllen) Abstände zwischen Stufen sollen mgl. gleich wahrgenommen werden - Annäherung an metrisches Skalenniveau unipolar - Nullpunkt am Skalenanfang (weniger als nie ist schwer zu definieren) bipolar - zwischen Ablehung und Zustimmung (Nullpunkt in der Mitte) Anfälligkeit für soziale Erwünschtheit - hängt meist von der Formulierung der Items ab dichotomes Format hoher Informationsverlust, daher nicht mehr oft benutzt man braucht viel mehr Items, da weniger Informationen - schlechter unterschiedbar MC Leistungstest Distraktoren von großer Bedeutung ein gutes MC Item ist: wenn Leute, die keine Ahnung vom Thema haben, alle Antwortoptionen für gleich möglich erachten

MC in Persönlichkeitstest: Forced Choice Wahl des am zutreffendsten Items Verhinderung von sozialer Erwünschtheit hoher Aufwand technisches Problem: stochastische Unabhängigkeit der Merkmale nicht mehr gegeben (künstlich negative Korrelation erzeugt) durch ipsative Messung (Zwang zur Auswahl), das schließt automatisch die anderen Items aus Itemanalyse nach KTT Recodierung nicht vergessen deskriptive Analyse Verteilungseigenschaften:! Items häufig nicht normalverteilt, egal; wichtiger zu betrachten ist: bimodale Verteilung (2gipflig - das Item könnte unterschiedlich verstanden worden sein) Item-Schwierigkeit:!! kommt aus Leistungstests Anteil richtiger Lösungen an allen Lösungen P = (NR/N) x 100 ----> hoher Schwierigkeitsindex = leichtes Item (denn die meisten können es lösen) mit Zufallskorrektur: PZK = (NR - (NF/m-1))/N x 100 Inangriffnahmekorrektur: interessant bei Speedtests, sonst nicht bei Ratingskalen: Skala transformieren (geringste Wert muss 0 sein) --- häufig Indikator für soz. Erwünschtheit Index 50% bedeutet: maximale Zahl von Unterschiedungsmöglichkeiten (50 die es richtig gelöst haben, sind unterscheidbar von 50 die es falsch gelöst haben) 50x50 Unterscheidungsmöglichkeiten = 2500 - maximiert die Varianz/ Kovariation (Anteil der wechselseitigen Varianz, die aufgeklärt wird) Index 90% = 90 die richtige Lsg haben sind unterscheidbar von 10 die falsche Lösung haben, 90x10 = 900 Varianz ist minimiert (im Vergleich zu vorher) nur was variiert, kann mit was anderem kovariieren... :) korrelative Zusammenhänge Eigentrennschärfe: Korrelation eines Items mit der gesamten Skala part whole Korrektur - Einzelitem selbst raus gerechnet (sonst partielle Eigenkorrelation) wie prototypisch ist das Item für die Skala? hohe Trennschärfe führt zu hoher interner Konsitenz (interne Reliabilität) Cronbachs Alpha Fremdtrennschärfe: Items mit einer anderen Skala korrelieren - ob das Item evtl. zu einer anderen Skala passt Homogenität: Eindimensionalität (genau ein Merkmal wird gemessen) mittlere Item Korrelation MIC (in Spss) - hoher Wert = hohe Homogenität! MIC sagt nicht zwingend etwas über Eindimensionalität des Tests aus ein Test ist dann homogener, wenn alle Itemkorrelationen ähnlich streuen Cronbachs Alpha und MIC - Anhaltspunkte für Homogenität

höhere Itemschwierigkeit = höhere Trennschärfe (nur was variiert, kann mit was anderem kovariieren - Item was nicht streut ist sinnlos) keine Faustregel für Trennschärfe oder Schwierigkeit, Gesamtheit der Kennwerte berücksichtigen --> Entscheidungskriterium : theoretisch beurteilen - was soll der Test messen bei mittlerer Schwierigkeit der Skala - Transformation beachten! PTT siehe Vorlesung FernUni explorative Faktorenanalyse Voraussetzung: Items müssen sinnvoll korrelieren deskriptive Statistik: KMO - soll 0.5 sein für FA Bartlett Test soll signifikant sein Extraktion: aus Variablensatz reduzieren, vereinfachen Hauptkomponentenanalyse: welche Komponeneten stecken dahinter? Hauptachsenanalyse: welches theoretische Modell steckt dahinter, welche Strukturen?!!!! vereinfachen falls Modell spezifizieren - CFA (passt Modell zu Daten?) Ziel des faktorenanalytischen Modells: hinter Daten steckt latente Variable(n) z.b. Hauptachsenanalyse und Maximum Likelihood Hauptkomponentenanalyse: was steckt hinter den Daten?!!!! vereinfachen!!!! Fehler egal!!!! es wird nicht nach dahinter liegendem Modell gefragt Wonach wird beurteilt wieviele Faktoren extrahiert werden? Eigenwert 1 alle Daten, die Wert < 1 haben tragen nichts zur Datenreduktion bei (Variablen standardisiert auf Varianz =1) Sceeplott: Varianzabfall sortiert Items nach Bedeutung Eigenwertabfall wird beurteilt sollten 2 Werte auf gleicher Höhe liegen, müssen beide rein genommen werden, da gleicher Eigenwert Parallelanalyse nach Horn: Simulation, alles zu 0 miteinander korreliert Zufallsberechnung, welche Eigenwerte würden gezogen, wenn keine Korrelation da wäre? sehr zuverlässige Methode Stichprobenabhängigkeit groß

Rotation: wird gemacht, damit Einfachstruktur mehr hervortritt - also Itemzuordnung mgl mit einem Faktor eindeutiger und ein Faktor mit mgl vielen Items beschrieben werden kann Achsen werden verschoben, Items bleiben am Platz orthogonal = rechtwinklig, sehr begrenzt, zusätzliche Einschränkung (muss immer begründet werden) oblique = schiefwinklig, mehrere Möglichkeiten; Nachteil: braucht Korrelation der Faktoren (keine Datenreduktion mehr mgl) Interpretation: Mustermatrix interpretieren - Partialkorrelation (bei Strukturmatrix lässt man Korrelation zw. Item und Faktor zu) Mustermatrix zeigt: hohe Korrelationswerte = hohe inhaltliche Korrelation Markiervariablen = hoch ladende Items auf Faktor CFA siehe Vorlesung FernUni Gütekriterien (Kap 5) für Rezensionen - Grundlagen der Bewertung z.b. Cotan System (berücksichtigt gut dir verschiedenen Anwendungsbereiche und damit verbundene Konsequenzen) Richtlinien: ethische Verhaltensrichtlinien Qualitätsrichtinien Din 33430: berufseignungsdiagnostische Normen/ Was einen guten Test von einem Schlechten Test unterscheidet (Nebengütekriterien fehlen) Qualifikationnen der Anwender Beurteilungskriterien für Tests nichtpsychometrische Gütekriterien: Kosten - Nutzen rechtliche Grundlagen Fairness Zumutbarkeit (distributive und prozedurale Gerechtigkeit) Unverfälschbarkeit (gegen Selbstdarstellung z.b. bei Gutachten, bogus-items sind tauglicher als Items aus sozialen Erwünschtheitsskalen) Einzelfalldiagnostik Einzelwert wird zur Norm betrachtet meist z-standardisierung (lineare Transformation), lediglich Prozentrangskala maßgeblich abweichend davon -Verzerrung, Ränge in der Mitte viel enger Normierungsanforderung: Stichprobengröße (300TN gute Größe), Repräsentativität für Population/Kontext/Zweck, Aktualität Messgenauigkeit: Reliabilität (i.s. KTT) Äquivalenzhypothese, Regressionshypothese (Schätzwert liegt immer näher zur Mitte, kritische Differenzen -immer Rangfolgen) Hauptgütekriterien siehe Vorlesung FernUni