Vergleich der Forschung zweier wissenschaftlicher Journals nach Kriterien der Replizierbarkeit

Größe: px
Ab Seite anzeigen:

Download "Vergleich der Forschung zweier wissenschaftlicher Journals nach Kriterien der Replizierbarkeit"

Transkript

1 Ludwig-Maximilians-Universität München Department Psychologie Lehrstuhl Allgemeine Psychologie II Betreuer: Dr. Felix Schönbrodt Leopoldstraße 13, München Bachelorarbeit Vergleich der Forschung zweier wissenschaftlicher Journals nach Kriterien der Replizierbarkeit Anna Bittner-Stephan Matrikelnummer: Fachsemester Psychologie BSc. Zwillingstraße 4, München Wintersemester 2015/16

2

3 Running Head: REPLIZIERBARKEITSANALYSE ZWEIER JOURNALS Abstract In der vorliegenden Studie wurden vor dem Hintergrund der aktuellen Replikationskrise in der Psychologie zwei sozialpsychologische Journals analysiert und verglichen. Untersucht wurden das Journal of Personality and Social Psychology (JPSP) und das Journal of Applied Social Psychology (JASP). Ziel war es zu sehen, ob sich das Renommee wissenschaftlicher Journals auch in der Qualität der veröffentlichten Forschung niederschlägt. Zum Einsatz kamen die statistischen Programme R-Index, TIVA und p-curve. Beide Journals schnitten insgesamt gut ab, da keine Anzeichen für signifikantes p-hacking gefunden wurde. Allerdings sprechen die se für das Vorliegen eines Publikationsbias beziehungsweise selektiven Berichtens, was die Replizierbarkeit der se senkt. Das JASP schnitt durchweg etwas besser ab als das JPSP. Die se sprechen dafür, einige aktuelle Verfahrensweisen in der psychologischen Forschung zu überdenken, insbesondere den übermäßigen Fokus auf die Veröffentlichung signifikanter se und den Einsatz des Impact Factors als Maß für gute Forschung. Es werden außerdem Möglichkeiten diskutiert, wie man die Replizierbarkeit in der Psychologie in Zukunft erhöhen kann. Keywords: Replizierbarkeit, p-hacking, p-curve, R-Index, TIVA

4

5 REPLIZIERBARKEITSANALYSE ZWEIER JOURNALS Inhaltsverzeichnis Einleitung 1 Der Publikationsbias 1 Questionable Research Practices 3 Der Positive Predictive Value (PPV) 5 Die Forschungsfrage 7 Methode 9 Selektionskriterien 9 Die Programme 11 P-Curve 11 R-Index 13 TIVA 17 se 19 p-curve 19 R-Index 20 TIVA 20 Falsch berichtete p-werte 20 Diskussion 21 Einschränkungen der Studie 24 Einschränkungen der verwendeten Programme 25 P-curve 26 R-Index 27 TIVA 30 Die Programme in Kombination 30 Zusammenfassende Einschätzung 31 Neue Methoden 32 Lösungsansätze 34 Fazit 35 Literaturverzeichnis 36 Anhang 41 Anhang A: Disclosure Tabelle JPSP 41 Anhang B: Disclosure Tabelle JASP 56 Anhang C: Exclosure Tabelle JPSP 71 Anhang D: Exclosure Tabelle JASP 72 Eidesstattliche Erklärung 73

6

7 REPLIZIERBARKEITSANALYSE ZWEIER JOURNALS!1 Einleitung In den letzten Jahren wurden mehrere Projekte begonnen, die es zum Ziel hatten ältere Experimente erneut durchzuführen und (hoffentlich) zu denselben sen zu gelangen (LeBel, Loving, & Campbell, 2015). Ein besonders großes und aktuelles Unterfangen ist hierbei das Reproducibility Project der Open Science Collaboration (OSC, 2015). Ein Team von Wissenschaftlern führte Replikationen von insgesamt 100 Studien durch und gelangte zu ernüchternden sen. Die gefundenen Effektstärken waren nur halb so groß wie in den Originalstudien und 97% signifikanten se in den Originalstudien standen 36% in den Replikationen gegenüber (OSC, 2015). Dabei lag die Power der Replikationen dafür, die Effekte in ihrer ursprünglich angegebenen Größe finden zu können, für jede Studie bei über.90 (OSC, 2015). In Anbetracht dieser extremen Diskrepanzen ist klar, dass, auch wenn einige Replikationen möglicherweise an Abweichungen zum Originalexperiment oder unsauberer Durchführung scheiterten, noch weitere Gründe dahinter stecken müssen (Lindsay, 2015). In Anbetracht dieser Tatsache ist es zunächst wichtig, diese weiteren Faktoren zu identifizieren. Der Publikationsbias Schon lange ist bekannt, dass Zeitschriften am liebsten solche Arbeiten publizieren, die viele signifikante se enthalten (Sterling, Rosenbaum, & Weinkam, 1995). Dieser Publikationsbias kann erklären, wieso auch bei einem Set von Studien mit geringer Power immer signifikante se zu finden sind der Rest wird einfach schon vorher ausgesiebt und gelangt erst gar nicht an die Öffentlichkeit. Tatsächlich liegt die Rate signifikanter se in Veröffentlichungen bei circa 90%, wobei die Power psychologischer Studien im Schnitt eher auf maximal.60 geschätzt wird (Sterling et al., 1995). Eine aktuellere Studie

8 REPLIZIERBARKEITSANALYSE ZWEIER JOURNALS!2 schätzt die Lage mit 96% signifikanten sen bei einer durchschnittlichen Power von. 35 noch deutlich dramatischer ein (Bakker, van Dijk, & Wicherts, 2012). Das würde bedeuten, dass selbst wenn alle untersuchten Hypothesen stimmen würden, nur 35% der se signifikant werden sollten. Ironischerweise sind das fast exakt die Werte die auch beim Reproducibility Project auftauchten: Nur dass dort bei einer Power von >.90 der Anteil signifikanter se bei 36% lag (OSC, 2015). Durch den Publikationsbias sind die veröffentlichten se keine repräsentatives Abbild aktueller Forschung mehr und außerdem ist klar, dass, wenn aus 100 Studien gerade die 35% erfolgreichen publiziert werden, eine exakte Replikation dieser 35 Studien wiederum nur in 35% der Fälle signifikante se erzielt. Dies entspricht rein zahlentechnisch eben auch den sen der OSC. Andererseits kann argumentiert werden, dass durch den Publikationsbias tendenziell eher die höher gepowerten Studien veröffentlicht werden, da sie per Definition öfter signifikante se produzieren. Der Publikationsbias alleine könnte also sogar eher dazu führen, dass Studien mit inadäquater Power gar nicht erst publiziert würden und es somit weniger scheiternde Replikationsversuche gäbe. Um die geringe Replizierbarkeit zu erklären, müssen also noch weitere Erklärungen herangezogen werden. Theoretisch denkbar wäre auch, dass Studien, deren untersuchten Effekt es gar nicht gibt, so oft wiederholt werden, bis sie einmal zufällig signifikant werden, was bei einem Nulleffekt und einem α-niveau von 5% einmal in 20 Versuchen auftreten würde. Würde dann durch den Bias gerade dieser Versuch veröffentlicht und die anderen 19 nie publik werden, würde das erklären, wieso eine Replikation des ses nicht möglich ist (Schimmack, 2014a). Diese Variante ist aber unwahrscheinlich, da kaum ein Forscher über die Ressourcen verfügt seine Experimente so oft zu wiederholen.

9 REPLIZIERBARKEITSANALYSE ZWEIER JOURNALS!3 Questionable Research Practices Die Ursache für die niedrige Replikationsquote liegt wohl eher im Einsatz von Questionable Research Practices (QRPs), die es ermöglichen, quasi immer ein signifikantes Testergebnis zu erzielen. Simmons, Nelson, und Simonsohn (2011) illustrierten das an einer Studie, in der es ihnen gelang, das Alter der Experimentalgruppe signifikant zu senken, indem sie ihnen ein Lied über das Alter vorspielten. Insbesondere die Stichprobengröße nicht vorher festzulegen, sondern solange Probanden in die Analyse aufzunehmen, bis einmal ein signifikantes auftritt, erhöht die Rate falsch-positiver Werte mit 50% extrem (Simmons et al., 2011). Dieses optionale Stoppen und andere Methoden sind unter dem Begriff p-hacking zusammengefasst und haben in den letzten Jahren eine hohe Aufmerksamkeit erfahren. P- hacking meint alle diejenigen Methoden, die angewendet werden können, um einen p-wert künstlich unter die Signifikanzgrenze zu senken. Sind Forschungsdesign und die Methoden der Datenauswertung nicht im Vorhinein verbindlich festgelegt, haben die Forscher im Prinzip unbegrenzte Freiheiten bei der Analyse. John, Loewenstein und Prelec (2012) haben eine umfassende Liste von QRPs veröffentlicht, die sich im Prinzip in zwei Kategorien aufteilen lassen. Zum einen das p-hacking, also die gezielte Einflussnahme auf einzelne p- Werte, damit sie signifikant werden und eine Art Berichtungsbias, also das gezielte Berichten nur signifikanter se. Methoden des p-hackings umfassen (John et al., 2012): 1. Je nachdem, ob das schon signifikant ist, weitere Daten erheben oder nicht. 2. Den p-wert falsch abrunden (z.b..054 als <.05 berichten) (In bereits durchgeführten Analysen trat diese Manipulation vergleichsweise selten auf und ist

10 REPLIZIERBARKEITSANALYSE ZWEIER JOURNALS!4 außerdem bei korrektem Berichten der zugehörigen Teststatistik leicht zu enttarnen.) 3. Daten ausschließen, nachdem (und weil) man gemerkt hat, dass dadurch das in die erwünschte Richtung verändert wird. Der Berichtungsbias wirkt sich ähnlich aus wie der Publikationsbias und entsteht zum Beispiel dadurch, dass nur ausgewählte Experimentalbedingungen und abhängige Variablen in den sen erscheinen (John et al., 2012). Ein weiteres großes Problem ist der oft vernachlässigte Zusammenhang zwischen Effektstärken und Power, der das p-hacking manchmal erst nötig macht. Die durchschnittliche Effektstärke in der Psychologie wird auf d =.50 (Bakker et al., 2012), die in der Sozialsychologie sogar nur auf r = 0.21 (entspricht d = 0.43) geschätzt (Richard, Bond Jr, & Stokes-Zoota, 2003). Wird keine a priori-poweranalyse durchgeführt, ist die Wahrscheinlichkeit hoch, dass das Studiendesign gar nicht geeignet ist diesen Effekt zu finden. Die Stichprobengröße wird also viel zu klein gewählt und das wird nicht signifikant. Drücken die Forscher den p-wert durch QRPs dann doch noch unter die 5%- Grenze führt das zu einer Überschätzung der Effektstärke. Werden nun auf Basis dieser geschätzten Effektstärke Replikationen durchgeführt, sind auch diese nicht in der Lage den eigentlich kleinen Effekt zu finden. Gleichzeitig wird dadurch eine höhere Power vorgetäuscht, da diese bei konstantem α-niveau eine reine Funktion von Stichprobengröße und Effektstärke ist und letztere bereits überschätzt wurde.. Das bedeutet, dass sowohl Power als auch Effektstärken in der Psychologie tendenziell niedriger einzuschätzen sind als angegeben. Der Publikationsbias und die QRPs hängen eng zusammen und verstärken sich gegenseitig. Durch die Belohnung ausschließlich signifikanter se, haben Forscher

11 REPLIZIERBARKEITSANALYSE ZWEIER JOURNALS!5 nicht länger den Erkenntnisgewinn (der genauso durch ein nichtsignifikantes gegeben ist) zum Ziel, sondern möglichst viele p-werte <5% zu produzieren. Gerade bei Studien mit geringer Power, lassen sich diese oft nur durch QRPs erlangen. Durch deren Einsatz ist wiederum gewährleistet, dass immer genug publizierbare se zur Verfügung stehen und es gibt auch auf Seiten der Redaktionen keinen Anlass, etwas an ihrer Haltung zu ändern. Der Positive Predictive Value (PPV) Wie sich die bis hier beschriebenen Faktoren auf die Raten falsch-positiver se in der Psychologie auswirken, kann man sich in der PPV-App von Zehetleitner und Schönbrodt (2015) ausrechnen lassen. Die App berechnet aus dem Anteil der Basisrate wahrer Hypothesen, dem α-niveau, der Power und dem Anteil der p-gehackten Werte den Anteil echt-positiver se an den signifikanten sen. Dieser Wert wird positive predictive value (PPV) genannt (Ioannidis, 2015). Die durchschnittliche statistische Power in der Psychologie wird mit.17,.57 und.83 für kleine, mittlere und starke Effekte respektive angegeben (Rossi, 1990), beziehungsweise bei.35 für eine durchschnittliche Effektgröße von d =.50 (Bakker et al., 2012). Wie viele Studien p-hacking enthalten ist nicht mit Sicherheit zu sagen, allerdings gaben in einer anonymen Befragung allein 58% der Probanden an, selbst schon einmal optionales Stoppen eingesetzt zu haben (John et al., 2012). Die Gesamtrate (inklusive selektiven Berichtens) lag bei 94% (John et al., 2012). In einer Metaanalyse berichteten bis zu 72% der Befragten von Kollegen, die QRPs einsetzten (Fanelli, 2009). Die Rate derjenigen, die zugaben selbst QRPs einzusetzen lag hier mit 33.7% deutlich niedriger (Fanelli, 2009), was sich auch mit sen von Martinson, Anderson, und de Vries (2005)

12 REPLIZIERBARKEITSANALYSE ZWEIER JOURNALS!6 deckt. Bei letzteren lag der Fokus allerdings weniger auf Datenmanipulation als mehr auf Plagiaten und dem Verhalten gegenüber Versuchspersonen und Sponsoren. Das optionale Stoppen wurde beispielsweise gar nicht explizit abgefragt (Martinson et al., 2005). Selbst wenn 94% der Forscher manchmal p-hacking oder andere QRPs anwenden sollten, bedeutet das natürlich nicht, dass auch 94% der p-werte durch diese Maßnahmen entstanden sind. Denn wohl kaum ein Forscher wird jeden einzelnen seiner p-werte mit QRPs beeinflussen - allein schon weil es durch Zufallstreffer nicht nötig ist. Zudem sind eben nicht alle QRPs auch p-hacking, und zum Beispiel das selektive Berichten nur einiger Variablen ist zwar umstritten, führt aber nicht zu falsch-positiven sen. Zu Demonstrationszwecken wird die Prävalenz des P-hackens einzelner Studien hier bei einem Wert von 30% angesetzt. Die Basisrate korrekter Hypothesen kann nur schwer geschätzt werden, wurde aber in der Vergangenheit für die psychologische Forschung insgesamt bei ungefähr 10% angegeben (Ioannidis, 2005). Davon ausgehend, dass die Sozialpsychologie (mit der sich diese Studie beschäftigt) vielleicht nicht die Disziplin mit den kühnsten Hypothesen ist, soll hier von einer großzügigeren Schätzung von 20% ausgegangen werden. Für eine Power von.35 (entsprechend der großzügigeren Schätzung der Effektstärken von Bakker et al., 2012), ein α-nivau von 5%, eine p-hacking-rate von 30% und eine Basisrate von 20% sind 71.7% der statistisch signifikanten (und damit vermutlich veröffentlichten) se falsch (siehe Tabelle 1). Tabelle 1 verdeutlicht, dass auch eine Erhöhung der Power auf zum Beispiel.70 bei Konstanthaltung der anderen Parameter nur eine kleine Verbesserung (auf 62.9% falsch-positive Resultate) herbeiführen kann. Da die Basisrate nicht zu beeinflussen ist (außer durch die Auswahl langweiligerer Hypothesen, was nicht das Ziel sein sollte) und das α-level bei 5% fest etabliert ist, ist die einzige weitere

13 REPLIZIERBARKEITSANALYSE ZWEIER JOURNALS!7 Möglichkeit, relativ mehr echt-positive se zu erzielen, p-hacking zu vermindern. Eine Reduktion des Anteils p-gehackter Studien auf 0% führt zu einer Senkung des Anteils falsch-positiver se auf 36.4% selbst in der geringe-power-bedingung. Tabelle 1 Anteil falsch-positiver se an signifikanten sen in % Power =.35 Power =.70 Mit p-hacking (30%) Ohne p-hacking (0%) Anmerkung. Ausgehend von einer Basisrate wahrer Hypothesen von 20% und einem α- Niveau von.05 Dies sollte verdeutlichen, wie QRPs dazu beitragen, dass es unmöglich ist, die se, die heutzutage in der Psychologie veröffentlicht werden, zu replizieren. Dementsprechend ist es essentiell Methoden zu entwickeln, die p-hacking aufdecken können, sodass in Zukunft die Studien, die es einsetzen, nicht mehr in diesem Maße publiziert werden. Die Forschungsfrage Um die Prüfung der Qualität bisheriger Forschung zu erleichtern, sind bereits verschiedene Programme entwickelt worden, die jeweils auf verschiedene Art und Weise den Publikationsbias und Aspekte des p-hackings aufdecken können. Anhand dieser kann beurteilt werden, wie hoch die Replizierbarkeit eines gegebenen Sets von Studien liegt, ob QRPs zum Einsatz kamen und ob es echte statistische Evidenz für einen bestimmten Effekt enthält. So kann man, ohne eine tatsächliche Replikation durchführen zu müssen, abschätzen, in welchem Bereich sich die Replizierbarkeit wohl bewegt und von welcher Qualität ein ausgewähltes Set an Studien tatsächlich ist.

14 REPLIZIERBARKEITSANALYSE ZWEIER JOURNALS!8 Die Anwendungsmöglichkeiten sind dabei riesig, da Studien zu jeder Thematik, aus jedem Jahrgang und von jedem Umfang analysiert und verglichen werden können. Die einzige Voraussetzung ist, dass Signifikanztests zum Einsatz kamen. Mit dem sogenannten replicability score wurde beispielsweise vor kurzem ein Vergleich der Forschungsqualität an den Sozialpsychologielehrstühlen 100 großer Universitäten weltweit durchgeführt, bei dem 36% unter dem angesetzten Mindestwert von.50 zurückblieben (Schimmack, 2015b). Da der replicability score angibt, bei wie viel Prozent der einbezogenen Studien eine erfolgreiche Replikation zu erwarten ist, sollte man nach Schimmack (2015b, para.2) in solchen Fällen davon ausgehen, dass alle Resultate falsch waren, with less than 50% successful replications, the most rational approach is to treat all results as false because it is unclear which results would replicate and which results would not replicate. Analog dazu soll es in dieser Arbeit nun darum gehen, herauszufinden wie gut oder schlecht zwei psychologische Journals in Sachen Replizierbarkeit aufgestellt sind. Bislang werden wissenschaftliche Journals vor allem anhand ihres Impact Factors bewertet, einem Maß dafür, wie oft die Artikel in anderen Journals aufgegriffen und zitiert werden. Der Impact Factor ist somit ein zwar objektives aber auch rein quantitatives Maß, das mangels anderer ohne viel Aufwand zu bewertender Kriterien, auch gerne zur Abschätzung der Qualität herangezogen wird (Seglen, 1997). In dieser Arbeit werden zwei Journals aus dem Bereich der Sozialspsychologie verglichen. Zunächst das Journal of Personality and Social Psychology (JPSP) mit einem Impact Factor von ( und das Journal of Applied Social Psychology (JASP) mit einem Impact Factor von 0.79 ( journal/ /(issn) ).

15 REPLIZIERBARKEITSANALYSE ZWEIER JOURNALS!9 Ich überprüfe, ob sich das Renommee des JPSP auch in der Replizierbarkeit seiner Studien niederschlägt, also ob das bessere Journal auch tatsächlich die bessere Forschung veröffentlicht. Tatsächlich könnte man, sobald automatisierte Analyse-Methoden zur Verfügung stehen, solch einen Test für jedes Journal durchführen und neben dem Impact Factor eine weitere Kennzahl zur Bewertung guter Forschung ableiten. Methode Für die vorliegende Arbeit wurden Artikel aus den psychologischen Zeitschriften Journal of Personality and Social Psychology (JPSP) und Journal of Applied Social Psychology (JASP) analysiert. Ich habe die zentralen Teststatistiken ausgewählt und in die p- checker App (Version 0.4; Schönbrodt, 2015) eingespeist, die die p-werte erneut exakt berechnet und danach mit Hilfe der Programme p-curve, R-Index und TIVA analysiert. Selektionskriterien Beginnend im Januar 2013 wurde in chronologischer Reihenfolge vorgegangen und in der Regel jeweils eine Teststatistik pro Studie extrahiert. Ausnahmen gab es, wenn mehrere unabhängige Hypothesen für eine Studie formuliert wurden, oder eine disordinale oder hybride Interaktion vorausgesagt wurde. Hier habe ich dann eine Teststatstik pro Hypothese, respektive die beiden Einzeleffekte extrahiert. Im Fall einer ordinalen Interaktion wurde nur der Interaktionsterm aufgenommen. Es kommt recht oft vor, dass die Hypothese eine hybride Interaktion in der Art ist, dass nur in einer Bedingung ein Effekt auftritt und in der anderen gar nicht. War in solchen Fällen der Interaktionsterm angegeben (und die Steigungen gingen in die vorhergesagte Richtung) wurde der Interaktionsterm aufgenommen. Waren nur die Tests für die Haupteffekte gegeben, wurde der als signifikant vorhergesagte Haupteffekt aufgenommen.

16 REPLIZIERBARKEITSANALYSE ZWEIER JOURNALS!10 Wurden mehrere abhängige Variablen für dieselbe Hypothese erhoben, wurde nur die erste aufgenommen, um eine Verfälschung der Statistik durch korrelierte Variablen auszuschließen. Generell habe ich mich bei der Auswahl der Teststatistiken, sowie beim Aufbau der Disclosure Table an der Anleitung von Simonsohn, Nelson, und Simmons (2015) für p-curve orientiert. Einige statistische Verfahren sind für eine Analyse mit p-checker nicht geeignet und wurden somit von dieser Untersuchung ausgeschlossen. Dabei handelte es sich vor allem um Mediationsanalysen (es sei denn es wurde ein Sobel-Test eingesetzt) und explorative Tests, da es nicht möglich ist, einen einzelnen p-wert zur Prüfung der Hypothese herauszufiltern, beziehungsweise es gar keine klare Hypothese gibt. Ebenfalls ausgeschlossen wurden Studien, bei denen der vorher formulierten Hypothese keiner der statistischen Tests eindeutig entsprach, genauso wie Meta-Analysen, da diese keine eigenständigen Studien sind, sondern eine Zusammenfassung bisheriger Forschung. Um eine vergleichbare Stichprobengröße zwischen den beiden Zeitschriften zu gewährleisten, habe ich zunächst 22 Artikel aus dem JPSP bearbeitet. Dies ergab eine Stichprobengröße von n = 112. Anschließend bin ich beim JASP genauso vorgegangen bis dieselbe Anzahl an Teststatistiken erreicht war. Da das innerhalb einer Studie der Fall war und ich diese fairerweise komplett aufnehmen wollte, wurde hier ein Wert mehr extrahiert (n = 113). Die vollständigen Disclosure Tabellen befinden sich in Anhang A und B. Aus ihnen geht hervor, aus welchen Artikeln die Hypothesen entnommen wurden und welche zentrale Teststatistik extrahiert wurde. In Anhang C und D finden sich die Exclosure Tabellen, die diejenigen Artikel enthalten, die nicht analysiert werden konnten.

17 REPLIZIERBARKEITSANALYSE ZWEIER JOURNALS!11 Die Programme P-Curve. P-curve ist ein im Jahr 2014 publiziertes Instrument (Simonsohn, Nelson, & Simmons, 2014a), das es ermöglichen soll p-hacking aufzudecken. Dabei ist p-curve besonders dafür geeignet, diejenigen Studien zu finden, bei denen die p-werte künstlich knapp unter die 5%-Grenze befördert wurden. Die folgenden Beschreibungen basieren auf dem zitierten Artikel. P-Curve liegt die Prämisse zugrunde, dass, wenn ein Effekt tatsächlich existiert, sich die meisten p-werte in einem sehr niedrigen Bereich bewegen sollten: Wenn ein Effekt gar nicht existiert, also die Nullhypothese gilt, ist die p-curve eine horizontale Linie mit y =.20. Der p-wert gibt per Definition die Wahrscheinlichkeit an, dass unter der Nullhypothese ein Wert in einen bestimmten Bereich fällt. Somit fallen genau 1% der Werte in jedes 1%-Intervall und auch zwischen 0 und 5% sind die Werte gleichverteilt. Die p-curve ist also flach. Gibt es einen Effekt, ist immer zu erwarten, dass mehr Werte zwischen 0 und 2,5% liegen, als zwischen 2,5% und 5%. Wie stark ausgeprägt diese Rechtsschiefe ist, hängt von Stichprobengröße und Effektstärke ab. Je größer diese beiden Parameter sind, desto höher ist die Power, also desto wahrscheinlicher ist es den Effekt zu entdecken und desto schiefer ist demzufolge die Verteilung. Vorteilhaft an p-curve ist, dass diese Form (wenn auch in unterschiedlich starker Ausprägung) bei allen Effektstärken auftreten sollte: solange die Power ausreichend ist, wird die Form der p-curve für echte Effekte immer erkennbar rechtsschief sein. Der Fall, der nie eintreten sollte, ist, dass sich die Werte knapp unter der 5%-Grenze häufen und nur wenige in den sehr kleinen Bereichen von 0-2,5% liegen. Das deutet darauf hin, dass p-hacking stattgefunden hat: In der Regel wird beim p-hacking nämlich nur darauf

18 REPLIZIERBARKEITSANALYSE ZWEIER JOURNALS!12 geachtet, dass das gerade signifikant wird, sodass auffällig viele Werte um die 5%- Grenze liegen. Zum Beispiel entsteht dieses Muster durch optionales Stoppen, bei dem mit der Datenanalyse aufgehört wird, sobald einmal die 5%-Marke unterschritten wird. Mithilfe der Online-Implementierung der p-curve (Schönbrodt, 2015) ist es möglich ein Set von Studien auf p-hacking zu überprüfen. Nach Eingabe der Teststatistiken berechnet die App zunächst die exakten p-werte. Anschließend stellt sie die Werte zum einen grafisch dar und führt zum anderen mehrere Tests zur Verteilung der Werte durch: Es wird geprüft, ob die Kurve linkssteil ist, was für statistische Evidenz für echte Effekte spräche, ob sie rechtssteil ist, was für p-hacking spräche und ob sie flacher ist, als es bei einer Power von 33% zu erwarten wäre. Der letzte Test ist wichtig, wenn der Test auf Linkssteilheit nicht signifikant wird (Simonsohn et al., 2014a). Hier wird gegen eine andere Hypothese getestet: Nämlich dass die untersuchten Effekte sehr klein sind. Ein signifikantes, würde eine Ablehnung dieser Hypothese bedeuten und damit, dass die Effekte so winzig sind, dass sie sich kaum von einem Nulleffekt unterscheiden lassen. Hierbei wird sich der Tatsache bedient, dass die Kurve flacher verläuft, je geringer die Power der Studien ist. Denn je unwahrscheinlicher es ist einen Effekt zu finden, desto mehr ähnelt die Verteilung der p-werte unter der H1 der unter der H0. Ist die Kurve flacher, als bei einer ohnehin schon geringen Power von 33% zu erwarten wäre, kann man zwar nicht ausschließen, dass es den Effekt doch gab, aber er ist so klein, dass er mit den verwendeten Stichproben nicht zuverlässig zu finden war. Die ausgewählten Studien enthalten somit keine statistische Evidenz für einen Effekt und es ist denkbar, dass ihre Veröffentlichung rein auf dem Publikationsbias beruht. Da sowohl Power als auch p-curve eine Funktion von Stichprobengröße und Effektstärke sind, wovon Erstere bekannt ist und Letztere von p-curve geschätzt wird,

19 REPLIZIERBARKEITSANALYSE ZWEIER JOURNALS!13 argumentieren Simonsohn, Nelson, und Simmons (2014b), dass sich p-curve auch zur Schätzung der wahren Power heranziehen lässt. Auf p-checker lässt sich das erreichen, indem der zweite Test so modifiziert wird, dass nicht gegen die Steigung bei einer Power von.33 sondern gegen ein beliebigen anderen Wert getestet wird. So kann man eine ungefähre Schätzung für die tatsächliche Power durchführen, indem man diesen Wert schrittweise erhöht. Der Punktschätzer liegt dort, wo der Test zum ersten Mal signifikant wird, da die Kurve ab dort flacher verläuft, als für diese Power zu erwarten wäre. Es kann passieren, dass sowohl Test 1 als auch Test 2 signifikant werden. Das passiert vor allem dann, wenn eine große Anzahl an p-werten analysiert wird: Die enthaltene Evidenz für die getesteten Effekte ist dann zwar geringer, als man bei einer Stichprobe dieser Größe erwarten würde (flache p-curve), aber durch die schiere Masse ist doch ein gewisses Maß an Evidenz vorhanden (linkssteile p-curve). Wird der Test auf Rechtssteilheit signifikant, spricht das dafür, dass p-hacking stattgefunden hat und die Studien keinerlei statistische Evidenz enthalten. Wird keiner der drei Tests signifikant, lässt sich keine eindeutige Aussage über die in den Studien enthaltene Evidenz machen und es sollten zusätzliche p-werte in die Analyse einfließen. R-Index. Der R-Index (kurz für Replicability-Index) ist ein Instrument von Ulrich Schimmack (2014a), das es ermöglichen soll, die Replizierbarkeit von Studien zu quantifizieren, indem es sie auf QRPs überprüft. Die folgenden Beschreibungen basieren auf dem zitierten Artikel. Der Ausgangspunkt ist, dass es im Grunde zwei Wege gibt die statistische Power von Studien zu bestimmen, die zum selben kommen sollten:

20 REPLIZIERBARKEITSANALYSE ZWEIER JOURNALS!14 Zum einen kann man sie anhand der Stichprobengrößen und Effektstärken mathematisch schätzen, zum anderen kann man sie quasi zählen : Der Anteil signifikanter publizierter se sollte der Power der se entsprechen. Identisch sind die beiden Werte nur, wenn repräsentativ und nicht selektiv veröffentlicht wurde und kein p-hacking stattgefunden hat, um überproportional viele signifikante se zu erzielen. Dementsprechend arbeitet der R-Index mit den Unterschieden zwischen den sen dieser zwei Methoden der Powerschätzung. Um den R-Index zu berechnen, wird zunächst für ein Set von Studien die Inflationsrate aus der Differenz zwischen Erfolgsrate und mittlerer beobachteter Power berechnet. Die mittlere Power muss post-hoc geschätzt werden, was umstritten ist. Schimmack (2014a) argumentiert, dass post-hoc Powerschätzungen zwar für einzelne Studien nicht der wahren Power entsprechen, die Schätzungen aber mit zunehmender Anzahl analyisierter Studien präziser werden. Das ist auch ein Grund, weswegen nie einzelne Teststatistiken mit dem R-Index (und auch den anderen Programmen) analysiert werden sollten. Eine sinnvolle Aussage kann nur für ein Set von Studien gemacht werden. Dementsprechend wird zunächst für jede einzelne Studie anhand von Design, Stichprobengröße und beobachteter Effektstärke die Power geschätzt. Aus diesen Werten fließt dann der Median als mittlere beobachtete Power in die Analyse ein. Es wird der Median gewählt, da der Mittelwert kein erwartungstreuer Schätzer ist, sondern die tatsächliche Power bei hohen Werten systematisch unter- und bei niedrigen systematisch überschätzt (Schimmack, 2015a).

21 REPLIZIERBARKEITSANALYSE ZWEIER JOURNALS!15 Die Inflationsrate wird im Anschluss erneut von der mittleren beobachteten Power abgezogen. Es ergibt sich also ein höherer Index je höher die Power ist und je näher sie an der tatsächlichen Erfolgsrate liegt. R-Index = Mittlere beobachtete Power - Inflationsrate = Mittlere beobachtete Power - (Erfolgsrate - Mittlere beobachtete Power) Als Vorteil des R-Index im Vergleich zu ähnlichen Methoden ist hervorzuheben, dass er eine Quantifizierung der Unterschiede ermöglicht, anstatt nur auf Signifikanz zu prüfen: So wird das Problem umgangen, dass auch kleine Unterschiede der beiden Powerschätzungen für große Stichproben signifikant werden würden, wohingegen größere bei kleinen Stichproben unentdeckt blieben. Der R-Index als deskriptives Maß hebt die Unterschiede hervor, ohne Aussagen über deren Signifikanz zu machen. Es wird also sozusagen eine Effektstärke gebildet, die unabhängig von der Stichprobengröße ist, anstatt einen Test durchzuführen, der von ihr abhängt. Durch den zweiten Schritt, in dem die Differenz zwischen geschätzter Power und Inflationsrate berechnet wird, fließt außerdem ein, dass eine hohe Erfolgsrate (bei gleicher Inflationsrate) besser ist, da sie für eine höhere Power spricht. Der sich ergebende R-Index lässt sich als der zu erwartende Anteil erfolgreicher Replikationen bei exakter Replikation der untersuchten Studien interpretieren. Der R-Index macht sich insbesondere die oben bereits erläuterte Problematik des zu oft nicht beachteten Zusammenhangs zwischen Power und Effektstärke zu Nutze. Es sei zum Beispiel ein Effekt mit einer geschätzten Effektstärke von d =.43 zu finden. Eine a-priori Poweranalyse für einen t-test für unabhängige Stichproben mit dem Programm G*Power (Version ; Faul, Erdfelder, Lang, & Buchner, 2014) ergibt eine benötigte Stichprobengröße von n = 104 um eine Power von.70 zu erreichen. Werden jetzt aus Ressourcenmangel nur 40 Probanden erhoben, sinkt die Power auf.38. Findet kein p-hacking

22 REPLIZIERBARKEITSANALYSE ZWEIER JOURNALS!16 statt, sind bei 10 identischen Replikationen also im Schnitt 4 signifikante se zu erwarten. Beispielhafte (fiktive) se sind in Tabelle 2 dargestellt. Tabelle 2 R-Index mit und ohne phacking ohne p-hacking mit p-hacking Teststatistiken p-werte Teststatistiken p-werte t(38) = t(38) = t(38) = t(38) = t(38) = t(38) = t(38) = t(38) = t(38) = t(38) = t(38) = t(38) = t(38) = t(38) = t(38) = t(38) = t(38) = t(38) = t(38) = t(38) = Erfolgsrate Power R-Index Anmerkung. Fett gedruckte Werte sind zwischen den beiden Fällen verschieden. Power meint die posthoc Schätzung. Es ist zu sehen, dass bei ehrlicher Forschung die Diskrepanz zwischen R-Index und tatsächlicher Power sehr klein wird, da die mittlere beobachtete Power fast der Erfolgsrate entspricht. Trotzdem ist der R-Index in diesem Fall nicht sehr hoch, da eben die Power von vornherein gering war. Findet jetzt p-hacking statt, werden zusätzliche Teststatistiken so manipuliert, dass ihr p-wert knapp unter der 5%-Grenze landet. Dadurch steigt die mittlere beobachtete Power natürlich an, aber nicht im selben Maß wie die Erfolgsrate, da keine sehr

23 REPLIZIERBARKEITSANALYSE ZWEIER JOURNALS!17 kleinen p-werte berichtet werden. Dementsprechend wird die Inflationsrate größer und der R- Index ist am Ende ungefähr gleich groß, wie bei der Variante ohne p-hacking. Der R-Index gibt also korrekterweise eine gleich große Wahrscheinlichkeit an den Effekt zu finden, da er im Idealfall das p-hacking herausrechnet und das letztlich wieder auf der identischen wahren Power der Studien basiert. Die Teststatistiken in der Tabelle sind zu Demonstrationszwecken möglichst so gewählt, dass der R-Index perfekt funktioniert. Im Normalfall kommt es, da es sich um Zufallswerte handelt, natürlich zu stärkeren Schwankungen und der R-Index entspricht nicht immer dem exakten Wert der tatsächlichen Power. Der R-Index bewegt sich in der Regel zwischen 0 und 1, wobei selbst in dem Fall, dass in allen Studien die Nullhypothese galt und nur durch QRPs und Zufall signifikante se zustande kamen, der Wert noch bei 0.22 liegt. Dies sollte also in jedem Fall als minimaler Cut-Off Wert angesetzt werden. Konkret kann der Wert des R-Index außerdem als ungefähre Annäherung an die tatsächliche mittlere Power interpretiert werden. TIVA. TIVA ist kurz für Test of Insufficient Variance" und dieses ebenfalls von Ulrich Schimmack (2014b) entwickelte Instrument tut genau das: Testen, ob die Varianz der berichteten p-werte ausreichend ist, um von sen auszugehen, die ohne QRPs entstanden sind. Die folgenden Beschreibungen basieren auf dem zitierten Artikel. TIVA funktioniert, indem zunächst die p-werte in z-werte konvertiert werden. Z-Werte sind per Definition normalverteilt mit einer Varianz von 1. Die entstehende Verteilung liegt dabei um einen Nonzentralitätsparameter, der darstellt mit welcher Power die Studie stattgefunden hat. Bei einer Power von 50% und einem α-niveau von 5% ist beispielsweise zu erwarten, dass genau 50% der p-werte signifikant sind und die andere Hälfte nicht (davon ausgehend, dass die Hypothese stimmt). Der Erwartungswert für den p-wert liegt also genau

24 REPLIZIERBARKEITSANALYSE ZWEIER JOURNALS!18 bei der Grenze von 5%, was einem z-wert von 1.96 entspricht. Dies ist dann der Nonzentralitätsparameter für die Verteilung der z-werte. Je höher die Power, desto höher ist auch der Nonzentralitätsparameter, da kleinere p-werte zu erwarten sind, die wiederum größeren z-werten entsprechen. Bei exakten Replikationen mit gleichen Stichprobengrößen bleibt die Power natürlich dieselbe, die Varianz ist somit genau die der Normalverteilung, also 1. Wird nun ein Set von Studien untersucht, das nicht nur aus exakten Replikationen besteht, haben in der Regel nicht alle diese Studien dieselbe Power. Durch Schwankungen der Stichprobengrößen und Effektstärken kommt es zu einer erhöhten Varianz der Nonzentralitätsparameter und darüber auch zu einer höheren Varianz der p-werte. Wenn allerdings selektiv berichtet wurde, sinkt die Varianz. Bei jeder beliebigen Power (außer 1, was in der Realität nicht vorkommt) sind auch nicht-signifikante se zu erwarten die p-werte sollten dementsprechend streuen. Tun sie das nicht, weil nur signifikante berichtet wurden, sinkt die Varianz ab. Somit schränkt schon der Publikationsbias die beobachtete Varianz ein. Auch p-hacking senkt die Varianz, weil die p-werte sich knapp unter der 5%-Grenze häufen. Da p-hacking, wie bereits erklärt zu einer Überschätzung der Effektstärken führt, spricht eine kleine Varianz auch dafür, dass die Effektstärken der Studien zu hoch geschätzt wurden. Auch TIVA ist in der p-checker App implementiert. Es wird zum einen die deskriptive Varianz berichtet und zum anderen gegen die Nullhypothese, dass die Varianz 1 ist, getestet. Ein signifikantes spricht für die selektive Auswahl signifikanter se, für p-hacking, überhöhte Effektstärkenschätzungen und somit gegen die Replizierbarkeit der se.

25 REPLIZIERBARKEITSANALYSE ZWEIER JOURNALS!19 se p-curve Die se aus p-curve sind in den Grafiken 1 und 2 dargestellt. Deskriptiv ist deutlich zu erkennen, dass beide Kurven einen linkssteilen Verlauf haben. Dieser ist beim JASP noch stärker ausgeprägt als beim JPSP. Grafik 1. Screenshot der p-curve für das JPSP. Grafik 2. Screenshot der p-curve für das JASP. Beim JPSP wurde der Test auf Linkssteilheit signifikant (z = ; p <.001) und keiner der beiden anderen (z = 5.096; p = für Rechtssteilheit und z = ; p =.294 für einen flacheren Verlauf als bei einer Power von.33 zu erwarten wäre). Ein Verändern des Power-Niveaus zeigte, dass die Kurve flacher war, als bei einer Power von.45 zu erwarten wäre (z = ; p =.045).

26 REPLIZIERBARKEITSANALYSE ZWEIER JOURNALS!20 Beim JASP wurde ebenso der Test auf Linkssteilheit signifikant (z = ; p <.001) und keiner der beiden anderen (z = ; p = für Rechtssteilheit und z = 8.875; p = für einen flacheren Verlauf als bei einer Power von.33 zu erwarten wäre). Ein Verändern der Power auf den maximal einstellbaren Wert von.90 ergab, dass die Kurve nicht flacher war, als bei solch einer Power zu erwarten wäre (z = 0.384; p =.649). R-Index Die Werte beim JPSP lagen für die mittlere (Median) beobachtete Power bei.64 und für die Erfolgsrate bei.79. Daraus ergab sich eine Inflationsrate von.15 und ein R-Index von.49. Das JASP hatte eine mittlere beobachtete Power von.69 und eine Erfolgsrate von.78. Daraus ergab sich eine Inflationsrate von.09 und ein R-Index von.60. TIVA Deskriptiv lag die Varianz der p-werte für das JPSP bei.85 und für das JASP bei Statistisch lag keiner der beiden Werte signifikant unter 1 (χ²(111) = 94.37; p =.13 (JPSP) und χ²(112) = ; p = 1.00 (JASP)). Falsch berichtete p-werte Beim JPSP wurden 7 der p-werte falsch und zu niedrig berichtet, was 6.25% der p- Werte entspricht. In drei Fällen wurde nur durch dieses falsche Berichten ein signifikantes erzielt. Beim JASP wurden 14 p-werte falsch und zu niedrig berichtet, was 12.39% der p- Werte entspricht. Bei 12 davon wurde zu großzügig gerundet, der Wert blieb aber (nicht)signifikant. Bei zwei Werten wurde nur durch falsches Berichten des p-wertes ein signifikantes erreicht.

27 REPLIZIERBARKEITSANALYSE ZWEIER JOURNALS!21 Diskussion Beide Zeitschriften schneiden insgesamt positiv ab: Weder mit p-curve noch mit TIVA ließen sich signifikante Hinweise auf p-hacking finden. Einzig beim R-Index ist noch deutlich Luft nach oben und das JPSP bleibt mit einem Wert von.50 merklich hinter dem JASP zurück. Auch insgesamt lag das JASP deskriptiv immer vorne, da es die steilere p- Wert-Verteilung und eine höhere Varianz der p-werte aufwies. Auf den ersten Blick scheint das JPSP trotz deutlich höheren Impact Factors zumindest nach Kriterien der Replizierbarkeit tatsächlich nicht die bessere Forschung zu veröffentlichen. Mehrere Erklärungen sind denkbar. Das JPSP erhält aufgrund seiner Reputation vermutlich die deutlich höhere Zahl an Einsendungen. Dadurch ist es den Herausgebern möglich, sich diejenigen Studien herauszusuchen, die die aufregendsten se zeigen, also nach aktuellem Verständnis viele signifikante Effekte finden. Tatsächlich wurden % der eingesendeten Studien abgelehnt (American Psychological Association, 2013). Die letztendlich veröffentlichten se können, aber müssen nicht durch p-hacking entstanden sein. Beim JASP ist es den Herausgebern gar nicht möglich so selektiv vorzugehen, weswegen sie unter Umständen auch öfter nicht signifikante se publizieren. Das könnte die niedrigere Varianz der p-werte beim JPSP, die TIVA aufdecken konnte, erklären. Tatsächlich aber ist die Erfolgsrate beim JPSP mit.79 im Vergleich zu.78 nicht in relevantem Maß höher als beim JASP, was bedeutet, dass die beiden Journals in ähnlichem Ausmaß signifikante se auswählen. Vielmehr zeigt p-curve, dass gerade im Bereich der signifikanten Werte das JASP eine Verteilung aufweist, die näher an dem Muster entspricht, dass unter der Annahme, dass nur echte Effekte gefunden wurden, zu erwarten ist.

28 REPLIZIERBARKEITSANALYSE ZWEIER JOURNALS!22 Denkbar ist also eher, dass Forscher, die als Ziel haben bei renommierten Zeitschriften,wie dem JPSP zu veröffentlichen, wissen, dass ihnen das nur mit reißerischen sen möglich sein wird. Dementsprechend tritt p-hacking vielleicht gerade in diesem elitären Bereich häufiger auf (LeBel et al., 2013), da es anders gar nicht möglich ist, se zu erzielen, die aufregend genug für das JPSP sind. Auch wenn die Verteilung der p-werte beim JPSP nicht dem Ideal entspricht, ist trotzdem zu betonen, dass laut p-curve über alle Studien hinweg kein p-hacking zum Einsatz kam. Den größten Unterschied zwischen den beiden Journals gab es beim R-Index. Wenn man diesen wie von Schimmack (2014a) vorgeschlagen als Schätzung der tatsächlichen Power interpretiert, liegt diese beim JPSP bei unter.50 und beim JASP bei.60. Beides liegt deutlich über den 35%, die als Durchschnitt für die psychologische Forschung angeführt wurden (Bakker et al., 2012). Trotzdem liegen liegen beide Werte unter der Erfolgsrate der Journals; das heißt die untersuchten Studien haben mehr Effekte gefunden, als statistisch zu erwarten gewesen wäre. Dementsprechend war die Inflationsrate positiv und die Werte für den R-Index liegen unter der mittleren beobachteten Power: Die Power der durchgeführten Studien wurde also zunächst überschätzt. Nicht abschließend zu klären ist, wieviel hierbei dem Publikationsbias geschuldet ist und wie viel auf p-hacking zurückzuführen ist: Beide erhöhen die mittlere beobachtete Power. Der Publikationsbias darüber, dass nur signifikante Teststatistiken und damit solche, bei denen die Power höher geschätzt wird, in die Analyse eingehen; p-hacking sorgt dafür, dass es mehr von diesen gibt. Sie erhöhen außerdem die Erfolgsrate, in der Regel aber stärker als die Power. Somit kommt es durch beide Praktiken zu einer größeren Inflationsrate und einem kleineren R-Index.

29 REPLIZIERBARKEITSANALYSE ZWEIER JOURNALS!23 Wenn man p-curve zur Powerschätzung heranzieht, ist die Diskrepanz noch deutlich größer, wobei diese Werte mit Vorsicht zu betrachten sind: Die tatsächliche Power wird wohl auch beim JASP deutlich unter den geschätzten.90 liegen. Die richtige Interpretation lautet eher, dass kein statistisch signifikanter Unterschied zu der, bei einer Power von.90 zu erwartenden, Verteilung vorliegt. Es gibt also wahrscheinlich einen Unterschied zwischen der tatsächlichen Power und.90, aber p-curve kann ihn nicht identifizieren - was der dafür zu niedrigen Power von p-curve selbst geschuldet sein könnte. Für die Powerschätzung beim JPSP decken sich der R-Index mit.49 und p-curve mit.45 dafür recht gut. Auch bei TIVA liegt das JASP deskriptiv vorne, da seine p-werte die größere Varianz aufweisen. Ob der Unterschied zwischen den Varianzen von JASP und JPSP signifikant ist, wäre zwar interessant, ist aber nicht zuverlässig festzustellen. Es gibt nur je eine Varianzschätzung pro Journal, die Stichprobengröße läge also bei n = 2 und ein statistischer Mittelwertsvergleich erübrigt sich. Es bleibt festzustellen, dass beide Journals den Test bestanden haben, da die Varianz ihrer p-werte nicht signifikant unter 1 liegt. Negativ fällt der Anteil falsch gerundeter p-werte von gut 6% beim JPSP, beziehungsweise 12% beim JASP auf. Insbesondere, da in einigen Fällen so ein nicht signifikantes in ein signifikantes verwandelt wurde. Die höhere Rate falsch berichteter p-werte beim JASP wird etwas dadurch relativiert, dass hier seltener ein Unterschreiten des α-niveaus die Folge war. Eine ohnehin gegebene Teststatistik nachzurechnen, sollte leicht zu erledigen sein, sodass zumindest dieses Problem vermieden werden könnte. Trotzdem ist positiv hervorzuheben, dass die Raten deutlich unter zuvor gefundenen durchschnittlichen Raten von 18% liegen (Bakker & Wicherts, 2011).

30 REPLIZIERBARKEITSANALYSE ZWEIER JOURNALS!24 Einschränkungen der Studie Bei der Interpretation der se ist zu berücksichtigen, dass sie vor allem im Hinblick auf den Vergleich der beiden Zeitschriften sinnvoll sind, da für beide dieselben Auswahlkriterien im Rahmen der Analyse galten. Außerhalb dessen ist es schwierig globale Aussagen zu treffen, da es einige methodologische Einschränkungen gab. So war es zum Beispiel nicht möglich Mediationstests einfließen zu lassen, da in der Regel keine einzelne zentrale Teststatistik zu identifizieren war. Dies ist unproblematisch, wenn die se durchweg konsistent gut oder schlecht sind, wenn aber tatsächlich Mediationsstudien besonders anfällig für p-hacking sind oder im Gegenteil besonders sorgfältig durchgeführt werden, verfälscht ihr Auslassen die se, wenn globale Aussagen über die im Journal veröffentlichte Forschung gemacht werden sollen. Außerdem kann die p-checker App nicht mit Teststatistiken der Form β = arbeiten, wodurch ein Teil der Daten verloren geht. In manchen Fällen war die Auswahl der geeigneten Teststatistik bei Interaktionshypothesen schwierig: Wird in einer Bedingung ein Effekt vorhergesagt und in der anderen ein Nulleffekt, handelt es sich dann nur um eine stark ausgeprägte ordinale Interaktion (bei der der Interaktionsterm zu wählen wäre) oder schon um eine hybride Interaktion (bei der die beiden Einzeleffekte zu wählen wären)? Soweit angegeben, habe ich, Simonsohn et al. (2015)s Vorgehen folgend, den aufgenommen, war jedoch überhaupt nur der Einzeleffekt mit Teststatistik gegeben, bin ich davon ausgegangen, dass tatsächlich ein Nulleffekt erwartet wurde und habe nur den als signifikant vorhergesagten Einzeleffekt aufgenommen (zum Beispiel bei Bélanger, Lafreniere, Vallerand, & Kruglanski, 2013a). Das kam allerdings ohnehin so selten vor, dass es kaum Einfluss auf das Gesamtergebnis haben sollte.

31 REPLIZIERBARKEITSANALYSE ZWEIER JOURNALS!25 Ein weiteres Manko ist, dass Ausgaben aus dem Jahr 2013 analysiert wurden, in dem die Replikationskrise gerade erst begann Fahrt aufzunehmen. Es ist also nicht auszuschließen, dass von Seiten der Magazine bereits auf die neuen Erkenntnisse reagiert wurde und sie inzwischen (noch) besser abschneiden würden. Simonsohn et al. (2015) schlagen in ihrer Vorstellung der p-curve vor, zusätzlich noch einen sogenannten Robustness - Test durchzuführen, um die se zu validieren. Hier werden dann die Tests, die zuvor ausgeschlossen wurden, teils aufgenommen. Zum Beispiel kann hier bei mehreren abhängigen Variablen die zweite analysiert werden, oder bei mehreren Experimentalgruppen und einer Kontrollgruppe, der Vergleich von Experimentalgruppe 2 und Kontrollgruppe betrachtet werden. Es kann dann abgeglichen werden, inwieweit die se aus dem Robustness-Test der Originalanalyse entsprechen und ob unter Umständen die Auswahl bestimmter einzelner Teststatistiken einen starken Einfluss auf das Endergebnis hatte. Da dies von Hand durchgeführt einen sehr großen Zusatzaufwand darstellt, wurde hier darauf verzichtet. Sinn der Analyse ist außerdem ein Vergleich der beiden Journals: tatsächlich wurden aber nur Signifikanztests innerhalb der beiden Journals durchgeführt, sodass im Grunde nur ein deskriptiver Vergleich stattgefunden hat. Interessant wäre es beispielsweise gewesen herauszufinden, ob der R-Index des JASP signifikant über dem des JPSP liegt. Dafür allerdings hätte man jeweils mehrere Indices berechnen müssen, um eine adäquate Stichprobengröße zu erhalten. Einschränkungen der verwendeten Programme Allen Teilen der App ist gemeinsam, dass sie naturgemäß nur mit den Werten arbeiten können, die angegeben werden. Ein Problem in der Forschung ist aber gerade das selektive

32 REPLIZIERBARKEITSANALYSE ZWEIER JOURNALS!26 Berichten von Teststatistiken. Es kam in einigen Fällen vor, dass zwar viele Teststatistiken gegeben waren, aber nicht die, die exakt die aufgestellte Hypothese prüfte. Zum Beispiel untersuchten Bélanger, Lafrenière, Vallerand, und Kruglanski (2013b) den Unterschied zwischen zwei Experimentalgruppen. Die tabelle gab aber jeweils nur die Tests für Unterschiede zwischen je einer Experimentalgruppe und der Kontrollgruppe an. Wird nun eine dieser alternativen Teststatistik gewählt, die unter Umständen einfach angegeben wurde, weil sie das schönere (= signifikant mit kleinem p-wert) zeigt, wird die Analyse in eine positive Richtung verfälscht. Lässt man diese Fälle ganz heraus, geht ebenfalls etwas verloren, da nicht mehr einfließt, dass auffälligerweise Werte nicht angegeben wurden. P-curve und TIVA unterliegen außerdem denselben Einschränkungen, wie jedes andere statistische Instrument, das mit Signifikanztests arbeitet: Bei kleinen Effekten ist ihre Power unter Umständen nicht ausreichend, um diese auch zu finden. Das kann umgangen werden, indem man bei p-curve die z-werte als kontinuierliches Maß betrachtet, anstatt nur auf den p- Wert zu achten. P-curve. P-curve bezieht nur die Teststatistiken, die zu signifikanten sen führen, in die Analyse ein. Diese machen zwar über 75%, aber bei weitem nicht alle se aus. Ein Publikationsbias lässt sich nur entdecken, wenn fast ausschließlich Nulleffekte, deren Teststatistiken zufällig signifikant wurden, veröffentlicht wurden und in die Analyse eingehen. Daraus ergäbe sich eine flache Kurve. Wenn aber gleichzeitig auch viele echt-signifikante se einfließen, kann p-curve nicht erkennen, dass nichtsignifikante fehlen. P-curve findet außerdem nur solches p-hacking, bei dem gehäuft ein einzelner Wert so manipuliert wurde, dass er unter die 5%-Grenze fällt. Die Annahme dahinter ist, dass

33 REPLIZIERBARKEITSANALYSE ZWEIER JOURNALS!27 Forscher so wenig hacken wollen wie möglich und nicht weiter an den Werten schrauben, wenn das signifikant wird. Das führt allerdings dazu, dass p-curve gerade besonders dreistes p-hacking belohnt: Hört man nämlich nicht bei einem Wert von zum Beispiel.049 auf, sondern p-hackt weiter, bis sich der p-wert im Bereich unter.01 bewegt, führt das zu einem besseren bei der Analyse mit p-curve. Inwieweit das stattfindet ist also mit diesem Instrument nicht festzustellen. Von Vorteil bei p-curve ist, dass so QRPs gefunden werden, die über selektives Berichten beziehungsweise den Publikationsbias hinausgehen. Diese werden von vornherein außen vor gelassen, da gar nicht mit einbezogen wird, welcher Anteil der Werte signifikant war. P-curve geht somit davon aus, dass es ohnehin einen Publikationsbias gibt und überprüft,ob die danach veröffentlichten Werte mit lauteren Methoden zustande kamen. Eine weitere Einschränkung der Tests, die p-curve anwendet, ist, dass sie nur lineare Trends prüfen. Denkbar wäre aber auch ein parabelähnlicher Verlauf mit vielen Werte zwischen 0 und.01, ebenso vielen zwischen.04 und.05 und wenigen dazwischen. Dieses Muster spräche für viele echte Effekte und viel p-hacking, anschlagen würde aber keiner der Tests dafür, da die Beschreibung dieser Kurve durch eine Gerade horizontal verlaufen würde. Es ist deswegen wichtig, immer auch den grafischen Verlauf der p-curve anzuschauen, bevor die Signifikanztests interpretiert werden. R-Index. Beim R-Index ist die Problematik ähnlich wie bei p-curve, in dem Sinne, dass er nur schlechtes p-hacking findet, gutes aber nicht: Der R-Index beruht darauf, dass die Power zwar überschätzt wird, aber immer noch hinter der Erfolgsrate zurückbleibt. Werden nun aber durch p-hacking signifikante se im kleinen p-wert Bereich erzielt, berechnet das Programm daraus höhere Effektstärken und somit höhere Powerwerte. Dadurch wird auf einmal der R-Index besser, obwohl sogar dreisteres p-hacking stattgefunden hat.

Methodenlehre. Vorlesung 13. Prof. Dr. Björn Rasch, Cognitive Biopsychology and Methods University of Fribourg

Methodenlehre. Vorlesung 13. Prof. Dr. Björn Rasch, Cognitive Biopsychology and Methods University of Fribourg Methodenlehre Vorlesung 13 Prof. Dr., Cognitive Biopsychology and Methods University of Fribourg 1 19.05.15 Methodenlehre II Woche Datum Thema 1 FQ Einführung, Verteilung der Termine 1 18.2.15 Psychologie

Mehr

Methodenlehre. Vorlesung 12. Prof. Dr. Björn Rasch, Cognitive Biopsychology and Methods University of Fribourg

Methodenlehre. Vorlesung 12. Prof. Dr. Björn Rasch, Cognitive Biopsychology and Methods University of Fribourg Methodenlehre Vorlesung 12 Prof. Dr., Cognitive Biopsychology and Methods University of Fribourg 1 Methodenlehre I Woche Datum Thema 1 FQ Einführung, Verteilung der Termine 1 25.9.13 Psychologie als Wissenschaft

Mehr

Methodenlehre. Vorlesung 12. Prof. Dr. Björn Rasch, Cognitive Biopsychology and Methods University of Fribourg

Methodenlehre. Vorlesung 12. Prof. Dr. Björn Rasch, Cognitive Biopsychology and Methods University of Fribourg Methodenlehre Vorlesung 12 Prof. Dr., Cognitive Biopsychology and Methods University of Fribourg 1 Methodenlehre II Woche Datum Thema 1 FQ Einführung, Verteilung der Termine 1 18.2.15 Psychologie als Wissenschaft

Mehr

Methodenlehre. Vorlesung 11. Prof. Dr. Björn Rasch, Cognitive Biopsychology and Methods University of Fribourg

Methodenlehre. Vorlesung 11. Prof. Dr. Björn Rasch, Cognitive Biopsychology and Methods University of Fribourg Methodenlehre Vorlesung 11 Prof. Dr., Cognitive Biopsychology and Methods University of Fribourg 1 03.12.13 Methodenlehre I Woche Datum Thema 1 FQ Einführung, Verteilung der Termine 1 25.9.13 Psychologie

Mehr

8. Konfidenzintervalle und Hypothesentests

8. Konfidenzintervalle und Hypothesentests 8. Konfidenzintervalle und Hypothesentests Dr. Antje Kiesel Institut für Angewandte Mathematik WS 2011/2012 Beispiel. Sie wollen den durchschnittlichen Fruchtsaftgehalt eines bestimmten Orangennektars

Mehr

Parametrische vs. Non-Parametrische Testverfahren

Parametrische vs. Non-Parametrische Testverfahren Parametrische vs. Non-Parametrische Testverfahren Parametrische Verfahren haben die Besonderheit, dass sie auf Annahmen zur Verteilung der Messwerte in der Population beruhen: die Messwerte sollten einer

Mehr

Statistik Testverfahren. Heinz Holling Günther Gediga. Bachelorstudium Psychologie. hogrefe.de

Statistik Testverfahren. Heinz Holling Günther Gediga. Bachelorstudium Psychologie. hogrefe.de rbu leh ch s plu psych Heinz Holling Günther Gediga hogrefe.de Bachelorstudium Psychologie Statistik Testverfahren 18 Kapitel 2 i.i.d.-annahme dem unabhängig. Es gilt also die i.i.d.-annahme (i.i.d = independent

Mehr

Kapitel 9: Verfahren für Nominaldaten

Kapitel 9: Verfahren für Nominaldaten Kapitel 9: Verfahren für Nominaldaten Eindimensionaler Chi²-Test 1 Zweidimensionaler und Vierfelder Chi²-Test 5 Literatur 6 Eindimensionaler Chi²-Test Berechnen der Effektgröße w² Die empirische Effektgröße

Mehr

Signifikanzprüfung. Peter Wilhelm Herbstsemester 2016

Signifikanzprüfung. Peter Wilhelm Herbstsemester 2016 Signifikanzprüfung Peter Wilhelm Herbstsemester 2016 1.) Auswahl des passenden Tests 2.) Begründete Festlegung des Alpha-Fehlers nach Abschätzung der Power 3.) Überprüfung der Voraussetzungen 4.) Durchführung

Mehr

Statistik III. Methodologie der Psychologie

Statistik III. Methodologie der Psychologie Statistik III Methodologie der Psychologie Thomas Schmidt & Lena Frank Wintersemester 2003/2004 Georg-Elias-Müller-Institut für Psychologie Uni Göttingen Literatur: Glantz, S.A. (2002). Primer of Biostatistics.

Mehr

Statistisches Testen

Statistisches Testen Statistisches Testen Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Differenzen Anteilswert Chi-Quadrat Tests Gleichheit von Varianzen Prinzip des Statistischen Tests Konfidenzintervall

Mehr

Marcel Dettling. GdM 2: LinAlg & Statistik FS 2017 Woche 12. Winterthur, 17. Mai Institut für Datenanalyse und Prozessdesign

Marcel Dettling. GdM 2: LinAlg & Statistik FS 2017 Woche 12. Winterthur, 17. Mai Institut für Datenanalyse und Prozessdesign Marcel Dettling Institut für Datenanalyse und Prozessdesign Zürcher Hochschule für Angewandte Wissenschaften marcel.dettling@zhaw.ch http://stat.ethz.ch/~dettling Winterthur, 17. Mai 2017 1 Verteilung

Mehr

Aufgaben zu Kapitel 5:

Aufgaben zu Kapitel 5: Aufgaben zu Kapitel 5: Aufgabe 1: Ein Wissenschaftler untersucht, in wie weit die Reaktionszeit auf bestimmte Stimuli durch finanzielle Belohnung zu steigern ist. Er möchte vier Bedingungen vergleichen:

Mehr

Wie liest man Konfidenzintervalle? Teil I. Premiu m

Wie liest man Konfidenzintervalle? Teil I. Premiu m Wie liest man Konfidenzintervalle? Teil I Premiu m Was sind Konfidenzintervalle? Ein Konfidenzintervall (KI) ist ein Maß für die Unsicherheit bezüglich einer Schätzung eines Effekts. Es ist ein Intervall

Mehr

Methodenlehre. Vorlesung 10. Prof. Dr. Björn Rasch, Cognitive Biopsychology and Methods University of Fribourg

Methodenlehre. Vorlesung 10. Prof. Dr. Björn Rasch, Cognitive Biopsychology and Methods University of Fribourg Methodenlehre Vorlesung 10 Prof. Dr., Cognitive Biopsychology and Methods University of Fribourg 1 Methodenlehre I Woche Datum Thema 1 FQ Einführung, Verteilung der Termine 1 25.9.13 Psychologie als Wissenschaft

Mehr

4.1. Nullhypothese, Gegenhypothese und Entscheidung

4.1. Nullhypothese, Gegenhypothese und Entscheidung rof. Dr. Roland Füss Statistik II SS 8 4. Testtheorie 4.. Nullhypothese, Gegenhypothese und Entscheidung ypothesen Annahmen über die Verteilung oder über einzelne arameter der Verteilung eines Merkmals

Mehr

Statistische Tests (Signifikanztests)

Statistische Tests (Signifikanztests) Statistische Tests (Signifikanztests) [testing statistical hypothesis] Prüfen und Bewerten von Hypothesen (Annahmen, Vermutungen) über die Verteilungen von Merkmalen in einer Grundgesamtheit (Population)

Mehr

Signifikanzprüfung. Peter Wilhelm Herbstsemester 2014

Signifikanzprüfung. Peter Wilhelm Herbstsemester 2014 Signifikanzprüfung Peter Wilhelm Herbstsemester 2014 1.) Auswahl des passenden Tests 2.) Begründete Festlegung des Alpha- Fehlers nach Abschätzung der Power 3.) Überprüfung der Voraussetzungen 4.) Durchführung

Mehr

3) Testvariable: T = X µ 0

3) Testvariable: T = X µ 0 Beispiel 4.9: In einem Molkereibetrieb werden Joghurtbecher abgefüllt. Der Sollwert für die Füllmenge dieser Joghurtbecher beträgt 50 g. Aus der laufenden Produktion wurde eine Stichprobe von 5 Joghurtbechern

Mehr

Einfaktorielle Varianzanalyse

Einfaktorielle Varianzanalyse Kapitel 16 Einfaktorielle Varianzanalyse Im Zweistichprobenproblem vergleichen wir zwei Verfahren miteinander. Nun wollen wir mehr als zwei Verfahren betrachten, wobei wir unverbunden vorgehen. Beispiel

Mehr

Statistik III Regressionsanalyse, Varianzanalyse und Verfahren bei Messwiederholung mit SPSS

Statistik III Regressionsanalyse, Varianzanalyse und Verfahren bei Messwiederholung mit SPSS Statistik III Regressionsanalyse, Varianzanalyse und Verfahren bei Messwiederholung mit SPSS Verena Hofmann Dr. phil. des. Departement für Sonderpädagogik Universität Freiburg Petrus-Kanisius-Gasse 21

Mehr

Statistik II. IV. Hypothesentests. Martin Huber

Statistik II. IV. Hypothesentests. Martin Huber Statistik II IV. Hypothesentests Martin Huber 1 / 41 Übersicht Struktur eines Hypothesentests Stichprobenverteilung t-test: Einzelner-Parameter-Test F-Test: Multiple lineare Restriktionen 2 / 41 Struktur

Mehr

Kapitel 5: Einfaktorielle Varianzanalyse

Kapitel 5: Einfaktorielle Varianzanalyse Kapitel 5: Einfaktorielle Varianzanalyse Berechnen der Teststärke a priori bzw. Stichprobenumfangsplanung 1 Teststärkebestimmung a posteriori Berechnen der Effektgröße f aus empirischen Daten und Bestimmung

Mehr

Lösungen zu den Übungsaufgaben in Kapitel 10

Lösungen zu den Übungsaufgaben in Kapitel 10 Lösungen zu den Übungsaufgaben in Kapitel 10 (1) In einer Stichprobe mit n = 10 Personen werden für X folgende Werte beobachtet: {9; 96; 96; 106; 11; 114; 114; 118; 13; 14}. Sie gehen davon aus, dass Mittelwert

Mehr

Aufgaben zu Kapitel 3

Aufgaben zu Kapitel 3 Aufgaben zu Kapitel 3 Aufgabe 1 a) Berechnen Sie einen t-test für unabhängige Stichproben für den Vergleich der beiden Verarbeitungsgruppen strukturell und emotional für die abhängige Variable neutrale

Mehr

Aufgaben zu Kapitel 8

Aufgaben zu Kapitel 8 Aufgaben zu Kapitel 8 Aufgabe 1 a) Berechnen Sie einen U-Test für das in Kapitel 8.1 besprochene Beispiel mit verbundenen Rängen. Die entsprechende Testvariable punkte2 finden Sie im Datensatz Rangdaten.sav.

Mehr

Lösungen zu Janssen/Laatz, Statistische Datenanalyse mit SPSS 1. LÖSUNG 7 a)

Lösungen zu Janssen/Laatz, Statistische Datenanalyse mit SPSS 1. LÖSUNG 7 a) LÖSUNG 7 a) Lösungen zu Janssen/Laatz, Statistische Datenanalyse mit SPSS 1 Aufrufen der Varianzanalyse: "Analysieren", "Mittelwerte vergleichen", "Einfaktorielle ANOVA ", "Abhängige Variablen:" TVHOURS;

Mehr

1 Grundlagen der Wahrscheinlichkeitsrechnung Wahrscheinlichkeitsräume. Ein erster mathematischer Blick auf Zufallsexperimente...

1 Grundlagen der Wahrscheinlichkeitsrechnung Wahrscheinlichkeitsräume. Ein erster mathematischer Blick auf Zufallsexperimente... Inhaltsverzeichnis 1 Grundlagen der Wahrscheinlichkeitsrechnung 1 1.1 Wahrscheinlichkeitsräume Ein erster mathematischer Blick auf Zufallsexperimente.......... 1 1.1.1 Wahrscheinlichkeit, Ergebnisraum,

Mehr

Kapitel 5: Einfaktorielle Varianzanalyse

Kapitel 5: Einfaktorielle Varianzanalyse Rasch, Friese, Hofmann & Naumann (010). Quantitative Methoden. Band (3. Auflage). Heidelberg: Springer. Kapitel 5: Einfaktorielle Varianzanalyse Berechnen der Teststärke a priori bzw. Stichprobenumfangsplanung

Mehr

11. Sitzung Auswertungsstrategien; Darstellung von Forschungsergebnissen

11. Sitzung Auswertungsstrategien; Darstellung von Forschungsergebnissen 11. Sitzung Auswertungsstrategien; Darstellung von Forschungsergebnissen 1 Gliederung der Vorlesung 1. Probleme der Auswertung bei quantitativem Vorgehen 2. Probleme der Auswertung bei qualitativem Vorgehen

Mehr

Hypothesen: Fehler 1. und 2. Art, Power eines statistischen Tests

Hypothesen: Fehler 1. und 2. Art, Power eines statistischen Tests ue biostatistik: hypothesen, fehler 1. und. art, power 1/8 h. lettner / physik Hypothesen: Fehler 1. und. Art, Power eines statistischen Tests Die äußerst wichtige Tabelle über die Zusammenhänge zwischen

Mehr

Empirische Wirtschaftsforschung

Empirische Wirtschaftsforschung Empirische Wirtschaftsforschung Prof. Dr. Bernd Süßmuth Universität Leipzig Institut für Empirische Wirtschaftsforschung Volkswirtschaftslehre, insbesondere Ökonometrie 1 4. Basiskonzepte der induktiven

Mehr

Auswertung und Lösung

Auswertung und Lösung Dieses Quiz soll Ihnen helfen, Kapitel 4.7 und 4.8 besser zu verstehen. Auswertung und Lösung Abgaben: 71 / 265 Maximal erreichte Punktzahl: 8 Minimal erreichte Punktzahl: 0 Durchschnitt: 5.65 Frage 1

Mehr

Kapitel 5: Einfaktorielle Varianzanalyse

Kapitel 5: Einfaktorielle Varianzanalyse Rasch, Friese, Hofmann & Naumann (006). Quantitative Methoden. Band (. Auflage). Heidelberg: Springer. Kapitel 5: Einfaktorielle Varianzanalyse Berechnen der Teststärke a priori bzw. Stichprobenumfangsplanung

Mehr

Statistische Überlegungen: Eine kleine Einführung in das 1 x 1

Statistische Überlegungen: Eine kleine Einführung in das 1 x 1 Statistische Überlegungen: Eine kleine Einführung in das 1 x 1 PD Dr. Thomas Friedl Klinik für Frauenheilkunde und Geburtshilfe, Universitätsklinikum Ulm München, 23.11.2012 Inhaltsübersicht Allgemeine

Mehr

Irrtümer durch Signifikanzstatistik

Irrtümer durch Signifikanzstatistik Irrtümer durch Signifikanzstatistik Eltern von Töchtern haben ein höheres Scheidungsrisiko als Eltern von Söhnen (Morgan et al. 1988) Do pretty women inspire men to discount the future? (Wilson and Daley

Mehr

Klausur zu Methoden der Statistik II (mit Kurzlösung) Sommersemester Aufgabe 1

Klausur zu Methoden der Statistik II (mit Kurzlösung) Sommersemester Aufgabe 1 Lehrstuhl für Statistik und Ökonometrie der Otto-Friedrich-Universität Bamberg Prof. Dr. Susanne Rässler Klausur zu Methoden der Statistik II (mit Kurzlösung) Sommersemester 2013 Aufgabe 1 In einer Urne

Mehr

Statistik II. Regressionsrechnung+ Regressionsanalyse. Statistik II

Statistik II. Regressionsrechnung+ Regressionsanalyse. Statistik II Statistik II Regressionsrechnung+ Regressionsanalyse Statistik II - 16.06.2006 1 Regressionsrechnung Nichtlineare Ansätze In einigen Situation könnte man einen nichtlinearen Zusammenhang vermuten. Bekannte

Mehr

Wahrscheinlichkeit 1-α: richtige Entscheidung - wahrer Sachverhalt stimmt mit Testergebnis überein. Wahrscheinlichkeit α: falsche Entscheidung -

Wahrscheinlichkeit 1-α: richtige Entscheidung - wahrer Sachverhalt stimmt mit Testergebnis überein. Wahrscheinlichkeit α: falsche Entscheidung - wahrer Sachverhalt: Palette ist gut Palette ist schlecht Entscheidung des Tests: T K; Annehmen von H0 ("gute Palette") positive T > K; Ablehnen von H0 ("schlechte Palette") negative Wahrscheinlichkeit

Mehr

Pflichtlektüre: Kapitel 12 - Signifikanztest Wie funktioniert ein Signifikanztest? Vorgehensweise nach R. A. Fisher.

Pflichtlektüre: Kapitel 12 - Signifikanztest Wie funktioniert ein Signifikanztest? Vorgehensweise nach R. A. Fisher. Pflichtlektüre: Kapitel 12 - Signifikanztest Überblick Signifikanztest Populationsparameter Ein Verfahren zur Überprüfung von Hypothesen, Grundlage bilden auch hier Stichprobenverteilungen, das Ergebnis

Mehr

Auswertung und Lösung

Auswertung und Lösung Dieses Quiz soll Ihnen helfen, Kapitel 4.6 und 4.7 besser zu verstehen. Auswertung und Lösung Abgaben: 59 / 265 Maximal erreichte Punktzahl: 8 Minimal erreichte Punktzahl: 0 Durchschnitt: 4.78 1 Frage

Mehr

Statistik II: Signifikanztests /1

Statistik II: Signifikanztests /1 Medien Institut : Signifikanztests /1 Dr. Andreas Vlašić Medien Institut (0621) 52 67 44 vlasic@medien-institut.de Gliederung 1. Noch einmal: Grundlagen des Signifikanztests 2. Der chi 2 -Test 3. Der t-test

Mehr

Sommersemester Marktforschung

Sommersemester Marktforschung Dipl.-Kfm. Sascha Steinmann Universität Siegen Lehrstuhl für Marketing steinmann@marketing.uni-siegen.de Sommersemester 2010 Marktforschung Übungsaufgaben zu den Themen 3-6 mit Lösungsskizzen Aufgabe 1:

Mehr

Grundlagen der schließenden Statistik

Grundlagen der schließenden Statistik Grundlagen der schließenden Statistik Schätzer, Konfidenzintervalle und Tests 1 46 Motivation Daten erhoben (Umfrage, Messwerte) Problem: Bei Wiederholung des Experiments wird man andere Beobachtungen

Mehr

Vorlesung: Statistik II für Wirtschaftswissenschaft

Vorlesung: Statistik II für Wirtschaftswissenschaft Vorlesung: Statistik II für Wirtschaftswissenschaft Prof. Dr. Helmut Küchenhoff Institut für Statistik, LMU München Sommersemester 2017 6 Genzwertsätze Einführung 1 Wahrscheinlichkeit: Definition und Interpretation

Mehr

3.Wiederholung: Toleranzbereiche Für EX Geg:

3.Wiederholung: Toleranzbereiche Für EX Geg: 3.Wiederholung: Toleranzbereiche Für EX Geg: Vl. 24.2.2017 Schätzfunktion für Güte: Ist X Problem: Feb 17 13:21 > Wir berechnen Bereiche (Toleranzbereiche) für sind untere und obere Grenzen, berechnet

Mehr

Softwaretechnik. Prof. Dr. Rainer Koschke. Fachbereich Mathematik und Informatik Arbeitsgruppe Softwaretechnik Universität Bremen

Softwaretechnik. Prof. Dr. Rainer Koschke. Fachbereich Mathematik und Informatik Arbeitsgruppe Softwaretechnik Universität Bremen Softwaretechnik Prof. Dr. Rainer Koschke Fachbereich Mathematik und Informatik Arbeitsgruppe Softwaretechnik Universität Bremen Wintersemester 2010/11 Überblick I Statistik bei kontrollierten Experimenten

Mehr

Statistische Tests funktionieren generell nach obigem Schema; der einzige Unterschied besteht in der unterschiedlichen Berechnung der Testgröße.

Statistische Tests funktionieren generell nach obigem Schema; der einzige Unterschied besteht in der unterschiedlichen Berechnung der Testgröße. Statistische Tests Testen von Hypothesen Fehlerarten wichtigste statistische Tests Hypothesen Jeder statistische Test beruht auf der Widerlegung einer zuvor aufgestellten Hypothese. Die Widerlegung ist

Mehr

Inhaltsverzeichnis. Über die Autoren Einleitung... 21

Inhaltsverzeichnis. Über die Autoren Einleitung... 21 Inhaltsverzeichnis Über die Autoren.... 7 Einleitung... 21 Über dieses Buch... 21 Was Sie nicht lesen müssen... 22 Törichte Annahmen über den Leser... 22 Wie dieses Buch aufgebaut ist... 23 Symbole, die

Mehr

Übungen mit dem Applet Vergleich von zwei Mittelwerten

Übungen mit dem Applet Vergleich von zwei Mittelwerten Vergleich von zwei Mittelwerten 1 Übungen mit dem Applet Vergleich von zwei Mittelwerten 1 Statistischer Hintergrund... 2 1.1 Typische Fragestellungen...2 1.2 Fehler 1. und 2. Art...2 1.3 Kurzbeschreibung

Mehr

1. Einführung in die induktive Statistik

1. Einführung in die induktive Statistik Wichtige Begriffe 1. Einführung in die induktive Statistik Grundgesamtheit: Statistische Masse, die zu untersuchen ist, bzw. über die Aussagen getroffen werden soll Stichprobe: Teil einer statistischen

Mehr

Wahrscheinlichkeitsverteilungen

Wahrscheinlichkeitsverteilungen Universität Bielefeld 3. Mai 2005 Wahrscheinlichkeitsrechnung Wahrscheinlichkeitsrechnung Das Ziehen einer Stichprobe ist die Realisierung eines Zufallsexperimentes. Die Wahrscheinlichkeitsrechnung betrachtet

Mehr

Beispiel für Gütefunktionen Rechtsseitiger Test (µ 0 = 500) zum Signifikanzniveau α = 0.10

Beispiel für Gütefunktionen Rechtsseitiger Test (µ 0 = 500) zum Signifikanzniveau α = 0.10 6 Hypothesentests Gauß-Test für den Mittelwert bei bekannter Varianz 6.3 Beispiel für Gütefunktionen Rechtsseitiger Test (µ 0 = 500) zum Signifikanzniveau α = 0.10 G(µ) 0 α 0. 0.4 0.6 0.8 1 n = 10 n =

Mehr

Prüfung aus Statistik 2 für SoziologInnen

Prüfung aus Statistik 2 für SoziologInnen Prüfung aus Statistik 2 für SoziologInnen 11. Oktober 2013 Gesamtpunktezahl =80 Name in Blockbuchstaben: Matrikelnummer: Wissenstest (maximal 16 Punkte) Kreuzen ( ) Sie die jeweils richtige Antwort an.

Mehr

Allgemeines zu Tests. Statistische Hypothesentests

Allgemeines zu Tests. Statistische Hypothesentests Statistische Hypothesentests Allgemeines zu Tests Allgemeines Tests in normalverteilten Grundgesamtheiten Asymptotische Tests Statistischer Test: Verfahren Entscheidungsregel), mit dem auf Basis einer

Mehr

Wie liest man Konfidenzintervalle? Teil II. Premiu m

Wie liest man Konfidenzintervalle? Teil II. Premiu m Wie liest man Konfidenzintervalle? Teil II Premiu m - Hintergrund Anderer Wahrscheinlichkeitsbegriff subjektiver Wahrscheinlichkeitsbegriff Beispiel: Was ist die Wahrscheinlichkeit dafür, dass ein Patient

Mehr

1 Wahrscheinlichkeitsrechnung. 2 Zufallsvariablen und ihre Verteilung. 3 Statistische Inferenz. 4 Intervallschätzung. 5 Hypothesentests.

1 Wahrscheinlichkeitsrechnung. 2 Zufallsvariablen und ihre Verteilung. 3 Statistische Inferenz. 4 Intervallschätzung. 5 Hypothesentests. 0 Einführung 1 Wahrscheinlichkeitsrechnung 2 Zufallsvariablen und ihre Verteilung 3 Statistische Inferenz 4 Intervallschätzung 5 Hypothesentests 6 Regression Lineare Regressionsmodelle Deskriptive Statistik:

Mehr

7. Hypothesentests. Ausgangssituation erneut: ZV X repräsentiere einen Zufallsvorgang. X habe die unbekannte VF F X (x)

7. Hypothesentests. Ausgangssituation erneut: ZV X repräsentiere einen Zufallsvorgang. X habe die unbekannte VF F X (x) 7. Hypothesentests Ausgangssituation erneut: ZV X repräsentiere einen Zufallsvorgang X habe die unbekannte VF F X (x) Interessieren uns für einen unbekannten Parameter θ der Verteilung von X 350 Bisher:

Mehr

Forschungsstatistik I

Forschungsstatistik I Psychologie Prof. Dr. G. Meinhardt 6. Stock, TB II R. 06-206 (Persike) R. 06-321 (Meinhardt) Sprechstunde jederzeit nach Vereinbarung Forschungsstatistik I Dr. Malte Persike persike@uni-mainz.de http://psymet03.sowi.uni-mainz.de/

Mehr

Konfidenzintervalle Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Anteilswert Differenzen von Erwartungswert Anteilswert

Konfidenzintervalle Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Anteilswert Differenzen von Erwartungswert Anteilswert Konfidenzintervalle Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Anteilswert Differenzen von Erwartungswert Anteilswert Beispiel für Konfidenzintervall Im Prinzip haben wir

Mehr

Aufgaben zu Kapitel 7:

Aufgaben zu Kapitel 7: Aufgaben zu Kapitel 7: Aufgabe 1: In einer Klinik sollen zwei verschiedene Therapiemethoden miteinander verglichen werden. Zur Messung des Therapieerfolges werden die vorhandenen Symptome einmal vor Beginn

Mehr

Aufgaben zu Kapitel 7:

Aufgaben zu Kapitel 7: Aufgaben zu Kapitel 7: Aufgabe 1: In einer Klinik sollen zwei verschiedene Therapiemethoden miteinander verglichen werden. Zur Messung des Therapieerfolges werden die vorhandenen Symptome einmal vor Beginn

Mehr

Wirtschaftsstatistik-Klausur am

Wirtschaftsstatistik-Klausur am Wirtschaftsstatistik-Klausur am 0.07.017 Aufgabe 1 Ein Handy- und PC-Hersteller verfügt über ein exklusives Filialnetz von 900 Filialen. Der Gewinn (in GE) der Filialen ist in der folgenden Tabelle nach

Mehr

Modul 141 Statistik. 1. Studienjahr 11. Sitzung Signifikanztests

Modul 141 Statistik. 1. Studienjahr 11. Sitzung Signifikanztests Modul 141 Statistik 1. Studienjahr 11. Sitzung Signifikanztests Inhalt der 11. Sitzung 1. Parametrische Signifikanztests 2. Formulierung der Hypothesen 3. Einseitige oder zweiseitige Fragestellung 4. Signifikanzniveau

Mehr

Grundlegende Eigenschaften von Punktschätzern

Grundlegende Eigenschaften von Punktschätzern Grundlegende Eigenschaften von Punktschätzern Worum geht es in diesem Modul? Schätzer als Zufallsvariablen Vorbereitung einer Simulation Verteilung von P-Dach Empirische Lage- und Streuungsparameter zur

Mehr

Statistik-Klausur I E SS 2010

Statistik-Klausur I E SS 2010 Statistik-Klausur I E SS 2010 Name: Vorname: Immatrikulationsnummer: Studiengang: Hiermit erkläre ich meine Prüfungsfähigkeit vor Beginn der Prüfung. Unterschrift: Dauer der Klausur: Erlaubte Hilfsmittel:

Mehr

Tutorial:Unabhängigkeitstest

Tutorial:Unabhängigkeitstest Tutorial:Unabhängigkeitstest Mit Daten aus einer Befragung zur Einstellung gegenüber der wissenschaftlich-technischen Entwicklungen untersucht eine Soziologin den Zusammenhang zwischen der Einstellung

Mehr

Aufgabensammlung (Nicht-MC-Aufgaben) Klausur Ökonometrie WS 2014/15. ( = 57 Punkte)

Aufgabensammlung (Nicht-MC-Aufgaben) Klausur Ökonometrie WS 2014/15. ( = 57 Punkte) Aufgabe 3 (6 + 4 + 8 + 4 + 10 + 4 + 9 + 4 + 8 = 57 Punkte) Hinweis: Beachten Sie die Tabellen mit Quantilen am Ende der Aufgabenstellung! Mit Hilfe eines multiplen linearen Regressionsmodells soll auf

Mehr

Mathematische und statistische Methoden II

Mathematische und statistische Methoden II Methodenlehre e e Prof. Dr. G. Meinhardt 6. Stock, Wallstr. 3 (Raum 06-06) Sprechstunde jederzeit nach Vereinbarung und nach der Vorlesung. Mathematische und statistische Methoden II Dr. Malte Persike

Mehr

Statistik II. Statistische Tests. Statistik II

Statistik II. Statistische Tests. Statistik II Statistik II Statistische Tests Statistik II - 5.5.2006 1 Ausgangslage Wir können Schätzen (z.b. den Erwartungswert) Wir können abschätzen, wie zuverlässig unsere Schätzungen sind: In welchem Intervall

Mehr

Der χ 2 -Test (Chiquadrat-Test)

Der χ 2 -Test (Chiquadrat-Test) Der χ 2 -Test (Chiquadrat-Test) Der Grundgedanke Mit den χ 2 -Methoden kann überprüft werden, ob sich die empirischen (im Experiment beobachteten) Häufigkeiten einer nominalen Variable systematisch von

Mehr

Glossar. Cause of Effects Behandelt die Ursache von Auswirkungen. Debriefing Vorgang der Nachbesprechung der experimentellen Untersuchung.

Glossar. Cause of Effects Behandelt die Ursache von Auswirkungen. Debriefing Vorgang der Nachbesprechung der experimentellen Untersuchung. Abhängige Variable Die zu untersuchende Variable, die von den unabhängigen Variablen in ihrer Ausprägung verändert und beeinflusst wird (siehe auch unabhängige Variable). Between-Subjects-Design Wenn die

Mehr

Willkommen zur Vorlesung Statistik (Master)

Willkommen zur Vorlesung Statistik (Master) Willkommen zur Vorlesung Statistik (Master) Thema dieser Vorlesung: Punkt- und Prof. Dr. Wolfgang Ludwig-Mayerhofer Universität Siegen Philosophische Fakultät, Seminar für Sozialwissenschaften Prof. Dr.

Mehr

Statistik-Quiz Wintersemester

Statistik-Quiz Wintersemester Statistik-Quiz Wintersemester Seite 1 von 8 Statistik-Quiz Wintersemester Die richtigen Lösungen sind mit gekennzeichnet. 1a Für 531 Personen liegen Daten zu folgenden Merkmalen vor. Welche der genannten

Mehr

Hypothesenbewertungen: Übersicht

Hypothesenbewertungen: Übersicht Hypothesenbewertungen: Übersicht Wie kann man Fehler einer Hypothese abschätzen? Wie kann man einschätzen, ob ein Algorithmus besser ist als ein anderer? Trainingsfehler, wirklicher Fehler Kreuzvalidierung

Mehr

das Kleingedruckte...

das Kleingedruckte... Gepaarte t-tests das Kleingedruckte... Datenverteilung ~ Normalverteilung QQ-plot statistischer Test (Shapiro-Wilk, Kolmogorov-Smirnov) wenn nicht : nicht-parametrische Tests gleiche Varianz (2-Proben

Mehr

Statistische Tests. Kapitel Grundbegriffe. Wir betrachten wieder ein parametrisches Modell {P θ : θ Θ} und eine zugehörige Zufallsstichprobe

Statistische Tests. Kapitel Grundbegriffe. Wir betrachten wieder ein parametrisches Modell {P θ : θ Θ} und eine zugehörige Zufallsstichprobe Kapitel 4 Statistische Tests 4.1 Grundbegriffe Wir betrachten wieder ein parametrisches Modell {P θ : θ Θ} und eine zugehörige Zufallsstichprobe X 1,..., X n. Wir wollen nun die Beobachtung der X 1,...,

Mehr

Statistik II für Betriebswirte Vorlesung 1

Statistik II für Betriebswirte Vorlesung 1 Statistik II für Betriebswirte Vorlesung 1 Dr. Andreas Wünsche TU Bergakademie Freiberg Institut für Stochastik 16. Oktober 2017 Dr. Andreas Wünsche Statistik II für Betriebswirte Vorlesung 1 Version:

Mehr

Musterlösung. Modulklausur Multivariate Verfahren

Musterlösung. Modulklausur Multivariate Verfahren Musterlösung Modulklausur 31821 Multivariate Verfahren 25. September 2015 Aufgabe 1 (15 Punkte) Kennzeichnen Sie die folgenden Aussagen zur Regressionsanalyse mit R für richtig oder F für falsch. F Wenn

Mehr

Klassifikation von Signifikanztests

Klassifikation von Signifikanztests Klassifikation von Signifikanztests nach Verteilungsannahmen: verteilungsabhängige = parametrische Tests verteilungsunabhängige = nichtparametrische Tests Bei parametrischen Tests werden im Modell Voraussetzungen

Mehr

Notgepäck Genauigkeit

Notgepäck Genauigkeit Notgepäck Genauigkeit Beat Hulliger Dienst Statistische Methoden, Bundesamt für Statistik 20.4.2006 1 Was ist Genauigkeit genau? Um zu beschreiben, was Genauigkeit in der Statistik ist, müssen wir untersuchen,

Mehr

Mathematische und statistische Methoden I

Mathematische und statistische Methoden I Prof. Dr. G. Meinhardt 6. Stock, Wallstr. 3 (Raum 6-6) Sprechstunde jederzeit nach Vereinbarung und nach der Vorlesung. Mathematische und statistische Methoden I Dr. Malte Persike persike@uni-mainz.de

Mehr

Einführung in Quantitative Methoden

Einführung in Quantitative Methoden Einführung in Quantitative Methoden Pantelis Christodoulides & Karin Waldherr 4. Juni 2014 Christodoulides / Waldherr Einführung in Quantitative Methoden 1/35 Ein- und Zweiseitige Hypothesen H 0 : p =

Mehr

Statistik II Übung 4: Skalierung und asymptotische Eigenschaften

Statistik II Übung 4: Skalierung und asymptotische Eigenschaften Statistik II Übung 4: Skalierung und asymptotische Eigenschaften Diese Übung beschäftigt sich mit der Skalierung von Variablen in Regressionsanalysen und mit asymptotischen Eigenschaften von OLS. Verwenden

Mehr

Kapitel 6: Zweifaktorielle Varianzanalyse

Kapitel 6: Zweifaktorielle Varianzanalyse Kapitel 6: Zweifaktorielle Varianzanalyse Berechnen der Teststärke a priori bzw. Stichprobenumfangsplanung 1 Teststärkebestimmung a posteriori 4 Berechnen der Effektgröße f² aus empirischen Daten und Bestimmung

Mehr

So berechnen Sie einen Schätzer für einen Punkt

So berechnen Sie einen Schätzer für einen Punkt htw saar 1 EINFÜHRUNG IN DIE STATISTIK: SCHÄTZEN UND TESTEN htw saar 2 Schätzen: Einführung Ziel der Statistik ist es, aus den Beobachtungen eines Merkmales in einer Stichprobe Rückschlüsse über die Verteilung

Mehr

Testen von Hypothesen:

Testen von Hypothesen: Testen von Hypothesen: Ein Beispiel: Eine Firma produziert Reifen. In der Entwicklungsabteilung wurde ein neues Modell entwickelt, das wesentlich ruhiger läuft. Vor der Markteinführung muss aber auch noch

Mehr

Primer: Inferenzstatistik 1.0

Primer: Inferenzstatistik 1.0 : 1.0 Dr. Malte Persike persike@uni-mainz.de methodenlehre.com twitter.com/methodenlehre methodenlehre.com/g+ iversity.org/schoolinger Inhalte der nächsten Minuten Die Frage aller Fragen: Ist etwas groß?

Mehr

3. Lektion: Deskriptive Statistik

3. Lektion: Deskriptive Statistik Seite 1 von 5 3. Lektion: Deskriptive Statistik Ziel dieser Lektion: Du kennst die verschiedenen Methoden der deskriptiven Statistik und weißt, welche davon für Deine Daten passen. Inhalt: 3.1 Deskriptive

Mehr

Multivariate Verfahren

Multivariate Verfahren Selbstkontrollarbeit 1 Multivariate Verfahren Musterlösung Aufgabe 1 (40 Punkte) Auf der dem Kurs beigelegten CD finden Sie im Unterverzeichnis Daten/Excel/ die Datei zahlen.xlsx. Alternativ können Sie

Mehr

7. Übung: Aufgabe 1. b), c), e) Aufgabe 2. a), c), e) Aufgabe 3. c), e) Aufgabe 4. Aufgabe 5. Aufgabe 6. Aufgabe 7. Aufgabe 8. Aufgabe 9.

7. Übung: Aufgabe 1. b), c), e) Aufgabe 2. a), c), e) Aufgabe 3. c), e) Aufgabe 4. Aufgabe 5. Aufgabe 6. Aufgabe 7. Aufgabe 8. Aufgabe 9. 7. Übung: Aufgabe 1 b), c), e) Aufgabe a), c), e) Aufgabe 3 c), e) Aufgabe 4 b) Aufgabe 5 a) Aufgabe 6 b) Aufgabe 7 e) Aufgabe 8 c) Aufgabe 9 a), c), e) Aufgabe 10 b), d) Aufgabe 11 a) Aufgabe 1 b) Aufgabe

Mehr

5. Seminar Statistik

5. Seminar Statistik Sandra Schlick Seite 1 5. Seminar 5. Seminar Statistik 30 Kurztest 4 45 Testen von Hypothesen inkl. Übungen 45 Test- und Prüfverfahren inkl. Übungen 45 Repetitorium und Prüfungsvorbereitung 15 Kursevaluation

Mehr

Täuschung und Manipulation mit Zahlen Teil 1

Täuschung und Manipulation mit Zahlen Teil 1 Täuschung und Manipulation mit Zahlen Teil 1 Kleines Statistikseminar zum kritischen Umgang mit Zahlen 23.3.2011 Dr. med. H.-J. Koubenec Mammasprechstunde im Immanuel Krankenhaus Berlin Folien: Mammographie-Screening.de

Mehr

Methodenlehre. Vorlesung 6. Prof. Dr. Björn Rasch, Cognitive Biopsychology and Methods University of Fribourg

Methodenlehre. Vorlesung 6. Prof. Dr. Björn Rasch, Cognitive Biopsychology and Methods University of Fribourg Methodenlehre Vorlesung 6 Prof. Dr., Cognitive Biopsychology and Methods University of Fribourg 1 Methodenlehre II Woche Datum Thema 1 FQ Einführung, Verteilung der Termine 1 18.2.15 Psychologie als Wissenschaft

Mehr

Hypothesentests mit SPSS. Beispiel für einen t-test

Hypothesentests mit SPSS. Beispiel für einen t-test Beispiel für einen t-test Daten: museum-f-v04.sav Hypothese: Als Gründe, in ein Museum zu gehen, geben mehr Frauen als Männer die Erweiterung der Bildung für Kinder an. Dies hängt mit der Geschlechtsrolle

Mehr

Empirische Methoden zur Analyse gesprochener Sprache

Empirische Methoden zur Analyse gesprochener Sprache Empirische Methoden zur Analyse gesprochener Sprache Prinzip der Hypothesenprüfung (am Beispiel des t-tests für unabhängige Stichproben) Statistische Verfahren: Einordnung Deskriptive (beschreibende) Statistik:

Mehr

Einfache Varianzanalyse für unabhängige Stichproben

Einfache Varianzanalyse für unabhängige Stichproben Einfache Varianzanalyse für unabhängige Stichproben VARIANZANALYSE Die Varianzanalyse ist das dem t-test entsprechende Mittel zum Vergleich mehrerer (k 2) Stichprobenmittelwerte. Sie wird hier mit VA abgekürzt,

Mehr