Größe: px
Ab Seite anzeigen:

Download ""

Transkript

1 Methods of Psychological Research Online 1996, Vol.1, No.4 Internet: Jenseits des Signiækanztest-Rituals: Ergíanzungen und Alternativen Peter Sedlmeier æ Zusammenfassung Die Dominanz des Signiækanztests in der psychologischen Datenanalyse kíonnte den Eindruck erwecken, daç er in der íuberwiegenden Mehrzahl der Fíalle das adíaquate Analyseverfahren ist, undèoder daç keine Alternativen existieren. Beide Schluçfolgerungen wíaren nicht richtig. Probleme bei der Anwendung des Signiækanztests in der psychologischen Forschung werden seit langem ausfíuhrlich diskutiert, doch dies hatte erstaunlicherweise kaum Auswirkungen auf die Forschungspraxis. Der hauptsíachliche Grund hierfíur scheint eine mangelnde Vertrautheit mit alternativen Verfahren zu sein. In diesem Beitrag werden nach einem kurzen íuberblick íuber die kritisierten Unzulíanglichkeiten des Signiækanztests solche Verfahren vorgestellt. Darunter fallen Error-Bar- Plots èmit Einschríankungenè, Verfahren der Explorativen Datenanalyse, die Berechnung von Eæektgríoçen und die Metaanalyse. Die einzelnen Verfahren werden anhand von Beispielen illustriert und zum Gebrauch empfohlen. Schlíusselwíorter: Signiækanztest, EDA, Eæektgríoçe, Metaanalyse, Datenanalyse Abstract Beyond the Ritual of Signiæcance Testing: Alternative and Supplementary Methods The prevalence of signiæcance testing in psychological research implies that it suits almost every purpose andèor that alternative procedures for data analysis do not exist. Neither implication is correct. A considerable amount of criticism of signiæcance testing has been published, but so far it has had little impact on actual practice in psychological research. The reason for this seems to be that researchers are in general unfamiliar with alternative procedures. This article brieæy reviews the problems of signiæcance testing and then proposes some alternatives: plot-plus-error-bars èwith restrictionsè, exploratory data analysis èedaè, eæect sizes, and meta analysis. Examples illustrate the usefulness of these alternatives. Keywords: Signiæcance test, Exploratory Data Analysis, meta analysis, data analysis. æ Ich danke den Studentinnen und Studenten an der Universitíat Salzburg und der University of Chicago fíur ihre kritischen Fragen, sowie Edgar Erdfelder, Gerd Gigerenzer, Wolfgang Hell, Anita Hewer, Detlef Kíohlers, Jíurgen Locher, Ralph Hertwig, Manfred Wettler und zwei anonymen Reviewern fíur hilfreiche Ríuckmeldungen. Diese Arbeit wurde unterstíutzt durch ein Feodor- Lynen Stipendium der Alexander-von-Humboldt Stiftung und durch ein Habilitationsstipendium der Deutschen Forschungsgemeinschaft.

2 P. Sedlmeier: Signiækanztest-Ritual 42 1 Einleitung Das Testen von Nullhypothesen dominiert nach wie vor die Auswertung psychologischer Forschungsresultate. Angesichts einer etwa 35 Jahre andauernden und gríoçtenteils unwidersprochenen, substantiellen Kritik der Anwendung des Verfahrens ècarver, 1993è ist das híochst merkwíurdig. Meist ist es allerdings bei der Kritik geblieben, d. h., es wurden kaum konstruktive Alternativen angeboten. Eine in den USA weithin rezipierte Ausnahme ist ein kíurzlicher Herausgeberbeitrag von Geoærey Loftus in Memory & Cognition èloftus, 1993aè. Loftus è1993a,bè argumentiert, daç p-werte nahezu nutzlos fíur die Interpretation psychologischer Daten sind. Statt dessen schlíagt er vor, graphische Methoden zu verwenden, die Aussagen íuber Muster und Gríoçe von Eæekten erlauben. Loftus ist allerdings nicht der erste Herausgeber, der sich gegen den íubermíaçigen Gebrauch von Signiækanztests ausspricht und Alternativen einfordert. Schon 1970 bemerkten Jíurgen Bredenkamp und Hubert Feger in der Zeitschrift fíur Sozialpsychologie, daç das Ergebnis eines Signiækanztests ëoftmals inadíaquat" sei èbredenkamp& Feger, 1970è. Sie ermuntern explizit zu exakten Replikationen von Experimenten und zur Einsendung von Manuskripten mit nichtsigniækanten Ergebnissen und schlagen vor, Eæektgríoçen zu berechnen. Letztendlich kommen sie jedoch zu dem etwas deprimierenden Schluç, ë...an der augenblicklichen Bevorzugung des Signiækanztests als dem statistischen Verfahren nichts íandern zu kíonnen..." ès. 45è. Gut zehn Jahre spíater konnten Hager & Westermann è1982è diesen Schluç empirisch untermauern. Alternativen und Ergíanzungen zum Signiækanztesten sind seit langer Zeit bekannt und werden zumindest sporadisch in fast allen neueren Statistikpaketen fíur PC und Macintosh angeboten èvgl. Butler & Neudecker, 1989è. Warum werden sie dann nicht angewandt? Meine hier schon vorweggenommene èhaupt-è Antwort auf diese Frage ist, daç die meisten Psychologen zwar schon von Alternativen gehíort haben, aber wenig Konkretes daríuber wissen. Dies hat natíurlich zur Folge, daç solche Alternativen auch nicht gelehrt werden. In diesem Beitrag sollen die Vorschlíage von Bredenkamp, Feger und Loftus aufgegriæen, erweitert und konkretisiert werden. Die Adressaten sind nicht in erster Linie methodisch versierte Leser, denen vieles bekannt sein wird, sondern vor allem ënicht-methodiker", der Groçteil der an Universitíaten oder Forschungsinstituten tíatigen Psychologen. Dieser Personenkreis ist míoglicherweise mit der Problematik des Signiækanztestens nicht eingehend vertraut. Deswegen wird zuníachst die Kritik am Nullhypothesen-Testen in Grundzíugen rekapituliert. Sodann, und das ist der Hauptteil des Beitrags, werden einige Vorschlíage dazu gemacht, wie Signiækanztesten ergíanzt oder auch ganz ersetzt werden kann. Die vorgestellten Methoden èkonædenzintervalle, Verfahren der Explorativen Datenanalyse und Verfahren zur Berechnung und Integration von Eæektgríoçenè werden jeweils anhand von Beispielen illustriert. Aus Platzgríunden ist dieser íuberblick eher knapp gehalten. Die Beispiele sollten aber das Prinzip der Verfahren verstíandlich machen, und die angegebene Literatur wird in den meisten Fíallen weiterhelfen kíonnen. 2 Was bedeutet das Ergebnis eines Signiækanztests? Viele Studenten èund auch einige etablierte Forscherè sind íuberrascht, wenn sie bemerken, daç es nicht einen Signiækanztest, sondern mehrere unterschiedliche gibt èsiehe Ostmann & Wutke, 1994, fíur einen íuberblickè. Wenn man Statistiklehrbíucher fíur Psychologen liest, scheint es allerdings oft so, wie wenn nur ein einziges Verfahren existierte. Dieses Verfahren ist eine Mixtur verschiedener Ansíatze, meist gemischt aus dem von R. A. Fisher entwickelten Signiækanztesten und dem Hypothesentesten von J. Neyman and E. S. Pearson, oft garniert mit Bayesiani-

3 P. Sedlmeier: Signiækanztest-Ritual 43 schen Interpretationen èacree, 1979; Gigerenzer & Murray, 1987è. Der Ansatz von Fisher unterscheidet sich von dem Neyman-Pearson'schen in vielerlei Hinsicht èsiehe hierzu Gigerenzer, 1993; Oakes, 1986è. Einige dieser Unterschiede seien hier kurz wiederholt: Wíahrend bei Fisher nur eine statistische Hypothese, die Nullhypothese èh 0 è, speziæziert wird, ist die Alternativhypothese, meist als H 1 bezeichnet, ein fester Bestandteil des Neyman-Pearson Ansatzes. Konzepte wie ëæ-fehler" oder ëteststíarke" sind somit nur im zweiten Ansatz sinnvoll zu interpretieren. Bei Neyman und Pearson wird klar unterschieden zwischen dem Signiækanzniveau æ und dem p-wert. Wíahrend æ die Wahrscheinlichkeit dafíur bezeichnet, die H 0 ungerechtfertigt zu verwerfen, ist p die Wahrscheinlichkeit dafíur, daç das empirische Datum oder ein extremeres Datum gefunden werden kann, wenn die H 0 wahr ist. Den p-wert erhíalt man nach dem Experiment, æ wird vor dem Experiment festgelegt. Beim Fisher'schen Verfahren kann hingegen das ësigniækanzniveau" vor und nach dem Test bestimmt werden. Der interessanteste Unterschied zwischen den beiden Ansíatzen liegt aber in der Interpretation des Ergebnisses des Signiækanztests. In beiden Ansíatzen ist das Ergebnis eines Signiækanztests die Auftretenswahrscheinlichkeit eines Datums unter der Gíultigkeit der Nullhypothese í pèdjh 0 è, der oben erwíahnte p-wert. Ist p kleiner als æ so ist das Ergebnis signiækant, andernfalls ist es nicht signiækant. Im Ansatz von Neyman und Pearson erhíalt das Testergebnis eine ëverhaltens-interpretation". Bei einem signiækanten Ergebnis sollte man sich so verhalten, als ob die Alternativhypothese wahr sei, bei einem nicht signiækanten Ergebnis, als ob die Nullhypothese zutríafe èvgl. Blackwelder, 1982è. Im Ansatz von Fisher kann die H 0 nur verworfen, nicht aber angenommen werden í bei Nichtsigniækanz kann keine Entscheidung getroæen werden èsiehe Gigerenzer et al., 1989, íuber den Wandel in Fisher's eigener Interpretation des p-wertsè. Die im folgenden Paragraph besprochenen Interpretationen von p-werten wíurde Fisher jedoch nicht unterstíutzt haben. 2.1 Wie kann man p-werte miçinterpretieren? í Einige beliebte Varianten Die Wahrscheinlichkeit eines empirischen Datums èdè unter Gíultigkeit der H 0 ist in den meisten Fíallen nicht besonders interessant. Weit interessanter wíare es, aufgrund der Kenntnis des Resultats eines Experiments die Antwort auf die Frage nach der Wahrscheinlichkeit von H 0 oder H 1 zu erhalten. Weitere interessante Fragen wíaren etwa ëwie bedeutsam ist der Eæekt?" oder ëwie wahrscheinlich ist es, daç ich in einem zweiten Experiment wieder ein signiækantes Ergebnis erhalte?". Der p-wert liefert leider auf keine dieser Fragen eine Antwort, wird aber nicht selten so interpretiert, wie wenn er dies tíate èz.b. Tversky & Kahneman, 1971; Oakes, 1986è. So wird híauæg die tatsíachlich gefundene Wahrscheinlichkeit, pèdjh 0 è mit der inversen Wahrscheinlichkeit pèh 0 jdè verwechselt. Gigerenzer è1993è nennt dies ëbayesian wishful thinking", da man mithilfe des Bayes Theorems eine solche inverse Wahrscheinlichkeit berechnen kíonnte èsiehe Kleiter, 1981, fíur eine Einfíuhrung in die Bayes Statistikè. Die Bedeutsamkeit eines Eæekts, die zweite interessante Frage, híangt neben inhaltlichen Kriterien in erster Linie von seiner Gríoçe ab èsiehe Absatz íuber Eæektgríoçenè. Und schlieçlich kann die Wahrscheinlichkeit dafíur, bei der Wiederholung eines Experiments ein signiækantes Resultat bei identischem æ zu replizieren, nur geschíatzt werden, wenn vorher eine Schíatzung des Populationseæekts vorliegt. Auçerdem muç hierzu die Gríoçe der Stichprobe speziæziert werden. Ein p-wert alleine liefert diese Informationen nicht. Meist korrespondiert die substantielle- oder Forschungshypothese mit der H 1, d. h., ein signiækantes Ergebnis wird èin unterschiedlichen Variantenè als Unterstíutzung dieser Forschungshypothese interpretiert. Wenn aber die Forschungshypothese lautet, daç ëkein Unterschied" vorliegt èz.b. zwischen einer Kontrollgruppe und ei-

4 P. Sedlmeier: Signiækanztest-Ritual 44 ner Experimentalgruppe vor der experimentellen Manipulationè, oder daç ëkein Zusammenhang" besteht, wenn sie also mit der H 0 korrespondiert, dann ist besondere Vorsicht geboten. Tatsíachlich ist in solchen Fíallen die Teststíarke, die a priori Wahrscheinlichkeit, ein signiækantes Ergebnis zu erhalten, wenn ein Eæekt in der Population vorliegt, oft sehr niedrig; ein nicht signiækantes Ergebnis wird aber trotzdem in solchen Fíallen oft als eine Bestíatigung der Forschungshypothese interpretiert èsedlmeier & Gigerenzer, 1989è Wann und wie kann der Signiækanztest sinnvoll benutzt werden? Wenn Forscher das Ergebnis des Signiækanztests falsch interpretieren, so kann das nicht dem Verfahren an sich angelastet werden. Gehen wir einmal von einer korrekten Interpretation aus í wann macht es im Prinzip Sinn, einen Signiækanztest zu rechnen? Oder, anders gefragt í wann gibt uns ein p-wert die Information, die wir beníotigen? Ein p-wert ist entweder ësigniækant" oder ënicht signiækant". Ein Signiækanztest liefert also eine ëjaènein" Information. Diese JaèNein Information wird in der heutzutage dominierenden Neyman Pearson'schen Fassung des Signiækanztestens als Basis fíur eine Handlungsentscheidung 2 benutzt ègigerenzer et al., 1989, S. 98æè. Sicherlich haben auch Psychologen Handlungsentscheidungen zu treæen í Soll Therapie A oder Therapie B angewandt werden? Soll die Lernmethode C in den Lehrplan aufgenommen werden? Die Neyman Pearson'sche Fassung des Signiækanztestens beinhaltet allerdings auch, daç man sich íuber den zu erwartenden Eæekt èdie Gríoçe des Eæekts in der Populationè Gedanken macht und abhíangig davon die Risiken falscher Entscheidungen abwíagt. Das Ergebnis einer solchen Kosten-Nutzen Analyse schlíagt sich dann in der Wahl der Stichprobengríoçen und der Werte fíur æ und æ nieder. Das ist die Theorie í wíurde sie befolgt, kíonnte diese Art des Signiækanztestens auch in der Psychologie in manchen Fíallen sinnvoll angewandt werden. Wenn allerdings mehrere Studien zu einem Gegenstandsbereich vorliegen í der Regelfall in der Psychologie í dann sollten die Ergebnisse aller relevanten Studien fíur eine Entscheidung benutzt werden. Die dazu beníotigte Methode ist nicht das Auszíahlen von Signiækanzen, sondern die Analyse von Eæektgríoçen èsiehe untenè. In der Fisher'schen Version des Signiækanztestens kann der p-wert als Maç dafíur benutzt werden, wie stark der gefundene Wert von der Nullhypothese abweicht èz.b. Gigerenzer et al. 1989, S. 95è. Ceteris paribus ist der p-wert tatsíachlich ein Indikator fíur die Gríoçe eines Eæekts, aber zum einen ist seine Interpretation sehr problematisch èsiehe obenè, zum anderen kann man die gesuchte Information, die Gríoçe eines Eæekts, viel einfacher bekommen. Eine Míoglichkeit, unter Zuhilfenahme des Ergebnisses eines Signiækanztests Eæektgríoçen zu berechnen, wird aus dem folgenden allgemein gíultigen Gleichungs-Geríust èrosenthal & Rosnow, 1991è ersichtlich: Signiækanztest = Eæektgríoçe x Gríoçe der Studie. 1 Eine Poweranalyse ècohen, 1988è ist in einer solchen Situation unabdingbar. Eine solche Analyse sollte auch in allen anderen Fíallen, in denen Signiækanztests benutzt werden, durchgefíuhrt werden. Mittlerweile liegt ein kostenlos erhíaltliches, sehr komfortables Programm hierfíur vor èerdfelder, Faul & Buchner, 1996è. 2 Den zahlreichen Diskussionen und Kontroversen íuber den Einsatz des èerweitertenè Signiækanztests zum Test von Theorien will ich keinen neuen Beitrag hinzufíugen èsiehe hierzu etwa Bredenkamp, 1972; Westermann & Hager, 1982; Westermann & Hager, 1984; und die entsprechenden Beitríage im 1991er Jahrgang der Psychologischen Rundschauè. Selbst wenn man der Meinung ist, daç ein Signiækanztest zum Zwecke der Theorienpríufung unbedingt notwendig ist, sind die im Folgenden besprochenen Verfahren als Ergíanzungen von groçem Wert. Ein weiteres Problem, das hier nicht diskutiert wird, ist die Beurteilung der Repríasentativitíat von Stichproben. Dieses Problem ist jedoch nicht mit speziellen Verfahren verbunden, sondern tritt immer auf, wenn man generelle Schluçfolgerungen aufgrund von Stichprobenergebnissen zieht.

5 P. Sedlmeier: Signiækanztest-Ritual 45 Weiç man die ëgríoçe" einer Studie, die jeweils als Funktion der Freiheitsgrade oder der Stichprobengríoçe ausgedríuckt werden kann, so kann man aufgrund der Kenntnis des p-werts die Eæektgríoçe berechnen. Die speziæschen Formeln unterscheiden sich natíurlich in Abhíangigkeit der verwendeten Teststatistik und Eæektgríoçenmaçe. Der in dem Gleichungs-Geríust ausgedríuckte Zusammenhang ist sehr níutzlich, da die meisten Statistikpakete wenig Míoglichkeiten fíur die Berechnung von Eæektgríoçen bieten, aber Ergebnisse von Signiækanztests sehr ausfíuhrlich darstellen. Die Beziehung zwischen dem Ergebnis eines Signiækanztests und Eæektgríoçen wird spíater noch ausfíuhrlich besprochen. 2.3 Warum ist Signiækanztesten so beliebt? Ein groçer Teil der Kritik am Signiækanztesten ist seiner fehlerhaften Verwendung und Interpretation anzulasten. Allerdings bleibt selbst bei einer korrekten Anwendung und Interpretation nicht allzu viel an Informationsgehalt èsiehe fíur weitere Kritikpunkte zur Theorie und Praxis des Signiækanztestens: Cohen, 1990; 1994; Dar, Serlin & Omer, 1994; Falk & Greenbaum, 1995; Greenwald, 1975; Meehl, 1967; 1978; Morrison & Henkel, 1970; Rosnow & Rosenthal, 1989; Wottawa, 1990è. Trotzdem ist Signiækanztesten unglaublich beliebt - warum? Eine pragmatische Nutzung des Signiækanztests fíur die Berechnung von Eæektgríoçen scheint nicht der Grund zu sein í man ændet Eæektgríoçen bisher eher selten in psychologischen Fachzeitschriften. Eine plausible Erklíarung ist wohl ëtradition" í ëjedermann benutzt Signiækanztests, das muç einen guten Grund haben". Eine weitere Ursache fíur die Beliebtheit des Signiækanztestens ist sicher auch die gíangige Publikationspraxis. Signiækanz oder Nichtsigniækanz kann íuber Leben und Tod eines Artikels entscheiden èz.b. Atkinson, Furlong & Wampold, 1982; Bredenkamp, 1972; L. H. Cohen, 1979; Coursol & Wagner, 1986è. Der wichtigste Grund scheint mir aber doch zu sein, daç viele Psychologen keine Ausbildung in alternativen Methoden der Datenanalyse bekommen haben. Das Folgende soll nicht als eine solche ëausbildung" miçverstanden werden. Vielmehr soll der Leser motiviert werden, Methoden anzuwenden, die den individuellen Fragestellungen gerecht werden, Methoden, die die in den Daten tatsíachlich vorhandene Information besser repríasentieren kíonnen. Genausowenig aber wie Signiækanztesten eine automatische Datenanalyse ermíoglicht, bieten diese Methoden oder Methodensammlungen ëkochbuchrezepte". 3 ëerror-bar-plots" und Konædenzintervalle Geoærey Loftus è1993bè schlíagt vor, Signiækanztests mit ëplot-plus-error-bars" èppe'sè zu ersetzen. Was sind PPE's und warum kíonnen sie den Signiækanztest ersetzen und daríuber hinaus zusíatzliche Information liefern? PPE's sind einfache Graphiken, die Mittelwerte und ëerror-bars" fíur diese Mittelwerte enthalten. Als Error Bars benutzt Loftus meist den Standardfehler. Der Standardfehler ist nichts anderes als eine besondere Variante eines Konædenzintervalls, dessen exakte Gríoçe von der Art der Stichprobenverteilung des Mittels abhíangt. Bei einer Normalverteilung entspricht das Intervall, das durch je einen Standardfehler zu beiden Seiten des Mittels aufgespannt wird, ungefíahr einem 67è Konædenzintervall. Ein Error-Bar- Plot mit je 1.96 Standardfehlern zu beiden Seiten eines normalverteilten Mittels entspricht einem 95è Konædenzintervall. Ein signiækantes Ergebnis bei einem Test von H 0 : ç=0 bei einem zweiseitigen æ=.05 wíare gleichbedeutend mit der Tatsache, daç ein 95è Konædenzintervall fíur den von uns gefundenen Mittelwert den Wert 0 nicht beinhaltet èsiehe Huntsberger & Billingsley, 1973, fíur eine weitergehende Diskussion der íaquivalenz von Konædenzintervallen und Signiækanztestsè. Error- Bar-Plots enthalten also im Prinzip die Information, die ein Signiækanztest liefert,

6 P. Sedlmeier: Signiækanztest-Ritual 46 daríuber hinaus jedoch auch noch automatisch Mittelwerte und Konædenzintervalle. Was sagen uns nun Konædenzintervalle? Wenn wir unsere Studie sehr oft exakt replizieren, und jedesmal ein 95è Konædenzintervall berechnen, so werden diese Intervalle in 95è aller Studien das Populationsmittel umschlieçen, und in 5è aller Studien nicht èsiehe Freedman, Pisani, Purves, & Adhikari, 1991, fíur eine sehr verstíandliche Diskussionè. Dies ist eine Aussage, die zwar etwas informativer, aber íahnlich unbefriedigend ist wie das Ergebnis eines Signiækanztests. Ein weiterer míoglicher Nachteil von Konædenzintervallen, vor allem bei kleineren Stichproben, soll anhand eines Datenbeispiels veranschaulichtwerden. Abbildung 1 zeigt ein PPE, in dem je ein Standardfehler zu beiden Seiten des Mittelwerts abgetragen ist. 3 Die verwendeten Daten stammen aus einer æktiven ëaufmerksamkeitsstudie" mit ëneuropsychologischen Patienten". 4 Gruppe A besteht aus 8 Patienten mit Líasionen im Bereich des Frontalhirns. Die ëreaktionszeiten" dieser Patienten in einem bestimmten computergestíutzten Aufmerksamkeitstest seien èin Millisekundenè: 172, 169, 151, 189, 279, 160, 175, und 168. Die entsprechenden Reaktionszeiten bei einer 11 Patienten umfassenden Gruppe Bmit Líasionen im Stammhirn seien: 194, 172, 213, 203, 180, 203, 203, 195, 182, 198 und 205. Ein t-test fíur unabhíangige Mittelwertsunterschiede ergibt tè17è=-.97, p=.35. Dies kíonnte zur Schluçfolgerung Anlaç geben, daç kein Unterschied zwischen den beiden Gruppen hinsichtlich der untersuchten Variablen besteht. Betrachtet man die Mittelwerte in den Error-Bar-Plots èabbildung 1è, dann scheinen sich diese auch nicht sehr voneinander zu unterscheiden è183 versus 195è. Die Error-Bars selbst sind informativer í sie sind unterschiedlich groç. Das deutet auf eine híohere Varianz in Gruppe A hin. Aus der PPE-Darstellung ist aber nicht ersichtlich, was fíur diesen Unterschied verantwortlich ist. Diese Information kíonnen Verfahren der Explorativen Datenanalyse liefern. 4 Explorative Datenanalyse Explorative Datenanalyse èedaè ist, laut Tukey è1977, S. 1è, Detektivarbeit í numerische Detektivarbeit, detektivische Zíahlarbeit oder graphische Detektivarbeit. Es existiert bislang kein allgemeiner Konsens daríuber, wo EDA einzuordnen ist, ob sie als eigenstíandige Sammlung von Statistikverfahren gelten kann oder ein Teil der Deskriptiven Statistik ist. Es gibt auch keine eindeutigen Kriterien dafíur, was als EDA-Methode zu betrachten ist und was nicht. Manchmal wird getrennt zwischen EDA, graphischer und robuster Datenanalyse èz.b. Oldenbíurger, im Druckè. In diesem Beitrag wird der Begriæ EDA jedoch in einem sehr umfassenden Sinne gebraucht èsiehe auch Polasek, 1988è í im Zweifelsfall werden graphische Analyseverfahren und robuste Datenanalysemethoden der EDA zugerechnet. Ein wichtiges Merkmal der EDA neben der relativen Einfachheit der verwendeten Verfahren ist das bewuçte Einbeziehen von Subjektivitíat bei der Datenanalyse und -interpretation. Fox and Long è1990è sehen Tukey's Buch è1977è als Ausgangspunkt einer Revolution in der Art und Weise, wie Statistiker íuber Datenanalyse denken. EDA ist im wesentlichen eine Sammlung von Verfahren zur èsemi-è graphischen Beschreibung und Analyse von Daten í das Ríustzeug des ëdatendetektivs" zum Auænden von Mustern, Gesetzmíaçigkeiten oder Zusammenhíangen èfíur íubersichten siehe Oldenbíurger, im Druck; Smith & Prentice, 1993; Wainer & Thissen, 1993è. Dabei sind íuberraschungen erwíunscht í eine Abbildung ist vor allem dann besonders wertvoll, wenn sie uns zwingt, zu sehen, was wir nie erwartet 3 Die Graphiken in diesem Beitrag èmit Ausnahme der Stamm & Blatt Diagrammeè wurden mit SYGRAPH èwilkinson, Hill & Vang, 1992è erstellt. 4 Es wird nicht der Anspruch erhoben, daç die verwendeten Daten repríasentativ fíur neuropsychologische Patienten sind.

7 P. Sedlmeier: Signiækanztest-Ritual 47 Abbildung 1: PPE èplot plus error-barè Darstellung des Unterschieds in den Reaktionszeiten èin msecè zwischen Gruppe A und Gruppe B. Die Híohe der Síaulen steht fíur die Mittelwerte und die Líange der ëerror-bars" entspricht jeweils einem Standardfehler zu beiden Seiten der Mittelwerte. híatten ètukey, 1977, S. viè. 4.1 Stamm & Blatt Diagramm, Box-Plot Kehren wir nun zuríuck zu unserem Vergleich zwischen Gruppe A und Gruppe B. Zwei grundlegende EDA-Verfahren fíur die Visualisierung von Verteilungen sind ëstamm & Blatt" Diagramm und ëbox-plot". Sehen wir uns zuníachst das Stamm & Blatt Diagramm an. Abbildung 2 zeigt einen Sonderfall eines Stamm & Blatt Diagramms, in dem zwei solche Diagramme kombiniert sind, um einen direkten Vergleich von zwei Verteilungen zu ermíoglichen. Der ëstamm" in der Mitte des Diagramms enthíalt den Hundertstelsekunden-Anteil der Reaktionszeiten í ë15", der unterste Eintrag im Stamm bedeutet 15 Hundertstelsekunden. Die ëblíatter" geben den Rest der Information, den Millisekunden-Anteil. Die schnellste Reaktion in Gruppe A, 151 Millisekunden, wird also repríasentiert als 15 Hundertstelsekunden im Stamm und 1 Millisekunde im Blatt. Man sieht unmittelbar einen Vorteil des Stamm & Blatt Diagramms gegeníuber gíangigen Histogrammen í das Stamm & Blatt Diagramm konserviert die Rohwerte. Es tut dies in einer sehr íubersichtlichen Weise, mit in aufsteigender èoder absteigenderè Rangreihe sortierten Zahlen. Rangmaçzahlen wie der Median oder die Quartile, ein wesentlicher Bestandteil von EDA- Prozeduren, kíonnen somit leicht gefunden werden. Der Median fíur Gruppe A ist beispielsweise èberechnet als ë ëè2è und repríasentiert die zentrale Tendenz dieser Verteilung weit besser als der Mittelwert í 183. Bei einigermaçen symmetrischen Verteilungen, wie der fíur Gruppe B, ist der Unterschied zwischen beiden Maçen in der Regel gering: 198 fíur den Median versus 195 fíur den Mittelwert. Ein

8 P. Sedlmeier: Signiækanztest-Ritual , 3, 3, , 5, , 2 5, , 8, A B Gruppe Abbildung 2: Stamm & Blatt Darstellung der Reaktionszeiten èin msecè in Gruppe A und Gruppe B. Der ëstamm" enthíalt die Hundertstelsekunden und die ëblíatter" enthalten den Millisekunden-Anteil fíur jede Reaktionszeit. Stamm & Blatt Diagramm kann oft der erste èund manchmal wichtigsteè Schritt in der Datenanalyse sein. In unserem Beispiel wird deutlich, daç die Reaktionszeiten der beiden Gruppen sich klar unterscheiden. Diesen klaren Unterschied kann man durch Inspizieren des entsprechenden Error-Bar-Plots oder des p-werts nicht wahrnehmen. Es wird auch deutlich, warum der Standardfehler fíur Gruppe A soviel gríoçer ist als der fíur Gruppe B í der ëausreiçer" in Gruppe A èder Wert 279è beeinæuçt Mittelwert und Streuung betríachtlich. Dies wiederum fíuhrt zu einem nicht-signiækanten Testergebnis. Insbesondere bei kleineren Stichproben, in denen Ausreiçer oder nichtsymmetrische Verteilungen den Mittelwert stark beeinæussen kíonnen, sind Rangmaçzahlen weit weniger verzerrt als auf Mittelung beruhende Maçe der zentralen Tendenz einer Verteilung. Box-Plots illustrieren diesen Sachverhalt. Abbildung 3a zeigt die Box-Plots fíur Gruppe A und Gruppe B. Der Querstrich in der Box markiert jeweils den Median der Verteilung. Die Querstriche an den Enden der Box markieren die ëhinges" oder Quartile der Verteilungen è25è und 75èè. Eine Box beinhaltet also èungefíahrè 50è der Werte einer Verteilung. Die Líange dieser Box èinterquartilsabstandè ist víollig unabhíangig von extremen Werten, wie z.b. den 279 msec in Gruppe A und ist somit ein resistentes Streuungsmaç. EDA bietet auch eine einfache Methode zur Bestimmung von verschiedenen Klassen von Ausreiçern. Ausreiçer sind im Box-Plot klar erkennbar, sie liegen auçerhalb der kleinen Querstriche èëwhiskers"è. 5 5 In der urspríunglichen Version ètukey, 1977è, die auch heute noch amweitesten verbreitet ist èsiehe auch Abbildung 3è, werden die Whiskers folgendermaçen bestimmt èfíur eine theoretische Rechtfertigung siehe z.b. Emerson & Strenio, 1983è: Zuníachst werden kritische Abstíande von den Begrenzungen der Box, sogenannte ëinner fences", berechnet, indem man von jeder Begrenzung jeweils 1.5 Interquartilsabstíande nach ëauçen" abtríagt. Die zwei Datenpunkte, die jeweils den kritischen Abstíanden am níachsten sind èauf der Seite, die der Box zugewandt istè liefern dann die numerischen Werte fíur die Whiskers. Ein Beispiel í Berechnung des oberen Whiskers fíur die Gruppe A in Abbildung 3: Die Obergrenze der Box ist 182 è75è Quantil, berechnet als ë ëè2è und der Interquartilsabstand betríagt 18 è75è Quantil minus 25è Quantil í è. Der kritische obere Punkt èëinner fence"è ist somit 209 è *18è. Nun sucht man den Wert, der èauf der der Box zugewandten Seiteè am níachsten an dem kritischen oberen Punkt è209è liegt. Dieser Wert ist in unserem Beispiel 189, und deswegen wird an dieser Stelle auch der kleine ëwhisker-querstrich" eingezeichnet.

9 P. Sedlmeier: Signiækanztest-Ritual 49 èaè èbè Abbildung 3: Box-Plot-Darstellung der Reaktionszeiten èin msecè in Gruppe A und Gruppe B. Abbildung 3a zeigt die Standardform fíur Box-Plots. Der Querstrich in der Mitte der Box repríasentiert den Median. Die Box wird begrenzt durch die 25è und 75è Quartile. Ausreiçer, wie z.b. der Wert 279 in Gruppe A werden gesondert abgebildet. Abbildung 3b zeigt eine modiæzierte Form, die einen ërobusten Signiækanztest" ermíoglicht. Die Kerben in den Box-Plots entsprechen 95è Konædenzintervallen. Wenn die Kerben fíur beide Gruppen sich nicht íuberlappen, entspricht dies einem signiækanten Testergebnis èbei æ =.05è. Die Abstíande zwischen Median und oberer bzw. unterer Begrenzung der Box geben Aufschluç daríuber, ob die Verteilung symmetrisch oder schief ist. In unserem Beispiel wird ersichtlich, daç die Verteilungen beider Gruppen nicht ganz symmetrisch sind í die Verteilung der Werte von Gruppe A ist leicht ëlinksschief" und die Verteilung der Werte von Gruppe B ist leicht ërechtsschief". Box-Plots kíonnen auf verschiedene Weise modiæziert werden èbenjamini, 1988è. So kann z.b. Information íuber die Stichprobengríoçe in der Breite der Box repríasentiert werden. Abbildung 3b zeigt eine weitere Modiækationsmíoglichkeit, èrobusteè Konædenzintervalle, die als Kerben in der Box, mit dem Median als dem Mittelpunkt der Kerbe dargestellt werden èmcgill, Tukey & Larson, 1978è. Die Líange einer Kerbe in Abbildung 3b repríasentiert jeweils ein 95è Konædenzintervall. Die Kerben kíonnen, wie in diesem Beispiel, auch íuber die Box hinausgehen. Die Konædenzintervalle fíur die beiden Gruppen íuberlappen sich nicht í dies ist íaquivalent mit einem signiækanten Testergebnis. In der Tat ist das Ergebnis eines t-tests fíur Mittelwertsunterschiede ohne den extremen Wert in Gruppe A tè16è=4.41, p= Dies illustriert, wie sehr einzelne extreme Werte, insbesondere bei kleinen Stichproben, parametrische Verfahren beeinæussen kíonnen, nicht aber die robusten Verfahren der EDA. Stamm & Blatt Diagramme und Box-Plots sind jedoch nicht speziell nur fíur kleine Stichproben entwickelt worden, sondern kíonnen auch bei relativ groçen Stichproben helfen, interessante Informationen gut sichtbar zu machen èsiehe Tukey, 1977, fíur einige Beispieleè. 4.2 Weitere EDA-Verfahren Stamm & Blatt Diagramm und Box-Plots wurden ausfíuhrlicher dargestellt, da sie zum einen sehr einfach und zum anderen sehr vielseitig verwendbar sind. Die EDA beinhaltet jedoch eine groçe und stíandig wachsende Anzahl von weiteren Verfahren

10 P. Sedlmeier: Signiækanztest-Ritual 50 Tabelle 1: Ergebnisse fíur ëgruppe A" in einer hypothetischen Studie. Gezeigt sind Werte von 8 ëpatienten" fíur fíunf Variablen. ëreaktionszeit" ëiq" ëgenauigkeit" ëangst" ëproblemlíosen" èfíur detaillierte Beschreibungen siehe neben Tukey, 1977: DuToit, Steyn & Stumpf, 1986; Hoaglin, Mosteller & Tukey, 1983; 1985; Jambu, 1991; Polasek, 1988; Velleman & Hoaglin, 1981è. EDA-Verfahren kíonnen beliebig erweitert oder ergíanzt werden, ja Anwender werden explizit ermutigt, existierende Verfahren weiterzuentwickeln. Bei der Anwendung von EDA-Verfahren geht in der Regel keine Information verloren í sie wird nur in mehrere Komponenten aufgeteilt wie z.b. in æt und residuals bei der Analyse des Zusammenhangs zweier Variablen oder in smooth und rough bei der Analyse von Zeitreihen. Diese Aufteilung in jeweils èvorlíauægeè Modelldaten èæt, smoothè und die Abweichung der empirischen Daten hiervon èresiduals, roughè kann Gesetzmíaçigkeiten und Zusammenhíange, aber auch charakteristische Abweichungen deutlich sichtbar machen. Im Gegensatz zur herkíommlichen Datenanalyse wird oft ein besonderes Augenmerk auf die individuellen Abweichungen einzelner Datenwerte èz.b. vom Gesamtmedianè gelegt. Ein weiterer Schwerpunkt der EDA sind multivariate graphische Darstellungen. Zwei Beispiele sollen veranschaulichen, was gemeint ist. Erweitern wir zuníachst unsere Beispieldaten fíur die 8 Patienten der Gruppe A um die Werte aus 4 weiteren Variablen, ëiq", ëgenauigkeit", ëangst" und ëproblemlíosen" èsiehe Tabelle 1è. Wenn man Zusammenhíange zwischen mehr als zwei Variablen studieren will, sind einzelne isolierte Streuungsdiagramme oft nicht sehr hilfreich. Eine einfache Kombination individueller Streuungsdiagramme, die ëstreuungsdiagramm-matrix" èscatterplot matrixè vermittelt in solchen Fíallen weit mehr Information, da auf einen Blick der Zusammenhang zwischen vielen Variablen sichtbar ist èsiehe Cleveland & McGill, 1984, fíur eine umfassende Diskussion von Streuungsdiagrammenè. Abbildung 4 zeigt die Zusammenhíange zwischen den Variablen ëreaktionszeit" èhíohere Werte í líangere Reaktionszeitè, ëiq" èhíohere Werte í híoherer IQè, ëgenauigkeit" èhíohere Werte í híohere Genauigkeitè und ëangst" èhíohere Werte í gríoçere Angstè fíur Gruppe A èsiehe Tabelle 1è. Sehen wir uns die oberste Reihe der Streuungsdiagramm-Matrix in Abbildung 4 einmal genauer an. Diese Reihe zeigt die Korrelationen zwischen ërt" èreaktionszeitè und den anderen drei Variablen. Zuníachst, in dem Quadrat rechts von ërt", wird deutlich, daç ein verhíaltnismíaçig starker ènegativerè linearer Zusammenhang zwischen ërt" èordinateè und ëiq" èabszisseè besteht. Es wird auch ersichtlich, daç ein Patient èder einzelne Kreis rechts oben in dem Quadratè eine auçergewíohnlich lange Reaktionszeit hatte. Gleichzeitig ist der ëiq" Wert dieses Patienten vergleichsweise hoch. Das Ausmaç der Korrelation zwischen ërt" und ëiq" ist deswegen ziemlich niedrig èr=.11è, steigt aber drastisch an èzu r=-.93è wenn der Ausreiçer von der Analyse ausgenommen wird. Ein íahnliches Bild bietet das dritte Quadrat in der obersten Reihe, das Streuungsdiagramm fíur ërt" èordinateè versus ëgenauigkeit" èabszisseè í abgesehen von dem extremen Wert

11 P. Sedlmeier: Signiækanztest-Ritual 51 Abbildung 4: Streuungsdiagramm-Matrix èscatterplot matrixè, in der gleichzeitig die Zusammenhíange zwischen 4 Variablen, ëreaktionszeit" èërt"è, ëiq", ëgenauigkeit" und "Angst" zu sehen sind. steigt die Genauigkeit mit steigender Reaktionszeit. Das letzte Quadrat in der ersten Zeile zeigt keinen Zusammenhang zwischen ërt" und ëangst". Der entsprechende Korrelationskoeæzient ist jedoch der híochste in der Korrelationsmatrix èr=.93è. Entfernt man aber den extremen Wert, so sinkt die Korrelation auf r=-.04. Insgesamt ist ersichtlich, daç, wenn man den Ausreiçer entfernt, starke lineare Zusammenhíange zwischen ërt", ëiq" und ëgenauigkeit" bestehen, daç aber der Zusammenhang dieser Variablen mit ëangst" verschwindend gering ist. Wíurde man nur Korrelationskoeæzienten berechnen, kíame man auf diametral entgegengesetzte Ergebnisse. Ist man nicht so sehr an Zusammenhíangen zwischen mehreren Variablen íuber Personen oder Objekte hinweg interessiert, sondern daran, ob und wie sich Personen oder Objekte anhand von mehreren Variablen in Gruppen oder Cluster unterteilen lassen, so híalt die EDA auch dafíur sehr anschauliche graphische Methoden bereit. Ein Beispiel sind die von Chernoæ è1973è eingefíuhrten abstrahierten Gesichter. Jeder Bestandteil eines Gesichts repríasentiert eine Variable, und ein Gesicht repríasentiert die Auspríagungen dieser Variablen fíur eine Person oder ein Objekt. Wíurde man nun èaufgrund der Daten in Tabelle 1è nach Subgruppen in Gruppe A suchen, so wíurde man íahnliche Gesichter zusammengruppieren èsiehe Abbildung 5è. Das Ergebnis im Problemlíosetest ètabelle 1, letzte Spalteè wird in Abbildung 5 durch das ëausmaç des Líachelns" repríasentiert. Patient 8 hat die gríoçte Anzahl von richtigen Líosungen und Patient 1 die geringste. Die Variable ërt" ist durch die Neigung der Augenbrauen und der Augen repríasentiert í Patient 1 hatte die schnellste Reaktionszeit und Patient 8 die langsamste. Das Ergebnis im ëgenauigkeitstest" ist durch die Breite der Nasen wiedergegeben í Patient 7 èmit der schmalsten Naseè ist der genaueste. Die Líange der Gesichter zeigt den IQ der Patienten í Patient 1 hat den híochsten Wert und Patient 7 den niedrigsten. Verbleibt noch das Ergebnis des ëangsttests", dargestellt durch die ëhaarlíange" í hier hat Patient 8 den híochsten Wert. Fíur einen genaueren Vergleich, insbesondere wenn die Anzahl der Gesichter gríoçer ist, empæehlt es sich, diese auszuschneiden und in Gruppen zu sortieren. Aber auch die Anordnung der Gesichter in Abbildung 5 líaçt

12 P. Sedlmeier: Signiækanztest-Ritual 52 Abbildung 5: Chernoæ-Gesichter ermíoglichen visuelle Clusterbildung anhand mehrerer Variablen. Ein Gesicht entspricht einem Patienten. Die Bestandteile eines Gesichts repríasentieren verschiedene Variablen und variieren mit den Werten der Variablen. Gruppierungen erkennen. Zuníachst einmal wird deutlich, daç Patient 8 sich stark von allen anderen unterscheidet. Ein zweiter Blick legt nahe, daç seine langsame Reaktionszeit èdie Neigung der Augenbrauenè mit seiner erhíohten Angst zu tun haben kíonnte. Desweiteren kíonnten die ersten drei Patienten eine Untergruppe bilden. Alle drei haben einen verhíaltnismíaçig hohen IQ, eine schnelle Reaktion und einen eher míaçigen Wert im Genauigkeitstest í im Kontrast zu den Patienten 5, 6 und 7. Die Anzahl der gelíosten Probleme legt keine eindeutige Gruppenbildung nahe. Chernoæ-Gesichter bieten eine sehr anschauliche Methode fíur die Darstellung multivariater Zusammenhíange; ihre Níutzlichkeit ist allerdings, mehr noch als bei vergleichbaren EDA-Verfahren, von der Variablenzuordnung abhíangig. Trotz ihrer Vielseitigkeit haben auch EDA-Techniken ihre Grenzen. Insbesondere wenn man die in einer Studie gefundenen Ergebnisse hinsichtlich ihrer praktischen Bedeutsamkeit beurteilen will, legt dies oft einen Vergleich mit Ergebnissen aus anderen Studien nahe. Eæektgríoçen sind hierzu das geeignete Instrumentarium. 5 Eæektgríoçen Es existieren mittlerweile viele Míoglichkeiten, die Gríoçe eines Eæektes anzugeben èfíur íubersichten siehe Rosenthal, 1993; Rosenthal & Rosnow, 1991; Cohen, 1988è. Glíucklicherweise sind die meisten dieser Eæektgríoçen zumindest anníaherungsweise ineinander íuberfíuhrbar. Fast alle Maçe fallen entweder in die Rubrik ëzusammenhangsmaç oder Maç der erklíarten Varianz" oder in die Rubrik ë Abstandsmaç" èvgl. Richardson, 1996è. Die prinzipielle íaquivalenz dieser beiden Familien von Maçen sei anhand des Korrelationsmaçes r, dem Pearson'schen Korrelationskoeæzient, und des Abstandsmaçes d von Cohen è1962è illustriert èsiehe Tatsuoka, 1993, fíur eine mehr technische Diskussionè. 5.1 íaquivalenz von r und d Ein ësonnenblumen-diagramm", ein weiteres EDA-Verfahren, soll illustrieren, warum in vielen Fíallen sowohl Abstandsmaçe èz.b. dè als auch Korrelationsmaçe èz.b. rè gleichwertig verwendbar sind. In Abbildung 6 sind die Ergebnisse der Gruppen A und B in einem æktiven Problemlíosetest èsiehe Tabelle 1, letzte Spalte, fíur die Wer-

13 P. Sedlmeier: Signiækanztest-Ritual 53 Abbildung 6: Ein ësonnenblumen-diagramm" fíur den Zusammenhang zwischen Gruppenmitgliedschaft èa und Bè und der Anzahl der in einem ëproblemlíosetest" gelíosten Aufgaben. te der Gruppe Aè dargestellt. Der Problemlíosetest enthíalt 10 Aufgaben und fíur jedes Mitglied der Gruppen A und B ist die Zahl der richtigen Líosungen angegeben. In einem gewíohnlichen Streuungsdiagramm wíurden in diesem Fall viele Werte íubereinander gezeichnet werden. Ein Sonnenblumen-Diagramm ermíoglicht jedoch auf einfache Weise die Darstellung mehrfach vorkommender Werte, insbesondere bei groçen Stichproben èvgl. Cleveland & McGill, 1984è. Bei einem Sonnenblumen- Diagramm beginnt man mit einem Punkt fíur das erste Datum, das in eine bestimmte Kategorie fíallt und fíugt dann fíur jedes weitere Datum in dieser Kategorie ein ëblíutenblatt" hinzu. Sehen wir uns zuníachst die Híauægkeitsverteilung fíur Gruppe A an èabbildung 6, untere ëreihe"è. Ein Patient hat 3 Líosungen richtig èdas kleine Rechteck links unten in Abbildung 6è, zwei weitere Patienten haben 4 richtige Líosungen è2 direkt aneinandergefíugte Blíutenblíatter, wiedergegeben als ein líangerer vertikaler Strichè, vier Patienten haben 5 richtige Líosungen è4 Blíutenblíatter in Form eines Kreuzesè, und ein Patient erreichte 6 Punkte im Problemlíosetest. Die obere Reihe von ësonnenblumen" in Abbildung 6 zeigt die Verteilung der Líosungshíauægkeiten fíur Gruppe B èein Patient mit 5, drei Patienten mit 6, fíunf Patienten mit 7 und zwei Patienten mit 8 richtigen Líosungen - Werte sind nicht in Tabelle 1 enthaltenè. Fíur beide Gruppen lassen sich Mittelwerte und Standardabweichungen berechnen und somit auch ein standardisiertes Abstandsmaç. Aber wo ist die Korrelation? Wenn man die Gruppenzugehíorigkeit mit 0 und 1 kodiert, kann man die Korrelation zwischen Gruppenzugehíorigkeit und Líosungshíauægkeit berechnen. Das Ausmaç der Korrelation wird generell um so gríoçer, je weniger sich die Werte fíur die Líosungshíauægkeiten beider Gruppen íuberlappen. Sie wird 0, wenn diese Werte sich exakt íuberlappen. Ebenso variiert ein Abstandsmaç mit dem Ausmaç der íuberlappung beider Gruppen.

14 P. Sedlmeier: Signiækanztest-Ritual Berechnung von Eæektgríoçen Eæektgríoçen kíonnen auf drei Arten berechnet werden, aus Rohdaten, aus anderen Eæektgríoçen und aus dem Ergebnis von Signiækanztests èz.b. Friedman, 1968; Rosenthal & Rosnow, 1991è. Nehmen wir die Werte in Abbildung 6 als Beispiel. Die Korrelation zwischen Ergebnis im Problemlíosetest und Gruppenzugehíorigkeit èkodiert als ë0" fíur Gruppe A und als ë1" fíur Gruppe Bè ist r=.77. Das Abstandsmaç d ècohen, 1988, S. 66è wird berechnet als 6 d = X A, X B s pooled ; wobei s pooled = s PèXA, X A è 2 + P èx B, X B è 2 : n A + n B, 2 X A und X B sind die Mittelwerte der beiden Gruppen A und B und n A und n B sind die jeweiligen Gruppengríoçen. In unserem Beispiel ergeben sich folgende Werte ègerundetè: X A = 4.63, X B = 6.73, s spooled = 0.91 und somit d= Das Abstandsmaç d kann nun wieder in ein Korrelationsmaç íuberfíuhrt werden. Dies geschieht mithilfe der Formel s d r = 2 n A n B d 2 n A n B +èn A + n B èdf wobei df = n A + n B, 2. Das Resultat fíur unser d=-2.31 ist somit wieder r=.77. Wie kann nun eine Eæektgríoçe aus einem Signiækanztest berechnet werden? Wie schon eingangs erwíahnt gilt generell das Gleichungs-Geríust: Signiækanztest = Eæektgríoçe x Gríoçe der Studie. Dieses Gleichungs-Geríust kann natíurlich nicht direkt verwandt werden, sondern hat eher den Status einer ëmerkregel". Zwei speziæsche Gleichungen, die fíur die Berechnung von d und r benutzt werden kíonnen, sind èrosenthal & Rosnow, 1991, S. 310è: r na n B t = d æ n A + n B und t = r p 1, r 2 æ p df; wobei d und der Ausdruck mit den r's jeweils fíur die Eæektgríoçe stehen und die Gríoçe der Studie jeweils durch eine Funktion von df oder n A und n B ausgedríuckt ist. Aufgelíost nach d, bzw r erhalten wir: d = tp n A + n B p na n B und s t r = 2 t 2 + df ; 6 Die Eæektgríoçe d war von Cohen urspríunglich èfíur Teststíarkeberechnungenè als Populationsmaç deæniert worden und bis heute ist der Gebrauch nicht ganz einheitlich. Die hier verwendete Version von d wird manchmal auch as ëhedges's g" bezeichnet èz.b. Rosenthal & Rosnow, 1991, S. 446è und dient zur Schíatzung des Populationseæekts. Fíur sehr kleine Stichproben empæehlt es sich allerdings, eine Korrekturformel zu verwenden èvgl. Richardson, 1996è, da sonst der Populationseæekt íuberschíatzt wird. In diesem Artikel wurde trotz einer verhíaltnismíaçig kleinen Stichprobe die unkorrigierte Version von d verwendet, weil sich verschiedene Zusammenhíange damit leichter und anschaulicher illustrieren lassen.

15 P. Sedlmeier: Signiækanztest-Ritual 55 wobei t fíur den Wert der t-statistik mit df Freiheitsgraden steht und n A und n B die Gríoçen der beiden Gruppen sind. Der unabhíangig berechnete t-wert ist ègerundetè. Setzt man diesen t-wert und die entsprechenden Werte fíur df è=17è, n A è=8è und n B è=11è in die beiden Gleichungen ein, so erhíalt man wieder d=-2.31 und r=.77. Auch diese kurze íubung demonstriert die prinzipielle íaquivalenz von Abstands- und Korrelationsmaçen. 5.3 Interpretation von Eæektgríoçen Es gibt keine allgemeingíultigen Regeln fíur die Interpretation von Eæektgríoçen. In der Regel existiert jedoch eine Forschungstradition, deren Analyse bei der Interpretation helfen kann. Ein Eæekt kann dann relativ zu den Eæekten, die in dieser Forschungstradition zu ænden sind, interpretiert werden. Abhíangig von den Fragestellungen, die untersucht werden, kann ein groçer Eæekt wenig aussagekríaftig, und ein kleiner Eæekt manchmal schon íauçerst wichtig sein èvgl. Rosenthal, 1993è. Falls gar keine Anhaltspunkte vorliegen, kann man fíur eine vorlíauæge Interpretation die mittlerweile als ëkonvention" betrachteten folgenden Werte fíur d und r verwenden ècohen, 1992è: Als kleine Eæekte gelten d=.2 und r=.1, mittlere Eæekte sind d=.5 und r=.3, und als groçe Eæekte werden d=.8 und r=.5 betrachtet. Diese Werte waren anfangs nicht empirisch begríundet worden, doch die mittleren Eæekte scheinen den in verschiedenen Bereichen der Psychologie zu ændenden durchschnittlichen Eæekten gut zu entsprechen èz.b. Cooper & Findley, 1982; Haase, Waechter & Solomon, 1982; Sedlmeier & Gigerenzer, 1989è. Besonders wichtig ist die Berechnung von Eæektgríoçen, wenn die H 0 die Operationalisierung der Forschungshypothese ist. Ein nichtsigniækantes Ergebnis sagt in diesem Fall wenig aus, da in solchen Studien die Teststíarke oft sehr gering ist èsedlmeier & Gigerenzer, 1989è. Wenn dann auch noch ein substantieller Eæekt gefunden wird í schon ein ëkleiner" Eæekt díurfte in diesem Fall als substantiell gelten í ist es nicht angebracht, das Ergebnis als ënulleæekt" zu interpretieren. Wann immer míoglich, sollten vor der Interpretation einer Eæektgríoçe die zugrundeliegenden Verteilungen inspiziert werden. Lassen sich starke Asymmetrien oder deutliche Ausreiçer erkennen, dann kíonnen auch Eæektgríoçen stark beeinæuçt sein. Abhilfen in einem solchen Fall kíonnten das Nichteinbeziehen von Ausreiçern oder eine Transformation der Daten sein. Manchmal werden jedoch auch einfache EDA-Verfahren ausreichen, um solche Daten sinnvoll zu interpretieren. Bisher haben wir immer íuber die Analyse der Resultate einzelner Studien gesprochen. Ein konsequenter Schritt von der Eæektgríoçenberechnung fíur Einzelstudien hin zur quantitativen Integration einer Reihe von Studien ist die Metaanalyse. 6 Mehr Eæektgríoçen í Metaanalyse. Metaanalyse ist ein Sammelname fíur eine Reihe von Techniken zur quantitativen Integration von Forschungsergebnissen èfíur íubersichten siehe Bangert-Drowns, 1986; Beelmann & Bliesener, 1994è. Ein Beispiel soll demonstrieren, warum die Metaanalyse der herkíommlichen, bei Literaturíubersichten oft angewandten "Signiækanz- Zíahl" - Methode íuberlegen ist. Fíur diese Demonstration habe ich die ëpsychometrische Metaanalyse"èHunter & Schmidt, 1990è gewíahlt, da dieses Verfahren nicht nur Informationen íuber den Populationseæekt liefert, sondern auch erlaubt, auf elegante Weise Hypothesen íuber das Zustandekommen der Varianz in den analysierten Studien zu untersuchen.

16 P. Sedlmeier: Signiækanztest-Ritual Ein Beispiel Der Input fíur eine Metaanalyse sind Eæektgríoçen aus Einzelstudien, aus denen dann, und das ist meist das Hauptanliegen der Metaanalyse, der Populationseæekt geschíatzt werden soll. Tabelle 2 zeigt die Eæektgríoçen èkorrelationenè aus 30 æktiven Studien zur Wirksamkeit von Aufmerksamkeitstrainings. ëprogramm X" und ëprogramm Y" unterscheiden sich nach Ansicht der Experten nur geringfíugig und sollen deshalb einer gemeinsamen Analyse unterworfen werden. In jeder der 30 Studien wurde eine Kontrollgruppe mit einer Experimentalgruppe verglichen und die Stichprobengríoçe pro Gruppe war jeweils n=20. Zuníachst werden in der psychometrischen Metaanalyse die einzelnen Eæektgríoçen von Artefakten gesíaubert, worauf an dieser Stelle nicht eingegangen werden kann èsiehe hierzu Hunter & Schmidt, 1990è. Danach wird der mit der Stichprobengríoçe gewichtete durchschnittliche Eæekt berechnet: r Mittel = P N i r i = P N i, wobei N i fíur die Gesamt-Stichprobengríoçe in Studie i èkonstant N=40 in unserem Beispielè und r i fíur den in Studie i gefundenen Eæekt steht. Der gesuchte Mittelwert fíur unsere 30 Studien ist r Mittel =.36. Beim níachsten Schritt wird klar, warum dieses Verfahren ëpsychometrische Metaanalyse" genannt wurde. In Analogie zur in der klassischen Testtheorie verwendeten Formel X P = T P + e P í das beobachtete Testergebnis X P setzt sich zusammen aus dem ëwahren Wert" T P und einem Fehleranteil e P í verwenden Hunter und Schmidt è1990è die folgende Gleichung: ç 2 r = ç2 ç + ç2 e í die Varianz der analysierten Stichproben-Korrelationen setzt sich zusammen aus der Varianz der Populations-Korrelationen und der beim Ziehen von Zufallsstichproben zu erwartenden Fehler-Varianz. Wenn nun die Varianz in den gefundenen Eæektgríoçen ausschlieçlich durch den Stichprobenfehler zustande kam, míuçte die Varianz der Populations-Korrelationen 0 sein. Dies wíurde dann heiçen, daç die Eæektgríoçen aus einer einzigen Population èund nicht aus mehreren unterschiedlichen Populationenè stammen. Wie steht esnun in unserem Beispiel damit? Die Fehler-Varianz èçeè 2 und die Varianz der Stichprobenkorrelationen èçrè 2 werden folgendermaçen berechnet èhunter & Schmidt, 1990, S í die Autoren verwenden in ihren Beispielen konsistent das Symbol ç anstelle von sè: ç 2 e = è1, r2 Mittel è2 N, 1 und ç 2 r = P ëni èr i, r Mittel è 2 ë P Ni ; wobei N der Mittelwert aller Stichprobengríoçen pro Studie ist. In unserem Beispiel èmit den Werten aus Tabelle 2è ist ç 2 e =.0194 und die mit der Stichprobengríoçe pro Studie gewichtete Varianz der Stichproben-Korrelationen ist ç 2 r = Die Varianz der Populations-Korrelationen ist somit ç 2 ç = Diese Varianz ist zwar verhíaltnismíaçig klein, schlieçt aber nicht aus, daç der gefundene durchschnittliche Eæekt nicht einen, sondern mehrere Populationseæekte repríasentiert. Der níachste Schritt ist deshalb, nach theoretisch fundierten Moderatorvariablen zu suchen. Eine solche Moderatorvariable in unserem Beispiel ist die Art des angewandten Programms, X oder Y. Die Ergebnisse der entsprechenden Analyse dieser zwei Subgruppen sind, zusammen mit den urspríunglichen Ergebnissen, in Tabelle 3 aufgelistet. Wenn man fíur die beiden Programme getrennte Analysen durchfíuhrt, werden die Varianzen der Populations-Korrelationen deutlich kleiner è fíur Programm X und.0002 fíur Programm Yè als die Varianz der Populations-Korrelationen fíur alle 30 Studien èunterste Zeile in Tabelle 3è. 7 Dies deutet darauf hin, daç Programm 7 Die negative Varianz der Populationskorrelationen fíur Programm X èçç = è ist zuríuckfíuhrbar auf den Schíatzfehler bei der Bestimmung der Varianz der Stichprobenkorrelatio-

17 P. Sedlmeier: Signiækanztest-Ritual 57 Tabelle 2: Ergebnisse aus 30 hypothetischen Studien, in denen Programm X, bzw. Programm Y mit je einer Kontrollgruppe verglichen wurde. Der Treatment-Eæekt èergebnis fíur Trainingsgruppe minus Ergebnis fíur Kontrollgruppeè ist als r wiedergegeben. Die Werte sind Zufallsziehungen aus zwei Stichprobenverteilungen mit den vorgegebenen Mittelwerten ç=.24 und ç=.44 fíur Programm X und Programm Y respektive. r Programm signiækant èæ=.05, zweiseitigè 0.41 X ja 0.63 Y ja 0.50 Y ja 0.52 Y ja 0.43 Y ja 0.02 X nein 0.39 X ja 0.53 X ja 0.31 Y nein 0.36 Y ja 0.43 X ja 0.15 X nein 0.33 X ja 0.33 X ja 0.32 Y ja 0.22 X nein 0.68 Y ja 0.20 X nein 0.18 X nein 0.33 Y ja 0.62 Y ja 0.21 Y nein 0.45 X ja 0.39 Y ja 0.44 Y ja 0.41 X ja 0.11 X nein 0.14 X nein 0.46 Y ja 0.33 Y ja Tabelle 3: Ergebnisse der psychometrischen Metaanalyse ègerundetè aufgeteilt nach ëprogramm X" versus ëprogramm Y". Die Ergebnisse fíur die Gesamtgruppe èëkombiniert"è sind zum Vergleich nochmals dargeboten. Programm X Programm Y kombiniert r Mean ç 2 r ç 2 e ç 2 ç

18 P. Sedlmeier: Signiækanztest-Ritual 58 ç =.24 ç = , 5, 4, 1 1 2, , 3, 3 3 1, 2, 3, 3, 6, 9 5, 3, 1, 1 4 3, 4, , 2 6 2, 3, 8 Programm X Programm Y Abbildung 7: Stamm-und-Blatt Darstellung der Ergebnisse aus 30 hypothetischen Studien, in denen Programm X, bzw. Programm Y mit je einer Kontrollgruppe verglichen wurden èjeweils 15 Studienè. Der Treatment-Eæekt èergebnis fíur Trainingsgruppe minus Ergebnis fíur Kontrollgruppeè ist als r wiedergegeben. Die Werte sind Zufallsziehungen aus zwei Stichprobenverteilungen mit den Mittelwerten r=.24 und r=.44 fíur Programm X und Programm Y respektive. X weniger wirksam ist als Programm Y. In der Tat wurden die Daten aus zwei unterschiedlichen Stichprobenverteilungen fíur r mit den Mittelwerten ç=.24 und ç=.44 fíur Programm X, bzw Programm Y mittels einer Computersimulation generiert. 8 Abbildung 7, eine Stamm & Blatt Darstellung der Information in Tabelle 2 zeigt èneben der Demonstration, daç ein Stamm & Blatt Diagramm eine viel kompaktere und íubersichtlichere Darstellung erlaubt als eine Tabelleè eine fíur manche vielleicht erstaunliche Tatsache, die man leicht aus dem Blick verliert, wenn man die Ergebnisse von Einzelstudien beurteilt: Die Variation, die alleine aus dem Stichprobenfehler herríuhrt, ist enorm. Fíur Programm X variieren die Werte zwischen r=.02 und r=.53 und fíur Programm Y ergab die Simulation Werte zwischen r=.21 und r=.68. Diese kleine Demonstration verdeutlicht, daç das alleinige Auszíahlen von Signiækanzen keine zufriedenstellenden Ergebnisse liefern kann. Sie zeigt aber auch den Grund fíur die Wichtigkeit von Replikationen. 6.2 Probleme der Metaanalyse Kritiker, aber auch íuberzeugte Anhíanger der Metaanalyse, haben auf eine Reihe von èoft líosbarenè Problemen dieses Ansatzes hingewiesen. Das ëmíull rein Míull raus Problem" thematisiert die unterschiedliche Qualitíat von Studien. Methodisch sehr schwache Studien sollten das Ergebnis einer Metaanalyse weniger stark bestimmen èverzerrenè als methodisch ësaubere" Studien. In diesem Fall bieten sich zumindest zwei Líosungen an, èiè das Benutzen von Ausschluçkriterien oder èiiè die Einfíuhrung einer Moderatorvariablen, anhand derer die Studien nach ihrer methodischen Qualitíat kodiert werden èwas eine getrennte Analyse ermíoglicht, falls die Eæekte fíur die Subgruppen sehr unterschiedlich sindè. Das ëabhíangigkeits-problem" entsteht, wenn mehrere, nicht aus unabhíangigen Stichproben gewonnene Eæektgríoçen pro Studie in die Analyse eingehen. Vor allem, wenn eine einzelne Studie viele Effektgríoçen beisteuert, kann die durchschnittliche Eæektgríoçe, das Hauptergebnis der Metaanalyse, stark verzerrt sein. Die Beschríankung auf eine Eæektgríoçe pro Studie kann manchmal das Problem líosen. Das ë íapfel und Birnen"-Problem kann nen. Diese geschíatzte Varianz wird in der Regel etwas fehlerbehaftet sein, solange die Anzahl der Studien nicht gegen unendlich geht èsiehe Hunter & Schmidt, 1990, S è. 8 Zuníachst wurden zufíallig je 15 Stichproben aus einer nichtzentralen t-verteilung mit 38 df gezogen. Die Werte fíur die Nichtzentralitíatsparameter waren 1.5 fíur ëprogramm X" und 3 fíur ëprogramm Y". Sodann wurden mittels der Formel r =èt 2 =èt 2 + dfèè 1=2 die t-werte in Korrelationen transformiert. Alle Berechnungen wurden mit Lisp-Stat ètierney, 1990è durchgefíuhrt.

19 P. Sedlmeier: Signiækanztest-Ritual 59 sowohl fíur unabhíangige als auch fíur abhíangige Variablen auftreten. Die Analyse einer undiæerenzierten Sammlung von Studien zu einem Thema kann zur Nicht- Interpretierbarkeit der resultierenden mittleren Eæektgríoçe fíuhren. Eine Abhilfe bietet die Einteilung in Subgruppen anhand einer oder mehrerer unabhíangiger Variablen èz.b. Geschlechtè. Gíanzlich uninterpretierbar kann das Ergebnis einer Metaanalyse sein, wenn mehrere sehr unterschiedliche abhíangige Variablen èz.b. Fremdrating und Lautes-Denken Protokolleè in die Analyse eingehen. In solchen Fíallen díurften nach abhíangigen Variablen getrennte Analysen der einzige Ausweg sein. Eine Metaanalyse ist besser als die ësigniækanz-zíahl" Methode, sie ist aber, wie alle hier besprochenen Verfahren, kein automatisches Datenanalyseinstrument. Es gibt sicher Fíalle in denen es keinen Sinn macht, eine Metaanalyse durchzufíuhren. Generell wird das Ergebnis einer Metaanalyse um so befriedigender sein, je príaziser die in ihr verfolgte Fragestellung war. Die Bewertung des Ergebnisses wiederum híangt von einer profunden Kenntnis des analysierten inhaltlichen Bereichs ab. 7 Fazit Ausgehend von einer Kritik des Signiækanztestens wurden verschiedene Alternativen èoder Ergíanzungenè dazu vorgeschlagen, insbesondere die Verwendung von Verfahren der EDA und die Berechnung von Eæektgríoçen. Obwohl ein Teil der hier vorgestellten Verfahren explizit als ëexplorativ" betitelt ist, heiçt das nicht, daç diese Verfahren auf die Hypothesenændung beschríankt bleiben míussen und nicht zur Hypothesenpríufung eingesetzt werden kíonnen. Eine klare Trennung in einen ëentdeckungskontext", in dem die Hypothesenændung stattændet und einen ëbegríundungskontext", in dem die Hypothese dann gepríuft wird, entspricht sowieso nicht der Forschungspraxis èvgl. Gigerenzer, 1991è. Die hier vorgestellten Verfahren haben einen berechtigten Platz in allen Stadien psychologischer Forschung èvgl. Erdfelder, 1994è. Demgemíaç sollten sie auch breiteren Raum in der Statistikausbildung ænden. Insbesondere EDA-Verfahren kíonnten schon im schulischen Stochastikunterricht gewinnbringend eingesetzt werden èbiehler, 1987; Dunkels, 1987è. Dieser Artikel ist ein Versuch, den Leser zur diæerenzierten Anwendung alternativer Methoden zu motivieren. Die hier vorgestellten Verfahren sollten nicht dazu verfíuhren, sie solange ëdurchzuprobieren", bis irgendein Eæekt gefunden ist. Im Zweifelsfall ist es sicher das beste, eine Studie zu replizieren. Es sollte auch klar geworden sein, daç es keine Patentlíosungen fíur die Analyse psychologischer Daten gibt. Der Wunsch nach Patentlíosungen ist wohl ein weiterer Grund fíur die Beliebtheit des Signiækanztest-Rituals èsalsburg, 1985è. 9 EDA-Verfahren und auch Eæektgríoçen kommen diesem Wunsch nicht sehr entgegen. Bei jeder Interpretation von Daten ist explizit subjektives Urteil mit im Spiel. Was angestrebt werden kann, ist ein durch eine geeignete Datenanalyse gewonnener Konsens unter den Experten in einem bestimmten Gebiet, nicht aber das Ersetzen eines Rituals durch ein anderes. 9 Kíonnte der Signiækanztest nicht auch so erfolgreich sein, weil im Gegensatz zur Interpretation von EDA-Resultaten oder Eæektgríoçen Subjektivitíat keine Rolle spielt, weil er ëobjektive" Ergebnisse liefert? Tatsíachlich ist Signiækanztesten auch mit einer Reihe subjektiver Entscheidungen verbunden èvgl. Berger & Berry, 1988è. Zuníachst muç ein geeigneter Test ausgewíahlt werden í muç ich z.b. aufgrund des Skalenniveaus der abhíangigen Variablen èz.b. Werte auf einer Rating-Skalaè einen parameterfreien Test benutzen oder kann es auch ein gíangiges parametrisches Verfahren sein? Sind andere Anwendungsvoraussetzungen wie etwa Varianzengleichheit, Normalverteilung in der Population usw. erfíullt? Wie soll ich mein æ und mein æ wíahlen? Und last not least í Wie beurteile ich meinen p-wert? Die Art und Weise, wie Signiækanztesten manchmal betrieben wird, líaçt vergessen, daç auch der Signiækanztest kein automatisiertes Datenanalyse-Instrument ist.

20 P. Sedlmeier: Signiækanztest-Ritual 60 Literatur ë1ë Acree, M. C. è1979è. Theories of statistical inference in psychological research: A historico-critical study. Dissertation Abstracts International, 39, 5073B. èuniversity Microælms No è ë2ë Atkinson, D. R., Furlong, M. J., & Wampold, B. E. è1982è. Statistical signiæcance, reviewer evaluations, and the scientiæc process: Is there a èstatisticallyè signiæcant relationship? Journal of Counseling Psychology, 29, ë3ë Bangert-Drowns, R. L. è1986è. Review of developments in meta-analytic method. Psychological Bulletin, 99, ë4ë Beelmann, A. & Bliesener, T. è1994è. Aktuelle Probleme und Strategien der Metaanalyse. Psychologische Rundschau, 45, ë5ë Benjamini, Y. è1988è. Opening the box of a boxplot. The American Statistician, 42, ë6ë Berger, J. O. & Berry, D. A., è1988è. Statistical analysis and the illusion of objectivity. American Scientist, 76, ë7ë Biehler, R. è1987è. Exploratory data analysis and the secondary stochastics curriculum. In R. Davidson & J. Swift èeds.è. The Proceedings of the Second International Conference on teaching statistics ès è. Victoria, B. C.: University of Victoria. ë8ë Blackwelder, W. C. è1982è. ëproving the null hypothesis" in clinical trials. Controlled Clinical Trials, 3, ë9ë Bredenkamp, J. è1972è. Der Signiækanztest in der psychologischen Forschung. FrankfurtèMain: Akademische Verlagsgesellschaft. ë10ë Bredenkamp, J., & Feger, H. è1970è. Kriterien fíur die Entscheidung íuber die Aufnahme empirischer Arbeiten in die Zeitschrift fíur Sozialpsychologie. Zeitschrift fíur Sozialpsychologie, 1, ë11ë Butler, D. L., & Neudecker, W. è1989è. A comparison of inexpensive statistical packages for microcomputers running MS-DOS. Behavior Research Methods, Instruments, & Computers, 21, ë12ë Carver, R. P. è1993è. The case against statistical signiæcance testing, revisited. Journal of Experimental Education, 61, ë13ë Chernoæ, H. è1973è. The use of faces to represent points in k-dimensional space graphically. Journal of the American Statistical Association, 60, ë14ë Cleveland, W. S. & McGill, R. è1984è. The many faces of a scatterplot. Journal of the American Statistical Association, 79, ë15ë Cohen, J. è1962è. The statistical power of abnormal-social psychological research: A review. Journal of Abnormal and Social Psychology, 65, ë16ë Cohen, J. è1988è. Statistical power analysis for the behavioral sciences è2nd ed.è. Hillsdale, NJ: Lawrence Erlbaum. ë17ë Cohen, J. è1990è. Things I have learned èso farè. American Psychologist, 45, ë18ë Cohen, J. è1992è. A power primer. Psychological Bulletin, 112, ë19ë Cohen, J. è1994è. The earth is round èpé.05è. American Psychologist, 49, ë20ë Cohen, L. H. è1979è. Clinical psychologists' judgment of the scientiæc merit and clinical relevance of psychotherapy outcome research. Journal of Consulting and Clinical Psychology, 47, ë21ë Cooper, H. & Findley, M. è1982è. Expected eæect sizes: Estimates for statistical power analysis in social psychology. Personality and Social Psychology Bulletin, 8, ë22ë Coursol, A., & Wagner, E. E. è1986è. Eæect of positive ændings on submission and acceptance rates: A note on meta analysis bias. Professional Psychology: Research and Practice, 17,

METHODEN DER ETHNOGRAPHIE

METHODEN DER ETHNOGRAPHIE METHODEN DER ETHNOGRAPHIE Heft I Netzwerkanalyse Eine praxisorientierte Einführung Michael Schnegg und Hartmut Lang IMPRESSUM Herausgeber : Hartmut Lang und Michael Schnegg Redaktion: Susanne Klein, Hartmut

Mehr

Beziehungserfahrungen und Partnerschaftsverläufe vor der Heirat

Beziehungserfahrungen und Partnerschaftsverläufe vor der Heirat Norbert F. Schneider & Heiko Rüger Beziehungserfahrungen und Partnerschaftsverläufe vor der Heirat Eine empirische Analyse von Angehörigen der Eheschließungskohorte 1999-2005 Experiences with relationships

Mehr

ZUMA-Arbeitsbericht Nr. 96/05. Verfahren zur Evaluation von Survey - Fragen: Ein Überblick. Peter Prüfer und Margrit Rexroth.

ZUMA-Arbeitsbericht Nr. 96/05. Verfahren zur Evaluation von Survey - Fragen: Ein Überblick. Peter Prüfer und Margrit Rexroth. ZUMA-Arbeitsbericht Nr. 96/05 Verfahren zur Evaluation von Survey - Fragen: Ein Überblick Peter Prüfer und Margrit Rexroth Mai 1996 ZUMA Quadrat B2,1 Postfach 12 21 55 D-68072 Mannheim Telefon: (0621)

Mehr

Repräsentativität von Stichproben

Repräsentativität von Stichproben Peter von der Lippe, Andreas Kladroba Repräsentativität von Stichproben Prof. Dr. P. von der Lippe Universität Essen Fachbereich Wirtschaftswissenschaften Universitätsstr. 1 45117 Essen Tel. 001/183-3639

Mehr

Hinweise zur Beurteilung von Messungen, Messergebnissen und Messunsicherheiten (ABW) ( Fehlerrechnung )

Hinweise zur Beurteilung von Messungen, Messergebnissen und Messunsicherheiten (ABW) ( Fehlerrechnung ) Seite 1 Hinweise zur Beurteilung von Messungen, Messergebnissen und Messunsicherheiten ( Fehlerrechnung ) Scientific knowledge is a body of statements of varying degree of certainty some most unsure, some

Mehr

Über die Analyse randomisierter Suchheuristiken und den Entwurf spezialisierter Algorithmen im Bereich der kombinatorischen Optimierung

Über die Analyse randomisierter Suchheuristiken und den Entwurf spezialisierter Algorithmen im Bereich der kombinatorischen Optimierung Über die Analyse randomisierter Suchheuristiken und den Entwurf spezialisierter Algorithmen im Bereich der kombinatorischen Optimierung Dissertation zur Erlangung des Grades eines Doktors der Naturwissenschaften

Mehr

'Wer verdient wie viel?' : eine Analyse des Verdienstes von Münchner Soziologieabsolventen Berger, Roger; Kriwy, Peter

'Wer verdient wie viel?' : eine Analyse des Verdienstes von Münchner Soziologieabsolventen Berger, Roger; Kriwy, Peter www.ssoar.info 'Wer verdient wie viel?' : eine Analyse des Verdienstes von Münchner Soziologieabsolventen Berger, Roger; Kriwy, Peter Veröffentlichungsversion / Published Version Zeitschriftenartikel /

Mehr

Furcht vor Erfolg - Zusammenhang mit sozialer Angst und Furcht vor Kritik

Furcht vor Erfolg - Zusammenhang mit sozialer Angst und Furcht vor Kritik Universität Regensburg Institut für Experimentelle Psychologie Lehrstuhl für Psychologie VI Prof. Dr. H. Lukesch PWP: Empirische Erhebungen zum Bereich WS 2001/02 der Medien- und Gesundheitspsychologie

Mehr

Hinweise zur inhaltlichen und formalen Gestaltung von Seminar- und Diplomarbeiten im Fach Psychologie

Hinweise zur inhaltlichen und formalen Gestaltung von Seminar- und Diplomarbeiten im Fach Psychologie Hinweise zur inhaltlichen und formalen Gestaltung von Seminar- und Diplomarbeiten im Fach Psychologie [Stand 2008-12] Verfasser(innen): Eva Wimmer, Antje Hornung & Helmut Lukesch Lehrstuhl für Psychologie

Mehr

Im Vorfeld der Befragung: Planung, Fragebogenentwicklung, Pretesting

Im Vorfeld der Befragung: Planung, Fragebogenentwicklung, Pretesting ZUMA-Arbeitsbericht 98/02 Im Vorfeld der Befragung: Planung, Fragebogenentwicklung, Pretesting Rolf Porst Mai 1998 ZUMA Quadrat B2,1 Postfach 12 21 55 D-68072 Mannheim Telefon: (0621) 12 46-228 Telefax:

Mehr

Offliner-Studie Qualitative Ursachenforschung zur Nicht-Nutzung des Internet in Österreich

Offliner-Studie Qualitative Ursachenforschung zur Nicht-Nutzung des Internet in Österreich Wien, August 2011 Offliner-Studie Qualitative Ursachenforschung zur Nicht-Nutzung des Internet in Österreich Dr. Flooh Perlot (Institut für Strategieanalysen) Thomas Holzinger (Mediaclub) Univ.-Prof. Dr.

Mehr

Der Internetdienst für Ihre Online-Umfragen. Leitfaden für die Erstellung eines Fragebogens

Der Internetdienst für Ihre Online-Umfragen. Leitfaden für die Erstellung eines Fragebogens Der Internetdienst für Ihre Online-Umfragen Leitfaden für die Erstellung eines Fragebogens Weitere in dieser Reihe bei 2ask erschienene Leitfäden Leitfaden Mitarbeiterbefragung Worauf sollte bei einer

Mehr

SCHRIFTENREIHE ENERGIESYSTEME DER ZUKUNFT

SCHRIFTENREIHE ENERGIESYSTEME DER ZUKUNFT SCHRIFTENREIHE ENERGIESYSTEME DER ZUKUNFT Dezember 2014 Analyse Zur Interpretation von Energieszenarien Christian Dieckhoff Hans-Jürgen Appelrath Manfred Fischedick Armin Grunwald Felix Höffler Christoph

Mehr

Männer sind Schweine! : Negative Auswirkungen von Geschlechtsstereotypen auf Männer. FernUniversität in Hagen

Männer sind Schweine! : Negative Auswirkungen von Geschlechtsstereotypen auf Männer. FernUniversität in Hagen Männer sind Schweine! : Negative Auswirkungen von Geschlechtsstereotypen auf Männer Bachelorarbeit zur Erlangung des akademischen Grades Bachelor of Science im Studiengang Psychologie an der FernUniversität

Mehr

Konfidenzintervalle so einfach wie möglich erklärt

Konfidenzintervalle so einfach wie möglich erklärt Konfidenzintervalle so einfach wie möglich erklärt Wolfgang Ludwig-Mayerhofer, Universität Siegen, Philosophische Fakultät, Seminar für Sozialwissenschaften Vorbemerkung: Es handelt sich um die Anfang

Mehr

Testen von Hypothesen

Testen von Hypothesen Eidgenössische Technische Hochschule Zürich Ecole polytechnique fédérale de Zurich Politecnico federale di Zurigo Swiss Federal Institute of Technology Zurich Testen von Hypothesen Ein Leitprogramm in

Mehr

Leitfaden zur Notengebung bei schriftlichen Prüfungen

Leitfaden zur Notengebung bei schriftlichen Prüfungen Leitfaden zur Notengebung bei schriftlichen Prüfungen LET Lehrentwicklung und -technologie Leitfaden zur Notengebung bei schriftlichen Prüfungen Eine mit Hyperlinks versehene PDF-Version des Leitfadens

Mehr

Claus Gnutzmann & Frank Rabe Claus Gnutzmann & Frank Rabe. 1 Die Globalisierung des Englischen als Wissenschaftssprache

Claus Gnutzmann & Frank Rabe Claus Gnutzmann & Frank Rabe. 1 Die Globalisierung des Englischen als Wissenschaftssprache Fachsprache 1 2 / 2014 Schreiben und Publizieren in der Fremdsprache Englisch Articles / Aufsätze Das ist das Problem, das hinzukriegen, dass es so klingt, als hätt es ein Native Speaker geschrieben. Wissenschaftliches

Mehr

Mobbing bei Schülerinnen und Schülern in der Bundesrepublik Deutschland. Eine empirische Untersuchung auf der Grundlage einer Online-Befragung 1.

Mobbing bei Schülerinnen und Schülern in der Bundesrepublik Deutschland. Eine empirische Untersuchung auf der Grundlage einer Online-Befragung 1. Mobbing bei Schülerinnen und Schülern in der Bundesrepublik Deutschland. Eine empirische Untersuchung auf der Grundlage einer Online-Befragung 1. Prof. Dr. Reinhold S. Jäger, Dr. Uwe Fischer und Julia

Mehr

Zur Gestaltung von Haus- und Abschlussarbeiten

Zur Gestaltung von Haus- und Abschlussarbeiten Zur Gestaltung von Haus- und Abschlussarbeiten Axel Buchner Heinrich- Heine- Universität Düsseldorf axel.buchner@hhu.de Gestaltung von Haus- und Abschlussarbeiten Seite 2 Inhaltsverzeichnis 1 Vorbemerkung...

Mehr

Fruchtbarer Boden oder doch nur Wüste?

Fruchtbarer Boden oder doch nur Wüste? Thomas Bräuninger Fruchtbarer Boden oder doch nur Wüste? Eine Replik auf Tina Freyburg Im Beitrag»Demokratisierung durch Kooperation? Funktionale Kooperation mit autoritären Regimen und Sozialisation in

Mehr

Tobias Rosefeldt. Was es nicht gibt Eine Untersuchung des Begriffes der Existenz

Tobias Rosefeldt. Was es nicht gibt Eine Untersuchung des Begriffes der Existenz Tobias Rosefeldt Was es nicht gibt Eine Untersuchung des Begriffes der Existenz Habilitationsschrift an der Philosophischen Fakultät der Ruprecht-Karls-Universität Heidelberg 2006 Inhalt Einleitung...

Mehr

Grundkompetenzen von Erwachsenen Erste Ergebnisse der ALL-Erhebung (Adult Literacy and Lifeskills)

Grundkompetenzen von Erwachsenen Erste Ergebnisse der ALL-Erhebung (Adult Literacy and Lifeskills) Grundkompetenzen von Erwachsenen Erste Ergebnisse der ALL-Erhebung (Adult Literacy and Lifeskills) OFS BFS UST Office fédéral de la statistique Bundesamt für Statistik Ufficio federale di statistica Uffizi

Mehr

Wie erstelle ich einen Fragebogen?

Wie erstelle ich einen Fragebogen? Wie erstelle ich einen Fragebogen? Ein Leitfaden für die Praxis 2. Auflage / Jänner 2001 Mag. Dr. Birgit Aschemann-Pilshofer Redaktionelle Mitarbeit: Mag. Dr. Ernst Premsberger Wissenschaftsladen Graz

Mehr

KOMPETENT ALS PATIENTIN UND PATIENT

KOMPETENT ALS PATIENTIN UND PATIENT Die Broschüre Kompetent als Patientin und Patient ist eine Orientierungshilfe für Versicherte. Sie begleitet Sie auf Ihrem Weg bei Gesundheit und Krankheit und soll informierte und selbstbestimmte Entscheidungen

Mehr

Wie man mit Fundamentalisten diskutiert, ohne den Verstand zu verlieren

Wie man mit Fundamentalisten diskutiert, ohne den Verstand zu verlieren Hubert Schleichert Wie man mit Fundamentalisten diskutiert, ohne den Verstand zu verlieren Anleitung zum subversiven Denken Verlag C. H. Beck München Die Deutsche Bibliothek - CIP-Einheitsaufnahme Schleichert,

Mehr

Komplexe. Zahlen. Ein Leitprogramm in Mathematik. Verfasst von Christina Diehl Marcel Leupp. Du weißt. Instinkt. Bei uns Tigern ist das angeboren.

Komplexe. Zahlen. Ein Leitprogramm in Mathematik. Verfasst von Christina Diehl Marcel Leupp. Du weißt. Instinkt. Bei uns Tigern ist das angeboren. Komplexe Hier ist noch eine Matheaufgabe, die ich nicht lösen kann. Was ist 9+4? Oh, die ist schwer. Dafür brauchst du Analysis und imaginäre Zahlen. Imaginäre Zahlen?! Du weißt schon. Elfzehn, zwölfunddreißig,

Mehr

Die Stichprobe: warum sie funktioniert

Die Stichprobe: warum sie funktioniert Die Stichprobe: warum sie funktioniert Neuchâtel, 2009 Die Stichprobe: warum sie funktioniert Jürg Zimmermann, Bernhard Morgenthaler, Beat Hulliger Zu dieser Publikation steht eine Excel-Datei zur Verfügung,

Mehr

Leitfaden zur Anfertigung wissenschaftlicher Arbeiten

Leitfaden zur Anfertigung wissenschaftlicher Arbeiten Fakultät für Betriebswirtschaftslehre Leitfaden zur Anfertigung wissenschaftlicher Arbeiten November 2009 Leitfaden zur Anfertigung wissenschaftlicher Arbeiten II Vorbemerkungen Dieser Leitfaden richtet

Mehr

Institut für Raumplanung

Institut für Raumplanung Institut für Raumplanung Fakultät Raumplanung Universität Dortmund Studien- und Projektzentrum Materialien zur Projektarbeit 2 Wie werden wissenschaftliche Arbeiten verfasst? 2. überarbeitete und ergänzte

Mehr