Wilcoxon-Rangsummen-Test

Wilcoxon-Rangsummen-Test Theorie: Wilcoxon-Rangsummen-Test Der Wilcoxon-Rangsummen-Test prüft, ob sich die Verteilungen der Grundgesamtheiten zweier Stichproben bezüglich ihrer Lage unterscheiden. Ein junger Journalist eines Automagazins will dem alten Vorurteil "Frauen parken schlechter ein als Männer" auf den Grund gehen. Mit Hilfe eines Experiments möchte er belegen, dass dieses Vorurteil stimmt... Fortsetzung folgt im ausführlichen Beispiel Das alte Vorurteil. Die folgende Theorie des Wilcoxon-Rangsummen-Tests wird Ihnen bei Bedarf an diesem Beispiel ausführlicher erklärt. Verpackung zur Einparkhilfe der Firma Tobé GmbH. Quelle: Theorie: Wilcoxon-Rangsummen-Test Annahmen Jeder statistische Test basiert auf gewissen Annahmen, die von den Daten erfüllt werden müssen. Diese zu treffenden Annahmen sind für die meisten Tests unterschiedlich. Ihre Einhaltung ist jedoch sehr wichtig. Sind diese Annahmen nicht erfüllt, kann das Ergebnis des jeweiligen Tests zu falschen Schlüssen führen, wenn der Test routinemäßig durchgeführt wird. Page 1

Für den Wilcoxon-Rangsummen-Test müssen folgende Annahmen erfüllt sein: Annahmen 1) Die Daten müssen mindestens ordinal skaliert sein. Die Stichproben und sind voneinander 2) unabhängig und untereinander ebenfalls. und besitzen die 3) stetigen Verteilungsfunktionen bzw. (Warum stetige Verteilungsfunktionen angenommen werden, können Sie im Exkurs Annahme stetiger Verteilung und Bindungen nachlesen.) 4) und besitzen die gleiche Varianz. Bei Tests auf Lageunterschied zweier Verteilungen, zu denen der Wilcoxon-Rangsummen-Test gehört, muss insbesondere auch darauf geachtet werden, dass beide Verteilungen von der gleichen Form sind, d.h. der Verteilungstyp und die Varianzen müssen gleich sein. Der Wilcoxon-Rangsummen-Test setzt aber als so genannter verteilungsfreier Test keinen bestimmten Verteilungstyp (wie z.b. die Normalverteilung) voraus. Überprüfen der Annahmen Sie sollen überprüfen, ob Ihre Daten die oben angegebenen Annahmen erfüllen. Wie Sie einige dieser Annahmen überprüfen können, ist im nachzulesen oder in diesem knappen Überblick ( : a83.pdf ). Hypothesen Für den Wilcoxon-Rangsummen-Test lauten die drei verschiedenen Hypothesen: Nullhypothese Alternativhypothese Test A Einseitig (links) Test B Einseitig (rechts) Test C Zweiseitig Page 2

Festlegen des Signifikanzniveaus Nach der Formulierung der Hypothesen legen wir das Signifikanzniveau eine obere Schranke für die Wahrscheinlichkeit angibt, die Nullhypothese fälschlicherweise zu verwerfen. (Siehe.) Prüfgröße Zur Berechnung der Wilcoxon-Prüfgröße einer Stichprobe aufsummiert: fest, das werden die Rangzahlen der Elemente aus (Für eine ausführliche Beschreibung der Vorgehensweise beim Wilcoxon-Rangsummen-Test lesen Sie das.) Testentscheidung Beim Wilcoxon-Test wird der kritische Wert zum Signifikanzniveau und den Stichprobenumfängen und mit bezeichnet. Je nach Testproblem wird die Nullhypothese verworfen, wenn gilt: Test A Verwirf H0, wenn Test B Test C oder Anleitung zur Programmierung des Wilcoxon-Rangsummen-Tests im Statistiklabor: Laboranleitung Wilcoxon ( b58.spf ). Beispiel: Ein längeres Beispiel: Das alte Vorurteil... Ein junger Journalist eines Automagazins will dem alten Vorurteil "Frauen parken schlechter ein als Männer" auf den Grund gehen. Mit Hilfe eines Experiments möchte er belegen, dass dieses Vorurteil stimmt und rekrutiert dafür 5 Männer und 3 Frauen. (Wir nehmen an, dass es sich um eine Zufallsstichprobe handelt.) Page 3

Jede Versuchsperson muss in mehrere, unterschiedliche Parklücken hinein manövrieren. Zur Bewertung hat der Journalist eine Skala entwickelt, die von 1 (=des Einparkens unfähig) bis 10 (=kommt in jede Parklücke) reicht. Sei die Bepunktung der Frauen; sei verteilt nach Verteilungsfunktion Sei die Bepunktung der Männer; Der Journalist will beweisen, dass Frauen schlechter einparken, d.h. dass sie beim Einparken weniger Punkte als die Männer erzielen. Das wäre gleichbedeutend damit, dass die Verteilungsfunktion der Frauen um einen Betrag bezüglich der Verteilungsfunktion der Männer nach links verschoben ist. Um dieses zu beweisen, muss er die Nullhypothese, beide Geschlechter parken gleich gut ein oder Frauen parken besser ein, widerlegen. Er will einen statistischen Test zum 5%-Niveau durchführen. Verteilungsfunktionen Die Hypothese kann statistisch so verstanden werden, dass die Verteilung gegenüber der Verteilung auf der Achse um einen Betrag nach links verschoben ist (siehe Grafik). Dichten f und g von F und G: f ist um einen Betrag theta nach links verschoben. Für die Formulierung der Nullhypothese geht man davon aus, dass die Verteilungen und identisch seien, d.h. Unter dieser Annahme können die Prüfgröße und der kritische Wert berechnet werden, mit deren Hilfe entschieden wird, ob die Nullhypothese zugunsten der Alternativhypothese verworfen werden kann. Das Testproblem lässt sich für das Einparkbeispiel und den Fall, wie in der Graphik Page 4

dargestellt, folgendermaßen formulieren: Nullhypothese Alternativhypothese Test B Die Hypothese lässt sich auch über die Mediane formulieren: Nullhypothese Alternativhypothese Test B Warum die Hypothesen auch über die Mediane formuliert werden kann können Sie in der Übung "Hypothesen über die Mediane" erforschen. Nach seinem Experiment hat der Journalist folgende Punkte notieren können: Frauen 6 10 4 9 8 5 Männer 3 2 Berechnung der Prüfgröße Die Daten können nicht als normalverteilt angesehen werden. Da die Stichprobenumfänge klein sind, verwendet er den Wilcoxon-Rangsummen-Test. (Bei größeren Stichproben ist es ratsam eine Approximation über die Normalverteilung zu machen. Siehe dazu den Exkurs Große Stichproben. ) Um die Prüfgröße berechnen zu können, vergibt der Journalist Rangzahlen: Frauen Rang Männer Rang 6 5 10 8 4 3 9 7 8 6 5 4 3 2 2 1 Page 5

Summe 14 Die Prüfgröße ist genau die Summe der Rangzahlen von den Frauen, d.h. Ablehnbereich bzw. kritischen Wert festlegen. Der Unterschied zwischen dem Einparkkönnen von Männern und Frauen wurde als linkseitige Hypothese formuliert. Deswegen ist das linke bzw. untere Quantil der Wahrscheinlichkeitsverteilung interessant. Das heisst, kann verworfen werden falls gilt. Es gibt verschiedene Möglichkeiten, die Ränge miteinander zu kombinieren. Öffnen wir das Applet Wilcoxon Verteilung (ceb.jar) und geben die notwendigen Parameter an, so können wir den kritischen Wert ablesen. Für ein vorgegebenes Signifikanzniveau von 0.05 lässt sich hier kein kritischer Wert finden, der voll ausschöpft. Würde man als kritischen Wert wählen, wird das vorgegebene Signifikanzniveau nicht eingehalten, da (Da kritische Wert noch zum Annahmebereich gehört, wird nicht die Wahrscheinlichkeit berechnet.) Das bedeutet, dass die Wahrscheinlichkeit die Nullhypothese fälschlicherweise abzulehnen größer ist als von uns gewollt ( sollte ja höchstens 5% betragen). Als kritischer Wert muss daher verwendet werden. Allerdings ist dann wegen die Ablehnung der Nullhypothese sehr viel strenger angesetzt. (Sehen Sie hierzu auch das ) Page 6

Testentscheidung Die vorher berechnete Prüfgröße ergab Für das gegebene Testproblem kann die die Nullhypothese verworfen werden, wenn gilt. Da der Journalist das modifizierte zugrunde legt, gilt Das bedeutet: kann nicht verworfen werden. Interpretation des Ergebnisses Der Journalist kann seine These nicht statistisch rechtfertigen. Was würden Sie dem Journalisten raten, wenn er das nächste Mal wieder ein Experiment durchführen will? Die Formulierung der Hypothesen über die Verteilungsfunktionen scheint eher umständlich zu sein. Unter der (von uns geforderten) Annahme, dass die Grundgesamtheiten der Stichproben und dieselbe Varianz besitzen, kann das Testproblem auch über die Mediane von und formuliert werden. Nullhypothese Alternativhypothese Test A Test B Test C Öffnen Sie die Datei Mediane ( db7.spf ) und betrachten Sie die Simulation. Beispiel: Flugzeugabstürze Ihren nächsten Urlaub will Studentin Lara mit ihrem Freund Konrad in Afrika verbringen. Um Geld zu sparen, schlägt Lara vor, mit einer afrikanischen Fluglinie zu fliegen. Doch Konrad fürchtet um sein Leben und fragt sich, ob afrikanische Fluggesellschaften so sicher wie europäische sind, und stellt deswegen folgende These auf: "Fluggesellschaften aus Afrika haben eine höhere Unfallrate zu verzeichnen als europäische Fluggesellschaften." Die Unfallrate kann nicht als normalverteilt betrachtet werden. Sei die Unfallrate (Variable "Accident.Rate") von Fluggesellschaften aus Afrika mit Page 7

. Sei die Unfallrate europäischer Fluggesellschaften: KLM Absturz von 1977. Quelle: Aus Sharpe (1998) über Hypothese Konrad behauptet, dass die Verteilung der Fluggesellschaften aus Arika um einen Betrag nach rechts verschoben ist. Es besteht daher das Testproblem: gegen Zur Überprüfung seiner Hypothesen setzt Konrad ein Signifikanzniveau von 0.05 an. Prüfgröße Konrad hat im Internet Daten über Flugzeugabstürze gefunden (unter ). Sie können sich das Beispiel auch im Labor anschauen: Labordatei öffnen ( dfa.spf ) Niedrige Unfallraten zeigen, dass bei Unfällen dieser Fluggesellschaft bisher wenig Personenschaden aufgetreten ist. Die Stichprobe hat einen Umfang von n=13 Beobachtung, der Stichprobenumfang von beträgt n=26 Beobachtungen. Insgesamt gibt es somit verschiedene Möglichkeiten Ränge anzuordnen. Die kleinst mögliche Rangsumme für europäische Fluggesellschaften wäre: und die größte Rangsumme wäre 39+38+...+26=429. Die Prüfgröße berechnet sich nun aus der Summe der Ränge der 13 afrikanischen Fluggesellschaften innerhalb der gepoolten Stichprobe. Testentscheidung Die Nullhypothese ist hier abzulehnen, falls gilt: Gesucht ist nun der zum Testproblem gehörende kritische Wert Dafür muss folgende Gleichung erfüllt sein: Am leichtesten lässt sich der kritische Wert im Labor berechnen, entweder mit dem Statistiktaschenrechner oder durch Eingabe des Befehls qwil(0.95,13,26) im R-Kalkulator. Da kann die Nullhypothese abgelehnt werden. Konrad hat statistisch bewiesen, dass afrikanische Fluggesellschaften eine höhere Unfallrate haben als europäische. Labordatei öffnen ( e35.zmpf ) Beispiel: Bannerklicks Der Sportartikelvertreiber Ludgar möchte seinen Online-Shop im Internet durch Werbung bekannter machen und lässt deshalb die zwei Agenturen "Klick" und Page 8

"verbannert" Werbebanner kreieren. Ludgar möchte herausfinden, ob die beiden Banner bei den Internetbenützern unterschiedlich ankommen. Dazu registriert er an 14 Tagen die Klickrate der einzelnen Werbebanner. D.h. er erfasst die Anzahl der erfolgreichen Bannerklicks, die auf seinen Shop geführt haben im Verhältnis zu der Anzahl der Bannereinblendungen: Klickrate des Banners, entworfen von der Agentur "Klick". folgt der Verteilungsfunktion also Klickrate des Banners, entworfen von der Agentur "verbannert" mit Hypothesen Ludgar hat kein Vorwissen darüber, welche Agentur bessere Klickraten einfährt. Deshalb stellt er eine zweiseitige Hypothese auf und will diese zum 1%-Niveau testen: gegen Die Daten können nicht als normalverteilt angesehen werden. Öffnen Sie den Datensatz ( e6c.zmpf ), und schauen Sie sich das Beispiel weiter im Labor an, oder versuchen Sie es selber zu rechnen. Die Annahme stetiger Verteilungen soll verhindern, dass gleiche Beobachtungen auftreten und somit die Ränge nicht mehr eindeutig vergeben werden können. In der Praxis treten gleiche Beobachtungen trotzdem auf (z.b. durch Messungenauigkeiten) und werden als Bindungen bezeichnet. Eine Bindung besteht, wenn mindestens zwei Beobachtungen den gleichen Wert haben. Kommen solche Bindungen nur innerhalb derselben Stichprobe vor, ist das für die Rangvergabe ohne Belang. Treten jedoch Bindungen zwischen den und Werten auf, muss dies in der Zuweisung der Rangzahl mitberücksichtigt werden. Üblicherweise werden den Beobachtungswerten dann Durchschnittsränge zugewiesen. Durch die Verwendung von Durchschnittsrängen entspricht die unter ermittelte Verteilung der Prüfgröße, die von ganzzahligen Rängen ausgeht, nicht länger derjenigen, die sie tatsächlich hätte. Damit können Fehler bei der Testentscheidung auftreten, der die kritischen Werte unter der Annahme kleiner Bindungen bestimmt werden. Falls nur wenige Bindungen im Verhältnis zur Gesamtzahl der Beobachtungen auftreten, ist dies nicht kritisch. Ansonsten gibt es Korrekturformeln (siehe Büning, Trenkler (1994). Beispiel Wir haben bereits die gepoolte Stichprobe eines fiktiven Datensatzes erstellt. Sie sehen, dass die Werte 17 und 19 mehr als einmal in der Stichprobe vorkommen. Bei der Rangvergabe wird den Werten 17 und 19 jeweils ihr die Durchschnittsrang zugewiesen. Im Beispiel erhält man die Durchschnittränge für den Wert 17 indem man rechnet. Für den Wert 19 ergibt sich analog Nun haben wir zum besseren Verständnis des Wilcoxon-Rangsummen-Tests kleine Stichproben ausgewählt. Will man den Test jedoch für große Datensätze verwenden, ist Page 9

es überaus mühsam, die exakte Verteilung zu berechnen. Betrachten wir einmal die zwei Stichproben vom Umfang und Bei diesen Umfängen gibt es verschiedene Rangkombinationen. Bei noch größeren Stichproben kann es sogar vorkommen, dass die Anzahl der Rangkombinationen von den Statistikprogrammpaketen nur unter erhöhtem Aufwand berechnet werden kann. Prüfgröße Für große Stichproben wird die Prüfgröße so modifiziert, dass diese approximativ einer Standardnormalverteilung folgt, d.h. mit größer werdendem Stichprobenumfang wird die Verteilung der modifizierten Prüfgröße einer Standardnormalverteilung immer ähnlicher. Gilt für die Stichprobenumfänge, dass oder, dann wird folgende Prüfgröße für den Wilcoxon-Rangsummen-Test verwendet: Die Prüfgröße ist unter asymptotisch standardnormalverteilt. Testentscheidung Die kritischen Werte werden dementsprechend nun als Quantile der N(0,1)-Verteilung bestimmt und es gelten folgende Verwerfungsregeln: Test A Test B Verwirf H0, falls Test C gleichbedeutend mit: oder Um die angeblich positiven Auswirkungen von Musik auf die Milchproduktion von Stallkühen abzuklären, wird die täglich gemolkene Milchmenge zweier Kuhställe K und Q untersucht. Der Milchbauer von Kuhstall Q verwöhnt seine Kühe schon immer mehrere Stunden täglich mit einem ausgesuchten Musikprogramm, während den Kühen in Kuhstall K noch nie Musik vorgespielt wurde. Öffnen Sie die Laborseite und untersuchen Sie zum Signifikanzniveau, ob die Kühe aus Kuhstall Q mehr Milch produzieren Labordatei öffnen ( f21.zmpf ) Die Daten geben das mittlere Alter in Tagen von preußischen Kindern an, die innerhalb des ersten Lebensjahres gestorben sind. Ernst Stückelberg Page 10

Quelle: Untersuchen Sie mit Hilfe des Wilcoxon-Zweistichproben-Rangsummentests anhand der obigen Daten, ob a) die männlichen Kinder zum Zeitpunkt des Todes jünger sind als die weiblichen, b) die illegitimen Kinder zum Zeitpunkt des Todes jünger sind als die legitimen. Laden Sie die Bibliothek "wilcoxon.r". Führen Sie a) mit Hilfe des vorprogrammierten Tests durch und b) indem Sie die Prüfgröße selber berechnen. Labordatei öffnen ( f3c.zmpf ) Ein Energiekonzern möchte in Windkraft investieren. Der Konzern ist momentan auf der Suche nach einem Bauplatz für 6 Windkrafträder. Zur Auswahl steht ein Platz bei Cuxhaven und eine Baumöglichkeit bei Paderborn. Da die Absicht besteht, nur einen Platz zu erwerben, soll aufgrund der vorliegenden Winddaten entschieden werden, ob es an einem Ort durchschnittlich mehr Wind (gemessen in Meter/Sekunde) gibt als an dem anderen. Öffnen Sie die Laborseite Wind ( f45.zmpf ) und helfen Sie dem Unternehmen bei seiner Entscheidungsfindung. Legen Sie ein Signifikanzniveau von zugrunde. Berechnen Sie zuerst die Stichprobenumfänge. Was ist in diesem Fall ratsam? (Interessiert an Windenergie: ) Ein Unternehmen möchte die Umsatzsteigerung beim Einsatz von zwei verschiedenen Werbemaßnahmen vergleichen. Da Zweifel an der Normalverteilung angebracht sind, soll der Wilcoxon-Rangsummen-Test durchgeführt werden. Es wurden die in der folgenden Tabelle eingetragenen Umsatzsteigerungen erzielt: Werbung X 33.5 19.5 37.0 40.0 32.0 31.5 54.5 53.0 50.0 62.5 56.0 48.5 61.0 63.0 75.0 43.5 41.5 42.0 Werbung Y Page 11

. Stellen Sie eine geeignete Hypothese auf, und prüfen Sie zum 5%-Niveau, ob Werbung X zu größeren Umsatzsteigerungen führt als Werbung Y.. Zu Übungszwecken formulieren Sie nun die Gegenhypothese zu Ihrer in 1. aufgestellten Hypothese, und führen Sie die Testentscheidung daran noch einmal durch. Eine Lösung finden Sie in Umsatz ( fd8.zmpf ). Literaturangabe Sharpe, Mike (1998). Die größten Flugzeugkatastrophen. Gondrom-Vlg., Bindlach Büning, H. und Trenkler, G. (1994) Nichtparametrische statistische Methoden. 2. Auflage, de Gruyter, Berlin. (c) Projekt Neue Statistik 2003, Freie Universität Berlin, Center für Digitale Systeme Kontakt: http://www.neuestatistik.de Page 12