Überprüfung auf Normalverteilung und anschließend Test auf Signifikanz

News Artikel Foren Projekte Links Über Redscope Join List Random Previous Next Startseite Foren Allgemeine Fragen zu SAS Überprüfung auf Normalverteilung und anschließend Test auf Signifikanz 21 May, 2007-15:18 ricerd Sehr geehrte Damen und Herren, einer meiner Mitarbeiter gab mir folgende Rohdaten: Vorlesung WS05/06 SS06 WS06/07 1. Vorlesung 30 39 53 2. Vorlesung 40 39 54 3. Vorlesung 40 39 55 4. Vorlesung 41 45 55 5. Vorlesung 45 46 56 6. Vorlesung 46 47 57 7. Vorlesung 48 48 60 8. Vorlesung 50 52 62 9. Vorlesung 53 55 62 10. Vorlesung 55 55 64 11. Vorlesung 60 55 65 12. Vorlesung 61 60 66 13. Vorlesung 61 60 68 14. Vorlesung 65 64 68 15. Vorlesung 67 65 69 16. Vorlesung 72 68 70 17. Vorlesung 77 70 70 18. Vorlesung 78 70 71 19. Vorlesung 80 70 75 20. Vorlesung 83 71 76 21. Vorlesung 95 74 79 22. Vorlesung 96 80 80 23. Vorlesung 100 81 94 24. Vorlesung 103 90 100 25. Vorlesung 105 93 109 26. Vorlesung 120 95 128 Es handelt sich hierbei um die Anzahl von Studenten pro Vorlesung in drei Semestern (Wintersemester 05/06, Sommersemester 06 und Wintersemester 06/07). Mein Kollege möchte nun bewiesen haben, daß es keinen signifikanten Unterschied bezüglich der Studentenanzahl in den drei Semestergruppen gibt. Zunächst einmal bin ich mir nicht ganz sicher, wie das Hypothesenpaar aufgestellt werden soll. Soweit ich weiß, ist die Alternativhypothese das, was man beweisen will. Wenn nun mein Kollege beweisen will, daß es keine Unterschiede gibt, dann wäre das Hypothesenpaar wohl etwa so : H0 => Es gibt mindestens eine Gruppe, die sich hinsichtlich der Studentenanzahl von den übrigen Gruppen signifikant unterscheidet. H1 => Es gibt keine signifikanten Unterschiede bezüglich der Studentenanzahl in den einzelnen Gruppen. Meine Frage ist nun: Ist dies so überhaupt korrekt? Um zu ermitteln, welcher Test anzuwenden ist, muß man die Daten auf Normalverteilung überprüfen. Dies habe ich folgendermaßen gemacht: Zunächst habe ich ein Hypothesenpaar gebildet: H0 => Die Daten sind normalverteilt. H1 => Die

Daten sind nicht normalverteilt. Das Signifikanzniveau beträgt 5 %. So sieht der SAS Code aus: PROC FORMAT; VALUE sem 1 = 'WS05/06' 2 = 'SS06' 3 = 'WS06/07'; Data studenten; INPUT semester anzahl; FORMAT semester sem.; CARDS; 1 30 1 40 1 40 1 41 1 45 1 46 1 48 1 50 1 53 1 55 1 60 1 61 1 61 1 65 1 67 1 72 1 77 1 78 1 80 1 83 1 95 1 96 1 100 1 103 1 105 1 120 2 39 2 39 2 39 2 45 2 46 2 47 2 48 2 52 2 55 2 55 2 55 2 60 2 60 2 64 2 65 2 68 2 70 2 70 2 70 2 71 2 74 2 80 2 81 2 90 2 93 2 95 3 53 3 54

3 54 3 55 3 55 3 56 3 57 3 60 3 62 3 62 3 64 3 65 3 66 3 68 3 68 3 69 3 70 3 70 3 71 3 75 3 76 3 79 3 80 3 94 3 100 3 109 3 128 RUN; PROC UNIVARIATE PLOT NORMAL; VAR anzahl; BY semester; RUN; Das Ergebnis für die drei Semester ist dann folgendes: semester=ws05/06 ----------------------------------------------------------- The UNIVARIATE Procedure Variable: anzahl Tests for Normality Test --Statistic--- -----p Value------ Shapiro-Wilk W 0.955729 Pr < W 0.3145 Kolmogorov-Smirnov D 0.116391 Pr > D >0.1500 Cramer-von Mises W-Sq 0.064161 Pr > W-Sq >0.2500 Anderson-Darling A-Sq 0.416228 Pr > A-Sq >0.2500 semester=ss06 ------------------------------------------------------------ The UNIVARIATE Procedure Variable: anzahl Tests for Normality Test --Statistic--- -----p Value------ Shapiro-Wilk W 0.954669 Pr < W 0.2975 Kolmogorov-Smirnov D 0.103709 Pr > D >0.1500 Cramer-von Mises W-Sq 0.037959 Pr > W-Sq >0.2500 Anderson-Darling A-Sq 0.304913 Pr > A-Sq >0.2500

semester=ws06/07 ----------------------------------------------------------- The UNIVARIATE Procedure Variable: anzahl Tests for Normality Test --Statistic--- -----p Value------ Shapiro-Wilk W 0.829606 Pr < W 0.0006 Kolmogorov-Smirnov D 0.209251 Pr > D <0.0100 Cramer-von Mises W-Sq 0.251268 Pr > W-Sq <0.0050 Anderson-Darling A-Sq 1.45553 Pr > A-Sq <0.0050 Wenn ich das richtig interpretiere, sind die Daten der ersten beiden Gruppen (Pr < W 0.3145 und Pr < W 0.2975) normalverteilt, die Daten der letzten Gruppe (Pr < W 0.0006) sind nicht normalverteilt. Diese Tatsache verwirrt mich, ich weiß nun nicht, welcher Test angewendet werden soll, um ein Signifikanztest durchzuführen. Bei nicht normalverteilten Daten käme Kruskal-Wallis in Frage, bei normalverteilten Daten wäre es die einfache ANOVA (PROC GLM). Ich würde mich sehr freuen, wenn mir jemand bei meinem Problem behilflich sein könnte. Mit freundlichen Grüßen R. Erdmann Foren: Allgemeine Fragen zu SAS nicht-parametrischer Test 21 May, 2007-15:39 AndreasMangold Ich bin kein Statistiker, aber meiner Meinung nach müsste man in so einem Fall der Abweichung von der Normalverteilung den nichtparametrischen Test nehmen. Es ist aber in jedem Fall zu bedenken, dass es sich um abhängige Messungen handelt. Man müsste also eine Varianzanalyse mit Messwiederholungen rechnen. Eine Frage zur Abhängigkeit 21 May, 2007-15:58 ricerd Leider bin ich auch kein Statistiker, daher ist mir der Begriff "abhängige Messungen" nicht ganz klar. Die Studenten in den drei Semestern sind jeweils unterschiedlich. D. h. Die Studenten des WS 05/06 sind nicht die Studenten des SS 06 und auch nicht die Studenten des WS 06/07. Die Studenten ziehen gewissermaßen an meinem Kollegen vorbei. Es sind in jweiligen Semestern also immer neue Studenten. Handelt es sich dann also um abhängige oder unabhängige Messungen? Abhängigkeit bzw. der Vorlesungen 21 May, 2007-16:07 AndreasMangold Ich meine nicht die Studenten, sondern die Vorlesungen. Wenn ich es richtig verstehe, dann handelt es sich ja um 26 verschiedene Vorlesungen. Die Varianzanalyse mit Messwiederholungen berücksichtigt, dass in der Vorlesung 1 in jedem Semester weniger Studenten sind als beispielsweise in der Vorlesung 26.

Ja das stimmt. Pro Semester 21 May, 2007-16:26 ricerd Ja das stimmt. Pro Semester gibt es 26 verschiedene Vorlesungen. Soeben habe ich aber eine Unstimmigkeit entdeckt. Die oben angezeigten Daten wurden in einem anderen Zusammenhang sortiert. Die Originaldaten sehen so aus: WS05/06 SS06 WS06/07 120 95 128 105 93 100 100 90 94 95 70 79 72 55 75 103 65 70 67 70 65 83 60 80 61 60 64 65 74 68 60 71 56 45 80 55 40 55 62 53 68 60 55 70 71 96 81 70 77 45 109 80 47 76 78 48 55 50 55 57 61 52 62 46 39 66 48 64 68 40 46 69 41 39 53 30 39 54 Die Anzahl der Studenten nimmt zwar ab, allerdings fallen die Zahlen nicht kontinuierlich. Die Kurve geht mal hoch und dann wieder runter. Wie sähe denn eine Varianzanalyse mit Meßwiederholungen aus? Herzliche Grüße R. Erdmann was ist eigentlich genau die Frage? 22 May, 2007-13:31 Jobst Heitzig Könnten Sie noch einmal erläutern, nach was für Unterschieden eigentliche gesucht wird. Die Frage könnte ja unterschiedlich lauten, z.b. 1. Unterscheiden sich die drei Verteilungen, die durch die drei Spalten der Rohdaten gegeben sind? 2. Unterscheiden sich die Mittelwerte dieser Verteilungen? 3. Unterscheiden sich die drei Rangfolgen der Vorlesungen, die durch die drei Spalten der Rohdaten gegeben sind? 4. Unterscheiden sich die 26 Verteilungen, die durch die 26 Zeilen der Rohdaten

gegeben sind? 5. Unterscheiden sich die Mittelwerte dieser Verteilungen? 6. Unterscheiden sich die zwei Verteilungen von Zuwachsraten, die durch die zwei Quotienten zweite Spalte / erste Spalte und dritte Spalte / zweite Spalte 7. Unterscheiden sich die mittleren Zuwachsraten? usw. Ich glaube, dies müsste erst geklärt werden, bevor nach einem geeigneten Test gesucht werden kann... Die Frage: 23 May, 2007-09:09 ricerd Hallo Herr Heitzig, nach Rücksprache mit meinem Kollegen soll folgende Frage beantwortet werden: Unterscheiden sich die Mittelwerte dieser Verteilungen? Dies wäre Frage 2 bzw. 5. Nochmal zur Erinnerung: Mein Kollege möchte gerne bewiesen haben, daß sich die Mittelwerte nicht unterscheiden. Dementsprechend muß das Hypothesenpaar aufgestellt werden. Schon mal vielen herzlichen Dank für Ihre Hilfe. Für weitere Fragen stehe ich Ihnen natürlich gerne zur Verfügung. Noch zwei Anmerkungen... Hallo, 24 May, 2007-14:47 fmader ich bringe noch mal zwei zusätzliche Fragen/Anmerkungen zu denen von Jobst Heitzig ins Spiel: 1. Wäre es von der Art der Daten (Anzahlen) her nicht sinnvoller statt der Normalverteilung eine Poissonverteilung zu unterstellen und das Ganze als loglineares Modell/Poisson Regression zu analysieren?! PROC GENMOD und die (experimentelle) COUNTREG Prozedur bieten hierfür zahlreiche Möglichkeiten. PROC GENMOD stellt auch ein REPEATED-Statement und zahlreiche mögliche Kovarianzstrukturen zur Verfügung, um Meßwiederholungsdaten zu analysieren. Hilfreich dürften hierbei die Beispiele 31.5 und 31.9 sein. 2. Das Ganze (insbesondere der Vergleich auf Unterschiedlichkeit der mittleren Anzahlen je Semester) funktioniert nur, wenn es sich bei den 26 Vorlesungen um eine (unabhängige) Zufallsauswahl aus einer größeren Grundgesamtheit handelt. Sollte es sich um alle Vorlesungen (beipielsweise einer Fakultät), also um die Grundgesamtheit selbst handeln, so sind die (mittleren) Anzahlen entweder unterschiedlich oder nicht, aber das läßt sich meines Wissens nach dann nicht mehr testen. Beste Grüße Felix Mader Das wird ja immer komplizierter... 25 May, 2007-09:51 ricerd

Hallo Herr Mader, erstmal vielen Dank für Ihren Beitrag. Ich fange mal mit Punkt 2 an. Es handelt sich nicht um eine eine Zufallsauswahl aus einer größeren Grundgesamtheit, sondern es handelt sich tatsächlich um die Grundgesamtheit. Wenn ich Sie richtig verstehe, ist hier dann kein Signifikanztest durchführbar. Dann kann man dann wohl nur im Bericht erwähnen, daß es Unterschiede in der mittleren Anzahl gibt. Mal ganz blauäugig gefragt: Wenn ich aus allen drei Gruppen eine Stichprobe ziehe, dann kann ich doch einen Signifikanztest mit den drei Stichproben durchführen, oder???? Was Punkt 1 betrifft: In der Schule habe ich gelernt, daß man im Rahmen von statistischen Tests sich zunächst überlegt,welches Merkmal (Alternativ, Qualitativ, Quantitativ (unbekannte Verteilung)oder stetig normalverteilt) vorliegt. Dan schaut man, wieviel Gruppen man hat (2 oder >2), im Anschluß daran schaut man, ob es ein Parrallelgruppenvergleich oder eine verbundene Gruppe ist. Anhand dieser Angaben ermittelt man dann den Test. Die Überprüfung auf Normalverteilung benötigt man, um zu wissen, ob man einen t-test oder eine ANOVA (bei stetig normalverteilten Merkmalen) bzw. Wilcoxon, Kruskal-Wallis oder Friedman (bei quantitativen Merkmalen mit unbekannter Verteilung)anzuwenden hat. Ihr Vorschlag, eine Poissonverteilung zu unterstellen, passt so gar nicht zu dem, was ich gelernt habe. Damit muß ich mich erstmal näher befassen. Vielleicht können Sie mir ja auch schon mal eine Hilfestellung bezüglich der Umsetzung ihres Vorschlags geben, über die ich mich wirklich sehr freuen würde. Herzliche Grüße Ricardo Erdmann Sooo kompliziert ist es nicht Hallo Herr Erdmann, 29 May, 2007-14:45 fmader Zu Punkt 2: Ja, Sie könnten eine Zufallsauswahl treffen und dann auch testen, aber warum sollten sie? Sie kennen die Wahrheit (die Grundgesamtheit) und würden sich durch eine Reduktion der Ihnen zur Verfügung stehenden Daten gewissermaßen nur schlechter stellen. Auch wenn das Testen sehr attraktiv erscheinen mag, bedenken Sie folgendes: Eine Zufallsstichprobe könnte z.b. ergeben, daß (bei genügend kleiner Streuung in den Daten) die Abnahme um einen Studenten bereits signifikant ist. Würde dies dazu führen, daß Sie die Vorlesungen umfangreich umgestalten, um sie attraktiver zu machen? Vermutlich nicht. Umgekehrt könnte (bei entsprechend großer Streuung) auch eine Abnahme von 30 oder 40 Studenten nicht signifikant ausfallen, Sie wären aber evtl. dennoch bewegt, die Veranstaltungen umzukonzipieren. Was ich ausdrücken will: Ob signifikant oder nicht, ob ein Unterschied "genügend unterschiedlich" ist, um Änderungen vorzunehmen oder eine Variante der anderen zu bevorzugen, obliegt letztlich allein dem Entscheidungsträger und ist oftmals eher eine Kosten-Nutzen-Analyse. Zu Punkt 1: Sie haben völlig recht, verallgemeinerte lineare Modelle (GLMs, hat nichts mit PROC GLM zu tun!) haben gegenüber den von Ihnen genannten nichtparametrischen Tests aber den Vorteil, daß Sie im Prinzip alle Arten der Modellerstellung, die sie aus den linearen Modellen für normalverteilte Daten kennen (Anova, (multiple) lineare Regression,

Ancova) auch für Daten die einer anderen, zur Exponentialfamilie gehörenden Verteilung, entstammen anwenden können, und eben auch in der Lage sind, Korrelationen zwischend den Beobachtungen zu berücksichtigen. Der Unterschied zu den klassischen linearen Modellen liegt darin, daß das lineare Modell hier nicht an den Erwartungswert der Abhängigen angepaßt wird, sondern an eine nichtlineare Transformation dessen (sog. link-funktion). Abhängig von der gewählten, den Daten zugrundeliegenden Verteilung wird zudem eine verteilungsspezifische (und ggf. vom Erwartungswert abhängige) Varianzfunktion verwendet, so daß auch die Annahme der konstanten Varianz fallengelassen werden kann. Weiter ins Detail kann ich hier aus Zeitgründen leider nicht gehen, zumal es dann auch sehr schnell deutlich umfangreicher würde, die SASeigene Hilfe (Kapitel 31 im SAS/STAT-Pdf) bietet aber einen wirklich gut verständlichen Einstieg in die GLMs im allgemeinen und einige auf Anzahldaten bezogene Beispiele. Darüber hinaus gibt's etliches an Literatur zu GLMs im allgemeinen und zu log-linearen Modellen im speziellen. Hier könnte ich bei Bedarf noch einige Titel nachliefern. Beste Grüße Felix Mader Aha... Hallo Herr Mader, 29 May, 2007-16:31 ricerd herzlichen Dank für Ihre Ausführungen. Ich glaube, langsam aber sicher löst sich mein Problem. Ich habe mir im Hinblick auf Kapitel 31 des SAS-Manuals erstmal im Schnelldurchlauf einen Überblick verschafft. Ich werde mir das noch genauer anschauen. Vorab jedoch schon mal eine Frage zum Verständnis: PROC GENMOD kann man verwenden, wenn eine Grundgesamtheit vorliegt, während die nichtparametrischen Tests nur angewendet werden, wenn man eine Stichprobe hat? Herzliche Grüße R. Erdmann Nicht ganz 1 June, 2007-13:19 fmader Entschuldigung, da habe ich mich evtl. ein wenig mißlich ausgedrückt. Auch PROC GENMOD dient "nur" der Auswertung von Stichproben, wäre also angesagt, wenn Sie aus Ihrer Grundgesamtheit tatsächlich Stichproben ziehen wollten. Im Gegensatz zu den nichtparametrischen Tests unterstellen GLMs durchaus eine Verteilung der untersuchten Größe, nur eben ggf. nicht die Normalverteilung. Darüber hinaus ermöglichen sie - wie die klassischen lineare Modelle - den Einbezug erklärender Variablen und die Berücksichtigung korrelierter Beobachtungen. Insbesondere für letzteres dürfte es aber auch bei den nichtparametrischen Verfahren Alternativen geben. Da kann ich ad hoc aber leider nicht weiterhelfen. Viel Erfolg weiterhin F. Mader

Vielen Dank 5 June, 2007-10:53 ricerd Hallo Herr Mader, ich möchte Ihnen für Ihren Hinweis danken. So langsam wird mir die ganze Sache klar. Ich denke, ich werde mein Problem wohl lösen können. Herzliche Grüße R. Erdmann