9. Übung (Analyse von qualitativen Daten)

Transkript

1 9. Übung (Analyse von qualitativen Daten) (Prüfung von Unabhängigkeit, Homogenität und Anpassung) Man unterscheidet vor allem die folgenden Tests: Unabhängigkeitstest: Hier wird geprüft, ob zwei Merkmale stochastisch unabhängig sind. Verteilungstest oder Anpassungstest: Hier wird geprüft, ob vorliegende Daten auf eine bestimmte Weise verteilt sind. Es wird überprüft, ob das Verhältnis irgendeiner Eigenschaft in der Stichprobe und Population übereinstimmt. Homogenitätstest: Hier wird geprüft, ob zwei oder mehr Stichproben derselben Verteilung bzw. einer homogenen Grundgesamtheit entstammen. Vierfelder-Test als Spezialfall des Chi-Quadrat-Tests für (2x2)-Kontingenztabellen. Es werden von den R-Daten Datentabelle Falter gebraucht. Prüfung von Unabhängigkeit Frage 1: Es wurde in einem umfangreichen Versuch das Cholesterinniveau der Patienten gemessen. Sind Cholesterinniveau und Geschlecht unabhängig? Cholesterinniveau erhöht normal Gesamt Männer Damen Gesamt Unsere Hypothesen: H 0 : Cholesterinniveau und Geschlecht sind unabhängig. H 1 : Cholesterinniveau und Geschlecht hängen zusammen. Kontingenztabellen in R hat man durch das folgende Menü Statistics/Contingency tables/enter and analyze two-way table Man tippe die Daten in Kontingenztabelle von R ein. Erst werden die Anzahl von Zeilen und Spalten bestimmt: Nachher tippt man die Daten ein: Verschiedene Prozentverhältnisse kann man abfragen: L. Börzsönyi 1

2 Die letzte Einstellung ist fassungslos. An Hand dieser großen Stichprobe will man ein Chi-Quadrat-Test anwenden, aber man kann den Fisher-Test auch abfragen. >.Table <- matrix(c(397,7135,242,7713), 2, 2, byrow=true) > rownames(.table) <- c('männer', 'Damen') > colnames(.table) <- c('erhöht', 'Normal') >.Table # Counts Erhöht Normal Männer Damen > totpercents(.table) # Percentage of Total Erhöht Normal Total Männer Damen Total >.Test <- chisq.test(.table, correct=false) >.Test Pearson's Chi-squared test X-squared = , df = 1, p-value = 3.17e-12 >.Test$expected # Expected Counts Erhöht Normal Männer Damen > remove(.test) > fisher.test(.table) p-value = 2.806e-12 alternative hypothesis: true odds ratio is not equal to odds ratio L. Börzsönyi 2

3 Der Test wird erst die Zeilen- und Spaltensummen (marginale Häufigkeiten) berechnet. In unserem Falle wird es berechnet, ob wie viele Damen und Männer erhöhtes und kein erhöhtes Cholesterinniveau hatten. Wenn der H 0 Hypothese richtig wäre, dann das Verhältnis des erhöhten Cholesterinniveaus bei Damen und Männer gleich wäre. Von den marginalen Häufigkeiten berechnet der Computer die erwarteten Häufigkeiten, d.h. was wäre die Häufigkeitsverteilung im Falle der Unabhängigkeit. Chi-Quadrat-Test zeigt darauf hin, dass zwischen Cholesterinniveau und Geschlecht ein Zusammenhang besteht, weil p=3.17e-12 < 0.05 ist. Der Fisher-Test zeigt das selbe Ergebnis bei den p-wert p=2.806e-12. Es ist zu vermuten, dass das erhöhte Cholesterinniveau kommt bei Männer wesentlich mehr vor. Bei Männern kommt das erhöhte Cholesterinniveau mit 2.6% und bei Damen 1.6% vor. Trotz der kleinen Prozentzahlen kann es für den Männer doch signifikant sein. Mit Hilfe der Fisher-Test kann man auch einseitig testen. Prüfe man nach: Die Hypothesen: H0: Das erhöhte Cholesterinniveau ist bei Männer und Damen selbe. H1: Das erhöhte Cholesterinniveau ist bei Männer größer, als bei Damen Cholesterinniveau=matrix(c(397,7135,242,7713), 2, 2, byrow=true) fisher.test(cholesterinniveau, alternative="greater") Das Ergebnis: > Cholesterinniveau=matrix(c(397,7135,242,7713), 2, 2, byrow=true) > fisher.test(cholesterinniveau, alternative="greater") data: Cholesterinniveau p-value = 1.784e-12 alternative hypothesis: true odds ratio is greater than Inf odds ratio Der einseitige Fisher-Test zeigt, dass das erhöhte Cholesterinniveau bei Männern signifikant stärker vorkommt, nämlich unserer p-wert ist p=1.784e-12. Der Fisher-Test rechnet die Odds auch aus: Odds bei Männer: 397/7135= Odds bei Damen: 242/7713= Der Quotient ist , bekommt man auch Konfidenzgrenzen. Man lese die Daten Falter ein. Kontingenztafel mit bekannten Daten: Frage 2: Ist die Hypothese zu halten, ob die Nahrung (NAHRUNG) und Temperatur (TEMP) unabhängig sind? Man wähle das folgende Menü: L. Börzsönyi 3

4 Statistik/Contingency tables/two-way table und wähle man die Zeilen- und Spaltenvariable aus: TEMP NAHRUNG erwaermt gekuelht zimmert adlibitum limitalt > totpercents(.table) # Percentage of Total erwaermt gekuelht zimmert Total adlibitum limitalt Total >.Test <- chisq.test(.table, correct=false) >.Test Pearson's Chi-squared test X-squared = , df = 2, p-value = >.Test$expected # Expected Counts TEMP NAHRUNG erwaermt gekuelht zimmert adlibitum limitalt > remove(.test) > fisher.test(.table) p-value = 1 alternative hypothesis: two.sided Die erwarteten Häufigkeiten sind größer, als 5, so gelten die Voraussetzungen der Anwendung der Chi-Quadrat-Test. Der Test zeit eine Unabhängigkeit zwischen Nahrung und Temperatur, weil der p-wert ist p= Der Fisher-Test ergibt das selbe Ergebnis. Verteilungstest oder Anpassungstest (mit chisq.test(.) nicht vom Menü) Frage 3: Sind die deutschen bzw. vereinigten Studenten nach Augenfarbe an Hand der registrierten Daten gleichverteilt? Die beobachteten Häufigkeiten sind folgendes: Deutschen Vereinigten Augenfarbe BL BR G BL BR G Häufigkeit Rel. Hkeit 37% 45% 18% 27% 51% 22% L. Börzsönyi 4

5 Die Ergebnisse sind folgendes: a) Bei Deutschen > chisq.test(x=c(14,17,7), p=c(0.34,0.33,0.33)) data: c(14, 17, 7) X-squared = 4.124, df = 2, p-value = b) Bei Vereinigten > chisq.test(x=c(28,54,23), p=c(0.33,0.34,0.33)) data: c(28, 54, 23) X-squared = , df = 2, p-value = Die Wkeiten müssen 1 sein, darum haben wir p=c(0.34, 0.33, 0.33) so gewählt. H 0 : Die Häufigkeiten nach Augenfarbe sind gleichverteilt. H 1 : Die Häufigkeiten nach Augenfarbe sind nicht gleichverteilt. Bei Deutschen (p=0.1272) hat man eine Gleichverteilung und bei der Vereinigten Gruppe (p=0.0006) keine. c) Bei der Vereinigten lässt sich eine weitere Verteilung z.b. p=c(0.25, 0.50, 0.25) nachzuprüfen. > chisq.test(x=c(28,54,23), p=c(0.25,0.50,0.25)) data: c(28, 54, 23) X-squared = , df = 2, p-value = Diese Verteilung ist schon anzugeben, weil unsere p-wert p= ist Einstichproben Test auf Wkeit oder Anteil (mit chisq.test(.) nicht vom Menü) Man lese die Daten dung von der Datei d+ung-2013 Daten ein und bestimme die Anzahl von männlichen und weiblichen in der Gruppe dung und dung_d. Frage 4: Sind die Männliche- und Weibliche-Anteil 25% : 75% bei den deutschen bzw. vereinigten Studenten an Hand der reg. Daten? a) Bei Deutschen (M:W-13:26) > chisq.test(x=c(13,26), p=c(0.25,0.75)) data: c(13, 26) X-squared = , df = 1, p-value = b) Bei Vereinigten (M:W-33:73) > chisq.test(x=c(33,73), p=c(0.25,0.75)) L. Börzsönyi 5

6 data: c(33, 73) X-squared = , df = 1, p-value = In beiden Fällen entsprechen die M-W Anteil 25%-75% Bei den zwei letzten Beispielen kann man exakten Binomialtest auch anwenden: Man lese die Daten dung von der Datei d+ung-2013 Daten ein und trenne für deutsche und ungarische Gruppe. Man brauche das folgende Menü: Statistics/Proportions/Single-sample proportion test a) Bei Deutschen > binom.test(rbind(.table), alternative='two.sided', p=.25, conf.level=.95) Exact binomial test data: rbind(.table) number of successes = 13, number of trials = 39, p-value = alternative hypothesis: true probability of success is not equal to probability of success b) Bei Vereinigten > binom.test(rbind(.table), alternative='two.sided', p=.25, conf.level=.95) Exact binomial test data: rbind(.table) number of successes = 33, number of trials = 106, p-value = alternative hypothesis: true probability of success is not equal to probability of success Wegen den erhaltenen p-werte bei a) und auch b) behalten wir die H0 Hypothese und halten wir die M-W Anteil 25%-75% für richtig. Die Wkeit der Erfolg sind bei a) 13/39 und bei b) 33/106, wofür eine 95% Konfidenzintervall auch angegeben wurde. Frage 5: Nehmen wir an, 27% der Erwachsenen sind Raucher. Ist dieser Anteil kleiner bei den deutschen bzw. ungarischen Studenten an Hand der registrierten Daten? Erst muss man die Variable rauchen umcodieren: Date/Manage variables in active data set/recode variables 0= nein 1:19= ja Neue Variable: zigarette Die Ergebnisse sind folgendes: L. Börzsönyi 6

7 a) Bei Deutschen zigarette ja nein 6 32 > binom.test(rbind(.table), alternative='less', p=.27, conf.level=.95) Exact binomial test data: rbind(.table) number of successes = 6, number of trials = 38, p-value = alternative hypothesis: true probability of success is less than probability of success b) Bei Ungarischen zigarette ja nein 9 58 > binom.test(rbind(.table), alternative='less', p=.27, conf.level=.95) Exact binomial test data: rbind(.table) number of successes = 9, number of trials = 67, p-value = alternative hypothesis: true probability of success is less than probability of success Bei deutschen Studenten ist es zu glauben, dass 27% raucher sind, bei den ungarischen Studenten gibt es signifikant weniger, als 27% raucher an Hand der registrierten Daten bei 5% Irrtumswkeit. Die übliche eine 95% Konfidenzintervall hat man hier auch. Zusammenhang zwischen zwei qualitativen Variablen Frage 6: Es ist zu überprüfen, dass Schweregrad und Geschlecht unabhängig sind oder weisen sie auf einen Zusammenhang hin. Kein Leicht Mäßig Schwer Gesamt Weiblich Männlich Gesamt Wir haben eine zweidimensionale Häufigkeitstabelle oder eine Kontingenztabelle. Die findet man in folgendem Menü: L. Börzsönyi 7

8 Statistics/Contingency tables/enter and analyze two-way table Trage man erst die Daten ein und lasse das R-Programm laufen. >.Table <- matrix(c(41,31,27,2,15,48,44,12), 2, 4, byrow=true) > rownames(.table) <- c('weiblich', 'Männlich') > colnames(.table) <- c('kein', 'Leicht', 'Mäßig', 'Schwer') >.Table # Counts Kein Leicht Mäßig Schwer Weiblich Männlich > totpercents(.table) # Percentage of Total Kein Leicht Mäßig Schwer Total Weiblich Männlich Total >.Test <- chisq.test(.table, correct=false) >.Test Pearson's Chi-squared test X-squared = , df = 3, p-value = 1.133e-05 >.Test$expected # Expected Counts Kein Leicht Mäßig Schwer Weiblich Männlich > remove(.test) > fisher.test(.table) p-value = 7.612e-06 alternative hypothesis: two.sided Unsere Hypothesen waren: H 0 : Schweregrad und Geschlecht sind unabhängig H 1 : Schweregrad und Geschlecht hängen zusammen Weil der p-wert (p-value = 1.133e-05) d.h. p= <0.05 ist, wird die H 0 abgelehnt und kann man behaupten, zwischen Schweregrad und Geschlecht besteht ein signifikanter Zusammenhang bei 5% Irrtumswkeit. Der Fisher Test gibt den selben Resultat. Ein Homogenitätstest führt man genau so durch, bloß die Fragestellung formuliert man folgendermaßen: L. Börzsönyi 8

9 Sind die Verteilungen nach Schwergrad in den zwei Geschlecht-gruppen unterschiedlich? Sind die Verteilungen nach Geschlecht in den vier Schwergrad-gruppen unterschiedlich? Die Antwort wäre, die Verteilungen sind unterschiedlich, die sind nicht homogen. Einseitiges testen durch Fisher-Test (nicht vom Menü) Mit Fisher-Test lässt sich bei einer Vierfeldertafel auch einseitig testen (für größere Tabellen gilt es nicht mehr!) Betrachte man die Umformung der vorigen Tabelle für 2x2 Tabelle: Symptom Schwer Nicht schwer Gesamt Frauen Männer Gesamt Frage 7: Kommt das Symptom Schwer bei Frauen weniger, als beim Männer vor? Unsere Hypothesen: H 0 : Das Symptom Schwer kommt gleich oft bei Frauen und Männer vor Tippe man die folgenden Befehle ein: H 1 : Das Symptom Schwer kommt bei Frauen weniger vor. symptom=matrix(c(2,99,12,107), 2, 2, byrow=true) fisher.test(symptom, alternative="less") oder symptom=matrix(c(2,99,12,107), nrow=2, byrow=true) fisher.test(symptom, alternative="less") Der Fisher-Test führt zu dem folgenden Ergebnis: data: symptom p-value = alternative hypothesis: true odds ratio is less than odds ratio Weil p= <0.05 ist, so wird die H 0 Hypothese abgelehnt, d.h. bei Frauen. kommt das Symptom schwer signifikant seltener vor. L. Börzsönyi 9