Lineare Modelle in R: Einweg-Varianzanalyse



Ähnliche Dokumente
Lineare Modelle in R: Zweiweg-Varianzanalyse und Kovarianzanalyse

Versuchsplanung SoSe 2015 R - Lösung zu Übung 1 am Autor: Ludwig Bothmann

Lineargleichungssysteme: Additions-/ Subtraktionsverfahren

Musterlösung zu Serie 14

1 Interaktion von zwei Dummyvariablen. 2 Interaktion einer Dummyvariablen mit einer kardinalskalierten Variablen

Tutorial: Homogenitätstest

Lösung zu Kapitel 11: Beispiel 1

Name (in Druckbuchstaben): Matrikelnummer: Unterschrift:

Das große ElterngeldPlus 1x1. Alles über das ElterngeldPlus. Wer kann ElterngeldPlus beantragen? ElterngeldPlus verstehen ein paar einleitende Fakten

Varianzanalyse (ANOVA: analysis of variance)

Was meinen die Leute eigentlich mit: Grexit?

Analog zu Aufgabe 16.1 werden die Daten durch folgenden Befehl eingelesen: > kredit<-read.table("c:\\compaufg\\kredit.

Webergänzung zu Kapitel 10

Ihre Interessentendatensätze bei inobroker. 1. Interessentendatensätze

Kovarianzanalyse. Truthahngewicht. Truthahngewicht. Methoden empirischer Sozialforschung. 1 metrische und mehrere metrische und kategoriale Variablen

9. Schätzen und Testen bei unbekannter Varianz

Repetitionsaufgaben Wurzelgleichungen

Stellen Sie bitte den Cursor in die Spalte B2 und rufen die Funktion Sverweis auf. Es öffnet sich folgendes Dialogfenster

Urlaubsregel in David

Einfache statistische Auswertungen mit dem Programm SPSS

Durchführung der Datenübernahme nach Reisekosten 2011

Partnerportal Installateure Registrierung

Schnittstelle DIGI-Zeiterfassung

Mathematik: Mag. Schmid Wolfgang Arbeitsblatt 3 1. Semester ARBEITSBLATT 3 RECHNEN MIT GANZEN ZAHLEN

Fortgeschrittene Statistik Logistische Regression

ELO Print&Archive so nutzen Sie es richtig

Willkommen zur Vorlesung Statistik

Erstellen einer Collage. Zuerst ein leeres Dokument erzeugen, auf dem alle anderen Bilder zusammengefügt werden sollen (über [Datei] > [Neu])

Professionelle Seminare im Bereich MS-Office

Statistische Auswertung:

-Inhalte an cobra übergeben

Wir gehen aus von euklidischen Anschauungsraum bzw. von der euklidischen Zeichenebene. Parallele Geraden schneiden einander nicht.

Reporting Services und SharePoint 2010 Teil 1

Aufgaben zur Flächenberechnung mit der Integralrechung

Statistik II Wahrscheinlichkeitsrechnung und induktive Statistik Erste Klausur zum Sommersemester Juli 2005

Zusatzmodul Lagerverwaltung

Berechnung der Erhöhung der Durchschnittsprämien

Kurzeinführung Moodle

Inhaltsverzeichnis. 1. Empfängerübersicht / Empfänger hinzufügen 2. Erstellen eines neuen Newsletters / Mailings 3. Versand eines Newsletters

Suche schlecht beschriftete Bilder mit Eigenen Abfragen

Fachbericht zum Thema: Anforderungen an ein Datenbanksystem

Jede Zahl muss dabei einzeln umgerechnet werden. Beginnen wir also ganz am Anfang mit der Zahl,192.

Wichtige Hinweise zu den neuen Orientierungshilfen der Architekten-/Objektplanerverträge

mit dem TeXnicCenter von Andreas Both

Restore Exchange Server 2007 SP2

Binäre abhängige Variablen

Update-Anleitung für SFirm 3.1

Einfache Varianzanalyse für abhängige

Updateanleitung für SFirm 3.1

7 Rechnen mit Polynomen

Anleitung zur Daten zur Datensicherung und Datenrücksicherung. Datensicherung

Wir machen neue Politik für Baden-Württemberg

Anwendungsbeispiele Buchhaltung

WinWerk. Prozess 4 Akonto. KMU Ratgeber AG. Inhaltsverzeichnis. Im Ifang Effretikon

Handbuch ECDL 2003 Modul 2: Computermanagement und Dateiverwaltung Dateien löschen und wiederherstellen

Einfügen von Bildern innerhalb eines Beitrages

Biostatistik, WS 2015/2016 Der zwei-stichproben-t-test

1. Einführung Erstellung einer Teillieferung Erstellung einer Teilrechnung 6

Grundlagen der Theoretischen Informatik, SoSe 2008

Kurzanleitung. MEYTON Aufbau einer Internetverbindung. 1 Von 11

Anleitung zum erfassen von Last Minute Angeboten und Stellenangebote

Vorgehensweise für die Umstellung von Quicken-Konten bei Bargeldbuchungen auf ein Wertpapierkonto

1 Einleitung. Lernziele. Symbolleiste für den Schnellzugriff anpassen. Notizenseiten drucken. eine Präsentation abwärtskompatibel speichern

1 Mathematische Grundlagen

GDPdU Export. Modulbeschreibung. GDPdU Export. Software-Lösungen. Stand: Seite 1

Studieren- Erklärungen und Tipps

Ein und dieselbe Taufe

Würfelt man dabei je genau 10 - mal eine 1, 2, 3, 4, 5 und 6, so beträgt die Anzahl. der verschiedenen Reihenfolgen, in denen man dies tun kann, 60!.

Erweiterung der Aufgabe. Die Notenberechnung soll nicht nur für einen Schüler, sondern für bis zu 35 Schüler gehen:

Erste Schritte mit CVP 9.0

Internet Explorer Version 6

Programm 4: Arbeiten mit thematischen Karten

Anleitung für die Umstellung auf das plus Verfahren mit manueller und optischer Übertragung

EINFACHES HAUSHALT- KASSABUCH

Lichtbrechung an Linsen

Orderarten im Wertpapierhandel

Sowohl die Malstreifen als auch die Neperschen Streifen können auch in anderen Stellenwertsystemen verwendet werden.

Lineare Modelle in R: Klassische lineare Regression

Artikel Schnittstelle über CSV

Internet online Update (Internet Explorer)

LEITFADEN ZUR SCHÄTZUNG DER BEITRAGSNACHWEISE

90-minütige Klausur Statistik für Studierende der Kommunikationswissenschaft

Hilfe zur Urlaubsplanung und Zeiterfassung

«/Mehrere Umfragen in einer Umfrage durchführen» Anleitung

Microsoft Update Windows Update

TREND SEARCH VISUALISIERUNG. von Ricardo Gantschew btk Berlin Dozent / Till Nagel

Der Kalender im ipad

Lineare Gleichungssysteme

Güte von Tests. die Wahrscheinlichkeit für den Fehler 2. Art bei der Testentscheidung, nämlich. falsch ist. Darauf haben wir bereits im Kapitel über

Datenaufbereitung in SPSS. Daten zusammenfügen

Erstellen einer PostScript-Datei unter Windows XP

Herzlich Willkommen beim Webinar: Was verkaufen wir eigentlich?

Datenübernahme von HKO 5.9 zur. Advolux Kanzleisoftware

Arbeiten mit dem Outlook Add-In

Das sogenannte Beamen ist auch in EEP möglich ohne das Zusatzprogramm Beamer. Zwar etwas umständlicher aber es funktioniert

Windows XP Jugendschutz einrichten. Monika Pross Molberger PC-Kurse

Aufruf der Buchungssystems über die Homepage des TC-Bamberg

0, v 6 = , v 4 = span(v 1, v 5, v 6 ) = span(v 1, v 2, v 3, v 4, v 5, v 6 ) 4. span(v 1, v 2, v 4 ) = span(v 2, v 3, v 5, v 6 )

WORKSHOP für das Programm XnView

Transkript:

Lineare Modelle in R: Einweg-Varianzanalyse Achim Zeileis 2009-02-20 1 Datenaufbereitung Wie schon in der Vorlesung wollen wir hier zur Illustration der Einweg-Analyse die logarithmierten Ausgaben der Touristen im GSA Datensatz erklären durch ihr Herkunftsland, wobei wir uns auf die Länder USA und Niederlande beschränken. Um die Analyse der Vorlesung zu reproduzieren, müssen wir zunächst die zugehörigen Daten entsprechend aufbereiten. Dafür laden wir zunächst den GSA Datensatz: R> load("gsa.rda") Nun selektieren wir die Spalten/Variablen und die Zeilen/Beobachtungen, die wir benötigen und eliminieren dann noch die fehlenden Beobachtungen. Zuerst wählen wir die Spalten 3, 5, 6, 8 und 9 aus, R> gsa <- GSA[, c(3, 5, 6, 8, 9)] die zugehörigen Variablennamen sind: 1 R> names(gsa)[c(3, 5, 6, 8, 9)] [1] "income" "country" "expenditure" "accomodation" "year" Wir wollen uns dann nicht alle Beobachtungen anschauen, sondern nur die, die zu den USA oder den Niederlanden gehören, und rufen dafür subset auf: R> gsa <- subset(gsa, country == "USA" country == "Netherlands") Und zuletzt lassen wir alle fehlenden Beobachtungen weg. R> gsa <- na.omit(gsa) Um einen kurzen Überblick über die Daten zu bekommen, erfragen wir die Dimension des Datensatzes sowie eine numerische Zusammenfassung. R> dim(gsa) [1] 1100 5 1 Dieser Datensatz enthält mehr Variablen als wir für die folgende Analyse benötigen, aber da dieses Beispiel in der nächsten Einheit fortgeführt wird, werden hier schon alle auch dafür verwendeten Variablen ausgewählt. 1

R> summary(gsa) income country expenditure accomodation Min. : 854.1 Netherlands :648 Min. : 113.0 Hotel :553 1st Qu.: 22100.0 USA :452 1st Qu.: 485.9 Camping :253 Median : 31350.0 Austria (Vienna): 0 Median : 792.6 B&B :103 Mean : 41567.5 Austria (other) : 0 Mean : 991.8 Appartment:122 3rd Qu.: 48320.0 Belgium : 0 3rd Qu.:1284.9 Room : 57 Max. :966400.0 Denmark : 0 Max. :9417.5 Farm : 12 (Other) : 0 year 1994:587 1997:513 Dabei fällt auf, dass der Faktor country immer noch alle Levels hat, obwohl aufgrund unserer Auswahl nur noch zwei der Ausprägungen vorkommen. Um diesen Faktor neu zu kodieren, gibt es verschiedene Wege: Besonders einfach ist es, einmal die Funktion factor darauf anzuwenden und das Resultat wieder der entsprechenden Spalte im Datensatz zuzuweisen. R> gsa$country <- factor(gsa$country) R> summary(gsa) income country expenditure accomodation Min. : 854.1 Netherlands:648 Min. : 113.0 Hotel :553 1st Qu.: 22100.0 USA :452 1st Qu.: 485.9 Camping :253 Median : 31350.0 Median : 792.6 B&B :103 Mean : 41567.5 Mean : 991.8 Appartment:122 3rd Qu.: 48320.0 3rd Qu.:1284.9 Room : 57 Max. :966400.0 Max. :9417.5 Farm : 12 year 1994:587 1997:513 Nun hat country nur noch die gewünschten zwei Ausprägungen und wir können mit der eigentlichen Analyse beginnen. 2 Einweg-Varianzanalyse: 2-Stichprobenproblem Der Faktor country hat zwei Ausprägungen, weshalb man hier auch von einem 2-Stichprobenproblem spricht. Zur Visualisierung erzeugen wir zunächst mal einen Boxplot der beiden Stichproben: R> plot(log(expenditure) ~ country, data = gsa) 2

log(expenditure) 5 6 7 8 9 Netherlands USA country Daraus ist also ersichtlich, daß als die US-Amerikaner im Mittel mehr auszugeben scheinen als die Niederländer. Die Mittelwerte der beiden Gruppen sind R> tapply(log(gsa$expenditure), gsa$country, mean) Netherlands USA 6.330866 7.156888 Um durch eine Varianzanalyse nachzuweisen, daß diese Mittelwerte auch signifikant unterschiedlich sind, passen wir das entsprechende lineare Modell an, das log(expenditure) durch country erklärt. R> fmc <- lm(log(expenditure) ~ country, data = gsa) R> fmc Call: lm(formula = log(expenditure) ~ country, data = gsa) (Intercept) countryusa 6.331 0.826 In dem so angepaßten Modell wurden also durch R automatisch Treatment-Kontraste verwendet (dies ist die Voreinstellung in R). Der erste Koeffizient (Intercept) entspricht also dem Mittelwert in der Stichprobe der Niederländer. Der zweite Koeffizient countryusa entspricht der Differenz der Mittelwerte zwischen den beiden Stichproben. Die log-ausgaben der US-Amerikaner sind also im Mittel um 0.826 höher als die der Niederländer. Um den Mittelwert für die Stichprobe der US-Amerikaner zu berechnen, müßte man also beide Koeffizienten aufsummieren. R> sum(coef(fmc)) [1] 7.156888 Um nun die Varianzanalyse durchzuführen gibt es in R verschiedene äquivalente Wege. In R> summary(fmc) 3

Call: lm(formula = log(expenditure) ~ country, data = gsa) Residuals: Min 1Q Median 3Q Max -1.60319-0.37121 0.01674 0.33912 1.99344 Estimate Std. Error t value Pr(> t ) (Intercept) 6.33087 0.02128 297.56 <2e-16 *** countryusa 0.82602 0.03319 24.89 <2e-16 *** Residual standard error: 0.5416 on 1098 degrees of freedom Multiple R-squared: 0.3607, Adjusted R-squared: 0.3601 F-statistic: 619.4 on 1 and 1098 DF, p-value: < 2.2e-16 ist zunächst die t-statistik für die Differenz der Mittelwerte countryusa angegeben. Zu dieser gehört auch ein hochsignifikanter p-wert. Denselben p-wert erhalten wir auch aus der F -Statistik, die dieses Modell gegen das triviale Modell tests. Man könnte natuerlich auch das triviale Modell explizit berechnen und dann die Varianzanalyse mit anova durchführen. Dies führt selbstverständlich auch zu demselben p-wert: R> fm1 <- lm(log(expenditure) ~ 1, data = gsa) R> anova(fmc, fm1) Analysis of Variance Table Model 1: log(expenditure) ~ country Model 2: log(expenditure) ~ 1 Res.Df RSS Df Sum of Sq F Pr(>F) 1 1098 322.07 2 1099 503.75-1 -181.68 619.38 < 2.2e-16 *** 3 Einweg-Varianzanalyse: k-stichprobenproblem Nun können qualitative Erklärungsvariablen nicht nur 2 Ausprägungen haben, sondern im Allgemeinen k verschiedene Ausprägungen. Um zu illustrieren, welche Konsequenzen dies auf die entsprechenden linearen Modelle hat, wollen wir hier die log-ausgaben log(expenditure) durch die Art der Unterbringung accomodation erklären. Die Frage ist also, ob Touristen, die im Hotel wohnen mehr Geld ausgeben als beispielsweise Touristen in einem Bed & Breakfast oder einem Appartment usw. Zur Visualisierung verwenden wir wieder parallele Boxplots R> plot(log(expenditure) ~ accomodation, data = gsa) 4

log(expenditure) 5 6 7 8 9 Hotel Camping B&B Appartment Room Farm accomodation aus denen schon ablesbar ist, dass der Hotelurlaub der teuerste zu sein scheint, während Camping besonders günstig ist und die anderen Unterbringungsmöglichkeiten ungefähr ähnlich sind. Die Mittelwerte der log-ausgaben in den k = 6 Stichproben betragen hier R> tapply(log(gsa$expenditure), gsa$accomodation, mean) Hotel Camping B&B Appartment Room Farm 7.110292 5.937905 6.644212 6.296507 6.540692 6.473815 Das zugehörige lineare Modell passen wir dann mit lm an: R> fma <- lm(log(expenditure) ~ accomodation, data = gsa) R> fma Call: lm(formula = log(expenditure) ~ accomodation, data = gsa) (Intercept) accomodationcamping accomodationb&b 7.1103-1.1724-0.4661 accomodationappartment accomodationroom accomodationfarm -0.8138-0.5696-0.6365 Hier ist also zu sehen, daß der (Intercept) Koeffizient der Schätzung für die Hotel-Stichprobe entspricht. Dies ist also die Referenz-Kategorie. Alle übrigen Koeffizienten geben die Differenz der Mittelwerte zur Referenzkategorie an. Das heißt also, dass der Mittelwert bei Camping um 1.172 niedriger ist, bei Bed & Breakfast um 0.466 niedriger usw. Die entsprechenden Prognosen kann man also wieder durch Aufsummieren der entsprechenden Koeffizienten erhalten. Für Camping beispielsweise als R> coef(fma)[2] + coef(fma)[1] accomodationcamping 5.937905 Um zu prüfen, ob accomodation nun einen signifikanten Einfluß auf log(expenditure) hat, verwenden wir wieder die zugehörigen summary. R> summary(fma) 5

Call: lm(formula = log(expenditure) ~ accomodation, data = gsa) Residuals: Min 1Q Median 3Q Max -1.39688-0.30997-0.02192 0.28815 2.04003 Estimate Std. Error t value Pr(> t ) (Intercept) 7.11029 0.02002 355.183 < 2e-16 *** accomodationcamping -1.17239 0.03573-32.812 < 2e-16 *** accomodationb&b -0.46608 0.05052-9.226 < 2e-16 *** accomodationappartment -0.81379 0.04709-17.282 < 2e-16 *** accomodationroom -0.56960 0.06549-8.698 < 2e-16 *** accomodationfarm -0.63648 0.13736-4.634 4.03e-06 *** Residual standard error: 0.4708 on 1094 degrees of freedom Multiple R-squared: 0.5187, Adjusted R-squared: 0.5165 F-statistic: 235.8 on 5 and 1094 DF, p-value: < 2.2e-16 Hierbei ist nun zu beachten, daß die t-statistiken und die F -Statistik unterschiedliche Interpretationen haben. Der zu accomodationcamping gehörende t-test überprüft ausschließlich, ob sich der Mittelwert zwischen Hotel und Camping unterscheidet. Analog für die übrigen t-statistiken. Um zu überprüfen, ob der Faktor insgesamt eine zusätzliche Erklärung gegenüber dem trivialen Modell bringt, kann hingegen die F -Statistik verwendet werden, die alle k 1 = 5 Koeffizienten von accomodation gleichzeitig testet. Diese ist natürlich hochsignifikant, woraus geschloßen werden kann, daß dieser Faktor einen signifikanten Einfluß hat. Dieselbe F -Statistik mit demselben p-wert erhält man alternativ auch wieder per anova und dem expliziten Vergleich mit dem trivialen Modell. R> anova(fm1, fma) Analysis of Variance Table Model 1: log(expenditure) ~ 1 Model 2: log(expenditure) ~ accomodation Res.Df RSS Df Sum of Sq F Pr(>F) 1 1099 503.75 2 1094 242.44 5 261.30 235.82 < 2.2e-16 *** Wie eine Mehrweg-Varianzanalyse sowie Kovarianzanalyse mit Hilfe derselben Funktionen durchgeführt werden kann, wird der Inhalt des nächsten Tutoriums sein. Zum Abschluß sollen auch wieder die angelegten Objekte R> objects() [1] "GSA" "fm1" "fma" "fmc" "gsa" aufgeräumt werden: R> remove(gsa, gsa, fm1, fma, fmc) 6