Lineare Gemischte Modelle für longitudinale Daten



Ähnliche Dokumente
Gemischte Modelle. Fabian Scheipl, Sonja Greven. SoSe Institut für Statistik Ludwig-Maximilians-Universität München

Güte von Tests. die Wahrscheinlichkeit für den Fehler 2. Art bei der Testentscheidung, nämlich. falsch ist. Darauf haben wir bereits im Kapitel über

Rekursionen. Georg Anegg 25. November Methoden und Techniken an Beispielen erklärt

Stochastische Eingangsprüfung,

50. Mathematik-Olympiade 2. Stufe (Regionalrunde) Klasse Lösung 10 Punkte

90-minütige Klausur Statistik für Studierende der Kommunikationswissenschaft

Austausch- bzw. Übergangsprozesse und Gleichgewichtsverteilungen

Angewandte Ökonometrie, WS 2012/13, 1. Teilprüfung am Lösungen. Das folgende Modell ist ein GARCH(1,1)-Modell:

Profil A 49,3 48,2 50,7 50,9 49,8 48,7 49,6 50,1 Profil B 51,8 49,6 53,2 51,1 51,1 53,4 50, ,5 51,7 48,8

geben. Die Wahrscheinlichkeit von 100% ist hier demnach nur der Gehen wir einmal davon aus, dass die von uns angenommenen

Lineargleichungssysteme: Additions-/ Subtraktionsverfahren

Name (in Druckbuchstaben): Matrikelnummer: Unterschrift:

Lineare Gleichungssysteme

ERGÄNZUNGEN ZUR ANALYSIS II MITTELWERTSATZ UND ANWENDUNGEN

AUTOMATISIERTE HANDELSSYSTEME

Behörde für Bildung und Sport Abitur 2008 Lehrermaterialien zum Leistungskurs Mathematik

Einführung in statistische Analysen

Klausur zur Vorlesung Multivariate Verfahren, SS Kreditpunkte, 90 min

Korrelation (II) Korrelation und Kausalität

Kapitel 15. Lösung linearer Gleichungssysteme

0, v 6 = , v 4 = span(v 1, v 5, v 6 ) = span(v 1, v 2, v 3, v 4, v 5, v 6 ) 4. span(v 1, v 2, v 4 ) = span(v 2, v 3, v 5, v 6 )

Binäre abhängige Variablen

Beispiel Zusammengesetzte Zufallsvariablen

Willkommen zur Vorlesung Statistik

1 Mathematische Grundlagen

Primzahlen und RSA-Verschlüsselung

Rekursionen (Teschl/Teschl )

DIFFERENTIALGLEICHUNGEN

Die Gleichung A x = a hat für A 0 die eindeutig bestimmte Lösung. Für A=0 und a 0 existiert keine Lösung.

Tangentengleichung. Wie lautet die Geradengleichung für die Tangente, y T =? Antwort:

LU-Zerlegung. Zusätze zum Gelben Rechenbuch. Peter Furlan. Verlag Martina Furlan. Inhaltsverzeichnis. 1 Definitionen.

Aufgabe 1. Zunächst wird die allgemeine Tangentengleichung in Abhängigkeit von a aufgestellt:

Anhand des bereits hergeleiteten Models erstellen wir nun mit der Formel

1.3 Die Beurteilung von Testleistungen

Ausarbeitung des Seminarvortrags zum Thema

Repetitionsaufgaben Wurzelgleichungen

Kapitel 4: Binäre Regression

Der Zwei-Quadrate-Satz von Fermat

Lineare Gleichungssysteme

Im Jahr t = 0 hat eine Stadt Einwohner. Nach 15 Jahren hat sich die Einwohnerzahl verdoppelt. z(t) = at + b

Informationsblatt Induktionsbeweis

(1) Problemstellung. (2) Kalman Filter

7 Rechnen mit Polynomen

Das große ElterngeldPlus 1x1. Alles über das ElterngeldPlus. Wer kann ElterngeldPlus beantragen? ElterngeldPlus verstehen ein paar einleitende Fakten

V 2 B, C, D Drinks. Möglicher Lösungsweg a) Gleichungssystem: 300x y = x + 500y = 597,5 2x3 Matrix: Energydrink 0,7 Mineralwasser 0,775,

Unterrichtsmaterialien in digitaler und in gedruckter Form. Auszug aus: Übungsbuch für den Grundkurs mit Tipps und Lösungen: Analysis

ε heteroskedastisch BINARY CHOICE MODELS Beispiele: Wahlentscheidung Kauf langlebiger Konsumgüter Arbeitslosigkeit Schätzung mit OLS?

3. LINEARE GLEICHUNGSSYSTEME

Monte-Carlo-Simulationen mit Copulas. Kevin Schellkes und Christian Hendricks

Überblick über die Verfahren für Ordinaldaten

In konstanten Modellen wird davon ausgegangen, dass die zu prognostizierende Größe sich über die Zeit hinweg nicht verändert.

Übungsklausur. Bitte wählen Sie fünf Aufgaben aus! Aufgabe 1. Übungsklausur zu Mathematik I für BWL und VWL (WS 2008/09) PD Dr.

4. Jeder Knoten hat höchstens zwei Kinder, ein linkes und ein rechtes.

Nichtlineare Optimierung ohne Nebenbedingungen

Die reellen Lösungen der kubischen Gleichung

3.3 Eigenwerte und Eigenräume, Diagonalisierung

Statistische Thermodynamik I Lösungen zur Serie 1

Zeichen bei Zahlen entschlüsseln

Gleichungen Lösen. Ein graphischer Blick auf Gleichungen

Einführung in die Algebra

Entladen und Aufladen eines Kondensators über einen ohmschen Widerstand

Abituraufgabe zur Stochastik, Hessen 2009, Grundkurs (TR)

Kevin Caldwell. 18.April 2012

15 Optimales Kodieren

Die Optimalität von Randomisationstests

Data Mining: Einige Grundlagen aus der Stochastik

Messgeräte: Mess-System-Analyse und Messmittelfähigkeit

Statistische Auswertung:

Grundbegriffe der Informatik

Mean Time Between Failures (MTBF)

q = 1 p = k k k = 0, 1,..., = [ ] = 0.678

Verteilungsmodelle. Verteilungsfunktion und Dichte von T

Statistik II für Betriebswirte Vorlesung 2

13. Lineare DGL höherer Ordnung. Eine DGL heißt von n-ter Ordnung, wenn Ableitungen y, y, y,... bis zur n-ten Ableitung y (n) darin vorkommen.

Höhere Mathematik 3. Apl. Prof. Dr. Norbert Knarr. Wintersemester 2015/16. FB Mathematik

1. Man schreibe die folgenden Aussagen jeweils in einen normalen Satz um. Zum Beispiel kann man die Aussage:

1 Gemischte Lineare Modelle

Tutorial: Homogenitätstest

Eigenwerte und Eigenvektoren von Matrizen

Charakteristikenmethode im Beispiel

Konzepte der Informatik

9. Schätzen und Testen bei unbekannter Varianz

Lineare Gleichungssysteme I (Matrixgleichungen)

Lineare Funktionen. 1 Proportionale Funktionen Definition Eigenschaften Steigungsdreieck 3

2. Deskriptive Statistik 2.1. Häufigkeitstabellen, Histogramme, empirische Verteilungsfunktionen

Theoretische Grundlagen der Informatik WS 09/10

Melanie Kaspar, Prof. Dr. B. Grabowski 1

Universität Bonn 28. Juli 2010 Fachbereich Rechts- und Wirtschaftswissenschaften Statistische Abteilung Prof. Dr. A. Kneip. KLAUSUR Statistik B

Würfelt man dabei je genau 10 - mal eine 1, 2, 3, 4, 5 und 6, so beträgt die Anzahl. der verschiedenen Reihenfolgen, in denen man dies tun kann, 60!.

9.2. DER SATZ ÜBER IMPLIZITE FUNKTIONEN 83

OECD Programme for International Student Assessment PISA Lösungen der Beispielaufgaben aus dem Mathematiktest. Deutschland

Quantitative Methoden der Bildungsforschung

Füllmenge. Füllmenge. Füllmenge. Füllmenge. Mean = 500,0029 Std. Dev. = 3,96016 N = ,00 490,00 495,00 500,00 505,00 510,00 515,00 Füllmenge

5 Eigenwerte und die Jordansche Normalform

PTV VISWALK TIPPS UND TRICKS PTV VISWALK TIPPS UND TRICKS: VERWENDUNG DICHTEBASIERTER TEILROUTEN

ONLINE-AKADEMIE. "Diplomierter NLP Anwender für Schule und Unterricht" Ziele

Welche Lagen können zwei Geraden (im Raum) zueinander haben? Welche Lagen kann eine Gerade bezüglich einer Ebene im Raum einnehmen?

Extrema von Funktionen in zwei Variablen

Betragsgleichungen und die Methode der Fallunterscheidungen

Transkript:

Diplomarbeit in Technischer Mathematik TU Graz Lineare Gemischte Modelle für longitudinale Daten Regina Riedl Matr-Nr. 023 1009 Vorgelegt der Fakultät für Technische Mathematik und Technische Physik an der Technischen Universität Graz Begutachter: Univ.-Prof. DI Dr. Ernst Stadlober Institut für Statistik der Technischen Universität Graz Betreuerin: Univ.-Prof. DI Dr. Andrea Berghold Institut für Medizinische Informatik, Statistik und Dokumentation an der Medizinischen Universität Graz 28. Oktober 2008

1

Ich erkläre, dass ich diese Arbeit selbst verfasst, alle verwendeten Quellen zitiert und mich keiner unerlaubten Hilfsmittel bedient habe. 28. Oktober 2008, Unterschrift

3 Danksagung Ich möchte mich ganz herzlich bei Univ.-Prof. DI Dr. Andrea Berghold und Univ.- Prof. DI Dr. Ernst Stadlober bedanken, für die Möglichkeit diese Diplomarbeit am Institut für medizinische Informatik, Statistik und Dokumentation verfassen zu können. Vielen Dank auch für die freundliche und engagierte Betreuung beim Erstellen dieser Arbeit. Ebenso möchte ich mich bei meinen Freunden und KollegInnen bedanken, die mir während meines Studiums immer mit Ratschlägen zur Seite gestanden sind. Auch möchte ich mich im Besonderen bei meinen Eltern bedanken, die mir mit ihrer Unterstützung das Studium ermöglicht haben.

4 Zusammenfassung In klinischen Studien treten häug longitudinale Daten auf, in denen wiederholte Messungen an derselben experimentellen Einheit über die Zeit erhoben werden. Der im Zeitraum von 1995-2003 erhobene REVOST (Reiner Ernährungs- und Vorsorge- Studie) Datensatz weist Messungen an Schüler und Schülerinnen in verschiedenen Altersstufen auf. Dieser REVOST Datensatz wird durch Wachstumskurvenmodelle analysiert, basierend auf der Theorie der linearen gemischten Modelle (Modelle mit festen und zufälligen Parametern mit abhängiger Variablen aus der Normalverteilung). Der Schwerpunkt dieser Arbeit liegt in der Modellbildung und Modellerstellung. Zur Auswertung dieser Modelle wurde das Programmpaket SAS verwendet, wobei ausführlich auf die Implementierung mittels der Prozedure MIXED eingegangen wird. Abstract Longitudinal data often arise in clinical studies, in which repeated measurements on the same experimental unit occur over time. The REVOST (Reiner Ernährungsund Vorsorge-Studie) data set, which was collected in the years 1995-2002, features measurements of students over dierent years. The REVOST data set is analysed by a growth-curve model based on the theory of linear mixed models (models with xed and random eects with a normally distributed response). This work focuses on model building strategies. The program SAS is used to analyse these models, where the implementation of the MIXED procedure is elaborated in detail.

Inhaltsverzeichnis 1 Problemstellung 9 1.1 Einleitung................................. 9 1.2 Vorstellen der Datensätze........................ 11 1.2.1 Hormontherapie bei Ratten: Rat Data............. 11 1.2.2 Ernährungs- und Vorsorge-Studie: REVOST Datensatz.... 12 2 Grundlagen 14 2.1 Das Allgemeine Lineare Modell (ALM)................. 14 2.2 Parameterschätzung in linearen Modellen................ 15 2.2.1 Beste lineare erwartungstreue (BLUE) Schätzung....... 15 2.2.2 Methode der Kleinsten Quadrate (LS-Methode)........ 16 2.2.3 Maximum Likelihood Schätzung................. 18 2.2.4 Restringierte Maximum Likelihood Schätzung......... 22 3 Lineares Gemischtes Modell (LGM) 23 3.1 Einleitung................................. 23 3.2 Eigenschaften von longitudinalen Daten................. 23 3.3 Modelle für longitudinale Daten..................... 26 3.4 Two-Stage Analysis............................ 28 3.4.1 Denition der ersten Stufe.................... 28 3.4.2 Denition der zweiten Stufe................... 28 3.4.3 Zusammenführung beider Stufen zu einem linearen gemischten Modell............................... 29 3.4.4 Annahmen über die Kovarianzstruktur............. 29 3.4.5 Beispiel: The Rat data...................... 31 3.5 Marginale und bedingte Verteilungen.................. 33 3.6 Schätzung und Inferenzen........................ 34 3.6.1 Schätzung fester Eekte bei bekannter Kovarianzstruktur... 35 3.6.2 Schätzung fester Eekte bei unbekannter Kovarianzstruktur. 36 3.6.3 Schätzung der Kovarianzstruktur................ 37 5

INHALTSVERZEICHNIS 6 3.6.4 Inferenzen für die festen Eekte................. 40 3.6.5 Inferenzen für die Varianzkomponenten............. 42 3.6.6 Beispiel: Rat Data Fortsetzung................. 43 3.7 Vorhersage der zufälligen Eekte.................... 46 3.7.1 Empirischer Bayes Schätzer................... 47 3.7.2 Kombination fester und zufälliger Eekte............ 48 3.7.3 Shrinkage-Schätzer........................ 48 3.7.4 Henderson's Mixed-Model Equations (MME).......... 49 4 LGM und SAS 55 4.1 Die Prozeduren GLM und MIXED................... 55 4.2 Die Prozedur MIXED........................... 56 4.2.1 PROC MIXED Statement.................... 57 4.2.2 CLASS Statement........................ 58 4.2.3 MODEL Statement........................ 58 4.2.4 RANDOM Statement....................... 59 4.2.5 REPEATED Statement..................... 60 4.2.6 CONTRAST Statement..................... 61 4.2.7 ESTIMATE Statement...................... 61 4.2.8 Weitere Statements und Optionen................ 61 5 Fallstudie: REVOST Datensatz 64 5.1 Problemstellung.............................. 64 5.2 Explorative Datenanalyse........................ 64 5.3 Modellbildung............................... 71 5.3.1 Modellieren der Mittelwertstruktur............... 71 5.3.2 Modellieren der Kovarianzstruktur............... 76 5.3.3 Modell mit zufälligem Intercept................. 79 5.3.4 Modell mit zufälligen Koezienten............... 83 5.4 Inferenzen................................. 89 5.5 Modelldiagnose.............................. 92 5.5.1 Residuen Analyse......................... 94 5.5.2 Einussanalyse.......................... 100 A Anhang 104 A.1 Informationskriterien........................... 104 A.1.1 Akaike`s Information Criterion (AIC).............. 104 A.1.2 Bayesian Information Criterion (BIC).............. 105 A.2 SAS Code................................. 105 A.2.1 Rat data.............................. 105

INHALTSVERZEICHNIS 7 A.2.2 REVOST Daten.......................... 108

INHALTSVERZEICHNIS 8

Kapitel 1 Problemstellung 1.1 Einleitung Das lineare gemischte Modell (LGM) stellt eine Erweiterung des klassischen linearen Modells dar, indem es nicht nur feste Eekte, sondern auch zufällige Eekte als Koezienten miteinbezieht. Solche Modelle eignen sich gut zur Analyse von Daten, welche in der Response Variable eine Abhängigkeitsstruktur aufweisen, wie es bei Longitudinal- und Clusterdaten der Fall ist. In dieser Arbeit wird speziell auf die Modellbildung und Auswertung longitudinaler Daten mit normalverteilter abhängiger Variable eingegangen. Wiederholte Messungen treten häug bei der Untersuchung von medizinischen Fragestellungen auf, wobei ein bestimmtes Merkmal an einem Patienten mehrfach über die Zeit beobachtet wird. Gemischte Modelle ermöglichen eine Analyse aus individuen-spezischer Sicht. Es werden zunächst die theoretischen Grundlagen des LGMs aufgearbeitet und dann die Anwendung anhand konkreter Datensätze, welche in Kapitel 1 vorgestellt werden, demonstriert. Die Denition des allgemeinen linearen Modells (ALM) wird in Kapitel 2 behandelt. Dabei wird speziell auf die unterschiedlichen Methoden der Parameterschätzung, als Grundlage zur Schätzung der festen Parameter im LGM, eingegangen. Die wiederholten Messungen ieÿen in den Darstellungen dieser Methoden noch nicht mit ein. Erst das Kapitel 3 nimmt Bezug auf Studiendesigns mit longitudinalen Daten. Solch eine Datenstruktur weist bestimmte Eigenschaften auf, die es im Finden eines passenden Modells zu berücksichtigen gilt. Zunächst werden diese Eigenschaften aufgeführt und mögliche Auswertungsmethoden vorgestellt. Die Denition 9

KAPITEL 1. PROBLEMSTELLUNG 10 des LGM's erfolgt über den Zwei-Stufen Ansatz von Laird und Ware (1982) in Abschnitt 3.4. Darauf basierend, werden unterschiedliche Methoden zur Schätzung und Vorhersage der festen und zufälligen Eekte im LGM beschrieben. Das Kapitel 4 beschäftigt sich mit dem Softwarepaket SAS 9.1. Die darin enthaltenen Prozeduren GLM und MIXED werden gegenübergestellt und deren Vorund Nachteile im Auswerten von Daten mit wiederholten Messungen aufgeführt. Des Weiteren ist eine detaillierte Beschreibung der Syntax der Prozedur MIXED, welche speziell für gemischte Modelle entwickelt wurde, angegeben. Mittels der vorgestellten Prozedur wird der vorliegende REVOST Datensatz ausgewertet. Hierbei handelt es sich um eine Studie mit wiederholten Messungen des Körpergewichts von Schülern und Schülerinnen in den unterschiedlichen Altersstufen. Die Explorative Analyse und verschiedene Ansätze zum Modellieren der Mittelwert- und Kovarianzstruktur sind in Kapitel 5 angegeben. Der dabei verwendete vollständige SAS Code bendet sich im Anhang A.

KAPITEL 1. PROBLEMSTELLUNG 11 1.2 Vorstellen der Datensätze Es folgt nun eine kurze Vorstellung der Datensätze, die in dieser Diplomarbeit behandelt werden. 1.2.1 Hormontherapie bei Ratten: Rat Data Dieser Datensatz wurde im Zuge eines Experimentes an der Catholic University of Leuven (KUL Katholieke Universiteit Leuven) in Belgien erhoben, mit dem Ziel die Wirkung von Testosteronen auf das Wachstum von männlichen Wistar Ratten zu untersuchen. Dabei wurden 50 Ratten zufällig einer Kontrollgruppe (control) und zwei weiteren Behandlungsgruppen (low dose, high dose), in denen einerseits eine niedrige und andererseits eine hohe Dosis der Droge Decapeptyl verabreicht wurde, zugeordnet. Diese Droge bewirkt, dass die Testosteronproduktion bei Ratten gehemmt wird. Die Behandlung startete im Alter von 45 Tagen, wobei die erste Messung im Alter von 50 Tagen und alle weiteren in einem Zeitabstand von 10 Tagen erfolgten. Als Zielvariable wurde dabei der Abstand zwischen zwei vordenierten Punkten des Kopfes herangezogen. Eine genauere Beschreibung des Datensatzes ndet sich in Molenberghs und Verbeke (2001). Während dieses Experimentes wurden maximal 7 Messwiederholungen, also bis zum Alter von 110 Tagen durchgeführt, wobei die Anzahl der Beobachtungen nicht bei allen Ratten gleich war. Nur 22 Ratten erreichten das Alter von 110 Tagen, und von 4 Ratten konnte überhaupt nur eine Messung genommen werden. Zusammenfassend ist dies in Tabelle 1.1 zu nden. Abbildung 1.1 zeigt die Prole der einzelnen Ratten in ihren jeweiligen Behandlungsgruppen. In Kapitel 3 wird dieser Datensatz zur Veranschaulichung der Theorie herangezogen. age (days) control low high total 50 15 18 17 50 60 13 17 16 46 70 13 15 15 43 80 10 15 13 38 90 7 12 10 29 100 4 10 10 24 110 4 8 10 22 Tabelle 1.1: Auistung der Anzahl der Beobachtungen pro Zeitpunkt für jede der drei Gruppen.

KAPITEL 1. PROBLEMSTELLUNG 12 Abbildung 1.1: Prole der Ratten in den jeweiligen Behandlungsgruppen. 1.2.2 Ernährungs- und Vorsorge-Studie: REVOST Datensatz Gesunde Ernährung spielt in unserer Zeit eine immer gröÿere Rolle, vor allem da Übergewicht im Kindes- und Jugendalter weltweit immer mehr zunimmt. Dies ist natürlich auch einer der Risikofaktoren von Herzinfarkt und Schlaganfall, welche als Haupttodesursachen in unserer heutigen Gesellschaft gelten. Es wurde eine Ernährungs- und Vorsorge-Studie durchgeführt, mit dem Ziel Übergewicht, Adipositas und weitere Essstörungen wie Anorexia Nervosa oder Bulimia Nervosa bei Kindern und Jugendlichen festzustellen. Dazu wurden im Zeitraum von 1995-2003 Daten von Schülern im Alter zwischen 10-18 Jahren bei einer schulärztlichen Kontrolle erhoben. Gemessen wurden Körpergewicht, Körpergröÿe, systolischer und diastolischer Blutdruck. In weiteren Laboruntersuchungen wurden ein Lipidprol (Gesamtcholesterin, HDL-, LDL-Cholesterin, Triglyzeride), sowie Harnsäure- und Glukosewerte ermittelt. Ergebnisse dieser Studie sind in Wallner, Berghold et al. (2003) zu nden.

KAPITEL 1. PROBLEMSTELLUNG 13 Der REVOST Datensatz weist ein longitudinales Design auf. Es wurden 1026 Schüler (602 Mädchen und 424 Knaben) im Alter von 10 bis 18 Jahren untersucht, wobei die Anzahl der jährlich wiederholten Messungen zwischen einer und sechs Messungen variiert. Das Hauptinteresse liegt nun darin, die Gewichtszunahme der Schüler mittels Wachstumskurvenmodellen mit zufälligen Eekten zu analysieren. Die zufälligen Eekte eignen sich hierbei sehr gut, um Personen mit besonders hohem oder niedrigen Gewichtsverlauf zu identizieren. Weiters stellt sich noch die Frage ob es einen signikanten Unterschied in der Gewichtszunahme zwischen Knaben und Mädchen gibt und ob ein Alterseekt nachweisbar ist. Der REVOST Datensatz wird in Kapitel 4 vollständig analysiert.

Kapitel 2 Grundlagen 2.1 Das Allgemeine Lineare Modell (ALM) Sei Y = (Y 1,..., Y n ) ein n-dimensionaler Zufallsvektor von unabhängigen Variablen mit Erwartungsvektor E(Y ) = µ = (µ 1,..., µ n ) und Kovarianzmatrix Cov(Y ) = σ 2 I n. Die Realisation des Zufallsvektors Y wird klein geschrieben und mit y = (y 1,..., y n ) bezeichnet. Im Weiteren interessieren wir uns für den Einuÿ von p < n verschiedenen Kovariaten x i1,..., x ip, i = 1,..., n, auf die Variable y. Unter Annahme einer Normalverteilung ist das Modell folgendermaÿen deniert Y i = β 1 x i1 +... + β p x ip + ɛ i, ɛ i ind N(0, σ 2 ). Eine kompaktere Darstellung erhält man durch Y = Xβ + ɛ, ɛ ind N(0, σ 2 I n ), (2.1) mit p-dimensionalem Parametervektor β = (β 1,... β p ), n-dimensionalem Fehlervektor ɛ = (ɛ 1,... ɛ n ) und Designmatrix X in folgender Form X = X n p = (x 1,..., x p ) = x 11... x 1p..... x n1... x np wobei x 1,..., x p die Kovariatenvektoren von X darstellen. Die Annahme multivariat normalverteilter Störgröÿen ɛ N(0, σ 2 I n ) ist äquivalent mit Y N(Xβ, σ 2 I n ). Für Y i wird also konstante Varianz V ar(y i ) = σ 2 und Unabhängigkeit Cov(Y i, Y j ) = 0 angenommen. In einer exibleren Modellierung wird die Kovarianzmatrix σ 2 I n ersetzt durch Cov(Y ) = V, womit eine Korrelation der Fehlervektoren zugelassen wird., 14

KAPITEL 2. GRUNDLAGEN 15 2.2 Parameterschätzung in linearen Modellen Es sollen nun die drei häugsten Methoden der Parameterschätzung genauer beschrieben werden. Es handelt sich dabei um eine (i) beste, lineare, erwartungstreue Schätzung, (ii) die Methode der kleinsten Quadrate und (iii) die Maximum Likelihood Methode. Bei den ersten beiden Methoden sind keine Angaben über die Verteilung der Beobachtungen notwendig. Um hingegen eine Maximum Likelihood Schätzung durchführen zu können, muss die Dichte der Beobachtungen in Abhängigkeit von den unbekannten Parametern gegeben sein. 2.2.1 Beste lineare erwartungstreue (BLUE) Schätzung Die beste lineare erwartungstreue Schätzung wird auch mit BLUE (best linear unbiased estimator) bezeichnet. Eine beste Schätzung ist gegeben, wenn der mittlere quadratische Fehler (mean square error) eines Schätzers ˆθ für den Parameter θ minimiert wird: MSE(ˆθ, θ) = E((ˆθ θ) 2 ) minimal. Die Verzerrung (Bias) eines Schätzers ist deniert als Erwartungswert der Abweichung der Schätzung von der zu schätzenden Gröÿe Bias(ˆθ, θ) = E(ˆθ θ) = E(ˆθ) θ. Ein Schätzer wird daher als unverzerrt oder erwartungstreu bezeichnet, wenn er folgende Eigenschaft aufweist Bias(ˆθ, θ) = 0. (2.2) In diesem Fall gilt also E(ˆθ) = θ. Der mittlere quadratische Fehler lässt sich nun in eine Varianz- und eine Biaskomponente zerlegen. E((ˆθ θ) 2 ) = E((ˆθ E(ˆθ) + E(ˆθ) θ) 2 ) = E((ˆθ E(ˆθ)) 2 ) + E((E(ˆθ) θ) 2 ) + 2E((ˆθ E(ˆθ))(E(ˆθ) θ)) = V ar(ˆθ) + (E(ˆθ θ)) 2 + 0 = V ar(ˆθ) + (Bias(ˆθ, θ)) 2. Um eine beste unverzerrte Schätzung zu erhalten, ist also deren Varianz zu minimieren, da MSE(ˆθ, θ) = V ar(ˆθ). Das heiÿt, dass für jeden anderen beliebigen erwartungstreuen Schätzer θ gilt, dass V ar(ˆθ) V ar(θ ). (2.3)

KAPITEL 2. GRUNDLAGEN 16 Ein linearer Schätzer liegt dann vor, wenn ˆθ = a + Ay (2.4) mit a als p 1 Vektor und A als p n Matrix. θ wird also durch eine Linearkombination der Beobachtungen y geschätzt. Sind die drei Eigenschaften (2.2), (2.3) und (2.4) erfüllt, spricht man von einer besten, linearen, erwartungstreuen Schätzung. 2.2.2 Methode der Kleinsten Quadrate (LS-Methode) Ausgehend vom linearen Modell (2.1) lässt sich nun der Parametervektor β durch die Methode der kleinsten Quadrate (least squares) schätzen, indem man die Summe der quadrierten Abweichungen LS(β) = n (y i x iβ) 2 i=1 bezüglich β minimiert. In Matrixnotation kann man obige Gleichung umformen zu LS(β) = (y Xβ) (y Xβ) = y y β X y y Xβ + β X Xβ = y y 2y Xβ + β X Xβ. Es gilt dass β X y = (β X y) = y Xβ, da diese Terme Skalare darstellen. Um das Minimierungsproblem zu lösen müssen zunächst die ersten beiden Ableitungen bestimmt werden. Diese sind gegeben durch LS(β) = 2X y + 2X Xβ, β 2 LS(β) = 2X X. β β Ein Minimum liegt vor, wenn die zweite Ableitung positiv denit ist. Da im Modell (2.1) die Spalten von X linear unabhängig sind und somit X vollen Rang besitzt gilt X X > 0. Durch Nullsetzen der ersten Ableitung ergeben sich die Normalgleichungen X Xβ = X y. Da die Inverse von X X existiert, erhält man eine eindeutige Lösung dieser Gleichungen. Der Kleinste Quadrate Schätzer ist somit gegeben durch ˆβ = (X X) 1 X y. (2.5)

KAPITEL 2. GRUNDLAGEN 17 Eine Verallgemeinerung stellt die sogenannte gewichtete Kleinste Quadrate Methode (weighted least squares) dar. Die Zufallsvariablen Y i können nun miteinander korrelieren. Mit Kovarianzmatrix Cov(Y ) = V erhält man eine Schätzung durch minimieren des Ausdrucks LS w (β) = (y Xβ) V 1 (y Xβ). Aus den daraus resultierenden Normalgleichungen X V 1 Xβ = X V 1 y lässt sich dann folgender Schätzer berechnen Eigenschaften des LS-Schätzers ˆβ = (X V 1 X) 1 X V 1 y. Es soll nun gezeigt werden, dass der LS-Schätzer (2.5) die Eigenschaften (2.2), (2.3), (2.4) erfüllt und somit ein bester, linearer, erwartungstreuer Schätzer ist. Hierbei ist es nicht notwendig von einer Normalverteilung auszugehen. Für den gewichteten LS-Schätzer sind diese Eigenschaften ebenso gültig. Es ist oensichtlich, dass ˆβ = (X X) 1 X y ein linearer Schätzer der Form a + Ay ist mit a = 0 und A = (X X) 1 X. Somit ist (2.4) erfüllt. Auch die Erwartungstreue lässt sich leicht zeigen, denn es gilt E( ˆβ) = E((X X) 1 X y) = (X X) 1 X E(y) = (X X) 1 X Xβ = β. Um zu zeigen dass der LS-Schätzer ein bester linearer unverzerrter Schätzer ist fehlt noch die Eigenschaft (2.3). Das Gauÿ-Markov-Theorem besagt, dass der LS-Schätzer ˆβ unter allen linearen, erwartungstreuen Schätzern β die Minimalitätseigenschaft Cov( ˆβ) Cov(β ) erfüllt (Fahrmeir et al. (2007)). Für die Kovarianz von ˆβ gilt Cov( ˆβ) = Cov((X X) 1 X y) = (X X) 1 X Cov(y)((X X) 1 X ) = σ 2 (X X) 1 X X(X X) 1 = σ 2 (X X) 1. Sei jetzt β ein beliebiger, linearer, homogener, erwartungstreuer Schätzer der Form β = A y. Ohne Einschränkung der Allgemeinheit sei die Matrix A = A + B = (X X) 1 X + B. Die Bedingung der Erwartungstreue E(β ) = A E(y) = A Xβ = β

KAPITEL 2. GRUNDLAGEN 18 lässt sich umformen zu (A X I p )β = 0, mit I p als (p p) Einheitsmatrix. Daher gilt zwingend A X = I p und somit Daraus folgt I p = (X X) 1 X X + BX = I p + BX. BX = 0. Für die Kovarianzmatrix von β erhält man Cov(β ) = A Cov(y)A = σ 2 A A ] [ = σ [(X 2 X) 1 X + B (X X) 1 X ] + B [ = σ 2 (X X) 1 X X(X X) 1 + (X X) 1 X B + BX(X X) 1 + BB ] = σ 2 (X X) 1 + σ 2 BB = Cov( ˆβ) + σ 2 BB. Da der Term BB positiv denit ist (BB > 0), folgt Cov( ˆβ) Cov(β ). Eigenschaften unter Normalverteilungsannahme Unter der Annahme einer Normalverteilung Y N(Xβ, σ 2 I n ) ergeben sich weitere Eigenschaften für den LS-Schätzer, die bei Kondenzintervallen und Hypothesentests für β zur Herleitung der Verteilung der Teststatistik nützlich sind. Da ˆβ eine Linearkombination normalverteilter Zufallsvariablen darstellt folgt mit obigen Ergebnissen ˆβ N(β, σ 2 (X X) 1 ). Für die Verteilung des gewichteten Abstands zwischen ˆβ und β gilt (ˆβ β) (X X)(ˆβ β) σ 2 χ 2 p. 2.2.3 Maximum Likelihood Schätzung Seien Y 1,..., Y n zufällige, unabhängig verteilte Variablen mit Realisationen y 1,..., y n. Die gemeinsame Dichtefunktion ist gegeben durch f(y 1,..., y n θ) = n f(y i θ) i=1

KAPITEL 2. GRUNDLAGEN 19 mit unbekannten Parametervektor θ = (θ 1,..., θ p ) Θ. Θ bezeichnet hierbei den Parameterraum aller möglichen Parameter θ. Die Likelihood Funktion ist deniert als die gemeinsame Dichte, aufgefasst als Funktion in θ. L(θ y) = f(y 1,..., y n θ). Es soll nun ein Schätzer ˆθ bestimmt werden, der obige Funktion maximiert. Dies ist der Fall, wenn L(ˆθ y) L(θ y) θ Θ erfüllt ist. ˆθ wird dann als Maximum Likelihood Schätzer (MLE, maximum likelihood estimate) von θ bezeichnet. Oft ist es einfacher die Likelihood Funktion zu logarithmieren und sich dann das Maximum durch Ableiten und Nullsetzen zu berechnen. Die Log-Likelihood wird geschrieben als l(θ y) = log(l(θ y)). Dies ist gültig, da der Logarithmus eine streng monotone Funktion ist und daher log(l(θ y)) dieselben Extrema wie L(θ y) hat. Den gesuchten Schätzer erhält man dann durch Dierenzieren und simultanes Lösen der Gleichungen l(θ y) θ j = 0 für j = 1,..., p, wobei für ein Maximum zu überprüfen ist, ob die Matrix der zweiten Ableitungen in θ = ˆθ negativ denit ist. 2 l(θ y) θ j θ k Es werden nun einige wichtige Begrie und Denitionen, die in der Likelihood Theorie von Bedeutung sind, erklärt. Die obigen Gleichungen der partiellen Ableitungen der Log-Likelihood lassen sich zu einem Vektor zusammenfassen. Diese Ableitungen werden auch als Score Funktion bezeichnet: s(θ) = l(θ y) θ ( l(θ y) =,..., l(θ y) ). θ 1 θ p Das Lösen von s(θ) = 0 liefert den MLE ˆθ. Die beobachtete Fisher Information, deniert als (p p) Matrix der negativen zweiten Ableitungen 2 l(θ y) θ 1 θ 1... I(θ) = 2 l(θ y) θ θ =. 2 l(θ y) θ p θ 1... 2 l(θ y) θ 1 θ p. 2 l(θ y) θ p θ p

KAPITEL 2. GRUNDLAGEN 20 ist ein Maÿ für die Krümmung der Log-Likelihood an der Stelle θ. Wird die Score Funktion als Zufallsvariable betrachtet mit xem θ, bezeichnet man sie als Score Statistik. Diese weist unter Annahme der Regularitätsbedingungen folgende Eigenschaften auf: E(s(θ)) = 0, V ar(s(θ)) = I(θ), wobei I(θ) die erwartete Fisher Information bezeichnet, welche als Erwartungswert der beobachteten Fisher Information I(θ) = E(I(θ)) deniert ist (siehe Pawitan (2001)). Newton-Raphson Algorithmus und Fisher Scoring Der Newton-Raphson Algorithmus wird herangezogen, wenn das resultierende nicht lineare Gleichungssystem nach den unbekannten Parametern nicht analytisch lösbar ist. Der Algorithmus ist eine numerische Methode zum Bestimmen der Nullstellen der Score Gleichungen s(θ) = 0. Zunächst wird eine Startlösung θ (0) gewählt und darin die Tangente g(θ) = s(θ (0) ) + s (θ (0) )(θ θ (0) ) mit Hilfe einer Taylorentwicklung erster Ordnung in θ (0) an die Score Funktion gelegt. Das Lösen von g(θ) = 0 ergibt eine verbesserte Lösung θ (1) = θ (0) 1 s (θ (0) ) s(θ(0) ). Dies lässt sich nun iterativ weiterführen, indem an der Stelle θ (1) erneut eine Tangente an die Score Funktion gelegt wird und wiederum die Nullstelle dieser Tangente bestimmt wird, solange, bis g(θ (k) ) hinreichend klein ist. Nach k-ter Iteration ergibt sich somit θ (k+1) = θ (k) 1 s (θ (k) ) s(θ(k) ). Da s (θ (k) ) = I(θ (k) ) ist obige Darstellung äquivalent zu θ (k+1) = θ (k) + I(θ (k) ) 1 s(θ (k) ). Ersetzt man die beobachtete Fisher-Information durch die erwartete I(θ), also θ (k+1) = θ (k) + I(θ (k) ) 1 s(θ (k) ), nennt man den Algorithmus Fisher-Scoring Algorithmus.

KAPITEL 2. GRUNDLAGEN 21 Likelihood im Allgemeinen Linearen Modell Sei nun das Modell (2.1) gegeben. Die Parameterschätzungen ˆβ und ˆσ 2 lassen sich aus folgender Likelihood Funktion { L(β, σ 2 1 y) = exp 1 } (2πσ 2 ) n/2 2σ (y 2 Xβ) (y Xβ) bzw. Log-Likelihood Funktion bestimmen. l(β, σ 2 y) = n 2 log(2π) n 2 log(σ2 ) 1 2σ 2 (y Xβ) (y Xβ) Schätzung der Parameter β Nach β ableiten und nullsetzen liefert l(β, σ 2 y) β = 1 σ 2 (X y X Xβ) = 0, daraus ergibt sich der ML-Schätzer, der mit dem KQ-Schätzer übereinstimmt: ˆβ = (X X) 1 X y. Schätzung der Varianz Das Maximum von L(β, σ 2 y) bezüglich σ 2 lässt sich durch die Prole-Likelihood bestimmen, welche deniert ist als L(σ 2 y) = max L(β, β σ2 y) = L( ˆβ, σ 2 y). Leitet man l( ˆβ, σ 2 y) nach σ 2 ab und und löst die daraus resultierenden Score Gleichungen s(σ 2 ) = l( ˆβ, σ 2 y) σ 2 erhält man den ML-Schätzer für σ 2 als = n 2σ 2 + 1 2σ 4 (y X ˆβ) (y X ˆβ) = 0, ˆσ 2 = 1 n (y X ˆβ) (y X ˆβ). (2.6)

KAPITEL 2. GRUNDLAGEN 22 2.2.4 Restringierte Maximum Likelihood Schätzung Wird die Prole-Likelihood zur Schätzung der Varianz herangezogen, bleibt der Verlust von Freiheitsgraden durch die Schätzung von ˆβ unberücksichtigt. Dies hat zur Folge, dass der ML-Schätzer (2.6), jetzt bezeichnet mit ˆσ 2 ML, eine Verzerrung nach unten aufweist. Man kann zeigen dass E(ˆσ ML) 2 = n p n σ2 gilt. Eine Methode, um direkt einen unverzerrten Schätzer für σ 2 zu erhalten, liefert die restringierte Maximum Likelihood Schätzung (REML-Schätzung), eingeführt von Patterson und Thompson (1971) und diskutiert von Harville (1974). Hierbei wird die ML-Methode auf eine lineare Funktion von Y angewandt, welche deniert ist als A Y, wobei A keinen der festen Eekte beinhaltet. Die Varianz kann somit geschätzt werden, ohne von β beeinusst zu sein. Die Freiheitsgrade dieser festen Parameter im Modell werden nun bei der Schätzung der Varianz miteinbezogen. Somit resultiert ein erwartungstreuer Schätzer für σ 2 als ˆσ 2 REML = 1 n p (y X ˆβ) (y X ˆβ), wobei p die Anzahl der Parameter in β bezeichnet. Am Korrekturfaktor 1 n p lässt sich erkennen dass, je gröÿer p ist, desto gröÿer ist auch die Verzerrung vom MLE. Angewandt wird diese Methode in Kapitel 3 zur Schätzung der Varianz-Komponenten in linearen gemischten Modellen.

Kapitel 3 Lineares Gemischtes Modell (LGM) 3.1 Einleitung Dieses Kapitel beschäftigt sich mit longitudinalen Daten und deren Analyse mittels linearer gemischter Modelle (Linear Mixed Models). Basierend auf Fitzmaurice, Laird und Ware (2004) wird zunächst auf die Eigenschaften von longitudinalen Daten eingegangen und die damit in Zusammenhang stehenden wichtigsten Begrie erklärt. Eine gute Beschreibung zum, im Abschnitt 3.4 vorgestellten Zwei-Stufen Ansatz (Two-Stage Analysis) ist in Laird und Ware (1982) und Molenberghs und Verbeke (2001) zu nden. Fahrmeir et al. (2007) liefern einen Überblick über gemischte Modelle im linearen, sowie im generalisierten Fall. Eine mathematisch detailliertere Einführung wird von McCulloch und Searle (2001) und Searle et al. (1992) gegeben. 3.2 Eigenschaften von longitudinalen Daten Longitudinale Studien sind deniert durch wiederholte Messungen über die Zeit an der selben experimentellen Einheit, welche meist mit Subjekt (z.b.: Laborratten) oder Individuum (z.b.: Patienten) bezeichnet wird. Diese Bezeichnungen werden in der Arbeit, je nach Kontext, benutzt. Durch die wiederholten Messungen unterscheidet sich eine longitudinale Studie wesentlich von einer Studie mit Querschnittsdaten (cross-sectional study), wo die Beobachtungen von mehreren Einheiten nur zu einem Zeitpunkt betrachtet werden. Eine Querschnittsstudie eignet sich gut um Unterschiede zwischen Gruppen von Individuen zu analysieren, das Hauptinteresse bei einer longitudinalen Studie liegt jedoch darin, wie sich die Zielvariable über die Zeit in Relation zu den Kovariaten verändert. Individuen werden nicht nur über den Durchschnitt, sondern auch über den zeitlichen Verlauf charakterisiert. 23

KAPITEL 3. LINEARES GEMISCHTES MODELL (LGM) 24 Mit zeitvariierenden Kovariaten können Veränderungen innerhalb der Individuen (within-individual change) wie z.b. Wachstums- oder Alterseekte beschrieben werden. Nicht zeitvariierende Kovariaten (z.b. Geschlecht, Rasse) beschreiben den Unterschied zwischen den Individuen (between-individual). Ein groÿer Anwendungsbereich von longitudinalen Studien ndet sich vor allem im klinischen Bereich, wo bei Patienten oft ein bestimmtes Merkmal über eine Zeitperiode beobachtet wird. Liegt für alle Individuen eine gleiche Anzahl an Beobachtungen, gemessen zu denselben Zeitpunkten, vor, so spricht man von einer balanzierten Studie über die Zeit. Werden die Daten zu ungleichen Messzeitpunkten erhoben, spricht man von einem unbalanziertem Design. Ein häuges Problem stellen fehlende Beobachtungen dar. Dies kann zum Beispiel in klinischen Studien am Ausscheiden von Patienten oder auch im Nichterscheinen zu bestimmten Untersuchungen liegen. Verschiedene Techniken zur Handhabung von unvollständigen Datensätzen in einem balanzierten Design werden bei Molenberghs und Verbeke (2001) vorgestellt. Longitudinale Daten benötigen zur Auswertung spezielle statistische Methoden, da die mehrfachen Beobachtungen eines Individuums meist eine hohe Korrelation aufweisen. Um gültige Inferenzen durchführen zu können, muss diese Korrelation berücksichtigt werden. In Fitzmaurice, Laird und Ware (2004) wird auf folgende häug auftretende Eigenschaften der Korrelation in longitudinalen Studien hingewiesen: Die Korrelation ist positiv. Die Korrelation nimmt mit wachsenden Zeitabständen ab. Die Korrelation zwischen wiederholten Messungen erreicht selten den Wert 0. Die Korrelation bei zwei nahe beieinanderliegenden Messungen am selben Individuum erreicht selten den Wert 1. Mögliche Quellen der Variabilität, die einen Einuss auf die Korrelation bei mehrfachen Beobachtungen eines Individuums haben: Variabilität zwischen den Individuen (between-individual heterogeneity) In klinischen Studien gibt es natürliche Heterogenität zwischen den Patienten. Gründe dafür können z.b. genetisch oder auch umweltbedingt sein. Daher ergeben sich für einige Individuen konstant höhere oder konstant

KAPITEL 3. LINEARES GEMISCHTES MODELL (LGM) 25 niedrigere Response Werte über die Zeit, verglichen mit dem Durchschnitt. Somit kann die Variabilität zwischen den Individuen als eine Quelle der positiven Korrelation der wiederholten Messungen gesehen werden, denn von Individuen mit hohem Response Wert zu einem Zeitpunkt, erwartet man sich ähnlich hohe Werte zu den nachfolgenden Messzeitpunkten. Auch der Kurvenverlauf der Response kann von Individuum zu Individuum unterschiedlich sein. Dies kann nicht nur zu einer positiven Korrelation, sondern auch zu einer abnehmenden Korrelation mit wachsendem Zeitabstand beitragen. Eine Möglichkeit die Variabilität zwischen den Individuen im Modell zu erklären, ist die Einbindung von individuen-spezischen zufälligen Eekten (zufälliger Intercept und zufällige Steigung). Variabilität innerhalb der Individuen (within-individual biological variation) Viele Response Variablen im medizinischen Bereich (z.b. Blutdruck) unterliegen, im zeitlichen Verlauf, einer achen Schwankung, welche auch als biologische Variabilität innerhalb eines Individuums (inherent withinindividual biological variability) bezeichnet wird (Fitzmaurice, Laird und Ware (2004)). Die zufälligen Abweichungen eines Prols, welches einem Individuum zugrunde liegt, neigen dazu ähnlich zu sein (beide positiv oder negativ), wenn die Messzeitpunkte nahe beieinander liegen. Somit kann von keiner Unabhängigkeit der Beobachtungen mehr ausgegangen werden. Die Beobachtungen die zeitlich nahe beieinander liegen korrelieren höher, als Beobachtungen mit groÿen Zeitabständen. Folglich wird durch die Variabilität innerhalb der Individuen eine serielle Korrelation unter den wiederholten Messungen induziert. Die resultierende Korrelationsmatrix hat eine charakteristische Struktur: fallende Korrelation mit wachsenden Zeitabständen. Messfehler (measurement error ) Eine allgegenwärtige Komponente in allen Studien ist der Messfehler. Dieser beschreibt die unerklärbare Variabilität in der Response Variable, entstanden durch den Messprozess. Werden gleichzeitig zwei Messungen von einem Individuum genommen (z.b. Blutprobe die aufgeteilt und jeder Teil separat ausgewertet wird), so unterscheiden sich die resultierenden Auswertungen um diesen zufälligen Fehler. Somit erklärt sich, dass die Korrelation bei zwei nahe beieinanderliegenden Messungen am selben Individuum selten den Wert 1 erreicht. Allgemein gilt, je gröÿer der Messfehler, desto gröÿer ist auch die Abschwächung der Korrelation der wiederholten Beobachtungen.

KAPITEL 3. LINEARES GEMISCHTES MODELL (LGM) 26 3.3 Modelle für longitudinale Daten Basierend auf einem allgemeinen linearen Modell, lässt sich der Zusammenhang zwischen einer abhängigen Variable Y ij und den Kovariaten x ij = (x ij1,..., x ijp ) darstellen als Y ij = β 1 x ij1 + β 2 x ij2 +... + β p x ijp + ɛ ij = x ijβ + ɛ ij, (3.1) wobei Y ij die Response Variable des i-ten Individuums, gemessen zum Zeitpunkt t ij, repräsentiert. Die Anzahl der Individuen beläuft sich dabei auf i = 1,..., m und die Anzahl der wiederholten Messungen am Individuum i auf j = 1,..., n i. β = (β 1,..., β p ) ist ein p-dimensionaler Vektor unbekannter Regressionskoezienten und ɛ ij der zufällige Fehler. Fasst man nun alle wiederholten Messungen eines Individuums i zusammen, erhält man einen n i -dimensionalen Zufallsvektor Y i = (Y i1,..., Y ini ), welcher in einer longitudinalen Studie die experimentelle Einheit darstellt. Die Response Variable aller Individuen wird mit dem N = m i=1 n i dimensionalen Vektor Y = (Y 1,..., Y N ) notiert. In Matrixschreibweise lässt sich das Modell (3.1) zusammenfassen zu einer Regressionsgleichung für das i-te Individuum Y i = X i β + ɛ i, (3.2) mit X i als (n i p) Matrix und ɛ i als n i -dimensionalen Fehlervektor x i11... x i1p ɛ i1 X i =....., ɛ i =.. x ini 1... x ini p ɛ ini Die Modellannahmen, die im allgemeinen linearen Modell getroen werden, lauten ɛ i ind N(0, σ 2 I ni ). Jedoch ist diese statistische Standardmethode für die Auswertung von longitudinalen Daten weniger geeignet, da sie die vorhandene hohe Korrelation zwischen den Messungen gleicher Versuchseinheiten nicht berücksichtigt. Eine Möglichkeit um die Korrelation zu berücksichtigen, stellen sogenannte Covariance Pattern Models dar. Hier wird der Kovarianzmatrix eine explizite Struktur auferlegt. In Unterabschnitt 5.3.2 werden verschiedene Modelle vorgestellt, basierend auf Fitzmaurice, Laird und Ware (2004). Liegen jedoch Beobachtungen mit ungleichen Messzeitpunkten vor, ist diese Methode kein guter Ansatz. Ebenso

KAPITEL 3. LINEARES GEMISCHTES MODELL (LGM) 27 lassen sich keine individuen-spezischen Aussagen treen. Zusätzliche Diskussionen über Modellierungsmöglichkeiten der Kovarianzstruktur sind in Diggle et al. (1994) und Littell et al. (2000) zu nden. Einen weiteren Ansatz zum Analysieren von longitudinalen Daten stellen abgeleitete bzw. zusammengefasste Variablen (summary measures) dar. Die Daten werden allerdings nicht aus longitudinaler Sicht ausgewertet, da die Sequenz der wiederholten Messungen eines Individuums zu einer einzelnen Variable, (z.b.: mittels Durchschnitt über die Zeit), zusammengefasst wird. Dadurch wird das Problem der Korrelation innerhalb der Individuen umgangen, und Standardmethoden wie ANOVA oder klassische Regressionsmodelle können zur Analyse herangezogen werden. Als weitere Möglichkeiten um wiederholte Messungen zusammenzufassen werden die Steigung oder eine konstante Veränderungsrate über die Zeit herangezogen (siehe Fitzmaurice, Laird und Ware (2004)). Ein Nachteil dieser Methoden ist der Verlust an Information. Ebenso können mehrere Individuen mit wesentlich unterschiedlichen Response Prolen denselben zusammengefassten Wert besitzen. In Everitt (1995) und Matthews et al. (1990) sind ausführliche Beispiele zu zusammengefassten Variablen angegeben. Als beliebte und historische Modellansätze zum Auswerten von wiederholten Messungen gelten varianzanalytische Methoden wie repeated measures ANOVA (ranova) und repeated measures MANOVA (rmanova). Aufgrund der technischen Einfachheit sind diese Ansätze heute noch weit verbreitet. Jedoch unterliegt die Anwendung einer Varianzanalyse in longitudinalen Studien wesentlichen Einschränkungen und wird daher nicht als genereller Ansatz empfohlen (Diggle et al. (1994)). Das Hauptziel bei ranova und rmanova bilden die Gruppenvergleiche, wobei das mittlere Response Prol über die Zeit verglichen wird. Allerdings liefern diese Methoden keine Aussagen über die Veränderung der Individuen über die Zeit. Ebenso bieten die varianzanalytischen Methoden wenig Flexibilität im Modellieren der Kovarianzstruktur, da spezielle Annahmen (compound symmetry, sphericity) getroen werden. Des Weiteren sind sie nur anwendbar, wenn vollständige Daten und ein balanziertes Design vorliegen, d.h. die Messzeitpunkte und deren zeitlichen Abstände müssen für alle Individuen gleich sein. Zusammengefasst kann man sagen, dass ANOVA Methoden unter bestimmten Voraussetzungen nützlich sind. Sie stellen aber keinen allgemein praktikablen Ansatz zum Auswerten von longitudinalen Daten dar. Weitere Informationen ndet man in Toutenburg (1995), Diggle et al. (1994) und Hand und Crowder (1996).

KAPITEL 3. LINEARES GEMISCHTES MODELL (LGM) 28 Der folgende Abschnitt behandelt die Analyse von longitudinalen Daten mittels linearer gemischter Modelle. 3.4 Two-Stage Analysis Es folgt nun eine Denition des linearen gemischten Modells mittels Zwei-Stufen Ansatz, wie es in Laird und Ware (1982) und Molenberghs und Verbeke (2001) zu nden ist. Sei Y ij die Response Variable, wobei i = 1,..., m für das i-te Individuum, das zum Zeitpunkt t ij gemessen wird, steht, und j = 1,..., n i für die j-te wiederholte Messung am i-ten Individuum. Die Anzahl der Individuen beläuft sich somit auf m und die Anzahl der wiederholten Messungen am Individuum i wird mit n i notiert. Dies ergibt eine Gesamtanzahl an Beobachtungen von N = m i=1 n i. Der n i - dimensionale Vektor Y i = (Y i1,..., Y ini ) fasst alle Messungen des i-ten Individuums zusammen. 3.4.1 Denition der ersten Stufe Es wird angenommen, dass die wiederholten Messungen eines jeden Individuums einem linearen Regressionsmodell folgen, womit die Variabilität innerhalb eines Individuums i erklärt wird. Das Modell lautet somit Y i = Z i β i + ɛ i, (3.3) wobei Z i eine (n i q) Matrix mit bekannten, innerhalb eines Individuums aber zeitvariierenden Kovariaten darstellt. Es wird also die Entwicklung für das i-te Subjekt über die Zeit deniert. Weiters ist β i = (β i1,..., β iq ) der q-dimensionale Vektor unbekannter subjektspezischer Regressionkoezienten und ɛ i = (ɛ i1,..., ɛ ini ) ein n i -dimensionaler Residualvektor. Die grundlegende Idee in dieser Stufe ist, für jedes Individuum ein separates lineares Regressionsmodell zu denieren, wobei in jedem dieser Modelle der gleiche Satz an Kovariaten verwendet wird. 3.4.2 Denition der zweiten Stufe Um die Variabilität zwischen den einzelnen Individuen zu erklären wird für jedes β i ein multivariates Regressionsmodell verwendet: β i = K i β + b i, (3.4) mit K i als (q p) Matrix welche die zeitunabhängigen und Zwischen-Subjekt Kovariaten beinhaltet, β = (β 1,..., β p ) als p-dimensionaler Vektor unbekannter Regressionsparameter und mit q-dimensionalen Residualvektor b i = (b 1i,..., b qi ).

KAPITEL 3. LINEARES GEMISCHTES MODELL (LGM) 29 3.4.3 Zusammenführung beider Stufen zu einem linearen gemischten Modell Es lassen sich nun beide Modelle kombinieren, indem man (3.4) in (3.3) einsetzt. Daraus folgt Y i = Z i (K i β + b i ) + ɛ i = (Z i K i )β + Z i b i + ɛ i = X i β + Z i b i + ɛ i, (3.5) wobei X i = Z i K i eine (n i p)-matrix mit bekannten Kovariaten darstellt. In Matrixschreibweise lassen sich die einzelnen Komponenten folgendermaÿen darstellen Y i1 x i1 z i1 ɛ i1 Y i =., X i =., Z i =., ɛ i =. Y ini x in i z in i ɛ ini wobei x ij = (x ij1,..., x ijp ) und z ij = (z ij1,..., z ijq ). Das Modell (3.5) wird lineares gemischtes Modell genannt, mit festen Eekten β und zufälligen Eekten b i. Der Parametervektor β ist für alle Individuen gleich, wodurch Aussagen bezogen auf die gesamte Population gemacht werden können. Hingegen lassen sich mit dem Vektor der zufälligen Eekte b i individuen-spezische Aussagen treen. Das allgemeine lineare Modell (3.2) wurde also erweitert durch eine Designmatrix Z i und durch einen q-dimensionalen Vektor b i. 3.4.4 Annahmen über die Kovarianzstruktur Es werden nun Annahmen über die Kovarianzstruktur der zufälligen Eekte b i und der Messfehler ɛ i getroen, woraus Modelle verschiedener Komplexität resultieren. In allgemeiner Formulierung (Laird und Ware (1982)) genügt das lineare gemischte Modell Y i = X i β + Z i b i + ɛ i folgenden Annahmen b i N(0, D) (3.6) ɛ i N(0, Σ i ) (3.7) b 1,..., b m, ɛ 1,..., ɛ m unabhängig. (3.8) Es wird für die zufälligen Eekte angenommen, dass diese unabhängig normalverteilt sind mit Erwartungswert E(b i ) = 0 und positiv deniter, (q q)-dimensionaler Kovarianzmatrix Cov(b i ) = D. Für die Fehlerkomponenten ɛ i wird ebenfalls eine Normalverteilung mit E(ɛ i ) = 0 und Cov(ɛ i ) = Σ i angenommen. Σ i ist eine (n i

KAPITEL 3. LINEARES GEMISCHTES MODELL (LGM) 30 n i ) dimensionale, positiv denite Matrix, welche von i nur durch die Dimension n i abhängt. In vielen Fällen wird die Annahme (3.7) eingeschränkt auf ɛ i N(0, σ 2 I ni ), (3.9) mit I ni als (n i n i ) dimensionale Einheitsmatrix. Das daraus resultierende Modell wird mit 'conditional independence model' bezeichnet. Hier wird also angenommen, dass die n i Beobachtungen des i-ten Individuums unter gegebenen b i und β unabhängig voneinander sind und gleiche Varianz σ 2 aufweisen. Korrelation wird nur durch die zufälligen Eekte induziert. Allgemeinere Annahmen über die Kovarianzstruktur werden ausführlich in Diggle et al. (1994) erläutert. Hier werden die Fehlerkomponenten aufgeteilt in eine Komponente für die serielle Korrelation und eine für die Messfehler, wobei beide unabhängig voneinander sind. Somit erhält man die Darstellung (Molenberghs und Verbeke (2001)) mit ɛ i = ɛ (1)i + ɛ (2)i (3.10) ɛ (1)i N(0, σ 2 I ni ), ɛ (2)i N(0, τ 2 H i ). (3.11) ɛ (1)i stellt die Komponente der Messfehler dar mit (n i n i ) dimensionaler Einheitsmatrix und ɛ (2)i die Komponente der Zeitvariation innerhalb eines Individuums. Sie beschreibt die Korrelation zwischen zwei Messungen am selben Individuum, welche von den zeitlichen Abständen der Beobachtungen abhängt. Üblicherweise nimmt die Korrelation ab, wenn die Zeitabstände gröÿer werden. Das (j, k)-te Element der (n i n i ) Matrix H i ist modelliert als Korrelationsfunktion h ijk = ρ( t ij t ik ) mit ρ(0) = 1. Die Korrelation von ɛ (2)ij und ɛ (2)ik ist nur abhängig vom Zeitintervall der Messerhebungen und nimmt mit der Gröÿe der Zeitabstände ab. Somit gilt V ar(ɛ i ) = τ 2 H i + σ 2 I ni. (3.12) Meist wird die Autokorrelationsfunktion ρ( t ij t ik ) als exponentielles Korrelationsmodell modelliert ρ( t ij t ik ) = exp{ φ t ij t ik }, (3.13) mit φ > 0 oder als Gauÿsche Korrelationfunktion ρ( t ij t ik ) = exp{ φ t ij t ik 2 }. (3.14)

KAPITEL 3. LINEARES GEMISCHTES MODELL (LGM) 31 Für weitere Details siehe Diggle et al. (1994). Im folgenden Teil der Arbeit werden die Annahmen (3.6), (3.7) und (3.8) beibehalten. Eine allgemeine Darstellung des Modells (3.5) erhält man, wenn alle Beobachtungen zusammengefasst werden zu Y = (Y 1,..., Y m ). Das Gesamtmodell hat dann folgende Form mit den Verteilungsannahmen ( ) b N ɛ Y = Xβ + Zb + ɛ (3.15) (( 0 0 ) ( D 0, 0 Σ )). (3.16) Die Design Matrizen der festen und zufälligen Eekte weisen folgende Form auf X 1 Z 1 0 X =. Z =... X m 0 Z m und die Kovarianzmatrizen D und Σ lassen sich als blockdiagonale Matrizen der Ordnung (m q m q) und (N N) darstellen D = diag(d,..., D,..., D) Σ = diag(σ 1,..., Σ i,..., Σ m ). 3.4.5 Beispiel: The Rat data Anhand des Beispiels, welches in Abschnitt 1.2 vorgestellt wurde, soll nun dieser Zwei-Stufen Ansatz demonstriert werden. Die erste Stufe lässt sich darstellen als Y ij = β 1i + β 2i t ij + ɛ ij i = 1,..., 50; j = 1,..., n i, (3.17) wobei die ursprüngliche Zeitskala, Alter in Tagen, transformiert wird zu t ij = log(1+ (age ij 45)/10). Somit entspricht t = 0 dem Behandlungsbeginn im Alter von 45 Tagen. In Matrixschreibweise sieht dies folgendermaÿen aus: Y i1. Y ini = 1 t i1.. 1 t ini ( β1i β 2i ) + In der zweiten Stufe wird nun der Zusammenhang zwischen den Ratten deniert. Dabei werden folgende Indikatorvariablen für die drei Behandlungsgruppen (control, ɛ i1. ɛ ini.

KAPITEL 3. LINEARES GEMISCHTES MODELL (LGM) 32 low dose, high dose) verwendet C i = L i = H i = { 1 Ratte i in Kontrollgruppe 0 sonst { 1 Ratte i in Niederdosisgruppe 0 sonst { 1 Ratte i in Hochdosisgruppe 0 sonst. Anhand von (3.4) sind die beiden Parameter β 1i und β 2i nun deniert als β 1i = β 0 + b 1i β 2i = β 1 L i + β 2 H i + β 3 C i + b 2i. (3.18) Einsetzen von (3.18) in (3.17) ergibt das gemischte Modell Y ij = β 0 + b 1i + β 1 L i t ij + β 2 H i t ij + β 3 C i t ij + b 2i t ij + ɛ ij, (3.19) welches auch dargestellt werden kann als β 0 + b 1i + (β 1 + b 2i )t ij + ɛ ij Y ij = β 0 + b 1i + (β 2 + b 2i )t ij + ɛ ij low dose high dose β 0 + b 1i + (β 3 + b 2i )t ij + ɛ ij control Die festen Eekte (β 0, β 1, β 2, β 3 ) stehen hierbei für die populations-spezischen Eekte, welche keine individuellen Unterschiede zwischen den Ratten zulassen. In Abbildung 1.1 lassen sich sehr deutlich Unterschiede im Niveau und zum Teil auch in der Steigung der einzelnen Prole erkennen. Die zufälligen Eekte (b 1i, b 2i ) beschreiben nun diese subjekt-spezischen Abweichungen von der Konstanten β 0 sowie von den Steigungen. Mit der Annahme (3.9) für die Fehlerkomponenten nimmt die Kovarianzfunktion für das i-te Subjekt folgende Form an ( ) 1 Cov(Y i (t 1 ), Y i (t 2 )) = (1 t 1 )D + σ 2 t 2 = d 22 t 1 t 2 + d 12 (t 1 + t 2 ) + d 11 + σ 2. (3.20)

KAPITEL 3. LINEARES GEMISCHTES MODELL (LGM) 33 3.5 Marginale und bedingte Verteilungen Da im linearen gemischten Modell (3.5) zwei zufällige Vektoren b i und ɛ i enthalten sind lassen sich nun unterschiedliche Verteilungen betrachten. Zum einen die bedingte Verteilung von Y i b i und zum anderen die marginale Verteilung von Y i. Die bedingte Verteilung von Y i gegeben b i lautet Y i b i N(X i β + Z i b i, Σ i ), mit konditionalem oder individuen-spezischem Mittelwert und konditionaler Kovarianz E(Y i b i ) = X i β + Z i b i, Cov(Y i b i ) = Cov(ɛ i ) = Σ i. Der Vektor der zufälligen Eekte hat hier die Interpretation eines individuenspezischem Regressionskoezienten, welcher das Prol der mittleren Response eines Individuums beschreibt. Die Herleitung des marginalen Modells erfolgt aus der zweistugen hierarchischen Formulierung Y i b i N(X i β + Z i b i, Σ i ), b i N(0, D). (3.21) Mit den dazugehörigen Dichtefunktionen f(y i b i ) und f(b i ) ist die Randverteilung von Y i gegeben durch f(y i ) = f(y i b i )f(b i )db i = ( ) 1 n i 2 { Vi 1 2 exp 1 } 2π 2 (y i X i β) V 1 i (y i X i β), mit Kovarianzmatrix V i = Z i DZ i + Σ i. Die Formulierung des marginalen Modells lautet somit Der marginale Mittelwert Y i N(X i β, Z i DZ i + Σ i ). (3.22) E(Y i ) = X i β beinhaltet nur Informationen über die Gesamtpopulation und sagt nichts über die einzelnen Individuen aus. Aus der marginalen Kovarianzstruktur von Y i Cov(Y i ) = Z i DZ i + Σ i

KAPITEL 3. LINEARES GEMISCHTES MODELL (LGM) 34 lässt sich jedoch erkennen, dass die Einbindung von zufälligen Eekten zusätzliche Korrelation in das Modell induziert. Sind keine zufälligen Eekte gegeben (b i = 0, D = 0), dann beschreiben (3.21) und (3.22) dasselbe Modell mit marginaler Kovarianzmatrix Σ i. Obwohl sich das marginale Modell aus dem hierarchischen ableiten lässt, sind beide Modelle nicht äquivalent zueinander. Ein wesentlicher Unterschied liegt in den Voraussetzungen der Kovarianzmatrix. In (3.21) wird gefordert, dass die Matrizen Σ i und D positiv denit sind. Hingegen, aus marginaler Sicht (3.22), genügt es, wenn die resultierende Matrix V i diese Bedingung erfüllt. Weiters können verschiedene hierarchische Modelle dasselbe marginale Modell erzeugen. Folgendes Beispiel aus Molenberghs und Verbeke (2004) soll dies demonstrieren: Sei nun n i = 2. Das erste Modell beinhaltet nur einen zufälligen Intercept b i, mit D = d und Σ i = Σ = diag(σ1, 2 σ2). 2 Für die marginale Kovarianzmatrix ergibt sich ( ) 1 V = (d) ( 1 1 ) ( ) ( ) σ 2 + 1 0 d + σ 2 1 0 σ2 2 = 1 d d d + σ2 2. Betrachtet man ein Modell mit zufälligem Intercept und zufälliger Steigung b i = (b 1i, b 2i ) und folgenden Kovarianzstrukturen D = diag(d 11, d 22 ) und Σ i = Σ = σ 2 I 2, so ist die marginale Kovarianzmatrix V = ( 1 0 1 1 ) ( d11 0 0 d 22 ) ( 1 1 0 1 ) + ( ) σ 2 0 0 σ 2 = ( d11 + σ 2 d 11 d 11 d 11 + d 22 + σ 2 äquivalent mit der vorherigen, wobei d 11 = d, d 22 = σ 2 2 σ 2 1 und σ 2 = σ 2 1. Ebenso existieren auch marginale Modelle, die sich nicht aus einem hierarchischem ableiten lassen. Ein Beispiel dafür ist in Molenberghs und Verbeke (2001), Unterabschnitt 5.6.2 angegeben. 3.6 Schätzung und Inferenzen Die Schätzung der festen Parameter β kann unabhängig von den zufälligen Eekten b durchgeführt werden. Bei Likelihood basierenden Ansätzen ist das marginale Modell der Ausgangspunkt. Schätzt man die zufälligen Eekte, spricht man auch von Vorhersage bzw. Prädiktion, was oft zu Verwirrungen führen kann. In Robinson (1991) ist eine kurze Diskussion zu dem Thema 'Prediction or Estimation?' aufgeführt. Bei der Vorhersage reicht nicht mehr die marginale Betrachtung, da diese die Anwesenheit von zufälligen Eekten nicht voraussetzt. Man greift daher auf die hierarchische Darstellung zurück. Die Vorhersage der zufälligen Eekte wird )

KAPITEL 3. LINEARES GEMISCHTES MODELL (LGM) 35 im Abschnitt 3.7 behandelt. Eine simultane Schätzmethode von β und b stellen die 'Mixed Model Equations' dar, angedeutet von Henderson (1950) und ausführlich diskutiert in Henderson et al. (1959) und Henderson (1975). Diese werden in Unterabschnitt 3.7.4 vorgestellt. Sei nun ϑ der Vektor aller Kovarianzparameter in V i = Z i DZ i + Σ i. Dieser setzt sich somit zusammen aus q(q + 1)/2 verschiedenen Elementen aus D und allen Parametern aus Σ i. In den folgenden Abschnitten werden die Schätzmethoden aus Kapitel 2 auf das marginale Modell, welches aus dem linearen gemischten Modell resultiert, angewandt. Einen Schätzer für die festen Eekte erhält man durch die Maximum Likelihood Methode, und die restringierte Maximum Likelihood Methode liefert einen Schätzer für die Kovarianzparameter im Modell. Weiters wird durchgehend angenommen, dass die notwendigen Matrixinversen existieren. Für den Fall, dass die Matrizen keinen vollen Rang aufweisen, lassen sich die resultierenden Gleichungen mittels der generalisierten Inversen formulieren. Siehe dazu McCulloch und Searle (2001). 3.6.1 Schätzung fester Eekte bei bekannter Kovarianzstruktur Zunächst wird vorausgesetzt, dass die Varianz- und Kovarianzparameter in D und Σ i beziehungsweise ϑ in V i (ϑ) bekannt sind. Den Ausgangspunkt stellt nun das marginale Modell (3.22) dar, mit den Eigenschaften E(Y i ) = X i β und Cov(Y i ) = V i = Z i DZ i + Σ i. m L ML (β, ϑ y) = (2π) n i 2 Vi (ϑ) 1 2 exp { 1 } 2 (y i X i β) V 1 i (ϑ)(y i X i β) i=1 = (2π) N 2 V (ϑ) 1 2 exp { 1 } 2 (y Xβ) V 1 (ϑ)(y Xβ). Als Log-Likelihood, unter Vernachlässigung additiver Konstanten, erhält man l ML (β, ϑ y) = 1 2 log( V (ϑ) ) 1 2 (y Xβ) V 1 (ϑ)(y Xβ). (3.23) Ableiten nach β und Nullsetzen ergibt womit l ML (β, ϑ y) β = X V 1 (ϑ)(y Xβ) = 0, X V 1 (ϑ)y = X V 1 (ϑ)xβ