Multivariate Statistik mit Mathematica und SPSS

Größe: px
Ab Seite anzeigen:

Download "Multivariate Statistik mit Mathematica und SPSS"

Transkript

1 Multivariate Statistik mit Mathematica und SPSS von Dipl.-Math. Marco Schuchmann Dipl.-Math. Werner Sanns

2 Seite 2 Varianzanalyse Die Informationen in diesem Buch entstammen langjähriger Erfahrung in Praxis und Lehre und wurden mit großer Sorgfalt zusammengetragen. Trotzdem können Fehler nicht ausgeschlossen werden. Für fehlerhafte Angaben und deren Folgen werden weder juristische Verantwortung noch irgendeine Haftung übernommen. Für eine Mitteilung eventueller Fehler und konstruktive Kritik sind die Autoren dankbar. Die Autoren: Dipl.-Math.Marco Schuchmann, geb in Groß-Gerau, studierte Mathematik in Darmstadt. Er ist Autor mehrerer Bücher über Statistik und Ingenieurmathematik. Er arbeitet heute im Fachbereich Mathematik & Naturwissenschaften der Fachhochschule Darmstadt. Dipl.-Math.Werner Sanns, geb in Heidelberg, studierte Mathematik und Astronomie an den Universitäten Heidelberg und München. Er ist Autor mehrerer Bücher über Statistik und Ingenieurmathematik und arbeitet heute am Competence-Center Statistik & Operations Reserach des Fachbereichs Mathematik und Naturwissenschaften der Fachhochschule Darmstadt.

3 Varianzanalyse Seite 3 Inhalt 1 VARIANZANALYSE Die univariate Varianzanalyse Parameterschätzung im linearen Modell Allgemeine lineare Hypothese Multiple Vergleiche nach Scheffé Test auf Heteroskedastizität SPSS Multivariate Varianzanalyse SPSS KOVARIANZANALYSE Parameterschätzung und Teststatistiken SPSS DISKRIMINANZANALYSE SPSS CLUSTERANALYSE Bestimmung der Cluster Vergleich der Cluster SPSS FAKTORENANALYSE Hauptkomponentenanalyse Extraktion von Faktoren (Faktorenanalyse) Graphische Darstellung Sphärizitätstest (Bartlett) SPSS... 90

4 Seite 4 Varianzanalyse 6 ANHANG: MULTIVARIATE VERTEILUNGEN INDEXVERZEICHNIS LITERATURVERZEICHNIS

5 Varianzanalyse Seite 5 Vorwort Dieses Buch ist als praxisorientierte Einführung in die multivariate Statistik gedacht. Mit Hilfe der beiden großen Programmpakete SPSS und Mathematica sollen Sie zu den gängigen Verfahren der multivariaten Statistik kleine Beispiele durchrechnen und verstehen lernen. Wir wenden uns in erster Linie an Studierende, die grundlegende univariate statistische Methoden bereits kennen und sich für deren Erweiterungen auf den multivariaten Fall interessieren. Außerdem können Studierende, die eine Vorlesung über multivariate Statistik besuchen, unser Buch dazu benutzen, ihre neu erworbenen Kenntnisse durch praktische Übungen am PC mit SPSS und/oder Mathematica zu festigen und zu erweitern. Als Voraussetzungen für das Arbeiten mit unserem Buch benötigen Sie Mathematica und/oder SPSS. Wir haben unsere Mathematica-Programme so geschrieben, daß Sie nicht nur unter der momentan aktuellen Version 4.01 lauffähig sind. Sie laufen auch unter vorherigen Version, z. B. Version 2.3.3, und werden wegen der Codierung in einer Standard-Syntax, d.h. ohne Verwendung besonderer Zeichen und Funktionen, wohl auch in folgenden Versionen lauffähig bleiben. Bei SPSS haben wir die Version 9.0 (deutsch) benutzt. Hier kann es bei anderen Versionen geringfügige Abweichungen in der Ansicht einzelner Fenster geben, die allerdings nicht gravierend sind. Wir raten denjenigen Lesern, die nur SPSS und nicht Mathematica besitzen, den jeweiligen Abschnitt mit der Brechnung in Mathematica trotzdem durchzuarbeiten, denn er dient zum Einen dem Verständnis der Methode, zum Anderen der Erläuterung der Größen im SPSS-Output. Die Mathematica-Syntax wird von uns weitgehend erkärt und ist leicht zu verstehen. Man kann sie daher leicht in die übliche mathematische Notation umsetzen. Wer Mathematica von Grund auf erlernen will, oder sich intensiver mit Mathematica befassen will, möge als Grundlage unser im Literturverzeichnis aufgeführtes Buch Sanns, Schuchmann: Mathematik mit Mathematica zu Rate ziehen. Selbstverständlich benötigt der Praktiker auch eine solide Grundlage der theoretischen Modelle. Wir haben in einem Anhang eine kurze Zusammenfassung der wichtigsten Begriffe gegeben. Jeweils am Ende der einzelnen Kapitel dieses Buches werden außerdem in eckigen Klammern die Nummern der im Literaturverzeichnis aufgeführten Bücher angegeben, die sich mit diesem Thema befassen. Marco Schuchmann, Werner Sanns

6 Seite 6 Varianzanalyse 1 Varianzanalyse 1.1 Die univariate Varianzanalyse Die Varianzanalyse dient der Untersuchung des Einflußes einer oder mehrerer kategorieller (=nichtmetrischer) Variablen auf eine, oder im multivariaten Fall auf mehrere, abhängige stetige Variablen. Die beeinflußenden kategoriellen Variablen heißen Faktorvariablen, die abhängigen stetigen Variablen heißen Responsevariablen. Wir beginnen mit einem Beispiel aus der Psychologie. Mit drei Gruppen von jeweils 5 Personen wird ein psychologischer Test durchgeführt. Gemessen wird eine stetige Größe, die wir als Testleistung bezeichnen. Wir gehen also von k = 3 Teilstichproben (Subpopulationen) aus mit jeweils gleichen Teilstichprobenumfängen (n 1 = n 2 = n 3 = 5), was im allgemeinen jedoch nicht erforderlich ist. Wir wollen nun einen Unterschied in den Testleistungen zwischen den Gruppen nachweisen. Unser Beispiel stellt eine einfaktorielle Varianzanalyse dar, denn wir wollen den Einfluß eines einzigen Faktors (die Gruppenzugehörigkeit) auf die Testleistung nachweisen. Wir bezeichnen die Testleistung der i-ten Person in der j-ten Gruppe mit y ij. Dabei wird vorausgesetzt, daß die Testleistungen y ij Realisierungen von unabhängigen, normalverteilten zufälligen Größen Y ij sind, mit dem Erwartungswert j und der Varianz 2. Wir schreiben dafür kurz: Y ij N( j, 2 ). Wir verwenden Kleinbuchstaben für Realisierungen von Zufallsvariablen. Für die Zufallsvariablen selbst verwenden wir Großbuchstaben, soweit dies ohne Verwechslungsgefahr möglich ist, denn bei Matrizen verwendetet man üblicherweise ebenfalls Großbuchstaben. Falls die Normalverteilungsvoraussetzung nicht erfüllt ist (dies kann z.b. mit dem Chiquadrat Anpassungstest oder mit dem Kolmogoroff-Smirnov Test überprüft werden), so kann ein nichtparametrisches Verfahren (Kruskal-Wallis) verwendet werden. Hierzu verweisen wir auf unser Buch Schuchmann, Sanns: Nichtparametrische Statistik mit Mathematica (siehe Literaturverzeichnis). Wie sie oben erkennen können, werden die Varianzen 2 als gleich vorausgesetzt. Diese Voraussetzung der Varianzhomogenität wird auch als Homoskedastizität bezeichnet. Wie Sie diese überprüfen können, zeigen wir später. Die Varianzanalyse trägt ihren Namen von dem in der klassischen Varianzanalyse gemachten Ansatz der Streuungszerlegung. Dabei wird die Gesamtstreuung (SST) der Beobachtungen y ij um das Gesamtmittel zerlegt in die Summe aus der Streuung zwischen den Gruppen (SSB) und der Streuung innerhalb der Gruppen (SSW). Die bei der Berechnung dieser Streuungen auftretenden Quadratsummen werden wir später immer wieder in Mathematica verwenden. Im multivariaten Fall sind die Quadratsummen keine skalaren Größen mehr, sondern Matrizen. Bei dem moderneren Ansatz der Varianzanalyse wird ein sogenanntes lineares Modell formuliert, mit dem Vorteil, daß man nicht nur, wie in der klassischen Varianzanalyse, einen Einfluß der Faktorvariablen auf die Responsevariablen qualtitativ nachweisen

7 Varianzanalyse Seite 7 kann, sondern darüber hinaus diesen Einfluß sogar quantitativ beschreiben kann. Dabei können Unterschiede mit sogenannten allgemeinen linearen Hypothesen überprüft werden. Auf Grund der Modellvoraussetzungen lassen sich die Y ij folgendermaßen darstellen: Y ij = j +E ij mit j = 1,..., k und i = 1,..., n j Aus den Voraussetzungen folgt: Die Fehlerterme (Residuen) E ij sind unabhängig und identisch normalverteilte Zufallsvariablen mit dem Erwartungswert 0 und der Varianz 2 2, kurz: E ij N(0, ). Im univariaten einfaktoriellen Fall lautet die Gleichung des linearen Modells in Komponentenschreibweise: (*) Y ij = 0 + j + E ij mit j = 1,..., k und i = 1,..., n j In unserem Beispiel ist k = 3 und n j =5. Es folgt für die oben eingeführten Parameter 0 und j : 1 0 = k k j1 j und j =. Hieraus ergibt sich die sogenannte Reparametrisierungsbedinung: k j j1 Die Hypothesen der Varianzanalyse lauten: (1) Nullhypothese: 1 = 2 =... = k = und 0 Alternativhypothese: Es existiert ein j {1,2,...,k} mit j Bezogen auf das lineare Modell lauten die Hypothesen, welche mit dem sogenannten globalen F-Test überprüft werden: (2) Nullhypothese: j = 0 für j {1,...,k} und Alternativhypothese: j 0 für mindestens ein j {1,...,k}. j

8 Seite 8 Varianzanalyse Bei der Verwendung eines linearen Modells ist folgendes zu beachten: Es kann bei SPSS sowohl ein Modell unter Einbeziehung von 0 ( mit Achsenabschnitt bzw. mit Konstante), als auch ein Modell ohne diesen Achsenabschnitt berechnet werden. Als Standard wird immer ein Modell mit Achsenabschnitt berechnet. Die Hypothesen (1) und (2) sind in diesem Fall äquivalent. Rechnet man aber mit einem Modell ohne Achsenabschnitt ( Modellgleichung: Y ij = j +E ij = j + E ij ), so gilt: j = j, womit die beiden Hypothesen nicht mehr äuquivalent sind. Die Nullhypothese (2) wäre dann äquivalent zur Hypothese, daß alle Erwartungswerte j gleich Null sind, gegen die Alternativhypothese, daß mindestens ein Erwartungswert ungleich Null ist. Zusammenfassend gilt: In einem Modell mit Achsenabschnitt ist die Hypothese (2) äquivalent zur Hypothese (1). Wir werden später ein Modell ohne Achsenabschnitt berechnen, da wir die Erwartungswerte der Gruppen schätzen wollen und testen dann die uns interessierende Hypothese (1). Zusätzlich führen wir dann für dieses Modell den Test mit der Hypothese (2) aus. In Matrix Vektor Schreibweise lautet das lineare Modell allgemein: Y X E Der hierin auftretende Vektor Y ergibt sich dadurch, daß die zufälligen Größen Y ij derart untereinander angeordnet werden, daß sie folgenden Spaltenvektor bilden: Y (Y t 11, Y21,..., Yn 1, Y12, Y22.,.., Yn 2,..., Yn k ) 1 2 k. Unsere Aufgabe wird im Beispiel mit Mathematica zunächst sein, den unbekannten Parametervektor zu schätzen. Die Matrix X heißt Designmatrix. In unserem Beispiel hat die Designmatrix die folgende Gestalt, wie man aus der Gleichung (*) erkennen kann:

9 Varianzanalyse Seite 9 Der Vektor hat vier Komponenten: Die erste Spalte der Designmatrix X enthält aufgrund des verwendeten Achsenabschnitts 0 nur Einsen. Die zweite Spalte enthält jeweils eine Eins in der Zeile, in der die Komponente des Vektors eine Beobachtung der ersten Gruppe enthält. Es stehen somit n 1 = 5 Einsen in der ersten Zeile. Danach folgen Nullen. Analog enthält die dritte Spalte in den Zeilen Einsen, in denen die Komponente des Vektors y eine Beobachtung der zweiten Gruppe enthält und sonst nur Nullen u.s.w.. Der Leser möge sich diesen Sachverthalt durch Ausmultiplizieren der Matrix-Vektor Gleichung klar machen. Hier tritt nun das Problem auf, daß die Designmatrix X nicht mehr, wie Sie es vielleicht aus der Regressionsanalyse kennen, spaltenregulär ist. Wie Sie sehen, ergibt sich die erste Spalte als Summe der zweiten bis vierten Spalte. Wir lösen in unserem Beispiel das Problem, indem wir eine Spalte der Designmatrix (hier die erste, die nur aus Einsen besteht) streichen. Dies führt zu einem Modell ohne Achsenabschnitt. Man könnte z.b. auch die letzte Spalte streichen (wie dies in SPSS automatisch getan wird, falls man nicht die Option Konstanten Term in das Modell einschließen deaktiviert). Dabei bleibt dann der Achsenabschnitt in der Modellgleichung erhalten. Je nachdem, wie man hier vorgeht, ist der Parametervektor (der dann natürlich eine Komponente weniger enthält) auf eine andere Art zu interpretieren. In unserem Fall enthält b als Schätzer für den unbekannten Parametervektor die jeweiligen Gruppenmittelwerte (als Schätzer für die entsprechenden Erwartungswerte). Im zweifaktoriellen Fall müßten entsprechend zwei Spalten gestrichen werden. Auf diese Möglichkeiten, eine spaltenreguläre Designmatrix zu erzeugen, gehen wir später noch genauer ein. Wir gehen außerdem davon aus, daß die Werte in der Designmatrix voreingestellt (d.h. nicht stochastisch) sind. Es handelt sich also um eine Varianzanalyse mit festen Effekten. Dies ist in unserem Beispiel der Fall, da wir drei Gruppen von Personen gewählt haben und nicht zufällig drei Gruppen entstanden sind. Die einzige stochastische Größe auf der rechten Seite der Modellgleichung ist also der Fehler(zufalls)vektor, dessen Komponenten E ij, wie bereits beschrieben, normalverteilt sind mit dem Erwartungswert j und der Varianz 2. Da die Komponenten von paarweise stochastisch unabhängig sind gilt: Var( ) = 2 I E E Kommen wir nun zur Parameterschätzung. Den Parametervektor schätzen wir über die Methode der kleinsten Quadrate, d.h. wir verwenden denjenigen Vektor als t Schätzer, der die folgende Funktion Q minimiert : Q( ) ( y X ) ( y X ). Mit den y E

10 Seite 10 Varianzanalyse Methoden der Analysis kann gezeigt werden, daß = die Funktion Q minimiert, falls X t X positiv definit ist. Dies gilt immer, falls X spaltenregulär ist. t ( X X) 1 t X y

11 Varianzanalyse Seite Parameterschätzung im linearen Modell In der Praxis ist zunächst die Datenmatrix V gegeben. Die erste Spalte dient der Zuordnung der beobachteten Werte zu den einzelnen Gruppen und die zweite Spalte enthält die jeweilige Beobachtung (Testleistung). In SPSS wird bei der Varianzanalyse die erste Spalte der Datenmatrix als die unabhängige Variable bezeichnet und die zweite Spalte als die abhängige Variable. Wir müssen nun in Mathematica zuerst die Designmatrix X mit Hilfe der ersten Spalten von V erzeugen. Die zweite Spalte stellt unseren abhängigen Vektor y in der Modellgleichung dar. Es ist zu bemerken, daß eine Matrix in Mathematica als eine Liste (definiert durch geschweifte Klammern) von Listen dargestellt wird. Dabei sind die inneren Listen die jeweiligen Zeilen der Matrix. Der Einfachheit halber geben wir die Spalten der Matrix V zunächst als Zeilen ein und transponieren diese vor der Übergabe in die Variable V. Dadurch werden beim Hinschreiben einige Klammern eingespart. Lassen Sie in der unten stehenden Anweisung die Option //MatrixForm weg, so erkennen Sie, wie die Matrix als Liste von Mathematica dargestellt wird. Bei allen statistischen Berechnungen mit Mathematica sollten Sie zu Beginn mittels der Needs-Anweisung den Statistics`Master laden, um alle Statistik-Anweisungen zur Verfügung zu haben: Needs["Statistics`Master`"] V=Transpose[{{1,1,1,1,2,2,2,1,2,3,3,3,2,3,3},{10,15,14,12,8,12,7,8,9,4,8,6,14,7,5}}]; V//MatrixForm Die Anzahl der Elemente einer Liste kann mit der Length-Anweisung festgestellt werden. Mit dieser bestimmen wir nun den Gesamtstichprobenumfang n und die Anzahl k der Gruppen: Dabei wird der folgende Trick angewandt: Die Union-Anweisung bewirkt, daß aus einer Liste alle doppelten Elemente eliminiert werden. Wenn wir diese, wie in unserem Fall, auf die erste Spalte der Datenmatrix V

12 Seite 12 Varianzanalyse anwenden, erhalten wir eine Liste aller vorkommenden Zahlenwerte ({1,2,3}), die alle nur einfach aufgeführt werden. Die Länge der Liste entspricht dann der Anzahl der Gruppen bzw. Kategorien/Ausprägungen des Faktors. n=length[v] k=length[union[transpose[v][[1]]]] 15 3 Nun wird V mit der Sort-Anweisung sortiert. Gelegentlich schreiben wir die Erklärung einer Anweisung auch als Kommentar eingeschlossen zwischen (* bzw. *) direkt im Mathematica-Code dazu. VS=Sort[V]; (* V wird nach den Gruppen 1 bis 3 sortiert *) Nun erzeugen wir die Designmatrix X über eine geschachtelte Table-Anweisung, die überdies eine If-Bedingung enthält: X=Table[Table[If[Transpose[VS][[1]][[i]]==j,1,0],{j,1,k}],{i,1,n}]; X//MatrixForm Wir wählen die zweite Spalte der Matrix VS und übergeben diese in eine Liste y: y=transpose[vs][[2]]; Bemerkung: Mit der folgenden Anweisung könnte die Anzahl der Personen in der j-ten Gruppe berechnet werden. Als Beispiel berechnen wir mit ni[1] die Anzahl der Personen in der ersten Gruppe. ni[j_]:=count[transpose[vs][[1]],a_/;a==j];

13 Varianzanalyse Seite 13 ni[1] 5 In unserem Beispiel haben alle drei Gruppen (Subpopulationen) den gleichen Stichprobenumfang, was im allgemeinen nicht notwendig ist. Die Designmatrix wurde von uns bereits spaltenregulär definiert, indem wir die (ursprünglich) erste Spalte, die nur Einsen enthielt, ausgelassen haben, was zu einem Modell ohne Achsenabschnitt führt. Es folgt die Schätzung des unbekannten Parametervektors Methode der kleinsten Quadrate: b=inverse[transpose[x].x].transpose[x].y; b//matrixform//n durch b mit Hilfe der Da die Designmatrix so definiert wurde, daß die j-te Komponente des Vektors b den Mittelwert der j-ten Gruppe bezüglich der Testleistungen enthält, hat demnach die erste Gruppe im Schnitt 11.8, die zweite 10 und die dritte 6 Punkte erreicht. Im nächsten Schritt berechnen wir die Quadratsummen der Varianzzerlegung SST = SSW + SSB (SST = Sum of Squares Total, SSW = Sum of Squares within Groups, SSB = Sum of Squares between Groups). Danach wird der F-Test durchgeführt (mit der Hypothese (1)). Falls mit diesem F-Test ein signifikanter Unterschied nachgewiesen werden kann, so unterscheidet sich mindestens eine Gruppe in ihren Punktzahlen von den anderen Gruppen. In MS (Mean Squares) werden die mittleren Quadratsummen, d.h., die Quadratsummen SofS, geteilt durch die entsprechenden Freiheitsgrade df, gespeichert. f stellt die Prüfgröße dar: my=apply[plus,y]/length[y]; SSW=(y-X.b).(y-X.b); SSB=(X.b-my).(X.b-my); SST=(y-my).(y-my); SofS={SSB,SSW,SST}; SofS//N { ,76.8, } df={k-1,n-k,n-1}

14 Seite 14 Varianzanalyse {2,12,14} MS=SofS/df; MS//N { ,6.4,11.781} Zur Berechnung des p-wertes (Prob) benötigen wir die CDF-Funktion von Mathematics ( Cumulated Density Function ) und die F-Verteilung (FRatioDistribution): f=ms[[1]]/ms[[2]]; f//n Prob=1-CDF[FRatioDistribution[df[[1]],df[[2]]],f]//N Aufgrund des Wertes von Prob von 0, (<0,05) kann ein signifikanter Unterschied auf dem 5% Niveau zwischen den Leistungen der Gruppen nachgewiesen werden. Falls keine andere Vereinbarung getroffen wird, testen wir immer auf dem 5% Niveau. Wir geben nun noch die Quadratsummen und den globalen F-Test aus, entsprechend den Hypothesen (2) und somit passend zu dem von uns berechneten NO INTERCEPT Modell, das heißt dem Modell ohne Achsenabschnitt (SPSS: ohne Konstante): SST1=y.y 1453 SSB1=b.Transpose[X].y//N SSW1=SST1-SSB1//N 76.8 Der Anteil des Achsenabschnitts an der Quadratsumme SSB ergibt sich durch: SSB1-SSB Mit diesen Quadratsummen kann nun auch das Bestimmtheitsmaß unseres Modells

15 Varianzanalyse Seite 15 berechnet werden: RSquare=SSB1/SST Unser lineares Modell paßt demnach sehr gut, denn der Wert von Rsquare liegt nahe bei 1. Berechnen wir nun den F-Test mit der Prüfgröße f1, der natürlich in unserem Modell ein signifikantes Ergebnis liefern muß (da alle Erwartungswerte ungleich Null sein müßten): MSSW1=SSW1/(n-k); MSSB1=SSB1/k; f1=mssb1/mssw P1=1-CDF[FRatioDistribution[k,n-k],f1] *10^-8 Aufgrund des p-werts (P1) kann die Nullhypothese verworfen werden. Zur Erinnerung: Diese lautete: Alle Modellparameter bis auf den Achsenabschnitt sind gleich Null, was in unserem Modell ohne Achsenabschnitt mit der Nullhypothese identisch ist, daß alle Erwartungswerte der Gruppen gleich Null sind. Die Alternativen in lauteten in beiden Fällen, daß diese ungleich Null sind. Dies ist in unserem Beispiel mit den entsprechend hohen mittleren Punktzahlen (Testleistungen) auch zu erwarten. Bemerkung: Wie bereits beschrieben, gäbe es mehrere Möglichkeiten der Verwendung einer spaltenregulären Designmatrix. Die zweite Möglichkeit (wir bezeichnen die Möglichkeit der Streichung der ersten Spalte der ursprünglich nicht spaltenregulären Designmatrix als die erste Methode), eine spaltenreguläre Designmatrix zu erhalten, besteht darin, die folgende Kodierung vorzunehmen: X i0 =1, d.h. die erste Spalte enthält nur Einsen 1 X ij 0 1 falls falls falls die Beobachtung in der i ten Zeile von Y der j ten ( j 1,2,...,k 1) Kategorie angehört die Beobachtung in der i ten Zeile von Y nicht der j ten ( j 1,2,...,k 1) Kategorie angehört die Beobachtung in der i ten Zeile von Y der k ten Kategorie angehört Diese Kodierung ergibt sich durch die Reparametrisierungsbedingung:

16 Seite 16 Varianzanalyse k k1 0 j j1 j1 j k Der Vorteil dieser Kodierung liegt darin, daß man auch bei zweikategoriellen Modellen eine spaltenreguläre Designmatrix erhält, was beim Streichen der ursprünglich ersten Spalte nicht der Fall ist. Bei der Kodierung der zweiten Faktorvariable kann dann analog vorgegangen werden. In unserem Beispiel würde sich mit der oberen Kodierung die folgende Designmatrix ergeben: kod[i_,j_]:=1/;or[and[transpose[vs][[1]][[i]]==j, Transpose[VS][[1]][[i]]<k],j==0] kod[i_,j_]:= 0/;And[Transpose[VS][[1]][[i]]j, 1<=Transpose[VS][[1]][[i]]<k] kod[i_,j_]:=-1/;transpose[vs][[1]][[i]]==k X2=Table[Table[kod[i,j],{j,0,k-1}],{i,1,n}]; X2//MatrixForm i y k { Das Ungleichheitszeichen kann bei älteren Mathematica-Versionen auch mit Kleiner- Größer-Zeichen eingeben werden ( <> ). Durch die andere Kodierung ergeben sich entsprechend andere Schätzer: b2=inverse[transpose[x2].x2].transpose[x2].y; b2//matrixform//n

17 Varianzanalyse Seite 17 i y k { Mit der von uns definierten Designmatrix X erhält man als Schätzer für den unbekannten Parametervektor die Gruppenmittel (das heißt die Mittelwerte innerhalb der ersten, zweiten und dritten Subpopulation. Verwendet man die Designmatrix X2, so erhält man als Schätzer für die erste Komponente ( ) das Gesamtmittel und für die zweite bzw. dritte Komponente das erste bzw. zweite Gruppenmittel minus dem Gesamtmittel. Berechnet man eine Prognose für y mit der ersten oder zweiten Methode, so gibt es keine Unterschiede. Die Prognose entspricht jeweils dem Gruppenmittel. X2.b2//N 811.8, 11.8, 11.8, 11.8, 11.8, 10., 10., 10., 10., 10., 6., 6., 6., 6., 6.< X.b//N 811.8, 11.8, 11.8, 11.8, 11.8, 10., 10., 10., 10., 10., 6., 6., 6., 6., 6.< SPSS verwendet, wie bereits beschrieben, als voreingestellte Methode die, welche die letzte Spalte der ursprünglich nicht spaltenregulären Desigmatrix streicht: X3=Table[Table[If[Or[Transpose[VS][[1]][[i]]==j,j==0],1,0], {j,0,k-1}],{i,1, n}]; X3//MatrixForm i y k { Mit dieser Designmatrix ergibt sich der folgende Schätzer: b3=inverse[transpose[x3].x3].transpose[x3].y; b3//matrixform//n

18 Seite 18 Varianzanalyse i 6. y 5.8 k 4. { Die erste Komponente des oberen Vektors entspricht dem Mittel der letzten Gruppe (der k-ten = 3-ten Gruppe). Die zweite Komponente entspricht der Differenz aus dem ersten und dem dritten Gruppenmittel. Entsprechend ergibt sich die dritte Komponente aus der Differenz des zweiten und des dritten Gruppenmittels. Dies hat ebenfalls keinen Einfluß auf die Prognose für y: X3.b3//N 811.8, 11.8, 11.8, 11.8, 11.8, 10., 10., 10., 10., 10., 6., 6., 6., 6., 6.< SPSS verwendet diese Methode auch bei Modellen mit mehr als einer Faktorvariable. Dabei werden entsprechend weitere Spalten zur Desigmatrix hinzugefügt, wobei jeweils die Spalte, für die letzte Kategorie weggelassen wird. Dabei besteht nur die erste Spalte ganz aus Einsen.

19 Varianzanalyse Seite Allgemeine lineare Hypothese Als nächstes stellen wir noch einen Test vor, der die allgemeine lineare Hypothese der folgenden Form testet: Nullhypothese: A c gegen Alternativhypothese: A c Hierbei ist A eine Matrix mit beliebig vielen Zeilen und k Spalten. Im Allgemeinen müssen noch Voraussetzungen bezüglich dieser Matrix gemacht werden, damit die allgemeine lineare Hypothese getestet werden kann. Eine allgemeine lineare Hypothese heißt testbar, falls der Kern der Matrix A ein Unterraum des Kerns der Designmatrix X ist. Wir wollen nun in unserem vorhergegangenen Beispiel die Hypothese testen, daß die Schüler der Gruppe 1 im Schnitt die gleiche Punktzahl wie die Schüler der Gruppe 3 erreichen. Wir testen demnach die Nullhypothese: 1 = 3 gegen die Alternativhypothese: 1 3. Diesen Test können wir auf diese Art durchführen, da wir ein Modell ohne Achsenabschnitt verwendet haben (in dem gilt j = j ) Hierzu definieren wir die Matrix A und den Vektor c. Danach berechnen wir die Prüfgröße pg und führen den Test durch: A={{1,0,-1}}; c={{0}}; Xt=Transpose[X]; XtXi=Inverse[Xt.X]; pg=transpose[a.b-c].inverse[a.xtxi.transpose[a]].(a.b-c)/((ssw/(n-k))* Length[c])//N 1-CDF[FRatioDistribution[Length[c],n-k],pg] {{ }} {{ }} Wie aufgrund des Werts von 0, (< 0,05) zu sehen ist, kann die Hypothese verworfen werden, daß die Schüler der Gruppe 1 im Schnitt die gleiche Punktzahl erreichen wie die Schüler der Gruppe 3.

20 Seite 20 Varianzanalyse Multiple Vergleiche nach Scheffé Im Rahmen der einfaktoriellen Varianzanalyse konnten wir einen signifikanten Unterschied zwischen den Punktzahlen der einzelnen Gruppen nachweisen. Hiermit wissen wir nun, daß sich mindestens zwei Erwartungswerte signifikant unterscheiden, aber nicht welche. Insgesamt werden k k k 1 2 ( ) 2 Vergleiche durchgeführt. Es gibt eine Reihe von Testverfahren, mit denen man einen sogenannten multiplen Vergleich durchführen kann. Eines dieser Verfahren, den Test von Scheffé, stellen wir im Folgenden vor. Dieser Test setzt, wie bereits die Varianzanalyse, voraus, daß die Subpopulationen aus einer normalverteilten Grundgesamtheit stammen. Hierbei können die einzelnen Stichprobenumfänge n j auch verschieden sein. Gestet werden dann die folgenden Hypothesen: Nullhypothese: gegen m Alternativhypothese: j m j,m {1,...,k} und j m j Wir beziehen uns auf das vorhergehende Beispiel und geben nochmals den Schätzer b aus, der so bestimmt wurde (durch die Wahl der Designmatrix X), daß dessen j-te Komponente den Mittelwert der j-ten Subpopulation darstellt (bzw. einen Schätzer für den ensprechenden Erwartungswert j ): b//n {11.8,10.,6.} k (* Anzahl der Gruppen bzw. Subpopulationen *) 3 Nun berechnen wir die Matrix d der Mittelwertsdifferenzen (hier wurde ein kleiner Buchstabe für eine Matrix verwendet, da D von Mathematica für den Differentialoperator vorbesetzt ist): d=table[table[b[[i]]-b[[j]],{j,1,k}],{i,1,k}];

21 Varianzanalyse Seite 21 d//n//matrixform Es folgt die Berechnung der p-werte ProbS[i,j] zur Testdurchführung bezüglich der Erwartungswerte i und j : ProbS[i_,j_]:=1-CDF[FRatioDistribution[k-1,n-k], d[[i,j]]^2/((k-1)ssw(1/ni[i]+1/ni[j]))(n-k)] Table[Table[ProbS[i,j],{j,1,k}],{i,1,k}]//N//MatrixForm Wie zu sehen ist, stehen auf der Hauptdiagonalen der oberen Matrix nur Einsen, da hier jeweils der j-te Erwartungswert mit sich selbst verglichen wird. Aufgrund des zweiseitigen t-tests ist diese Matrix natürlich symmetrisch. Einen signifikanten Unterschied gibt es nur zwischen dem ersten und dem dritten Erwartungswert (ProbS[1,3] = 0, < 0,05). Zwischen dem ersten und dem zweiten (ProbS[1,2] = 0, > 0,05) und dem zweiten und dem dritten (ProbS[2,3] = 0, > 0,05) kann kein Unterschied nachgewiesen werden.

22 Seite 22 Varianzanalyse Test auf Heteroskedastizität Wie wir bereits beschrieben haben, ist die Homoskedastizität eine Voraussetzung in der Modellannahme zur Varianzanalyse. Diese Voraussetzung wäre eigentlich vor der Durchführung einer Varianzanalyse zu prüfen. Hierzu stellen wir den folgenden Test auf Heteroskedastizität vor, mit den Hypothesen: Nullhypothese: 1 = 2 =... = k gegen die Alternativhypothese: m j für mindestens ein j und ein m mit j m (j, m {1,2,3}) Wir berechnen im vorhergehenden Beispiel zunächst den Vektor z, der die Abweichungsbeträge vom jeweiligen Gruppenmittel enthält: z=abs[y-x.b]; z//matrixform//n Mit z wird dann eine Varianzanalyse durchgeführt, wobei y (die linke Seite der Modellgleichung) durch z ersetzt wird. Kommt man beim F-Test zum Verwerfen, so wird die Nullhypothese und somit die Varianzhomogenität verworfen. In diesem Fall wäre eine grundlegende Voraussetzung der eigentlichen Varianzanalyse verletzt. Dieser Test (benannt nach Levene) wird oft nicht mit dem F-Test der Varianzanalyse durchgeführt, sondern mit dem Test nach Kruskal und Wallis (siehe Schuchmann, Sanns: Nichtparametrische Statistik mit Mathematica, Literturverzeichnis), der keine Normalverteilung voraussetzt. Wir verwenden hier die Brown-Forsythe-Version des Levene-Tests. Hierbei sollten aber die Stichprobenumfänge der Gruppen n j 10 sein (dies ist in unserem Beispiel nicht der Fall, da wir uns auf kleine Beispiele beschränkt haben, damit diese einfach nachzuvollziehen sind).

23 Varianzanalyse Seite 23 Wir berechnen nun, wie üblich, über die Methode der kleinsten Quadrate, den Schätzer bz. Danach berechnen wir die entsprechenden Quadratsummen zur Varianzanalyse, sowie die Prüfgröße fz, mit der wir den Test durchführen: bz=inverse[transpose[x].x].transpose[x].z; bz//matrixform//n (* F-Test *) mz=apply[plus,z]/length[z]; SSWz=(z-X.bz).(z-X.bz); SSBz=(X.bz-mz).(X.bz-mz); SSTz=(z-mz).(z-mz); SofSz={SSBz,SSWz,SSTz}; SofSz//N { ,15.712, } DF={k-1,n-k,n-1}; MSz=SofSz/DF; MSz//N fz=msz[[1]]/msz[[2]]; fz//n Prob=1-CDF[FRatioDistribution[DF[[1]],DF[[2]]],fz]//N { , , } Die Varianzhomogenität kann nicht verworfen werden (Prob > 0,05). Demnach ist in unserem Beispiel diese Voraussetzung der Varianzanalyse nicht verletzt. In diesem Fall wäre auch ein höheres Signifikanzniveau angebracht.

24 Seite 24 Varianzanalyse 1.2 SPSS Zunächst müssen Sie die Daten, wie unten zu sehen ist, eingeben. Dazu müssen Sie in SPSS eine Variable x und eine Variable y definieren. Dafür klicken Sie jeweils doppelt auf die ersten beiden Überschriften var der Spalten des Eingabebereichs. Vergeben Sie die Namen x und y und geben Sie die Daten ein. (Näheres zum Einstieg in SPSS finden Sie in unserem Buch Schuchmann, Sanns: Statistik transparent mit SAS, SPSS, Mathematica, siehe Literaturverzeichnis) Es gibt mehrere Möglichkeiten mit SPSS eine einfaktorielle Varianzanalyse durchzuführen. Wir tun dies über die Menüpunkte Statistik Mittelwerte vergleichen Einfaktorielle ANOVA. Sie erhalten das folgende Menü, in dem Sie die Variable y als abhängige und die Variable x als unabhängige Variable festlegen müssen (dazu klicken Sie jeweils auf die Variable im linken Feld und drücken danach den Button mit dem Pfeil nach rechts).

25 Varianzanalyse Seite 25 Wählen Sie Kontraste. Mit Hilfe der Kontrast-Anweisung wollen wir die Hypothesen testen: Nullhypothese: 1 = 3 ( bzw (-1) 3 = 0) Alternativhypothese: 1 3 Entsprechend müssen wir in SPSS die Koeffizienten 1, 0 und 1 eingeben. Es sei bemerkt, daß die obere lineare Hypothese bereits mit dem multiplen Vergleich nach Scheffé überprüft wird. Uns dient dieser Fall allerdings nur als Beispiel für die Formulierung von linearen Hypothesen. Kommen wir zur Eingabe der Koeffizienten in SPSS: Hinzufügen wählen (siehe unten), danach Weiter. Wir möchten mit SPSS auch einen multiplen Vergleich mit dem Scheffé-Test durchführen. Hierzu müssen Sie Posthoc Scheffé wählen, womit Sie das untere Menü erhalten. Wählen Sie hier Scheffé und dann Weiter.

26 Seite 26 Varianzanalyse Um einen Test auf Heteroskedastizität durchführen zu lassen, müssen Sie Optionen Homogenität der Varianzen wählen und dann Weiter. Mit OK erhalten Sie die Ausgabe. Bitte vergleichen Sie diese mit den Werten, die wir mit Mathematica zuvor berechnet haben. Die erste Tabelle enthält die Levene-Statistik und den p-wert (Signifikanz). Aufgrund des p-wertes kann die Nullhypothese der Gleichheit der Varianzen nicht verworfen werden. Da die Varianzhomogenität eine Voraussetzung der Varianzanalyse ist und man somit zeigen möchte, daß nichts gegen die Nullhypothese spricht, sollte hier immer ein hohes Signifikanzniveau gewählt werden. Man kann in unserem Beispiel aber selbst bei einem Signifikanzniveau von 20% die Nullhypothese nicht verwerfen (da > 0.20). Auf diese Art kann aber trotzdem nicht die Nullhypothese nachgewiesen werden, da der Fehler 2. Art (d.h. der Fehler, den man macht, falls man eine falsche Nullhypothese annimmt) unbekannt ist. Die zweite Tabelle enthält das Tableau der Varianzanalyse mit dem p-wert zum globalen F-Test.

27 Varianzanalyse Seite 27 Y Test der Homogenität der Varianzen Lev ene-statistik df 1 df 2 Signifikanz 1, ,238 ANOVA Y Zwischen den Gruppen Innerhalb der Gruppen Gesamt Mittel der Quadratsumme df Quadrate F Signifikanz 88, ,067 6,885,010 76, , , Die Nullhypothese der Gleichheit der Erwartungswerte kann aufgrund des p-wertes von (< 0.05) verworfen werden. Kontrast-Koeffizienten Kontrast 1 X Y Varianzen sind gleich Varianzen sind nicht gleich Kontrast 1 1 Kontrast-Tests Signifikanz Kontrastwert Standardf ehler T df (2-seitig) 5,80 1,60 3,625 12,003 5,80 1,46 3,965 6,232,007 Da nichts gegen die Annahme der Gleichheit der Varianzen spricht, kann in der oberen Tabelle die erste Zeile verwendet werden. Wir hatten mit der Kontrast-Anweisung die Nullhypothese überprüft, daß der Erwartungswert der ersten Gruppe gleich dem der dritten Gruppe ist (gegen die Alternative, daß diese verschieden sind). Hier kann die Nullhypothese verworfen werden (0.003 < 0.05). In der unteren Tabelle sehen Sie die p-werte (Spalte Signifikanz) des Scheffé-Tests. In der zweiten Spalte sind die Differenzen der Gruppenmittel zu sehen. Die größte Differenz gibt es zwischen der ersten und der dritten Gruppe und diese ist signifikant (dies wird mit einem Stern bei der Differenz angedeutet).

28 Seite 28 Varianzanalyse Abhängige Variable: Y Schef fé-prozedur Mehrfachvergleiche (I) X (J) X Mittlere Dif f erenz 95%-Konf idenzintervall (I-J) Standardf ehler Signifikanz Untergrenze Obergrenze 1,80 1,600,548-2,66 6,26 5,80* 1,600,012 1,34 10,26-1,80 1,600,548-6,26 2,66 4,00 1,600,081 -,46 8,46-5,80* 1,600,012-10,26-1,34-4,00 1,600,081-8,46,46 *. Die mittlere Dif ferenz ist auf der Stuf e.05 signifikant. Schef fé-prozedur a X Signifikanz Y Untergruppe f ür Alpha =.05. N , ,00 10, ,80,081,548 Die Mittelwerte für die in homogenen Untergruppen befindlichen Gruppen werden angezeigt. a. Verwendet ein harmonisches Mittel f ür Stichprobengröße = 5,000. Bemerkung: Sie können eine Varianzanalyse auch über die folgende Wahl der Menüpunkte durchführen: Statistik Allgemeines Lineares Modell GLM Allgemein mehrfaktoriell.

29 Varianzanalyse Seite 29 Bemerkung zur univariaten zweifaktoriellen Varianzanalyse: Der zweifaktoriellen Varianzanalyse liegt das folgende lineare Modell zu Grunde: Y ijm = + i + j + E ijm mit 1 m n ij i erfaßt den Einfluß der i-ten Kategorie (i = 1,..., a) des ersten Faktors und j erfaßt den Einfluß der j-ten Kategorie (j = 1,..., b) des zweiten Faktors. Die Annahmen sind die gleichen, wie bei der einfaktoriellen Varianzanalyse. Wir haben das Modell gleich allgemein für unbalancierte Daten definiert (die Stichprobenumfänge der Subpopulationen können unterschiedlich groß sein). Im zweifaktoriellen Fall lauten die Reparametrisierungsbedingungen: a i1 a1 i 0 i i1 a bzw. b j1 b1 j 0 j j1 b Faßt man die Komponenten i und j zu dem Vektor T i, j) ( zusammen, und definiert man die Designmatrix X analog der Designmatrix X2 (im Mathematica Beispiel) über die Reparametrisierungsbedingung, so enthält die erste Spalte nur Einsen, die nächsten a-1 Spalten werden analog dem einfaktoriellen Fall definiert. Es folgen b-1 Spalten für die Kodierung der Kategorien des zweiten Faktors ebenfalls analog zum einfaktoriellen Fall. Dabei verwenden wir wieder den Trick, daß sich (wie oben zu sehen) jeweils die Parameter für die letzte Kategorie durch die der anderen ausdrücken lassen. Berücksichtigt man Wechselwirkungsterme ij, so lautet die Modellgleichung wie folgt: Y ijk = + i + j + ij + E ijk mit 1 k n ij SPSS rechnet bei zweifaktoriellen Modellen immer automatisch mít Wechselwirkungstermen. Diese können aber auch durch eine Option (im Menü Modell) ausgeschaltet werden. Ein Modell mit Wechselwirkungen nennt man auch saturiertes Modell. Für die Wechselwirkungsterme lauten die Reparametrisierungsbedingungen: a a1 ij 0 ij aj i1 i1 b b1 ij 0 ij ib j1 j1, für j 1,.., b, für i 1,..,a bzw.

30 Seite 30 Varianzanalyse 1.3 Multivariate Varianzanalyse Das lineare Modell der multivariaten Varianzanalyse entspricht dem der einfachen Varianzanalyse, nur daß hier auf der linken Seite der Modellgleichung kein Vektor, sondern eine Matrix Y steht. Entsprechend sind die unbekannten Parameter in einer Matrix (bzw. die Schätzer in der Matrix B) und die Fehler in einer Matrix E zusammengefaßt. In Analogie zur univariaten Varianzanalyse lauten die Hypothesen: Nullhypothese: g gegen Alternativhypothese: i j für mindestens ein i und ein j mit i j (i,j {1,2,..,g}) Dabei ist j der t-dimensionale Erwartungswertvektor der j-ten Gruppe. t enspricht demnach der Anzahl der Spalten unserer abhängigen Matrix Y (Y ist eine tn Matrix) auf der linken Seite der Modellgleichung. In unserem Beispiel gehen wir nun davon aus, daß wir jeweils drei Schüler bzw. Schülerinnen aus g = 2 parallelen Klassen (allgemein g Gruppen) ausgewählt haben. Von diesen wurden die Punktzahlen in t = 3 Fächern in der Matrix Y erfaßt. Es soll nun untersucht werden, ob es zwischen den beiden Klassen Unterschiede in den Leistungen bezüglich dieser drei Fächer gibt. Zunächst berechnen wir wieder den Hilfsvektor m, der n Einsen enthält und danach die Hilfsmatrix Mittel, welche die Mittelwerte der Spalten von Y enthält: Needs["Statistics`Master`"] Y={{12,11,14},{10,12,15},{12,14,13},{8,5,4},{7,8,5},{8,5,8}}; Y//MatrixForm n=length[y]; m=table[{1},{n}]; Mittel=1/n*m.Transpose[m].Y; Mittel//MatrixForm//N

31 Varianzanalyse Seite Die Designmatrix X und die Matrix B (die erste Spalte, welche nur Einsen enthält, wurde wieder aus der Designmatrix gestrichen) sehen folgendermaßen aus. Die Komponenten von B entsprechen, analog zum univariaten Fall (falls ein Modell ohne Achsenabschnitt verwendet wird) den Gruppenmitteln. Das bedeutet B jm (j = 1,...,g und m = 1,..., t) ist der Mittelwert der j-ten Gruppe in der m-ten Spalte von Y. Entsprechend ist die j-te Zeile von B ein Schätzer für. X={{1,0},{1,0},{1,0},{0,1},{0,1},{0,1}}; X//MatrixForm j Der Schätzer für die unbekannte Parametermatrix in einem Modell ohne Achsenabschnitt: B=Inverse[Transpose[X].X].Transpose[X].Y; B//MatrixForm//N Als nächstes folgt die Varianzzerlegung T = Zw + W. Bei der multivariaten Varianzanalyse stellen die Komponenten dieser Gleichung keine skalaren Größen mehr da, sondern es handelt sich hierbei um Matrizen mit t Zeilen und Spalten, welche die Abweichungsquadrate analog zur Varianzzerlegung im univariaten Fall enthalten. T ist die Matrix der Gesamtstreuung, Zw erfaßt die Streuung zwischen den Gruppen und W die Streuung innerhalb der Gruppen: T=Transpose[(Y-Mittel)].(Y-Mittel); T//MatrixForm//N

32 Seite 32 Varianzanalyse W=Transpose[Y-X.B].(Y-X.B); W//MatrixForm//N Zw=T-W; Zw//MatrixForm//N Wir berechnen nun die Teststatistik Wilks (Lambda) in Analogie zur Prüfgröße f im univariaten Fall. Diese Größe ist eine Realisierung einer -verteilten Zufallsvariable. Da die Berechnung der Quantile dieser Verteilung sehr aufwendig ist, werden in der Praxis mit Hilfe dieser Teststatistik einige Prüfgrößen mit bekannter approximativer Verteilung berechnet. Wir werden später eine dieser Approximationen berechnen. Die Teststatistik Wilks wird auch bei anderen multivariaten Verfahren verwendet, wie wir noch sehen werden. Lambda=Det[W]/Det[T]; Lambda//N Über die Matrix der Gesamtstreuung T läßt sich die empirische Varianz- Kovarianzmatrix berechnen: S=T/(n-1); S//MatrixForm//N Bevor wir den approximativen F-Test zur multivariaten Varianzanalyse durchführen, berechnen wir die Matrix Mat, mit deren Hilfe einige weitere Teststatistiken der

33 Varianzanalyse Seite 33 multivariaten Varianzanalyse berechnet werden können (diese werden auch zusätzlich bei den meisten Statistikprogrammpaketen ausgegeben). Mat=Inverse[W].Zw; Mat//MatrixForm//N Die erste Teststatistik, bekannt als Pillai's Trace (Pillai s Spur), berechnet sich wie folgt: Max[Eigenvalues[Mat]]/(Max[Eigenvalues[Mat]]+1)//N Pillai's Trace ist eine Realisierung einer -verteilten zufälligen Größe. Im Folgenden berechnen wir eine Teststatistik genannt Hotelling-Lawley Trace (Hotelling-Lawley Spur) oder auch die hier äquivalente Größe Roy's Greatest Root (Roy s größter Eigenwert): Apply[Plus,Eigenvalues[Mat]]//N Mit den beiden oben berechneten Teststatistiken können ebenfalls approximative F- Tests durchgeführt werden. Wir betrachten nun wieder die Größe Wilks (Lambda) und programmieren mit dieser einen approximativen F-Test: t=length[transpose[y]] g=length[transpose[x]] 3 2 n1 = t*(g - 1); s = Sqrt[(t^2*(g - 1)^2-4)/((g - 1)^2 + t^2-5)]; n2 = s*(-(1/2)*(g + t) + n - 1) - 1/2*(t*(g - 1) - 2); f = (1 - Lambda^(1/s))/(Lambda^(1/s))*n2/n1; f//n Needs["Statistics`Master`"] Prob = 1 - CDF[FRatioDistribution[n1,n2], F] // N

34 Seite 34 Varianzanalyse Es besteht also nach diesem approximativen F-Test ein signifikanter Unterschied in den Punktzahlen bzgl. der drei Fächer (Prob < 0,05). Literatur: [2],[3],[4],[5],[6],[7],[9],[12],[13]

35 Varianzanalyse Seite SPSS Zunächst müssen Sie wieder die Daten eingeben (siehe unten). Dazu haben wir die abhängigen Variablen y1, y2 und y3 definiert und die unabhängige Variable x. Nun müssen Sie Statistik Allgemeines lineares Modell GLM multivariat wählen und Sie erhalten das folgende Menü.

36 Seite 36 Varianzanalyse Wie Sie oben sehen können, haben wir bereits die Variabeln ausgewählt. Wählen Sie danach OK. Sie erhalten die folgende Ausgabe. In der ersten Tabelle finden Sie die Ausprägungen der unabhängigen Variable mit den Stichprobenumfängen der Subpopulationen. In der Tabelle mit der Überschrift Multivariate Tests sehen Sie die bereits mit Mathematica beschriebenen multivariaten Kenngrößen. Wir betrachten die Zeile, die mit X gekennzeichnet ist. Da wir uns für einen Unterschied zwischen den Gruppen interessieren, ist die Zeile Intercept für uns nicht relevant (ob der Achsenabschnitt signifikant von Null verschieden ist, ist für den Unterschied nicht von Interesse). Zwischensubjektfaktoren X 1 2 N 3 3 In der Zeile X wird der Einfluß der kategoriellen Variable x auf die abhängigen Variablen untersucht. In der Zeile zu Wilk s Lambda finden Sie die Prüfgröße nach Wilk und am Ende der gleichen Zeile den enstprechenden p-wert. Dabei kann auf unserem üblichen Signifikanzniveau von 5% ein Einfluß der kategoriellen Variable x (p-wert = > 0.05) nachgewiesen werden. Die zweite Tabelle der SPSS-Ausgabe enthält die Prüfgrößen und p-werte der univariaten Varianzanalysen. Dazu wird jeweils nur eine abhängige Variable y1, y2 bzw. y3 (dies sind jeweils die Spalten der abhängigen Matrix in der Modellgleichung) verwendet und eine Kovarianzanalyse durchgeführt. Die entsprechenden Quadratsummen zu den univariaten Varianzanalysen finden Sie auch in den Hauptdiagonalen der in Mathematica berechneten Streuungsmatrizen der Multivariaten Varianzanalyse wieder.

37 Varianzanalyse Seite 37 Multivariate Tests b Ef fekt Intercept X Pillai-Spur Wilks-Lambda Hotelling-Spur Größte charakteristische Wurzel nach Roy Pillai-Spur Wilks-Lambda Hotelling-Spur Größte charakteristische Wurzel nach Roy a. Exakte Statistik b. Design: Intercept+X Hypothese Wert F df Fehler df Signifikanz, ,061 a 3,000 2,000,003, ,061 a 3,000 2,000, , ,061 a 3,000 2,000, , ,061 a 3,000 2,000,003,979 31,827 a 3,000 2,000,031,021 31,827 a 3,000 2,000,031 47,740 31,827 a 3,000 2,000,031 47,740 31,827 a 3,000 2,000,031 Quelle Korrigiertes Modell Intercept X Fehler Gesamt Korrigierte Gesamtvariation Abhängige Variable Y1 Y2 Y3 Y1 Y2 Y3 Y1 Y2 Y3 Y1 Y2 Y3 Y1 Y2 Y3 Y1 Y2 Y3 a. R-Quadrat =,858 (korrigiertes R-Quadrat =,823) b. R-Quadrat =,849 (korrigiertes R-Quadrat =,812) c. R-Quadrat =,907 (korrigiertes R-Quadrat =,884) Tests der Zwischensubjekteffekte Quadratsumme Mittel der vom Typ III df Quadrate F Signifikanz 20,167 a 1 20,167 24,200,008 60,167 b 1 60,167 22,563, ,167 c 1 104,167 39,063, , , ,800, , , ,062, , , ,562,000 20, ,167 24,200,008 60, ,167 22,562, , ,167 39,062,003 3,333 4,833 10, ,667 10, , , , , , , ,833 5

38 Seite 38 Kovarianzanalyse 2 Kovarianzanalyse 2.1 Parameterschätzung und Teststatistiken Die multivariate Kovarianzanalyse ergänzt die multivariate Varianzanalyse, denn es werden hier eine oder mehrere zusätzliche unabhängige stetige Variable(n), sogenannte Kovariate (Kovariable), einbezogen. Wir haben somit auf der Seite der unabhängigen Variablen eine Mischung aus kategoriellen und stetigen Variablen. Daher stellt die Kovarianzanalyse eine Verbindung zwischen Regressions- und Varianzanalyse dar. Im Fall nicht vorhandender kategoriellen Variablen können Sie mit den im folgenden gezeigten Methoden eine multivariate Regressionsanalyse durchführen. Falls kein Einfluß der stetigen Variablen nachzuweisen ist, kann eine multivariate Varianzanalyse verwendet werden. Die univariate Kovarianzanalyse kann analog durchgeführt werden. Als Beispiel für den Einsatz der Kovarianzanalyse kann man sich folgendes vorstellen: Es sollen drei Präparate verglichen werden, die die Blutfettwerte senken. Dabei bekommen drei Gruppen von Personen jeweils ein Medikament verabreicht. Innerhalb jeder Gruppe wird das jeweilige Medikament zusätzlich in verschiedener Dosis verabreicht. am Ende der Behandlung werden die Blutfettwerte gemessen (wird nur ein Wert pro Person bestimmt, dann wäre dies ein Beispiel für eine univariate Kovarianzanalyse, bestimmt man mehrere verschiedene Fettwerte, so handelt es sich um eine multivariate Kovarianzanalyse). Die kategorielle Variable ist das Präparat und die stetige Variable ist die Dosis. Es kann nun untersucht werden, ob zum einen das Präparat einen signifikanten Einfluß auf die Blutfettwerte hat (dabei wird der Einfluß der Dosis auspartialisiert, das heißt eliminiert) und zum anderen können wir untersuchen, ob die Dosis einen Einfluß hat. Wir beginnen mit der Parameterschätzung zur multivariaten Kovarianzanalyse. Der Kovarianzanalyse liegt das folgende Modell zugrunde: Y = X + Z + E Dabei ist X die Designmatrix der kategoriellen unabhängigen Variablen (der Faktoren) und Z die Designmatrix der Kovariaten. Wir wollen nun die unbekannten Parameter(matrizen) und schätzen. In unserem Beispiel hat zwei Spalten (entsprechend den zwei Spalten von Y) und zwei Zeilen (entsprechend der Anzahl der Kategorien der unabhängigen Variable bzw. der Anzahl der Spalten von X). hat analog zwei Spalten und eine Zeile (da eine Kovariate vorhanden ist). Um die Schätzung durchzuführen, können wir zunächst die beiden Matrizen X und Z vereinigen (die Spalten von Z werden den Spalten von X hinzugefügt). Diese vereinigte Matrix nennen wir Xg. Analog werden die Zeilen von an die Zeilen von angefügt. Die neue unbekannte Parametermatrix nennen wir (bzw. den Schätzer b, mit zwei Spalten und drei Zeilen). Danach führen wir die Parameterschätzung mit der neuen

39 Kovarianzanalyse Seite 39 Designmatrix Xg wie gewohnt durch. Zur Vereinfachung der Dateneingabe haben wir uns auf einen kleinen fiktiven Datensatz beschränkt: Needs["Statistics`Master`"] Y={{12,11},{10,12},{12,14},{8,5},{7,8},{8,5}}; Xg={{1,0,14},{1,0,15},{1,0,13},{0,1,4},{0,1,5},{0,1,8}}; Wir wählen die dritte Spalte der Matrix Xg und definieren die Matrix Z: Z=ColumnTake[Xg,{3}] {{14},{15},{13},{4},{5},{8}} n=length[y]; m=table[{1},{n}]; b=inverse[transpose[xg].xg].transpose[xg].y; b//matrixform//n Fast man die ersten beiden Zeilen der Matrix b zu einer Matrix zusammmen, so ist dies ein Schätzer für die unbekannte Parametermatrix. Die letzte Zeile ist entsprechend ein Schätzer für die unbekannte Parametermatrix. Zunächst berechnen wir die Mittelwerte der Spalten der abhängigen Matrix Y: yq=apply[plus,y]/n//n Es folgt die Berechnung der Streuungsmatrizen für das Gesamtmodell: SSTg=(Transpose[Y]-yq).Transpose[(Transpose[Y]-yq)]; SSTg//MatrixForm SSEg=Transpose[Y-Xg.b].(Y-Xg.b); SSEg//MatrixForm//N

40 Seite 40 Kovarianzanalyse SSWg=(Transpose[Xg.b]-yq).Transpose[(Transpose[Xg.b]-yq)]; SSWg//MatrixForm Als nächstes führen wir für die unabhängige kategorielle Variable und danach für die unabhängige stetige Variable (d.h. die Kovariable) jeweils eine Parameterschätzung durch und berechnen mit diesen die Streuungsmatrizen. Wir beginnen mit der Definition der Designmatrix X für die kategorielle Variable, indem wir die erste bis zweite Spalte der gesamten Designmatrix Xg wählen. X=ColumnTake[Xg,{1,2}]; X//MatrixForm bx=inverse[transpose[x].x].transpose[x].y; bx//matrixform//n Es folgt die Berechnung der Streuungsmatrizen für das erste Teilmodell (das Teilmodell der kategoriellen Variable): SSEx=Transpose[Y-X.bx].(Y-X.bx); SSEx//MatrixForm//N SSWx=(Transpose[X.bx]-yq).Transpose[(Transpose[X.bx]-yq)]; SSWx//MatrixForm//N Die folgende Prüfgröße nach Wilk dient zum Testen des Einflusses der Kovariable. Wir führen danach einen approximativen F-Test durch.

41 Kovarianzanalyse Seite Wir bestimmen t = Anzahl der stetigen Variablen im Modell (d.h. abhängige Variablen + Kovariablen) und g = Anzahl der Kategorien der kategoriellen Variablen (bzw. Anzahl der Subpopulation). t=length[transpose[y]] + Length[Transpose[Z]] g=length[transpose[x]] 3 2 q ist die Anzahl der Kovariablen und p ist die Anzahl der abhängigen Variablen. q=length[transpose[z]] 1 p=t-q 2 Fz//N Ein Einfluß der Kovariable kann nicht nachgewiesen werden (Prob < 0,05). Die Nullhypothesen zum oberen Test lautet formal: H 0 : 0 und H A : 0

42 J N Seite 42 Kovarianzanalyse Nun gehen wir analog vor und prüfen den Einfluß der kategoriellen Variable. Wir definieren unten die Designmatrix Z1 und führen mit dieser eine Regression mit Achsenabschnitt durch (aus diesem Grund ergänzen wir die Matrix Z um eine Spalte mit Einsen). Z1=Flatten[{Transpose[m],Transpose[Z]},1]//Transpose {{1,14},{1,15},{1,13},{1,4},{1,5},{1,8}} bz=inverse[transpose[z1].z1].transpose[z1].y; bz//matrixform//n SSEz=Transpose[Y-Z1.bz].(Y-Z1.bz); SSEz//MatrixForm//N Fx//N Auf dem üblichen 5%-igen Signifikanzniveau kann auch kein Einfluß der kategoriellen Variable nachgewiesen werden (Prob < 0,05). Literatur: [4],[6]

43 Kovarianzanalyse Seite SPSS Wir gehen nun analog zur multivariate Varianzanalyse vor. Zunächst müssen Sie die Daten, die in der unteren Tabelle zu sehen sind, in SPSS eingeben. In der ersten Zeile stehen jeweils die Variablennamen: y1 y2 x z y1 und y2 sind die abhängigen Variablen, x ist die kategorielle Variable (SPSS: fester Faktor ) und z ist die Kovariable ( Kovariate ). Sie erhalten in SPSS das Menü zur multivariaten Varianz und Kovarianzanalyse mit Statistik Allgemeines linereares Modelle GLM-Multivariat. Danach müssen Sie die Variablen wie unten zu sehen auswählen. Wählen Sie nun OK, womit Sie die folgende Ausgabe erhalten.

44 Seite 44 Kovarianzanalyse Zwischensubjektfaktoren X 1 2 N 3 3 In der Zeile X wird der Einfluß der kategoriellen Variable x auf die abhängigen Variablen untersucht und in der Zeile Z wird der Einfluß der Kovariable Z untersucht. In der Zeile zu Wilk s Lambda finden Sie die Prüfgröße nach Wilk und am Ende der gleichen Zeile den enstprechenden p-wert. Dabei kann auf unserem üblichen Signifikanzniveau von 5% weder ein Einfluß der kategoriellen Variable x (p-wert = > 0.05) nachgewiesen werden, noch ein Einfluß der Kovariable y (p-wert = > 0.05). Die zweite Tabelle der SPSS-Ausgabe enthält die Prüfgrößen und p-werte der univariaten Kovarianzanalyse. Dazu wird jeweils nur eine abhängige Variable y1 bzw. y2 (dies sind jeweils die Spalten der abhängigen Matrix in der Modellgleichung) verwendet und eine Kovarianzanalyse durchgeführt. Die entsprechenden Quadratsummen zu den univariaten Kovarianzanalysen finden Sie auch in den Hauptdiagonalen der in Mathematica berechneten Streuungsmatrizen der multivariaten Kovarianzanalyse wieder. Multivariate Tests b Ef fekt Intercept Z X Pillai-Spur Wilks-Lambda Hotelling-Spur Größte charakteristische Wurzel nach Roy Pillai-Spur Wilks-Lambda Hotelling-Spur Größte charakteristische Wurzel nach Roy Pillai-Spur Wilks-Lambda Hotelling-Spur Größte charakteristische Wurzel nach Roy a. Exakte Statistik b. Design: Intercept+Z+X Hypothese Wert F df Fehler df Signifikanz a a a a a a a a a a a a

45 Kovarianzanalyse Seite 45 Quelle Korrigiertes Modell Intercept Z X Fehler Gesamt Korrigierte Gesamtvariation Abh. Variabl ey1 Y2 Y1 Y2 Y1 Y2 Y1 Y2 Y1 Y2 Y1 Y2 Y1 Y2 Tests der Zwischensubjekteffekte a. R-Quadrat =.865 (korrigiertes R-Quadrat =. 775) b. R-Quadrat =.871 (korrigiertes R-Quadrat =. 784) Quadratsumme Mittel der vom Typ III df Quadrate F Signifikanz a b Falls Sie noch zusätzlich die von uns mit Mathematica berechneten Parameterschätzer bestimmen möchten, so müssen Sie ein Modell ohne Achsenabschnitt berechnen lassen. Dazu müssen Sie im Menü wählen Modell und dort müssen Sie das Kästchen Konstanten Term in Modell einschließen deaktivieren (siehe unten).

46 Seite 46 Diskriminanzanalyse Dann müssen Sie Weiter und Optionen wählen (siehe unten). In diesem Menü müssen Sie Parameterschätzer aktivieren und dann Weiter und OK wählen. Sie erhalten die folgende Ausgabe: Die Spalte B können Sie mit der Matrix B der Parameterschätzer in Mathematica vergleichen. Parameterschätzer. Abhängige Variable Y1 Y2 Parameter Y3 [X=1] [X=2] Y3 [X=1] [X=2] 95% Konf idenzinterv all B Standardf ehler T Signifikanz Untergrenze Obergrenze -,125,315 -,397,718-1,126,876 13,083 4,444 2,944,060-1,059 27,226 8,375 1,879 4,458,021 2,396 14,354 -,375,535 -,701,534-2,078 1,328 17,583 7,561 2,326,103-6,478 41,645 8,125 3,196 2,542,085-2,047 18,297 3 Diskriminanzanalyse

47 Diskriminanzanalyse Seite 47 Bei der Diskriminanzanalyse gehen wir von den gleichen Voraussetzungen wie bei der Varianzanalyse aus, d.h. die durch die Designmatrix definierten Teilstichproben müssen aus einer normalverteilten Grundgesamtheit stammen. Die Diskriminanzanalyse kann insbesondere dann durchgeführt werden, falls zuvor mit der multivariaten Varianzanalyse ein signifikanter Unterschied zwischen den Gruppen (Subpopulationen) nachgewiesen wurde. Es werden dann mit Hilfe der Diskriminanzanalyse sogenannte Diskriminanzfunktionen bestimmt, über die speziell zukünftige Beobachtungen (Objekte) einer Subpopulation zugeordnet werden können. Außerdem wird die Wahrscheinlichkeit bestimmt, mit der ein Objekt einer falschen Subpopulation zugeordnet wird. Die Diskriminanzanalyse versteht sich demnach als Verfahren zur Klassifizierung. Die Subpopulationen bezeichnen wir mit Klassen. Wir stellen zwei Verfahren der Diskriminanzanalyse vor. Beim ersten Verfahren wird die Klassifizierungsfunktion (bzw. die Klassifizierungsfunktionen) nach der Maximum- Likelihood Methode (ML) hergeleitet und benötigt als Voraussetzung die Normalverteilung von Y mit identischen Varianz-Kovarianzmatrizen (analog den Voraussetzungen der Varianzanalyse, nur mit allgemeineren Varianz- Kovarianzmatrizen). Die gleiche Klassifizierungsregel ergab sich aber auch über ein vernünftiges heuristisches Kriterium, so daß die lineare Diskriminanzanalyse mit den von uns vorgestellten Kriterien zur Klassifizierung relativ robust gegenüber der Verletzungen der Normalverteilungsvoraussetzung ist (siehe Fahrmeir et al.). Das erste Verfahren stellt die klassische Diskriminanzanalyse dar. Das zweite Verfahren, benannt nach Fischer, ist ein verteilungsunabhängiges Verfahren. Das zweite Verfahren ist bei zwei Klassen (g=2) äquivalent zum ersten Verfahren. Wir führen die Diskriminanznanalyse in zwei Beispielen durch. Beim ersten Beispiel möchten wir die (zukünftig beobachteten) Objekte zwei Klassen zuordnen und im zweiten Beispiel gehen wir von drei Klassen aus. Im ersten Beispiel beginnen wir mit der Berechnung der Diskriminanzfunktionen nach der ML Methode und danach verwenden wir die Klassifizierrungsfunktion nach Fischer. Im zweiten Beispiel verwenden wir nur die Methode von Fischer. Die ML Methode läßt sich allerdings auch auf mehr als zwei Klassen erweitern. Wir beginnen mit der Definition der Datenmatrix Y und der Designmatrix X in unserem ersten Beispiel und berechnen zunächst die Matrizen der Quadratsummen (T, W und Zw) in Analogie zur Varianzanalyse, sowie die Klassenmittelwerte der Teilstichproben (B). Y={{5,8},{10,9},{4,2},{1,2},{2,1},{1,3}}; Y//MatrixForm

48 Seite 48 Diskriminanzanalyse n=length[y]; Eins=Table[{1},{n}]; Mittel=1/n*Eins.Transpose[Eins].Y//N; Mittel//MatrixForm Wir definieren nun die Designmatrix X. Falls Sie die Diskriminanzanalyse mit einem größeren Datensatz durchführen, so können Sie die Designmatrix automatisch über eine Liste mit ganzen Zahlen erstellen, welche die Datensätze (d.h. die Zeilen der Matrix Y) einer Klasse zuordnet (1 für erste Klasse,...). Dieses haben wir bei der univariate Varianzanalyse bereits vorgestellt. Diese Liste stellt in SPSS die Spalte der unabhängigen Variable dar. X={{1,0},{1,0},{1,0},{0,1},{0,1},{0,1}}; X//MatrixForm Wir berechnen dann wie zuvor die Klassenmittel der Gruppen (B) und die Matrizen der Varianzzerlegung (W, T und Zw). B=Inverse[Transpose[X].X].Transpose[X].Y; B//MatrixForm//N T=Transpose[(Y-Mittel)].(Y-Mittel); T//MatrixForm W=Transpose[Y-X.B].(Y-X.B)//N; W//MatrixForm

49 Diskriminanzanalyse Seite 49 Zw=T-W; Zw//MatrixForm Im folgenden werden festgelegt bzw. berechnett: Die Anzahl der Klassen (g), die empirische Varianz-Kovarianzmatrix (S, diese berechnen wir über die Matrix W, welche die Streuung innerhalb der Gruppen erfaßt) und die Klassenmittel der ersten und zweiten Klasse (xa und xb). g=length[transpose[y]]; S=1/(n-g)*W; xa=b[[1]]//n; xa//matrixform xb=b[[2]]//n; xb//matrixform Nun definieren wir zunächst die Diskriminanzfunktion d, mit der ein Objekt einer Klasse zugeordnet werden kann. Dabei wird das Objekt x der ersten Klasse zugeordnet, falls d[x]>0 und falls d[x]<0 ist, wird dieses Objekt der zweiten Klasse zugeordnet. Diese Zuordnung ist, wie bereits beschrieben, speziell für neue Objekte von Interesse. Als Beispiel berechnen wir den Wert der Diskriminanzfunktion d für das Objekt x = {1,2}. Dieses wird, wie zu sehen ist, der zweiten Klasse zugeordnet. Danach wenden wir die Diskriminanzfunktion auf unsere Datenmatrix Y. Dabei erhalten wir eine Zuordnung entsprechend der Designmatrix X, d.h. die ersten beiden Objekte werden der ersten Klasse zugeordnet (positive Funktionswerte von d) und die restlichen Objekte werden der zweiten Klasse zugeordnet (negative Funktionswerte von d). Die Funktion d kann nur für den Spezialfall g = 2 verwendet werden. Die Funktion da und db, die wir danach definieren, können auch für den Fall g > 2 verwendet werden (hier benötigt man dann weitere Funktionen dc,..., die analog definiert werden). d[x_]:=(xa-xb).inverse[s].(x-(xa+xb)/2) d[{1,2}]

50 Seite 50 Diskriminanzanalyse Map[d,Y]//MatrixForm Eine Zuordnung ist auch über die im folgenden definierten Funktionen da und db möglich. Diese Methode läßt sich auch auf mehr als zwei Klassen erweitern. Hier wird ein Objekt x der ersten Klasse zugeordnet, falls der Funktionswert da[x] < db[x] ist und entsprechend wird es der zweiten Klasse zugeordnet, falls da[x] > db[x] ist. da[x] ist dabei das Quadrat der Mahalanobis Distanz des Objekt x von dem Klassenmittel xa und db[x] ist entsprechend das Quadrat der Mahalanobis Distanz des Objekt x von dem Klassenmittel xb. Ein Objekt wird demnach der Klasse zugeordnet, zu deren Mittel es die geringste Mahalanobis Distanz aufweist. da[x_]:=(x-xa).inverse[s].(x-xa) db[x_]:=(x-xb).inverse[s].(x-xb) Würde man die Diskriminanzfunktion in mathematischer Notation schreiben, so hätte diese die folgende gestalt: f x 1 x x e a t 1 1/ 2( ) ( a ) k ( 2) Wie zu sehen ist, entspicht die Funktion da, bis auf den Faktor 1/2 dem Exponenten der zweidimensionalen Normalverteilungsdichte (nur daß die in der Praxis meist unbekannte Varianz-Kovarianzmatrix durch ihre Schätzung S ersetzt wurde und durch die Schätzung xa). Diese Dichtefunktion nimmt genau dann ihren maximalen Wert an, falls da minimal ist (ML Methode). Oft wird die Diskriminanzfunktionen da (analoges gilt für db) umgeformt und danach das quadratische Glied xa t S -1 xa (Mathematica xa.inverse[s].xa) entfernt, welches bei allen Diskriminanzfunktionen (hier bei beiden) vorkommt. da kann dann auch wie folgt dargestellt werden: da[x_]:=-2xa.inverse[s].x + xa.inverse[s].xa Weil wir die Vektoren in Mathematica als Listen definiert haben ({x1,x2}) und nicht als Spaltenvektor ({{x1},{x2}}), können wir die quadratischen Formen in der oberen Funktion wie oben zu sehen ist darstellen. Sonst müßten wir z.b. Transpose[xa].Inverse[S].xa schreiben. Wir berechnen als Beispiel die Funktionswerte der Funktion da und db für das Objekt x = {1,2}. da[{1,2}] a

51 Diskriminanzanalyse Seite db[{1,2}] {1,2} wird also der zweiten Klasse zugeordnet, da db[{1,2}] < da[{1,2}] ist. Im nächsten Schritt berechnen wir die Mahalanobis Distanz der beiden Klassenmitten xa und xb. Danach wenden wir die beiden Funktionen auf unsere Datenmatrix Y an und kommen natürlich zur gleichen Zuordnung wie zuvor. Entsprechend könnten beide Funktionen auf eine neue Datenmatrix angewendet werden, womit die Objekte den Klassen zugeordnet werden könnten. db[xa] {Map[da,Y],Map[db,Y]}//Transpose//MatrixForm Nun berechnen wir die Wahrscheinlichkeit dafür, daß ein Objekt der ersten Klasse fälschlicherweise der zweiten Klasse zugeordnet wird. z=-sqrt[db[xa]]/ Needs["Statistics`Master`"] pab=pba=cdf[normaldistribution[0,1],z] Wie zu sehen ist, ist diese Wahrscheinlichkeit nicht sehr klein. Nun wollen wir noch die Werte der Datenmatrix Y und die Trennfläche grafisch darstellen. Die Trennfläche stellt eine Hyperebene dar. Bei mehr als zwei Klassen gibt es entsprechend mehrere Trennflächen. Die Trennfläche erfüllt die folgende Bedingung: Solve[da[{x1,x2}]==db[{x1,x2}],{x1,x2}]//Simplify

52 Seite 52 Diskriminanzanalyse {{x1-> x2}} Needs["Graphics`ImplicitPlot`"] Needs["LinearAlgebra`MatrixManipulation`"] Yt=Transpose[Y]; n1=3; Y1=Transpose[ColumnTake[Yt,n1]] {{5,8},{10,9},{4,2}} Y2=Transpose[ColumnTake[Yt,{n1+1,n}]] {{1,2},{2,1},{1,3}} ImplicitPlot[da[{x1,x2}]==db[{x1,x2}],{x1,0,20},{x2,0,10}, PlotStyle->{RGBColor[1,0,0],Thickness[0.007]}, Prolog->{{PointSize[0.02],RGBColor[0,1,0],Map[Point,Y1]}, {PointSize[0.02],RGBColor[0,0,1],Map[Point,Y2]}}] Kommen wir zur Methode von Fischer. Diese liefert uns die folgenden Diskriminanzfunktion (Fischer[x]) für den Spezialfall g = 2.

53 Diskriminanzanalyse Seite 53 a=inverse[w].(xa-xb) { `, `} Fischer[x_]:=a.(x-1/2(xa+xb)) Dabei wird das Objekt x der ersten Klasse zugeordnet, falls Fischer[x]>0 und falls Fischer[x]<0 ist, wird dieses Objekt der zweiten Klasse zugeordnet. Falls Fischer[x] = 0 kann die Zuordnung willkürlich vorgenommen werden. Wir berechnen die Funktionswerte der Diskriminanzfunktion von Fischer für jede Beobachtung. Map[Fischer,Y] { , , , , , } Bemerkungen: Der Vektor a ergibt sich durch Maximieren des Ausdrucks (in mathematischer Notation): Q a t ( a ( xa xb )) ( ) t a Wa 2 Für den Spezialfall g = 2 ist die Methode nach Fischer äquivalent zur ML-Methode. (Unten verwenden wir die Matrix S anstelle von W zur Definition der Diskriminanzfunktion nach Fischer. Dies hat keinen Einfluß auf die Entscheidungsregeln, denn die beiden Matrizen unterscheiden sich nur durch den Faktor (n-g)): a = -xbl , < a.h8x1, x2< - 12 Hxa +xbll Expand x x2 x2<d Expand x x2 Äquivalent ist natürlich auch die Berechnung der Diskriminanzfunktion d mit da und db: x2<d x2<dl *H L Expand Chop

54 Seite 54 Diskriminanzanalyse x x2 Diese Funktion erhalten Sei auch, falls Sie die beiden Spalten in der SPSS Ausgabe (unter der Überschrift Klassifizierungskoeffizienten) subtrahieren. 2.) Für den Fall g>2 werden wir im zweiten Beispiel zur Definition der Diskriminanzfunktionen anstelle des Vektor a eine Matrix a (diese bezeichnen wir in Mathematica ausnahmsweise mit kleinem a) verwenden, deren Zeilen die Eigenvektoren der Matrix W -1 Zw enthält. Man kann dann über diese Matrix Diskriminanzfunktionen nach Fischer bestimmen, indem man nur den Eigenvektor verwendet, der zum größten Eigenwert gehört (Marinell), oder man verwendet - wie wir später - alle Eigenvektoren (Fahrmeier et al.). Allgemein ist die lineare Diskriminanzfunktion nach Fischer definiert durch t a x i. Dabei ist a i ein Vektor, der die Funktion ( t a Zw a a) t maximiert. Mit den Methoden der Analysis kann a W a gezeigt werden, daß die obere Funktion durch die Eigenvektoren der Matrix W -1 Zw lokal maximiert wird. Dabei ist der Eigenwert des Eigenvektors. Somit ist die obere Funktion für den Eigenvektor des maximalen Eigenwertes maximal. Für den Fall g=2 definieren wir nun diese Funktion in Mathematica in unserem Beispiel. ( ) a i i a i a i a2_d = 8a1, a2<. Zw. 8a1, a2< 8a1, a2<. W. 8a1, a2< Cancel 37.5 a a1 a a a a1 a a2 2 Wir bestimmen nun den Gradienten: a2_<d = a2d, a1d, a2d, a2d< Evaluate Together : a12 a a1 a a2 3 H a a1 a a2 2 L 2, a a1 2 a a1 a2 2 H a a1 a a2 2 L 2 > Wie wir im folgenden sehen, maximiert unser auf die folgende Art bestimmter Vektor a (und alle seine Vielfachen) die obere Funktion (auf die Prüfung der negativ Definitheit der Hessematrix verzichten wir an dieser Stelle). a = -xbl

55 Diskriminanzanalyse Seite , < ad Chop 80, 0< Analoges gilt für die Verwendung der Eigenvektoren von W -1 Zw : a = ZwD , <, , << Chop 80, 0< Chop 80, 0< Kommen wir zum Beispiel mit drei Klassen (g = 3) und definieren zunächst die Designmatrix X. Die Datenmatrix Y bleibt unverändert. Wir erweitern hier den Ansatz von Fischer für g > 2. Wir berechnen dann wie zuvor die Klassenmittel der Gruppen (B) und die Matrizen der Varianzzerlegung (W, T und Zw). X={{1,0,0},{1,0,0},{0,1,0},{0,1,0},{0,0,1},{0,0,1}}; X//MatrixForm i y k { B=Inverse[Transpose[X].X].Transpose[X].Y; B//MatrixForm//N T=Transpose[(Y-Mittel)].(Y-Mittel); T//MatrixForm

56 Seite 56 Diskriminanzanalyse W=Transpose[Y-X.B].(Y-X.B)//N; W//MatrixForm Zw=T-W; Zw//MatrixForm Die drei Diskriminanzfunktionen f[{x1,x2}][[1]], f[{x1,x2}][[2]] und f[{x1,x2}][[2]], werden nun mit den Eigenvektoren der Matrix Inverse[W].Zw bestimmt. a=eigenvectors[inverse[w].zw] {{ , },{ , }} f[{x1_,x2_}]:=apply[plus,(a.({x1,x2}-transpose[b]))^2]//expand f[{x1,x2}] In der Literatur werden die obere Diskriminanzfunktionen auch nur über den Eigenvektor definiert, der zum größten Eigenwert gehört. Bezeichnen wir diesen mit b (=a[[1]]), so hätte die Funktion wie folgt definiert werden müssen: f[{x1_,x2_}]:=b.({x1,x2}-transpose[b]). Die Zuordnung eines neuen Objektes zu einer Klasse erfolgt nun, wie wir es bereits im Fall von zwei Klassen beschrieben haben. Ein Objekt x wird demnach der j-ten Klasse zugeordnet, falls f[x][[j]] der kleinste Funktionswerte (unter den Funktionswerten f[x][[1]] bis f[x][[3]]) ist. Wir wenden nun die Diskriminanzfunktionen auf die Datenmatrix Y an, womit wir die Matrix Df der Funktionswerte der drei Diskriminanzfunktionen (für jedes Objekt) erhalten. Auf diese Art können die Diskriminanzfunktionen auf neue Daten angewendet werden. Dieses Verfahren ist so programmiert, daß es bei beliebig vielen Klassen angewendet werden kann. Df=Map[f,Y]; Df//MatrixForm

57 Diskriminanzanalyse Seite 57 Wir erhalten also wieder eine Zuordnung entsprechend unserer Designmatrix X, d.h. die ersten beiden Objekte werden der ersten Klasse, die nächsten beiden der zweiten und die letzten beiden der dritten Klasse zugeordnet. Nun definieren wir eine Funktion Z, mit der die Zuordnung eines Objektes der Datenmatrix Y über die Matrix Df bestimmt werden kann. Wir erhalten eine Liste mit den Zuordnungen entsprechend den minimalen Funktionswerten der Diskriminanzfunktionen. Z[x_]:=1/;Min[x]==x[[1]] Z[x_]:=2/;Min[x]==x[[2]] Z[x_]:=3/;Min[x]==x[[3]] Map[Z,Df] {1,1,2,3,2,3} Nun wollen wir die Trennflächen und die Wertepaare der Datenmatrix Y wieder grafisch darstellen. Yt=Transpose[Y]; ni=apply[plus,x] {2,2,2} Y1=Transpose[ColumnTake[Yt,ni[[1]]]] {{5,8},{10,9}} Y2=Transpose[ColumnTake[Yt,{ni[[1]]+1,ni[[1]]+ni[[2]]}]] {{4,2},{1,2}} Y3=Transpose[ColumnTake[Yt,{ni[[1]]+ni[[2]]+1,n}]] {{2,1},{1,3}} G1=ImplicitPlot[ {f[{x1,x2}][[1]]==f[{x1,x2}][[2]], f[{x1,x2}][[1]]==f[{x1,x2}][[3]],

58 Seite 58 Diskriminanzanalyse f[{x1,x2}][[2]]==f[{x1,x2}][[3]]}, {x1,0,15},{x2,0,10}, PlotStyle->{RGBColor[1,1,0],RGBColor[0,1,1],RGBColor[1,0,1]}, DisplayFunction->Identity] Show[G1,Graphics[{{PointSize[0.02],RGBColor[1,0,0], Map[Point,Y1]}, {PointSize[0.02],RGBColor[0,1,0],Map[Point,Y2]}, {PointSize[0.02],RGBColor[0,0,1],Map[Point,Y3]}}], DisplayFunction->$DisplayFunction] Zum Schluß möchten wir die Wahrscheinlichkeiten dafür bestimmen, daß ein Objekt der i-ten Klasse fälschlicherweise der j-ten Klasse zugeordnet wird. z=-table[sqrt[f[b[[j]]][[i]]]/2,{i,1,3},{j,i+1,3}] {{ , },{ },{}} Needs["Statistics`Master`"] pij=pji=cdf[normaldistribution[0,1],z] {{ , },{ },{}} Die Wahrscheinlichkeit dafür, daß ein Objekt der ersten Klasse der zweiten oder dritten Klasse zugeteilt wird, ist ziemlich gering. Am größten ist die Wahrscheinlichkeit dafür, daß ein Objekt der zweiten Klasse der dritten Klasse zugeteilt wird (35,1215%).

59 Diskriminanzanalyse Seite 59 Mit der Multivariaten Varianzanalyse könnte nun untersucht werden, ob sich die Gruppen signifikant unterscheiden. Literatur: [4], [9]

60 Seite 60 Diskriminanzanalyse 3.1 SPSS Die Daten in SPSS: Wählen Sie Statistik Klassifizieren Diskriminanzanalyse und dann entsprechend (wie unten) die Variablen aus. Für die Variable x müssen Sie den Bereich der Kategorien festlegen mit Bereich definieren.

61 Diskriminanzanalyse Seite 61 Dann: Weiter Nun müssen Sie noch Klassifizieren und Fallweise Ergebnisse wählen. Hierzu wird jedes Objekt (jede Datenzeile) einer Klasse zugeordnet. Hat man ein weiteres Objekt, welches einer Klasse zugeordnet werden soll, so läßt man entweder die Zuordnung über die Variable x offen, oder Sie wählen für x in dieser Datenzeile einen Wert, der nicht innerhalb des oberen Bereichs liegt (z.b. in unserem Fall x = 3). Damit zusätzlich die Diskriminanzfunktion nach Fischer ausgegeben wird, müssen sie noch Statistik wählen und dort Fischer. Danach: Weiter OK Sie erhalten die Ausgabe:

62 Seite 62 Diskriminanzanalyse Gruppenstatistik X 1 2 Gesamt Y2 Y1 Y2 Y1 Y2 Y1 Gültige Werte (listenweise) Ungewichtet Gewichtet 3 3, , , , , ,000 Eigenwerte Funktion 1 % der Kumulierte Kanonische Eigenwert Varianz % Korrelation 1,773 a 100,0 100,0,800 a. Die ersten 1 kanonischen Diskriminanzf unktionen werden in dieser Analyse verwendet. Wilks' Lambda Test der Funktion(en) 1 Wilks-Lambda Chi-Quadrat df Signifikanz,361 3,060 2,217 Standardisierte kanonische Diskriminanzfunktionskoeffizienten Y2 Y1 Funktion 1,123,915 Struktur-Matrix Y1 Y2 Funktion 1,996,720 Gemeinsame Korrelationen innerhalb der Gruppen zwischen Diskriminanzv ariablen und standardisierten kanonischen Diskriminanzfunktionen Variablen sind nach ihrer absoluten Korrelationsgröße innerhalb der Funktion geordnet.

63 Diskriminanzanalyse Seite 63 Funktionen bei den Gruppen-Zentroiden X 1 2 Funktion 1 1,087-1,087 Nicht-standardisierte kanonische Diskriminanzfunktionen, die bezüglich des Gruppen-Mittelwertes bewertet werden A-priori-Wahrscheinl ichkeiten der Gruppen X 1 2 Gesamt In der Analyse v erwendete Fälle A-priori Ungewichtet Gewichtet, ,000, ,000 1, ,000 Klassifizierungsfunktionskoeffizienten X 1 2 Y1,942 8,028E-02 Y2,314,217 (Konstant) -4,671 -,964 Lineare Diskriminanzfunktionen nach Fisher Wenn Sie die Diskriminanzfunktion erhalten wollen, die wir mit Mathematica bestimmt haben, so müssen Sie die Spalten der oberen Tabelle subtrahieren, womit Sie die Koeffizienten der Diskriminanzfunktion nach Fischer (für den Fall g = 2) erhalten. Unten finden Sie einetabelle, in der die Gruppenzugehörigkeit in der zweiten Spalte zu sehen ist. In der dritten Spalte steht die vorhergesagte Gruppenzugehörigkeit. Wie zu sehen ist, wird wie in Mathematica bereits gesehen, das dritte Objekt der zweiten Gruppe zugeordnet, obwohl es zur ersten Gruppe gehört.

64 Seite 64 Diskriminanzanalyse Fallweise Statistiken Höchste Gruppe Zweithöchste Gruppe Diskrimin anzwerte Original Fallnummer **. Falsch klassif izierter Fall Quadrierter Quadrierter Tatsächliche Vorhergesagte Mahalanobis-Abstand Mahalanobis-Abstand Gruppe Gruppe zum Zentroid Gruppe zum Zentroid Funktion 1 1 1, ,960, , ,037 2, ** 1, ,249 -, , ,321-1, , ,822 -, , ,117-1,175 Zusammenfassung der Verarbeitung von Klassifizierungen Verarbeitet Ausgeschlossen In der Ausgabe v erwendet Fehlende oder außerhalb des Bereichs liegende Gruppencodes Wenigstens eine Diskriminanzv ariable fehlt

65 Clusteranalyse Seite 65 4 Clusteranalyse In diesem Kapitel beziehen wir uns auf die gängigste Methode der Clusteranalyse, die sogenannte K-Means Clusteranalyse. Die Clusteranalyse gestattet es, Objekte (das entspricht einzelnen Datensätzen) nach ihren Merkmalen in sogenannten Clustern bzw. Klassen zusammenzufassen. Die Clusteranalyse ist somit ein Verfahren zur Klassifizierung. Wir hatten bereits mit der Diskriminanzanalyse ein Verfahren zur Klassifizierung vorgestellt. Der Unterschied in den beiden von uns vorgestellten Verfahren besteht darin, daß bei der Diskriminanzanalyse zunächst die Gruppenzugehörigkeit bekannt sein muß. Danach können neue Objekte den bestehenden Gruppen zugeordnet werden. Bei der Clusteranalyse sind die Gruppenzugehörigkeiten zunächst unbekannt und diese sollen ermittelt werden. Es sollen dabei jeweils diejenigen Objekte der selben Klasse zugeordnet werden, die ähnliche Merkmalsausprägungen aufweisen. Bei der K-Means Clusteranalyse muß zunächst die Anzahl der Cluster festgelegt werden. Danach werden die Klassenmitten festgelegt. Dabei kann man z.b. so vorgehen, daß man die Objekte als Klassenmitten auswählt, die sich am meisten unterscheiden. Je nachdem wie man die Clustermitten zu Beginn der Iteration wählt, können sich unterschiedliche Cluster am Ende der Iteration ergeben. Als Distanz zwischen zwei Objekten wird der euklidische Abstand zwischen den Objekten verwendet. Danach werden jeweils die Objekte einer Klasse zugeordnet, deren Distanz zur jeweiligen Klassenmitte am geringsten ist. Sobald alle Objekte auf diese Weise einer Klasse zugeordnet wurden, werden zu jeder Klasse die Klassenmittel (über die arithmetischen Mittel) bestimmt und diese als neue Klassenmitten definiert. Danach werden die Objekte erneut den Klassen zugeordnet. Diese Iteration wird so lange wiederholt, bis die neueste Klasseneinteilung mit der Klasseneinteilung aus dem vorhergehenden Iterationsschritt übereinstimmt. Dann ist die Iteration beendet. Somit erhält man Klassen, die die kleinste Streuung innerhalb der Klasse aufweisen. Ob sich die Klassen signifikant unterscheiden, kann dann mit der multivariaten Varianzanalyse untersucht werden. Wir beginnen in unserem Mathematica-Programm mit der Festlegung der Datenmatrix V. Damit bei der Berechnung der Distanzen nicht diejenigen Variablen den größten Einfluß haben, die die größten Varianzen aufweisen, müßte die Datenmatrix zuvor standardisiert werden. Wir verzichten im folgenden Beispiel auf diesen Schritt. Die Standardisierung der Datenmatrix vor der Durchführung der Clusteranalyse ist immer dann nicht nötig, wenn es sich um Merkmale handelt, die in der gleichen Einheit erfaßt wurden, z.b. falls alle Variablen Längen in Meter erfassen, oder auch falls es sich um Noten oder Punktzahlen handelt, bei denen die minimal und maximal zu erreichenden Punktzahlen jeweils gleich sind. Wie die Datenmatrix standardisiert werden kann, wird im Kapitel zur Faktorenanalyse gezeigt.

66 Seite 66 Clusteranalyse 4.1 Bestimmung der Cluster Wir gehen in diesem Beispiel davon aus, daß zwei Cluster K1 und K2 existieren. Bei den Spalten der Datenmatrix V könnte es sich z.b. um Punktzahlen von Schülern in drei verschiedenen Fächern handeln. Mit der Clusteranalyse können die Schüler dann, je nach Stärken bzw. Schwächen in bestimmten Fächern (die einen sind zum Beispiel in den naturwissenschaftlichen Fächern besser, während die anderen in den sprachlichen Fächern besser sind), in zwei Gruppen unterteilt werden. Dabei ist die Unterteilung über die Euklidische Distanz besser, als wenn die Schüler nur nach ihren Durchschnittsnoten verglichen werden. Würde man bei beispielsweise 4 Merkmalen den Mittelwert über die Merkmale als Unterscheidungskriterium wählen, so könnte folgender Fall eintreten: Die Schüler, die in Deutsch und Englisch 10 Punkte und in Mathematik und Physik 2 Punkte haben, werden dem selben Cluster zugeteilt, wie die Schüler, die in Mathematik und Physik 10 Punkte und in Deutsch und Englisch 2 Punkte haben. Denn diese haben die gleichen Durchschnittspunktzahlen in den 4 Fächern. Man kann demnach mit der K- Means Clusteranalyse die Cluster besser unterscheiden, als wenn man dies nur über die Mittelwerte versucht. Wir beginnen nun mit der Definition der Datenmatrix V: V={{1,5,1},{2,8,2},{4,4,5},{5,8,9},{6,9,4}}; V//MatrixForm Nun definieren wir mit der Funktion Distance die euklidische Distanz zwischen zwei Objekten A und B, indem wir die über die Euklidische Norm induzierte Metrik verwenden (dabei werden die Ausprägungen jeweils voneinander subtrahiert und quadriert. Aus der Summe der Quadrate wird dann die Quadratwurzel gezogen). Danach übergeben wir in die Matrix DM die Distanzen der einzelnen Objekte: Distance[A_,B_]:=Apply[Plus,(B-A)^2]^(1/2) n=length[v] DM=Table[Table[Distance[V[[i]],V[[j]]],{j,1,n}],{i,1,n}]; DM//N//MatrixForm

67 Clusteranalyse Seite 67 Wollten wir nun die ersten Klassenmitten nicht willkürlich auswählen, sondern über die Objekte definieren, die sich am meisten unterscheiden bzw., die die größte Distanz aufweisen, so könnten wir wie folgt vorgehen. Wir speichern die maximale Distanz in der Variable MA. Danach speichern wir die beiden Objekte mit der maximalen Distanz in der Matrix Z. Da die Distanzmatrix symmetrisch ist, überprüfen wir nur die obere Hauptdiagonale der Matrix DM. Es könnten natürlich auch drei oder mehr Objekte mit dieser maximalen Distanz existieren. Wir geben dann später die ersten beiden Objekte in der Matrix Z als Klassenmitten aus. MA=Max[DM]; MA//N Z=Flatten[Table[Table[If[MA==DM[[i,j]],{V[[i]],V[[j]]},{}],{j,i+1,n}],{i,1,n}],2]; Z=Union[Z]; Z//MatrixForm Die von uns gezeigte Methode zur Bestimmung der anfänglichen Clusterzentren ist die gängigste. Man kann diese aber auch willkürlich festlegen. Wir wollen nun die gleichen (Anfangs-)Clusterzentren wie SPSS wählen, und definieren deshalb: Z={{5,8,9},{2,8,2}}; Z//MatrixForm Nun kommen wir zur Zuordnung der Objekte in die beiden Klassen K1 und K2. Hierbei werden zunächst die Klassen als leere Mengen definiert. Danach wird ein Objekt der Klasse zugeordnet, zu deren Mitte es die geringste Distanz aufweist. Sollte die Distanzen zu beiden Klassenmitten gleich sein, so wird das Objekt willkürlich der ersten Klasse zugeteilt. K1={};K2={}; Do[If[Min[{Distance[V[[i]],Z[[1]]],Distance[V[[i]],Z[[2]]]}]== Distance[V[[i]],Z[[1]]], K1=Append[K1,V[[i]]],K2=Append[K2,V[[i]]]],{i,1,n}]; Es ergeben sich die folgenden beiden Klassen: K1//MatrixForm K2//MatrixForm

68 Seite 68 Clusteranalyse Nun ist der erste Iterationsschritt beendet. Wir bestimmen nun die Klassenmitten neu über die Mittelwerte innerhalb der Klassen und speichern diese in der Matrix Z (hier könnte auch ein anderer Matrixname verwendet werden, falls die alten Klassenzentren später noch gebraucht würden): Z={Apply[Plus,K1]/Length[K1],Apply[Plus,K2]/Length[K2]}; Z=Union[Z]; Z//N//MatrixForm Nun werden die Klassen wieder neu bestimmt und ausgegeben: K1={};K2={}; Do[If[Min[{Distance[V[[i]],Z[[1]]],Distance[V[[i]],Z[[2]]]}]== Distance[V[[i]],Z[[1]]], K1=Append[K1,V[[i]]],K2=Append[K2,V[[i]]]],{i,1,n}]; K1//MatrixForm K2//MatrixForm Wie zu sehen ist, haben sich die Klassen nicht verändert. Somit ist die Iteration abgeschlossen. Im Folgenden geben wir die Distanzen aller Objekt zu den Klassenmitten aus: Table[{Distance[V[[i]],Z[[1]]],Distance[V[[i]],Z[[2]]]},{i,1,n}]// MatrixForm//N

69 Clusteranalyse Seite 69 Bemerkung: Bei großen Datensätzen könnten auch die Klassen K1 und K2 jeweils mit einem Index für den Iterationsschritt versehen werden (K1[1] und K2[1] für den ersten Iterationsschritt, usw.). Damit könnten die Klassen zwischen zwei Schritten besser auf Gleichheit untersucht werden. Der Vergleich könnte dann über die Quadratsummen- Differenz erfolgen. Beispielsweise für den Vergleich der Klasse K1 zwischen dem ersten und dem zweiten Iterationsschritt: Apply[Plus,Apply[Plus,(K1[1]-K1[2])^2]] Falls diese Quadratsumme gleich Null ist, so ist die erste Klasse aus dem ersten Iterationsschritt K1[1] mit der aus dem zweiten K1[2] identisch. Wie anhand der oberen Distanzmatrix zu erkennen ist, haben die ersten drei Objekte zum ersten Zentrum Z[[1]] eine minimale Distanz, während bei den letzten beiden Objekte beide die gleiche minimale Distanz zum zweiten Zentrum Z[[2]] aufweisen. Zwischen den Klassenmitten ergibt sich die folgende Distanz: Distance[Z[[1]],Z[[2]]]//N

70 Seite 70 Clusteranalyse 4.2 Vergleich der Cluster Im Rahmen der Inferenzstatistik ist von Interesse, ob sich die Klassen signifikant unterscheiden. Dies überprüfen wir unter Verwendung der multivariaten Varianzanalyse. Hierzu müssen wir zunächst eine Zuordnungstabelle Zuordnung definieren, die die einzelnen Objekte der jeweiligen Klasse zuteilt. Diese Zuordnungstabelle stellt einen Vektor dar, der an der i-ten Stelle eine Eins aufweist, falls das i-te Objekt der Datenmatrix V zur ersten Klasse gehört. Falls es zur zweiten Klasse gehört, steht dort eine Zwei. Danach definieren wir mit dieser Tabelle die Designmatrix X: Zuordnung=Table[If[Min[{Distance[V[[i]],Z[[1]]], Distance[V[[i]],Z[[2]]]}]==Distance[V[[i]],Z[[1]]],1,2],{i,1,n}]; Zuordnung//MatrixForm k=2; (* Anzahl der Klassen = k *) X=Table[Table[If[Zuordnung[[i]]==j,1,0],{j,1,k}],{i,1,n}]; X//MatrixForm Mit der Designmatrix X bestimmen wir den Schätzer B, der mit der Matrix Z der Klassenmitten identisch ist. B=Inverse[Transpose[X].X].Transpose[X].V; B//MatrixForm//N Im Folgenden berechnen wir die Matrizen der Varianzzerlegung T, Zw und W, die Teststatistik der multivariaten Varianzanalyse Wilk s (Lambda) und mit dieser die Realisierung der approximativ F-verteilten zufälligen Größe f, mit der wir den Test durchführen: W=Transpose[V-X.B].(V-X.B); W//MatrixForm//N

71 Clusteranalyse Seite 71 Als Hilfsgrößen benötigen wir den Vektor der Gesamtmittel, sowie die Matrix M der Gesamtmittel: Gesamtmittel=Apply[Plus,V]/Length[V]; Gesamtmittel//N {3.6,6.8,4.2} M=Table[Gesamtmittel,{n}]; M//N//MatrixForm T=Transpose[(V-M)].(V-M); T//N//MatrixForm Zw=T-W; Zw//N//MatrixForm Lambda=Det[W]/Det[T]; Lambda//N t=length[transpose[v]] (* Anzahl der Variablen *) 3 n1 = t*(k - 1); s = Sqrt[(t^2*(k - 1)^2-4)/(t^2 + (k - 1)^2-5)]; n2 = s*(n (t + k)/2) - (t*(k - 1) - 2)/2; f = (1 - Lambda^(1/s))/Lambda^(1/s)*n2/n1;

72 Seite 72 Clusteranalyse f//n Needs["Statistics`Master`"] Prob=1-CDF[FRatioDistribution[n1,n2],f]//N Wie zu sehen ist, kann kein signifikanter Unterschied zwischen den Clustern nachgewiesen werden (Prob > 0,05). Die meisten Statistik-programmpakete geben zusätzlich die univariaten F-Tests der Varianzanalyse aus. Diese wollen wir zum Schluß noch programmieren. Dazu berechnen wir die Quadratsummen der Varianzzerlegung GesSoS (Gesamtstreuung der Objekte), ClusterSoS (Streuung innerhalb der Cluster) und ErrorSoS (Streuung zwischen den Clustern). Diese Werte müssen nicht neu berechnet werden, da Sie in den Hauptdiagonalen der Matrizen zur Varianzzerlegung stehen. ErrorSoS=Table[W[[i,i]],{i,1,t}]; ErrorSoS//N {14.75,17,10} ClusterSoS=Table[Zw[[i,i]],{i,1,t}]; ClusterSoS//N {2.45,1.8,28.8} GesSoS=Table[T[[i,i]],{i,1,t}]; GesSoS//N {17.2,18.8,38.8} Es folgen die univariaten Prüfgrößen in der Liste funi: funi=(clustersos/(k-1))/(errorsos/(n-k)); funi//n { , ,8.64} Probs=1-CDF[FRatioDistribution[k-1,n-k],funi]//N { , , } Bei keinem Merkmal kann ein Unterschied zwischen den Clustern nachgewiesen werden (Probs > 0,05).

73 Clusteranalyse Seite 73 Es sei noch bemerkt, daß wir die oberen Tests programmiert haben, da sie von SPSS in der Ausgabe zur Clusteranalyse erscheinen. Die Varianzanalyse ist aber an diese Stelle geeignet, Unterschiede festzustellen, da zuvor mit Hilfe der Clusteranalyse eine Zuordnung der Gruppen derart stattfindet, daß ein minimaler Abstand zum Klasenmittel besteht. Aus diesem Grund werden durch die Zuordnung die Streuungen innerhalb der Gruppen minimiert. Literatur: [1],[4],[6]

74 Seite 74 Clusteranalyse 4.3 SPSS Im folgenden Bild sind die Daten im SPSS-Fenster zu sehen: Wählen Sie nun Statistik Klassifizieren Clusterzentrenanalyse. Wir wollen die Clusterzugehörigkeit und die Distanz von den Zentren speichern und wählen deshalb Speichern im unteren Menü die beiden Optionen.

75 Clusteranalyse Seite 75 Danach müssen Sie Weiter wählen. Wir möchten nun auch die Tabellen der Varianzanalysen ausgeben und wählen deshalb im unter Menü, welches Sie mit Optionen erhalten, alle Optionen unter der Überschrift Statistik (siehe unten). Dann erhalten Sie wieder die Ausgabe mit Weiter und OK. Anfängliche Clusterzentren X1 X2 X3 Cluster

76 Seite 76 Clusteranalyse Iteration 1 2 Iterationsprotokoll a Änderung in Clusterzentren 1 2,000 2,194,000,000 a. Erzielte Konv ergenz aufgrund keiner oder geringer Distanzänderung. Die maximale Distanz, um die ein Zentrum v erändert wurde, ist,000. Die aktuelle Iteration ist 2. Die minimale Distanz zwischen anf änglichen Zentren ist 7,616. Cluster-Zugehörigkeit Fallnummer Cluster Distanz 2 3, , ,288 1, ,849 Clusterzentren der endgülti gen Lösung X1 X2 X3 Clust er Distanz zwischen Clusterzentren der endgültigen Lösung Cluster ,427 6,427

77 Clusteranalyse Seite 77 X1 X2 X3 Cluster ANOVA Fehler Mittel der Mittel der Quadrate df Quadrate df F Sig. 2, ,917 3,498,531 1, ,667 3,318,612 28, , ,640,061 Die F-Tests sollten nur f ür beschreibende Zwecke verwendet werden, da die Cluster so gewählt wurden, daß die Diff erenzen zwischen Fällen in unterschiedlichen Clustern maximiert werden. Dabei werden die beobachteten Signif ikanzniveaus nicht korrigiert und können daher nicht als Tests für die Hy pothese der Gleichheit der Clustermittelwerte interpretiert werden. Anzahl der Fälle in jedem Cluster Cluster Gültig Fehlend 1 2 1,000 4,000 5,000,000 Im unteren Fenster sehen Sie, daß SPSS zwei Variablen hinzugefügt hat. Die erste Variable enthält die bestimmte Clusterzugehörigkeit und die zweite Variable enthält die Distanz zum Zentrum.

78 Seite 78 Faktorenanalyse 5 Faktorenanalyse Ziel der Faktorenanalyse ist es, die Anzahl der Variablen auf wenige voneinander unabhängige Faktoren zu reduzieren und dabei möglichst viel an Information zu erhalten. Hier wird davon ausgegangen, daß die Ausgangsvariablen mit latenten Variablen, den sogenannten Faktoren, korrelieren. Bestimmte Variabeln werden stärker mit bestimmten Faktoren korrelieren als andere. Handelt es sich beispielsweise um Daten aus der Psychologie oder den Sozialwissenschaften, so können die entsprechenden Ausgangsvariablen zu Gruppen zusammengefaßt werden. Die Interpretaion der entsprechenden Faktoren ist eine Angelegenheit des Psychologen bzw. Sozialwissenschaftlers. Bei einer Untersuchung (zum Beispiel im Rahmen eines psychologischen Tests) könnten die einzelnen Faktoren als bestimmte latente Persönlichkeitseigenschaften interpretiert werden. Eine Faktorenanalyse ist auch sinnvoll, falls im Rahmen einer Regressionsanalyse der Einfluß mehrerer unabhängiger Variablen auf eine abhängige Variable untersucht werden soll. Oft kommt es vor, daß die unabhängigen Variablen in der Modellgleichung untereinander korrelieren. Hier könnte zunächst eine Faktorenanalyse mit diesen Variablen durchgeführt werden. Die Faktoren, die dabei extrahiert werden, könnten dann als neue unabhängige Variablen im Regressionsmodell verwendet werden. Wir gehen zunächst von dem folgenden Modell aus (Modell der Hauptkomponentenanalyse): Z = F L T F ist die unbekannte Faktorenmatrix (F ist eine orthogonale Matrix) und L die unbekannte Ladungsmatrix und L T deren Transponierte. Unser Modell ähnelt dem linearen Modell der Regressions- bzw. Varianzanalyse. Der Unterschied zum linearen Modell der Regressions- bzw. Varianzanalyse besteht darin, daß es zunächst keine Fehlermatrix E gibt und daß beide Matrizen auf der rechten Seite der Modellgleichung unbekannt sind. Die Matrix F entspricht dabei der Designmatrix X, und die Matrix L T entspricht der unbekannten Parametermatrix. Die Matrix Z ergibt sich aus der Datenmatrix Y, indem die Spalten von Y standardisiert werden (wie wird später gezeigt). Da wir von einem orthogonalen Faktorenmodell ausgehen, ergibt das Produkt der Matrizen F T F die Einheitsmatrix mit k Zeilen und Spalten. Im ersten Schritt bestimmen wir die beiden unbekannten Matrizen F und L vollständig, was in der Literatur als Hauptkomponentenanalyse bezeichnet wird. Im zweiten Schritt kommen wir zur eigentlichen Faktorenanalyse, wobei wir die Anzahl der Faktoren k reduzieren, die im ersten Schritt noch mit der Variablenanzahl p identisch ist, so daß wir mit diesen extrahierten Faktoren möglichst viel der Varianz der Datenmatrix Y bzw. Z erklären. Falls die Zahl der Faktoren (= Spaltenanzahl der Matrix F) nicht reduziert wird, erklärt das Modell die Daten vollständig (analog zur Regressionsanalyse Y = X mit E = 0 ). Werden k < p Faktoren extrahiert (i.a. über das Kaiserkriterium, das wir später erklären), so muß auf der rechten Seite der Modellgleichung noch die

79 Faktorenanalyse Seite 79 Fehlermatrix E hinzu addiert werden. Wir machen hierbei keine weiteren Verteilungsannahmen wie in der Regressions- und Varianzanalyse (es können aber auch Annahmen im Rahmen der Faktorenanalyse gemacht werden). Die Faktorenanalyse ist immer dann sinnvoll, wenn mehrere Variablen erfaßt wurden, die untereinander abhängig sind. Wir werden im Folgenden an einem Beispiel die Faktorenanalyse durchführen. Danach stellen wir noch einen Test vor, mit dem überprüft werden kann, ob die Ausgangsvariablen signifikant korrelieren. Dieser sollte in der Praxis zu Beginn einer Faktoren- oder Hauptkomponentenanalyse durchgeführt werden.

80 Seite 80 Faktorenanalyse 5.1 Hauptkomponentenanalyse In unserem Beispiel gehen wir davon aus, daß bei 5 Schülern die Benotung in den Fächern Mathematik (erste Spalte der Datenmatrix Y), Physik (zweite Spalte) und Biologie (dritte Spalte) in Punktzahlen erfaßt wurden: Y = {{8, 10, 7}, {12, 8, 1}, {10, 8, 4}, {8, 10, 2},{9, 9, 4}}; Y//MatrixForm p=length[transpose[y]]; (* Variablenanzahl = p *) n = Length[Y]; (* Anzahl der Beobachtungen = n *) m=table[{1},{n}] ; Im Folgenden berechnen wir die standardisierte Datenmatrix Z und mit dieser die Korrelationsmatrix R. Dabei wird Z so standardisiert, daß R = Z T Z gilt. Zuvor müssen, wie üblich, einige Hilfsgrößen berechnet werden, wie z.b. die Matrix M der Spaltenmittelwerte von Y sowie die mit (n-1) multiplizierte empirische Varianz- Kovarianzmatrix, genannt COVYn: Ym=Flatten[Transpose[Y].m/n]; Ym//N {9.4,9.,3.6} M=Table[Ym,{n}]; M//MatrixForm//N COVYn=Transpose[Y-M].(Y-M); COVYn//MatrixForm//N Nun ergibt sich die empirische Varianz-Kovarianzmatrix COVY:

81 Faktorenanalyse Seite 81 COVY=COVYn/(n-1); COVY//MatrixForm//N Die Matrix rvyn dient ebenfalls als Hilfsgröße zur Standardisierung der Datenmatrix Y: rvyn=identitymatrix[3]/covyn; rvyn//matrixform//n Standardisierte Datenmatrix Z: Z = (Y - M).( rvyn^(1/2))//n; Z // MatrixForm Bemerkung: Üblicherweise wird die Datenmatrix Y so standardisiert, daß der Mittelwert jeder Spalte gleich Null und die empirische Varianz jeder Spalte gleich Eins ist. In diesem Fall haben wir die Datenmatrix so standardisiert, daß die empirische Varianz jeder Spalte gleich 1/(n-1) ist, sonst gilt nicht: R = Z T Z Nun wird die empirische Korrelationsmatrix R berechnet, wobei wir aber nicht mehr die exakten Werte in R übergeben, sondern die numerischen Werte (Z wurde oben numerisch übergeben). Sonst wird bei großen Datensätzen mit vielen Variablen die Berechnung der Eigenwerte und Eigenvektoren für das System zu aufwendig (was natürlich für Mathematica bei diesem kleinen Datensatz noch kein Problem darstellt): R=Transpose[Z].Z; R//MatrixForm

82 Seite 82 Faktorenanalyse Wie zu sehen ist, sind die Nebendiagonalelemente der Korrelationsmatrix R vom Betrag her recht groß. Man kann also davon ausgehen, daß die Ausgangsvariablen bivariat korreliert sind (was man natürlich mit einem Test zur bivariaten Korrelation untersuchen könnte). Hier wäre also eine Faktorenanalyse durchaus angebracht. Außerdem ist zu sehen, daß die erste Spalte der Datenmatrix mit den beiden anderen negativ korreliert, während die zweite mit der dritten Spalte positiv korreliert ist. Mit Hilfe der empirischen Korrelationsmatrix R kann nun die Ladungsmatrix L und mit ihr die Faktorenmatrix F berechnet werden. Da R = Z T Z gilt, folgt mit der Modellgleichung Z = F L T für R: R = (F L T ) T F L T = L F T F L T. Wegen der vorausgesetzten Orthogonalität von F gilt: R = L L T (1). Da R zumindest positiv semidefinit und somit diagonalähnlich ist, kann R wie folgt zerlegt werden: R = T Di T T (2), wobei T die Matrix ist, deren Spalten aus den orthonormierten Eigenvektoren von R bestehen (T ist demnach auch eine orthogonale Matrix, für die gilt T T T = I) und Di ist die Diagonalmatrix, die auf der Hauptdiagonalen die (reellen) Eigenwerte von R enthält. Somit ergibt sich die gesuchte Ladungsmatrix L = T Di 1/2, die der Bedingung (1) genügt. Wir berechnen nun die Matrix T der Eigenvektoren von R: T=Transpose[Eigenvectors[R]]; T//MatrixForm T enthält nun in den Spalten die Eigenvektoren von R, die bereits orthonormiert sind, wie man schnell mit der Eingabe von Transpose[T].T//Chop//MatrixForm

83 Faktorenanalyse Seite überprüfen kann. Wenn dies nicht der Fall wäre, hätten wir mit der Mathematica- Funktion GramSchmidt[T] die orthonormierten Vektoren berechnen lassen können (hierzu muß zuvor das Paket "LinearAlgebra`Orthogonalization`" geladen werden). Di ist Diagonalmatrix mit den Eigenwerten von R auf der Diagonalen. Diese erhält man, indem die Gleichung (2) nach Di aufgelöst wird: Di=Chop[Transpose[T].R.T]; Di//MatrixForm Nun kann die Ladungsmatrix L mit den Matrizen T und Di berechnet werden: L=T.(Di^0.5); L//MatrixForm Mit Hilfe der Ladungsmatrix kann die Korrelation der einzelnen Faktoren mit den Ausgangsvariablen bestimmt werden. Der erste Faktor korreliert mit der ersten Variable hoch negativ (-0,963485), mit der zweiten Variable hoch positiv (0,908608) und mit der dritten Variable etwas geringer, aber immer noch positiv (0,742844). Der dritte Faktor korreliert mit den drei Ausgangsvariablen erheblich geringer, wobei er mit der dritten Variable nur noch sehr gering korreliert (0, ). Nun berechnen wir noch die Matrix Kommunalität, auf deren Hauptdiagonalen die Kommunalitäten stehen. Die Kommunalitäten entsprechen der empirischen Korrelation aller Faktoren mit der jeweiligen Ausgangsvariablen. Diese kann auch als Anteil der Varianz definiert werden, die die gemeinsamen Faktoren im Verhältnis zur Gesamtvarianz einer Ausgangsvariable erklären. Dabei entspricht das erste Diagonalelement dem Anteil der Varianz, die die gemeinsamen Faktoren an der Varianz der ersten Variable erklären u.s.w.. Kommunalität=L.Transpose[L]; Kommunalität//MatrixForm

84 Seite 84 Faktorenanalyse Da wir eine Faktorenanalyse mit allen Faktoren durchgeführt haben, enthält unser Modell keine Fehlermatrix E. Deshalb befinden sich auf der Hauptdiagonalen der Kommunalitätenmatrix nur Einsen. Mit dieser Matrix wird nämlich die empirische Korrelationsmatrix R der Daten Y (bzw. die empirische Varianz-Kovarianzmatrix der standardisierten Datenmatrix Y) wie folgt zerlegt: R = Kommunalitätenmatrix + Residualmatrix (diese bezeichnen wir mit RE). Die Matrix RE besteht hier somit nur aus Nullen, und die Kommunalitätenmatrix ist identisch mit der Matrix R. Deshalb erklären die Faktoren die gesamte Varianz bezüglich (jeweils) jeder Variablen. Wenn wir im nächsten Schritt nur einige Faktoren extrahieren, so wird dies nicht mehr der Fall sein. Man wird natürlich daran interessiert sein, daß die Hauptdiagonalelemente der Kommunalitätenmatrix möglichst groß sind, so daß der Anteil der erklärten Varianz möglichst groß ist und die Residualmatrix möglichst geringe Hauptdiagonalelemente besitzt. Mit der vollständigen Ladungsmatrix L berechnen wir nun die Faktorenmatrix F mit allen Faktoren, denn aus der Modellgleichung Z = F L T folgt F = Z (L T ) -1 (3), womit wir die Faktorenmatrix berechnen könnten (nur falls mit allen Faktoren gerechnet wird, sonst ist L keine quadratische Matrix). Es gilt aber auch F = Z T D -1/2 = Z T D -1 T T T D 1/2, also F = Z R -1 L (4) Hiermit berechnen wir nun die Faktorenmatrix F: F=Z.Inverse[R].L; F//MatrixForm Von den meisten Statistikprogrammpaketen wird zusätzlich die Matrix (L T ) -1 bzw. R -1 L ausgegeben und mit Scores bezeichnet, da über diese mit Hilfe der standardisierten Datenmatrix Z direkt die Faktorenmatrix F berechnet werden kann (siehe (4)). Diese

85 Faktorenanalyse Seite 85 enthält also die Linearkombination, über die mit den Spalten der Matrix Z die Faktorenmatrix F berechnet werden kann. Scores=Inverse[Transpose[L]]; Scores//MatrixForm Man kann nun schnell nochmals überprüfen, ob die Fehlermatrix E nur aus Nullen besteht: Chop[Z-F.Transpose[L]]//MatrixForm Mit Hilfe der Eigenwerte der empirischen Korrelationsmatrix R können wir den Anteil der Varianz bestimmen, die der jeweilige Faktor (in Bezug auf die Gesamtvarianz der Ausgangsvariablen, bzw. der Datenmatrix Y) erklärt. Diesen Anteil berechnen wir in %: Eigenvalues[R]/p*100 { , , } Also erklärt der erste Faktor 76,8563% der Varianz der drei Variablen, der zweite 20,3975% und der dritte 2,74622%.

86 Seite 86 Faktorenanalyse 5.2 Extraktion von Faktoren (Faktorenanalyse) Sollen nun die Anzahl der Faktoren von k (= p = 3) auf k <p reduziert werden, so werden nur die Faktoren extrahiert, die möglichst viel Varianz erklären. Hierzu gibt es bestimmte Kriterien, wie z.b. das Kaiserkriterum, nach dem nur die Faktoren extrahiert werden, bei denen der entsprechende Eigenwert größer oder gleich 1 ist, denn nur dadurch wird mehr Varianz erklärt als durch eine der Ausgangsvariablen. Ein anderes Kriterium wählt so viele Faktoren aus, bis ein willkürlich festgesetzter Anteil an Varianz durch sie erklärt wird. Es kann zur Bestimmung der Faktorenanzahl k auch der Sphären-Test verwendet werden. Wir geben nun nochmals die Eigenwerte aus: Eigenvalues[R] { , , } Nach dem Kaiserkriterium müßten wir nur einen Faktor extrahieren, da nur der erste Faktor einen Eigenwert größer Eins besitzt. Wir wählen aber in unserem Beispiel k = 2 Faktoren aus, um möglichst viel Varianz zu erklären, denn diese zwei Faktoren erklären 76,8563% + 20,3975% = 97,2538 % der Varianz der Daten. Wir reduzieren nun Ladungsmatrix L auf die ersten beiden Spalten und nennen diese neue Ladungsmatrix Lk. Danach berechnen wir wie oben die (nun reduzierte) neue Faktorenmatrix Fk. Diese Vorgehensweise wird in der Literatur als die eigentliche Faktorenanalyse bezeichnet, während das Rechnen mit allen Faktoren noch der Hauptkomponentenanalyse entspricht. Lk=Transpose[{Transpose[L][[1]],Transpose[L][[2]]}]; Lk//MatrixForm Fk=Z.Inverse[R].Lk; Fk//MatrixForm

87 Faktorenanalyse Seite 87 Somit ergeben sich die neuen Kommunalitäten (Kommunalitätk): Kommunalitätk=Lk.Transpose[Lk]; Kommunalitätk//MatrixForm Betrachtet man die Hauptdiagonale der Matrix Kommunalitätk, so stehen hier noch relativ große Werte. Demnach erklären die zwei Faktoren 95,4281% der Varianz der ersten Variable, 96,6023% der zweiten und 99,731% der dritten Variable. Die im Folgenden berechnete Residualmatrix RE weist dementsprechend niedrige Werte auf der Hauptdiagonalen auf. Das Modell erklärt demnach die Daten recht gut. RE=R-Kommunalitätk; RE//MatrixForm Mit der Residualmatrix RE kann die Matrix der empirischen Einzelrestvarianzen U berechnet werden, denn diese hat die gleiche Hauptdiagonale wie die Matrix RE und besitzt auf der Nebendiagonalen nur Nullen: U=RE*IdentityMatrix[p]; U//MatrixForm Berechnen wir zum Schluß noch die Fehlermatrix Ey (wir müssen diese Ey anstatt E nennen, da E von Mathematica mit der Euler schen Zahl vorbelegt ist), die die absoluten Abweichungen des Modells von der standardisierten Datenmatrix Z enthält : Ey=Z - Fk.Transpose[Lk]; Ey//MatrixForm

88 Seite 88 Faktorenanalyse 5.3 Graphische Darstellung Es gibt einige Methoden, mit denen man die Ladungsmatrix L bzw. Lk transformieren kann, z.b. durch eine Rotation, indem die Ladungsmatrix L von rechts mit einer Rotationsmatrix multipliziert wird. Diese Rotation entspricht einer Drehung des Koordinatensystems des folgenden Ladungsplots. Hiermit sind die Ladungen oft grafisch besser zu interpretieren. Auf diese Transformationen gehen wir im einzelnen nicht ein. Wir wollen nun den sogenannten Ladungsplot erzeugen. Hierzu benötigen wir die Matrix Scoresk (dies ist die auf die ersten beiden Spalten reduzierte Matrix Scores, entsprechend der zwei extrahierten Faktoren). Danach stellen wir die Ladungspaare in einem Koordinatensystem dar, indem wir jeweils die Scores des ersten Faktors auf der x-achse und die des zweiten Faktors auf der y-achse abtragen. Scoresk=Inverse[R].Lk; Scoresk//MatrixForm ListPlot[Scoresk,PlotStyle->PointSize[0.02]] Der linke Punkt stellt die Scores der ersten Variable dar, der Punkt rechts unten die der zweiten und der rechts oben entsprechend die der dritten Variable.

89 Faktorenanalyse Seite Sphärizitätstest (Bartlett) Eine Hauptkomponenten- oder Faktorenanalyse macht nur Sinn, falls die Ausgangsvariablen der Datenmatrix Y korrelieren, wie wir bereits beschrieben haben. Hierzu gibt es einen Test von Bartlett, mit dem überprüft werden kann, ob die Korrelationsmatrix signifikant von der Einheitsmatrix verschieden ist. Wir führen im Folgenden mit der Datenmatrix Y aus dem oberen Beispiel den Test durch mit den Hypothesen: Nullhypothese: = I gegen die Alternativhypothese: I Wir berechnen nun zunächst die Prüfgröße Chisq, welche als eine Realisierung einer asymptotisch Chi-Quadrat verteilten zufälligen Größe mit den Freiheitsgraden df angesehen werden kann. Danach berechnen wir den Wert Prob, mit dem wir wieder unsere Testentscheidung fällen: Chisq=-(n-1 -(2*p+5)/6)*Log[Det[R]] df=p(p-1)/2 3 Needs["Statistics`Master`"] Prob=1-CDF[ChiSquareDistribution[df],Chisq] Wie zu sehen ist, könnte in unserem Beispiel die Nullhypothese der Unkorreliertheit nicht verworfen werden (Prob > 0,05), was wahrscheinlich an dem geringen Stichprobenumfang liegt, denn aufgrund der entsprechend (betragsmäßig) großen Werte auf der Nebendiagonalen der Korrelationsmatrix R hätte man ein signifikantes Ergebnis erwartet. Literatur: [1],[4],[6],[9]

90 Seite 90 Faktorenanalyse 5.5 SPSS Zunächst müssen die Daten in SPSS eingeben werden. Hierzu benötigen wir die drei Variablen x1, x2 und x3. Um das Menü der Faktorenanalyse zu erhalten, müssen Sie Statistik Dimensionsreduktion Faktorenanalyse wählen und die drei Variablen auswählen (siehe unten).

91 Faktorenanalyse Seite 91 Wir wollen, wie zuvor mit Mathematica, zwei Faktoren extrahieren. Dazu müssen Sie Extraktion und dort Anzahl Faktoren: 2 setzen. Ansonsten würde SPSS Faktoren nach dem Kaiser Kritrium auswählen (d.h. nur die Faktoren, die mit Eigenvektoren gebildet werden, deren zugehöriger Eigenwert >1 ist). Wählen Sie hier noch die Option Screenplot und dann Weiter. Ein Screenplot stellt die Eigenwerte der Faktoren in einer Grafik dar. Danach wollen wir noch die Ladungsdiagramme erstellen lassen. Dazu müssen Sie wählen: Rotation Ladungsdiagramme erstellen. In diesem Menü können Sie auch eine Rotation (z.b. die Varimaxrotation) wählen. Wir wollen dieses Diagramm aber zunächst ohne Rotation zeichnen lassen, damit Sie die Ausgabe mit Mathematica vergleichen können. Eine Rotation entspricht einer Drehung des Koordinatensystems, damit die Faktoren besser interpretiert werden können. Mathematisch bedeutet dies, wie bereist beschrieben, eine Multiplikation der Faktorenmatrix mit einer Orthogonalmatix. Ensprechend wird die Ladungsmatrix mit der Inversen (bzw. Transponierten) dieser Matrix multipliziert.

92 Seite 92 Faktorenanalyse Wählen Sie nun Weiter. Da wir auch die Scorematrix ausgegeben haben möchten, wählen wir noch Werte Koeffizientenmatrix der Faktorwerte anzeigen Weiter. Den Test von Bartlett können Sie über das Menü Deskriptive Statistik anfordern (siehe unten). Mit OK erhalten Sie die Ausgabe:

93 Faktorenanalyse Seite 93 KMO- und Bartlett-Test Maß der Stichprobeneignung nach Kaiser-Meyer-Olkin. Bartlett-Test auf Sphärizität Ungefähres Chi-Quadrat df Signifikanz nach Bartlett,544 4,663 3,198 Wie oben zu sehen ist, kann die Nullhypothese, daß die Korrelationsmatrix gleich der Einheitsmatrix ist, nicht verworfen werden (p-wert = > 0.05). X1 X2 X3 Kommunalitäten Anf änglich Extraktion 1,000,954 1,000,966 1,000,997 Extraktionsmethode: Hauptkomponentenanaly se. Komponente Anf ängliche Eigenwerte Erklärte Gesamtvarianz % der Kumulierte % der Kumulierte Gesamt Varianz % Gesamt Varianz % 2,306 76,856 76,856 2,306 76,856 76,856,612 20,397 97,254,612 20,397 97,254 8,239E-02 2, ,000 Extraktionsmethode: Hauptkomponentenanalyse. Summen von quadrierten Faktorladungen f ür Extraktion In der oberen Tabelle sind die Eigenwerte der drei Faktoren zu sehen und die Varianz, die von den einzelnen Faktoren erklärt wird. 2,5 Screeplot 2,0 1,5 1,0 Eigenwert,5 0, Faktor

94 Seite 94 Faktorenanalyse Hier sehen Sie die Ladungsmatrix (Mathematica: Lk): X1 X2 X3 Komponentenmatrix a Komponente 1 2 -,963,161,909 -,375,743,667 Extraktionsmethode: Hauptkomponentenanaly se. a. 2 Komponenten extrahiert Es folgt der Ladungsplot: 1,0 Komponentendiagramm x3,5 x1 0,0 x2 Komponente 2 -,5-1,0-1,0 -,5 0,0,5 1,0 Komponente 1 Hier sehen Sie die Scorematrix (Mathematica: Scoresk): Koeffizientenmatrix der Komponentenwerte Komponente 1 2 X1 -,418,263 X2,394 -,612 X3,322 1,091 Extraktionsmethode: Hauptkomponentenanaly se. Komponentenwerte.

95 Faktorenanalyse Seite 95 Kovarianzmatrix des Komponentenwerts Komponente ,000,000,000 1,000 Extraktionsmethode: Hauptkomponentenanaly se. Komponentenwerte.

96 Seite 96 Anhang: Multivariate Verteilungen 6 Anhang: Multivariate Verteilungen Erwartungswert und Varianz-Kovarianzmatrix: t X Mit bzw. bezeichnen wir den transponierten Vektor von schreiben wir immer (soweit dies möglich ist) in Großbuchstaben. Sei X T t X ( X, X,..., X k ) E( X) 1 2 x f ( x ) dx mit ii i i i X. Zufallsvariablen ein k dimensionaler stetiger Zufallsvektor, dann heißt der Erwartungswert von X. Dabei gilt: i = 1, 2,..., k und f i ist die Dichtefunktion der Zufallsvariable X i. Die Varianz-Kovarianzmatrix ist definiert durch: t Var( X) E(( X )( X ) ) i, j 2 i i i Var Xi und, ( ). i, j1, 2,..., k. Dabei ist i,j = Cov(X i, X j ) für i j Korrelationsmatrix: Die Korrelationsmatrix P ist definiert durch P ii i, j jj i, j1,2,..., k Satz: Seien k-dimensionale Zufallsvektoren und a sei ein nicht-stochastischer k- dimensionaler Vektor und A eine kk dimensionale nichtstochastische Matrix, dann gilt: X, Y E( X Y) E( X) E( Y) E( AX a) AE( X) a Var( AX a) AVar( X) A t Bemerkungen: Sei X eine Datenmatrix die k Merkmale und n Beobachtungen enthält. X ist somit eine nk Matrix. Unter der Annahme, daß die Zeilen von X aus Realisierungen von k- dimensionalen unabhängigen Zufallsvektoren X i besteht, so wird a) der Erwartungswert wie folgt geschätzt: 1 1n, k. Dabei ist 1 n, k eine nk Matrix, die nur Einsen enthält. n Xt

97 Anhang: Multivariate Verteilungen Seite 97 b) die Varianz-Kovarianzmatrix wie folgt geschätzt: 1 ( (,,..., t t ) ) (( ( X X,,..., t ) ) n 1 nmal nmal c) die Korrelationsmatrix wie folgt geschätzt: Sei Z die standardisierte Datenmatrix, dann gilt: P ( n 1 ) Z Z t Die multidimensionale Normalverteilung: Die multidimensionale Normalverteilungsdichte ist definiert durch t 1 1/ 2( x) ( x) e k fx Falls E( X X) 1 ( 2). Dabei ist eine positiv definite Matrix. ein k-dimensionaler multidimensional normalverteilter Zufallsvektor ist, mit und Var( so schreiben wir. X) Bemerkungen: Falls die Komponenten des Zufallsvektors X N(, ) X paarweise stochastisch unabhängig sind, 2 so ist die Varianz-Kovarianzmatrix eine Diagonalmatrix mit den Varianzen i auf der Hauptdiagonalen. Die Dichtefunktion würde in diesem Fall wie folgt aussehen: f x (2 ) k ( 2 2 x 1 1 x 1/ 2... k k 1 1 k e k ) Wie zu sehen ist, folgt im Falle der Normalverteilung auch umgekehrt aus der Unkorreliertheit die Unabhängigkeit, denn die obere Dichte läßt sich als Produkt der Randdichten darstellen. Wir zeichnen im Folgenden die zwei Dichtefunktionen der zweidimensionalen Normalverteilung. Jeweils mit und einmal mit und einmal mit 1 4 / 5 4 / I

98 Seite 98 Anhang: Multivariate Verteilungen

99 Anhang: Multivariate Verteilungen Seite 99 Bemerkungen: 1.) Es gilt: X N( 0,I 1/ 2 ) X N(, ). I ist die Einheitsmatrix. q q t 2.) Für rationale q und positiv definite Matrix A gilt allgemein: A TD T. Dabei ist D = diag( i) eine Diagonalmatrix und i sind die Eigenwerte von A. Die Chi-quadrat-Verteilung, F(ischer)-Verteilung und die (Student) t-verteilung: Sei A idempotent (d.h. AA=A) und rang(a) = r. Sei I ein k-dimensionaler Zufallsvektor. Dann heißt die Zufallsvariable Y = 2 Freiheitsgraden. Kurz Y r. Für A = I ist Y n 2. X N( 0, ) t X AX 2 Es gilt für zwei unabhängige Zufallsvariablen Y 1 und Y 2, mit Y 1 n ) Y 1 + Y 2 n n chi-quadrat verteilt mit r und Y 2 2 n2 : 2) Y / n Y / n ist F-verteilt mit n 1 und n 2 Freiheitsgraden. Kurz: Y Y / n / n F(n 1,n 2 )

Allgemeines Lineares Modell: Univariate Varianzanalyse und Kovarianzanalyse

Allgemeines Lineares Modell: Univariate Varianzanalyse und Kovarianzanalyse Allgemeines Lineares Modell: Univariate Varianzanalyse und Kovarianzanalyse Univariate Varianz- und Kovarianzanlyse, Multivariate Varianzanalyse und Varianzanalyse mit Messwiederholung finden sich unter

Mehr

Varianzanalyse ANOVA

Varianzanalyse ANOVA Varianzanalyse ANOVA Johannes Hain Lehrstuhl für Mathematik VIII Statistik 1/23 Einfaktorielle Varianzanalyse (ANOVA) Bisher war man lediglich in der Lage, mit dem t-test einen Mittelwertsvergleich für

Mehr

V A R I A N Z A N A L Y S E

V A R I A N Z A N A L Y S E V A R I A N Z A N A L Y S E Ziel / Funktion: statistische Beurteilung des Einflusses von nominal skalierten (kategorialen) Faktoren auf intervallskalierte abhängige Variablen Vorteil: die Wirkung von mehreren,

Mehr

25. Januar 2010. Ruhr-Universität Bochum. Methodenlehre III, WS 2009/2010. Prof. Dr. Holger Dette. 4. Multivariate Mittelwertvergleiche

25. Januar 2010. Ruhr-Universität Bochum. Methodenlehre III, WS 2009/2010. Prof. Dr. Holger Dette. 4. Multivariate Mittelwertvergleiche Ruhr-Universität Bochum 25. Januar 2010 1 / 75 2 / 75 4.1 Beispiel: Vergleich von verschiedenen Unterrichtsmethoden Zwei Zufallsstichproben (A und B) mit je 10 Schülern und 8 Schülern Gruppe A wird nach

Mehr

Multivariate Statistik

Multivariate Statistik Hermann Singer Multivariate Statistik 1 Auflage 15 Oktober 2012 Seite: 12 KAPITEL 1 FALLSTUDIEN Abbildung 12: Logistische Regression: Geschätzte Wahrscheinlichkeit für schlechte und gute Kredite (rot/blau)

Mehr

6. METRISCHE UND KATEGORIALE MERKMALE

6. METRISCHE UND KATEGORIALE MERKMALE 6. METRISCHE UND KATEGORIALE MERKMALE wenn an einer Beobachtungseinheit eine (oder mehrere) metrische und eine (oder mehrere) kategoriale Variable(n) erhoben wurden Beispiel: Haushaltsarbeit von Teenagern

Mehr

Weitere (wählbare) Kontraste in der SPSS Prozedur Allgemeines Lineares Modell

Weitere (wählbare) Kontraste in der SPSS Prozedur Allgemeines Lineares Modell Einfaktorielle Versuchspläne 27/40 Weitere (wählbare) Kontraste in der SPSS Prozedur Allgemeines Lineares Modell Abweichung Einfach Differenz Helmert Wiederholt Vergleich Jede Gruppe mit Gesamtmittelwert

Mehr

Webergänzung zu Kapitel 10

Webergänzung zu Kapitel 10 Webergänzung zu Kapitel 10 10.1.4 Varianzanalyse (ANOVA: analysis of variance) Im Kapitel 10 haben wir uns hauptsächlich mit Forschungsbeispielen beschäftigt, die nur zwei Ergebnissätze hatten (entweder

Mehr

Inhaltsverzeichnis. Regressionsanalyse. http://mesosworld.ch - Stand vom: 20.1.2010 1

Inhaltsverzeichnis. Regressionsanalyse. http://mesosworld.ch - Stand vom: 20.1.2010 1 Inhaltsverzeichnis Regressionsanalyse... 2 Lernhinweise... 2 Einführung... 2 Theorie (1-8)... 2 1. Allgemeine Beziehungen... 3 2. 'Best Fit'... 3 3. 'Ordinary Least Squares'... 4 4. Formel der Regressionskoeffizienten...

Mehr

Übungsserie Nr. 10 mit Lösungen

Übungsserie Nr. 10 mit Lösungen Übungsserie Nr. 10 mit Lösungen 1 Ein Untersuchungsdesign sieht einen multivariaten Vergleich einer Stichprobe von Frauen mit einer Stichprobe von Männern hinsichtlich der Merkmale X1, X2 und X3 vor (Codierung:

Mehr

Kapitel 7: Varianzanalyse mit Messwiederholung

Kapitel 7: Varianzanalyse mit Messwiederholung Kapitel 7: Varianzanalyse mit Messwiederholung Durchführung einer einfaktoriellen Varianzanalyse mit Messwiederholung 1 Durchführung einer zweifaktoriellen Varianzanalyse mit Messwiederholung auf einem

Mehr

Beispiel für eine multivariate Varianzanalyse (MANOVA) Daten: POKIV_Terror_V12.sav

Beispiel für eine multivariate Varianzanalyse (MANOVA) Daten: POKIV_Terror_V12.sav Beispiel für eine multivariate Varianzanalyse () Daten: POKIV_Terror_V12.sav Es soll überprüft werden, inwieweit das ATB-Syndrom (Angst vor mit den drei Subskalen affektive Angst von, Terrorpersistenz,

Mehr

Varianzananalyse. How to do

Varianzananalyse. How to do Varianzananalyse How to do Die folgende Zusammenfassung zeigt beispielhaft, wie eine Varianzanalyse mit SPSS durchgeführt wird und wie die Ergebnisse in einem Empra-Bericht oder in einer Bachelor- oder

Mehr

Anhang A: Fragebögen und sonstige Unterlagen

Anhang A: Fragebögen und sonstige Unterlagen Anhang Anhang A: Fragebögen und sonstige Unterlagen A.: Flyer zur Probandenrekrutierung 46 A.: Fragebogen zur Meditationserfahrung 47 48 A.3: Fragebogen Angaben zur Person 49 5 5 A.4: Termin- und Einladungsschreiben

Mehr

Grundlagen quantitativer Sozialforschung Interferenzstatistische Datenanalyse in MS Excel

Grundlagen quantitativer Sozialforschung Interferenzstatistische Datenanalyse in MS Excel Grundlagen quantitativer Sozialforschung Interferenzstatistische Datenanalyse in MS Excel 16.11.01 MP1 - Grundlagen quantitativer Sozialforschung - (4) Datenanalyse 1 Gliederung Datenanalyse (inferenzstatistisch)

Mehr

8. Methoden der klassischen multivariaten Statistik

8. Methoden der klassischen multivariaten Statistik 8. Methoden der klassischen multivariaten Statistik 8.1. Darstellung von Daten Voraussetzungen auch in diesem Kapitel: Grundgesamtheit (Datenraum) Ω von Objekten (Fällen, Instanzen), denen J-Tupel von

Mehr

Multinomiale logistische Regression

Multinomiale logistische Regression Multinomiale logistische Regression Die multinomiale logistische Regression dient zur Schätzung von Gruppenzugehörigkeiten bzw. einer entsprechenden Wahrscheinlichkeit hierfür, wobei als abhänginge Variable

Mehr

2. Korrelation, lineare Regression und multiple Regression

2. Korrelation, lineare Regression und multiple Regression multiple 2.2 Lineare 2.2 Lineare 1 / 130 2.2 Lineare 2 / 130 2.1 Beispiel: Arbeitsmotivation Untersuchung zur Motivation am Arbeitsplatz in einem Chemie-Konzern 25 Personen werden durch Arbeitsplatz zufällig

Mehr

9. Schätzen und Testen bei unbekannter Varianz

9. Schätzen und Testen bei unbekannter Varianz 9. Schätzen und Testen bei unbekannter Varianz Dr. Antje Kiesel Institut für Angewandte Mathematik WS 2011/2012 Schätzen und Testen bei unbekannter Varianz Wenn wir die Standardabweichung σ nicht kennen,

Mehr

Korrelation - Regression. Berghold, IMI

Korrelation - Regression. Berghold, IMI Korrelation - Regression Zusammenhang zwischen Variablen Bivariate Datenanalyse - Zusammenhang zwischen 2 stetigen Variablen Korrelation Einfaches lineares Regressionsmodell 1. Schritt: Erstellung eines

Mehr

Varianzanalytische Methoden Zweifaktorielle Versuchspläne 4/13. Durchführung in SPSS (File Trait Angst.sav)

Varianzanalytische Methoden Zweifaktorielle Versuchspläne 4/13. Durchführung in SPSS (File Trait Angst.sav) Zweifaktorielle Versuchspläne 4/13 Durchführung in SPSS (File Trait Angst.sav) Analysieren > Allgemeines Lineares Modell > Univariat Zweifaktorielle Versuchspläne 5/13 Haupteffekte Geschlecht und Gruppe

Mehr

Einführung in die Kovarianzanalyse (ANCOVA)

Einführung in die Kovarianzanalyse (ANCOVA) Arbeitsunterlage Einführung in die Kovarianzanalyse (ANCOVA) ARGE-Bildungsforschung 2 Einführung in die Kovarianzanalyse (ANCOVA) 1 Die Varianzanalyse ist ein Verfahren, das die Wirkung einer (oder mehrerer)

Mehr

Kommentierter SPSS-Ausdruck zur logistischen Regression

Kommentierter SPSS-Ausdruck zur logistischen Regression Daten: POK V AG 3 (POKV_AG3_V07.SAV) Kommentierter SPSS-Ausdruck zur logistischen Regression Fragestellung: Welchen Einfluss hat die Fachnähe und das Geschlecht auf die interpersonale Attraktion einer

Mehr

12. Vergleich mehrerer Stichproben

12. Vergleich mehrerer Stichproben 12. Vergleich mehrerer Stichproben Dr. Antje Kiesel Institut für Angewandte Mathematik WS 2011/2012 Häufig wollen wir verschiedene Populationen, Verfahren, usw. miteinander vergleichen. Beipiel: Vergleich

Mehr

Institut für Soziologie. Methoden 2. Regressionsanalyse I: Einfache lineare Regression

Institut für Soziologie. Methoden 2. Regressionsanalyse I: Einfache lineare Regression Institut für Soziologie Methoden 2 Regressionsanalyse I: Einfache lineare Regression Programm Anwendungsbereich Vorgehensweise Interpretation Annahmen Zusammenfassung Übungsaufgabe Literatur # 2 Anwendungsbereich

Mehr

Multivariate Verfahren

Multivariate Verfahren Selbstkontrollarbeit 2 Multivariate Verfahren Musterlösung Aufgabe 1 (28 Punkte) Der Marketing-Leiter einer Lebensmittelherstellers möchte herausfinden, mit welchem Richtpreis eine neue Joghurt-Marke auf

Mehr

Bachelorabschlussseminar Dipl.-Kfm. Daniel Cracau

Bachelorabschlussseminar Dipl.-Kfm. Daniel Cracau 1 Einführung in die statistische Datenanalyse Bachelorabschlussseminar Dipl.-Kfm. Daniel Cracau 2 Gliederung 1.Grundlagen 2.Nicht-parametrische Tests a. Mann-Whitney-Wilcoxon-U Test b. Wilcoxon-Signed-Rank

Mehr

Standardab er des. Testwert = 145.5 95% Konfidenzintervall. T df Sig. (2-seitig) Differenz Untere Obere -2.011 698.045-5.82-11.50 -.14.

Standardab er des. Testwert = 145.5 95% Konfidenzintervall. T df Sig. (2-seitig) Differenz Untere Obere -2.011 698.045-5.82-11.50 -.14. Aufgabe : einfacher T-Test Statistik bei einer Stichprobe Standardfehl Standardab er des Mittelwert weichung Mittelwertes 699 39.68 76.59 2.894 Test bei einer Sichprobe Testwert = 45.5 95% Konfidenzintervall

Mehr

Varianzanalyse * (1) Varianzanalyse (2)

Varianzanalyse * (1) Varianzanalyse (2) Varianzanalyse * (1) Einfaktorielle Varianzanalyse (I) Die Varianzanalyse (ANOVA = ANalysis Of VAriance) wird benutzt, um Unterschiede zwischen Mittelwerten von drei oder mehr Stichproben auf Signifikanz

Mehr

Klausur zur Vorlesung Statistik III für Studenten mit dem Wahlfach Statistik

Klausur zur Vorlesung Statistik III für Studenten mit dem Wahlfach Statistik Ludwig Fahrmeir, Nora Fenske Institut für Statistik Bitte für die Korrektur freilassen! Aufgabe 1 2 3 4 Punkte Klausur zur Vorlesung Statistik III für Studenten mit dem Wahlfach Statistik 29. März 21 Hinweise:

Mehr

Prüfen von Mittelwertsunterschieden: t-test

Prüfen von Mittelwertsunterschieden: t-test Prüfen von Mittelwertsunterschieden: t-test Sven Garbade Fakultät für Angewandte Psychologie SRH Hochschule Heidelberg sven.garbade@hochschule-heidelberg.de Statistik 1 S. Garbade (SRH Heidelberg) t-test

Mehr

Diskriminanzanalyse Beispiel

Diskriminanzanalyse Beispiel Diskriminanzanalyse Ziel bei der Diskriminanzanalyse ist die Analyse von Gruppenunterschieden, d. h. der Untersuchung von zwei oder mehr Gruppen hinsichtlich einer Vielzahl von Variablen. Diese Methode

Mehr

Tabelle 6a: Deskriptive Statistiken der metrischen Variablen

Tabelle 6a: Deskriptive Statistiken der metrischen Variablen Ergebnisse 77 5 Ergebnisse Das folgende Kapitel widmet sich der statistischen Auswertung der Daten zur Ü- berprüfung der Hypothesen. Die hier verwendeten Daten wurden mit den in 4.3 beschriebenen Instrumenten

Mehr

Ausgewählte Kapitel der Statistik: Regressions- u. varianzanalytische Modelle Lösung von Grundaufgaben mit SPSS (ab V. 11.0)

Ausgewählte Kapitel der Statistik: Regressions- u. varianzanalytische Modelle Lösung von Grundaufgaben mit SPSS (ab V. 11.0) Ausgewählte Kapitel der Statistik: Regressions- u. varianzanalytische e Lösung von Grundaufgaben mit SPSS (ab V..0) Text: akmv_v.doc Daten: akmv??.sav Lehrbuch: W. Timischl, Biostatistik. Wien - New York:

Mehr

5.2. Nichtparametrische Tests. 5.2.1. Zwei unabhängige Stichproben: U- Test nach MANN- WHITNEY

5.2. Nichtparametrische Tests. 5.2.1. Zwei unabhängige Stichproben: U- Test nach MANN- WHITNEY 5.2. Nichtparametrische Tests 5.2.1. Zwei unabhängige Stichproben: U- Test nach MANN- WHITNEY Voraussetzungen: - Die Verteilungen der beiden Grundgesamtheiten sollten eine ähnliche Form aufweisen. - Die

Mehr

Lineare Modelle in R: Einweg-Varianzanalyse

Lineare Modelle in R: Einweg-Varianzanalyse Lineare Modelle in R: Einweg-Varianzanalyse Achim Zeileis 2009-02-20 1 Datenaufbereitung Wie schon in der Vorlesung wollen wir hier zur Illustration der Einweg-Analyse die logarithmierten Ausgaben der

Mehr

9. StatistischeTests. 9.1 Konzeption

9. StatistischeTests. 9.1 Konzeption 9. StatistischeTests 9.1 Konzeption Statistische Tests dienen zur Überprüfung von Hypothesen über einen Parameter der Grundgesamtheit (bei einem Ein-Stichproben-Test) oder über die Verteilung einer Zufallsvariablen

Mehr

Willkommen zur Vorlesung Statistik

Willkommen zur Vorlesung Statistik Willkommen zur Vorlesung Statistik Thema dieser Vorlesung: Varianzanalyse Prof. Dr. Wolfgang Ludwig-Mayerhofer Universität Siegen Philosophische Fakultät, Seminar für Sozialwissenschaften Prof. Dr. Wolfgang

Mehr

Tutorial: Homogenitätstest

Tutorial: Homogenitätstest Tutorial: Homogenitätstest Eine Bank möchte die Kreditwürdigkeit potenzieller Kreditnehmer abschätzen. Einerseits lebt die Bank ja von der Vergabe von Krediten, andererseits verursachen Problemkredite

Mehr

Univariate/ multivariate Ansätze. Klaus D. Kubinger. Test- und Beratungsstelle. Effektgrößen

Univariate/ multivariate Ansätze. Klaus D. Kubinger. Test- und Beratungsstelle. Effektgrößen Univariate/ multivariate Ansätze Klaus D. Kubinger Effektgrößen Rasch, D. & Kubinger, K.D. (2006). Statistik für das Psychologiestudium Mit Softwareunter-stützung zur Planung und Auswertung von Untersuchungen

Mehr

Inhaltsverzeichnis. Fragestellungen und Methoden 11. Vorwort 15. Kapitel 1 Einführung 17. Kapitel 2 Statistische Grundbegriffe 23

Inhaltsverzeichnis. Fragestellungen und Methoden 11. Vorwort 15. Kapitel 1 Einführung 17. Kapitel 2 Statistische Grundbegriffe 23 Fragestellungen und Methoden 11 Vorwort 15 Kapitel 1 Einführung 17 1.1 KonzeptiondesBuchs... 18 1.2 AufbaudesBuchs... 19 1.3 Programmversionen von PASW bzw. SPSS..... 20 1.4 WiekanndiesesBuchverwendetwerden?...

Mehr

Varianzanalyse. Seminar: Multivariate Verfahren Dr. Thomas Schäfer. Datum: 25. Mai 2010

Varianzanalyse. Seminar: Multivariate Verfahren Dr. Thomas Schäfer. Datum: 25. Mai 2010 Varianzanalyse Seminar: Multivariate Verfahren Dozent: Dr. Thomas Schäfer Referenten: Ralf Hopp, Michaela Haase, Tina Giska Datum: 25. Mai 2010 Gliederung I Theorieteil 1. Das Prinzip der Varianzanalyse

Mehr

Elemente der Analysis II

Elemente der Analysis II Elemente der Analysis II Kapitel 3: Lineare Abbildungen und Gleichungssysteme Informationen zur Vorlesung: http://www.mathematik.uni-trier.de/ wengenroth/ J. Wengenroth () 15. Mai 2009 1 / 35 3.1 Beispiel

Mehr

8. Februar 2007. 5. Bei Unterschleif gilt die Klausur als nicht bestanden und es erfolgt eine Meldung an das Prüfungsamt.

8. Februar 2007. 5. Bei Unterschleif gilt die Klausur als nicht bestanden und es erfolgt eine Meldung an das Prüfungsamt. L. Fahrmeir, C. Belitz Department für Statistik Bitte für die Korrektur freilassen! Aufgabe 1 2 3 4 Punkte Klausur zur Vorlesung Statistik III für Studenten mit Wahlfach Statistik 8. Februar 2007 Hinweise:

Mehr

90-minütige Klausur Statistik für Studierende der Kommunikationswissenschaft

90-minütige Klausur Statistik für Studierende der Kommunikationswissenschaft Prof. Dr. Helmut Küchenhoff SS08 90-minütige Klausur Statistik für Studierende der Kommunikationswissenschaft am 22.7.2008 Anmerkungen Überprüfen Sie bitte sofort, ob Ihre Angabe vollständig ist. Sie sollte

Mehr

Kapitel 3: Interpretationen

Kapitel 3: Interpretationen Kapitel 3: 1. Interpretation von Outputs allgemein... 1 2. Interpretation von Signifikanzen... 1 2.1. Signifikanztests / Punktschätzer... 1 2.2. Konfidenzintervalle... 2 3. Interpretation von Parametern...

Mehr

Einführung in die Vektor- und Matrizenrechnung. Matrizen

Einführung in die Vektor- und Matrizenrechnung. Matrizen Einführung in die Vektor- und Matrizenrechnung Matrizen Definition einer Matrix Unter einer (reellen) m x n Matrix A versteht man ein rechteckiges Schema aus reellen Zahlen, die wie folgt angeordnet sind:

Mehr

Regression mit Gretl Eine erste Einführung 1

Regression mit Gretl Eine erste Einführung 1 Kurzeinführung in Gretl S. 1 Regression mit Gretl Eine erste Einführung 1 Installation: Gretl für das entsprechende Betriebssystem herunterladen und die Setup-Datei ausführen. Hinweis: Für die Benutzung

Mehr

Binäre abhängige Variablen

Binäre abhängige Variablen Binäre abhängige Variablen Thushyanthan Baskaran thushyanthan.baskaran@awi.uni-heidelberg.de Alfred Weber Institut Ruprecht Karls Universität Heidelberg Einführung Oft wollen wir qualitative Variablen

Mehr

Das Dialogfeld für die Regressionsanalyse ("Lineare Regression") findet sich im Statistik- Menu unter "Regression"-"Linear":

Das Dialogfeld für die Regressionsanalyse (Lineare Regression) findet sich im Statistik- Menu unter Regression-Linear: Lineare Regression Das Dialogfeld für die Regressionsanalyse ("Lineare Regression") findet sich im Statistik- Menu unter "Regression"-"Linear": Im einfachsten Fall werden mehrere Prädiktoren (oder nur

Mehr

2. Deskriptive Statistik 2.1. Häufigkeitstabellen, Histogramme, empirische Verteilungsfunktionen

2. Deskriptive Statistik 2.1. Häufigkeitstabellen, Histogramme, empirische Verteilungsfunktionen 4. Datenanalyse und Modellbildung Deskriptive Statistik 2-1 2. Deskriptive Statistik 2.1. Häufigkeitstabellen, Histogramme, empirische Verteilungsfunktionen Für die Auswertung einer Messreihe, die in Form

Mehr

Messgeräte: Mess-System-Analyse und Messmittelfähigkeit

Messgeräte: Mess-System-Analyse und Messmittelfähigkeit Messgeräte: Mess-System-Analyse und Messmittelfähigkeit Andreas Berlin 14. Juli 2009 Bachelor-Seminar: Messen und Statistik Inhalt: 1 Aspekte einer Messung 2 Mess-System-Analyse 2.1 ANOVA-Methode 2.2 Maße

Mehr

Übungsaufgaben zu Kapitel 5. Aufgabe 101. Inhaltsverzeichnis:

Übungsaufgaben zu Kapitel 5. Aufgabe 101. Inhaltsverzeichnis: Inhaltsverzeichnis: Übungsaufgaben zu Kapitel 5... 1 Aufgabe 101... 1 Aufgabe 102... 2 Aufgabe 103... 2 Aufgabe 104... 2 Aufgabe 105... 3 Aufgabe 106... 3 Aufgabe 107... 3 Aufgabe 108... 4 Aufgabe 109...

Mehr

Neuerungen in Minitab 16

Neuerungen in Minitab 16 Neuerungen in Minitab 16 minitab@additive-net.de - Telefon: 06172 / 5905-30 Willkommen zu Minitab 16! Die neueste Version der Minitab Statistical Software umfasst mehr als siebzig neue Funktionen und Verbesserungen,

Mehr

Univariate Lineare Regression. (eine unabhängige Variable)

Univariate Lineare Regression. (eine unabhängige Variable) Univariate Lineare Regression (eine unabhängige Variable) Lineare Regression y=a+bx Präzise lineare Beziehung a.. Intercept b..anstieg y..abhängige Variable x..unabhängige Variable Lineare Regression y=a+bx+e

Mehr

29. Mai 2006. 5. Bei Unterschleif gilt die Klausur als nicht bestanden und es erfolgt eine Meldung an das Prüfungsamt.

29. Mai 2006. 5. Bei Unterschleif gilt die Klausur als nicht bestanden und es erfolgt eine Meldung an das Prüfungsamt. L. Fahrmeir, C. Belitz Department für Statistik Bitte für die Korrektur freilassen! Aufgabe 1 2 3 4 Punkte Klausur zur Vorlesung Statistik III für Studenten mit Wahlfach Statistik 29. Mai 2006 Hinweise:

Mehr

Einfache Statistiken in Excel

Einfache Statistiken in Excel Einfache Statistiken in Excel Dipl.-Volkswirtin Anna Miller Bergische Universität Wuppertal Schumpeter School of Business and Economics Lehrstuhl für Internationale Wirtschaft und Regionalökonomik Raum

Mehr

Numerisches Programmieren

Numerisches Programmieren Technische Universität München SS 2012 Institut für Informatik Prof Dr Thomas Huckle Dipl-Inf Christoph Riesinger Dipl-Math Alexander Breuer Dipl-Math Dipl-Inf Jürgen Bräckle Dr-Ing Markus Kowarschik Numerisches

Mehr

Grundlagen der Inferenzstatistik: Was Ihnen nicht erspart bleibt!

Grundlagen der Inferenzstatistik: Was Ihnen nicht erspart bleibt! Grundlagen der Inferenzstatistik: Was Ihnen nicht erspart bleibt! 1 Einführung 2 Wahrscheinlichkeiten kurz gefasst 3 Zufallsvariablen und Verteilungen 4 Theoretische Verteilungen (Wahrscheinlichkeitsfunktion)

Mehr

klar. Um die zweite Bedingung zu zeigen, betrachte u i U i mit u i = 0. Das mittlere -Zeichen liefert s

klar. Um die zweite Bedingung zu zeigen, betrachte u i U i mit u i = 0. Das mittlere -Zeichen liefert s Nachtrag zur allgemeinen Vektorraum-Theorie. 1.5.15. Direkte Summen. Sei V ein Vektorraum, seien U 1,..., U t Unterräume, wir schreiben V = U 1 U 2 U t = t i=1 U i falls die folgenden beiden Bedingungen

Mehr

BEDIENUNGSANLEITUNG FÜR AMOS (Letzte Änderung: Mittwoch, 10. Februar 2001)

BEDIENUNGSANLEITUNG FÜR AMOS (Letzte Änderung: Mittwoch, 10. Februar 2001) AMOS - Bedienungsanaleitung 1 BEDIENUNGSANLEITUNG FÜR AMOS (Letzte Änderung: Mittwoch, 10. Februar 2001) A. Aufbau einer Inputdatei (Excel-Arbeitsblatt), welche eine Kovarianz- bzw. Korrelationsmatrix

Mehr

Angewandte Ökonometrie, WS 2012/13, 1. Teilprüfung am 6.12.2012 - Lösungen. Das folgende Modell ist ein GARCH(1,1)-Modell:

Angewandte Ökonometrie, WS 2012/13, 1. Teilprüfung am 6.12.2012 - Lösungen. Das folgende Modell ist ein GARCH(1,1)-Modell: Angewandte Ökonometrie, WS 2012/13, 1. Teilprüfung am 6.12.2012 - Lösungen LV-Leiterin: Univ.Prof.Dr. Sylvia Frühwirth-Schnatter 1 Wahr oder falsch? 1. Das folgende Modell ist ein GARCH(1,1)-Modell: Y

Mehr

Messgeräte: Mess-System-Analyse und Messmittelfähigkeit

Messgeräte: Mess-System-Analyse und Messmittelfähigkeit Messgeräte: Mess-System-Analyse und Messmittelfähigkeit Andreas Berlin 14. Juli 009 Bachelor-Seminar: Messen und Statistik Inhalt: 1 Aspekte einer Messung Mess-System-Analyse.1 ANOVA-Methode. Maße für

Mehr

Multiple Regression. Ziel: Vorhersage der Werte einer Variable (Kriterium) bei Kenntnis der Werte von zwei oder mehr anderen Variablen (Prädiktoren)

Multiple Regression. Ziel: Vorhersage der Werte einer Variable (Kriterium) bei Kenntnis der Werte von zwei oder mehr anderen Variablen (Prädiktoren) Multiple Regression 1 Was ist multiple lineare Regression? Ziel: Vorhersage der Werte einer Variable (Kriterium) bei Kenntnis der Werte von zwei oder mehr anderen Variablen (Prädiktoren) Annahme: Der Zusammenhang

Mehr

IBM SPSS Advanced Statistics 20

IBM SPSS Advanced Statistics 20 IBM SPSS Advanced Statistics 20 Hinweis: Lesen Sie zunächst die allgemeinen Informationen unter Hinweise auf S. 180, bevor Sie dieses Informationsmaterial sowie das zugehörige Produkt verwenden. Diese

Mehr

IBM SPSS Advanced Statistics 19

IBM SPSS Advanced Statistics 19 IBM SPSS Advanced Statistics 19 Note: Before using this information and the product it supports, read the general information under Notices auf S. 173. This document contains proprietary information of

Mehr

Delta-Gamma-Verfahren als Standard- Risikomodell für Lebensversicherer

Delta-Gamma-Verfahren als Standard- Risikomodell für Lebensversicherer Delta-Gamma-Verfahren als Standard- Risikomodell für Lebensversicherer 1 Einleitung Im Rahmen des SST wird teilweise vereinfachend angenommen, dass der Zusammenhang zwischen der Veränderung des risikotragenden

Mehr

Statistik Musterlösungen

Statistik Musterlösungen Statistik Musterlösungen Regina Tüchler & Achim Zeileis Institut für Statistik & Mathematik Wirtschaftsuniversität Wien 1 Grundbegriffe (1.23) Skript Reaktionen auf Videofilm. Aussagen M, E, P, S h(m)

Mehr

Regressionsanalysen. Zusammenhänge von Variablen. Ziel der Regression. ( Idealfall )

Regressionsanalysen. Zusammenhänge von Variablen. Ziel der Regression. ( Idealfall ) Zusammenhänge von Variablen Regressionsanalysen linearer Zusammenhang ( Idealfall ) kein Zusammenhang nichtlinearer monotoner Zusammenhang (i.d.regel berechenbar über Variablentransformationen mittels

Mehr

Grundlagen von Versuchsmethodik und Datenanalyse

Grundlagen von Versuchsmethodik und Datenanalyse Grundlagen von Versuchsmethodik und Datenanalyse Der Anfang: Hypothesen über Ursache-Wirkungs-Zusammenhänge Ursache Wirkung Koffein verbessert Kurzzeitgedächtnis Gewaltfilme führen zu aggressivem Verhalten

Mehr

Multivariate Zeitreihenanalyse mit EViews 4.1

Multivariate Zeitreihenanalyse mit EViews 4.1 Multivariate Zeitreihenanalyse mit EViews 4.1 Unterlagen für LVen des Instituts für Angewandte Statistic (IFAS) Johannes Kepler Universität Linz Stand: 30. Mai 2005, Redaktion: Frühwirth-Schnatter 1 Deskriptive

Mehr

Kapitel 4: Binäre Regression

Kapitel 4: Binäre Regression Kapitel 4: Binäre Regression Steffen Unkel (basierend auf Folien von Nora Fenske) Statistik III für Nebenfachstudierende WS 2013/2014 4.1 Motivation Ausgangssituation Gegeben sind Daten (y i, x i1,...,

Mehr

Veranstaltungsort Bildungsherberge der Studierendenschaft der FernUniversität Hagen

Veranstaltungsort Bildungsherberge der Studierendenschaft der FernUniversität Hagen Bildungsurlaub-Seminare: Lerninhalte und Programm Seminartitel SPSS für Psychologen/innen (BH15113) Termin Mo, den 18.05.bis Fr, den 22.05.2015 (40 UStd.) Veranstaltungsort Bildungsherberge der Studierendenschaft

Mehr

Risikomessung und Value at Risk Wintersemester 2013/14

Risikomessung und Value at Risk Wintersemester 2013/14 Risikomessung und Value at Risk Wintersemester 2013/14 Walter Sanddorf-Köhle Statistik und Ökonometrie Foliensatz Nr. 11 Version vom 24. Januar 2014 1 / 45 6.5.1 Bisherige Vorgehensweise zur Berechnung

Mehr

Inhaltsverzeichnis. I Einführung in STATISTICA 1. 1 Erste Schritte in STATISTICA 3

Inhaltsverzeichnis. I Einführung in STATISTICA 1. 1 Erste Schritte in STATISTICA 3 I Einführung in STATISTICA 1 1 Erste Schritte in STATISTICA 3 2 Datenhaltung in STATISTICA 11 2.1 Die unterschiedlichen Dateitypen in STATISTICA....... 11 2.2 Import von Daten......... 12 2.3 Export von

Mehr

Methoden Quantitative Datenanalyse

Methoden Quantitative Datenanalyse Leitfaden Universität Zürich ISEK - Andreasstrasse 15 CH-8050 Zürich Telefon +41 44 635 22 11 Telefax +41 44 635 22 19 www.isek.uzh.ch 11. September 2014 Methoden Quantitative Datenanalyse Vorbereitung

Mehr

Kapitel 3. Erste Schritte der Datenanalyse. 3.1 Einlesen und Überprüfen der Daten

Kapitel 3. Erste Schritte der Datenanalyse. 3.1 Einlesen und Überprüfen der Daten Kapitel 3 Erste Schritte der Datenanalyse 3.1 Einlesen und Überprüfen der Daten Nachdem die Daten erfasst worden sind, etwa mit Hilfe eines Fragebogens, ist die nächste Frage, wie ich sie in den Rechner

Mehr

Beispiel: Sonntagsfrage. Einführung in die induktive Statistik. Statistische Tests. Statistische Tests

Beispiel: Sonntagsfrage. Einführung in die induktive Statistik. Statistische Tests. Statistische Tests Beispiel: Sonntagsfrage Vier Wochen vor der österreichischen Nationalratswahl 1999 wurde 499 Haushalten die Sonntagsfrage gestellt: Falls nächsten Sonntag Wahlen wären, welche Partei würden Sie wählen?

Mehr

5.2 Optionen Auswahl der Statistiken, die bei der jeweiligen Prozedur zur Verfügung stehen.

5.2 Optionen Auswahl der Statistiken, die bei der jeweiligen Prozedur zur Verfügung stehen. 5 Statistik mit SPSS Die Durchführung statistischer Auswertungen erfolgt bei SPSS in 2 Schritten, der Auswahl der geeigneten Methode, bestehend aus Prozedur Variable Optionen und der Ausführung. 5.1 Variablen

Mehr

Modul G.1 WS 07/08: Statistik 17.01.2008 1. Die Korrelation ist ein standardisiertes Maß für den linearen Zusammenhangzwischen zwei Variablen.

Modul G.1 WS 07/08: Statistik 17.01.2008 1. Die Korrelation ist ein standardisiertes Maß für den linearen Zusammenhangzwischen zwei Variablen. Modul G.1 WS 07/08: Statistik 17.01.2008 1 Wiederholung Kovarianz und Korrelation Kovarianz = Maß für den linearen Zusammenhang zwischen zwei Variablen x und y Korrelation Die Korrelation ist ein standardisiertes

Mehr

. TYPO3-Plug-in u:cris

. TYPO3-Plug-in u:cris . TYPO3-Plug-in u:cris Zentraler Informatikdienst der Universität Wien Stand: Jänner 2014 TYPO3-Version 4.5 Dieses Handbuch ist eine Übersicht zum Einsatz des TYPO3-Plug-ins u:cris. Naturgemäß würde die

Mehr

Kommentierte Formelsammlung multivariater statistischer Verfahren. Prof. Dr. Irene Rößler Prof. Dr. Albrecht Ungerer

Kommentierte Formelsammlung multivariater statistischer Verfahren. Prof. Dr. Irene Rößler Prof. Dr. Albrecht Ungerer Kommentierte Formelsammlung multivariater statistischer Verfahren Prof Dr Irene Rößler Prof Dr Albrecht Ungerer Inhaltsverzeichnis i Inhaltsverzeichnis Verfahren im Überblick Beispieldatensatz 1 1 Multiple

Mehr

Übungen zur Ingenieur-Mathematik III WS 2009/10 Blatt 10 21.12.2009

Übungen zur Ingenieur-Mathematik III WS 2009/10 Blatt 10 21.12.2009 Übungen zur Ingenieur-Mathematik III WS 2009/10 Blatt 10 21.12.2009 Aufgabe 35: Thema: Singulärwertzerlegung und assoziierte Unterräume Sei A eine m n Matrix mit Rang r und A = UDV T ihre Singulärwertzerlegung.

Mehr

Häufigkeitstabellen. Balken- oder Kreisdiagramme. kritischer Wert für χ2-test. Kontingenztafeln

Häufigkeitstabellen. Balken- oder Kreisdiagramme. kritischer Wert für χ2-test. Kontingenztafeln Häufigkeitstabellen Menüpunkt Data PivotTable Report (bzw. entsprechendes Icon): wähle Data Range (Zellen, die die Daten enthalten + Zelle mit Variablenname) wähle kategoriale Variable für Spalten- oder

Mehr

Statistik im Bachelor-Studium der BWL und VWL

Statistik im Bachelor-Studium der BWL und VWL Max C. Wewel Statistik im Bachelor-Studium der BWL und VWL Methoden, Anwendung, Interpretation Mit herausnehmbarer Formelsammlung ein Imprint von Pearson Education München Boston San Francisco Harlow,

Mehr

Varianzanalyse. Einleitung - 1 -

Varianzanalyse. Einleitung - 1 - - 1 - Varianzanalyse Einleitung Die Varianzanalyse ist ein sehr allgemein einsetzbares multivariates Analyseverfahren, mit dessen Hilfe Meßwerte einer abhängigen Variablen Y, die in der Regel von mehreren

Mehr

Profil A 49,3 48,2 50,7 50,9 49,8 48,7 49,6 50,1 Profil B 51,8 49,6 53,2 51,1 51,1 53,4 50,7 50 51,5 51,7 48,8

Profil A 49,3 48,2 50,7 50,9 49,8 48,7 49,6 50,1 Profil B 51,8 49,6 53,2 51,1 51,1 53,4 50,7 50 51,5 51,7 48,8 1. Aufgabe: Eine Reifenfirma hat für Winterreifen unterschiedliche Profile entwickelt. Bei jeweils gleicher Geschwindigkeit und auch sonst gleichen Bedingungen wurden die Bremswirkungen gemessen. Die gemessenen

Mehr

Die Verteilung dieser Werte y ist eine Normalverteilung. hängt nicht von u ab

Die Verteilung dieser Werte y ist eine Normalverteilung. hängt nicht von u ab Einfache lineare Regression als Beispiel für das ALM ALM : Allgemeines Lineares Modell Y : Kriterium U : Prädiktor Modell : Erwartungswert von Y ist lineare Funktion von U Genauer : Für festes u gilt für

Mehr

Hauptseminar am Fachgebiet für Quantitative Methoden der Wirtschaftswissenschaften

Hauptseminar am Fachgebiet für Quantitative Methoden der Wirtschaftswissenschaften Hauptseminar am Fachgebiet für Quantitative Methoden der Wirtschaftswissenschaften Fehlende Daten in der Multivariaten Statistik SS 2011 Allgemeines Das Seminar richtet sich in erster Linie an Studierende

Mehr

Multivariate Analysemethoden

Multivariate Analysemethoden Multivariate Analysemethoden 30.04.2014 Günter Meinhardt Johannes Gutenberg Universität Mainz Einführung Was sind multivariate Analysemethoden? Vorlesung Übung/Tut Prüfung Verfahrensdarstellung in Überblick

Mehr

Einseitig gerichtete Relation: Mit zunehmender Höhe über dem Meeresspiegel sinkt im allgemeinen die Lufttemperatur.

Einseitig gerichtete Relation: Mit zunehmender Höhe über dem Meeresspiegel sinkt im allgemeinen die Lufttemperatur. Statistik Grundlagen Charakterisierung von Verteilungen Einführung Wahrscheinlichkeitsrechnung Wahrscheinlichkeitsverteilungen Schätzen und Testen Korrelation Regression Einführung Die Analyse und modellhafte

Mehr

Auswertung mit dem Statistikprogramm SPSS: 30.11.05

Auswertung mit dem Statistikprogramm SPSS: 30.11.05 Auswertung mit dem Statistikprogramm SPSS: 30.11.05 Seite 1 Einführung SPSS Was ist eine Fragestellung? Beispiel Welche statistische Prozedur gehört zu welcher Hypothese? Statistische Berechnungen mit

Mehr

Kapitel 3. Zufallsvariable. Wahrscheinlichkeitsfunktion, Dichte und Verteilungsfunktion. Erwartungswert, Varianz und Standardabweichung

Kapitel 3. Zufallsvariable. Wahrscheinlichkeitsfunktion, Dichte und Verteilungsfunktion. Erwartungswert, Varianz und Standardabweichung Kapitel 3 Zufallsvariable Josef Leydold c 2006 Mathematische Methoden III Zufallsvariable 1 / 43 Lernziele Diskrete und stetige Zufallsvariable Wahrscheinlichkeitsfunktion, Dichte und Verteilungsfunktion

Mehr

Datenanalyse mit SPSS spezifische Analysen

Datenanalyse mit SPSS spezifische Analysen Datenanalyse mit SPSS spezifische Analysen Arnd Florack Tel.: 0251 / 83-34788 E-Mail: florack@psy.uni-muenster.de Raum 2.015 Sprechstunde: Dienstags 15-16 Uhr 25. Mai 2001 2 Auswertung von Häufigkeitsdaten

Mehr

Multiple Regression II: Signifikanztests, Gewichtung, Multikollinearität und Kohortenanalyse

Multiple Regression II: Signifikanztests, Gewichtung, Multikollinearität und Kohortenanalyse Multiple Regression II: Signifikanztests,, Multikollinearität und Kohortenanalyse Statistik II Übersicht Literatur Kausalität und Regression Inferenz und standardisierte Koeffizienten Statistik II Multiple

Mehr

Untersuchungen zum Thema Tracking Error

Untersuchungen zum Thema Tracking Error Untersuchungen zum Thema Tracking Error J. Fulmek 24. August 2003 1 Einleitung Im Folgenden werden folgende Punkte untersucht: 1. verschiedene in der Literatur übliche Definitionen des Tracking Errors

Mehr

(2) Mittels welcher Methode ist es im ALM möglich kategoriale Variablen als Prädiktoren in eine Regressionsgleichung zu überführen?

(2) Mittels welcher Methode ist es im ALM möglich kategoriale Variablen als Prädiktoren in eine Regressionsgleichung zu überführen? Beispielaufgaben LÖSUNG (1) Grenzen Sie eine einfache lineare Regression von einem Random Intercept Modell mit nur einem Level1-Prädiktor ab! a. Worin unterscheiden sich die Voraussetzungen? - MLM braucht

Mehr

14.01.14 DAS THEMA: INFERENZSTATISTIK II. Standardfehler Konfidenzintervalle Signifikanztests. Standardfehler

14.01.14 DAS THEMA: INFERENZSTATISTIK II. Standardfehler Konfidenzintervalle Signifikanztests. Standardfehler DAS THEMA: INFERENZSTATISTIK II INFERENZSTATISTISCHE AUSSAGEN Standardfehler Konfidenzintervalle Signifikanztests Standardfehler der Standardfehler Interpretation Verwendung 1 ZUR WIEDERHOLUNG... Ausgangspunkt:

Mehr

T-TEST BEI EINER STICHPROBE:

T-TEST BEI EINER STICHPROBE: Kapitel 19 T-Test Mit Hilfe der T-TEST-Prozeduren werden Aussagen über Mittelwerte getroffen. Dabei wird versucht, aus den Beobachtungen einer Stichprobe Rückschlüsse auf die Grundgesamtheit zu ziehen.

Mehr

KAPITEL 4. Lineare Ausgleichsrechnung Beispiel 4.1. Das Ohmsche Gesetz: U = RI. Eine Meßreihe von Daten:

KAPITEL 4. Lineare Ausgleichsrechnung Beispiel 4.1. Das Ohmsche Gesetz: U = RI. Eine Meßreihe von Daten: KAPITEL 4 Lineare Ausgleichsrechnung Beispiel 41 Das Ohmsche Gesetz: Eine Meßreihe von Daten: U = RI (U i, I i ) (Spannung, Stromstärke), i = 1,, m Aufgabe: man bestimme aus diesen Meßdaten den Widerstand

Mehr