Multivariate Statistik mit Mathematica und SPSS

Größe: px
Ab Seite anzeigen:

Download "Multivariate Statistik mit Mathematica und SPSS"

Transkript

1 Multivariate Statistik mit Mathematica und SPSS von Dipl.-Math. Marco Schuchmann Dipl.-Math. Werner Sanns

2 Seite 2 Varianzanalyse Die Informationen in diesem Buch entstammen langjähriger Erfahrung in Praxis und Lehre und wurden mit großer Sorgfalt zusammengetragen. Trotzdem können Fehler nicht ausgeschlossen werden. Für fehlerhafte Angaben und deren Folgen werden weder juristische Verantwortung noch irgendeine Haftung übernommen. Für eine Mitteilung eventueller Fehler und konstruktive Kritik sind die Autoren dankbar. Die Autoren: Dipl.-Math.Marco Schuchmann, geb in Groß-Gerau, studierte Mathematik in Darmstadt. Er ist Autor mehrerer Bücher über Statistik und Ingenieurmathematik. Er arbeitet heute im Fachbereich Mathematik & Naturwissenschaften der Fachhochschule Darmstadt. Dipl.-Math.Werner Sanns, geb in Heidelberg, studierte Mathematik und Astronomie an den Universitäten Heidelberg und München. Er ist Autor mehrerer Bücher über Statistik und Ingenieurmathematik und arbeitet heute am Competence-Center Statistik & Operations Reserach des Fachbereichs Mathematik und Naturwissenschaften der Fachhochschule Darmstadt.

3 Varianzanalyse Seite 3 Inhalt 1 VARIANZANALYSE Die univariate Varianzanalyse Parameterschätzung im linearen Modell Allgemeine lineare Hypothese Multiple Vergleiche nach Scheffé Test auf Heteroskedastizität SPSS Multivariate Varianzanalyse SPSS KOVARIANZANALYSE Parameterschätzung und Teststatistiken SPSS DISKRIMINANZANALYSE SPSS CLUSTERANALYSE Bestimmung der Cluster Vergleich der Cluster SPSS FAKTORENANALYSE Hauptkomponentenanalyse Extraktion von Faktoren (Faktorenanalyse) Graphische Darstellung Sphärizitätstest (Bartlett) SPSS... 90

4 Seite 4 Varianzanalyse 6 ANHANG: MULTIVARIATE VERTEILUNGEN INDEXVERZEICHNIS LITERATURVERZEICHNIS

5 Varianzanalyse Seite 5 Vorwort Dieses Buch ist als praxisorientierte Einführung in die multivariate Statistik gedacht. Mit Hilfe der beiden großen Programmpakete SPSS und Mathematica sollen Sie zu den gängigen Verfahren der multivariaten Statistik kleine Beispiele durchrechnen und verstehen lernen. Wir wenden uns in erster Linie an Studierende, die grundlegende univariate statistische Methoden bereits kennen und sich für deren Erweiterungen auf den multivariaten Fall interessieren. Außerdem können Studierende, die eine Vorlesung über multivariate Statistik besuchen, unser Buch dazu benutzen, ihre neu erworbenen Kenntnisse durch praktische Übungen am PC mit SPSS und/oder Mathematica zu festigen und zu erweitern. Als Voraussetzungen für das Arbeiten mit unserem Buch benötigen Sie Mathematica und/oder SPSS. Wir haben unsere Mathematica-Programme so geschrieben, daß Sie nicht nur unter der momentan aktuellen Version 4.01 lauffähig sind. Sie laufen auch unter vorherigen Version, z. B. Version 2.3.3, und werden wegen der Codierung in einer Standard-Syntax, d.h. ohne Verwendung besonderer Zeichen und Funktionen, wohl auch in folgenden Versionen lauffähig bleiben. Bei SPSS haben wir die Version 9.0 (deutsch) benutzt. Hier kann es bei anderen Versionen geringfügige Abweichungen in der Ansicht einzelner Fenster geben, die allerdings nicht gravierend sind. Wir raten denjenigen Lesern, die nur SPSS und nicht Mathematica besitzen, den jeweiligen Abschnitt mit der Brechnung in Mathematica trotzdem durchzuarbeiten, denn er dient zum Einen dem Verständnis der Methode, zum Anderen der Erläuterung der Größen im SPSS-Output. Die Mathematica-Syntax wird von uns weitgehend erkärt und ist leicht zu verstehen. Man kann sie daher leicht in die übliche mathematische Notation umsetzen. Wer Mathematica von Grund auf erlernen will, oder sich intensiver mit Mathematica befassen will, möge als Grundlage unser im Literturverzeichnis aufgeführtes Buch Sanns, Schuchmann: Mathematik mit Mathematica zu Rate ziehen. Selbstverständlich benötigt der Praktiker auch eine solide Grundlage der theoretischen Modelle. Wir haben in einem Anhang eine kurze Zusammenfassung der wichtigsten Begriffe gegeben. Jeweils am Ende der einzelnen Kapitel dieses Buches werden außerdem in eckigen Klammern die Nummern der im Literaturverzeichnis aufgeführten Bücher angegeben, die sich mit diesem Thema befassen. Marco Schuchmann, Werner Sanns

6 Seite 6 Varianzanalyse 1 Varianzanalyse 1.1 Die univariate Varianzanalyse Die Varianzanalyse dient der Untersuchung des Einflußes einer oder mehrerer kategorieller (=nichtmetrischer) Variablen auf eine, oder im multivariaten Fall auf mehrere, abhängige stetige Variablen. Die beeinflußenden kategoriellen Variablen heißen Faktorvariablen, die abhängigen stetigen Variablen heißen Responsevariablen. Wir beginnen mit einem Beispiel aus der Psychologie. Mit drei Gruppen von jeweils 5 Personen wird ein psychologischer Test durchgeführt. Gemessen wird eine stetige Größe, die wir als Testleistung bezeichnen. Wir gehen also von k = 3 Teilstichproben (Subpopulationen) aus mit jeweils gleichen Teilstichprobenumfängen (n 1 = n 2 = n 3 = 5), was im allgemeinen jedoch nicht erforderlich ist. Wir wollen nun einen Unterschied in den Testleistungen zwischen den Gruppen nachweisen. Unser Beispiel stellt eine einfaktorielle Varianzanalyse dar, denn wir wollen den Einfluß eines einzigen Faktors (die Gruppenzugehörigkeit) auf die Testleistung nachweisen. Wir bezeichnen die Testleistung der i-ten Person in der j-ten Gruppe mit y ij. Dabei wird vorausgesetzt, daß die Testleistungen y ij Realisierungen von unabhängigen, normalverteilten zufälligen Größen Y ij sind, mit dem Erwartungswert j und der Varianz 2. Wir schreiben dafür kurz: Y ij N( j, 2 ). Wir verwenden Kleinbuchstaben für Realisierungen von Zufallsvariablen. Für die Zufallsvariablen selbst verwenden wir Großbuchstaben, soweit dies ohne Verwechslungsgefahr möglich ist, denn bei Matrizen verwendetet man üblicherweise ebenfalls Großbuchstaben. Falls die Normalverteilungsvoraussetzung nicht erfüllt ist (dies kann z.b. mit dem Chiquadrat Anpassungstest oder mit dem Kolmogoroff-Smirnov Test überprüft werden), so kann ein nichtparametrisches Verfahren (Kruskal-Wallis) verwendet werden. Hierzu verweisen wir auf unser Buch Schuchmann, Sanns: Nichtparametrische Statistik mit Mathematica (siehe Literaturverzeichnis). Wie sie oben erkennen können, werden die Varianzen 2 als gleich vorausgesetzt. Diese Voraussetzung der Varianzhomogenität wird auch als Homoskedastizität bezeichnet. Wie Sie diese überprüfen können, zeigen wir später. Die Varianzanalyse trägt ihren Namen von dem in der klassischen Varianzanalyse gemachten Ansatz der Streuungszerlegung. Dabei wird die Gesamtstreuung (SST) der Beobachtungen y ij um das Gesamtmittel zerlegt in die Summe aus der Streuung zwischen den Gruppen (SSB) und der Streuung innerhalb der Gruppen (SSW). Die bei der Berechnung dieser Streuungen auftretenden Quadratsummen werden wir später immer wieder in Mathematica verwenden. Im multivariaten Fall sind die Quadratsummen keine skalaren Größen mehr, sondern Matrizen. Bei dem moderneren Ansatz der Varianzanalyse wird ein sogenanntes lineares Modell formuliert, mit dem Vorteil, daß man nicht nur, wie in der klassischen Varianzanalyse, einen Einfluß der Faktorvariablen auf die Responsevariablen qualtitativ nachweisen

7 Varianzanalyse Seite 7 kann, sondern darüber hinaus diesen Einfluß sogar quantitativ beschreiben kann. Dabei können Unterschiede mit sogenannten allgemeinen linearen Hypothesen überprüft werden. Auf Grund der Modellvoraussetzungen lassen sich die Y ij folgendermaßen darstellen: Y ij = j +E ij mit j = 1,..., k und i = 1,..., n j Aus den Voraussetzungen folgt: Die Fehlerterme (Residuen) E ij sind unabhängig und identisch normalverteilte Zufallsvariablen mit dem Erwartungswert 0 und der Varianz 2 2, kurz: E ij N(0, ). Im univariaten einfaktoriellen Fall lautet die Gleichung des linearen Modells in Komponentenschreibweise: (*) Y ij = 0 + j + E ij mit j = 1,..., k und i = 1,..., n j In unserem Beispiel ist k = 3 und n j =5. Es folgt für die oben eingeführten Parameter 0 und j : 1 0 = k k j1 j und j =. Hieraus ergibt sich die sogenannte Reparametrisierungsbedinung: k j j1 Die Hypothesen der Varianzanalyse lauten: (1) Nullhypothese: 1 = 2 =... = k = und 0 Alternativhypothese: Es existiert ein j {1,2,...,k} mit j Bezogen auf das lineare Modell lauten die Hypothesen, welche mit dem sogenannten globalen F-Test überprüft werden: (2) Nullhypothese: j = 0 für j {1,...,k} und Alternativhypothese: j 0 für mindestens ein j {1,...,k}. j

8 Seite 8 Varianzanalyse Bei der Verwendung eines linearen Modells ist folgendes zu beachten: Es kann bei SPSS sowohl ein Modell unter Einbeziehung von 0 ( mit Achsenabschnitt bzw. mit Konstante), als auch ein Modell ohne diesen Achsenabschnitt berechnet werden. Als Standard wird immer ein Modell mit Achsenabschnitt berechnet. Die Hypothesen (1) und (2) sind in diesem Fall äquivalent. Rechnet man aber mit einem Modell ohne Achsenabschnitt ( Modellgleichung: Y ij = j +E ij = j + E ij ), so gilt: j = j, womit die beiden Hypothesen nicht mehr äuquivalent sind. Die Nullhypothese (2) wäre dann äquivalent zur Hypothese, daß alle Erwartungswerte j gleich Null sind, gegen die Alternativhypothese, daß mindestens ein Erwartungswert ungleich Null ist. Zusammenfassend gilt: In einem Modell mit Achsenabschnitt ist die Hypothese (2) äquivalent zur Hypothese (1). Wir werden später ein Modell ohne Achsenabschnitt berechnen, da wir die Erwartungswerte der Gruppen schätzen wollen und testen dann die uns interessierende Hypothese (1). Zusätzlich führen wir dann für dieses Modell den Test mit der Hypothese (2) aus. In Matrix Vektor Schreibweise lautet das lineare Modell allgemein: Y X E Der hierin auftretende Vektor Y ergibt sich dadurch, daß die zufälligen Größen Y ij derart untereinander angeordnet werden, daß sie folgenden Spaltenvektor bilden: Y (Y t 11, Y21,..., Yn 1, Y12, Y22.,.., Yn 2,..., Yn k ) 1 2 k. Unsere Aufgabe wird im Beispiel mit Mathematica zunächst sein, den unbekannten Parametervektor zu schätzen. Die Matrix X heißt Designmatrix. In unserem Beispiel hat die Designmatrix die folgende Gestalt, wie man aus der Gleichung (*) erkennen kann:

9 Varianzanalyse Seite 9 Der Vektor hat vier Komponenten: Die erste Spalte der Designmatrix X enthält aufgrund des verwendeten Achsenabschnitts 0 nur Einsen. Die zweite Spalte enthält jeweils eine Eins in der Zeile, in der die Komponente des Vektors eine Beobachtung der ersten Gruppe enthält. Es stehen somit n 1 = 5 Einsen in der ersten Zeile. Danach folgen Nullen. Analog enthält die dritte Spalte in den Zeilen Einsen, in denen die Komponente des Vektors y eine Beobachtung der zweiten Gruppe enthält und sonst nur Nullen u.s.w.. Der Leser möge sich diesen Sachverthalt durch Ausmultiplizieren der Matrix-Vektor Gleichung klar machen. Hier tritt nun das Problem auf, daß die Designmatrix X nicht mehr, wie Sie es vielleicht aus der Regressionsanalyse kennen, spaltenregulär ist. Wie Sie sehen, ergibt sich die erste Spalte als Summe der zweiten bis vierten Spalte. Wir lösen in unserem Beispiel das Problem, indem wir eine Spalte der Designmatrix (hier die erste, die nur aus Einsen besteht) streichen. Dies führt zu einem Modell ohne Achsenabschnitt. Man könnte z.b. auch die letzte Spalte streichen (wie dies in SPSS automatisch getan wird, falls man nicht die Option Konstanten Term in das Modell einschließen deaktiviert). Dabei bleibt dann der Achsenabschnitt in der Modellgleichung erhalten. Je nachdem, wie man hier vorgeht, ist der Parametervektor (der dann natürlich eine Komponente weniger enthält) auf eine andere Art zu interpretieren. In unserem Fall enthält b als Schätzer für den unbekannten Parametervektor die jeweiligen Gruppenmittelwerte (als Schätzer für die entsprechenden Erwartungswerte). Im zweifaktoriellen Fall müßten entsprechend zwei Spalten gestrichen werden. Auf diese Möglichkeiten, eine spaltenreguläre Designmatrix zu erzeugen, gehen wir später noch genauer ein. Wir gehen außerdem davon aus, daß die Werte in der Designmatrix voreingestellt (d.h. nicht stochastisch) sind. Es handelt sich also um eine Varianzanalyse mit festen Effekten. Dies ist in unserem Beispiel der Fall, da wir drei Gruppen von Personen gewählt haben und nicht zufällig drei Gruppen entstanden sind. Die einzige stochastische Größe auf der rechten Seite der Modellgleichung ist also der Fehler(zufalls)vektor, dessen Komponenten E ij, wie bereits beschrieben, normalverteilt sind mit dem Erwartungswert j und der Varianz 2. Da die Komponenten von paarweise stochastisch unabhängig sind gilt: Var( ) = 2 I E E Kommen wir nun zur Parameterschätzung. Den Parametervektor schätzen wir über die Methode der kleinsten Quadrate, d.h. wir verwenden denjenigen Vektor als t Schätzer, der die folgende Funktion Q minimiert : Q( ) ( y X ) ( y X ). Mit den y E

10 Seite 10 Varianzanalyse Methoden der Analysis kann gezeigt werden, daß = die Funktion Q minimiert, falls X t X positiv definit ist. Dies gilt immer, falls X spaltenregulär ist. t ( X X) 1 t X y

11 Varianzanalyse Seite Parameterschätzung im linearen Modell In der Praxis ist zunächst die Datenmatrix V gegeben. Die erste Spalte dient der Zuordnung der beobachteten Werte zu den einzelnen Gruppen und die zweite Spalte enthält die jeweilige Beobachtung (Testleistung). In SPSS wird bei der Varianzanalyse die erste Spalte der Datenmatrix als die unabhängige Variable bezeichnet und die zweite Spalte als die abhängige Variable. Wir müssen nun in Mathematica zuerst die Designmatrix X mit Hilfe der ersten Spalten von V erzeugen. Die zweite Spalte stellt unseren abhängigen Vektor y in der Modellgleichung dar. Es ist zu bemerken, daß eine Matrix in Mathematica als eine Liste (definiert durch geschweifte Klammern) von Listen dargestellt wird. Dabei sind die inneren Listen die jeweiligen Zeilen der Matrix. Der Einfachheit halber geben wir die Spalten der Matrix V zunächst als Zeilen ein und transponieren diese vor der Übergabe in die Variable V. Dadurch werden beim Hinschreiben einige Klammern eingespart. Lassen Sie in der unten stehenden Anweisung die Option //MatrixForm weg, so erkennen Sie, wie die Matrix als Liste von Mathematica dargestellt wird. Bei allen statistischen Berechnungen mit Mathematica sollten Sie zu Beginn mittels der Needs-Anweisung den Statistics`Master laden, um alle Statistik-Anweisungen zur Verfügung zu haben: Needs["Statistics`Master`"] V=Transpose[{{1,1,1,1,2,2,2,1,2,3,3,3,2,3,3},{10,15,14,12,8,12,7,8,9,4,8,6,14,7,5}}]; V//MatrixForm Die Anzahl der Elemente einer Liste kann mit der Length-Anweisung festgestellt werden. Mit dieser bestimmen wir nun den Gesamtstichprobenumfang n und die Anzahl k der Gruppen: Dabei wird der folgende Trick angewandt: Die Union-Anweisung bewirkt, daß aus einer Liste alle doppelten Elemente eliminiert werden. Wenn wir diese, wie in unserem Fall, auf die erste Spalte der Datenmatrix V

12 Seite 12 Varianzanalyse anwenden, erhalten wir eine Liste aller vorkommenden Zahlenwerte ({1,2,3}), die alle nur einfach aufgeführt werden. Die Länge der Liste entspricht dann der Anzahl der Gruppen bzw. Kategorien/Ausprägungen des Faktors. n=length[v] k=length[union[transpose[v][[1]]]] 15 3 Nun wird V mit der Sort-Anweisung sortiert. Gelegentlich schreiben wir die Erklärung einer Anweisung auch als Kommentar eingeschlossen zwischen (* bzw. *) direkt im Mathematica-Code dazu. VS=Sort[V]; (* V wird nach den Gruppen 1 bis 3 sortiert *) Nun erzeugen wir die Designmatrix X über eine geschachtelte Table-Anweisung, die überdies eine If-Bedingung enthält: X=Table[Table[If[Transpose[VS][[1]][[i]]==j,1,0],{j,1,k}],{i,1,n}]; X//MatrixForm Wir wählen die zweite Spalte der Matrix VS und übergeben diese in eine Liste y: y=transpose[vs][[2]]; Bemerkung: Mit der folgenden Anweisung könnte die Anzahl der Personen in der j-ten Gruppe berechnet werden. Als Beispiel berechnen wir mit ni[1] die Anzahl der Personen in der ersten Gruppe. ni[j_]:=count[transpose[vs][[1]],a_/;a==j];

13 Varianzanalyse Seite 13 ni[1] 5 In unserem Beispiel haben alle drei Gruppen (Subpopulationen) den gleichen Stichprobenumfang, was im allgemeinen nicht notwendig ist. Die Designmatrix wurde von uns bereits spaltenregulär definiert, indem wir die (ursprünglich) erste Spalte, die nur Einsen enthielt, ausgelassen haben, was zu einem Modell ohne Achsenabschnitt führt. Es folgt die Schätzung des unbekannten Parametervektors Methode der kleinsten Quadrate: b=inverse[transpose[x].x].transpose[x].y; b//matrixform//n durch b mit Hilfe der Da die Designmatrix so definiert wurde, daß die j-te Komponente des Vektors b den Mittelwert der j-ten Gruppe bezüglich der Testleistungen enthält, hat demnach die erste Gruppe im Schnitt 11.8, die zweite 10 und die dritte 6 Punkte erreicht. Im nächsten Schritt berechnen wir die Quadratsummen der Varianzzerlegung SST = SSW + SSB (SST = Sum of Squares Total, SSW = Sum of Squares within Groups, SSB = Sum of Squares between Groups). Danach wird der F-Test durchgeführt (mit der Hypothese (1)). Falls mit diesem F-Test ein signifikanter Unterschied nachgewiesen werden kann, so unterscheidet sich mindestens eine Gruppe in ihren Punktzahlen von den anderen Gruppen. In MS (Mean Squares) werden die mittleren Quadratsummen, d.h., die Quadratsummen SofS, geteilt durch die entsprechenden Freiheitsgrade df, gespeichert. f stellt die Prüfgröße dar: my=apply[plus,y]/length[y]; SSW=(y-X.b).(y-X.b); SSB=(X.b-my).(X.b-my); SST=(y-my).(y-my); SofS={SSB,SSW,SST}; SofS//N { ,76.8, } df={k-1,n-k,n-1}

14 Seite 14 Varianzanalyse {2,12,14} MS=SofS/df; MS//N { ,6.4,11.781} Zur Berechnung des p-wertes (Prob) benötigen wir die CDF-Funktion von Mathematics ( Cumulated Density Function ) und die F-Verteilung (FRatioDistribution): f=ms[[1]]/ms[[2]]; f//n Prob=1-CDF[FRatioDistribution[df[[1]],df[[2]]],f]//N Aufgrund des Wertes von Prob von 0, (<0,05) kann ein signifikanter Unterschied auf dem 5% Niveau zwischen den Leistungen der Gruppen nachgewiesen werden. Falls keine andere Vereinbarung getroffen wird, testen wir immer auf dem 5% Niveau. Wir geben nun noch die Quadratsummen und den globalen F-Test aus, entsprechend den Hypothesen (2) und somit passend zu dem von uns berechneten NO INTERCEPT Modell, das heißt dem Modell ohne Achsenabschnitt (SPSS: ohne Konstante): SST1=y.y 1453 SSB1=b.Transpose[X].y//N SSW1=SST1-SSB1//N 76.8 Der Anteil des Achsenabschnitts an der Quadratsumme SSB ergibt sich durch: SSB1-SSB Mit diesen Quadratsummen kann nun auch das Bestimmtheitsmaß unseres Modells

15 Varianzanalyse Seite 15 berechnet werden: RSquare=SSB1/SST Unser lineares Modell paßt demnach sehr gut, denn der Wert von Rsquare liegt nahe bei 1. Berechnen wir nun den F-Test mit der Prüfgröße f1, der natürlich in unserem Modell ein signifikantes Ergebnis liefern muß (da alle Erwartungswerte ungleich Null sein müßten): MSSW1=SSW1/(n-k); MSSB1=SSB1/k; f1=mssb1/mssw P1=1-CDF[FRatioDistribution[k,n-k],f1] *10^-8 Aufgrund des p-werts (P1) kann die Nullhypothese verworfen werden. Zur Erinnerung: Diese lautete: Alle Modellparameter bis auf den Achsenabschnitt sind gleich Null, was in unserem Modell ohne Achsenabschnitt mit der Nullhypothese identisch ist, daß alle Erwartungswerte der Gruppen gleich Null sind. Die Alternativen in lauteten in beiden Fällen, daß diese ungleich Null sind. Dies ist in unserem Beispiel mit den entsprechend hohen mittleren Punktzahlen (Testleistungen) auch zu erwarten. Bemerkung: Wie bereits beschrieben, gäbe es mehrere Möglichkeiten der Verwendung einer spaltenregulären Designmatrix. Die zweite Möglichkeit (wir bezeichnen die Möglichkeit der Streichung der ersten Spalte der ursprünglich nicht spaltenregulären Designmatrix als die erste Methode), eine spaltenreguläre Designmatrix zu erhalten, besteht darin, die folgende Kodierung vorzunehmen: X i0 =1, d.h. die erste Spalte enthält nur Einsen 1 X ij 0 1 falls falls falls die Beobachtung in der i ten Zeile von Y der j ten ( j 1,2,...,k 1) Kategorie angehört die Beobachtung in der i ten Zeile von Y nicht der j ten ( j 1,2,...,k 1) Kategorie angehört die Beobachtung in der i ten Zeile von Y der k ten Kategorie angehört Diese Kodierung ergibt sich durch die Reparametrisierungsbedingung:

16 Seite 16 Varianzanalyse k k1 0 j j1 j1 j k Der Vorteil dieser Kodierung liegt darin, daß man auch bei zweikategoriellen Modellen eine spaltenreguläre Designmatrix erhält, was beim Streichen der ursprünglich ersten Spalte nicht der Fall ist. Bei der Kodierung der zweiten Faktorvariable kann dann analog vorgegangen werden. In unserem Beispiel würde sich mit der oberen Kodierung die folgende Designmatrix ergeben: kod[i_,j_]:=1/;or[and[transpose[vs][[1]][[i]]==j, Transpose[VS][[1]][[i]]<k],j==0] kod[i_,j_]:= 0/;And[Transpose[VS][[1]][[i]]j, 1<=Transpose[VS][[1]][[i]]<k] kod[i_,j_]:=-1/;transpose[vs][[1]][[i]]==k X2=Table[Table[kod[i,j],{j,0,k-1}],{i,1,n}]; X2//MatrixForm i y k { Das Ungleichheitszeichen kann bei älteren Mathematica-Versionen auch mit Kleiner- Größer-Zeichen eingeben werden ( <> ). Durch die andere Kodierung ergeben sich entsprechend andere Schätzer: b2=inverse[transpose[x2].x2].transpose[x2].y; b2//matrixform//n

17 Varianzanalyse Seite 17 i y k { Mit der von uns definierten Designmatrix X erhält man als Schätzer für den unbekannten Parametervektor die Gruppenmittel (das heißt die Mittelwerte innerhalb der ersten, zweiten und dritten Subpopulation. Verwendet man die Designmatrix X2, so erhält man als Schätzer für die erste Komponente ( ) das Gesamtmittel und für die zweite bzw. dritte Komponente das erste bzw. zweite Gruppenmittel minus dem Gesamtmittel. Berechnet man eine Prognose für y mit der ersten oder zweiten Methode, so gibt es keine Unterschiede. Die Prognose entspricht jeweils dem Gruppenmittel. X2.b2//N 811.8, 11.8, 11.8, 11.8, 11.8, 10., 10., 10., 10., 10., 6., 6., 6., 6., 6.< X.b//N 811.8, 11.8, 11.8, 11.8, 11.8, 10., 10., 10., 10., 10., 6., 6., 6., 6., 6.< SPSS verwendet, wie bereits beschrieben, als voreingestellte Methode die, welche die letzte Spalte der ursprünglich nicht spaltenregulären Desigmatrix streicht: X3=Table[Table[If[Or[Transpose[VS][[1]][[i]]==j,j==0],1,0], {j,0,k-1}],{i,1, n}]; X3//MatrixForm i y k { Mit dieser Designmatrix ergibt sich der folgende Schätzer: b3=inverse[transpose[x3].x3].transpose[x3].y; b3//matrixform//n

18 Seite 18 Varianzanalyse i 6. y 5.8 k 4. { Die erste Komponente des oberen Vektors entspricht dem Mittel der letzten Gruppe (der k-ten = 3-ten Gruppe). Die zweite Komponente entspricht der Differenz aus dem ersten und dem dritten Gruppenmittel. Entsprechend ergibt sich die dritte Komponente aus der Differenz des zweiten und des dritten Gruppenmittels. Dies hat ebenfalls keinen Einfluß auf die Prognose für y: X3.b3//N 811.8, 11.8, 11.8, 11.8, 11.8, 10., 10., 10., 10., 10., 6., 6., 6., 6., 6.< SPSS verwendet diese Methode auch bei Modellen mit mehr als einer Faktorvariable. Dabei werden entsprechend weitere Spalten zur Desigmatrix hinzugefügt, wobei jeweils die Spalte, für die letzte Kategorie weggelassen wird. Dabei besteht nur die erste Spalte ganz aus Einsen.

19 Varianzanalyse Seite Allgemeine lineare Hypothese Als nächstes stellen wir noch einen Test vor, der die allgemeine lineare Hypothese der folgenden Form testet: Nullhypothese: A c gegen Alternativhypothese: A c Hierbei ist A eine Matrix mit beliebig vielen Zeilen und k Spalten. Im Allgemeinen müssen noch Voraussetzungen bezüglich dieser Matrix gemacht werden, damit die allgemeine lineare Hypothese getestet werden kann. Eine allgemeine lineare Hypothese heißt testbar, falls der Kern der Matrix A ein Unterraum des Kerns der Designmatrix X ist. Wir wollen nun in unserem vorhergegangenen Beispiel die Hypothese testen, daß die Schüler der Gruppe 1 im Schnitt die gleiche Punktzahl wie die Schüler der Gruppe 3 erreichen. Wir testen demnach die Nullhypothese: 1 = 3 gegen die Alternativhypothese: 1 3. Diesen Test können wir auf diese Art durchführen, da wir ein Modell ohne Achsenabschnitt verwendet haben (in dem gilt j = j ) Hierzu definieren wir die Matrix A und den Vektor c. Danach berechnen wir die Prüfgröße pg und führen den Test durch: A={{1,0,-1}}; c={{0}}; Xt=Transpose[X]; XtXi=Inverse[Xt.X]; pg=transpose[a.b-c].inverse[a.xtxi.transpose[a]].(a.b-c)/((ssw/(n-k))* Length[c])//N 1-CDF[FRatioDistribution[Length[c],n-k],pg] {{ }} {{ }} Wie aufgrund des Werts von 0, (< 0,05) zu sehen ist, kann die Hypothese verworfen werden, daß die Schüler der Gruppe 1 im Schnitt die gleiche Punktzahl erreichen wie die Schüler der Gruppe 3.

20 Seite 20 Varianzanalyse Multiple Vergleiche nach Scheffé Im Rahmen der einfaktoriellen Varianzanalyse konnten wir einen signifikanten Unterschied zwischen den Punktzahlen der einzelnen Gruppen nachweisen. Hiermit wissen wir nun, daß sich mindestens zwei Erwartungswerte signifikant unterscheiden, aber nicht welche. Insgesamt werden k k k 1 2 ( ) 2 Vergleiche durchgeführt. Es gibt eine Reihe von Testverfahren, mit denen man einen sogenannten multiplen Vergleich durchführen kann. Eines dieser Verfahren, den Test von Scheffé, stellen wir im Folgenden vor. Dieser Test setzt, wie bereits die Varianzanalyse, voraus, daß die Subpopulationen aus einer normalverteilten Grundgesamtheit stammen. Hierbei können die einzelnen Stichprobenumfänge n j auch verschieden sein. Gestet werden dann die folgenden Hypothesen: Nullhypothese: gegen m Alternativhypothese: j m j,m {1,...,k} und j m j Wir beziehen uns auf das vorhergehende Beispiel und geben nochmals den Schätzer b aus, der so bestimmt wurde (durch die Wahl der Designmatrix X), daß dessen j-te Komponente den Mittelwert der j-ten Subpopulation darstellt (bzw. einen Schätzer für den ensprechenden Erwartungswert j ): b//n {11.8,10.,6.} k (* Anzahl der Gruppen bzw. Subpopulationen *) 3 Nun berechnen wir die Matrix d der Mittelwertsdifferenzen (hier wurde ein kleiner Buchstabe für eine Matrix verwendet, da D von Mathematica für den Differentialoperator vorbesetzt ist): d=table[table[b[[i]]-b[[j]],{j,1,k}],{i,1,k}];

21 Varianzanalyse Seite 21 d//n//matrixform Es folgt die Berechnung der p-werte ProbS[i,j] zur Testdurchführung bezüglich der Erwartungswerte i und j : ProbS[i_,j_]:=1-CDF[FRatioDistribution[k-1,n-k], d[[i,j]]^2/((k-1)ssw(1/ni[i]+1/ni[j]))(n-k)] Table[Table[ProbS[i,j],{j,1,k}],{i,1,k}]//N//MatrixForm Wie zu sehen ist, stehen auf der Hauptdiagonalen der oberen Matrix nur Einsen, da hier jeweils der j-te Erwartungswert mit sich selbst verglichen wird. Aufgrund des zweiseitigen t-tests ist diese Matrix natürlich symmetrisch. Einen signifikanten Unterschied gibt es nur zwischen dem ersten und dem dritten Erwartungswert (ProbS[1,3] = 0, < 0,05). Zwischen dem ersten und dem zweiten (ProbS[1,2] = 0, > 0,05) und dem zweiten und dem dritten (ProbS[2,3] = 0, > 0,05) kann kein Unterschied nachgewiesen werden.

22 Seite 22 Varianzanalyse Test auf Heteroskedastizität Wie wir bereits beschrieben haben, ist die Homoskedastizität eine Voraussetzung in der Modellannahme zur Varianzanalyse. Diese Voraussetzung wäre eigentlich vor der Durchführung einer Varianzanalyse zu prüfen. Hierzu stellen wir den folgenden Test auf Heteroskedastizität vor, mit den Hypothesen: Nullhypothese: 1 = 2 =... = k gegen die Alternativhypothese: m j für mindestens ein j und ein m mit j m (j, m {1,2,3}) Wir berechnen im vorhergehenden Beispiel zunächst den Vektor z, der die Abweichungsbeträge vom jeweiligen Gruppenmittel enthält: z=abs[y-x.b]; z//matrixform//n Mit z wird dann eine Varianzanalyse durchgeführt, wobei y (die linke Seite der Modellgleichung) durch z ersetzt wird. Kommt man beim F-Test zum Verwerfen, so wird die Nullhypothese und somit die Varianzhomogenität verworfen. In diesem Fall wäre eine grundlegende Voraussetzung der eigentlichen Varianzanalyse verletzt. Dieser Test (benannt nach Levene) wird oft nicht mit dem F-Test der Varianzanalyse durchgeführt, sondern mit dem Test nach Kruskal und Wallis (siehe Schuchmann, Sanns: Nichtparametrische Statistik mit Mathematica, Literturverzeichnis), der keine Normalverteilung voraussetzt. Wir verwenden hier die Brown-Forsythe-Version des Levene-Tests. Hierbei sollten aber die Stichprobenumfänge der Gruppen n j 10 sein (dies ist in unserem Beispiel nicht der Fall, da wir uns auf kleine Beispiele beschränkt haben, damit diese einfach nachzuvollziehen sind).

23 Varianzanalyse Seite 23 Wir berechnen nun, wie üblich, über die Methode der kleinsten Quadrate, den Schätzer bz. Danach berechnen wir die entsprechenden Quadratsummen zur Varianzanalyse, sowie die Prüfgröße fz, mit der wir den Test durchführen: bz=inverse[transpose[x].x].transpose[x].z; bz//matrixform//n (* F-Test *) mz=apply[plus,z]/length[z]; SSWz=(z-X.bz).(z-X.bz); SSBz=(X.bz-mz).(X.bz-mz); SSTz=(z-mz).(z-mz); SofSz={SSBz,SSWz,SSTz}; SofSz//N { ,15.712, } DF={k-1,n-k,n-1}; MSz=SofSz/DF; MSz//N fz=msz[[1]]/msz[[2]]; fz//n Prob=1-CDF[FRatioDistribution[DF[[1]],DF[[2]]],fz]//N { , , } Die Varianzhomogenität kann nicht verworfen werden (Prob > 0,05). Demnach ist in unserem Beispiel diese Voraussetzung der Varianzanalyse nicht verletzt. In diesem Fall wäre auch ein höheres Signifikanzniveau angebracht.

24 Seite 24 Varianzanalyse 1.2 SPSS Zunächst müssen Sie die Daten, wie unten zu sehen ist, eingeben. Dazu müssen Sie in SPSS eine Variable x und eine Variable y definieren. Dafür klicken Sie jeweils doppelt auf die ersten beiden Überschriften var der Spalten des Eingabebereichs. Vergeben Sie die Namen x und y und geben Sie die Daten ein. (Näheres zum Einstieg in SPSS finden Sie in unserem Buch Schuchmann, Sanns: Statistik transparent mit SAS, SPSS, Mathematica, siehe Literaturverzeichnis) Es gibt mehrere Möglichkeiten mit SPSS eine einfaktorielle Varianzanalyse durchzuführen. Wir tun dies über die Menüpunkte Statistik Mittelwerte vergleichen Einfaktorielle ANOVA. Sie erhalten das folgende Menü, in dem Sie die Variable y als abhängige und die Variable x als unabhängige Variable festlegen müssen (dazu klicken Sie jeweils auf die Variable im linken Feld und drücken danach den Button mit dem Pfeil nach rechts).

25 Varianzanalyse Seite 25 Wählen Sie Kontraste. Mit Hilfe der Kontrast-Anweisung wollen wir die Hypothesen testen: Nullhypothese: 1 = 3 ( bzw (-1) 3 = 0) Alternativhypothese: 1 3 Entsprechend müssen wir in SPSS die Koeffizienten 1, 0 und 1 eingeben. Es sei bemerkt, daß die obere lineare Hypothese bereits mit dem multiplen Vergleich nach Scheffé überprüft wird. Uns dient dieser Fall allerdings nur als Beispiel für die Formulierung von linearen Hypothesen. Kommen wir zur Eingabe der Koeffizienten in SPSS: Hinzufügen wählen (siehe unten), danach Weiter. Wir möchten mit SPSS auch einen multiplen Vergleich mit dem Scheffé-Test durchführen. Hierzu müssen Sie Posthoc Scheffé wählen, womit Sie das untere Menü erhalten. Wählen Sie hier Scheffé und dann Weiter.

26 Seite 26 Varianzanalyse Um einen Test auf Heteroskedastizität durchführen zu lassen, müssen Sie Optionen Homogenität der Varianzen wählen und dann Weiter. Mit OK erhalten Sie die Ausgabe. Bitte vergleichen Sie diese mit den Werten, die wir mit Mathematica zuvor berechnet haben. Die erste Tabelle enthält die Levene-Statistik und den p-wert (Signifikanz). Aufgrund des p-wertes kann die Nullhypothese der Gleichheit der Varianzen nicht verworfen werden. Da die Varianzhomogenität eine Voraussetzung der Varianzanalyse ist und man somit zeigen möchte, daß nichts gegen die Nullhypothese spricht, sollte hier immer ein hohes Signifikanzniveau gewählt werden. Man kann in unserem Beispiel aber selbst bei einem Signifikanzniveau von 20% die Nullhypothese nicht verwerfen (da > 0.20). Auf diese Art kann aber trotzdem nicht die Nullhypothese nachgewiesen werden, da der Fehler 2. Art (d.h. der Fehler, den man macht, falls man eine falsche Nullhypothese annimmt) unbekannt ist. Die zweite Tabelle enthält das Tableau der Varianzanalyse mit dem p-wert zum globalen F-Test.

27 Varianzanalyse Seite 27 Y Test der Homogenität der Varianzen Lev ene-statistik df 1 df 2 Signifikanz 1, ,238 ANOVA Y Zwischen den Gruppen Innerhalb der Gruppen Gesamt Mittel der Quadratsumme df Quadrate F Signifikanz 88, ,067 6,885,010 76, , , Die Nullhypothese der Gleichheit der Erwartungswerte kann aufgrund des p-wertes von (< 0.05) verworfen werden. Kontrast-Koeffizienten Kontrast 1 X Y Varianzen sind gleich Varianzen sind nicht gleich Kontrast 1 1 Kontrast-Tests Signifikanz Kontrastwert Standardf ehler T df (2-seitig) 5,80 1,60 3,625 12,003 5,80 1,46 3,965 6,232,007 Da nichts gegen die Annahme der Gleichheit der Varianzen spricht, kann in der oberen Tabelle die erste Zeile verwendet werden. Wir hatten mit der Kontrast-Anweisung die Nullhypothese überprüft, daß der Erwartungswert der ersten Gruppe gleich dem der dritten Gruppe ist (gegen die Alternative, daß diese verschieden sind). Hier kann die Nullhypothese verworfen werden (0.003 < 0.05). In der unteren Tabelle sehen Sie die p-werte (Spalte Signifikanz) des Scheffé-Tests. In der zweiten Spalte sind die Differenzen der Gruppenmittel zu sehen. Die größte Differenz gibt es zwischen der ersten und der dritten Gruppe und diese ist signifikant (dies wird mit einem Stern bei der Differenz angedeutet).

28 Seite 28 Varianzanalyse Abhängige Variable: Y Schef fé-prozedur Mehrfachvergleiche (I) X (J) X Mittlere Dif f erenz 95%-Konf idenzintervall (I-J) Standardf ehler Signifikanz Untergrenze Obergrenze 1,80 1,600,548-2,66 6,26 5,80* 1,600,012 1,34 10,26-1,80 1,600,548-6,26 2,66 4,00 1,600,081 -,46 8,46-5,80* 1,600,012-10,26-1,34-4,00 1,600,081-8,46,46 *. Die mittlere Dif ferenz ist auf der Stuf e.05 signifikant. Schef fé-prozedur a X Signifikanz Y Untergruppe f ür Alpha =.05. N , ,00 10, ,80,081,548 Die Mittelwerte für die in homogenen Untergruppen befindlichen Gruppen werden angezeigt. a. Verwendet ein harmonisches Mittel f ür Stichprobengröße = 5,000. Bemerkung: Sie können eine Varianzanalyse auch über die folgende Wahl der Menüpunkte durchführen: Statistik Allgemeines Lineares Modell GLM Allgemein mehrfaktoriell.

29 Varianzanalyse Seite 29 Bemerkung zur univariaten zweifaktoriellen Varianzanalyse: Der zweifaktoriellen Varianzanalyse liegt das folgende lineare Modell zu Grunde: Y ijm = + i + j + E ijm mit 1 m n ij i erfaßt den Einfluß der i-ten Kategorie (i = 1,..., a) des ersten Faktors und j erfaßt den Einfluß der j-ten Kategorie (j = 1,..., b) des zweiten Faktors. Die Annahmen sind die gleichen, wie bei der einfaktoriellen Varianzanalyse. Wir haben das Modell gleich allgemein für unbalancierte Daten definiert (die Stichprobenumfänge der Subpopulationen können unterschiedlich groß sein). Im zweifaktoriellen Fall lauten die Reparametrisierungsbedingungen: a i1 a1 i 0 i i1 a bzw. b j1 b1 j 0 j j1 b Faßt man die Komponenten i und j zu dem Vektor T i, j) ( zusammen, und definiert man die Designmatrix X analog der Designmatrix X2 (im Mathematica Beispiel) über die Reparametrisierungsbedingung, so enthält die erste Spalte nur Einsen, die nächsten a-1 Spalten werden analog dem einfaktoriellen Fall definiert. Es folgen b-1 Spalten für die Kodierung der Kategorien des zweiten Faktors ebenfalls analog zum einfaktoriellen Fall. Dabei verwenden wir wieder den Trick, daß sich (wie oben zu sehen) jeweils die Parameter für die letzte Kategorie durch die der anderen ausdrücken lassen. Berücksichtigt man Wechselwirkungsterme ij, so lautet die Modellgleichung wie folgt: Y ijk = + i + j + ij + E ijk mit 1 k n ij SPSS rechnet bei zweifaktoriellen Modellen immer automatisch mít Wechselwirkungstermen. Diese können aber auch durch eine Option (im Menü Modell) ausgeschaltet werden. Ein Modell mit Wechselwirkungen nennt man auch saturiertes Modell. Für die Wechselwirkungsterme lauten die Reparametrisierungsbedingungen: a a1 ij 0 ij aj i1 i1 b b1 ij 0 ij ib j1 j1, für j 1,.., b, für i 1,..,a bzw.

30 Seite 30 Varianzanalyse 1.3 Multivariate Varianzanalyse Das lineare Modell der multivariaten Varianzanalyse entspricht dem der einfachen Varianzanalyse, nur daß hier auf der linken Seite der Modellgleichung kein Vektor, sondern eine Matrix Y steht. Entsprechend sind die unbekannten Parameter in einer Matrix (bzw. die Schätzer in der Matrix B) und die Fehler in einer Matrix E zusammengefaßt. In Analogie zur univariaten Varianzanalyse lauten die Hypothesen: Nullhypothese: g gegen Alternativhypothese: i j für mindestens ein i und ein j mit i j (i,j {1,2,..,g}) Dabei ist j der t-dimensionale Erwartungswertvektor der j-ten Gruppe. t enspricht demnach der Anzahl der Spalten unserer abhängigen Matrix Y (Y ist eine tn Matrix) auf der linken Seite der Modellgleichung. In unserem Beispiel gehen wir nun davon aus, daß wir jeweils drei Schüler bzw. Schülerinnen aus g = 2 parallelen Klassen (allgemein g Gruppen) ausgewählt haben. Von diesen wurden die Punktzahlen in t = 3 Fächern in der Matrix Y erfaßt. Es soll nun untersucht werden, ob es zwischen den beiden Klassen Unterschiede in den Leistungen bezüglich dieser drei Fächer gibt. Zunächst berechnen wir wieder den Hilfsvektor m, der n Einsen enthält und danach die Hilfsmatrix Mittel, welche die Mittelwerte der Spalten von Y enthält: Needs["Statistics`Master`"] Y={{12,11,14},{10,12,15},{12,14,13},{8,5,4},{7,8,5},{8,5,8}}; Y//MatrixForm n=length[y]; m=table[{1},{n}]; Mittel=1/n*m.Transpose[m].Y; Mittel//MatrixForm//N

31 Varianzanalyse Seite Die Designmatrix X und die Matrix B (die erste Spalte, welche nur Einsen enthält, wurde wieder aus der Designmatrix gestrichen) sehen folgendermaßen aus. Die Komponenten von B entsprechen, analog zum univariaten Fall (falls ein Modell ohne Achsenabschnitt verwendet wird) den Gruppenmitteln. Das bedeutet B jm (j = 1,...,g und m = 1,..., t) ist der Mittelwert der j-ten Gruppe in der m-ten Spalte von Y. Entsprechend ist die j-te Zeile von B ein Schätzer für. X={{1,0},{1,0},{1,0},{0,1},{0,1},{0,1}}; X//MatrixForm j Der Schätzer für die unbekannte Parametermatrix in einem Modell ohne Achsenabschnitt: B=Inverse[Transpose[X].X].Transpose[X].Y; B//MatrixForm//N Als nächstes folgt die Varianzzerlegung T = Zw + W. Bei der multivariaten Varianzanalyse stellen die Komponenten dieser Gleichung keine skalaren Größen mehr da, sondern es handelt sich hierbei um Matrizen mit t Zeilen und Spalten, welche die Abweichungsquadrate analog zur Varianzzerlegung im univariaten Fall enthalten. T ist die Matrix der Gesamtstreuung, Zw erfaßt die Streuung zwischen den Gruppen und W die Streuung innerhalb der Gruppen: T=Transpose[(Y-Mittel)].(Y-Mittel); T//MatrixForm//N

32 Seite 32 Varianzanalyse W=Transpose[Y-X.B].(Y-X.B); W//MatrixForm//N Zw=T-W; Zw//MatrixForm//N Wir berechnen nun die Teststatistik Wilks (Lambda) in Analogie zur Prüfgröße f im univariaten Fall. Diese Größe ist eine Realisierung einer -verteilten Zufallsvariable. Da die Berechnung der Quantile dieser Verteilung sehr aufwendig ist, werden in der Praxis mit Hilfe dieser Teststatistik einige Prüfgrößen mit bekannter approximativer Verteilung berechnet. Wir werden später eine dieser Approximationen berechnen. Die Teststatistik Wilks wird auch bei anderen multivariaten Verfahren verwendet, wie wir noch sehen werden. Lambda=Det[W]/Det[T]; Lambda//N Über die Matrix der Gesamtstreuung T läßt sich die empirische Varianz- Kovarianzmatrix berechnen: S=T/(n-1); S//MatrixForm//N Bevor wir den approximativen F-Test zur multivariaten Varianzanalyse durchführen, berechnen wir die Matrix Mat, mit deren Hilfe einige weitere Teststatistiken der

33 Varianzanalyse Seite 33 multivariaten Varianzanalyse berechnet werden können (diese werden auch zusätzlich bei den meisten Statistikprogrammpaketen ausgegeben). Mat=Inverse[W].Zw; Mat//MatrixForm//N Die erste Teststatistik, bekannt als Pillai's Trace (Pillai s Spur), berechnet sich wie folgt: Max[Eigenvalues[Mat]]/(Max[Eigenvalues[Mat]]+1)//N Pillai's Trace ist eine Realisierung einer -verteilten zufälligen Größe. Im Folgenden berechnen wir eine Teststatistik genannt Hotelling-Lawley Trace (Hotelling-Lawley Spur) oder auch die hier äquivalente Größe Roy's Greatest Root (Roy s größter Eigenwert): Apply[Plus,Eigenvalues[Mat]]//N Mit den beiden oben berechneten Teststatistiken können ebenfalls approximative F- Tests durchgeführt werden. Wir betrachten nun wieder die Größe Wilks (Lambda) und programmieren mit dieser einen approximativen F-Test: t=length[transpose[y]] g=length[transpose[x]] 3 2 n1 = t*(g - 1); s = Sqrt[(t^2*(g - 1)^2-4)/((g - 1)^2 + t^2-5)]; n2 = s*(-(1/2)*(g + t) + n - 1) - 1/2*(t*(g - 1) - 2); f = (1 - Lambda^(1/s))/(Lambda^(1/s))*n2/n1; f//n Needs["Statistics`Master`"] Prob = 1 - CDF[FRatioDistribution[n1,n2], F] // N

34 Seite 34 Varianzanalyse Es besteht also nach diesem approximativen F-Test ein signifikanter Unterschied in den Punktzahlen bzgl. der drei Fächer (Prob < 0,05). Literatur: [2],[3],[4],[5],[6],[7],[9],[12],[13]

35 Varianzanalyse Seite SPSS Zunächst müssen Sie wieder die Daten eingeben (siehe unten). Dazu haben wir die abhängigen Variablen y1, y2 und y3 definiert und die unabhängige Variable x. Nun müssen Sie Statistik Allgemeines lineares Modell GLM multivariat wählen und Sie erhalten das folgende Menü.

36 Seite 36 Varianzanalyse Wie Sie oben sehen können, haben wir bereits die Variabeln ausgewählt. Wählen Sie danach OK. Sie erhalten die folgende Ausgabe. In der ersten Tabelle finden Sie die Ausprägungen der unabhängigen Variable mit den Stichprobenumfängen der Subpopulationen. In der Tabelle mit der Überschrift Multivariate Tests sehen Sie die bereits mit Mathematica beschriebenen multivariaten Kenngrößen. Wir betrachten die Zeile, die mit X gekennzeichnet ist. Da wir uns für einen Unterschied zwischen den Gruppen interessieren, ist die Zeile Intercept für uns nicht relevant (ob der Achsenabschnitt signifikant von Null verschieden ist, ist für den Unterschied nicht von Interesse). Zwischensubjektfaktoren X 1 2 N 3 3 In der Zeile X wird der Einfluß der kategoriellen Variable x auf die abhängigen Variablen untersucht. In der Zeile zu Wilk s Lambda finden Sie die Prüfgröße nach Wilk und am Ende der gleichen Zeile den enstprechenden p-wert. Dabei kann auf unserem üblichen Signifikanzniveau von 5% ein Einfluß der kategoriellen Variable x (p-wert = > 0.05) nachgewiesen werden. Die zweite Tabelle der SPSS-Ausgabe enthält die Prüfgrößen und p-werte der univariaten Varianzanalysen. Dazu wird jeweils nur eine abhängige Variable y1, y2 bzw. y3 (dies sind jeweils die Spalten der abhängigen Matrix in der Modellgleichung) verwendet und eine Kovarianzanalyse durchgeführt. Die entsprechenden Quadratsummen zu den univariaten Varianzanalysen finden Sie auch in den Hauptdiagonalen der in Mathematica berechneten Streuungsmatrizen der Multivariaten Varianzanalyse wieder.

37 Varianzanalyse Seite 37 Multivariate Tests b Ef fekt Intercept X Pillai-Spur Wilks-Lambda Hotelling-Spur Größte charakteristische Wurzel nach Roy Pillai-Spur Wilks-Lambda Hotelling-Spur Größte charakteristische Wurzel nach Roy a. Exakte Statistik b. Design: Intercept+X Hypothese Wert F df Fehler df Signifikanz, ,061 a 3,000 2,000,003, ,061 a 3,000 2,000, , ,061 a 3,000 2,000, , ,061 a 3,000 2,000,003,979 31,827 a 3,000 2,000,031,021 31,827 a 3,000 2,000,031 47,740 31,827 a 3,000 2,000,031 47,740 31,827 a 3,000 2,000,031 Quelle Korrigiertes Modell Intercept X Fehler Gesamt Korrigierte Gesamtvariation Abhängige Variable Y1 Y2 Y3 Y1 Y2 Y3 Y1 Y2 Y3 Y1 Y2 Y3 Y1 Y2 Y3 Y1 Y2 Y3 a. R-Quadrat =,858 (korrigiertes R-Quadrat =,823) b. R-Quadrat =,849 (korrigiertes R-Quadrat =,812) c. R-Quadrat =,907 (korrigiertes R-Quadrat =,884) Tests der Zwischensubjekteffekte Quadratsumme Mittel der vom Typ III df Quadrate F Signifikanz 20,167 a 1 20,167 24,200,008 60,167 b 1 60,167 22,563, ,167 c 1 104,167 39,063, , , ,800, , , ,062, , , ,562,000 20, ,167 24,200,008 60, ,167 22,562, , ,167 39,062,003 3,333 4,833 10, ,667 10, , , , , , , ,833 5

38 Seite 38 Kovarianzanalyse 2 Kovarianzanalyse 2.1 Parameterschätzung und Teststatistiken Die multivariate Kovarianzanalyse ergänzt die multivariate Varianzanalyse, denn es werden hier eine oder mehrere zusätzliche unabhängige stetige Variable(n), sogenannte Kovariate (Kovariable), einbezogen. Wir haben somit auf der Seite der unabhängigen Variablen eine Mischung aus kategoriellen und stetigen Variablen. Daher stellt die Kovarianzanalyse eine Verbindung zwischen Regressions- und Varianzanalyse dar. Im Fall nicht vorhandender kategoriellen Variablen können Sie mit den im folgenden gezeigten Methoden eine multivariate Regressionsanalyse durchführen. Falls kein Einfluß der stetigen Variablen nachzuweisen ist, kann eine multivariate Varianzanalyse verwendet werden. Die univariate Kovarianzanalyse kann analog durchgeführt werden. Als Beispiel für den Einsatz der Kovarianzanalyse kann man sich folgendes vorstellen: Es sollen drei Präparate verglichen werden, die die Blutfettwerte senken. Dabei bekommen drei Gruppen von Personen jeweils ein Medikament verabreicht. Innerhalb jeder Gruppe wird das jeweilige Medikament zusätzlich in verschiedener Dosis verabreicht. am Ende der Behandlung werden die Blutfettwerte gemessen (wird nur ein Wert pro Person bestimmt, dann wäre dies ein Beispiel für eine univariate Kovarianzanalyse, bestimmt man mehrere verschiedene Fettwerte, so handelt es sich um eine multivariate Kovarianzanalyse). Die kategorielle Variable ist das Präparat und die stetige Variable ist die Dosis. Es kann nun untersucht werden, ob zum einen das Präparat einen signifikanten Einfluß auf die Blutfettwerte hat (dabei wird der Einfluß der Dosis auspartialisiert, das heißt eliminiert) und zum anderen können wir untersuchen, ob die Dosis einen Einfluß hat. Wir beginnen mit der Parameterschätzung zur multivariaten Kovarianzanalyse. Der Kovarianzanalyse liegt das folgende Modell zugrunde: Y = X + Z + E Dabei ist X die Designmatrix der kategoriellen unabhängigen Variablen (der Faktoren) und Z die Designmatrix der Kovariaten. Wir wollen nun die unbekannten Parameter(matrizen) und schätzen. In unserem Beispiel hat zwei Spalten (entsprechend den zwei Spalten von Y) und zwei Zeilen (entsprechend der Anzahl der Kategorien der unabhängigen Variable bzw. der Anzahl der Spalten von X). hat analog zwei Spalten und eine Zeile (da eine Kovariate vorhanden ist). Um die Schätzung durchzuführen, können wir zunächst die beiden Matrizen X und Z vereinigen (die Spalten von Z werden den Spalten von X hinzugefügt). Diese vereinigte Matrix nennen wir Xg. Analog werden die Zeilen von an die Zeilen von angefügt. Die neue unbekannte Parametermatrix nennen wir (bzw. den Schätzer b, mit zwei Spalten und drei Zeilen). Danach führen wir die Parameterschätzung mit der neuen

39 Kovarianzanalyse Seite 39 Designmatrix Xg wie gewohnt durch. Zur Vereinfachung der Dateneingabe haben wir uns auf einen kleinen fiktiven Datensatz beschränkt: Needs["Statistics`Master`"] Y={{12,11},{10,12},{12,14},{8,5},{7,8},{8,5}}; Xg={{1,0,14},{1,0,15},{1,0,13},{0,1,4},{0,1,5},{0,1,8}}; Wir wählen die dritte Spalte der Matrix Xg und definieren die Matrix Z: Z=ColumnTake[Xg,{3}] {{14},{15},{13},{4},{5},{8}} n=length[y]; m=table[{1},{n}]; b=inverse[transpose[xg].xg].transpose[xg].y; b//matrixform//n Fast man die ersten beiden Zeilen der Matrix b zu einer Matrix zusammmen, so ist dies ein Schätzer für die unbekannte Parametermatrix. Die letzte Zeile ist entsprechend ein Schätzer für die unbekannte Parametermatrix. Zunächst berechnen wir die Mittelwerte der Spalten der abhängigen Matrix Y: yq=apply[plus,y]/n//n Es folgt die Berechnung der Streuungsmatrizen für das Gesamtmodell: SSTg=(Transpose[Y]-yq).Transpose[(Transpose[Y]-yq)]; SSTg//MatrixForm SSEg=Transpose[Y-Xg.b].(Y-Xg.b); SSEg//MatrixForm//N

40 Seite 40 Kovarianzanalyse SSWg=(Transpose[Xg.b]-yq).Transpose[(Transpose[Xg.b]-yq)]; SSWg//MatrixForm Als nächstes führen wir für die unabhängige kategorielle Variable und danach für die unabhängige stetige Variable (d.h. die Kovariable) jeweils eine Parameterschätzung durch und berechnen mit diesen die Streuungsmatrizen. Wir beginnen mit der Definition der Designmatrix X für die kategorielle Variable, indem wir die erste bis zweite Spalte der gesamten Designmatrix Xg wählen. X=ColumnTake[Xg,{1,2}]; X//MatrixForm bx=inverse[transpose[x].x].transpose[x].y; bx//matrixform//n Es folgt die Berechnung der Streuungsmatrizen für das erste Teilmodell (das Teilmodell der kategoriellen Variable): SSEx=Transpose[Y-X.bx].(Y-X.bx); SSEx//MatrixForm//N SSWx=(Transpose[X.bx]-yq).Transpose[(Transpose[X.bx]-yq)]; SSWx//MatrixForm//N Die folgende Prüfgröße nach Wilk dient zum Testen des Einflusses der Kovariable. Wir führen danach einen approximativen F-Test durch.

41 Kovarianzanalyse Seite Wir bestimmen t = Anzahl der stetigen Variablen im Modell (d.h. abhängige Variablen + Kovariablen) und g = Anzahl der Kategorien der kategoriellen Variablen (bzw. Anzahl der Subpopulation). t=length[transpose[y]] + Length[Transpose[Z]] g=length[transpose[x]] 3 2 q ist die Anzahl der Kovariablen und p ist die Anzahl der abhängigen Variablen. q=length[transpose[z]] 1 p=t-q 2 Fz//N Ein Einfluß der Kovariable kann nicht nachgewiesen werden (Prob < 0,05). Die Nullhypothesen zum oberen Test lautet formal: H 0 : 0 und H A : 0

42 J N Seite 42 Kovarianzanalyse Nun gehen wir analog vor und prüfen den Einfluß der kategoriellen Variable. Wir definieren unten die Designmatrix Z1 und führen mit dieser eine Regression mit Achsenabschnitt durch (aus diesem Grund ergänzen wir die Matrix Z um eine Spalte mit Einsen). Z1=Flatten[{Transpose[m],Transpose[Z]},1]//Transpose {{1,14},{1,15},{1,13},{1,4},{1,5},{1,8}} bz=inverse[transpose[z1].z1].transpose[z1].y; bz//matrixform//n SSEz=Transpose[Y-Z1.bz].(Y-Z1.bz); SSEz//MatrixForm//N Fx//N Auf dem üblichen 5%-igen Signifikanzniveau kann auch kein Einfluß der kategoriellen Variable nachgewiesen werden (Prob < 0,05). Literatur: [4],[6]

43 Kovarianzanalyse Seite SPSS Wir gehen nun analog zur multivariate Varianzanalyse vor. Zunächst müssen Sie die Daten, die in der unteren Tabelle zu sehen sind, in SPSS eingeben. In der ersten Zeile stehen jeweils die Variablennamen: y1 y2 x z y1 und y2 sind die abhängigen Variablen, x ist die kategorielle Variable (SPSS: fester Faktor ) und z ist die Kovariable ( Kovariate ). Sie erhalten in SPSS das Menü zur multivariaten Varianz und Kovarianzanalyse mit Statistik Allgemeines linereares Modelle GLM-Multivariat. Danach müssen Sie die Variablen wie unten zu sehen auswählen. Wählen Sie nun OK, womit Sie die folgende Ausgabe erhalten.

44 Seite 44 Kovarianzanalyse Zwischensubjektfaktoren X 1 2 N 3 3 In der Zeile X wird der Einfluß der kategoriellen Variable x auf die abhängigen Variablen untersucht und in der Zeile Z wird der Einfluß der Kovariable Z untersucht. In der Zeile zu Wilk s Lambda finden Sie die Prüfgröße nach Wilk und am Ende der gleichen Zeile den enstprechenden p-wert. Dabei kann auf unserem üblichen Signifikanzniveau von 5% weder ein Einfluß der kategoriellen Variable x (p-wert = > 0.05) nachgewiesen werden, noch ein Einfluß der Kovariable y (p-wert = > 0.05). Die zweite Tabelle der SPSS-Ausgabe enthält die Prüfgrößen und p-werte der univariaten Kovarianzanalyse. Dazu wird jeweils nur eine abhängige Variable y1 bzw. y2 (dies sind jeweils die Spalten der abhängigen Matrix in der Modellgleichung) verwendet und eine Kovarianzanalyse durchgeführt. Die entsprechenden Quadratsummen zu den univariaten Kovarianzanalysen finden Sie auch in den Hauptdiagonalen der in Mathematica berechneten Streuungsmatrizen der multivariaten Kovarianzanalyse wieder. Multivariate Tests b Ef fekt Intercept Z X Pillai-Spur Wilks-Lambda Hotelling-Spur Größte charakteristische Wurzel nach Roy Pillai-Spur Wilks-Lambda Hotelling-Spur Größte charakteristische Wurzel nach Roy Pillai-Spur Wilks-Lambda Hotelling-Spur Größte charakteristische Wurzel nach Roy a. Exakte Statistik b. Design: Intercept+Z+X Hypothese Wert F df Fehler df Signifikanz a a a a a a a a a a a a

45 Kovarianzanalyse Seite 45 Quelle Korrigiertes Modell Intercept Z X Fehler Gesamt Korrigierte Gesamtvariation Abh. Variabl ey1 Y2 Y1 Y2 Y1 Y2 Y1 Y2 Y1 Y2 Y1 Y2 Y1 Y2 Tests der Zwischensubjekteffekte a. R-Quadrat =.865 (korrigiertes R-Quadrat =. 775) b. R-Quadrat =.871 (korrigiertes R-Quadrat =. 784) Quadratsumme Mittel der vom Typ III df Quadrate F Signifikanz a b Falls Sie noch zusätzlich die von uns mit Mathematica berechneten Parameterschätzer bestimmen möchten, so müssen Sie ein Modell ohne Achsenabschnitt berechnen lassen. Dazu müssen Sie im Menü wählen Modell und dort müssen Sie das Kästchen Konstanten Term in Modell einschließen deaktivieren (siehe unten).

46 Seite 46 Diskriminanzanalyse Dann müssen Sie Weiter und Optionen wählen (siehe unten). In diesem Menü müssen Sie Parameterschätzer aktivieren und dann Weiter und OK wählen. Sie erhalten die folgende Ausgabe: Die Spalte B können Sie mit der Matrix B der Parameterschätzer in Mathematica vergleichen. Parameterschätzer. Abhängige Variable Y1 Y2 Parameter Y3 [X=1] [X=2] Y3 [X=1] [X=2] 95% Konf idenzinterv all B Standardf ehler T Signifikanz Untergrenze Obergrenze -,125,315 -,397,718-1,126,876 13,083 4,444 2,944,060-1,059 27,226 8,375 1,879 4,458,021 2,396 14,354 -,375,535 -,701,534-2,078 1,328 17,583 7,561 2,326,103-6,478 41,645 8,125 3,196 2,542,085-2,047 18,297 3 Diskriminanzanalyse

47 Diskriminanzanalyse Seite 47 Bei der Diskriminanzanalyse gehen wir von den gleichen Voraussetzungen wie bei der Varianzanalyse aus, d.h. die durch die Designmatrix definierten Teilstichproben müssen aus einer normalverteilten Grundgesamtheit stammen. Die Diskriminanzanalyse kann insbesondere dann durchgeführt werden, falls zuvor mit der multivariaten Varianzanalyse ein signifikanter Unterschied zwischen den Gruppen (Subpopulationen) nachgewiesen wurde. Es werden dann mit Hilfe der Diskriminanzanalyse sogenannte Diskriminanzfunktionen bestimmt, über die speziell zukünftige Beobachtungen (Objekte) einer Subpopulation zugeordnet werden können. Außerdem wird die Wahrscheinlichkeit bestimmt, mit der ein Objekt einer falschen Subpopulation zugeordnet wird. Die Diskriminanzanalyse versteht sich demnach als Verfahren zur Klassifizierung. Die Subpopulationen bezeichnen wir mit Klassen. Wir stellen zwei Verfahren der Diskriminanzanalyse vor. Beim ersten Verfahren wird die Klassifizierungsfunktion (bzw. die Klassifizierungsfunktionen) nach der Maximum- Likelihood Methode (ML) hergeleitet und benötigt als Voraussetzung die Normalverteilung von Y mit identischen Varianz-Kovarianzmatrizen (analog den Voraussetzungen der Varianzanalyse, nur mit allgemeineren Varianz- Kovarianzmatrizen). Die gleiche Klassifizierungsregel ergab sich aber auch über ein vernünftiges heuristisches Kriterium, so daß die lineare Diskriminanzanalyse mit den von uns vorgestellten Kriterien zur Klassifizierung relativ robust gegenüber der Verletzungen der Normalverteilungsvoraussetzung ist (siehe Fahrmeir et al.). Das erste Verfahren stellt die klassische Diskriminanzanalyse dar. Das zweite Verfahren, benannt nach Fischer, ist ein verteilungsunabhängiges Verfahren. Das zweite Verfahren ist bei zwei Klassen (g=2) äquivalent zum ersten Verfahren. Wir führen die Diskriminanznanalyse in zwei Beispielen durch. Beim ersten Beispiel möchten wir die (zukünftig beobachteten) Objekte zwei Klassen zuordnen und im zweiten Beispiel gehen wir von drei Klassen aus. Im ersten Beispiel beginnen wir mit der Berechnung der Diskriminanzfunktionen nach der ML Methode und danach verwenden wir die Klassifizierrungsfunktion nach Fischer. Im zweiten Beispiel verwenden wir nur die Methode von Fischer. Die ML Methode läßt sich allerdings auch auf mehr als zwei Klassen erweitern. Wir beginnen mit der Definition der Datenmatrix Y und der Designmatrix X in unserem ersten Beispiel und berechnen zunächst die Matrizen der Quadratsummen (T, W und Zw) in Analogie zur Varianzanalyse, sowie die Klassenmittelwerte der Teilstichproben (B). Y={{5,8},{10,9},{4,2},{1,2},{2,1},{1,3}}; Y//MatrixForm

48 Seite 48 Diskriminanzanalyse n=length[y]; Eins=Table[{1},{n}]; Mittel=1/n*Eins.Transpose[Eins].Y//N; Mittel//MatrixForm Wir definieren nun die Designmatrix X. Falls Sie die Diskriminanzanalyse mit einem größeren Datensatz durchführen, so können Sie die Designmatrix automatisch über eine Liste mit ganzen Zahlen erstellen, welche die Datensätze (d.h. die Zeilen der Matrix Y) einer Klasse zuordnet (1 für erste Klasse,...). Dieses haben wir bei der univariate Varianzanalyse bereits vorgestellt. Diese Liste stellt in SPSS die Spalte der unabhängigen Variable dar. X={{1,0},{1,0},{1,0},{0,1},{0,1},{0,1}}; X//MatrixForm Wir berechnen dann wie zuvor die Klassenmittel der Gruppen (B) und die Matrizen der Varianzzerlegung (W, T und Zw). B=Inverse[Transpose[X].X].Transpose[X].Y; B//MatrixForm//N T=Transpose[(Y-Mittel)].(Y-Mittel); T//MatrixForm W=Transpose[Y-X.B].(Y-X.B)//N; W//MatrixForm

49 Diskriminanzanalyse Seite 49 Zw=T-W; Zw//MatrixForm Im folgenden werden festgelegt bzw. berechnett: Die Anzahl der Klassen (g), die empirische Varianz-Kovarianzmatrix (S, diese berechnen wir über die Matrix W, welche die Streuung innerhalb der Gruppen erfaßt) und die Klassenmittel der ersten und zweiten Klasse (xa und xb). g=length[transpose[y]]; S=1/(n-g)*W; xa=b[[1]]//n; xa//matrixform xb=b[[2]]//n; xb//matrixform Nun definieren wir zunächst die Diskriminanzfunktion d, mit der ein Objekt einer Klasse zugeordnet werden kann. Dabei wird das Objekt x der ersten Klasse zugeordnet, falls d[x]>0 und falls d[x]<0 ist, wird dieses Objekt der zweiten Klasse zugeordnet. Diese Zuordnung ist, wie bereits beschrieben, speziell für neue Objekte von Interesse. Als Beispiel berechnen wir den Wert der Diskriminanzfunktion d für das Objekt x = {1,2}. Dieses wird, wie zu sehen ist, der zweiten Klasse zugeordnet. Danach wenden wir die Diskriminanzfunktion auf unsere Datenmatrix Y. Dabei erhalten wir eine Zuordnung entsprechend der Designmatrix X, d.h. die ersten beiden Objekte werden der ersten Klasse zugeordnet (positive Funktionswerte von d) und die restlichen Objekte werden der zweiten Klasse zugeordnet (negative Funktionswerte von d). Die Funktion d kann nur für den Spezialfall g = 2 verwendet werden. Die Funktion da und db, die wir danach definieren, können auch für den Fall g > 2 verwendet werden (hier benötigt man dann weitere Funktionen dc,..., die analog definiert werden). d[x_]:=(xa-xb).inverse[s].(x-(xa+xb)/2) d[{1,2}]

50 Seite 50 Diskriminanzanalyse Map[d,Y]//MatrixForm Eine Zuordnung ist auch über die im folgenden definierten Funktionen da und db möglich. Diese Methode läßt sich auch auf mehr als zwei Klassen erweitern. Hier wird ein Objekt x der ersten Klasse zugeordnet, falls der Funktionswert da[x] < db[x] ist und entsprechend wird es der zweiten Klasse zugeordnet, falls da[x] > db[x] ist. da[x] ist dabei das Quadrat der Mahalanobis Distanz des Objekt x von dem Klassenmittel xa und db[x] ist entsprechend das Quadrat der Mahalanobis Distanz des Objekt x von dem Klassenmittel xb. Ein Objekt wird demnach der Klasse zugeordnet, zu deren Mittel es die geringste Mahalanobis Distanz aufweist. da[x_]:=(x-xa).inverse[s].(x-xa) db[x_]:=(x-xb).inverse[s].(x-xb) Würde man die Diskriminanzfunktion in mathematischer Notation schreiben, so hätte diese die folgende gestalt: f x 1 x x e a t 1 1/ 2( ) ( a ) k ( 2) Wie zu sehen ist, entspicht die Funktion da, bis auf den Faktor 1/2 dem Exponenten der zweidimensionalen Normalverteilungsdichte (nur daß die in der Praxis meist unbekannte Varianz-Kovarianzmatrix durch ihre Schätzung S ersetzt wurde und durch die Schätzung xa). Diese Dichtefunktion nimmt genau dann ihren maximalen Wert an, falls da minimal ist (ML Methode). Oft wird die Diskriminanzfunktionen da (analoges gilt für db) umgeformt und danach das quadratische Glied xa t S -1 xa (Mathematica xa.inverse[s].xa) entfernt, welches bei allen Diskriminanzfunktionen (hier bei beiden) vorkommt. da kann dann auch wie folgt dargestellt werden: da[x_]:=-2xa.inverse[s].x + xa.inverse[s].xa Weil wir die Vektoren in Mathematica als Listen definiert haben ({x1,x2}) und nicht als Spaltenvektor ({{x1},{x2}}), können wir die quadratischen Formen in der oberen Funktion wie oben zu sehen ist darstellen. Sonst müßten wir z.b. Transpose[xa].Inverse[S].xa schreiben. Wir berechnen als Beispiel die Funktionswerte der Funktion da und db für das Objekt x = {1,2}. da[{1,2}] a

51 Diskriminanzanalyse Seite db[{1,2}] {1,2} wird also der zweiten Klasse zugeordnet, da db[{1,2}] < da[{1,2}] ist. Im nächsten Schritt berechnen wir die Mahalanobis Distanz der beiden Klassenmitten xa und xb. Danach wenden wir die beiden Funktionen auf unsere Datenmatrix Y an und kommen natürlich zur gleichen Zuordnung wie zuvor. Entsprechend könnten beide Funktionen auf eine neue Datenmatrix angewendet werden, womit die Objekte den Klassen zugeordnet werden könnten. db[xa] {Map[da,Y],Map[db,Y]}//Transpose//MatrixForm Nun berechnen wir die Wahrscheinlichkeit dafür, daß ein Objekt der ersten Klasse fälschlicherweise der zweiten Klasse zugeordnet wird. z=-sqrt[db[xa]]/ Needs["Statistics`Master`"] pab=pba=cdf[normaldistribution[0,1],z] Wie zu sehen ist, ist diese Wahrscheinlichkeit nicht sehr klein. Nun wollen wir noch die Werte der Datenmatrix Y und die Trennfläche grafisch darstellen. Die Trennfläche stellt eine Hyperebene dar. Bei mehr als zwei Klassen gibt es entsprechend mehrere Trennflächen. Die Trennfläche erfüllt die folgende Bedingung: Solve[da[{x1,x2}]==db[{x1,x2}],{x1,x2}]//Simplify

52 Seite 52 Diskriminanzanalyse {{x1-> x2}} Needs["Graphics`ImplicitPlot`"] Needs["LinearAlgebra`MatrixManipulation`"] Yt=Transpose[Y]; n1=3; Y1=Transpose[ColumnTake[Yt,n1]] {{5,8},{10,9},{4,2}} Y2=Transpose[ColumnTake[Yt,{n1+1,n}]] {{1,2},{2,1},{1,3}} ImplicitPlot[da[{x1,x2}]==db[{x1,x2}],{x1,0,20},{x2,0,10}, PlotStyle->{RGBColor[1,0,0],Thickness[0.007]}, Prolog->{{PointSize[0.02],RGBColor[0,1,0],Map[Point,Y1]}, {PointSize[0.02],RGBColor[0,0,1],Map[Point,Y2]}}] Kommen wir zur Methode von Fischer. Diese liefert uns die folgenden Diskriminanzfunktion (Fischer[x]) für den Spezialfall g = 2.

53 Diskriminanzanalyse Seite 53 a=inverse[w].(xa-xb) { `, `} Fischer[x_]:=a.(x-1/2(xa+xb)) Dabei wird das Objekt x der ersten Klasse zugeordnet, falls Fischer[x]>0 und falls Fischer[x]<0 ist, wird dieses Objekt der zweiten Klasse zugeordnet. Falls Fischer[x] = 0 kann die Zuordnung willkürlich vorgenommen werden. Wir berechnen die Funktionswerte der Diskriminanzfunktion von Fischer für jede Beobachtung. Map[Fischer,Y] { , , , , , } Bemerkungen: Der Vektor a ergibt sich durch Maximieren des Ausdrucks (in mathematischer Notation): Q a t ( a ( xa xb )) ( ) t a Wa 2 Für den Spezialfall g = 2 ist die Methode nach Fischer äquivalent zur ML-Methode. (Unten verwenden wir die Matrix S anstelle von W zur Definition der Diskriminanzfunktion nach Fischer. Dies hat keinen Einfluß auf die Entscheidungsregeln, denn die beiden Matrizen unterscheiden sich nur durch den Faktor (n-g)): a = -xbl , < a.h8x1, x2< - 12 Hxa +xbll Expand x x2 x2<d Expand x x2 Äquivalent ist natürlich auch die Berechnung der Diskriminanzfunktion d mit da und db: x2<d x2<dl *H L Expand Chop

54 Seite 54 Diskriminanzanalyse x x2 Diese Funktion erhalten Sei auch, falls Sie die beiden Spalten in der SPSS Ausgabe (unter der Überschrift Klassifizierungskoeffizienten) subtrahieren. 2.) Für den Fall g>2 werden wir im zweiten Beispiel zur Definition der Diskriminanzfunktionen anstelle des Vektor a eine Matrix a (diese bezeichnen wir in Mathematica ausnahmsweise mit kleinem a) verwenden, deren Zeilen die Eigenvektoren der Matrix W -1 Zw enthält. Man kann dann über diese Matrix Diskriminanzfunktionen nach Fischer bestimmen, indem man nur den Eigenvektor verwendet, der zum größten Eigenwert gehört (Marinell), oder man verwendet - wie wir später - alle Eigenvektoren (Fahrmeier et al.). Allgemein ist die lineare Diskriminanzfunktion nach Fischer definiert durch t a x i. Dabei ist a i ein Vektor, der die Funktion ( t a Zw a a) t maximiert. Mit den Methoden der Analysis kann a W a gezeigt werden, daß die obere Funktion durch die Eigenvektoren der Matrix W -1 Zw lokal maximiert wird. Dabei ist der Eigenwert des Eigenvektors. Somit ist die obere Funktion für den Eigenvektor des maximalen Eigenwertes maximal. Für den Fall g=2 definieren wir nun diese Funktion in Mathematica in unserem Beispiel. ( ) a i i a i a i a2_d = 8a1, a2<. Zw. 8a1, a2< 8a1, a2<. W. 8a1, a2< Cancel 37.5 a a1 a a a a1 a a2 2 Wir bestimmen nun den Gradienten: a2_<d = a2d, a1d, a2d, a2d< Evaluate Together : a12 a a1 a a2 3 H a a1 a a2 2 L 2, a a1 2 a a1 a2 2 H a a1 a a2 2 L 2 > Wie wir im folgenden sehen, maximiert unser auf die folgende Art bestimmter Vektor a (und alle seine Vielfachen) die obere Funktion (auf die Prüfung der negativ Definitheit der Hessematrix verzichten wir an dieser Stelle). a = -xbl

55 Diskriminanzanalyse Seite , < ad Chop 80, 0< Analoges gilt für die Verwendung der Eigenvektoren von W -1 Zw : a = ZwD , <, , << Chop 80, 0< Chop 80, 0< Kommen wir zum Beispiel mit drei Klassen (g = 3) und definieren zunächst die Designmatrix X. Die Datenmatrix Y bleibt unverändert. Wir erweitern hier den Ansatz von Fischer für g > 2. Wir berechnen dann wie zuvor die Klassenmittel der Gruppen (B) und die Matrizen der Varianzzerlegung (W, T und Zw). X={{1,0,0},{1,0,0},{0,1,0},{0,1,0},{0,0,1},{0,0,1}}; X//MatrixForm i y k { B=Inverse[Transpose[X].X].Transpose[X].Y; B//MatrixForm//N T=Transpose[(Y-Mittel)].(Y-Mittel); T//MatrixForm

56 Seite 56 Diskriminanzanalyse W=Transpose[Y-X.B].(Y-X.B)//N; W//MatrixForm Zw=T-W; Zw//MatrixForm Die drei Diskriminanzfunktionen f[{x1,x2}][[1]], f[{x1,x2}][[2]] und f[{x1,x2}][[2]], werden nun mit den Eigenvektoren der Matrix Inverse[W].Zw bestimmt. a=eigenvectors[inverse[w].zw] {{ , },{ , }} f[{x1_,x2_}]:=apply[plus,(a.({x1,x2}-transpose[b]))^2]//expand f[{x1,x2}] In der Literatur werden die obere Diskriminanzfunktionen auch nur über den Eigenvektor definiert, der zum größten Eigenwert gehört. Bezeichnen wir diesen mit b (=a[[1]]), so hätte die Funktion wie folgt definiert werden müssen: f[{x1_,x2_}]:=b.({x1,x2}-transpose[b]). Die Zuordnung eines neuen Objektes zu einer Klasse erfolgt nun, wie wir es bereits im Fall von zwei Klassen beschrieben haben. Ein Objekt x wird demnach der j-ten Klasse zugeordnet, falls f[x][[j]] der kleinste Funktionswerte (unter den Funktionswerten f[x][[1]] bis f[x][[3]]) ist. Wir wenden nun die Diskriminanzfunktionen auf die Datenmatrix Y an, womit wir die Matrix Df der Funktionswerte der drei Diskriminanzfunktionen (für jedes Objekt) erhalten. Auf diese Art können die Diskriminanzfunktionen auf neue Daten angewendet werden. Dieses Verfahren ist so programmiert, daß es bei beliebig vielen Klassen angewendet werden kann. Df=Map[f,Y]; Df//MatrixForm

57 Diskriminanzanalyse Seite 57 Wir erhalten also wieder eine Zuordnung entsprechend unserer Designmatrix X, d.h. die ersten beiden Objekte werden der ersten Klasse, die nächsten beiden der zweiten und die letzten beiden der dritten Klasse zugeordnet. Nun definieren wir eine Funktion Z, mit der die Zuordnung eines Objektes der Datenmatrix Y über die Matrix Df bestimmt werden kann. Wir erhalten eine Liste mit den Zuordnungen entsprechend den minimalen Funktionswerten der Diskriminanzfunktionen. Z[x_]:=1/;Min[x]==x[[1]] Z[x_]:=2/;Min[x]==x[[2]] Z[x_]:=3/;Min[x]==x[[3]] Map[Z,Df] {1,1,2,3,2,3} Nun wollen wir die Trennflächen und die Wertepaare der Datenmatrix Y wieder grafisch darstellen. Yt=Transpose[Y]; ni=apply[plus,x] {2,2,2} Y1=Transpose[ColumnTake[Yt,ni[[1]]]] {{5,8},{10,9}} Y2=Transpose[ColumnTake[Yt,{ni[[1]]+1,ni[[1]]+ni[[2]]}]] {{4,2},{1,2}} Y3=Transpose[ColumnTake[Yt,{ni[[1]]+ni[[2]]+1,n}]] {{2,1},{1,3}} G1=ImplicitPlot[ {f[{x1,x2}][[1]]==f[{x1,x2}][[2]], f[{x1,x2}][[1]]==f[{x1,x2}][[3]],

58 Seite 58 Diskriminanzanalyse f[{x1,x2}][[2]]==f[{x1,x2}][[3]]}, {x1,0,15},{x2,0,10}, PlotStyle->{RGBColor[1,1,0],RGBColor[0,1,1],RGBColor[1,0,1]}, DisplayFunction->Identity] Show[G1,Graphics[{{PointSize[0.02],RGBColor[1,0,0], Map[Point,Y1]}, {PointSize[0.02],RGBColor[0,1,0],Map[Point,Y2]}, {PointSize[0.02],RGBColor[0,0,1],Map[Point,Y3]}}], DisplayFunction->$DisplayFunction] Zum Schluß möchten wir die Wahrscheinlichkeiten dafür bestimmen, daß ein Objekt der i-ten Klasse fälschlicherweise der j-ten Klasse zugeordnet wird. z=-table[sqrt[f[b[[j]]][[i]]]/2,{i,1,3},{j,i+1,3}] {{ , },{ },{}} Needs["Statistics`Master`"] pij=pji=cdf[normaldistribution[0,1],z] {{ , },{ },{}} Die Wahrscheinlichkeit dafür, daß ein Objekt der ersten Klasse der zweiten oder dritten Klasse zugeteilt wird, ist ziemlich gering. Am größten ist die Wahrscheinlichkeit dafür, daß ein Objekt der zweiten Klasse der dritten Klasse zugeteilt wird (35,1215%).

59 Diskriminanzanalyse Seite 59 Mit der Multivariaten Varianzanalyse könnte nun untersucht werden, ob sich die Gruppen signifikant unterscheiden. Literatur: [4], [9]

60 Seite 60 Diskriminanzanalyse 3.1 SPSS Die Daten in SPSS: Wählen Sie Statistik Klassifizieren Diskriminanzanalyse und dann entsprechend (wie unten) die Variablen aus. Für die Variable x müssen Sie den Bereich der Kategorien festlegen mit Bereich definieren.

61 Diskriminanzanalyse Seite 61 Dann: Weiter Nun müssen Sie noch Klassifizieren und Fallweise Ergebnisse wählen. Hierzu wird jedes Objekt (jede Datenzeile) einer Klasse zugeordnet. Hat man ein weiteres Objekt, welches einer Klasse zugeordnet werden soll, so läßt man entweder die Zuordnung über die Variable x offen, oder Sie wählen für x in dieser Datenzeile einen Wert, der nicht innerhalb des oberen Bereichs liegt (z.b. in unserem Fall x = 3). Damit zusätzlich die Diskriminanzfunktion nach Fischer ausgegeben wird, müssen sie noch Statistik wählen und dort Fischer. Danach: Weiter OK Sie erhalten die Ausgabe:

62 Seite 62 Diskriminanzanalyse Gruppenstatistik X 1 2 Gesamt Y2 Y1 Y2 Y1 Y2 Y1 Gültige Werte (listenweise) Ungewichtet Gewichtet 3 3, , , , , ,000 Eigenwerte Funktion 1 % der Kumulierte Kanonische Eigenwert Varianz % Korrelation 1,773 a 100,0 100,0,800 a. Die ersten 1 kanonischen Diskriminanzf unktionen werden in dieser Analyse verwendet. Wilks' Lambda Test der Funktion(en) 1 Wilks-Lambda Chi-Quadrat df Signifikanz,361 3,060 2,217 Standardisierte kanonische Diskriminanzfunktionskoeffizienten Y2 Y1 Funktion 1,123,915 Struktur-Matrix Y1 Y2 Funktion 1,996,720 Gemeinsame Korrelationen innerhalb der Gruppen zwischen Diskriminanzv ariablen und standardisierten kanonischen Diskriminanzfunktionen Variablen sind nach ihrer absoluten Korrelationsgröße innerhalb der Funktion geordnet.

63 Diskriminanzanalyse Seite 63 Funktionen bei den Gruppen-Zentroiden X 1 2 Funktion 1 1,087-1,087 Nicht-standardisierte kanonische Diskriminanzfunktionen, die bezüglich des Gruppen-Mittelwertes bewertet werden A-priori-Wahrscheinl ichkeiten der Gruppen X 1 2 Gesamt In der Analyse v erwendete Fälle A-priori Ungewichtet Gewichtet, ,000, ,000 1, ,000 Klassifizierungsfunktionskoeffizienten X 1 2 Y1,942 8,028E-02 Y2,314,217 (Konstant) -4,671 -,964 Lineare Diskriminanzfunktionen nach Fisher Wenn Sie die Diskriminanzfunktion erhalten wollen, die wir mit Mathematica bestimmt haben, so müssen Sie die Spalten der oberen Tabelle subtrahieren, womit Sie die Koeffizienten der Diskriminanzfunktion nach Fischer (für den Fall g = 2) erhalten. Unten finden Sie einetabelle, in der die Gruppenzugehörigkeit in der zweiten Spalte zu sehen ist. In der dritten Spalte steht die vorhergesagte Gruppenzugehörigkeit. Wie zu sehen ist, wird wie in Mathematica bereits gesehen, das dritte Objekt der zweiten Gruppe zugeordnet, obwohl es zur ersten Gruppe gehört.

64 Seite 64 Diskriminanzanalyse Fallweise Statistiken Höchste Gruppe Zweithöchste Gruppe Diskrimin anzwerte Original Fallnummer **. Falsch klassif izierter Fall Quadrierter Quadrierter Tatsächliche Vorhergesagte Mahalanobis-Abstand Mahalanobis-Abstand Gruppe Gruppe zum Zentroid Gruppe zum Zentroid Funktion 1 1 1, ,960, , ,037 2, ** 1, ,249 -, , ,321-1, , ,822 -, , ,117-1,175 Zusammenfassung der Verarbeitung von Klassifizierungen Verarbeitet Ausgeschlossen In der Ausgabe v erwendet Fehlende oder außerhalb des Bereichs liegende Gruppencodes Wenigstens eine Diskriminanzv ariable fehlt

65 Clusteranalyse Seite 65 4 Clusteranalyse In diesem Kapitel beziehen wir uns auf die gängigste Methode der Clusteranalyse, die sogenannte K-Means Clusteranalyse. Die Clusteranalyse gestattet es, Objekte (das entspricht einzelnen Datensätzen) nach ihren Merkmalen in sogenannten Clustern bzw. Klassen zusammenzufassen. Die Clusteranalyse ist somit ein Verfahren zur Klassifizierung. Wir hatten bereits mit der Diskriminanzanalyse ein Verfahren zur Klassifizierung vorgestellt. Der Unterschied in den beiden von uns vorgestellten Verfahren besteht darin, daß bei der Diskriminanzanalyse zunächst die Gruppenzugehörigkeit bekannt sein muß. Danach können neue Objekte den bestehenden Gruppen zugeordnet werden. Bei der Clusteranalyse sind die Gruppenzugehörigkeiten zunächst unbekannt und diese sollen ermittelt werden. Es sollen dabei jeweils diejenigen Objekte der selben Klasse zugeordnet werden, die ähnliche Merkmalsausprägungen aufweisen. Bei der K-Means Clusteranalyse muß zunächst die Anzahl der Cluster festgelegt werden. Danach werden die Klassenmitten festgelegt. Dabei kann man z.b. so vorgehen, daß man die Objekte als Klassenmitten auswählt, die sich am meisten unterscheiden. Je nachdem wie man die Clustermitten zu Beginn der Iteration wählt, können sich unterschiedliche Cluster am Ende der Iteration ergeben. Als Distanz zwischen zwei Objekten wird der euklidische Abstand zwischen den Objekten verwendet. Danach werden jeweils die Objekte einer Klasse zugeordnet, deren Distanz zur jeweiligen Klassenmitte am geringsten ist. Sobald alle Objekte auf diese Weise einer Klasse zugeordnet wurden, werden zu jeder Klasse die Klassenmittel (über die arithmetischen Mittel) bestimmt und diese als neue Klassenmitten definiert. Danach werden die Objekte erneut den Klassen zugeordnet. Diese Iteration wird so lange wiederholt, bis die neueste Klasseneinteilung mit der Klasseneinteilung aus dem vorhergehenden Iterationsschritt übereinstimmt. Dann ist die Iteration beendet. Somit erhält man Klassen, die die kleinste Streuung innerhalb der Klasse aufweisen. Ob sich die Klassen signifikant unterscheiden, kann dann mit der multivariaten Varianzanalyse untersucht werden. Wir beginnen in unserem Mathematica-Programm mit der Festlegung der Datenmatrix V. Damit bei der Berechnung der Distanzen nicht diejenigen Variablen den größten Einfluß haben, die die größten Varianzen aufweisen, müßte die Datenmatrix zuvor standardisiert werden. Wir verzichten im folgenden Beispiel auf diesen Schritt. Die Standardisierung der Datenmatrix vor der Durchführung der Clusteranalyse ist immer dann nicht nötig, wenn es sich um Merkmale handelt, die in der gleichen Einheit erfaßt wurden, z.b. falls alle Variablen Längen in Meter erfassen, oder auch falls es sich um Noten oder Punktzahlen handelt, bei denen die minimal und maximal zu erreichenden Punktzahlen jeweils gleich sind. Wie die Datenmatrix standardisiert werden kann, wird im Kapitel zur Faktorenanalyse gezeigt.

66 Seite 66 Clusteranalyse 4.1 Bestimmung der Cluster Wir gehen in diesem Beispiel davon aus, daß zwei Cluster K1 und K2 existieren. Bei den Spalten der Datenmatrix V könnte es sich z.b. um Punktzahlen von Schülern in drei verschiedenen Fächern handeln. Mit der Clusteranalyse können die Schüler dann, je nach Stärken bzw. Schwächen in bestimmten Fächern (die einen sind zum Beispiel in den naturwissenschaftlichen Fächern besser, während die anderen in den sprachlichen Fächern besser sind), in zwei Gruppen unterteilt werden. Dabei ist die Unterteilung über die Euklidische Distanz besser, als wenn die Schüler nur nach ihren Durchschnittsnoten verglichen werden. Würde man bei beispielsweise 4 Merkmalen den Mittelwert über die Merkmale als Unterscheidungskriterium wählen, so könnte folgender Fall eintreten: Die Schüler, die in Deutsch und Englisch 10 Punkte und in Mathematik und Physik 2 Punkte haben, werden dem selben Cluster zugeteilt, wie die Schüler, die in Mathematik und Physik 10 Punkte und in Deutsch und Englisch 2 Punkte haben. Denn diese haben die gleichen Durchschnittspunktzahlen in den 4 Fächern. Man kann demnach mit der K- Means Clusteranalyse die Cluster besser unterscheiden, als wenn man dies nur über die Mittelwerte versucht. Wir beginnen nun mit der Definition der Datenmatrix V: V={{1,5,1},{2,8,2},{4,4,5},{5,8,9},{6,9,4}}; V//MatrixForm Nun definieren wir mit der Funktion Distance die euklidische Distanz zwischen zwei Objekten A und B, indem wir die über die Euklidische Norm induzierte Metrik verwenden (dabei werden die Ausprägungen jeweils voneinander subtrahiert und quadriert. Aus der Summe der Quadrate wird dann die Quadratwurzel gezogen). Danach übergeben wir in die Matrix DM die Distanzen der einzelnen Objekte: Distance[A_,B_]:=Apply[Plus,(B-A)^2]^(1/2) n=length[v] DM=Table[Table[Distance[V[[i]],V[[j]]],{j,1,n}],{i,1,n}]; DM//N//MatrixForm

67 Clusteranalyse Seite 67 Wollten wir nun die ersten Klassenmitten nicht willkürlich auswählen, sondern über die Objekte definieren, die sich am meisten unterscheiden bzw., die die größte Distanz aufweisen, so könnten wir wie folgt vorgehen. Wir speichern die maximale Distanz in der Variable MA. Danach speichern wir die beiden Objekte mit der maximalen Distanz in der Matrix Z. Da die Distanzmatrix symmetrisch ist, überprüfen wir nur die obere Hauptdiagonale der Matrix DM. Es könnten natürlich auch drei oder mehr Objekte mit dieser maximalen Distanz existieren. Wir geben dann später die ersten beiden Objekte in der Matrix Z als Klassenmitten aus. MA=Max[DM]; MA//N Z=Flatten[Table[Table[If[MA==DM[[i,j]],{V[[i]],V[[j]]},{}],{j,i+1,n}],{i,1,n}],2]; Z=Union[Z]; Z//MatrixForm Die von uns gezeigte Methode zur Bestimmung der anfänglichen Clusterzentren ist die gängigste. Man kann diese aber auch willkürlich festlegen. Wir wollen nun die gleichen (Anfangs-)Clusterzentren wie SPSS wählen, und definieren deshalb: Z={{5,8,9},{2,8,2}}; Z//MatrixForm Nun kommen wir zur Zuordnung der Objekte in die beiden Klassen K1 und K2. Hierbei werden zunächst die Klassen als leere Mengen definiert. Danach wird ein Objekt der Klasse zugeordnet, zu deren Mitte es die geringste Distanz aufweist. Sollte die Distanzen zu beiden Klassenmitten gleich sein, so wird das Objekt willkürlich der ersten Klasse zugeteilt. K1={};K2={}; Do[If[Min[{Distance[V[[i]],Z[[1]]],Distance[V[[i]],Z[[2]]]}]== Distance[V[[i]],Z[[1]]], K1=Append[K1,V[[i]]],K2=Append[K2,V[[i]]]],{i,1,n}]; Es ergeben sich die folgenden beiden Klassen: K1//MatrixForm K2//MatrixForm

68 Seite 68 Clusteranalyse Nun ist der erste Iterationsschritt beendet. Wir bestimmen nun die Klassenmitten neu über die Mittelwerte innerhalb der Klassen und speichern diese in der Matrix Z (hier könnte auch ein anderer Matrixname verwendet werden, falls die alten Klassenzentren später noch gebraucht würden): Z={Apply[Plus,K1]/Length[K1],Apply[Plus,K2]/Length[K2]}; Z=Union[Z]; Z//N//MatrixForm Nun werden die Klassen wieder neu bestimmt und ausgegeben: K1={};K2={}; Do[If[Min[{Distance[V[[i]],Z[[1]]],Distance[V[[i]],Z[[2]]]}]== Distance[V[[i]],Z[[1]]], K1=Append[K1,V[[i]]],K2=Append[K2,V[[i]]]],{i,1,n}]; K1//MatrixForm K2//MatrixForm Wie zu sehen ist, haben sich die Klassen nicht verändert. Somit ist die Iteration abgeschlossen. Im Folgenden geben wir die Distanzen aller Objekt zu den Klassenmitten aus: Table[{Distance[V[[i]],Z[[1]]],Distance[V[[i]],Z[[2]]]},{i,1,n}]// MatrixForm//N

69 Clusteranalyse Seite 69 Bemerkung: Bei großen Datensätzen könnten auch die Klassen K1 und K2 jeweils mit einem Index für den Iterationsschritt versehen werden (K1[1] und K2[1] für den ersten Iterationsschritt, usw.). Damit könnten die Klassen zwischen zwei Schritten besser auf Gleichheit untersucht werden. Der Vergleich könnte dann über die Quadratsummen- Differenz erfolgen. Beispielsweise für den Vergleich der Klasse K1 zwischen dem ersten und dem zweiten Iterationsschritt: Apply[Plus,Apply[Plus,(K1[1]-K1[2])^2]] Falls diese Quadratsumme gleich Null ist, so ist die erste Klasse aus dem ersten Iterationsschritt K1[1] mit der aus dem zweiten K1[2] identisch. Wie anhand der oberen Distanzmatrix zu erkennen ist, haben die ersten drei Objekte zum ersten Zentrum Z[[1]] eine minimale Distanz, während bei den letzten beiden Objekte beide die gleiche minimale Distanz zum zweiten Zentrum Z[[2]] aufweisen. Zwischen den Klassenmitten ergibt sich die folgende Distanz: Distance[Z[[1]],Z[[2]]]//N

70 Seite 70 Clusteranalyse 4.2 Vergleich der Cluster Im Rahmen der Inferenzstatistik ist von Interesse, ob sich die Klassen signifikant unterscheiden. Dies überprüfen wir unter Verwendung der multivariaten Varianzanalyse. Hierzu müssen wir zunächst eine Zuordnungstabelle Zuordnung definieren, die die einzelnen Objekte der jeweiligen Klasse zuteilt. Diese Zuordnungstabelle stellt einen Vektor dar, der an der i-ten Stelle eine Eins aufweist, falls das i-te Objekt der Datenmatrix V zur ersten Klasse gehört. Falls es zur zweiten Klasse gehört, steht dort eine Zwei. Danach definieren wir mit dieser Tabelle die Designmatrix X: Zuordnung=Table[If[Min[{Distance[V[[i]],Z[[1]]], Distance[V[[i]],Z[[2]]]}]==Distance[V[[i]],Z[[1]]],1,2],{i,1,n}]; Zuordnung//MatrixForm k=2; (* Anzahl der Klassen = k *) X=Table[Table[If[Zuordnung[[i]]==j,1,0],{j,1,k}],{i,1,n}]; X//MatrixForm Mit der Designmatrix X bestimmen wir den Schätzer B, der mit der Matrix Z der Klassenmitten identisch ist. B=Inverse[Transpose[X].X].Transpose[X].V; B//MatrixForm//N Im Folgenden berechnen wir die Matrizen der Varianzzerlegung T, Zw und W, die Teststatistik der multivariaten Varianzanalyse Wilk s (Lambda) und mit dieser die Realisierung der approximativ F-verteilten zufälligen Größe f, mit der wir den Test durchführen: W=Transpose[V-X.B].(V-X.B); W//MatrixForm//N

71 Clusteranalyse Seite 71 Als Hilfsgrößen benötigen wir den Vektor der Gesamtmittel, sowie die Matrix M der Gesamtmittel: Gesamtmittel=Apply[Plus,V]/Length[V]; Gesamtmittel//N {3.6,6.8,4.2} M=Table[Gesamtmittel,{n}]; M//N//MatrixForm T=Transpose[(V-M)].(V-M); T//N//MatrixForm Zw=T-W; Zw//N//MatrixForm Lambda=Det[W]/Det[T]; Lambda//N t=length[transpose[v]] (* Anzahl der Variablen *) 3 n1 = t*(k - 1); s = Sqrt[(t^2*(k - 1)^2-4)/(t^2 + (k - 1)^2-5)]; n2 = s*(n (t + k)/2) - (t*(k - 1) - 2)/2; f = (1 - Lambda^(1/s))/Lambda^(1/s)*n2/n1;

72 Seite 72 Clusteranalyse f//n Needs["Statistics`Master`"] Prob=1-CDF[FRatioDistribution[n1,n2],f]//N Wie zu sehen ist, kann kein signifikanter Unterschied zwischen den Clustern nachgewiesen werden (Prob > 0,05). Die meisten Statistik-programmpakete geben zusätzlich die univariaten F-Tests der Varianzanalyse aus. Diese wollen wir zum Schluß noch programmieren. Dazu berechnen wir die Quadratsummen der Varianzzerlegung GesSoS (Gesamtstreuung der Objekte), ClusterSoS (Streuung innerhalb der Cluster) und ErrorSoS (Streuung zwischen den Clustern). Diese Werte müssen nicht neu berechnet werden, da Sie in den Hauptdiagonalen der Matrizen zur Varianzzerlegung stehen. ErrorSoS=Table[W[[i,i]],{i,1,t}]; ErrorSoS//N {14.75,17,10} ClusterSoS=Table[Zw[[i,i]],{i,1,t}]; ClusterSoS//N {2.45,1.8,28.8} GesSoS=Table[T[[i,i]],{i,1,t}]; GesSoS//N {17.2,18.8,38.8} Es folgen die univariaten Prüfgrößen in der Liste funi: funi=(clustersos/(k-1))/(errorsos/(n-k)); funi//n { , ,8.64} Probs=1-CDF[FRatioDistribution[k-1,n-k],funi]//N { , , } Bei keinem Merkmal kann ein Unterschied zwischen den Clustern nachgewiesen werden (Probs > 0,05).

73 Clusteranalyse Seite 73 Es sei noch bemerkt, daß wir die oberen Tests programmiert haben, da sie von SPSS in der Ausgabe zur Clusteranalyse erscheinen. Die Varianzanalyse ist aber an diese Stelle geeignet, Unterschiede festzustellen, da zuvor mit Hilfe der Clusteranalyse eine Zuordnung der Gruppen derart stattfindet, daß ein minimaler Abstand zum Klasenmittel besteht. Aus diesem Grund werden durch die Zuordnung die Streuungen innerhalb der Gruppen minimiert. Literatur: [1],[4],[6]

74 Seite 74 Clusteranalyse 4.3 SPSS Im folgenden Bild sind die Daten im SPSS-Fenster zu sehen: Wählen Sie nun Statistik Klassifizieren Clusterzentrenanalyse. Wir wollen die Clusterzugehörigkeit und die Distanz von den Zentren speichern und wählen deshalb Speichern im unteren Menü die beiden Optionen.

75 Clusteranalyse Seite 75 Danach müssen Sie Weiter wählen. Wir möchten nun auch die Tabellen der Varianzanalysen ausgeben und wählen deshalb im unter Menü, welches Sie mit Optionen erhalten, alle Optionen unter der Überschrift Statistik (siehe unten). Dann erhalten Sie wieder die Ausgabe mit Weiter und OK. Anfängliche Clusterzentren X1 X2 X3 Cluster

76 Seite 76 Clusteranalyse Iteration 1 2 Iterationsprotokoll a Änderung in Clusterzentren 1 2,000 2,194,000,000 a. Erzielte Konv ergenz aufgrund keiner oder geringer Distanzänderung. Die maximale Distanz, um die ein Zentrum v erändert wurde, ist,000. Die aktuelle Iteration ist 2. Die minimale Distanz zwischen anf änglichen Zentren ist 7,616. Cluster-Zugehörigkeit Fallnummer Cluster Distanz 2 3, , ,288 1, ,849 Clusterzentren der endgülti gen Lösung X1 X2 X3 Clust er Distanz zwischen Clusterzentren der endgültigen Lösung Cluster ,427 6,427

77 Clusteranalyse Seite 77 X1 X2 X3 Cluster ANOVA Fehler Mittel der Mittel der Quadrate df Quadrate df F Sig. 2, ,917 3,498,531 1, ,667 3,318,612 28, , ,640,061 Die F-Tests sollten nur f ür beschreibende Zwecke verwendet werden, da die Cluster so gewählt wurden, daß die Diff erenzen zwischen Fällen in unterschiedlichen Clustern maximiert werden. Dabei werden die beobachteten Signif ikanzniveaus nicht korrigiert und können daher nicht als Tests für die Hy pothese der Gleichheit der Clustermittelwerte interpretiert werden. Anzahl der Fälle in jedem Cluster Cluster Gültig Fehlend 1 2 1,000 4,000 5,000,000 Im unteren Fenster sehen Sie, daß SPSS zwei Variablen hinzugefügt hat. Die erste Variable enthält die bestimmte Clusterzugehörigkeit und die zweite Variable enthält die Distanz zum Zentrum.

78 Seite 78 Faktorenanalyse 5 Faktorenanalyse Ziel der Faktorenanalyse ist es, die Anzahl der Variablen auf wenige voneinander unabhängige Faktoren zu reduzieren und dabei möglichst viel an Information zu erhalten. Hier wird davon ausgegangen, daß die Ausgangsvariablen mit latenten Variablen, den sogenannten Faktoren, korrelieren. Bestimmte Variabeln werden stärker mit bestimmten Faktoren korrelieren als andere. Handelt es sich beispielsweise um Daten aus der Psychologie oder den Sozialwissenschaften, so können die entsprechenden Ausgangsvariablen zu Gruppen zusammengefaßt werden. Die Interpretaion der entsprechenden Faktoren ist eine Angelegenheit des Psychologen bzw. Sozialwissenschaftlers. Bei einer Untersuchung (zum Beispiel im Rahmen eines psychologischen Tests) könnten die einzelnen Faktoren als bestimmte latente Persönlichkeitseigenschaften interpretiert werden. Eine Faktorenanalyse ist auch sinnvoll, falls im Rahmen einer Regressionsanalyse der Einfluß mehrerer unabhängiger Variablen auf eine abhängige Variable untersucht werden soll. Oft kommt es vor, daß die unabhängigen Variablen in der Modellgleichung untereinander korrelieren. Hier könnte zunächst eine Faktorenanalyse mit diesen Variablen durchgeführt werden. Die Faktoren, die dabei extrahiert werden, könnten dann als neue unabhängige Variablen im Regressionsmodell verwendet werden. Wir gehen zunächst von dem folgenden Modell aus (Modell der Hauptkomponentenanalyse): Z = F L T F ist die unbekannte Faktorenmatrix (F ist eine orthogonale Matrix) und L die unbekannte Ladungsmatrix und L T deren Transponierte. Unser Modell ähnelt dem linearen Modell der Regressions- bzw. Varianzanalyse. Der Unterschied zum linearen Modell der Regressions- bzw. Varianzanalyse besteht darin, daß es zunächst keine Fehlermatrix E gibt und daß beide Matrizen auf der rechten Seite der Modellgleichung unbekannt sind. Die Matrix F entspricht dabei der Designmatrix X, und die Matrix L T entspricht der unbekannten Parametermatrix. Die Matrix Z ergibt sich aus der Datenmatrix Y, indem die Spalten von Y standardisiert werden (wie wird später gezeigt). Da wir von einem orthogonalen Faktorenmodell ausgehen, ergibt das Produkt der Matrizen F T F die Einheitsmatrix mit k Zeilen und Spalten. Im ersten Schritt bestimmen wir die beiden unbekannten Matrizen F und L vollständig, was in der Literatur als Hauptkomponentenanalyse bezeichnet wird. Im zweiten Schritt kommen wir zur eigentlichen Faktorenanalyse, wobei wir die Anzahl der Faktoren k reduzieren, die im ersten Schritt noch mit der Variablenanzahl p identisch ist, so daß wir mit diesen extrahierten Faktoren möglichst viel der Varianz der Datenmatrix Y bzw. Z erklären. Falls die Zahl der Faktoren (= Spaltenanzahl der Matrix F) nicht reduziert wird, erklärt das Modell die Daten vollständig (analog zur Regressionsanalyse Y = X mit E = 0 ). Werden k < p Faktoren extrahiert (i.a. über das Kaiserkriterium, das wir später erklären), so muß auf der rechten Seite der Modellgleichung noch die

79 Faktorenanalyse Seite 79 Fehlermatrix E hinzu addiert werden. Wir machen hierbei keine weiteren Verteilungsannahmen wie in der Regressions- und Varianzanalyse (es können aber auch Annahmen im Rahmen der Faktorenanalyse gemacht werden). Die Faktorenanalyse ist immer dann sinnvoll, wenn mehrere Variablen erfaßt wurden, die untereinander abhängig sind. Wir werden im Folgenden an einem Beispiel die Faktorenanalyse durchführen. Danach stellen wir noch einen Test vor, mit dem überprüft werden kann, ob die Ausgangsvariablen signifikant korrelieren. Dieser sollte in der Praxis zu Beginn einer Faktoren- oder Hauptkomponentenanalyse durchgeführt werden.

80 Seite 80 Faktorenanalyse 5.1 Hauptkomponentenanalyse In unserem Beispiel gehen wir davon aus, daß bei 5 Schülern die Benotung in den Fächern Mathematik (erste Spalte der Datenmatrix Y), Physik (zweite Spalte) und Biologie (dritte Spalte) in Punktzahlen erfaßt wurden: Y = {{8, 10, 7}, {12, 8, 1}, {10, 8, 4}, {8, 10, 2},{9, 9, 4}}; Y//MatrixForm p=length[transpose[y]]; (* Variablenanzahl = p *) n = Length[Y]; (* Anzahl der Beobachtungen = n *) m=table[{1},{n}] ; Im Folgenden berechnen wir die standardisierte Datenmatrix Z und mit dieser die Korrelationsmatrix R. Dabei wird Z so standardisiert, daß R = Z T Z gilt. Zuvor müssen, wie üblich, einige Hilfsgrößen berechnet werden, wie z.b. die Matrix M der Spaltenmittelwerte von Y sowie die mit (n-1) multiplizierte empirische Varianz- Kovarianzmatrix, genannt COVYn: Ym=Flatten[Transpose[Y].m/n]; Ym//N {9.4,9.,3.6} M=Table[Ym,{n}]; M//MatrixForm//N COVYn=Transpose[Y-M].(Y-M); COVYn//MatrixForm//N Nun ergibt sich die empirische Varianz-Kovarianzmatrix COVY:

81 Faktorenanalyse Seite 81 COVY=COVYn/(n-1); COVY//MatrixForm//N Die Matrix rvyn dient ebenfalls als Hilfsgröße zur Standardisierung der Datenmatrix Y: rvyn=identitymatrix[3]/covyn; rvyn//matrixform//n Standardisierte Datenmatrix Z: Z = (Y - M).( rvyn^(1/2))//n; Z // MatrixForm Bemerkung: Üblicherweise wird die Datenmatrix Y so standardisiert, daß der Mittelwert jeder Spalte gleich Null und die empirische Varianz jeder Spalte gleich Eins ist. In diesem Fall haben wir die Datenmatrix so standardisiert, daß die empirische Varianz jeder Spalte gleich 1/(n-1) ist, sonst gilt nicht: R = Z T Z Nun wird die empirische Korrelationsmatrix R berechnet, wobei wir aber nicht mehr die exakten Werte in R übergeben, sondern die numerischen Werte (Z wurde oben numerisch übergeben). Sonst wird bei großen Datensätzen mit vielen Variablen die Berechnung der Eigenwerte und Eigenvektoren für das System zu aufwendig (was natürlich für Mathematica bei diesem kleinen Datensatz noch kein Problem darstellt): R=Transpose[Z].Z; R//MatrixForm

82 Seite 82 Faktorenanalyse Wie zu sehen ist, sind die Nebendiagonalelemente der Korrelationsmatrix R vom Betrag her recht groß. Man kann also davon ausgehen, daß die Ausgangsvariablen bivariat korreliert sind (was man natürlich mit einem Test zur bivariaten Korrelation untersuchen könnte). Hier wäre also eine Faktorenanalyse durchaus angebracht. Außerdem ist zu sehen, daß die erste Spalte der Datenmatrix mit den beiden anderen negativ korreliert, während die zweite mit der dritten Spalte positiv korreliert ist. Mit Hilfe der empirischen Korrelationsmatrix R kann nun die Ladungsmatrix L und mit ihr die Faktorenmatrix F berechnet werden. Da R = Z T Z gilt, folgt mit der Modellgleichung Z = F L T für R: R = (F L T ) T F L T = L F T F L T. Wegen der vorausgesetzten Orthogonalität von F gilt: R = L L T (1). Da R zumindest positiv semidefinit und somit diagonalähnlich ist, kann R wie folgt zerlegt werden: R = T Di T T (2), wobei T die Matrix ist, deren Spalten aus den orthonormierten Eigenvektoren von R bestehen (T ist demnach auch eine orthogonale Matrix, für die gilt T T T = I) und Di ist die Diagonalmatrix, die auf der Hauptdiagonalen die (reellen) Eigenwerte von R enthält. Somit ergibt sich die gesuchte Ladungsmatrix L = T Di 1/2, die der Bedingung (1) genügt. Wir berechnen nun die Matrix T der Eigenvektoren von R: T=Transpose[Eigenvectors[R]]; T//MatrixForm T enthält nun in den Spalten die Eigenvektoren von R, die bereits orthonormiert sind, wie man schnell mit der Eingabe von Transpose[T].T//Chop//MatrixForm

83 Faktorenanalyse Seite überprüfen kann. Wenn dies nicht der Fall wäre, hätten wir mit der Mathematica- Funktion GramSchmidt[T] die orthonormierten Vektoren berechnen lassen können (hierzu muß zuvor das Paket "LinearAlgebra`Orthogonalization`" geladen werden). Di ist Diagonalmatrix mit den Eigenwerten von R auf der Diagonalen. Diese erhält man, indem die Gleichung (2) nach Di aufgelöst wird: Di=Chop[Transpose[T].R.T]; Di//MatrixForm Nun kann die Ladungsmatrix L mit den Matrizen T und Di berechnet werden: L=T.(Di^0.5); L//MatrixForm Mit Hilfe der Ladungsmatrix kann die Korrelation der einzelnen Faktoren mit den Ausgangsvariablen bestimmt werden. Der erste Faktor korreliert mit der ersten Variable hoch negativ (-0,963485), mit der zweiten Variable hoch positiv (0,908608) und mit der dritten Variable etwas geringer, aber immer noch positiv (0,742844). Der dritte Faktor korreliert mit den drei Ausgangsvariablen erheblich geringer, wobei er mit der dritten Variable nur noch sehr gering korreliert (0, ). Nun berechnen wir noch die Matrix Kommunalität, auf deren Hauptdiagonalen die Kommunalitäten stehen. Die Kommunalitäten entsprechen der empirischen Korrelation aller Faktoren mit der jeweiligen Ausgangsvariablen. Diese kann auch als Anteil der Varianz definiert werden, die die gemeinsamen Faktoren im Verhältnis zur Gesamtvarianz einer Ausgangsvariable erklären. Dabei entspricht das erste Diagonalelement dem Anteil der Varianz, die die gemeinsamen Faktoren an der Varianz der ersten Variable erklären u.s.w.. Kommunalität=L.Transpose[L]; Kommunalität//MatrixForm

84 Seite 84 Faktorenanalyse Da wir eine Faktorenanalyse mit allen Faktoren durchgeführt haben, enthält unser Modell keine Fehlermatrix E. Deshalb befinden sich auf der Hauptdiagonalen der Kommunalitätenmatrix nur Einsen. Mit dieser Matrix wird nämlich die empirische Korrelationsmatrix R der Daten Y (bzw. die empirische Varianz-Kovarianzmatrix der standardisierten Datenmatrix Y) wie folgt zerlegt: R = Kommunalitätenmatrix + Residualmatrix (diese bezeichnen wir mit RE). Die Matrix RE besteht hier somit nur aus Nullen, und die Kommunalitätenmatrix ist identisch mit der Matrix R. Deshalb erklären die Faktoren die gesamte Varianz bezüglich (jeweils) jeder Variablen. Wenn wir im nächsten Schritt nur einige Faktoren extrahieren, so wird dies nicht mehr der Fall sein. Man wird natürlich daran interessiert sein, daß die Hauptdiagonalelemente der Kommunalitätenmatrix möglichst groß sind, so daß der Anteil der erklärten Varianz möglichst groß ist und die Residualmatrix möglichst geringe Hauptdiagonalelemente besitzt. Mit der vollständigen Ladungsmatrix L berechnen wir nun die Faktorenmatrix F mit allen Faktoren, denn aus der Modellgleichung Z = F L T folgt F = Z (L T ) -1 (3), womit wir die Faktorenmatrix berechnen könnten (nur falls mit allen Faktoren gerechnet wird, sonst ist L keine quadratische Matrix). Es gilt aber auch F = Z T D -1/2 = Z T D -1 T T T D 1/2, also F = Z R -1 L (4) Hiermit berechnen wir nun die Faktorenmatrix F: F=Z.Inverse[R].L; F//MatrixForm Von den meisten Statistikprogrammpaketen wird zusätzlich die Matrix (L T ) -1 bzw. R -1 L ausgegeben und mit Scores bezeichnet, da über diese mit Hilfe der standardisierten Datenmatrix Z direkt die Faktorenmatrix F berechnet werden kann (siehe (4)). Diese

85 Faktorenanalyse Seite 85 enthält also die Linearkombination, über die mit den Spalten der Matrix Z die Faktorenmatrix F berechnet werden kann. Scores=Inverse[Transpose[L]]; Scores//MatrixForm Man kann nun schnell nochmals überprüfen, ob die Fehlermatrix E nur aus Nullen besteht: Chop[Z-F.Transpose[L]]//MatrixForm Mit Hilfe der Eigenwerte der empirischen Korrelationsmatrix R können wir den Anteil der Varianz bestimmen, die der jeweilige Faktor (in Bezug auf die Gesamtvarianz der Ausgangsvariablen, bzw. der Datenmatrix Y) erklärt. Diesen Anteil berechnen wir in %: Eigenvalues[R]/p*100 { , , } Also erklärt der erste Faktor 76,8563% der Varianz der drei Variablen, der zweite 20,3975% und der dritte 2,74622%.

86 Seite 86 Faktorenanalyse 5.2 Extraktion von Faktoren (Faktorenanalyse) Sollen nun die Anzahl der Faktoren von k (= p = 3) auf k <p reduziert werden, so werden nur die Faktoren extrahiert, die möglichst viel Varianz erklären. Hierzu gibt es bestimmte Kriterien, wie z.b. das Kaiserkriterum, nach dem nur die Faktoren extrahiert werden, bei denen der entsprechende Eigenwert größer oder gleich 1 ist, denn nur dadurch wird mehr Varianz erklärt als durch eine der Ausgangsvariablen. Ein anderes Kriterium wählt so viele Faktoren aus, bis ein willkürlich festgesetzter Anteil an Varianz durch sie erklärt wird. Es kann zur Bestimmung der Faktorenanzahl k auch der Sphären-Test verwendet werden. Wir geben nun nochmals die Eigenwerte aus: Eigenvalues[R] { , , } Nach dem Kaiserkriterium müßten wir nur einen Faktor extrahieren, da nur der erste Faktor einen Eigenwert größer Eins besitzt. Wir wählen aber in unserem Beispiel k = 2 Faktoren aus, um möglichst viel Varianz zu erklären, denn diese zwei Faktoren erklären 76,8563% + 20,3975% = 97,2538 % der Varianz der Daten. Wir reduzieren nun Ladungsmatrix L auf die ersten beiden Spalten und nennen diese neue Ladungsmatrix Lk. Danach berechnen wir wie oben die (nun reduzierte) neue Faktorenmatrix Fk. Diese Vorgehensweise wird in der Literatur als die eigentliche Faktorenanalyse bezeichnet, während das Rechnen mit allen Faktoren noch der Hauptkomponentenanalyse entspricht. Lk=Transpose[{Transpose[L][[1]],Transpose[L][[2]]}]; Lk//MatrixForm Fk=Z.Inverse[R].Lk; Fk//MatrixForm

87 Faktorenanalyse Seite 87 Somit ergeben sich die neuen Kommunalitäten (Kommunalitätk): Kommunalitätk=Lk.Transpose[Lk]; Kommunalitätk//MatrixForm Betrachtet man die Hauptdiagonale der Matrix Kommunalitätk, so stehen hier noch relativ große Werte. Demnach erklären die zwei Faktoren 95,4281% der Varianz der ersten Variable, 96,6023% der zweiten und 99,731% der dritten Variable. Die im Folgenden berechnete Residualmatrix RE weist dementsprechend niedrige Werte auf der Hauptdiagonalen auf. Das Modell erklärt demnach die Daten recht gut. RE=R-Kommunalitätk; RE//MatrixForm Mit der Residualmatrix RE kann die Matrix der empirischen Einzelrestvarianzen U berechnet werden, denn diese hat die gleiche Hauptdiagonale wie die Matrix RE und besitzt auf der Nebendiagonalen nur Nullen: U=RE*IdentityMatrix[p]; U//MatrixForm Berechnen wir zum Schluß noch die Fehlermatrix Ey (wir müssen diese Ey anstatt E nennen, da E von Mathematica mit der Euler schen Zahl vorbelegt ist), die die absoluten Abweichungen des Modells von der standardisierten Datenmatrix Z enthält : Ey=Z - Fk.Transpose[Lk]; Ey//MatrixForm

88 Seite 88 Faktorenanalyse 5.3 Graphische Darstellung Es gibt einige Methoden, mit denen man die Ladungsmatrix L bzw. Lk transformieren kann, z.b. durch eine Rotation, indem die Ladungsmatrix L von rechts mit einer Rotationsmatrix multipliziert wird. Diese Rotation entspricht einer Drehung des Koordinatensystems des folgenden Ladungsplots. Hiermit sind die Ladungen oft grafisch besser zu interpretieren. Auf diese Transformationen gehen wir im einzelnen nicht ein. Wir wollen nun den sogenannten Ladungsplot erzeugen. Hierzu benötigen wir die Matrix Scoresk (dies ist die auf die ersten beiden Spalten reduzierte Matrix Scores, entsprechend der zwei extrahierten Faktoren). Danach stellen wir die Ladungspaare in einem Koordinatensystem dar, indem wir jeweils die Scores des ersten Faktors auf der x-achse und die des zweiten Faktors auf der y-achse abtragen. Scoresk=Inverse[R].Lk; Scoresk//MatrixForm ListPlot[Scoresk,PlotStyle->PointSize[0.02]] Der linke Punkt stellt die Scores der ersten Variable dar, der Punkt rechts unten die der zweiten und der rechts oben entsprechend die der dritten Variable.

89 Faktorenanalyse Seite Sphärizitätstest (Bartlett) Eine Hauptkomponenten- oder Faktorenanalyse macht nur Sinn, falls die Ausgangsvariablen der Datenmatrix Y korrelieren, wie wir bereits beschrieben haben. Hierzu gibt es einen Test von Bartlett, mit dem überprüft werden kann, ob die Korrelationsmatrix signifikant von der Einheitsmatrix verschieden ist. Wir führen im Folgenden mit der Datenmatrix Y aus dem oberen Beispiel den Test durch mit den Hypothesen: Nullhypothese: = I gegen die Alternativhypothese: I Wir berechnen nun zunächst die Prüfgröße Chisq, welche als eine Realisierung einer asymptotisch Chi-Quadrat verteilten zufälligen Größe mit den Freiheitsgraden df angesehen werden kann. Danach berechnen wir den Wert Prob, mit dem wir wieder unsere Testentscheidung fällen: Chisq=-(n-1 -(2*p+5)/6)*Log[Det[R]] df=p(p-1)/2 3 Needs["Statistics`Master`"] Prob=1-CDF[ChiSquareDistribution[df],Chisq] Wie zu sehen ist, könnte in unserem Beispiel die Nullhypothese der Unkorreliertheit nicht verworfen werden (Prob > 0,05), was wahrscheinlich an dem geringen Stichprobenumfang liegt, denn aufgrund der entsprechend (betragsmäßig) großen Werte auf der Nebendiagonalen der Korrelationsmatrix R hätte man ein signifikantes Ergebnis erwartet. Literatur: [1],[4],[6],[9]

90 Seite 90 Faktorenanalyse 5.5 SPSS Zunächst müssen die Daten in SPSS eingeben werden. Hierzu benötigen wir die drei Variablen x1, x2 und x3. Um das Menü der Faktorenanalyse zu erhalten, müssen Sie Statistik Dimensionsreduktion Faktorenanalyse wählen und die drei Variablen auswählen (siehe unten).

91 Faktorenanalyse Seite 91 Wir wollen, wie zuvor mit Mathematica, zwei Faktoren extrahieren. Dazu müssen Sie Extraktion und dort Anzahl Faktoren: 2 setzen. Ansonsten würde SPSS Faktoren nach dem Kaiser Kritrium auswählen (d.h. nur die Faktoren, die mit Eigenvektoren gebildet werden, deren zugehöriger Eigenwert >1 ist). Wählen Sie hier noch die Option Screenplot und dann Weiter. Ein Screenplot stellt die Eigenwerte der Faktoren in einer Grafik dar. Danach wollen wir noch die Ladungsdiagramme erstellen lassen. Dazu müssen Sie wählen: Rotation Ladungsdiagramme erstellen. In diesem Menü können Sie auch eine Rotation (z.b. die Varimaxrotation) wählen. Wir wollen dieses Diagramm aber zunächst ohne Rotation zeichnen lassen, damit Sie die Ausgabe mit Mathematica vergleichen können. Eine Rotation entspricht einer Drehung des Koordinatensystems, damit die Faktoren besser interpretiert werden können. Mathematisch bedeutet dies, wie bereist beschrieben, eine Multiplikation der Faktorenmatrix mit einer Orthogonalmatix. Ensprechend wird die Ladungsmatrix mit der Inversen (bzw. Transponierten) dieser Matrix multipliziert.

92 Seite 92 Faktorenanalyse Wählen Sie nun Weiter. Da wir auch die Scorematrix ausgegeben haben möchten, wählen wir noch Werte Koeffizientenmatrix der Faktorwerte anzeigen Weiter. Den Test von Bartlett können Sie über das Menü Deskriptive Statistik anfordern (siehe unten). Mit OK erhalten Sie die Ausgabe:

93 Faktorenanalyse Seite 93 KMO- und Bartlett-Test Maß der Stichprobeneignung nach Kaiser-Meyer-Olkin. Bartlett-Test auf Sphärizität Ungefähres Chi-Quadrat df Signifikanz nach Bartlett,544 4,663 3,198 Wie oben zu sehen ist, kann die Nullhypothese, daß die Korrelationsmatrix gleich der Einheitsmatrix ist, nicht verworfen werden (p-wert = > 0.05). X1 X2 X3 Kommunalitäten Anf änglich Extraktion 1,000,954 1,000,966 1,000,997 Extraktionsmethode: Hauptkomponentenanaly se. Komponente Anf ängliche Eigenwerte Erklärte Gesamtvarianz % der Kumulierte % der Kumulierte Gesamt Varianz % Gesamt Varianz % 2,306 76,856 76,856 2,306 76,856 76,856,612 20,397 97,254,612 20,397 97,254 8,239E-02 2, ,000 Extraktionsmethode: Hauptkomponentenanalyse. Summen von quadrierten Faktorladungen f ür Extraktion In der oberen Tabelle sind die Eigenwerte der drei Faktoren zu sehen und die Varianz, die von den einzelnen Faktoren erklärt wird. 2,5 Screeplot 2,0 1,5 1,0 Eigenwert,5 0, Faktor

94 Seite 94 Faktorenanalyse Hier sehen Sie die Ladungsmatrix (Mathematica: Lk): X1 X2 X3 Komponentenmatrix a Komponente 1 2 -,963,161,909 -,375,743,667 Extraktionsmethode: Hauptkomponentenanaly se. a. 2 Komponenten extrahiert Es folgt der Ladungsplot: 1,0 Komponentendiagramm x3,5 x1 0,0 x2 Komponente 2 -,5-1,0-1,0 -,5 0,0,5 1,0 Komponente 1 Hier sehen Sie die Scorematrix (Mathematica: Scoresk): Koeffizientenmatrix der Komponentenwerte Komponente 1 2 X1 -,418,263 X2,394 -,612 X3,322 1,091 Extraktionsmethode: Hauptkomponentenanaly se. Komponentenwerte.

95 Faktorenanalyse Seite 95 Kovarianzmatrix des Komponentenwerts Komponente ,000,000,000 1,000 Extraktionsmethode: Hauptkomponentenanaly se. Komponentenwerte.

96 Seite 96 Anhang: Multivariate Verteilungen 6 Anhang: Multivariate Verteilungen Erwartungswert und Varianz-Kovarianzmatrix: t X Mit bzw. bezeichnen wir den transponierten Vektor von schreiben wir immer (soweit dies möglich ist) in Großbuchstaben. Sei X T t X ( X, X,..., X k ) E( X) 1 2 x f ( x ) dx mit ii i i i X. Zufallsvariablen ein k dimensionaler stetiger Zufallsvektor, dann heißt der Erwartungswert von X. Dabei gilt: i = 1, 2,..., k und f i ist die Dichtefunktion der Zufallsvariable X i. Die Varianz-Kovarianzmatrix ist definiert durch: t Var( X) E(( X )( X ) ) i, j 2 i i i Var Xi und, ( ). i, j1, 2,..., k. Dabei ist i,j = Cov(X i, X j ) für i j Korrelationsmatrix: Die Korrelationsmatrix P ist definiert durch P ii i, j jj i, j1,2,..., k Satz: Seien k-dimensionale Zufallsvektoren und a sei ein nicht-stochastischer k- dimensionaler Vektor und A eine kk dimensionale nichtstochastische Matrix, dann gilt: X, Y E( X Y) E( X) E( Y) E( AX a) AE( X) a Var( AX a) AVar( X) A t Bemerkungen: Sei X eine Datenmatrix die k Merkmale und n Beobachtungen enthält. X ist somit eine nk Matrix. Unter der Annahme, daß die Zeilen von X aus Realisierungen von k- dimensionalen unabhängigen Zufallsvektoren X i besteht, so wird a) der Erwartungswert wie folgt geschätzt: 1 1n, k. Dabei ist 1 n, k eine nk Matrix, die nur Einsen enthält. n Xt

97 Anhang: Multivariate Verteilungen Seite 97 b) die Varianz-Kovarianzmatrix wie folgt geschätzt: 1 ( (,,..., t t ) ) (( ( X X,,..., t ) ) n 1 nmal nmal c) die Korrelationsmatrix wie folgt geschätzt: Sei Z die standardisierte Datenmatrix, dann gilt: P ( n 1 ) Z Z t Die multidimensionale Normalverteilung: Die multidimensionale Normalverteilungsdichte ist definiert durch t 1 1/ 2( x) ( x) e k fx Falls E( X X) 1 ( 2). Dabei ist eine positiv definite Matrix. ein k-dimensionaler multidimensional normalverteilter Zufallsvektor ist, mit und Var( so schreiben wir. X) Bemerkungen: Falls die Komponenten des Zufallsvektors X N(, ) X paarweise stochastisch unabhängig sind, 2 so ist die Varianz-Kovarianzmatrix eine Diagonalmatrix mit den Varianzen i auf der Hauptdiagonalen. Die Dichtefunktion würde in diesem Fall wie folgt aussehen: f x (2 ) k ( 2 2 x 1 1 x 1/ 2... k k 1 1 k e k ) Wie zu sehen ist, folgt im Falle der Normalverteilung auch umgekehrt aus der Unkorreliertheit die Unabhängigkeit, denn die obere Dichte läßt sich als Produkt der Randdichten darstellen. Wir zeichnen im Folgenden die zwei Dichtefunktionen der zweidimensionalen Normalverteilung. Jeweils mit und einmal mit und einmal mit 1 4 / 5 4 / I

98 Seite 98 Anhang: Multivariate Verteilungen

99 Anhang: Multivariate Verteilungen Seite 99 Bemerkungen: 1.) Es gilt: X N( 0,I 1/ 2 ) X N(, ). I ist die Einheitsmatrix. q q t 2.) Für rationale q und positiv definite Matrix A gilt allgemein: A TD T. Dabei ist D = diag( i) eine Diagonalmatrix und i sind die Eigenwerte von A. Die Chi-quadrat-Verteilung, F(ischer)-Verteilung und die (Student) t-verteilung: Sei A idempotent (d.h. AA=A) und rang(a) = r. Sei I ein k-dimensionaler Zufallsvektor. Dann heißt die Zufallsvariable Y = 2 Freiheitsgraden. Kurz Y r. Für A = I ist Y n 2. X N( 0, ) t X AX 2 Es gilt für zwei unabhängige Zufallsvariablen Y 1 und Y 2, mit Y 1 n ) Y 1 + Y 2 n n chi-quadrat verteilt mit r und Y 2 2 n2 : 2) Y / n Y / n ist F-verteilt mit n 1 und n 2 Freiheitsgraden. Kurz: Y Y / n / n F(n 1,n 2 )

Allgemeines Lineares Modell: Univariate Varianzanalyse und Kovarianzanalyse

Allgemeines Lineares Modell: Univariate Varianzanalyse und Kovarianzanalyse Allgemeines Lineares Modell: Univariate Varianzanalyse und Kovarianzanalyse Univariate Varianz- und Kovarianzanlyse, Multivariate Varianzanalyse und Varianzanalyse mit Messwiederholung finden sich unter

Mehr

Varianzanalyse ANOVA

Varianzanalyse ANOVA Varianzanalyse ANOVA Johannes Hain Lehrstuhl für Mathematik VIII Statistik 1/23 Einfaktorielle Varianzanalyse (ANOVA) Bisher war man lediglich in der Lage, mit dem t-test einen Mittelwertsvergleich für

Mehr

3.3 Das allgemeine lineare Modell (ALM), Methode der kleinsten Quadrate

3.3 Das allgemeine lineare Modell (ALM), Methode der kleinsten Quadrate 31 und 31 und (), Methode der 33 Das allgemeine (), Methode der kleinsten Quadrate 37 Modelle mit Messwiederholungen 1 / 113 Eine grundsätzliche Bemerkung zu Beginn Es bestehen viele Ähnlichkeiten zwischen

Mehr

FAKTORIELLE VERSUCHSPLÄNE. Andreas Handl

FAKTORIELLE VERSUCHSPLÄNE. Andreas Handl FAKTORIELLE VERSUCHSPLÄNE Andreas Handl 1 Inhaltsverzeichnis 1 Versuchsplanung 4 2 Einfaktorielle Varianzanalyse 6 2.1 DieAnnahmen... 6 2.2 Die ANOVA-Tabelle und der F -Test... 6 2.3 Versuche mit zwei

Mehr

Webergänzung zu Kapitel 10

Webergänzung zu Kapitel 10 Webergänzung zu Kapitel 10 10.1.4 Varianzanalyse (ANOVA: analysis of variance) Im Kapitel 10 haben wir uns hauptsächlich mit Forschungsbeispielen beschäftigt, die nur zwei Ergebnissätze hatten (entweder

Mehr

V A R I A N Z A N A L Y S E

V A R I A N Z A N A L Y S E V A R I A N Z A N A L Y S E Ziel / Funktion: statistische Beurteilung des Einflusses von nominal skalierten (kategorialen) Faktoren auf intervallskalierte abhängige Variablen Vorteil: die Wirkung von mehreren,

Mehr

Weitere (wählbare) Kontraste in der SPSS Prozedur Allgemeines Lineares Modell

Weitere (wählbare) Kontraste in der SPSS Prozedur Allgemeines Lineares Modell Einfaktorielle Versuchspläne 27/40 Weitere (wählbare) Kontraste in der SPSS Prozedur Allgemeines Lineares Modell Abweichung Einfach Differenz Helmert Wiederholt Vergleich Jede Gruppe mit Gesamtmittelwert

Mehr

Willkommen zur Vorlesung Statistik (Master)

Willkommen zur Vorlesung Statistik (Master) Willkommen zur Vorlesung Statistik (Master) Thema dieser Vorlesung: Verteilungsfreie Verfahren Prof. Dr. Wolfgang Ludwig-Mayerhofer Universität Siegen Philosophische Fakultät, Seminar für Sozialwissenschaften

Mehr

Business Value Launch 2006

Business Value Launch 2006 Quantitative Methoden Inferenzstatistik alea iacta est 11.04.2008 Prof. Dr. Walter Hussy und David Tobinski UDE.EDUcation College im Rahmen des dokforums Universität Duisburg-Essen Inferenzstatistik Erläuterung

Mehr

Multivariate Statistik

Multivariate Statistik Hermann Singer Multivariate Statistik 1 Auflage 15 Oktober 2012 Seite: 12 KAPITEL 1 FALLSTUDIEN Abbildung 12: Logistische Regression: Geschätzte Wahrscheinlichkeit für schlechte und gute Kredite (rot/blau)

Mehr

Varianzanalyse (ANOVA: analysis of variance)

Varianzanalyse (ANOVA: analysis of variance) Varianzanalyse (AOVA: analysis of variance) Einfaktorielle VA Auf der Basis von zwei Stichproben wird bezüglich der Gleichheit der Mittelwerte getestet. Variablen müssen Variablen nur nominalskaliert sein.

Mehr

Übungsserie Nr. 10 mit Lösungen

Übungsserie Nr. 10 mit Lösungen Übungsserie Nr. 10 mit Lösungen 1 Ein Untersuchungsdesign sieht einen multivariaten Vergleich einer Stichprobe von Frauen mit einer Stichprobe von Männern hinsichtlich der Merkmale X1, X2 und X3 vor (Codierung:

Mehr

6. METRISCHE UND KATEGORIALE MERKMALE

6. METRISCHE UND KATEGORIALE MERKMALE 6. METRISCHE UND KATEGORIALE MERKMALE wenn an einer Beobachtungseinheit eine (oder mehrere) metrische und eine (oder mehrere) kategoriale Variable(n) erhoben wurden Beispiel: Haushaltsarbeit von Teenagern

Mehr

Anhang A: Fragebögen und sonstige Unterlagen

Anhang A: Fragebögen und sonstige Unterlagen Anhang Anhang A: Fragebögen und sonstige Unterlagen A.: Flyer zur Probandenrekrutierung 46 A.: Fragebogen zur Meditationserfahrung 47 48 A.3: Fragebogen Angaben zur Person 49 5 5 A.4: Termin- und Einladungsschreiben

Mehr

9. Schätzen und Testen bei unbekannter Varianz

9. Schätzen und Testen bei unbekannter Varianz 9. Schätzen und Testen bei unbekannter Varianz Dr. Antje Kiesel Institut für Angewandte Mathematik WS 2011/2012 Schätzen und Testen bei unbekannter Varianz Wenn wir die Standardabweichung σ nicht kennen,

Mehr

Inhaltsverzeichnis. Regressionsanalyse. http://mesosworld.ch - Stand vom: 20.1.2010 1

Inhaltsverzeichnis. Regressionsanalyse. http://mesosworld.ch - Stand vom: 20.1.2010 1 Inhaltsverzeichnis Regressionsanalyse... 2 Lernhinweise... 2 Einführung... 2 Theorie (1-8)... 2 1. Allgemeine Beziehungen... 3 2. 'Best Fit'... 3 3. 'Ordinary Least Squares'... 4 4. Formel der Regressionskoeffizienten...

Mehr

Einfache statistische Testverfahren

Einfache statistische Testverfahren Einfache statistische Testverfahren Johannes Hain Lehrstuhl für Mathematik VIII (Statistik) 1/29 Hypothesentesten: Allgemeine Situation Im Folgenden wird die statistische Vorgehensweise zur Durchführung

Mehr

Korrelation - Regression. Berghold, IMI

Korrelation - Regression. Berghold, IMI Korrelation - Regression Zusammenhang zwischen Variablen Bivariate Datenanalyse - Zusammenhang zwischen 2 stetigen Variablen Korrelation Einfaches lineares Regressionsmodell 1. Schritt: Erstellung eines

Mehr

Kapitel 7: Varianzanalyse mit Messwiederholung

Kapitel 7: Varianzanalyse mit Messwiederholung Kapitel 7: Varianzanalyse mit Messwiederholung Durchführung einer einfaktoriellen Varianzanalyse mit Messwiederholung 1 Durchführung einer zweifaktoriellen Varianzanalyse mit Messwiederholung auf einem

Mehr

25. Januar 2010. Ruhr-Universität Bochum. Methodenlehre III, WS 2009/2010. Prof. Dr. Holger Dette. 4. Multivariate Mittelwertvergleiche

25. Januar 2010. Ruhr-Universität Bochum. Methodenlehre III, WS 2009/2010. Prof. Dr. Holger Dette. 4. Multivariate Mittelwertvergleiche Ruhr-Universität Bochum 25. Januar 2010 1 / 75 2 / 75 4.1 Beispiel: Vergleich von verschiedenen Unterrichtsmethoden Zwei Zufallsstichproben (A und B) mit je 10 Schülern und 8 Schülern Gruppe A wird nach

Mehr

Grundlagen quantitativer Sozialforschung Interferenzstatistische Datenanalyse in MS Excel

Grundlagen quantitativer Sozialforschung Interferenzstatistische Datenanalyse in MS Excel Grundlagen quantitativer Sozialforschung Interferenzstatistische Datenanalyse in MS Excel 16.11.01 MP1 - Grundlagen quantitativer Sozialforschung - (4) Datenanalyse 1 Gliederung Datenanalyse (inferenzstatistisch)

Mehr

12. Vergleich mehrerer Stichproben

12. Vergleich mehrerer Stichproben 12. Vergleich mehrerer Stichproben Dr. Antje Kiesel Institut für Angewandte Mathematik WS 2011/2012 Häufig wollen wir verschiedene Populationen, Verfahren, usw. miteinander vergleichen. Beipiel: Vergleich

Mehr

Kapitel 5: Einfaktorielle Varianzanalyse

Kapitel 5: Einfaktorielle Varianzanalyse Kapitel 5: Einfaktorielle Varianzanalyse Durchführung einer einfaktoriellen Varianzanalyse ohne Messwiederholung Dieser Abschnitt zeigt die Durchführung der in Kapitel 5 vorgestellten einfaktoriellen Varianzanalyse

Mehr

Varianzananalyse. How to do

Varianzananalyse. How to do Varianzananalyse How to do Die folgende Zusammenfassung zeigt beispielhaft, wie eine Varianzanalyse mit SPSS durchgeführt wird und wie die Ergebnisse in einem Empra-Bericht oder in einer Bachelor- oder

Mehr

Statistik II für Betriebswirte Vorlesung 3

Statistik II für Betriebswirte Vorlesung 3 PD Dr. Frank Heyde TU Bergakademie Freiberg Institut für Stochastik Statistik II für Betriebswirte Vorlesung 3 5. November 2013 Beispiel: Aktiensplit (Aczel & Sounderpandan, Aufg. 14-28) Ein Börsenanalyst

Mehr

Beispiel für eine multivariate Varianzanalyse (MANOVA) Daten: POKIV_Terror_V12.sav

Beispiel für eine multivariate Varianzanalyse (MANOVA) Daten: POKIV_Terror_V12.sav Beispiel für eine multivariate Varianzanalyse () Daten: POKIV_Terror_V12.sav Es soll überprüft werden, inwieweit das ATB-Syndrom (Angst vor mit den drei Subskalen affektive Angst von, Terrorpersistenz,

Mehr

Name (in Druckbuchstaben): Matrikelnummer: Unterschrift:

Name (in Druckbuchstaben): Matrikelnummer: Unterschrift: 20-minütige Klausur zur Vorlesung Lineare Modelle im Sommersemester 20 PD Dr. Christian Heumann Ludwig-Maximilians-Universität München, Institut für Statistik 2. Oktober 20, 4:5 6:5 Uhr Überprüfen Sie

Mehr

Motivation. Wilcoxon-Rangsummentest oder Mann-Whitney U-Test. Wilcoxon Rangsummen-Test Voraussetzungen. Bemerkungen

Motivation. Wilcoxon-Rangsummentest oder Mann-Whitney U-Test. Wilcoxon Rangsummen-Test Voraussetzungen. Bemerkungen Universität Karlsruhe (TH) Forschungsuniversität gegründet 825 Wilcoxon-Rangsummentest oder Mann-Whitney U-Test Motivation In Experimenten ist die Datenmenge oft klein Daten sind nicht normalverteilt Dann

Mehr

Klausur zur Vorlesung Multivariate Verfahren, SS 2006 6 Kreditpunkte, 90 min

Klausur zur Vorlesung Multivariate Verfahren, SS 2006 6 Kreditpunkte, 90 min Klausur, Multivariate Verfahren, SS 2006, 6 Kreditpunkte, 90 min 1 Prof. Dr. Fred Böker 08.08.2006 Klausur zur Vorlesung Multivariate Verfahren, SS 2006 6 Kreditpunkte, 90 min Gesamtpunkte: 39 Aufgabe

Mehr

Im Modell der Varianzanalyse (mit festen Effekten) ist das. aus dem Durchschnittsmesswert für y plus dem Effekt des.

Im Modell der Varianzanalyse (mit festen Effekten) ist das. aus dem Durchschnittsmesswert für y plus dem Effekt des. Einfatorielle Varianzanalyse Varianzanalyse untersucht den Einfluss verschiedener Bedingungen ( = nominalsalierte(r) Variable(r)) auf eine metrische Variable. Die Bedingungen heißen auch atoren und ihre

Mehr

Bachelorabschlussseminar Dipl.-Kfm. Daniel Cracau

Bachelorabschlussseminar Dipl.-Kfm. Daniel Cracau 1 Einführung in die statistische Datenanalyse Bachelorabschlussseminar Dipl.-Kfm. Daniel Cracau 2 Gliederung 1.Grundlagen 2.Nicht-parametrische Tests a. Mann-Whitney-Wilcoxon-U Test b. Wilcoxon-Signed-Rank

Mehr

Tabelle 6a: Deskriptive Statistiken der metrischen Variablen

Tabelle 6a: Deskriptive Statistiken der metrischen Variablen Ergebnisse 77 5 Ergebnisse Das folgende Kapitel widmet sich der statistischen Auswertung der Daten zur Ü- berprüfung der Hypothesen. Die hier verwendeten Daten wurden mit den in 4.3 beschriebenen Instrumenten

Mehr

Kommentierter SPSS-Ausdruck zur logistischen Regression

Kommentierter SPSS-Ausdruck zur logistischen Regression Daten: POK V AG 3 (POKV_AG3_V07.SAV) Kommentierter SPSS-Ausdruck zur logistischen Regression Fragestellung: Welchen Einfluss hat die Fachnähe und das Geschlecht auf die interpersonale Attraktion einer

Mehr

Einige Statistische Tests für den Ein- Zwei- und k-stichprobenfall (Nach Sachs, Stat. Meth.)

Einige Statistische Tests für den Ein- Zwei- und k-stichprobenfall (Nach Sachs, Stat. Meth.) ue biostatistik: nichtparametrische testverfahren / ergänzung 1/6 h. Lettner / physik Statistische Testverfahren Einige Statistische Tests für den Ein- Zwei- und k-stichprobenfall (Nach Sachs, Stat. Meth.)

Mehr

Fortgeschrittene Statistik Logistische Regression

Fortgeschrittene Statistik Logistische Regression Fortgeschrittene Statistik Logistische Regression O D D S, O D D S - R A T I O, L O G I T T R A N S F O R M A T I O N, I N T E R P R E T A T I O N V O N K O E F F I Z I E N T E N, L O G I S T I S C H E

Mehr

Multinomiale logistische Regression

Multinomiale logistische Regression Multinomiale logistische Regression Die multinomiale logistische Regression dient zur Schätzung von Gruppenzugehörigkeiten bzw. einer entsprechenden Wahrscheinlichkeit hierfür, wobei als abhänginge Variable

Mehr

Eine Einführung in R: Statistische Tests

Eine Einführung in R: Statistische Tests Eine Einführung in R: Statistische Tests Bernd Klaus, Verena Zuber Institut für Medizinische Informatik, Statistik und Epidemiologie (IMISE), Universität Leipzig http://www.uni-leipzig.de/ zuber/teaching/ws12/r-kurs/

Mehr

Varianzanalytische Methoden Zweifaktorielle Versuchspläne 4/13. Durchführung in SPSS (File Trait Angst.sav)

Varianzanalytische Methoden Zweifaktorielle Versuchspläne 4/13. Durchführung in SPSS (File Trait Angst.sav) Zweifaktorielle Versuchspläne 4/13 Durchführung in SPSS (File Trait Angst.sav) Analysieren > Allgemeines Lineares Modell > Univariat Zweifaktorielle Versuchspläne 5/13 Haupteffekte Geschlecht und Gruppe

Mehr

Standardab er des. Testwert = 145.5 95% Konfidenzintervall. T df Sig. (2-seitig) Differenz Untere Obere -2.011 698.045-5.82-11.50 -.14.

Standardab er des. Testwert = 145.5 95% Konfidenzintervall. T df Sig. (2-seitig) Differenz Untere Obere -2.011 698.045-5.82-11.50 -.14. Aufgabe : einfacher T-Test Statistik bei einer Stichprobe Standardfehl Standardab er des Mittelwert weichung Mittelwertes 699 39.68 76.59 2.894 Test bei einer Sichprobe Testwert = 45.5 95% Konfidenzintervall

Mehr

2. Korrelation, lineare Regression und multiple Regression

2. Korrelation, lineare Regression und multiple Regression multiple 2.2 Lineare 2.2 Lineare 1 / 130 2.2 Lineare 2 / 130 2.1 Beispiel: Arbeitsmotivation Untersuchung zur Motivation am Arbeitsplatz in einem Chemie-Konzern 25 Personen werden durch Arbeitsplatz zufällig

Mehr

7. Mai 2010. Ruhr-Universität Bochum. Methodenlehre II, SS 2009. Prof. Dr. Holger Dette

7. Mai 2010. Ruhr-Universität Bochum. Methodenlehre II, SS 2009. Prof. Dr. Holger Dette Ruhr-Universität Bochum 7. Mai 2010 1 / 95 Methodenlehre II NA 3/73 Telefon: 0234 322 8284 Email: holger.dette@rub.de Internet: www.ruhr-uni-bochum.de/mathematik3/index.html Vorlesung: Montag, 8.30-10.00

Mehr

Multivariate Verfahren

Multivariate Verfahren Selbstkontrollarbeit 2 Multivariate Verfahren Musterlösung Aufgabe 1 (28 Punkte) Der Marketing-Leiter einer Lebensmittelherstellers möchte herausfinden, mit welchem Richtpreis eine neue Joghurt-Marke auf

Mehr

Einfache Varianzanalyse für abhängige

Einfache Varianzanalyse für abhängige Einfache Varianzanalyse für abhängige Stichproben Wie beim t-test gibt es auch bei der VA eine Alternative für abhängige Stichproben. Anmerkung: Was man unter abhängigen Stichproben versteht und wie diese

Mehr

5.2. Nichtparametrische Tests. 5.2.1. Zwei unabhängige Stichproben: U- Test nach MANN- WHITNEY

5.2. Nichtparametrische Tests. 5.2.1. Zwei unabhängige Stichproben: U- Test nach MANN- WHITNEY 5.2. Nichtparametrische Tests 5.2.1. Zwei unabhängige Stichproben: U- Test nach MANN- WHITNEY Voraussetzungen: - Die Verteilungen der beiden Grundgesamtheiten sollten eine ähnliche Form aufweisen. - Die

Mehr

Statistik II für Betriebswirte Vorlesung 2

Statistik II für Betriebswirte Vorlesung 2 PD Dr. Frank Heyde TU Bergakademie Freiberg Institut für Stochastik Statistik II für Betriebswirte Vorlesung 2 21. Oktober 2014 Verbundene Stichproben Liegen zwei Stichproben vor, deren Werte einander

Mehr

Nichtparametrische statistische Verfahren

Nichtparametrische statistische Verfahren Nichtparametrische statistische Verfahren (im Wesentlichen Analyse von Abhängigkeiten) Kategorien von nichtparametrischen Methoden Beispiel für Rangsummentests: Wilcoxon-Test / U-Test Varianzanalysen 1-faktorielle

Mehr

Weitere Fragestellungen im Zusammenhang mit einer linearen Einfachregression

Weitere Fragestellungen im Zusammenhang mit einer linearen Einfachregression Weitere Fragestellungen im Zusammenhang mit einer linearen Einfachregression Speziell im Zusammenhang mit der Ablehnung der Globalhypothese werden bei einer linearen Einfachregression weitere Fragestellungen

Mehr

Lineare Modelle in R: Einweg-Varianzanalyse

Lineare Modelle in R: Einweg-Varianzanalyse Lineare Modelle in R: Einweg-Varianzanalyse Achim Zeileis 2009-02-20 1 Datenaufbereitung Wie schon in der Vorlesung wollen wir hier zur Illustration der Einweg-Analyse die logarithmierten Ausgaben der

Mehr

8. Methoden der klassischen multivariaten Statistik

8. Methoden der klassischen multivariaten Statistik 8. Methoden der klassischen multivariaten Statistik 8.1. Darstellung von Daten Voraussetzungen auch in diesem Kapitel: Grundgesamtheit (Datenraum) Ω von Objekten (Fällen, Instanzen), denen J-Tupel von

Mehr

Kapitel 6: Zweifaktorielle Varianzanalyse

Kapitel 6: Zweifaktorielle Varianzanalyse Kapitel 6: Zweifaktorielle Varianzanalyse Durchführung einer zweifaktoriellen Varianzanalyse ohne Messwiederholung Dieser Abschnitt zeigt die Durchführung der in Kapitel 6 behandelten zweifaktoriellen

Mehr

SPSS IV Gruppenvergleiche (>2 Gruppen) A priori & post hoc-tests. H0: Die mittlere Anzahl der Seegräser (µ) hängt nicht von der Seeigel menge ab.

SPSS IV Gruppenvergleiche (>2 Gruppen) A priori & post hoc-tests. H0: Die mittlere Anzahl der Seegräser (µ) hängt nicht von der Seeigel menge ab. SPSS IV Gruppenvergleiche (>2 Gruppen) A priori & post hoc-tests A parametrisch -- ANOVA Beispieldatei: Seegräser_ANOVA H0: Die mittlere Anzahl der Seegräser (µ) hängt nicht von der Seeigel menge ab. µ

Mehr

Franz Kronthaler. Statistik angewandt. Datenanalyse ist (k)eine Kunst. Excel Edition. ^ Springer Spektrum

Franz Kronthaler. Statistik angewandt. Datenanalyse ist (k)eine Kunst. Excel Edition. ^ Springer Spektrum Franz Kronthaler Statistik angewandt Datenanalyse ist (k)eine Kunst Excel Edition ^ Springer Spektrum Inhaltsverzeichnis Teil I Basiswissen und Werkzeuge, um Statistik anzuwenden 1 Statistik ist Spaß 3

Mehr

Einführung in die Kovarianzanalyse (ANCOVA)

Einführung in die Kovarianzanalyse (ANCOVA) Arbeitsunterlage Einführung in die Kovarianzanalyse (ANCOVA) ARGE-Bildungsforschung 2 Einführung in die Kovarianzanalyse (ANCOVA) 1 Die Varianzanalyse ist ein Verfahren, das die Wirkung einer (oder mehrerer)

Mehr

Inhaltsverzeichnis. Fragestellungen und Methoden 11. Vorwort 15. Kapitel 1 Einführung 17. Kapitel 2 Statistische Grundbegriffe 23

Inhaltsverzeichnis. Fragestellungen und Methoden 11. Vorwort 15. Kapitel 1 Einführung 17. Kapitel 2 Statistische Grundbegriffe 23 Fragestellungen und Methoden 11 Vorwort 15 Kapitel 1 Einführung 17 1.1 KonzeptiondesBuchs... 18 1.2 AufbaudesBuchs... 19 1.3 Programmversionen von PASW bzw. SPSS..... 20 1.4 WiekanndiesesBuchverwendetwerden?...

Mehr

Institut für Soziologie. Methoden 2. Regressionsanalyse I: Einfache lineare Regression

Institut für Soziologie. Methoden 2. Regressionsanalyse I: Einfache lineare Regression Institut für Soziologie Methoden 2 Regressionsanalyse I: Einfache lineare Regression Programm Anwendungsbereich Vorgehensweise Interpretation Annahmen Zusammenfassung Übungsaufgabe Literatur # 2 Anwendungsbereich

Mehr

Einfache statistische Auswertungen mit dem Programm SPSS

Einfache statistische Auswertungen mit dem Programm SPSS Einfache statistische Auswertungen mit dem Programm SPSS Datensatz: fiktive_daten.sav Dipl. Päd. Anne Haßelkus Dr. Dorothea Dette-Hagenmeyer 11/2011 Überblick 1 Deskriptive Statistiken; Mittelwert berechnen...

Mehr

Willkommen zur Vorlesung Statistik

Willkommen zur Vorlesung Statistik Willkommen zur Vorlesung Statistik Thema dieser Vorlesung: Varianzanalyse Prof. Dr. Wolfgang Ludwig-Mayerhofer Universität Siegen Philosophische Fakultät, Seminar für Sozialwissenschaften Prof. Dr. Wolfgang

Mehr

Etwas positive Tendenz ist beim Wechsel der Temperatur von 120 auf 170 zu erkennen.

Etwas positive Tendenz ist beim Wechsel der Temperatur von 120 auf 170 zu erkennen. Explorative Datenanalyse Erstmal die Grafiken: Aufreisskraft und Temperatur 3 1-1 N = 1 15 17 Temperatur Diagramm 3 1 95% CI -1 N = 1 15 17 Temperatur Etwas positive Tendenz ist beim Wechsel der Temperatur

Mehr

Güte von Tests. die Wahrscheinlichkeit für den Fehler 2. Art bei der Testentscheidung, nämlich. falsch ist. Darauf haben wir bereits im Kapitel über

Güte von Tests. die Wahrscheinlichkeit für den Fehler 2. Art bei der Testentscheidung, nämlich. falsch ist. Darauf haben wir bereits im Kapitel über Güte von s Grundlegendes zum Konzept der Güte Ableitung der Gütefunktion des Gauss im Einstichprobenproblem Grafische Darstellung der Gütefunktionen des Gauss im Einstichprobenproblem Ableitung der Gütefunktion

Mehr

Einführung in Statistik und Messwertanalyse für Physiker

Einführung in Statistik und Messwertanalyse für Physiker Gerhard Böhm, Günter Zech Einführung in Statistik und Messwertanalyse für Physiker SUB Göttingen 7 219 110 697 2006 A 12486 Verlag Deutsches Elektronen-Synchrotron Inhalt sverzeichnis 1 Einführung 1 1.1

Mehr

Marktforschung I. Marktforschung I 2

Marktforschung I. Marktforschung I 2 Marktforschung I Marktforschung I Einführung in die Testtheorie (Toporowski) Mathematische Grundlagen (Toporowski) Varianzanalyse (Toporowski) Regressionsanalyse (Boztuğ) Diskriminanzanalyse (Hammerschmidt)

Mehr

Teil I Beschreibende Statistik 29

Teil I Beschreibende Statistik 29 Vorwort zur 2. Auflage 15 Vorwort 15 Kapitel 0 Einführung 19 0.1 Methoden und Aufgaben der Statistik............................. 20 0.2 Ablauf statistischer Untersuchungen..............................

Mehr

Analytische Statistik I. Statistische Methoden in der Korpuslinguistik Heike Zinsmeister WS 2009/10

Analytische Statistik I. Statistische Methoden in der Korpuslinguistik Heike Zinsmeister WS 2009/10 Analytische Statistik I Statistische Methoden in der Korpuslinguistik Heike Zinsmeister WS 2009/10 Testen Anpassungstests (goodness of fit) Weicht eine gegebene Verteilung signifikant von einer bekannten

Mehr

Das Dialogfeld für die Regressionsanalyse ("Lineare Regression") findet sich im Statistik- Menu unter "Regression"-"Linear":

Das Dialogfeld für die Regressionsanalyse (Lineare Regression) findet sich im Statistik- Menu unter Regression-Linear: Lineare Regression Das Dialogfeld für die Regressionsanalyse ("Lineare Regression") findet sich im Statistik- Menu unter "Regression"-"Linear": Im einfachsten Fall werden mehrere Prädiktoren (oder nur

Mehr

METHODENLEHRE I WS 2013/14 THOMAS SCHÄFER

METHODENLEHRE I WS 2013/14 THOMAS SCHÄFER METHODENLEHRE I WS 2013/14 THOMAS SCHÄFER DAS THEMA: INFERENZSTATISTIK IV INFERENZSTATISTISCHE AUSSAGEN FÜR ZUSAMMENHÄNGE UND UNTERSCHIEDE Inferenzstatistik für Zusammenhänge Inferenzstatistik für Unterschiede

Mehr

Überblick über die Tests

Überblick über die Tests Anhang A Überblick über die Tests A.1 Ein-Stichproben-Tests A.1.1 Tests auf Verteilungsannahmen ˆ Shapiro-Wilk-Test Situation: Test auf Normalverteilung H 0 : X N(µ, σ 2 ) H 1 : X nicht normalverteilt

Mehr

Einleitung 19. Teil I Datenanalyse und Modellbildung Grundlagen 25

Einleitung 19. Teil I Datenanalyse und Modellbildung Grundlagen 25 Inhaltsverzeichnis Einleitung 19 Zu diesem Buch 19 Konventionen in diesem Buch 20 Was Sie nicht lesen müssen 21 Falsche Voraussetzungen 21 Wie dieses Buch aufgebaut ist 21 Teil I: Datenanalyse und Grundlagen

Mehr

Varianzanalyse * (1) Varianzanalyse (2)

Varianzanalyse * (1) Varianzanalyse (2) Varianzanalyse * (1) Einfaktorielle Varianzanalyse (I) Die Varianzanalyse (ANOVA = ANalysis Of VAriance) wird benutzt, um Unterschiede zwischen Mittelwerten von drei oder mehr Stichproben auf Signifikanz

Mehr

5. Schließende Statistik. 5.1. Einführung

5. Schließende Statistik. 5.1. Einführung 5. Schließende Statistik 5.1. Einführung Sollen auf der Basis von empirischen Untersuchungen (Daten) Erkenntnisse gewonnen und Entscheidungen gefällt werden, sind die Methoden der Statistik einzusetzen.

Mehr

Diskriminanzanalyse Beispiel

Diskriminanzanalyse Beispiel Diskriminanzanalyse Ziel bei der Diskriminanzanalyse ist die Analyse von Gruppenunterschieden, d. h. der Untersuchung von zwei oder mehr Gruppen hinsichtlich einer Vielzahl von Variablen. Diese Methode

Mehr

Überblick über die Verfahren für Ordinaldaten

Überblick über die Verfahren für Ordinaldaten Verfahren zur Analyse ordinalskalierten Daten 1 Überblick über die Verfahren für Ordinaldaten Unterschiede bei unabhängigen Stichproben Test U Test nach Mann & Whitney H Test nach Kruskal & Wallis parametrische

Mehr

Prüfen von Mittelwertsunterschieden: t-test

Prüfen von Mittelwertsunterschieden: t-test Prüfen von Mittelwertsunterschieden: t-test Sven Garbade Fakultät für Angewandte Psychologie SRH Hochschule Heidelberg sven.garbade@hochschule-heidelberg.de Statistik 1 S. Garbade (SRH Heidelberg) t-test

Mehr

90-minütige Klausur Statistik für Studierende der Kommunikationswissenschaft

90-minütige Klausur Statistik für Studierende der Kommunikationswissenschaft Prof. Dr. Helmut Küchenhoff SS08 90-minütige Klausur Statistik für Studierende der Kommunikationswissenschaft am 22.7.2008 Anmerkungen Überprüfen Sie bitte sofort, ob Ihre Angabe vollständig ist. Sie sollte

Mehr

Ausgewählte Kapitel der Statistik: Regressions- u. varianzanalytische Modelle Lösung von Grundaufgaben mit SPSS (ab V. 11.0)

Ausgewählte Kapitel der Statistik: Regressions- u. varianzanalytische Modelle Lösung von Grundaufgaben mit SPSS (ab V. 11.0) Ausgewählte Kapitel der Statistik: Regressions- u. varianzanalytische e Lösung von Grundaufgaben mit SPSS (ab V..0) Text: akmv_v.doc Daten: akmv??.sav Lehrbuch: W. Timischl, Biostatistik. Wien - New York:

Mehr

Klausur zur Vorlesung Statistik III für Studenten mit dem Wahlfach Statistik

Klausur zur Vorlesung Statistik III für Studenten mit dem Wahlfach Statistik Ludwig Fahrmeir, Nora Fenske Institut für Statistik Bitte für die Korrektur freilassen! Aufgabe 1 2 3 4 Punkte Klausur zur Vorlesung Statistik III für Studenten mit dem Wahlfach Statistik 29. März 21 Hinweise:

Mehr

Statistische Auswertung der Daten von Blatt 13

Statistische Auswertung der Daten von Blatt 13 Statistische Auswertung der Daten von Blatt 13 Problemstellung 1 Graphische Darstellung der Daten 1 Diskussion der Normalverteilung 3 Mittelwerte und deren Konfidenzbereiche 3 Signifikanz der Behandlung

Mehr

Von der Untersuchungsfrage zu statistischen Hypothesen, und wie war das nochmal mit dem α- und

Von der Untersuchungsfrage zu statistischen Hypothesen, und wie war das nochmal mit dem α- und Von der Untersuchungsfrage zu statistischen Hypothesen, und wie war das nochmal mit dem α- und β-fehler? Sven Garbade Fakultät für Angewandte Psychologie SRH Hochschule Heidelberg sven.garbade@hochschule-heidelberg.de

Mehr

Tutorial: Homogenitätstest

Tutorial: Homogenitätstest Tutorial: Homogenitätstest Eine Bank möchte die Kreditwürdigkeit potenzieller Kreditnehmer abschätzen. Einerseits lebt die Bank ja von der Vergabe von Krediten, andererseits verursachen Problemkredite

Mehr

3. Der t-test. Der t-test

3. Der t-test. Der t-test Der t-test 3 3. Der t-test Dieses Kapitel beschäftigt sich mit einem grundlegenden statistischen Verfahren zur Auswertung erhobener Daten: dem t-test. Der t-test untersucht, ob sich zwei empirisch gefundene

Mehr

Florian Frötscher und Demet Özçetin

Florian Frötscher und Demet Özçetin Statistische Tests in der Mehrsprachigkeitsforschung Aufgaben, Anforderungen, Probleme. Florian Frötscher und Demet Özçetin florian.froetscher@uni-hamburg.de SFB 538 Mehrsprachigkeit Max-Brauer-Allee 60

Mehr

ANalysis Of VAriance (ANOVA) 1/2

ANalysis Of VAriance (ANOVA) 1/2 ANalysis Of VAriance (ANOVA) 1/2 Markus Kalisch 16.10.2014 1 ANOVA - Idee ANOVA 1: Zwei Medikamente zur Blutdrucksenkung und Placebo (Faktor). Gibt es einen sign. Unterschied in der Wirkung (kontinuierlich)?

Mehr

Studiendesign/ Evaluierungsdesign

Studiendesign/ Evaluierungsdesign Jennifer Ziegert Studiendesign/ Evaluierungsdesign Praxisprojekt: Nutzerorientierte Evaluierung von Visualisierungen in Daffodil mittels Eyetracker Warum Studien /Evaluierungsdesign Das Design einer Untersuchung

Mehr

Einführung in die Vektor- und Matrizenrechnung. Matrizen

Einführung in die Vektor- und Matrizenrechnung. Matrizen Einführung in die Vektor- und Matrizenrechnung Matrizen Definition einer Matrix Unter einer (reellen) m x n Matrix A versteht man ein rechteckiges Schema aus reellen Zahlen, die wie folgt angeordnet sind:

Mehr

Dokumentation. estat Version 2.0

Dokumentation. estat Version 2.0 Dokumentation estat Version 2.0 Installation Die Datei estat.xla in beliebiges Verzeichnis speichern. Im Menü Extras AddIns... Durchsuchen die Datei estat.xla auswählen. Danach das Auswahlhäkchen beim

Mehr

klar. Um die zweite Bedingung zu zeigen, betrachte u i U i mit u i = 0. Das mittlere -Zeichen liefert s

klar. Um die zweite Bedingung zu zeigen, betrachte u i U i mit u i = 0. Das mittlere -Zeichen liefert s Nachtrag zur allgemeinen Vektorraum-Theorie. 1.5.15. Direkte Summen. Sei V ein Vektorraum, seien U 1,..., U t Unterräume, wir schreiben V = U 1 U 2 U t = t i=1 U i falls die folgenden beiden Bedingungen

Mehr

Hypothesentests mit SPSS. Beispiel für eine einfaktorielle Varianzanalyse Daten: museum_m_v05.sav

Hypothesentests mit SPSS. Beispiel für eine einfaktorielle Varianzanalyse Daten: museum_m_v05.sav Beispiel für eine einfaktorielle Varianzanalyse Daten: museum_m_v05.sav Hypothese: Die Beschäftigung mit Kunst ist vom Bildungsgrad abhängig. 1. Annahmen Messniveau: Modell: Die Skala zur Erfassung der

Mehr

Messgeräte: Mess-System-Analyse und Messmittelfähigkeit

Messgeräte: Mess-System-Analyse und Messmittelfähigkeit Messgeräte: Mess-System-Analyse und Messmittelfähigkeit Andreas Berlin 14. Juli 2009 Bachelor-Seminar: Messen und Statistik Inhalt: 1 Aspekte einer Messung 2 Mess-System-Analyse 2.1 ANOVA-Methode 2.2 Maße

Mehr

Veranstaltungsort Bildungsherberge der Studierendenschaft der FernUniversität Hagen

Veranstaltungsort Bildungsherberge der Studierendenschaft der FernUniversität Hagen Bildungsurlaub-Seminare: Lerninhalte und Programm Seminartitel SPSS für Psychologen/innen (BH15113) Termin Mo, den 18.05.bis Fr, den 22.05.2015 (40 UStd.) Veranstaltungsort Bildungsherberge der Studierendenschaft

Mehr

1.9 Eigenwerte und Eigenvektoren

1.9 Eigenwerte und Eigenvektoren .9. EIGENWERTE UND EIGENVEKTOREN 0.9 Eigenwerte und Eigenvektoren Alles in diesem Abschnitt bezieht sich auf quadratische reelle oder komplexe n n-matrizen. Statt E n (n n-einheitsmatrix) wird kurz E geschrieben..

Mehr

Multiple Regression. Ziel: Vorhersage der Werte einer Variable (Kriterium) bei Kenntnis der Werte von zwei oder mehr anderen Variablen (Prädiktoren)

Multiple Regression. Ziel: Vorhersage der Werte einer Variable (Kriterium) bei Kenntnis der Werte von zwei oder mehr anderen Variablen (Prädiktoren) Multiple Regression 1 Was ist multiple lineare Regression? Ziel: Vorhersage der Werte einer Variable (Kriterium) bei Kenntnis der Werte von zwei oder mehr anderen Variablen (Prädiktoren) Annahme: Der Zusammenhang

Mehr

Modulklausur Multivariate Verfahren

Modulklausur Multivariate Verfahren Name, Vorname Matrikelnummer Modulklausur 31821 Multivariate Verfahren Datum Punkte Note Termin: 28. März 2014, 9.00-11.00 Uhr Erstprüfer: Univ.-Prof. Dr. H. Singer Hinweise zur Bearbeitung der Modulklausur

Mehr

DIPLOMVORPRÜFUNG GRUNDZÜGE DER STATISTIK, TEIL B WINTERSEMESTER 2006/07 28.02.2007

DIPLOMVORPRÜFUNG GRUNDZÜGE DER STATISTIK, TEIL B WINTERSEMESTER 2006/07 28.02.2007 Wirtschaftswissenschaftliches Prüfungsamt DIPLOMVORPRÜFUNG GRUNDZÜGE DER STATISTIK, TEIL B WINTERSEMESTER 006/07 8.0.007 Lösung Prof. Dr. R Friedmann / Dr. R. Hauser Hinweise für die Klausurteilnehmer

Mehr

9. StatistischeTests. 9.1 Konzeption

9. StatistischeTests. 9.1 Konzeption 9. StatistischeTests 9.1 Konzeption Statistische Tests dienen zur Überprüfung von Hypothesen über einen Parameter der Grundgesamtheit (bei einem Ein-Stichproben-Test) oder über die Verteilung einer Zufallsvariablen

Mehr

Kapitel 9: Verfahren für Nominaldaten

Kapitel 9: Verfahren für Nominaldaten Kapitel 9: Verfahren für Nominaldaten Eindimensionaler Chi²-Test Der eindimensionale χ²-test wird dann herangezogen, wenn die Versuchspersonen einer Population anhand eines Merkmals mit zwei oder mehr

Mehr

Lösung Aufgabe 1 (Regression) Es wurden in einer Befragung zwei metrische Merkmale X und Y erhoben. Betrachten Sie dazu die

Lösung Aufgabe 1 (Regression) Es wurden in einer Befragung zwei metrische Merkmale X und Y erhoben. Betrachten Sie dazu die Statistik für Kommunikationswissenschaftler Wintersemester 2010/2011 Vorlesung Prof. Dr. Nicole Krämer Übung Nicole Krämer, Cornelia Oberhauser, Monia Mahling Lösung Thema 9 Homepage zur Veranstaltung:

Mehr

Kapitel 15. Lösung linearer Gleichungssysteme

Kapitel 15. Lösung linearer Gleichungssysteme Kapitel 15. Lösung linearer Gleichungssysteme Lineare Gleichungssysteme Wir befassen uns nun mit der Lösung im allgemeinen nichthomogener linearer Gleichungssysteme in zweifacher Hinsicht. Wir studieren

Mehr

Mathematische und statistische Methoden II

Mathematische und statistische Methoden II Methodenlehre e e Prof. Dr. G. Meinhardt 6. Stock, Wallstr. 3 (Raum 06-206) Sprechstunde jederzeit nach Vereinbarung und nach der Vorlesung. Mathematische und statistische Methoden II Dr. Malte Persike

Mehr

5 Eigenwerte und die Jordansche Normalform

5 Eigenwerte und die Jordansche Normalform Mathematik für Physiker II, SS Mittwoch 8.6 $Id: jordan.tex,v.6 /6/7 8:5:3 hk Exp hk $ 5 Eigenwerte und die Jordansche Normalform 5.4 Die Jordansche Normalform Wir hatten bereits erwähnt, dass eine n n

Mehr

Binäre abhängige Variablen

Binäre abhängige Variablen Binäre abhängige Variablen Thushyanthan Baskaran thushyanthan.baskaran@awi.uni-heidelberg.de Alfred Weber Institut Ruprecht Karls Universität Heidelberg Einführung Oft wollen wir qualitative Variablen

Mehr

Ein möglicher Unterrichtsgang

Ein möglicher Unterrichtsgang Ein möglicher Unterrichtsgang. Wiederholung: Bernoulli Experiment und Binomialverteilung Da der sichere Umgang mit der Binomialverteilung, auch der Umgang mit dem GTR und den Diagrammen, eine notwendige

Mehr