Angewandte multivariate Statistik mit R Landau Kaarina Foit und Ralf Schäfer

Größe: px
Ab Seite anzeigen:

Download "Angewandte multivariate Statistik mit R Landau 2007. Kaarina Foit und Ralf Schäfer"

Transkript

1 Angewandte multivariate Statistik mit R Landau 2007 Kaarina Foit und Ralf Schäfer Die vorliegenden Folien sind der zweite Teil einer Vorlesung zum Thema multivariate Statistik mit R. Mehrere Einführungen in R finden sich auf der Website und können dort kostenfrei heruntergeladen werden. 1

2 Von der univariaten zur multivariaten Statistik Variablen Verteilungsform univariate mehrere erklärende Variablen, eine abhängige Variable a zweidimensional multivariate mehrere erklärende und abhängige Variablen a, b, c n-dimensional Datenform Beispiel a ist Vektor Temperatur und Niederschlag a,b,c bilden Matrix Arten und Umweltvariablen Page 2 Beispiele für bivariate Zusammenhänge sind: - Zusammenhang zwischen Temperatur und Niederschlag: Erhöhung der Temperatur - Zunahme der Niederschläge? - Pestizidbelastung von Obst und Gemüse: Zunahme der Krankheitsinzidenz? - Verteilung einer Art gegen eine Umweltvariable Multivariat wäre dagegen die gleichzeitige Betrachtung und Gewichtung von: - mehreren Arten und mehreren Umweltvariablen - verschiedenen Substanzen und verschiedenen Meßmethoden der GC-MS 2

3 Einige Vorteile multivariater Methoden Simultane Darstellung von mehreren Dimensionen Relevanz von erklärenden Variablen für Gemeinschaften, nicht einzelnen Populationen Entfernen von noise -Variablen (vgl. Flack & Chang 1987) Größere Power von statistischen Tests durch Aggregation Page 3 -Relevanz: Bei der univariaten Statistik wird nur für einzelne Arten die Bedeutung von Umweltvariablen untersucht - es ist fast unmöglich die Ergebnisse für mehrere Arten oder Umweltvariablen zu aggregieren -zum Entfernen von Noise: Flack und Chang (1987) haben untersucht wie häufig bei einer Regression ein signifikanter Zusammenhang mit zufällig erzeugten noise variables besteht. Das Resultat war, dass in vielen Fällen auch zufällig erzeugte Variablen einen bivariaten Zusammenhang mit den zu erklärenden Variablen aufweisen. Dagegen wird zum Beispiel bei constrained multivariaten Methoden nur die erklärbare Varianz von ausgewählten Umweltvariablen herangezogen, insofern also Rauschen aus dem Datensatz entfernt. -Die Aggregation erhöht die statistische Stärke der schließenden Statistik (z.b. wird der Unterschied von Messstellen anhand der gesamten Gemeinschaft anstatt von einzelnen Arten untersucht). 3

4 Mathematische Grundlagen as.matrix() a 11 K a 1n M O M a m1 L a mn b 11 K b 1n M O M b m1 L b mn t() Matrix transponieren nrow(), ncol() +,-,* Anzahl der Zeilen und Spalten Addition, Substraktion und Multiplikation von a mn mit b mn %*% Matrixmultiplikation t(a)%*%b ; crossprod(a,b) a t * b a%*%t(b) ; tcrossprod(a,b) a * b t Page 4 -Auch wenn im Rahmen des Kurses schon vorgefertigte Funktionen zur Berechnung eingesetzt werden, soll hier ein kurzer Einblick in die Mathematik gegeben werden, auf der die Berechnung basiert. 4

5 Mathematische Grundlagen Für A = a b c d ist A 1 = 1 d ad bc c b a die inverse Matrix für die gilt: A * A 1 = E A 1 * A = E diag() Beispiel: diag(x=1,2,2) erzeugt: solve() qr() Page 5 Wir können mit den hier angegebenen Funktionen und Methoden nicht für alle Matrizen eine Inverse berechnen! Diese gibt es nur für n*n Matrizen bei denen der Rang = der Anzahl der Zeilen (oder Spalten) ist (bei n*m Matrizen gilt es wenn der Rang = min(n,m) ist, die betrachten wir hier aber nicht). Das wiederum bedeutet, dass es n unabhängige Linearkombinationen der Zeilenvektoren geben muss. Die manuelle Berechnung des Ranges kann man z.b. im Bronstein (S.264) nachschlagen. In R wird mit der Funktion qr() u.a. der Rang einer Matrix berechnet, allerdings kommt sie nicht immer zu einem Ergebnis. 5

6 Mathematische Grundlagen Aufgaben 1. Lesen Sie die Tabellen Matrix 1 und Matrix 2 als Matrix ein. 2. Wieviele Reihen und Zeilen haben die Matrizen, die aus der Matrizenmultiplikation resultieren? Was ist ihr Rang? 3. Bilden Sie die Inverse der resultierenden Matrizen! as.matrix() t() qr() nrow(), ncol() +,-,* %*% diag() solve() t(a)%*%b ; crossprod(a,b) a%*%t(b) ; tcrossprod(a,b) Page 6 6

7 Klassifikation multivariater Methoden Anhand des Anwendungsbereichs Datenreduktion und Simplifikation Sortieren und Gruppieren Untersuchen von Abhängigkeiten zwischen Variablen Vorhersage und Hypothesentest Page 7 Beispiele für Anwendungen (die Zahlen beziehen sich auf den Punkt in der Folie). 1. In einer Studie wurden Ernte- und Größendaten für Pflanzen benutzt, um einen Index für die Züchtungswahl zu erstellen 2. Ein Beispiel aus der Klimatologie: Wir können mit multivariaten Verfahren Gruppen von Ländern mit ähnlichen vorhergesagten Veränderungen an Niederschlag, Meeresspiegel und Temperatur bilden. 3. In Studien werden häufig verschiedene Variablen erhoben und identifiziert, welche für Veränderungen z.b. in der Artengemeinschaft verantwortlich sind 4. Es gibt Methoden mit denen wir die Zugehörigkeit von neuen Messobjekten zu vorher definierten Gruppen vorhersagen können. Ferner gibt es multivariate Hypothesentests z.b.die Überprüfung auf signifikanten Unterschied von Gemeinschaften an kontaminierten und nicht-kontaminierten Standorten. 7

8 Klassifikation multivariater Methoden Anhand der Methoden Multivariate Vergleiche (Zentralmaße usw.) Multivariate Regression und Korrelation Klassifikation (Cluster- und Diskriminanzanalysen) Ordination Page 8 8

9 Multivariate Vergleiche: Hotelling Vergleich Mittelwert von zwei Stichproben bzgl. eines Merkmals Vergleich Mittelwert von zwei Stichproben mit k Merkmalen Cu Gehalt von Boden Cu und Fe Gehalt von Boden Cu g/kg Boden a Boden b Fe g/kg Cu g/kg Boden a Boden b H 0 : 1 = 2 H 0 : 1 = 2 t.test(), wilcox.test()... Hotelling s T 2 -Test Page 9 -Univariate und multivariate Vergleiche der Zentralmaße laufen analog -Fettdruck steht für Vektor -Eine Serie von t-tests ist nicht identisch mit dem Ergebnis des Hotelling T 2 -Tests! (Beachten Sie auch, dass bei einer Reihe von t-tests bezüglich der gleichen Stichprobe die Fehlerwahrscheinlichkeit von 0.95 sinkt, und zwar auf 0.95^Anzahl der Tests. 9

10 Multivariate Vergleiche: Hotelling t.test() mit t = X 1 X 2 s X1 X s 2 = s X1 X1 X s X 2 n Differenz der Mittelwerte/ Standardfehler der Differenz Hotelling s T 2 -Test Differenz der Mittelwertvektoren T 2 = n * n ur ur ur ur 1 2 (X1 X 2 ) t S 1 (X1 X n 1 + n 2 2 ) Inverse der Kovarianzmatrix Page 10 Schauen Sie sich zur näheren Erläuterung Exkurs die Datei Hotelling.R, in der der Hotelling-Test für R umgesetzt ist. Leider ist der Test noch nicht als Funktion in R implementiert, allerdings kann für den Vergleich von 2 Gruppen auch eine Manova durchgeführt werden (siehe weiter unten). In die Kovarianzmatrix S (die hier aus den Daten geschätzt wird) geht die Varianz der beiden Stichproben X 1 und X 2 ein (vgl. Hartung 1999, S. 231) 10

11 Multivariate Vergleiche: Hotelling Testvoraussetzungen -die Beobachtungen müssen unabhängig sein -Kovarianzmatrizen gleich -alle Variablen multivariat normalverteilt Page 11 Die Testvoraussetzungen sind analog zu univariaten Testvoraussetzungen wie Normalverteilung, Varianzgleichheit usw. 11

12 Multivariate Vergleiche: Voraussetzung Wie testet man auf multivariate Normalverteilung? Hypothesentest mshapiro.test(){mvnormtest} H 0 : X stammt aus multivariater NV Aufgabe Sind die Messungen beim Boden multivariat normalverteilt? Page 12 12

13 Multivariate Vergleiche: Voraussetzungen Wie testet man auf multivariate Normalverteilung? Grafisch chisplot() Bei Übereinstimmung mit der Normalverteilung sollten die Punkte auf einer Geraden durch den Ursprung liegen. Page 13 - Die chisplot-funktion befindet sich in der Datei Hotelling.R. - Zur Berechnung: Für die empirischen Daten wird für jede q- dimensionale Beobachtung x i eine generalisierte Abweichung zum generalisierten Mittelwert-Vektor der gesamten Stichprobe berechnet. Diese generalisierten Distanzen werden geordnet und mit den Quantilen der Chi-Quadrat-Verteilung verglichen. Bei absoluter Übereinstimmung sollten sie auf einer Geraden durch den Ursprung liegen.beispiel: Für den geordneten Vektor a i der Länge n mit den Distanzen (1,2,3,4,5,6,7,8,9,10) ist das Quantil der n Beobachtungen jeweils p i/n = a i da dies der kleinste Wert ist für den gilt: F(i/n) p i/n -> Was passiert eigentlich bei Abweichung von der Normalverteilung? Auf diese Frage wird im Anschluss an die MANOVA eingegangen. 13

14 Multivariate Vergleiche: MANOVA Vergleich Mittelwert von n2 Stichproben bzgl. eines Merkmals Vergleich Mittelwert von n2 Stichproben mit k Merkmalen Cu Gehalt von Boden Cu g/kg Boden a Boden b.. Boden c Boden d Boden e Cu und Fe Gehalt von Boden Fe g/kg Cu g/kg Boden a Boden b Boden c Boden d Boden e H 0 : 1 = 2 =... = n H 0 : 1 = 2 =... = n aov(), anova()... manova()... Page 14 -ANOVA und MANOVA ähneln sich stark in der Berechnung (siehe Zar 1996). Allerdings können sich die Ergebnisse unterscheiden, wenn man anstatt einer MANOVA, mehrere ANOVAs ausführt. So könnte die MANOVA signifikante Unterschiede zwischen den Gruppen finden, obwohl die ANOVAs keine finden und umgekehrt (Unterschiede bei den ANOVAs für einige erklärende Variablen und keine beim Vergleich der Mittelwertvektoren in der MANOVA). -Beachte: die single-faktor MANOVA mit 2 Gruppen ist analog zum Hotelling T 2 -Tests, die Ergebnisse sind gleich (F-Wert). 14

15 Multivariate Vergleiche: MANOVA manova() summary.manova() summary.aov() Ergebnisse und Wahl des Tests Ergebnisse der univariaten ANOVA Aufgaben 1. Führen Sie eine MANOVA für die Soil-Daten durch und vergleichen Sie die Ergebnisse mit Hotelling s T 2 -Test. 2. Unterteilen Sie die Bodentypen in 4 gleich große Gruppen und wiederholen Sie die MANOVA. Tip: Beispiel unter summary.manova() Page 15 Zu Aufgabe 2: Es empfiehlt sich, nicht die Rohdaten zu verändern sondern einen neuen dataframe zu erstellen. Anschließend sollten mit detach() die variablen des alten Frames aus dem Speicher gelöscht werden. Es gibt verschiedene Teststatistiken in der MANOVA. Wilks lambda ist zwar am populärsten, viele Autoren empfehlen allerdings Pillai s trace, der in R auch als Standardmethode eingestellt ist. Die Statistik nach Hotelling-Lawley-Trace sollte verwendet werden, wenn die Variablen nicht korrelieren (Zar 1996). 15

16 Multivariate Vergleiche: MANOVA Voraussetzungen - die Beobachtungen müssen unabhängig sein - Kovarianzmatrizen gleich - alle Variablen multivariat normalverteilt - Residuen normalverteilt chisplot(residuals(<your.model>)) Page 16 -Die MANOVA ist generell robust gegenüber Abweichung von den notwendigen Testvoraussetzungen. Bezüglich der Kovarianzmatrizen gilt, daß wenn die Gruppengröße der zu vergleichenden Stichproben relativ gleich ist (größtes n 1.5 * kleinstes n), dann haben Unterschiede zwischen den Kovarianzmatrizen nur geringe Auswirkung auf Pillais Trace. Hotelling-Lawley and Wilks werden mittelmäßig und Roy s Kriterium stark beeinflusst (Zar 1996). --> Was bedeutet in diesem Zusammenhang eigentlich beeinflussen? Nun, wir wollen bei unseren Tests fast immer die Nullhypothese verwerfen und dabei den Fehler 1.Art (Hypthese abgelehnt, obwohl sie richtig ist) minimieren. Falls die Testvoraussetzungen nicht zutreffen, kann es sein, dass wir annehmen, die Hypothese mit einer Sicherheitswahrscheinlichkeit von 5% zu überprüfen (nominal), obwohl sie real höher ist, z.b. 15%. Eine detaillierte Untersuchung der Auswirkung von Abweichungen von den Testvoraussetzungen mit Hinweisen für Anwender gibt es von Finch (2005), der zum Schluß kommt, dass in den meisten Fällen die parametrische MANOVA das leistungsstärkste Verfahren ist. 16

17 Klassifikation multivariater Methoden Anhand der Methoden Multivariate Vergleiche (Zentralmaße usw.) Multivariate Regression und Korrelation Klassifikation (Cluster- und Diskriminanzanalysen) Ordination Page 17 17

18 Multivariate Regression und Korrelation Univariate multiple Regression Response Var 1 Var 2 Var 3 Var 4 Var 5 Var 6Var 7Var Y i = 0 + k x i (k ) + E i k Multivariate multiple Regression Y i ( j ) = 0 ( j ) ( j ) (k + k x ) ( j ) k i + E i Response1 Response 2 Response 3 Var 1 Var 2 Var 3 Var 4 Var 5 Var 6 Var 7 Var Page 18 Aus methodischen Gründen wird die multivariate Korrelation, die auch als kanonische Korrelationsanalyse bezeichnet wird, später (im Zusammenhang mit der kanonischen Korrespondenzanalyse) behandelt. Das Ergebnis der multivariaten Regression ist identisch mit m univariaten Regressionen (m= Anzahl der abhängigen Variablen bzw. response variablen), aber zusätzlich erhalten wir die Kovarianzmatrix der Zufallsfehler und die Möglichkeit globale Hypothesen wie zum Beispiel Eine erklärende Variable hängt mit keiner abhängigen Variable zusammen zu überprüfen. 18

19 Multivariate Regression Durchführung mit gleichem Befehl wie univariate lm() aber abhängige Variablen als Matrix! lm(cbind(,..,..,) ~ ) lm( ~ ) drop1.lml() Überprüfen, ob bestimmte Var global entfernt werden kann summary.mreg() nettere Variante der summary.lm() Funktion Page 19 Die Durchführung einer multivariaten multiplen Regression ist insgesamt identisch mit einer univariaten. Zusätzlich können Hypothesen für alle Regressionen zusammen überprüft werden, zum Beispiel ob eine Variable niemals signifikant zur Erklärung des Modells beiträgt und somit entfernt werden kann. Eine spezielle Funktion hierfür findet sich auf der Seite der ETH-Zürich von Werner Stahel und lautet drop1.lml() (neben einer Reihe von anderen Funktionen) In der Funktion läuft im Endeffekt eine MANOVA für das Modell ab, d.h. die Ergebnisse sind mit einer MANOVA identisch. 19

20 Multivariate Regression Aufgaben 1. Lassen sich Uran und Aluminium durch Fe und Cu erklären? Welche erklärenden Variablen sind jeweils signifikant? 2. Erzeugen Sie mit rnorm() eine zusätzliche erklärende Variable und untersuchen Sie, inwiefern diese Variable signifikanten Erklärungswert hat. Vergleichen Sie dieses Ergebnis mit dem einer manova()! drop1.mlm() summary.mreg() Page 20 Der Code für die Funktionen wird für diesen Kurs bereitgestellt -> Dokument mvarreg.r 20

21 Multivariate Regression Modellannahmen - Erwartungswert von E i = 0 Identifizierbarkeit von - Zufallsabweichungen haben gleiche Residuen-plots Varianz Quantil-Residuen-plots - Zufallsabweichungen sind normalverteilt plot.regr() Page 21 Die Modellannahmen für den multivariaten Fall sind Generalisierungen der Annahmen für das univariate Modell. Sie können mit Diagrammen überprüft werden. Dabei dient die Festlegung der ersten Annahme (Erwartungswert der Residuen = 0) der Identifizierung der Koeffeizienten (betas), wir brauchen sie nicht näher zu betrachten. Zur Überprüfung der gleichen Varianz der Residuen können wir die Residuen gegen die angepaßten Modellwerte (fitted values) auftragen. Es sollte kein Muster in der Verteilung zu erkennen sein, also z.b. eine Zu- oder Abnahme der Abweichung. Die standardisierten Residuen werden berechnet, indem die normalen Residuen durch den geschätzten Standardfehler geteilt werden. Sie sind damit genauso skaliert wie die abhängige Variable und erlauben es, Punkte mit schlechtem Fit zu erkennen (ggf. Ausreißer). Die Normalverteilung der Residuen lässt sich mit Quantil-Residuenplots überprüfen. Außerdem interessiert auch, ob vielleicht einzelne Beobachtungen unserer erklärenden Variablen einen stärkeren Einfluss haben als andere. Das kann mit dem Plotten der Residuen gegen ihren Einfluss (leverage) dargestellt werden. In diesem Zusammenhang muß darauf hingewiesen werden, dass einflußreiche Beobachtungen nicht zwingend Ausreißer sind. Ausreißer sind Punkte, die nicht gut vom Modell erfasst werden (z.b. erkennbar in residuals vs. Fitted values plots), während einflußreiche Beobachtungen einen substantiellen Einfluss auf die Modellparameter haben. Ein Punkt kann sowohl beides sein als auch nur eines der beiden Merkmale aufweisen (oder natürlich keines). Bei der Funktion für den multivariaten Residuen plot.regr() wird neben den üblichen Modellprüfdiagrammen noch die Korrelation der verschiedenen Residuen auf die abhängigen Variablen untersucht. Dafür dienen die Werte der Kovarianzmatrix der Zufallsfehler und es lässt sich damit eine partielle Korrelation der abhängigen Variablen überprüfen. Außerdem wird noch ein Quantilplot für die zusammengefassten Residuen des Modells erstellt. 21

22 Multivariate Regression normal nicht-linear Page 22 starke Zunahme leichte Zunahme Wenn die Residuen nicht normalverteilt sind (Diagramm oben links) sondern abgebildete Muster aufweisen (Diagramme oben rechts und unten), deutet dies darauf hin, dass die Zielvariable ggf. transformiert oder die einzelnen Einganggrößen gewichtet werden sollten (weightedleast-squares regression). 22

23 Klassifikation multivariater Methoden Anhand der Methoden Multivariate Vergleiche (Zentralmaße usw.) Multivariate Regression und Korrelation Klassifikation (Cluster- und Diskriminanzanalysen) Ordination Page 23 Die bisherigen Abschnitte behandelten multivariate Themen, die große Ähnlichkeit mit den entsprechenden univariaten Methoden aufwiesen. Die beiden folgenden Abschnitte beschreiten ein neues Terrain, dass aus der univariaten Statistik nicht vertraut ist. Gleichwohl werden wir einige Techniken (multiple Regression oder ANOVA) auch hier wieder antreffen. Als erstes betrachten wir die Klassifikationsmethoden. Während man bei der Ordination versucht Entitäten entlang eines Gradienten zu platzieren, ist das Ziel der Clusteranalyse möglichst distinkte, homogene Gruppen aus den Entitäten zu bilden. Der Abschnitt ist unterteilt in die Cluster- und Diskriminanzanalyse. Bei der Diskriminanzanalyse beginnen wir a priori mit Gruppen und suchen Variablen, mit denen die Gruppen unterschieden werden können, während wir bei der Clusteranalyse nur die Existenz von Gruppen vermuten und diese erst erstellen. Es ist möglich, zuerst eine Clusteranalyse auszuführen und die aufgestellten Gruppen dann als Ausgangspunkt einer Diskriminanzanalyse zu verwenden. 23

24 Clusteranalysen -Suche nach homogenen Gruppen -Möglichst großer Unterschied zu anderen Gruppen Page 24 Im Diagramm links können wir für den bivariaten Fall distinkte Gruppen erkennen, während das im Diagramm rechts nicht möglich ist. Beispiele, wo eine Clusteranalyse hilfreich sein könnte: - Bildung von Ländergruppen anhand der vorhergesagten Auswirkungen des Klimawandels - Gruppierung von Stoffen mit ähnlicher Toxizität für einen bestimmten Testorganismus Während im bivariaten Fall die Cluster im Scatterplot erkannt werden können (siehe Diagramm links), empfehlen sich Clusteranalysen gerade im multivariaten Fall, da die Visualisierungsmöglichkeit von mehr als 3 Dimensionen begrenzt ist (allerdings versucht man genau dies mit Ordinationsmehtoden, zu denen wir später kommen). Natürlich gibt es auch Cluster, die weniger eindeutig sind, eine nette Übersicht findet sich in Mc Garigal (2000, S. 87). 24

25 Clusteranalysen Anwendungen -Datenaggregation -> verringern von noise -Identifizieren von Ausreißern -Beziehung zwischen Variablen visualisieren Page 25 Clusteranalysen können auch verwendet werden, um Ausreißer zu identifizieren. So könnte das Cluster rechts (blau) auch ohne den Messwert bei 160 cm gebildet werden und dieser Punkt würde dann ein Cluster mit nur einer einzelnen Beobachtung bilden. Die Beziehung zwischen Variablen können in einer Variablenclusteranalyse visualisiert werden. Ausgangspunkt ist die Korrelationsmatrix der Variablen. 25

26 Clusteranalysen Hauptproblem: viele verschiedene Möglichkeiten Stelle Art A Art B Art C Art D Page 26 Im folgenden wird das Hauptproblem der Clusteranalyse im multivariaten Fall dargestellt: In Abhängigkeit von der Gewichtung der einzelnen Variablen, kann man unterschiedliche Cluster bilden. 26

27 Clusteranalysen Hauptproblem: viele verschiedene Möglichkeiten Stelle Art A Art B Art C Art D Page 27 27

28 Clusteranalysen Hauptproblem: viele verschiedene Möglichkeiten Stelle Art A Art B Art C Art D Ergebnis der Analyse hängt von Technik ab Page 28 28

29 Clusteranalysen McGarigal (2000, p.90) Page 29 Abbildung aus Mc Garigal (2000, S. 90). Die gestrichelten Pfeile indizieren weniger relevante Techniken für die umweltwissenschaftliche oder ökologische Clusteranalyse. Sequential vs. Simultaneous: Bei sequenziellen Methoden werden rekursive Operationen wiederholt ausgeführt und die Cluster werden schrittweise gebildet. Bei simultanen Methoden wird in nur einem Schritt die Gruppenzugehörigkeit bestimmt. Nonhierarchical vs. Hierarchical: Bei nicht-hierarchischen Techniken werden z.b. k Cluster gebildet, die möglichst homogene Einheiten beinhalten, während bei hierarchischen Clustern eher der Unterschied und die Verhältnisse zwischen den Clustern von Interesse sind. 29

30 Clusteranalysen Gruppenbildung basiert auf Distanz oder Ähnlichkeiten Distanzmaße: Euklidische Distanz i d ij 2 = (x j1 x i1 ) 2 + (x j 2 x i2 ) 2 n d ij = (x ik x jk ) 2 d ij = n k =1 k =1 Manhattan Distanz x ik x jk Bray-Curtis Distanz d ij = n k =1 n k =1 j x ik x jk (x ik + x jk ) Page 30 Das Zusammenfassen von Entitäten zu Gruppen bzw. Clustern beruht auf der Distanz zwischen den Entitäten. Es gibt viele verschiedene Techniken, um die Distanz zwischen zwei Entitäten zu bestimmen. Die euklidische Distanz wird durch die Variablen mit den größten Abweichungen dominiert. Bei der Manhattan Distanz wird dieses Gewicht etwas abgeschwächt. Die Bray-Curtis Distanz reagiert stark auf Extremwerte und hat die schöne Eigenschaft nur Werte zwischen 0 und 1 anzunehmen, falls alle Werte für x positiv sind. Es gibt noch eine ganze Reihe weiterer Distanzmaße auf die hier nicht eingegangen werden kann, die aber auch in R implementiert sind. Als wichtige Maße sind noch der Jacquard-Index oder die Canberra- Distanz (eng verbunden mit der Bray-Curtis Distanz) sowie die Mahalanobis-Distanz (Beachte die Ähnlichkeit zur Berechnung von Hotellings T 2 ) zu nennen. Funktionen für Distanzmaße in R finden sich in den Funktionen: dist(), mahalanobis() und vegdist(){vegan}. Sie sind dort ausführlich beschrieben. Desweiteren wird eine Funktion zur Berechnung der Mahalanobis-Distanz zwischen Matrizen bereitgestellt. 30

31 Clusteranalysen Visualisierung mit 2 Arten Art B Stelle 3 Stelle 4 Distanzen d ij zwischen der Stelle 1 und dem Rest Stelle 1 Stelle 2 Art A Page 31 In dem Diagramm wird für den Fall von nur zwei Variablen (Art A und Art B) visualisiert, was die Distanz zwischen den verschiedenen Entitäten (Stellen in diesem Fall) bedeutet. 31

32 Clusteranalysen Aufgabe Veranschaulichen Sie sich die Unterschiede in den Distanzmaßen unter Berechnung der Euklidischen, Manhattan, Bray-Curtis und Mahalanobis-Distanz für folgende Matrix: Art Stelle Abundanz Page 32 Für die Berechnung der Mahalanobis-Distanz wird die Inverse der Varianz-Kovarianz-Matrix benötigt. Wie schon vorher erwähnt, existiert nicht für jede Matrix eine Inverse. Allerdings gibt es die Möglichkeit, Matrizen in andere Matrizen zu überführen, mit denen dann die Inverse berechnet werden kann (Einzelwertzerlegung, bei näherem Interesse siehe Dabei können die Elemente der Inversen allerdings auch negative Werte annehmen, was zu Problemen bei der Berechnung der Mahalanobis- Distanz führt. Deswegen verwenden wir den absoluten Wert der Inversen-Matrix. Bei den Berechnungen fällt auf, daß besonders die euklidische Distanz hohe Unterschiede zwischen den Stellen hervorbringt. Arten mit geringer Abundanz fallen kaum ins Gewicht, d.h. Art 1 dominiert die Berechnung der Distanzen zwischen den Stellen. Aus diesem Grund werden die Variablen bei Verwendung der euklidischen Distanz häufig standardisiert. Dabei wird der geschätzte Mittelwert abgezogen und durch die Standardabweichung geteilt. Dies ist in R mit der Funktion scale() implementiert. Desweiteren gibt es die Möglichkeit Distanzen mit dsvdis(){labdsv} zu berechnen und dort Gewichtungen nach Arten vorzunehmen. Die Mahalanobis-Distanz beruht auf der Kovarianzmatrix und wird durch Standardisierung der Variablen nicht beeinflusst. 32

33 Clusteranalysen Hierarchisches Clustering: Agglomerationsmethoden 1. Suchen nach der geringsten Distanz Page 33 Abbildung aus Mc Garigal (2000, S. 102) Die am häufigsten verwendete Methode in der Clusteranalyse ist das hierarchische Clustering mit der Agglomerationsmethode. Bei der Agglomeration bilden am Anfang alle Entitäten ein separates Cluster und werden in Abhängigkeit von ihrer Ähnlichkeit zu größeren Clustern verschmolzen. Im Gegensatz dazu stehen divisive Methoden, die mit einem Gesamtcluster beginnen und daraus neue, kleinere Cluster abspalten. 33

34 Clusteranalysen Hierarchisches Clustering: Agglomerationsmethoden 2. Berechnung der neuen Distanzen und wiederholen von Schritt 1 Page 34 Abbildung aus Mc Garigal (2000, S. 102) Ein wichtiges Unterscheidungsmerkmal beim Clustering stellt die Methode dar, nach der die neuen Distanzen im Clusterprozess neu berechnet werden. 34

35 Clusteranalysen Hierarchisches Clustering: Agglomerationsmethoden Page 35 Abbildung aus Mc Garigal (2000, S. 106) Die Methoden lassen sich in 3 Gruppen einteilen: Space-conserving: die ursprünglichen Distanzen der Entitäten werden konserviert -> hohe Korrelation zwischen den ursprünglichen Distanzen und den Distanzen nach der Agglomeration (die sich in der kophenetischen Matrix befinden). Methoden dieser Gruppe werden verwendet, wenn es darum geht, die Eigenschaften der Eingangsdaten beizubehalten. (Methoden sind z.b. Average linkage oder Ward s ) Space-contracting: Bei diesen Methoden werden Entitäten eher zu bestehenden Clustern hinzugefügt, auch wenn die Entitäten in den Clustern dadurch näher zusammenrücken als es bei den Ausgangsdaten der Fall war. Dieses Verfahren ist hilfreich um größere Diskontinuitäten in den Daten zu detektieren. (Mehtode z.b. Single linkage ) Space-dilating: Bei diesen Methoden werden die Abstände zwischen den Entitäten der Cluster minimiert. Das heißt es werden Cluster mit möglichst homogenen Mitgliedern gebildet. Das Verfahren kann dazu genutzt werden, um Entitäten mit möglichst ähnlichen Eigenschaften zusammenzufassen (Methode z.b. Complete linkage ). 35

36 Clusteranalysen Single-linkage Complete-linkage Clusterfunktion hclust() Ergebnismatrix der Clusterbildung cophenetic() Visualisieren von Clustern rect.hclust() Average linkage Festlegen von Clustern cutree() Page 36 Abbildung aus Everitt (2005, S. 119) In R können mit der Funktion hclust() für Dissimilaritätsmatrizen, die vorher mit dist() oder ähnlicher Funktion erzeugt wurden, Clusteranalysen durchgeführt werden. Die Methoden werden jeweils mit method =... spezifiziert und es stehen folgende Methoden zur Auswahl: ward", "single", "complete", "average", "mcquitty", "median" or "centroid. Die Methode Ward s minimum-variance ähnelt dem average linkage-verfahren, allerdings wird nicht die mittlere Distanz zwischen den Clustern minimiert, sondern die quadrierte Distanz, gewichtet nach der Clustergröße. Dadurch werden die Clustergrenzen enger gesetzt als bei der averagelinkage Methode. 36

37 Clusteranalysen Aufgabe 1. Laden Sie die Daten varespec im vegan- Package und führen Sie folgende Clusteranalysen durch: - single und complete linkage unter Nutzung der Bray-Curtis und Euklidischen Distanz. 2. Wie hoch sind die Übereinstimmungen zwischen den Eingangs-Distanzmatrizen und den kophenetischen Matrizen? hclust() cophenetic() cutree() plclust() rect.hclust() Page 37 Mit der Funktion rect.hclust können in bestehenden Clusterplots Cluster visualisiert werden. Dies kann anhand des maximalen Abstands (Entfernung der Cluster) oder durch Festlegen einer definierten Anzahl von Clustern geschehen. Ähnliches gilt für die Funktion cutree(). Weist man den labels in einem plot mit plclust() das Ergebnis von cutree zu, wird die Zugehörigkeit der einzelnen Entitäten im Plot visualisiert. 37

38 Clusteranalysen Page 38 In den Diagrammen sind die Ergebnisse der Clusterlösungen mit dem Bray-Curtis-Index für die single- (linke Abbildung) und complete linkage (rechte Abbildung) Methode gegenübergestellt. Dabei werden die Unterschiede zwischen den Methoden deutlich. Wir haben weit entfernte und kleine Cluster beim complete linkage gegenüber großen und nahen Clustern bei der single linkage.-methode (beachte auch die Skala!). 38

39 Clusteranalysen Hierarchisches Clustering: Agglomerationsmethoden Divise Methode diana() {cluster} Clustern von Variablen varclus() {Hmisc} Page 39 Das Hauptargument für das trennende (divisive) Clustering besteht darin, dass möglicherweise das Rauschen einzelner Variablen bei Aggregation verringert wird. Dieses Argument beruht auf der Annahme, das kleine Distanzen zwischen Entitäten eher auf zufälliges Rauschen zurückzuführen sind, während große Distanzen reale Gradienten signalisieren. Im Diagramm ist das Ergebnis eines Variablen-Clusterings dargestellt, dass für ca. 30 Umweltvariablen unter Wahl der Spearman-Korrelation als Distanzmaß durchgeführt wurde. Die Funktion varclus befindet sich im Package Hmisc, das Diagramm wird mit der normalen plot()- Funktion erzeugt. 39

40 Clusteranalysen Nicht-hierarchisches Clustering Problem: n k Anzahl möglicher Partitionen ,375,101 45,232,115, ,223,721,118,368, Algorithmus: 1. Aufteilung in k Gruppen 2. Bewegen der Einheiten und Veränderung berechnen 3. Beste Lösung wählen 4. Wiederholen von 2 und 3 bis Clusterkriterium keine Verbesserung mehr anzeigt Page 40 Neben den hierarchischen gibt es auch nicht-hierarchische Clustermethoden, bei denen der Datensatz in eine a priori definierte Anzahl von Gruppen aufgeteilt wird. Diese Methide wird auch als k- Mittelwerte- (k-means) Clustering bezeichnet. Das größte Problem stellt die hohe Anzahl von möglichen Clustern dar (siehe Tabelle - Kommas zeigen 1000er Stellen an). Als Gütekriterium für die bessere Clusterlösung wird am häufigsten die Summe der Abweichungsquadrate (vgl. euklidische Distanz) innerhalb der verschiedenen Cluster verwendet. Da es extrem viele Möglichkeiten der Partitionierung gibt, ist nicht gewährleistet, dass jeweils die beste Lösung gefunden wird. Der Algorithmus zum Auffinden dieser Lösung beginnt mit dem zufälligen Einteilen in die gewünschte Anzahl von Gruppen. Als Ausgangspunkt könnte aber auch das Ergebnis einer vorhergehenden hierarchischen Clusteranalyse verwendet werden. 40

Statistische Verfahren für das Data Mining in einem Industrieprojekt

Statistische Verfahren für das Data Mining in einem Industrieprojekt Statistische Verfahren für das Data Mining in einem Industrieprojekt Thorsten Dickhaus Forschungszentrum Jülich GmbH Zentralinstitut für Angewandte Mathematik Telefon: 02461/61-4193 E-Mail: th.dickhaus@fz-juelich.de

Mehr

Korrelation - Regression. Berghold, IMI

Korrelation - Regression. Berghold, IMI Korrelation - Regression Zusammenhang zwischen Variablen Bivariate Datenanalyse - Zusammenhang zwischen 2 stetigen Variablen Korrelation Einfaches lineares Regressionsmodell 1. Schritt: Erstellung eines

Mehr

Clustering Seminar für Statistik

Clustering Seminar für Statistik Clustering Markus Kalisch 03.12.2014 1 Ziel von Clustering Finde Gruppen, sodas Elemente innerhalb der gleichen Gruppe möglichst ähnlich sind und Elemente von verschiedenen Gruppen möglichst verschieden

Mehr

Business Value Launch 2006

Business Value Launch 2006 Quantitative Methoden Inferenzstatistik alea iacta est 11.04.2008 Prof. Dr. Walter Hussy und David Tobinski UDE.EDUcation College im Rahmen des dokforums Universität Duisburg-Essen Inferenzstatistik Erläuterung

Mehr

Multivariate Statistik

Multivariate Statistik Hermann Singer Multivariate Statistik 1 Auflage 15 Oktober 2012 Seite: 12 KAPITEL 1 FALLSTUDIEN Abbildung 12: Logistische Regression: Geschätzte Wahrscheinlichkeit für schlechte und gute Kredite (rot/blau)

Mehr

9. Schätzen und Testen bei unbekannter Varianz

9. Schätzen und Testen bei unbekannter Varianz 9. Schätzen und Testen bei unbekannter Varianz Dr. Antje Kiesel Institut für Angewandte Mathematik WS 2011/2012 Schätzen und Testen bei unbekannter Varianz Wenn wir die Standardabweichung σ nicht kennen,

Mehr

Willkommen zur Vorlesung Statistik (Master)

Willkommen zur Vorlesung Statistik (Master) Willkommen zur Vorlesung Statistik (Master) Thema dieser Vorlesung: Verteilungsfreie Verfahren Prof. Dr. Wolfgang Ludwig-Mayerhofer Universität Siegen Philosophische Fakultät, Seminar für Sozialwissenschaften

Mehr

9 Faktorenanalyse. Wir gehen zunächst von dem folgenden Modell aus (Modell der Hauptkomponentenanalyse): Z = F L T

9 Faktorenanalyse. Wir gehen zunächst von dem folgenden Modell aus (Modell der Hauptkomponentenanalyse): Z = F L T 9 Faktorenanalyse Ziel der Faktorenanalyse ist es, die Anzahl der Variablen auf wenige voneinander unabhängige Faktoren zu reduzieren und dabei möglichst viel an Information zu erhalten. Hier wird davon

Mehr

Klausur zur Vorlesung Multivariate Verfahren, SS 2006 6 Kreditpunkte, 90 min

Klausur zur Vorlesung Multivariate Verfahren, SS 2006 6 Kreditpunkte, 90 min Klausur, Multivariate Verfahren, SS 2006, 6 Kreditpunkte, 90 min 1 Prof. Dr. Fred Böker 08.08.2006 Klausur zur Vorlesung Multivariate Verfahren, SS 2006 6 Kreditpunkte, 90 min Gesamtpunkte: 39 Aufgabe

Mehr

Webergänzung zu Kapitel 10

Webergänzung zu Kapitel 10 Webergänzung zu Kapitel 10 10.1.4 Varianzanalyse (ANOVA: analysis of variance) Im Kapitel 10 haben wir uns hauptsächlich mit Forschungsbeispielen beschäftigt, die nur zwei Ergebnissätze hatten (entweder

Mehr

Multivariate Analysemethoden

Multivariate Analysemethoden Multivariate Analysemethoden 30.04.2014 Günter Meinhardt Johannes Gutenberg Universität Mainz Einführung Was sind multivariate Analysemethoden? Vorlesung Übung/Tut Prüfung Verfahrensdarstellung in Überblick

Mehr

Varianzanalyse ANOVA

Varianzanalyse ANOVA Varianzanalyse ANOVA Johannes Hain Lehrstuhl für Mathematik VIII Statistik 1/23 Einfaktorielle Varianzanalyse (ANOVA) Bisher war man lediglich in der Lage, mit dem t-test einen Mittelwertsvergleich für

Mehr

2. Deskriptive Statistik 2.1. Häufigkeitstabellen, Histogramme, empirische Verteilungsfunktionen

2. Deskriptive Statistik 2.1. Häufigkeitstabellen, Histogramme, empirische Verteilungsfunktionen 4. Datenanalyse und Modellbildung Deskriptive Statistik 2-1 2. Deskriptive Statistik 2.1. Häufigkeitstabellen, Histogramme, empirische Verteilungsfunktionen Für die Auswertung einer Messreihe, die in Form

Mehr

Statistik IV für Studenten mit dem Nebenfach Statistik Lösungen zu Blatt 9 Gerhard Tutz, Jan Ulbricht SS 07

Statistik IV für Studenten mit dem Nebenfach Statistik Lösungen zu Blatt 9 Gerhard Tutz, Jan Ulbricht SS 07 Statistik IV für Studenten mit dem Nebenfach Statistik Lösungen zu Blatt 9 Gerhard Tutz, Jan Ulbricht SS 07 Ziel der Clusteranalyse: Bilde Gruppen (cluster) aus einer Menge multivariater Datenobjekte (stat

Mehr

Auswertung mit dem Statistikprogramm SPSS: 30.11.05

Auswertung mit dem Statistikprogramm SPSS: 30.11.05 Auswertung mit dem Statistikprogramm SPSS: 30.11.05 Seite 1 Einführung SPSS Was ist eine Fragestellung? Beispiel Welche statistische Prozedur gehört zu welcher Hypothese? Statistische Berechnungen mit

Mehr

Florian Frötscher und Demet Özçetin

Florian Frötscher und Demet Özçetin Statistische Tests in der Mehrsprachigkeitsforschung Aufgaben, Anforderungen, Probleme. Florian Frötscher und Demet Özçetin florian.froetscher@uni-hamburg.de SFB 538 Mehrsprachigkeit Max-Brauer-Allee 60

Mehr

Clusteranalyse. Clusteranalyse. Fragestellung und Aufgaben. Abgrenzung Clusteranalyse - Diskriminanzanalyse. Rohdatenmatrix und Distanzmatrix

Clusteranalyse. Clusteranalyse. Fragestellung und Aufgaben. Abgrenzung Clusteranalyse - Diskriminanzanalyse. Rohdatenmatrix und Distanzmatrix TECHNISCHE UNIVERSITÄT MÜNCHEN-WEIHENSTEPHAN MATHEMATIK UND STATISTIK INFORMATIONS- UND DOKUMENTATIONSZENTRUM R. Biometrische und Ökonometrische Methoden II SS 00 Fragestellung und Aufgaben Abgrenzung

Mehr

Übungsserie Nr. 10 mit Lösungen

Übungsserie Nr. 10 mit Lösungen Übungsserie Nr. 10 mit Lösungen 1 Ein Untersuchungsdesign sieht einen multivariaten Vergleich einer Stichprobe von Frauen mit einer Stichprobe von Männern hinsichtlich der Merkmale X1, X2 und X3 vor (Codierung:

Mehr

Analytische Statistik I. Statistische Methoden in der Korpuslinguistik Heike Zinsmeister WS 2009/10

Analytische Statistik I. Statistische Methoden in der Korpuslinguistik Heike Zinsmeister WS 2009/10 Analytische Statistik I Statistische Methoden in der Korpuslinguistik Heike Zinsmeister WS 2009/10 Testen Anpassungstests (goodness of fit) Weicht eine gegebene Verteilung signifikant von einer bekannten

Mehr

Bachelorabschlussseminar Dipl.-Kfm. Daniel Cracau

Bachelorabschlussseminar Dipl.-Kfm. Daniel Cracau 1 Einführung in die statistische Datenanalyse Bachelorabschlussseminar Dipl.-Kfm. Daniel Cracau 2 Gliederung 1.Grundlagen 2.Nicht-parametrische Tests a. Mann-Whitney-Wilcoxon-U Test b. Wilcoxon-Signed-Rank

Mehr

Multiple Regression. Ziel: Vorhersage der Werte einer Variable (Kriterium) bei Kenntnis der Werte von zwei oder mehr anderen Variablen (Prädiktoren)

Multiple Regression. Ziel: Vorhersage der Werte einer Variable (Kriterium) bei Kenntnis der Werte von zwei oder mehr anderen Variablen (Prädiktoren) Multiple Regression 1 Was ist multiple lineare Regression? Ziel: Vorhersage der Werte einer Variable (Kriterium) bei Kenntnis der Werte von zwei oder mehr anderen Variablen (Prädiktoren) Annahme: Der Zusammenhang

Mehr

Das Dialogfeld für die Regressionsanalyse ("Lineare Regression") findet sich im Statistik- Menu unter "Regression"-"Linear":

Das Dialogfeld für die Regressionsanalyse (Lineare Regression) findet sich im Statistik- Menu unter Regression-Linear: Lineare Regression Das Dialogfeld für die Regressionsanalyse ("Lineare Regression") findet sich im Statistik- Menu unter "Regression"-"Linear": Im einfachsten Fall werden mehrere Prädiktoren (oder nur

Mehr

90-minütige Klausur Statistik für Studierende der Kommunikationswissenschaft

90-minütige Klausur Statistik für Studierende der Kommunikationswissenschaft Prof. Dr. Helmut Küchenhoff SS08 90-minütige Klausur Statistik für Studierende der Kommunikationswissenschaft am 22.7.2008 Anmerkungen Überprüfen Sie bitte sofort, ob Ihre Angabe vollständig ist. Sie sollte

Mehr

Statistik und Wahrscheinlichkeitsrechnung

Statistik und Wahrscheinlichkeitsrechnung Statistik und Wahrscheinlichkeitsrechnung Übung 2 28.02.2008 1 Inhalt der heutigen Übung Beschreibende Statistik Gemeinsames Lösen der Übungsaufgaben 2.1: Häufigkeitsverteilung 2.2: Tukey Boxplot 25:Korrelation

Mehr

Einige Statistische Tests für den Ein- Zwei- und k-stichprobenfall (Nach Sachs, Stat. Meth.)

Einige Statistische Tests für den Ein- Zwei- und k-stichprobenfall (Nach Sachs, Stat. Meth.) ue biostatistik: nichtparametrische testverfahren / ergänzung 1/6 h. Lettner / physik Statistische Testverfahren Einige Statistische Tests für den Ein- Zwei- und k-stichprobenfall (Nach Sachs, Stat. Meth.)

Mehr

5 Eigenwerte und die Jordansche Normalform

5 Eigenwerte und die Jordansche Normalform Mathematik für Physiker II, SS Mittwoch 8.6 $Id: jordan.tex,v.6 /6/7 8:5:3 hk Exp hk $ 5 Eigenwerte und die Jordansche Normalform 5.4 Die Jordansche Normalform Wir hatten bereits erwähnt, dass eine n n

Mehr

Diskriminanzanalyse Beispiel

Diskriminanzanalyse Beispiel Diskriminanzanalyse Ziel bei der Diskriminanzanalyse ist die Analyse von Gruppenunterschieden, d. h. der Untersuchung von zwei oder mehr Gruppen hinsichtlich einer Vielzahl von Variablen. Diese Methode

Mehr

Einfache Varianzanalyse für abhängige

Einfache Varianzanalyse für abhängige Einfache Varianzanalyse für abhängige Stichproben Wie beim t-test gibt es auch bei der VA eine Alternative für abhängige Stichproben. Anmerkung: Was man unter abhängigen Stichproben versteht und wie diese

Mehr

12. Vergleich mehrerer Stichproben

12. Vergleich mehrerer Stichproben 12. Vergleich mehrerer Stichproben Dr. Antje Kiesel Institut für Angewandte Mathematik WS 2011/2012 Häufig wollen wir verschiedene Populationen, Verfahren, usw. miteinander vergleichen. Beipiel: Vergleich

Mehr

METHODENLEHRE I WS 2013/14 THOMAS SCHÄFER

METHODENLEHRE I WS 2013/14 THOMAS SCHÄFER METHODENLEHRE I WS 2013/14 THOMAS SCHÄFER DAS THEMA: INFERENZSTATISTIK IV INFERENZSTATISTISCHE AUSSAGEN FÜR ZUSAMMENHÄNGE UND UNTERSCHIEDE Inferenzstatistik für Zusammenhänge Inferenzstatistik für Unterschiede

Mehr

Teil II: Einführung in die Statistik

Teil II: Einführung in die Statistik Teil II: Einführung in die Statistik (50 Punkte) Bitte beantworten Sie ALLE Fragen. Es handelt sich um multiple choice Fragen. Sie müssen die exakte Antwortmöglichkeit angeben, um die volle Punktzahl zu

Mehr

Güte von Tests. die Wahrscheinlichkeit für den Fehler 2. Art bei der Testentscheidung, nämlich. falsch ist. Darauf haben wir bereits im Kapitel über

Güte von Tests. die Wahrscheinlichkeit für den Fehler 2. Art bei der Testentscheidung, nämlich. falsch ist. Darauf haben wir bereits im Kapitel über Güte von s Grundlegendes zum Konzept der Güte Ableitung der Gütefunktion des Gauss im Einstichprobenproblem Grafische Darstellung der Gütefunktionen des Gauss im Einstichprobenproblem Ableitung der Gütefunktion

Mehr

Datenanalyse mit Excel. Wintersemester 2013/14

Datenanalyse mit Excel. Wintersemester 2013/14 Datenanalyse mit Excel 1 KORRELATIONRECHNUNG 2 Korrelationsrechnung Ziel der Korrelationsrechnung besteht im bivariaten Fall darin, die Stärke des Zusammenhangs zwischen zwei interessierenden statistischen

Mehr

OPERATIONS-RESEARCH (OR)

OPERATIONS-RESEARCH (OR) OPERATIONS-RESEARCH (OR) Man versteht darunter die Anwendung mathematischer Methoden und Modelle zur Vorbereitung optimaler Entscheidungen bei einem Unternehmen. Andere deutsche und englische Bezeichnungen:

Mehr

Weitere Fragestellungen im Zusammenhang mit einer linearen Einfachregression

Weitere Fragestellungen im Zusammenhang mit einer linearen Einfachregression Weitere Fragestellungen im Zusammenhang mit einer linearen Einfachregression Speziell im Zusammenhang mit der Ablehnung der Globalhypothese werden bei einer linearen Einfachregression weitere Fragestellungen

Mehr

Inhaltsverzeichnis. Regressionsanalyse. http://mesosworld.ch - Stand vom: 20.1.2010 1

Inhaltsverzeichnis. Regressionsanalyse. http://mesosworld.ch - Stand vom: 20.1.2010 1 Inhaltsverzeichnis Regressionsanalyse... 2 Lernhinweise... 2 Einführung... 2 Theorie (1-8)... 2 1. Allgemeine Beziehungen... 3 2. 'Best Fit'... 3 3. 'Ordinary Least Squares'... 4 4. Formel der Regressionskoeffizienten...

Mehr

Fortgeschrittene Statistik Logistische Regression

Fortgeschrittene Statistik Logistische Regression Fortgeschrittene Statistik Logistische Regression O D D S, O D D S - R A T I O, L O G I T T R A N S F O R M A T I O N, I N T E R P R E T A T I O N V O N K O E F F I Z I E N T E N, L O G I S T I S C H E

Mehr

Multivariate Verfahren

Multivariate Verfahren Multivariate Verfahren Lineare Reression Zweck: Vorhersae Dimensionsreduktion Klassifizierun Hauptkomponentenanalyse Korrespondenzanalyse Clusteranalyse Diskriminanzanalyse Eienschaften: nicht-linear verteilunsfrei

Mehr

Einleitung 19. Teil I Datenanalyse und Modellbildung Grundlagen 25

Einleitung 19. Teil I Datenanalyse und Modellbildung Grundlagen 25 Inhaltsverzeichnis Einleitung 19 Zu diesem Buch 19 Konventionen in diesem Buch 20 Was Sie nicht lesen müssen 21 Falsche Voraussetzungen 21 Wie dieses Buch aufgebaut ist 21 Teil I: Datenanalyse und Grundlagen

Mehr

Einfache statistische Auswertungen mit dem TI-Nspire

Einfache statistische Auswertungen mit dem TI-Nspire 1. Neues Dokument und darin eine neue Seite anlegen Als Typ 6: Lists & Spreadsheet wählen. Darin die Messwerte in einer Spalte erfassen. Dies ergibt die Urliste. Wenn mehrere Messwerte vorliegen, die diejenigen,

Mehr

Hans-Friedrich Eckey SS 2004. Skript zur Lehrveranstaltung Multivariate Statistik

Hans-Friedrich Eckey SS 2004. Skript zur Lehrveranstaltung Multivariate Statistik Hans-Friedrich Eckey SS 2004 Skript zur Lehrveranstaltung Multivariate Statistik Vormerkungen I Vorbemerkungen Das Manuskript beinhaltet den gesamten Stoff, der Bestandteil der Lehrveranstaltung "Multivariate

Mehr

Multivariate Verfahren

Multivariate Verfahren Selbstkontrollarbeit 2 Multivariate Verfahren Musterlösung Aufgabe 1 (28 Punkte) Der Marketing-Leiter einer Lebensmittelherstellers möchte herausfinden, mit welchem Richtpreis eine neue Joghurt-Marke auf

Mehr

Inhaltsverzeichnis. Fragestellungen und Methoden 11. Vorwort 15. Kapitel 1 Einführung 17. Kapitel 2 Statistische Grundbegriffe 23

Inhaltsverzeichnis. Fragestellungen und Methoden 11. Vorwort 15. Kapitel 1 Einführung 17. Kapitel 2 Statistische Grundbegriffe 23 Fragestellungen und Methoden 11 Vorwort 15 Kapitel 1 Einführung 17 1.1 KonzeptiondesBuchs... 18 1.2 AufbaudesBuchs... 19 1.3 Programmversionen von PASW bzw. SPSS..... 20 1.4 WiekanndiesesBuchverwendetwerden?...

Mehr

Überblick über die Verfahren für Ordinaldaten

Überblick über die Verfahren für Ordinaldaten Verfahren zur Analyse ordinalskalierten Daten 1 Überblick über die Verfahren für Ordinaldaten Unterschiede bei unabhängigen Stichproben Test U Test nach Mann & Whitney H Test nach Kruskal & Wallis parametrische

Mehr

Tabelle 6a: Deskriptive Statistiken der metrischen Variablen

Tabelle 6a: Deskriptive Statistiken der metrischen Variablen Ergebnisse 77 5 Ergebnisse Das folgende Kapitel widmet sich der statistischen Auswertung der Daten zur Ü- berprüfung der Hypothesen. Die hier verwendeten Daten wurden mit den in 4.3 beschriebenen Instrumenten

Mehr

Hauptkomponentenanalyse PCA

Hauptkomponentenanalyse PCA Hauptkoponentenanalyse PCA Die Hauptkoponentenanalyse (Principal Coponent Analysis, PCA) ist eine Methode zur linearen Transforation der Variablen, so dass: öglichst wenige neue Variablen die relevante

Mehr

1,11 1,12 1,13 1,14 1,15 1,16 1,17 1,17 1,17 1,18

1,11 1,12 1,13 1,14 1,15 1,16 1,17 1,17 1,17 1,18 3. Deskriptive Statistik Ziel der deskriptiven (beschreibenden) Statistik (explorativen Datenanalyse) ist die übersichtliche Darstellung der wesentlichen in den erhobenen Daten enthaltene Informationen

Mehr

a) Zeichnen Sie in das nebenstehende Streudiagramm mit Lineal eine Regressionsgerade ein, die Sie für passend halten.

a) Zeichnen Sie in das nebenstehende Streudiagramm mit Lineal eine Regressionsgerade ein, die Sie für passend halten. Statistik für Kommunikationswissenschaftler Wintersemester 2009/200 Vorlesung Prof. Dr. Helmut Küchenhoff Übung Cornelia Oberhauser, Monia Mahling, Juliane Manitz Thema 4 Homepage zur Veranstaltung: http://www.statistik.lmu.de/~helmut/kw09.html

Mehr

Lösung zu Kapitel 11: Beispiel 1

Lösung zu Kapitel 11: Beispiel 1 Lösung zu Kapitel 11: Beispiel 1 Eine Untersuchung bei 253 Personen zur Kundenzufriedenheit mit einer Einzelhandelskette im Südosten der USA enthält Variablen mit sozialstatistischen Daten der befragten

Mehr

Modul G.1 WS 07/08: Statistik 17.01.2008 1. Die Korrelation ist ein standardisiertes Maß für den linearen Zusammenhangzwischen zwei Variablen.

Modul G.1 WS 07/08: Statistik 17.01.2008 1. Die Korrelation ist ein standardisiertes Maß für den linearen Zusammenhangzwischen zwei Variablen. Modul G.1 WS 07/08: Statistik 17.01.2008 1 Wiederholung Kovarianz und Korrelation Kovarianz = Maß für den linearen Zusammenhang zwischen zwei Variablen x und y Korrelation Die Korrelation ist ein standardisiertes

Mehr

Häufigkeitstabellen. Balken- oder Kreisdiagramme. kritischer Wert für χ2-test. Kontingenztafeln

Häufigkeitstabellen. Balken- oder Kreisdiagramme. kritischer Wert für χ2-test. Kontingenztafeln Häufigkeitstabellen Menüpunkt Data PivotTable Report (bzw. entsprechendes Icon): wähle Data Range (Zellen, die die Daten enthalten + Zelle mit Variablenname) wähle kategoriale Variable für Spalten- oder

Mehr

Dokumentation. estat Version 2.0

Dokumentation. estat Version 2.0 Dokumentation estat Version 2.0 Installation Die Datei estat.xla in beliebiges Verzeichnis speichern. Im Menü Extras AddIns... Durchsuchen die Datei estat.xla auswählen. Danach das Auswahlhäkchen beim

Mehr

Marktliquidität von Aktien

Marktliquidität von Aktien Marktliquidität von Aktien Inauguraldissertation zur Erlangung der Würde eines Doctor rerum oeconomicarum der Wirtschafts- und Sozialwissenschaftlichen Fakultät der Universität Bern Lukas Roth Die Fakultät

Mehr

Eine Einführung in R: Statistische Tests

Eine Einführung in R: Statistische Tests Eine Einführung in R: Statistische Tests Bernd Klaus, Verena Zuber Institut für Medizinische Informatik, Statistik und Epidemiologie (IMISE), Universität Leipzig http://www.uni-leipzig.de/ zuber/teaching/ws12/r-kurs/

Mehr

Statistik II für Betriebswirte Vorlesung 3

Statistik II für Betriebswirte Vorlesung 3 PD Dr. Frank Heyde TU Bergakademie Freiberg Institut für Stochastik Statistik II für Betriebswirte Vorlesung 3 5. November 2013 Beispiel: Aktiensplit (Aczel & Sounderpandan, Aufg. 14-28) Ein Börsenanalyst

Mehr

Lineare Modelle in R: Einweg-Varianzanalyse

Lineare Modelle in R: Einweg-Varianzanalyse Lineare Modelle in R: Einweg-Varianzanalyse Achim Zeileis 2009-02-20 1 Datenaufbereitung Wie schon in der Vorlesung wollen wir hier zur Illustration der Einweg-Analyse die logarithmierten Ausgaben der

Mehr

5. Schließende Statistik. 5.1. Einführung

5. Schließende Statistik. 5.1. Einführung 5. Schließende Statistik 5.1. Einführung Sollen auf der Basis von empirischen Untersuchungen (Daten) Erkenntnisse gewonnen und Entscheidungen gefällt werden, sind die Methoden der Statistik einzusetzen.

Mehr

Messen im psychologischen Kontext II: Reliabilitätsüberprüfung und explorative Faktorenanalyse

Messen im psychologischen Kontext II: Reliabilitätsüberprüfung und explorative Faktorenanalyse Messen im psychologischen Kontext II: Reliabilitätsüberprüfung und explorative Faktorenanalyse Dominik Ernst 26.05.2009 Bachelor Seminar Dominik Ernst Reliabilität und explorative Faktorenanalyse 1/20

Mehr

25. Januar 2010. Ruhr-Universität Bochum. Methodenlehre III, WS 2009/2010. Prof. Dr. Holger Dette. 4. Multivariate Mittelwertvergleiche

25. Januar 2010. Ruhr-Universität Bochum. Methodenlehre III, WS 2009/2010. Prof. Dr. Holger Dette. 4. Multivariate Mittelwertvergleiche Ruhr-Universität Bochum 25. Januar 2010 1 / 75 2 / 75 4.1 Beispiel: Vergleich von verschiedenen Unterrichtsmethoden Zwei Zufallsstichproben (A und B) mit je 10 Schülern und 8 Schülern Gruppe A wird nach

Mehr

Die Clusteranalyse 24.06.2009. Clusteranalyse. Grundidee Mögliche Anwendungsgebiete gg Vorgehensweise Beispiele. methodenlehre ll Clusteranalyse

Die Clusteranalyse 24.06.2009. Clusteranalyse. Grundidee Mögliche Anwendungsgebiete gg Vorgehensweise Beispiele. methodenlehre ll Clusteranalyse Clusteranalyse Thomas Schäfer SS 2009 1 Die Clusteranalyse Grundidee Mögliche Anwendungsgebiete gg Vorgehensweise Beispiele Thomas Schäfer SS 2009 2 1 Die Clusteranalyse Grundidee: Eine heterogene Gesamtheit

Mehr

Franz Kronthaler. Statistik angewandt. Datenanalyse ist (k)eine Kunst. Excel Edition. ^ Springer Spektrum

Franz Kronthaler. Statistik angewandt. Datenanalyse ist (k)eine Kunst. Excel Edition. ^ Springer Spektrum Franz Kronthaler Statistik angewandt Datenanalyse ist (k)eine Kunst Excel Edition ^ Springer Spektrum Inhaltsverzeichnis Teil I Basiswissen und Werkzeuge, um Statistik anzuwenden 1 Statistik ist Spaß 3

Mehr

Einführung in die Cluster-Analyse mit SAS

Einführung in die Cluster-Analyse mit SAS Einführung in die Cluster-Analyse mit SAS Benutzertreffen am URZ Carina Ortseifen 4. Juli 2003 Inhalt 1. Clusteranalyse im allgemeinen Definition, Distanzmaße, Gruppierung, Kriterien 2. Clusteranalyse

Mehr

Institut für Soziologie. Methoden 2. Regressionsanalyse I: Einfache lineare Regression

Institut für Soziologie. Methoden 2. Regressionsanalyse I: Einfache lineare Regression Institut für Soziologie Methoden 2 Regressionsanalyse I: Einfache lineare Regression Programm Anwendungsbereich Vorgehensweise Interpretation Annahmen Zusammenfassung Übungsaufgabe Literatur # 2 Anwendungsbereich

Mehr

FAKTORIELLE VERSUCHSPLÄNE. Andreas Handl

FAKTORIELLE VERSUCHSPLÄNE. Andreas Handl FAKTORIELLE VERSUCHSPLÄNE Andreas Handl 1 Inhaltsverzeichnis 1 Versuchsplanung 4 2 Einfaktorielle Varianzanalyse 6 2.1 DieAnnahmen... 6 2.2 Die ANOVA-Tabelle und der F -Test... 6 2.3 Versuche mit zwei

Mehr

Studiendesign/ Evaluierungsdesign

Studiendesign/ Evaluierungsdesign Jennifer Ziegert Studiendesign/ Evaluierungsdesign Praxisprojekt: Nutzerorientierte Evaluierung von Visualisierungen in Daffodil mittels Eyetracker Warum Studien /Evaluierungsdesign Das Design einer Untersuchung

Mehr

Einführung in SPSS. 1. Die Datei Seegräser

Einführung in SPSS. 1. Die Datei Seegräser Einführung in SPSS 1. Die Datei Seegräser An 25 verschiedenen Probestellen wurde jeweils die Anzahl der Seegräser pro m 2 gezählt und das Vorhandensein von Seeigeln vermerkt. 2. Programmaufbau Die wichtigsten

Mehr

Auswertung von kritischen Daten Vorgehensweise anhand eines Beispiels Visual-XSel 10.0

Auswertung von kritischen Daten Vorgehensweise anhand eines Beispiels Visual-XSel 10.0 Auswertung von kritischen Daten Vorgehensweise anhand eines Beispiels Visual-XSel 10.0??? Curt Ronniger 2007 Bei Neueinstieg in das Programm, sollte zunächst die Dokumentation XSelDoE10.pdf gelesen werden.

Mehr

6. Faktorenanalyse (FA) von Tests

6. Faktorenanalyse (FA) von Tests 6. Faktorenanalyse (FA) von Tests 1 6. Faktorenanalyse (FA) von Tests 1 6.1. Grundzüge der FA nach der Haupkomponentenmethode (PCA) mit anschliessender VARIMAX-Rotation:... 2 6.2. Die Matrizen der FA...

Mehr

Mathematik für Informatiker II. Beispiellösungen zur Probeklausur. Aufgabe 1. Aufgabe 2 (5+5 Punkte) Christoph Eisinger Sommersemester 2011

Mathematik für Informatiker II. Beispiellösungen zur Probeklausur. Aufgabe 1. Aufgabe 2 (5+5 Punkte) Christoph Eisinger Sommersemester 2011 Mathematik für Informatiker II Christoph Eisinger Sommersemester 211 Beispiellösungen zur Probeklausur Aufgabe 1 Gegeben sind die Polynome f, g, h K[x]. Zu zeigen: Es gibt genau dann Polynome h 1 und h

Mehr

Faktorenanalysen mit SPSS. Explorative Faktorenanalyse als Instrument der Dimensionsreduktion. Interpretation des SPSS-Output s

Faktorenanalysen mit SPSS. Explorative Faktorenanalyse als Instrument der Dimensionsreduktion. Interpretation des SPSS-Output s Explorative Faktorenanalyse als Instrument der Dimensionsreduktion Beispiel: Welche Dimensionen charakterisieren die Beurteilung des sozialen Klimas in der Nachbarschaft? Variablen: q27a bis q27g im Datensatz

Mehr

Eine computergestützte Einführung mit

Eine computergestützte Einführung mit Thomas Cleff Deskriptive Statistik und Explorative Datenanalyse Eine computergestützte Einführung mit Excel, SPSS und STATA 3., überarbeitete und erweiterte Auflage ^ Springer Inhaltsverzeichnis 1 Statistik

Mehr

Analog zu Aufgabe 16.1 werden die Daten durch folgenden Befehl eingelesen: > kredit<-read.table("c:\\compaufg\\kredit.

Analog zu Aufgabe 16.1 werden die Daten durch folgenden Befehl eingelesen: > kredit<-read.table(c:\\compaufg\\kredit. Lösung 16.3 Analog zu Aufgabe 16.1 werden die Daten durch folgenden Befehl eingelesen: > kredit

Mehr

Regressionsanalysen. Zusammenhänge von Variablen. Ziel der Regression. ( Idealfall )

Regressionsanalysen. Zusammenhänge von Variablen. Ziel der Regression. ( Idealfall ) Zusammenhänge von Variablen Regressionsanalysen linearer Zusammenhang ( Idealfall ) kein Zusammenhang nichtlinearer monotoner Zusammenhang (i.d.regel berechenbar über Variablentransformationen mittels

Mehr

Verbessern Sie Ihre Webinare

Verbessern Sie Ihre Webinare Verbessern Sie Ihre Webinare Auswertung von Informationen über Ihre Teilnehmer auf edudip zur Verbesserung Ihrer Webinare Dies ist die downloadbare CSV Datei, nur für edudip. Pro Mitglieder verfügbar Heutzutage

Mehr

Lösungen zu Janssen/Laatz, Statistische Datenanalyse mit SPSS 1

Lösungen zu Janssen/Laatz, Statistische Datenanalyse mit SPSS 1 LÖSUNG 9B a) Lösungen zu Janssen/Laatz, Statistische Datenanalyse mit SPSS 1 Man kann erwarten, dass der Absatz mit steigendem Preis abnimmt, mit höherer Anzahl der Außendienstmitarbeiter sowie mit erhöhten

Mehr

Phrasensammlung für wissenschaftliches Arbeiten

Phrasensammlung für wissenschaftliches Arbeiten Phrasensammlung für wissenschaftliches Arbeiten Einleitung In diesem Aufsatz/dieser Abhandlung/dieser Arbeit werde ich... untersuchen/ermitteln/bewerten/analysieren... Um diese Frage zu beantworten, beginnen

Mehr

Eine Einführung in R: Hochdimensionale Daten: n << p Teil II

Eine Einführung in R: Hochdimensionale Daten: n << p Teil II Eine Einführung in R: Hochdimensionale Daten: n

Mehr

Willkommen zur Vorlesung Statistik

Willkommen zur Vorlesung Statistik Willkommen zur Vorlesung Statistik Thema dieser Vorlesung: Varianzanalyse Prof. Dr. Wolfgang Ludwig-Mayerhofer Universität Siegen Philosophische Fakultät, Seminar für Sozialwissenschaften Prof. Dr. Wolfgang

Mehr

Mathematische und statistische Methoden II

Mathematische und statistische Methoden II Methodenlehre e e Prof. Dr. G. Meinhardt 6. Stock, Wallstr. 3 (Raum 06-206) Sprechstunde jederzeit nach Vereinbarung und nach der Vorlesung. Mathematische und statistische Methoden II Dr. Malte Persike

Mehr

Übungen zur Ingenieur-Mathematik III WS 2009/10 Blatt 10 21.12.2009

Übungen zur Ingenieur-Mathematik III WS 2009/10 Blatt 10 21.12.2009 Übungen zur Ingenieur-Mathematik III WS 2009/10 Blatt 10 21.12.2009 Aufgabe 35: Thema: Singulärwertzerlegung und assoziierte Unterräume Sei A eine m n Matrix mit Rang r und A = UDV T ihre Singulärwertzerlegung.

Mehr

Eine zweidimensionale Stichprobe

Eine zweidimensionale Stichprobe Eine zweidimensionale Stichprobe liegt vor, wenn zwei qualitative Merkmale gleichzeitig betrachtet werden. Eine Urliste besteht dann aus Wertepaaren (x i, y i ) R 2 und hat die Form (x 1, y 1 ), (x 2,

Mehr

Deduktive und induktive Aspekte statistischer Methoden

Deduktive und induktive Aspekte statistischer Methoden Deduktive und induktive Aspekte statistischer Methoden Wissenschaftshistorische und -philosophische Grundlagen Felix Günther Institut für Statistik Ludwig-Maximilians-Universität München Prof. Seising

Mehr

Statistische Methoden in der Wirtschaftsund Sozialgeographie

Statistische Methoden in der Wirtschaftsund Sozialgeographie Statistische Methoden in der Wirtschaftsund Sozialgeographie Ort: Zeit: Multimediapool Rechenzentrum Mittwoch 0.5--45 Uhr Material: http://www.geomodellierung.de Thema: Beschreibung und Analyse Wirtschafts-

Mehr

Weitere (wählbare) Kontraste in der SPSS Prozedur Allgemeines Lineares Modell

Weitere (wählbare) Kontraste in der SPSS Prozedur Allgemeines Lineares Modell Einfaktorielle Versuchspläne 27/40 Weitere (wählbare) Kontraste in der SPSS Prozedur Allgemeines Lineares Modell Abweichung Einfach Differenz Helmert Wiederholt Vergleich Jede Gruppe mit Gesamtmittelwert

Mehr

x 2 2x + = 3 + Es gibt genau ein x R mit ax + b = 0, denn es gilt

x 2 2x + = 3 + Es gibt genau ein x R mit ax + b = 0, denn es gilt - 17 - Die Frage ist hier also: Für welche x R gilt x = x + 1? Das ist eine quadratische Gleichung für x. Es gilt x = x + 1 x x 3 = 0, und man kann quadratische Ergänzung machen:... ( ) ( ) x x + = 3 +

Mehr

Faktorenanalyse. 1. Grundlegende Verfahren. Bacher, SoSe2007

Faktorenanalyse. 1. Grundlegende Verfahren. Bacher, SoSe2007 Faktorenanalyse Bacher, SoSe2007 1. Grundlegende Verfahren explorative FA (EXFA): Für eine Menge von Variablen/Items werden zugrunde liegende gemeinsame (latente) Dimensionen/Faktoren gesucht, die Faktorstruktur

Mehr

Einführung in QtiPlot

Einführung in QtiPlot HUWagner und Julia Bek Einführung in QtiPlot 1/11 Einführung in QtiPlot Mit Bezug auf das Liebig-Lab Praktikum an der Ludwig-Maximilians-Universität München Bei Fragen und Fehlern: jubech@cup.lmu.de Inhaltsverzeichnis

Mehr

Forschungsstatistik I

Forschungsstatistik I Prof. Dr. G. Meinhardt. Stock, Nordflügel R. 0-49 (Persike) R. 0- (Meinhardt) Sprechstunde jederzeit nach Vereinbarung Forschungsstatistik I Dr. Malte Persike persike@uni-mainz.de WS 008/009 Fachbereich

Mehr

Einfaches Datenmanagement in R

Einfaches Datenmanagement in R Einfaches Datenmanagement in R Achim Zeileis 2009-02-20 1 Daten einlesen Datensätze werden in R typischerweise als Objekte der Klasse "data.frame" dargestellt. In diesen entsprechen die Zeilen den Beobachtungen

Mehr

Multinomiale logistische Regression

Multinomiale logistische Regression Multinomiale logistische Regression Die multinomiale logistische Regression dient zur Schätzung von Gruppenzugehörigkeiten bzw. einer entsprechenden Wahrscheinlichkeit hierfür, wobei als abhänginge Variable

Mehr

1. Allgemeine Hinweise Alexander.Martin.Koenig@TU-Clausthal.de

1. Allgemeine Hinweise Alexander.Martin.Koenig@TU-Clausthal.de 1. Allgemeine Hinweise Alexander.Martin.Koenig@TU-Clausthal.de Man sollte eine Excel-Tabelle immer so übersichtlich wie möglich halten. Dazu empfiehlt es sich, alle benötigten Daten, Konstanten und Messwerte

Mehr

Einführung in die Vektor- und Matrizenrechnung. Matrizen

Einführung in die Vektor- und Matrizenrechnung. Matrizen Einführung in die Vektor- und Matrizenrechnung Matrizen Definition einer Matrix Unter einer (reellen) m x n Matrix A versteht man ein rechteckiges Schema aus reellen Zahlen, die wie folgt angeordnet sind:

Mehr

Parametrische Statistik

Parametrische Statistik Statistik und ihre Anwendungen Parametrische Statistik Verteilungen, maximum likelihood und GLM in R Bearbeitet von Carsten F. Dormann 1. Auflage 2013. Taschenbuch. xxii, 350 S. Paperback ISBN 978 3 642

Mehr

Einfache statistische Auswertungen mit dem Programm SPSS

Einfache statistische Auswertungen mit dem Programm SPSS Einfache statistische Auswertungen mit dem Programm SPSS Datensatz: fiktive_daten.sav Dipl. Päd. Anne Haßelkus Dr. Dorothea Dette-Hagenmeyer 11/2011 Überblick 1 Deskriptive Statistiken; Mittelwert berechnen...

Mehr

Lösungen zu Janssen/Laatz, Statistische Datenanalyse mit SPSS 1

Lösungen zu Janssen/Laatz, Statistische Datenanalyse mit SPSS 1 LÖSUNG 13 a) Lösungen zu Janssen/Laatz, Statistische Datenanalyse mit SPSS 1 Die Variablen sollten hoch miteinander korrelieren. Deshalb sollten die einfachen Korrelationskoeffizienten hoch ausfallen.

Mehr

Angewandte Statistik mit R

Angewandte Statistik mit R Reiner Hellbrück Angewandte Statistik mit R Eine Einführung für Ökonomen und Sozialwissenschaftler 2., überarbeitete Auflage B 374545 GABLER Inhaltsverzeichnis Vorwort zur zweiten Auflage Tabellenverzeichnis

Mehr

Grundlagen quantitativer Sozialforschung Interferenzstatistische Datenanalyse in MS Excel

Grundlagen quantitativer Sozialforschung Interferenzstatistische Datenanalyse in MS Excel Grundlagen quantitativer Sozialforschung Interferenzstatistische Datenanalyse in MS Excel 16.11.01 MP1 - Grundlagen quantitativer Sozialforschung - (4) Datenanalyse 1 Gliederung Datenanalyse (inferenzstatistisch)

Mehr

8. Methoden der klassischen multivariaten Statistik

8. Methoden der klassischen multivariaten Statistik 8. Methoden der klassischen multivariaten Statistik 8.1. Darstellung von Daten Voraussetzungen auch in diesem Kapitel: Grundgesamtheit (Datenraum) Ω von Objekten (Fällen, Instanzen), denen J-Tupel von

Mehr

Lineare Strukturgleichungsmodelle (LISREL) Konfirmatorische Faktorenanalyse (CFA)

Lineare Strukturgleichungsmodelle (LISREL) Konfirmatorische Faktorenanalyse (CFA) Interdisziplinäres Seminar Lineare Strukturgleichungsmodelle (LISREL) Konfirmatorische Faktorenanalyse (CFA) WS 2008/09 19.11.2008 Julia Schiele und Lucie Wink Dozenten: Prof. Dr. Bühner, Prof. Dr. Küchenhoff

Mehr

Modulklausur Multivariate Verfahren

Modulklausur Multivariate Verfahren Name, Vorname Matrikelnummer Modulklausur 31821 Multivariate Verfahren Datum Punkte Note Termin: 28. März 2014, 9.00-11.00 Uhr Erstprüfer: Univ.-Prof. Dr. H. Singer Hinweise zur Bearbeitung der Modulklausur

Mehr