Angewandte multivariate Statistik mit R Landau Kaarina Foit und Ralf Schäfer

Größe: px
Ab Seite anzeigen:

Download "Angewandte multivariate Statistik mit R Landau 2007. Kaarina Foit und Ralf Schäfer"

Transkript

1 Angewandte multivariate Statistik mit R Landau 2007 Kaarina Foit und Ralf Schäfer Die vorliegenden Folien sind der zweite Teil einer Vorlesung zum Thema multivariate Statistik mit R. Mehrere Einführungen in R finden sich auf der Website und können dort kostenfrei heruntergeladen werden. 1

2 Von der univariaten zur multivariaten Statistik Variablen Verteilungsform univariate mehrere erklärende Variablen, eine abhängige Variable a zweidimensional multivariate mehrere erklärende und abhängige Variablen a, b, c n-dimensional Datenform Beispiel a ist Vektor Temperatur und Niederschlag a,b,c bilden Matrix Arten und Umweltvariablen Page 2 Beispiele für bivariate Zusammenhänge sind: - Zusammenhang zwischen Temperatur und Niederschlag: Erhöhung der Temperatur - Zunahme der Niederschläge? - Pestizidbelastung von Obst und Gemüse: Zunahme der Krankheitsinzidenz? - Verteilung einer Art gegen eine Umweltvariable Multivariat wäre dagegen die gleichzeitige Betrachtung und Gewichtung von: - mehreren Arten und mehreren Umweltvariablen - verschiedenen Substanzen und verschiedenen Meßmethoden der GC-MS 2

3 Einige Vorteile multivariater Methoden Simultane Darstellung von mehreren Dimensionen Relevanz von erklärenden Variablen für Gemeinschaften, nicht einzelnen Populationen Entfernen von noise -Variablen (vgl. Flack & Chang 1987) Größere Power von statistischen Tests durch Aggregation Page 3 -Relevanz: Bei der univariaten Statistik wird nur für einzelne Arten die Bedeutung von Umweltvariablen untersucht - es ist fast unmöglich die Ergebnisse für mehrere Arten oder Umweltvariablen zu aggregieren -zum Entfernen von Noise: Flack und Chang (1987) haben untersucht wie häufig bei einer Regression ein signifikanter Zusammenhang mit zufällig erzeugten noise variables besteht. Das Resultat war, dass in vielen Fällen auch zufällig erzeugte Variablen einen bivariaten Zusammenhang mit den zu erklärenden Variablen aufweisen. Dagegen wird zum Beispiel bei constrained multivariaten Methoden nur die erklärbare Varianz von ausgewählten Umweltvariablen herangezogen, insofern also Rauschen aus dem Datensatz entfernt. -Die Aggregation erhöht die statistische Stärke der schließenden Statistik (z.b. wird der Unterschied von Messstellen anhand der gesamten Gemeinschaft anstatt von einzelnen Arten untersucht). 3

4 Mathematische Grundlagen as.matrix() a 11 K a 1n M O M a m1 L a mn b 11 K b 1n M O M b m1 L b mn t() Matrix transponieren nrow(), ncol() +,-,* Anzahl der Zeilen und Spalten Addition, Substraktion und Multiplikation von a mn mit b mn %*% Matrixmultiplikation t(a)%*%b ; crossprod(a,b) a t * b a%*%t(b) ; tcrossprod(a,b) a * b t Page 4 -Auch wenn im Rahmen des Kurses schon vorgefertigte Funktionen zur Berechnung eingesetzt werden, soll hier ein kurzer Einblick in die Mathematik gegeben werden, auf der die Berechnung basiert. 4

5 Mathematische Grundlagen Für A = a b c d ist A 1 = 1 d ad bc c b a die inverse Matrix für die gilt: A * A 1 = E A 1 * A = E diag() Beispiel: diag(x=1,2,2) erzeugt: solve() qr() Page 5 Wir können mit den hier angegebenen Funktionen und Methoden nicht für alle Matrizen eine Inverse berechnen! Diese gibt es nur für n*n Matrizen bei denen der Rang = der Anzahl der Zeilen (oder Spalten) ist (bei n*m Matrizen gilt es wenn der Rang = min(n,m) ist, die betrachten wir hier aber nicht). Das wiederum bedeutet, dass es n unabhängige Linearkombinationen der Zeilenvektoren geben muss. Die manuelle Berechnung des Ranges kann man z.b. im Bronstein (S.264) nachschlagen. In R wird mit der Funktion qr() u.a. der Rang einer Matrix berechnet, allerdings kommt sie nicht immer zu einem Ergebnis. 5

6 Mathematische Grundlagen Aufgaben 1. Lesen Sie die Tabellen Matrix 1 und Matrix 2 als Matrix ein. 2. Wieviele Reihen und Zeilen haben die Matrizen, die aus der Matrizenmultiplikation resultieren? Was ist ihr Rang? 3. Bilden Sie die Inverse der resultierenden Matrizen! as.matrix() t() qr() nrow(), ncol() +,-,* %*% diag() solve() t(a)%*%b ; crossprod(a,b) a%*%t(b) ; tcrossprod(a,b) Page 6 6

7 Klassifikation multivariater Methoden Anhand des Anwendungsbereichs Datenreduktion und Simplifikation Sortieren und Gruppieren Untersuchen von Abhängigkeiten zwischen Variablen Vorhersage und Hypothesentest Page 7 Beispiele für Anwendungen (die Zahlen beziehen sich auf den Punkt in der Folie). 1. In einer Studie wurden Ernte- und Größendaten für Pflanzen benutzt, um einen Index für die Züchtungswahl zu erstellen 2. Ein Beispiel aus der Klimatologie: Wir können mit multivariaten Verfahren Gruppen von Ländern mit ähnlichen vorhergesagten Veränderungen an Niederschlag, Meeresspiegel und Temperatur bilden. 3. In Studien werden häufig verschiedene Variablen erhoben und identifiziert, welche für Veränderungen z.b. in der Artengemeinschaft verantwortlich sind 4. Es gibt Methoden mit denen wir die Zugehörigkeit von neuen Messobjekten zu vorher definierten Gruppen vorhersagen können. Ferner gibt es multivariate Hypothesentests z.b.die Überprüfung auf signifikanten Unterschied von Gemeinschaften an kontaminierten und nicht-kontaminierten Standorten. 7

8 Klassifikation multivariater Methoden Anhand der Methoden Multivariate Vergleiche (Zentralmaße usw.) Multivariate Regression und Korrelation Klassifikation (Cluster- und Diskriminanzanalysen) Ordination Page 8 8

9 Multivariate Vergleiche: Hotelling Vergleich Mittelwert von zwei Stichproben bzgl. eines Merkmals Vergleich Mittelwert von zwei Stichproben mit k Merkmalen Cu Gehalt von Boden Cu und Fe Gehalt von Boden Cu g/kg Boden a Boden b Fe g/kg Cu g/kg Boden a Boden b H 0 : 1 = 2 H 0 : 1 = 2 t.test(), wilcox.test()... Hotelling s T 2 -Test Page 9 -Univariate und multivariate Vergleiche der Zentralmaße laufen analog -Fettdruck steht für Vektor -Eine Serie von t-tests ist nicht identisch mit dem Ergebnis des Hotelling T 2 -Tests! (Beachten Sie auch, dass bei einer Reihe von t-tests bezüglich der gleichen Stichprobe die Fehlerwahrscheinlichkeit von 0.95 sinkt, und zwar auf 0.95^Anzahl der Tests. 9

10 Multivariate Vergleiche: Hotelling t.test() mit t = X 1 X 2 s X1 X s 2 = s X1 X1 X s X 2 n Differenz der Mittelwerte/ Standardfehler der Differenz Hotelling s T 2 -Test Differenz der Mittelwertvektoren T 2 = n * n ur ur ur ur 1 2 (X1 X 2 ) t S 1 (X1 X n 1 + n 2 2 ) Inverse der Kovarianzmatrix Page 10 Schauen Sie sich zur näheren Erläuterung Exkurs die Datei Hotelling.R, in der der Hotelling-Test für R umgesetzt ist. Leider ist der Test noch nicht als Funktion in R implementiert, allerdings kann für den Vergleich von 2 Gruppen auch eine Manova durchgeführt werden (siehe weiter unten). In die Kovarianzmatrix S (die hier aus den Daten geschätzt wird) geht die Varianz der beiden Stichproben X 1 und X 2 ein (vgl. Hartung 1999, S. 231) 10

11 Multivariate Vergleiche: Hotelling Testvoraussetzungen -die Beobachtungen müssen unabhängig sein -Kovarianzmatrizen gleich -alle Variablen multivariat normalverteilt Page 11 Die Testvoraussetzungen sind analog zu univariaten Testvoraussetzungen wie Normalverteilung, Varianzgleichheit usw. 11

12 Multivariate Vergleiche: Voraussetzung Wie testet man auf multivariate Normalverteilung? Hypothesentest mshapiro.test(){mvnormtest} H 0 : X stammt aus multivariater NV Aufgabe Sind die Messungen beim Boden multivariat normalverteilt? Page 12 12

13 Multivariate Vergleiche: Voraussetzungen Wie testet man auf multivariate Normalverteilung? Grafisch chisplot() Bei Übereinstimmung mit der Normalverteilung sollten die Punkte auf einer Geraden durch den Ursprung liegen. Page 13 - Die chisplot-funktion befindet sich in der Datei Hotelling.R. - Zur Berechnung: Für die empirischen Daten wird für jede q- dimensionale Beobachtung x i eine generalisierte Abweichung zum generalisierten Mittelwert-Vektor der gesamten Stichprobe berechnet. Diese generalisierten Distanzen werden geordnet und mit den Quantilen der Chi-Quadrat-Verteilung verglichen. Bei absoluter Übereinstimmung sollten sie auf einer Geraden durch den Ursprung liegen.beispiel: Für den geordneten Vektor a i der Länge n mit den Distanzen (1,2,3,4,5,6,7,8,9,10) ist das Quantil der n Beobachtungen jeweils p i/n = a i da dies der kleinste Wert ist für den gilt: F(i/n) p i/n -> Was passiert eigentlich bei Abweichung von der Normalverteilung? Auf diese Frage wird im Anschluss an die MANOVA eingegangen. 13

14 Multivariate Vergleiche: MANOVA Vergleich Mittelwert von n2 Stichproben bzgl. eines Merkmals Vergleich Mittelwert von n2 Stichproben mit k Merkmalen Cu Gehalt von Boden Cu g/kg Boden a Boden b.. Boden c Boden d Boden e Cu und Fe Gehalt von Boden Fe g/kg Cu g/kg Boden a Boden b Boden c Boden d Boden e H 0 : 1 = 2 =... = n H 0 : 1 = 2 =... = n aov(), anova()... manova()... Page 14 -ANOVA und MANOVA ähneln sich stark in der Berechnung (siehe Zar 1996). Allerdings können sich die Ergebnisse unterscheiden, wenn man anstatt einer MANOVA, mehrere ANOVAs ausführt. So könnte die MANOVA signifikante Unterschiede zwischen den Gruppen finden, obwohl die ANOVAs keine finden und umgekehrt (Unterschiede bei den ANOVAs für einige erklärende Variablen und keine beim Vergleich der Mittelwertvektoren in der MANOVA). -Beachte: die single-faktor MANOVA mit 2 Gruppen ist analog zum Hotelling T 2 -Tests, die Ergebnisse sind gleich (F-Wert). 14

15 Multivariate Vergleiche: MANOVA manova() summary.manova() summary.aov() Ergebnisse und Wahl des Tests Ergebnisse der univariaten ANOVA Aufgaben 1. Führen Sie eine MANOVA für die Soil-Daten durch und vergleichen Sie die Ergebnisse mit Hotelling s T 2 -Test. 2. Unterteilen Sie die Bodentypen in 4 gleich große Gruppen und wiederholen Sie die MANOVA. Tip: Beispiel unter summary.manova() Page 15 Zu Aufgabe 2: Es empfiehlt sich, nicht die Rohdaten zu verändern sondern einen neuen dataframe zu erstellen. Anschließend sollten mit detach() die variablen des alten Frames aus dem Speicher gelöscht werden. Es gibt verschiedene Teststatistiken in der MANOVA. Wilks lambda ist zwar am populärsten, viele Autoren empfehlen allerdings Pillai s trace, der in R auch als Standardmethode eingestellt ist. Die Statistik nach Hotelling-Lawley-Trace sollte verwendet werden, wenn die Variablen nicht korrelieren (Zar 1996). 15

16 Multivariate Vergleiche: MANOVA Voraussetzungen - die Beobachtungen müssen unabhängig sein - Kovarianzmatrizen gleich - alle Variablen multivariat normalverteilt - Residuen normalverteilt chisplot(residuals(<your.model>)) Page 16 -Die MANOVA ist generell robust gegenüber Abweichung von den notwendigen Testvoraussetzungen. Bezüglich der Kovarianzmatrizen gilt, daß wenn die Gruppengröße der zu vergleichenden Stichproben relativ gleich ist (größtes n 1.5 * kleinstes n), dann haben Unterschiede zwischen den Kovarianzmatrizen nur geringe Auswirkung auf Pillais Trace. Hotelling-Lawley and Wilks werden mittelmäßig und Roy s Kriterium stark beeinflusst (Zar 1996). --> Was bedeutet in diesem Zusammenhang eigentlich beeinflussen? Nun, wir wollen bei unseren Tests fast immer die Nullhypothese verwerfen und dabei den Fehler 1.Art (Hypthese abgelehnt, obwohl sie richtig ist) minimieren. Falls die Testvoraussetzungen nicht zutreffen, kann es sein, dass wir annehmen, die Hypothese mit einer Sicherheitswahrscheinlichkeit von 5% zu überprüfen (nominal), obwohl sie real höher ist, z.b. 15%. Eine detaillierte Untersuchung der Auswirkung von Abweichungen von den Testvoraussetzungen mit Hinweisen für Anwender gibt es von Finch (2005), der zum Schluß kommt, dass in den meisten Fällen die parametrische MANOVA das leistungsstärkste Verfahren ist. 16

17 Klassifikation multivariater Methoden Anhand der Methoden Multivariate Vergleiche (Zentralmaße usw.) Multivariate Regression und Korrelation Klassifikation (Cluster- und Diskriminanzanalysen) Ordination Page 17 17

18 Multivariate Regression und Korrelation Univariate multiple Regression Response Var 1 Var 2 Var 3 Var 4 Var 5 Var 6Var 7Var Y i = 0 + k x i (k ) + E i k Multivariate multiple Regression Y i ( j ) = 0 ( j ) ( j ) (k + k x ) ( j ) k i + E i Response1 Response 2 Response 3 Var 1 Var 2 Var 3 Var 4 Var 5 Var 6 Var 7 Var Page 18 Aus methodischen Gründen wird die multivariate Korrelation, die auch als kanonische Korrelationsanalyse bezeichnet wird, später (im Zusammenhang mit der kanonischen Korrespondenzanalyse) behandelt. Das Ergebnis der multivariaten Regression ist identisch mit m univariaten Regressionen (m= Anzahl der abhängigen Variablen bzw. response variablen), aber zusätzlich erhalten wir die Kovarianzmatrix der Zufallsfehler und die Möglichkeit globale Hypothesen wie zum Beispiel Eine erklärende Variable hängt mit keiner abhängigen Variable zusammen zu überprüfen. 18

19 Multivariate Regression Durchführung mit gleichem Befehl wie univariate lm() aber abhängige Variablen als Matrix! lm(cbind(,..,..,) ~ ) lm( ~ ) drop1.lml() Überprüfen, ob bestimmte Var global entfernt werden kann summary.mreg() nettere Variante der summary.lm() Funktion Page 19 Die Durchführung einer multivariaten multiplen Regression ist insgesamt identisch mit einer univariaten. Zusätzlich können Hypothesen für alle Regressionen zusammen überprüft werden, zum Beispiel ob eine Variable niemals signifikant zur Erklärung des Modells beiträgt und somit entfernt werden kann. Eine spezielle Funktion hierfür findet sich auf der Seite der ETH-Zürich von Werner Stahel und lautet drop1.lml() (neben einer Reihe von anderen Funktionen) In der Funktion läuft im Endeffekt eine MANOVA für das Modell ab, d.h. die Ergebnisse sind mit einer MANOVA identisch. 19

20 Multivariate Regression Aufgaben 1. Lassen sich Uran und Aluminium durch Fe und Cu erklären? Welche erklärenden Variablen sind jeweils signifikant? 2. Erzeugen Sie mit rnorm() eine zusätzliche erklärende Variable und untersuchen Sie, inwiefern diese Variable signifikanten Erklärungswert hat. Vergleichen Sie dieses Ergebnis mit dem einer manova()! drop1.mlm() summary.mreg() Page 20 Der Code für die Funktionen wird für diesen Kurs bereitgestellt -> Dokument mvarreg.r 20

21 Multivariate Regression Modellannahmen - Erwartungswert von E i = 0 Identifizierbarkeit von - Zufallsabweichungen haben gleiche Residuen-plots Varianz Quantil-Residuen-plots - Zufallsabweichungen sind normalverteilt plot.regr() Page 21 Die Modellannahmen für den multivariaten Fall sind Generalisierungen der Annahmen für das univariate Modell. Sie können mit Diagrammen überprüft werden. Dabei dient die Festlegung der ersten Annahme (Erwartungswert der Residuen = 0) der Identifizierung der Koeffeizienten (betas), wir brauchen sie nicht näher zu betrachten. Zur Überprüfung der gleichen Varianz der Residuen können wir die Residuen gegen die angepaßten Modellwerte (fitted values) auftragen. Es sollte kein Muster in der Verteilung zu erkennen sein, also z.b. eine Zu- oder Abnahme der Abweichung. Die standardisierten Residuen werden berechnet, indem die normalen Residuen durch den geschätzten Standardfehler geteilt werden. Sie sind damit genauso skaliert wie die abhängige Variable und erlauben es, Punkte mit schlechtem Fit zu erkennen (ggf. Ausreißer). Die Normalverteilung der Residuen lässt sich mit Quantil-Residuenplots überprüfen. Außerdem interessiert auch, ob vielleicht einzelne Beobachtungen unserer erklärenden Variablen einen stärkeren Einfluss haben als andere. Das kann mit dem Plotten der Residuen gegen ihren Einfluss (leverage) dargestellt werden. In diesem Zusammenhang muß darauf hingewiesen werden, dass einflußreiche Beobachtungen nicht zwingend Ausreißer sind. Ausreißer sind Punkte, die nicht gut vom Modell erfasst werden (z.b. erkennbar in residuals vs. Fitted values plots), während einflußreiche Beobachtungen einen substantiellen Einfluss auf die Modellparameter haben. Ein Punkt kann sowohl beides sein als auch nur eines der beiden Merkmale aufweisen (oder natürlich keines). Bei der Funktion für den multivariaten Residuen plot.regr() wird neben den üblichen Modellprüfdiagrammen noch die Korrelation der verschiedenen Residuen auf die abhängigen Variablen untersucht. Dafür dienen die Werte der Kovarianzmatrix der Zufallsfehler und es lässt sich damit eine partielle Korrelation der abhängigen Variablen überprüfen. Außerdem wird noch ein Quantilplot für die zusammengefassten Residuen des Modells erstellt. 21

22 Multivariate Regression normal nicht-linear Page 22 starke Zunahme leichte Zunahme Wenn die Residuen nicht normalverteilt sind (Diagramm oben links) sondern abgebildete Muster aufweisen (Diagramme oben rechts und unten), deutet dies darauf hin, dass die Zielvariable ggf. transformiert oder die einzelnen Einganggrößen gewichtet werden sollten (weightedleast-squares regression). 22

23 Klassifikation multivariater Methoden Anhand der Methoden Multivariate Vergleiche (Zentralmaße usw.) Multivariate Regression und Korrelation Klassifikation (Cluster- und Diskriminanzanalysen) Ordination Page 23 Die bisherigen Abschnitte behandelten multivariate Themen, die große Ähnlichkeit mit den entsprechenden univariaten Methoden aufwiesen. Die beiden folgenden Abschnitte beschreiten ein neues Terrain, dass aus der univariaten Statistik nicht vertraut ist. Gleichwohl werden wir einige Techniken (multiple Regression oder ANOVA) auch hier wieder antreffen. Als erstes betrachten wir die Klassifikationsmethoden. Während man bei der Ordination versucht Entitäten entlang eines Gradienten zu platzieren, ist das Ziel der Clusteranalyse möglichst distinkte, homogene Gruppen aus den Entitäten zu bilden. Der Abschnitt ist unterteilt in die Cluster- und Diskriminanzanalyse. Bei der Diskriminanzanalyse beginnen wir a priori mit Gruppen und suchen Variablen, mit denen die Gruppen unterschieden werden können, während wir bei der Clusteranalyse nur die Existenz von Gruppen vermuten und diese erst erstellen. Es ist möglich, zuerst eine Clusteranalyse auszuführen und die aufgestellten Gruppen dann als Ausgangspunkt einer Diskriminanzanalyse zu verwenden. 23

24 Clusteranalysen -Suche nach homogenen Gruppen -Möglichst großer Unterschied zu anderen Gruppen Page 24 Im Diagramm links können wir für den bivariaten Fall distinkte Gruppen erkennen, während das im Diagramm rechts nicht möglich ist. Beispiele, wo eine Clusteranalyse hilfreich sein könnte: - Bildung von Ländergruppen anhand der vorhergesagten Auswirkungen des Klimawandels - Gruppierung von Stoffen mit ähnlicher Toxizität für einen bestimmten Testorganismus Während im bivariaten Fall die Cluster im Scatterplot erkannt werden können (siehe Diagramm links), empfehlen sich Clusteranalysen gerade im multivariaten Fall, da die Visualisierungsmöglichkeit von mehr als 3 Dimensionen begrenzt ist (allerdings versucht man genau dies mit Ordinationsmehtoden, zu denen wir später kommen). Natürlich gibt es auch Cluster, die weniger eindeutig sind, eine nette Übersicht findet sich in Mc Garigal (2000, S. 87). 24

25 Clusteranalysen Anwendungen -Datenaggregation -> verringern von noise -Identifizieren von Ausreißern -Beziehung zwischen Variablen visualisieren Page 25 Clusteranalysen können auch verwendet werden, um Ausreißer zu identifizieren. So könnte das Cluster rechts (blau) auch ohne den Messwert bei 160 cm gebildet werden und dieser Punkt würde dann ein Cluster mit nur einer einzelnen Beobachtung bilden. Die Beziehung zwischen Variablen können in einer Variablenclusteranalyse visualisiert werden. Ausgangspunkt ist die Korrelationsmatrix der Variablen. 25

26 Clusteranalysen Hauptproblem: viele verschiedene Möglichkeiten Stelle Art A Art B Art C Art D Page 26 Im folgenden wird das Hauptproblem der Clusteranalyse im multivariaten Fall dargestellt: In Abhängigkeit von der Gewichtung der einzelnen Variablen, kann man unterschiedliche Cluster bilden. 26

27 Clusteranalysen Hauptproblem: viele verschiedene Möglichkeiten Stelle Art A Art B Art C Art D Page 27 27

28 Clusteranalysen Hauptproblem: viele verschiedene Möglichkeiten Stelle Art A Art B Art C Art D Ergebnis der Analyse hängt von Technik ab Page 28 28

29 Clusteranalysen McGarigal (2000, p.90) Page 29 Abbildung aus Mc Garigal (2000, S. 90). Die gestrichelten Pfeile indizieren weniger relevante Techniken für die umweltwissenschaftliche oder ökologische Clusteranalyse. Sequential vs. Simultaneous: Bei sequenziellen Methoden werden rekursive Operationen wiederholt ausgeführt und die Cluster werden schrittweise gebildet. Bei simultanen Methoden wird in nur einem Schritt die Gruppenzugehörigkeit bestimmt. Nonhierarchical vs. Hierarchical: Bei nicht-hierarchischen Techniken werden z.b. k Cluster gebildet, die möglichst homogene Einheiten beinhalten, während bei hierarchischen Clustern eher der Unterschied und die Verhältnisse zwischen den Clustern von Interesse sind. 29

30 Clusteranalysen Gruppenbildung basiert auf Distanz oder Ähnlichkeiten Distanzmaße: Euklidische Distanz i d ij 2 = (x j1 x i1 ) 2 + (x j 2 x i2 ) 2 n d ij = (x ik x jk ) 2 d ij = n k =1 k =1 Manhattan Distanz x ik x jk Bray-Curtis Distanz d ij = n k =1 n k =1 j x ik x jk (x ik + x jk ) Page 30 Das Zusammenfassen von Entitäten zu Gruppen bzw. Clustern beruht auf der Distanz zwischen den Entitäten. Es gibt viele verschiedene Techniken, um die Distanz zwischen zwei Entitäten zu bestimmen. Die euklidische Distanz wird durch die Variablen mit den größten Abweichungen dominiert. Bei der Manhattan Distanz wird dieses Gewicht etwas abgeschwächt. Die Bray-Curtis Distanz reagiert stark auf Extremwerte und hat die schöne Eigenschaft nur Werte zwischen 0 und 1 anzunehmen, falls alle Werte für x positiv sind. Es gibt noch eine ganze Reihe weiterer Distanzmaße auf die hier nicht eingegangen werden kann, die aber auch in R implementiert sind. Als wichtige Maße sind noch der Jacquard-Index oder die Canberra- Distanz (eng verbunden mit der Bray-Curtis Distanz) sowie die Mahalanobis-Distanz (Beachte die Ähnlichkeit zur Berechnung von Hotellings T 2 ) zu nennen. Funktionen für Distanzmaße in R finden sich in den Funktionen: dist(), mahalanobis() und vegdist(){vegan}. Sie sind dort ausführlich beschrieben. Desweiteren wird eine Funktion zur Berechnung der Mahalanobis-Distanz zwischen Matrizen bereitgestellt. 30

31 Clusteranalysen Visualisierung mit 2 Arten Art B Stelle 3 Stelle 4 Distanzen d ij zwischen der Stelle 1 und dem Rest Stelle 1 Stelle 2 Art A Page 31 In dem Diagramm wird für den Fall von nur zwei Variablen (Art A und Art B) visualisiert, was die Distanz zwischen den verschiedenen Entitäten (Stellen in diesem Fall) bedeutet. 31

32 Clusteranalysen Aufgabe Veranschaulichen Sie sich die Unterschiede in den Distanzmaßen unter Berechnung der Euklidischen, Manhattan, Bray-Curtis und Mahalanobis-Distanz für folgende Matrix: Art Stelle Abundanz Page 32 Für die Berechnung der Mahalanobis-Distanz wird die Inverse der Varianz-Kovarianz-Matrix benötigt. Wie schon vorher erwähnt, existiert nicht für jede Matrix eine Inverse. Allerdings gibt es die Möglichkeit, Matrizen in andere Matrizen zu überführen, mit denen dann die Inverse berechnet werden kann (Einzelwertzerlegung, bei näherem Interesse siehe Dabei können die Elemente der Inversen allerdings auch negative Werte annehmen, was zu Problemen bei der Berechnung der Mahalanobis- Distanz führt. Deswegen verwenden wir den absoluten Wert der Inversen-Matrix. Bei den Berechnungen fällt auf, daß besonders die euklidische Distanz hohe Unterschiede zwischen den Stellen hervorbringt. Arten mit geringer Abundanz fallen kaum ins Gewicht, d.h. Art 1 dominiert die Berechnung der Distanzen zwischen den Stellen. Aus diesem Grund werden die Variablen bei Verwendung der euklidischen Distanz häufig standardisiert. Dabei wird der geschätzte Mittelwert abgezogen und durch die Standardabweichung geteilt. Dies ist in R mit der Funktion scale() implementiert. Desweiteren gibt es die Möglichkeit Distanzen mit dsvdis(){labdsv} zu berechnen und dort Gewichtungen nach Arten vorzunehmen. Die Mahalanobis-Distanz beruht auf der Kovarianzmatrix und wird durch Standardisierung der Variablen nicht beeinflusst. 32

33 Clusteranalysen Hierarchisches Clustering: Agglomerationsmethoden 1. Suchen nach der geringsten Distanz Page 33 Abbildung aus Mc Garigal (2000, S. 102) Die am häufigsten verwendete Methode in der Clusteranalyse ist das hierarchische Clustering mit der Agglomerationsmethode. Bei der Agglomeration bilden am Anfang alle Entitäten ein separates Cluster und werden in Abhängigkeit von ihrer Ähnlichkeit zu größeren Clustern verschmolzen. Im Gegensatz dazu stehen divisive Methoden, die mit einem Gesamtcluster beginnen und daraus neue, kleinere Cluster abspalten. 33

34 Clusteranalysen Hierarchisches Clustering: Agglomerationsmethoden 2. Berechnung der neuen Distanzen und wiederholen von Schritt 1 Page 34 Abbildung aus Mc Garigal (2000, S. 102) Ein wichtiges Unterscheidungsmerkmal beim Clustering stellt die Methode dar, nach der die neuen Distanzen im Clusterprozess neu berechnet werden. 34

35 Clusteranalysen Hierarchisches Clustering: Agglomerationsmethoden Page 35 Abbildung aus Mc Garigal (2000, S. 106) Die Methoden lassen sich in 3 Gruppen einteilen: Space-conserving: die ursprünglichen Distanzen der Entitäten werden konserviert -> hohe Korrelation zwischen den ursprünglichen Distanzen und den Distanzen nach der Agglomeration (die sich in der kophenetischen Matrix befinden). Methoden dieser Gruppe werden verwendet, wenn es darum geht, die Eigenschaften der Eingangsdaten beizubehalten. (Methoden sind z.b. Average linkage oder Ward s ) Space-contracting: Bei diesen Methoden werden Entitäten eher zu bestehenden Clustern hinzugefügt, auch wenn die Entitäten in den Clustern dadurch näher zusammenrücken als es bei den Ausgangsdaten der Fall war. Dieses Verfahren ist hilfreich um größere Diskontinuitäten in den Daten zu detektieren. (Mehtode z.b. Single linkage ) Space-dilating: Bei diesen Methoden werden die Abstände zwischen den Entitäten der Cluster minimiert. Das heißt es werden Cluster mit möglichst homogenen Mitgliedern gebildet. Das Verfahren kann dazu genutzt werden, um Entitäten mit möglichst ähnlichen Eigenschaften zusammenzufassen (Methode z.b. Complete linkage ). 35

36 Clusteranalysen Single-linkage Complete-linkage Clusterfunktion hclust() Ergebnismatrix der Clusterbildung cophenetic() Visualisieren von Clustern rect.hclust() Average linkage Festlegen von Clustern cutree() Page 36 Abbildung aus Everitt (2005, S. 119) In R können mit der Funktion hclust() für Dissimilaritätsmatrizen, die vorher mit dist() oder ähnlicher Funktion erzeugt wurden, Clusteranalysen durchgeführt werden. Die Methoden werden jeweils mit method =... spezifiziert und es stehen folgende Methoden zur Auswahl: ward", "single", "complete", "average", "mcquitty", "median" or "centroid. Die Methode Ward s minimum-variance ähnelt dem average linkage-verfahren, allerdings wird nicht die mittlere Distanz zwischen den Clustern minimiert, sondern die quadrierte Distanz, gewichtet nach der Clustergröße. Dadurch werden die Clustergrenzen enger gesetzt als bei der averagelinkage Methode. 36

37 Clusteranalysen Aufgabe 1. Laden Sie die Daten varespec im vegan- Package und führen Sie folgende Clusteranalysen durch: - single und complete linkage unter Nutzung der Bray-Curtis und Euklidischen Distanz. 2. Wie hoch sind die Übereinstimmungen zwischen den Eingangs-Distanzmatrizen und den kophenetischen Matrizen? hclust() cophenetic() cutree() plclust() rect.hclust() Page 37 Mit der Funktion rect.hclust können in bestehenden Clusterplots Cluster visualisiert werden. Dies kann anhand des maximalen Abstands (Entfernung der Cluster) oder durch Festlegen einer definierten Anzahl von Clustern geschehen. Ähnliches gilt für die Funktion cutree(). Weist man den labels in einem plot mit plclust() das Ergebnis von cutree zu, wird die Zugehörigkeit der einzelnen Entitäten im Plot visualisiert. 37

38 Clusteranalysen Page 38 In den Diagrammen sind die Ergebnisse der Clusterlösungen mit dem Bray-Curtis-Index für die single- (linke Abbildung) und complete linkage (rechte Abbildung) Methode gegenübergestellt. Dabei werden die Unterschiede zwischen den Methoden deutlich. Wir haben weit entfernte und kleine Cluster beim complete linkage gegenüber großen und nahen Clustern bei der single linkage.-methode (beachte auch die Skala!). 38

39 Clusteranalysen Hierarchisches Clustering: Agglomerationsmethoden Divise Methode diana() {cluster} Clustern von Variablen varclus() {Hmisc} Page 39 Das Hauptargument für das trennende (divisive) Clustering besteht darin, dass möglicherweise das Rauschen einzelner Variablen bei Aggregation verringert wird. Dieses Argument beruht auf der Annahme, das kleine Distanzen zwischen Entitäten eher auf zufälliges Rauschen zurückzuführen sind, während große Distanzen reale Gradienten signalisieren. Im Diagramm ist das Ergebnis eines Variablen-Clusterings dargestellt, dass für ca. 30 Umweltvariablen unter Wahl der Spearman-Korrelation als Distanzmaß durchgeführt wurde. Die Funktion varclus befindet sich im Package Hmisc, das Diagramm wird mit der normalen plot()- Funktion erzeugt. 39

40 Clusteranalysen Nicht-hierarchisches Clustering Problem: n k Anzahl möglicher Partitionen ,375,101 45,232,115, ,223,721,118,368, Algorithmus: 1. Aufteilung in k Gruppen 2. Bewegen der Einheiten und Veränderung berechnen 3. Beste Lösung wählen 4. Wiederholen von 2 und 3 bis Clusterkriterium keine Verbesserung mehr anzeigt Page 40 Neben den hierarchischen gibt es auch nicht-hierarchische Clustermethoden, bei denen der Datensatz in eine a priori definierte Anzahl von Gruppen aufgeteilt wird. Diese Methide wird auch als k- Mittelwerte- (k-means) Clustering bezeichnet. Das größte Problem stellt die hohe Anzahl von möglichen Clustern dar (siehe Tabelle - Kommas zeigen 1000er Stellen an). Als Gütekriterium für die bessere Clusterlösung wird am häufigsten die Summe der Abweichungsquadrate (vgl. euklidische Distanz) innerhalb der verschiedenen Cluster verwendet. Da es extrem viele Möglichkeiten der Partitionierung gibt, ist nicht gewährleistet, dass jeweils die beste Lösung gefunden wird. Der Algorithmus zum Auffinden dieser Lösung beginnt mit dem zufälligen Einteilen in die gewünschte Anzahl von Gruppen. Als Ausgangspunkt könnte aber auch das Ergebnis einer vorhergehenden hierarchischen Clusteranalyse verwendet werden. 40

Statistische Verfahren für das Data Mining in einem Industrieprojekt

Statistische Verfahren für das Data Mining in einem Industrieprojekt Statistische Verfahren für das Data Mining in einem Industrieprojekt Thorsten Dickhaus Forschungszentrum Jülich GmbH Zentralinstitut für Angewandte Mathematik Telefon: 02461/61-4193 E-Mail: th.dickhaus@fz-juelich.de

Mehr

Multivariate Statistik

Multivariate Statistik Hermann Singer Multivariate Statistik 1 Auflage 15 Oktober 2012 Seite: 12 KAPITEL 1 FALLSTUDIEN Abbildung 12: Logistische Regression: Geschätzte Wahrscheinlichkeit für schlechte und gute Kredite (rot/blau)

Mehr

Korrelation - Regression. Berghold, IMI

Korrelation - Regression. Berghold, IMI Korrelation - Regression Zusammenhang zwischen Variablen Bivariate Datenanalyse - Zusammenhang zwischen 2 stetigen Variablen Korrelation Einfaches lineares Regressionsmodell 1. Schritt: Erstellung eines

Mehr

Multivariate Analysemethoden

Multivariate Analysemethoden Multivariate Analysemethoden 30.04.2014 Günter Meinhardt Johannes Gutenberg Universität Mainz Einführung Was sind multivariate Analysemethoden? Vorlesung Übung/Tut Prüfung Verfahrensdarstellung in Überblick

Mehr

Einführung in die Cluster-Analyse mit SAS

Einführung in die Cluster-Analyse mit SAS Einführung in die Cluster-Analyse mit SAS Benutzertreffen am URZ Carina Ortseifen 4. Juli 2003 Inhalt 1. Clusteranalyse im allgemeinen Definition, Distanzmaße, Gruppierung, Kriterien 2. Clusteranalyse

Mehr

2. Deskriptive Statistik 2.1. Häufigkeitstabellen, Histogramme, empirische Verteilungsfunktionen

2. Deskriptive Statistik 2.1. Häufigkeitstabellen, Histogramme, empirische Verteilungsfunktionen 4. Datenanalyse und Modellbildung Deskriptive Statistik 2-1 2. Deskriptive Statistik 2.1. Häufigkeitstabellen, Histogramme, empirische Verteilungsfunktionen Für die Auswertung einer Messreihe, die in Form

Mehr

Diskriminanzanalyse Beispiel

Diskriminanzanalyse Beispiel Diskriminanzanalyse Ziel bei der Diskriminanzanalyse ist die Analyse von Gruppenunterschieden, d. h. der Untersuchung von zwei oder mehr Gruppen hinsichtlich einer Vielzahl von Variablen. Diese Methode

Mehr

25. Januar 2010. Ruhr-Universität Bochum. Methodenlehre III, WS 2009/2010. Prof. Dr. Holger Dette. 4. Multivariate Mittelwertvergleiche

25. Januar 2010. Ruhr-Universität Bochum. Methodenlehre III, WS 2009/2010. Prof. Dr. Holger Dette. 4. Multivariate Mittelwertvergleiche Ruhr-Universität Bochum 25. Januar 2010 1 / 75 2 / 75 4.1 Beispiel: Vergleich von verschiedenen Unterrichtsmethoden Zwei Zufallsstichproben (A und B) mit je 10 Schülern und 8 Schülern Gruppe A wird nach

Mehr

Multivariate Verfahren

Multivariate Verfahren Selbstkontrollarbeit 2 Multivariate Verfahren Musterlösung Aufgabe 1 (28 Punkte) Der Marketing-Leiter einer Lebensmittelherstellers möchte herausfinden, mit welchem Richtpreis eine neue Joghurt-Marke auf

Mehr

Inhaltsverzeichnis. Regressionsanalyse. http://mesosworld.ch - Stand vom: 20.1.2010 1

Inhaltsverzeichnis. Regressionsanalyse. http://mesosworld.ch - Stand vom: 20.1.2010 1 Inhaltsverzeichnis Regressionsanalyse... 2 Lernhinweise... 2 Einführung... 2 Theorie (1-8)... 2 1. Allgemeine Beziehungen... 3 2. 'Best Fit'... 3 3. 'Ordinary Least Squares'... 4 4. Formel der Regressionskoeffizienten...

Mehr

Übungsserie Nr. 10 mit Lösungen

Übungsserie Nr. 10 mit Lösungen Übungsserie Nr. 10 mit Lösungen 1 Ein Untersuchungsdesign sieht einen multivariaten Vergleich einer Stichprobe von Frauen mit einer Stichprobe von Männern hinsichtlich der Merkmale X1, X2 und X3 vor (Codierung:

Mehr

Regressionsanalysen. Zusammenhänge von Variablen. Ziel der Regression. ( Idealfall )

Regressionsanalysen. Zusammenhänge von Variablen. Ziel der Regression. ( Idealfall ) Zusammenhänge von Variablen Regressionsanalysen linearer Zusammenhang ( Idealfall ) kein Zusammenhang nichtlinearer monotoner Zusammenhang (i.d.regel berechenbar über Variablentransformationen mittels

Mehr

Multiple Regression. Ziel: Vorhersage der Werte einer Variable (Kriterium) bei Kenntnis der Werte von zwei oder mehr anderen Variablen (Prädiktoren)

Multiple Regression. Ziel: Vorhersage der Werte einer Variable (Kriterium) bei Kenntnis der Werte von zwei oder mehr anderen Variablen (Prädiktoren) Multiple Regression 1 Was ist multiple lineare Regression? Ziel: Vorhersage der Werte einer Variable (Kriterium) bei Kenntnis der Werte von zwei oder mehr anderen Variablen (Prädiktoren) Annahme: Der Zusammenhang

Mehr

2. Korrelation, lineare Regression und multiple Regression

2. Korrelation, lineare Regression und multiple Regression multiple 2.2 Lineare 2.2 Lineare 1 / 130 2.2 Lineare 2 / 130 2.1 Beispiel: Arbeitsmotivation Untersuchung zur Motivation am Arbeitsplatz in einem Chemie-Konzern 25 Personen werden durch Arbeitsplatz zufällig

Mehr

Multivariate Verfahren

Multivariate Verfahren Multivariate Verfahren Lineare Reression Zweck: Vorhersae Dimensionsreduktion Klassifizierun Hauptkomponentenanalyse Korrespondenzanalyse Clusteranalyse Diskriminanzanalyse Eienschaften: nicht-linear verteilunsfrei

Mehr

8. Methoden der klassischen multivariaten Statistik

8. Methoden der klassischen multivariaten Statistik 8. Methoden der klassischen multivariaten Statistik 8.1. Darstellung von Daten Voraussetzungen auch in diesem Kapitel: Grundgesamtheit (Datenraum) Ω von Objekten (Fällen, Instanzen), denen J-Tupel von

Mehr

Institut für Soziologie. Methoden 2. Regressionsanalyse I: Einfache lineare Regression

Institut für Soziologie. Methoden 2. Regressionsanalyse I: Einfache lineare Regression Institut für Soziologie Methoden 2 Regressionsanalyse I: Einfache lineare Regression Programm Anwendungsbereich Vorgehensweise Interpretation Annahmen Zusammenfassung Übungsaufgabe Literatur # 2 Anwendungsbereich

Mehr

Bachelorabschlussseminar Dipl.-Kfm. Daniel Cracau

Bachelorabschlussseminar Dipl.-Kfm. Daniel Cracau 1 Einführung in die statistische Datenanalyse Bachelorabschlussseminar Dipl.-Kfm. Daniel Cracau 2 Gliederung 1.Grundlagen 2.Nicht-parametrische Tests a. Mann-Whitney-Wilcoxon-U Test b. Wilcoxon-Signed-Rank

Mehr

Auswertung mit dem Statistikprogramm SPSS: 30.11.05

Auswertung mit dem Statistikprogramm SPSS: 30.11.05 Auswertung mit dem Statistikprogramm SPSS: 30.11.05 Seite 1 Einführung SPSS Was ist eine Fragestellung? Beispiel Welche statistische Prozedur gehört zu welcher Hypothese? Statistische Berechnungen mit

Mehr

Eine computergestützte Einführung mit

Eine computergestützte Einführung mit Thomas Cleff Deskriptive Statistik und Explorative Datenanalyse Eine computergestützte Einführung mit Excel, SPSS und STATA 3., überarbeitete und erweiterte Auflage ^ Springer Inhaltsverzeichnis 1 Statistik

Mehr

12. Vergleich mehrerer Stichproben

12. Vergleich mehrerer Stichproben 12. Vergleich mehrerer Stichproben Dr. Antje Kiesel Institut für Angewandte Mathematik WS 2011/2012 Häufig wollen wir verschiedene Populationen, Verfahren, usw. miteinander vergleichen. Beipiel: Vergleich

Mehr

1,11 1,12 1,13 1,14 1,15 1,16 1,17 1,17 1,17 1,18

1,11 1,12 1,13 1,14 1,15 1,16 1,17 1,17 1,17 1,18 3. Deskriptive Statistik Ziel der deskriptiven (beschreibenden) Statistik (explorativen Datenanalyse) ist die übersichtliche Darstellung der wesentlichen in den erhobenen Daten enthaltene Informationen

Mehr

Multinomiale logistische Regression

Multinomiale logistische Regression Multinomiale logistische Regression Die multinomiale logistische Regression dient zur Schätzung von Gruppenzugehörigkeiten bzw. einer entsprechenden Wahrscheinlichkeit hierfür, wobei als abhänginge Variable

Mehr

9. Schätzen und Testen bei unbekannter Varianz

9. Schätzen und Testen bei unbekannter Varianz 9. Schätzen und Testen bei unbekannter Varianz Dr. Antje Kiesel Institut für Angewandte Mathematik WS 2011/2012 Schätzen und Testen bei unbekannter Varianz Wenn wir die Standardabweichung σ nicht kennen,

Mehr

Umweltmonitoring Datenverarbeitung 1, Teil 2: Statistische Verfahren der Datenanalyse

Umweltmonitoring Datenverarbeitung 1, Teil 2: Statistische Verfahren der Datenanalyse Umweltmonitoring Datenverarbeitung 1, Teil 2: Statistische Verfahren der Datenanalyse Roland Stigge stigge@informatik.hu-berlin.de Humboldt Universität zu Berlin 9. Januar 2003 Umweltmonitoring: Statistische

Mehr

Modul G.1 WS 07/08: Statistik 17.01.2008 1. Die Korrelation ist ein standardisiertes Maß für den linearen Zusammenhangzwischen zwei Variablen.

Modul G.1 WS 07/08: Statistik 17.01.2008 1. Die Korrelation ist ein standardisiertes Maß für den linearen Zusammenhangzwischen zwei Variablen. Modul G.1 WS 07/08: Statistik 17.01.2008 1 Wiederholung Kovarianz und Korrelation Kovarianz = Maß für den linearen Zusammenhang zwischen zwei Variablen x und y Korrelation Die Korrelation ist ein standardisiertes

Mehr

Einseitig gerichtete Relation: Mit zunehmender Höhe über dem Meeresspiegel sinkt im allgemeinen die Lufttemperatur.

Einseitig gerichtete Relation: Mit zunehmender Höhe über dem Meeresspiegel sinkt im allgemeinen die Lufttemperatur. Statistik Grundlagen Charakterisierung von Verteilungen Einführung Wahrscheinlichkeitsrechnung Wahrscheinlichkeitsverteilungen Schätzen und Testen Korrelation Regression Einführung Die Analyse und modellhafte

Mehr

Einführung in SPSS. 1. Die Datei Seegräser

Einführung in SPSS. 1. Die Datei Seegräser Einführung in SPSS 1. Die Datei Seegräser An 25 verschiedenen Probestellen wurde jeweils die Anzahl der Seegräser pro m 2 gezählt und das Vorhandensein von Seeigeln vermerkt. 2. Programmaufbau Die wichtigsten

Mehr

Das Dialogfeld für die Regressionsanalyse ("Lineare Regression") findet sich im Statistik- Menu unter "Regression"-"Linear":

Das Dialogfeld für die Regressionsanalyse (Lineare Regression) findet sich im Statistik- Menu unter Regression-Linear: Lineare Regression Das Dialogfeld für die Regressionsanalyse ("Lineare Regression") findet sich im Statistik- Menu unter "Regression"-"Linear": Im einfachsten Fall werden mehrere Prädiktoren (oder nur

Mehr

Varianzanalyse ANOVA

Varianzanalyse ANOVA Varianzanalyse ANOVA Johannes Hain Lehrstuhl für Mathematik VIII Statistik 1/23 Einfaktorielle Varianzanalyse (ANOVA) Bisher war man lediglich in der Lage, mit dem t-test einen Mittelwertsvergleich für

Mehr

90-minütige Klausur Statistik für Studierende der Kommunikationswissenschaft

90-minütige Klausur Statistik für Studierende der Kommunikationswissenschaft Prof. Dr. Helmut Küchenhoff SS08 90-minütige Klausur Statistik für Studierende der Kommunikationswissenschaft am 22.7.2008 Anmerkungen Überprüfen Sie bitte sofort, ob Ihre Angabe vollständig ist. Sie sollte

Mehr

Kommentierter SPSS-Output für die multiple Regressionsanalyse (SPSS-Version 17)

Kommentierter SPSS-Output für die multiple Regressionsanalyse (SPSS-Version 17) R.Niketta Multiple Regressionsanalyse Kommentierter SPSS-Output für die multiple Regressionsanalyse (SPSS-Version 17) Daten: Selbstdarstellung und Kontaktsuche in studi.vz (POK VIII, AG 3) Fragestellung:

Mehr

Faktorenanalyse. 1. Grundlegende Verfahren. Bacher, SoSe2007

Faktorenanalyse. 1. Grundlegende Verfahren. Bacher, SoSe2007 Faktorenanalyse Bacher, SoSe2007 1. Grundlegende Verfahren explorative FA (EXFA): Für eine Menge von Variablen/Items werden zugrunde liegende gemeinsame (latente) Dimensionen/Faktoren gesucht, die Faktorstruktur

Mehr

Einführung in die Vektor- und Matrizenrechnung. Matrizen

Einführung in die Vektor- und Matrizenrechnung. Matrizen Einführung in die Vektor- und Matrizenrechnung Matrizen Definition einer Matrix Unter einer (reellen) m x n Matrix A versteht man ein rechteckiges Schema aus reellen Zahlen, die wie folgt angeordnet sind:

Mehr

Hans-Friedrich Eckey SS 2004. Skript zur Lehrveranstaltung Multivariate Statistik

Hans-Friedrich Eckey SS 2004. Skript zur Lehrveranstaltung Multivariate Statistik Hans-Friedrich Eckey SS 2004 Skript zur Lehrveranstaltung Multivariate Statistik Vormerkungen I Vorbemerkungen Das Manuskript beinhaltet den gesamten Stoff, der Bestandteil der Lehrveranstaltung "Multivariate

Mehr

Inhaltsverzeichnis. Fragestellungen und Methoden 11. Vorwort 15. Kapitel 1 Einführung 17. Kapitel 2 Statistische Grundbegriffe 23

Inhaltsverzeichnis. Fragestellungen und Methoden 11. Vorwort 15. Kapitel 1 Einführung 17. Kapitel 2 Statistische Grundbegriffe 23 Fragestellungen und Methoden 11 Vorwort 15 Kapitel 1 Einführung 17 1.1 KonzeptiondesBuchs... 18 1.2 AufbaudesBuchs... 19 1.3 Programmversionen von PASW bzw. SPSS..... 20 1.4 WiekanndiesesBuchverwendetwerden?...

Mehr

29. Mai 2006. 5. Bei Unterschleif gilt die Klausur als nicht bestanden und es erfolgt eine Meldung an das Prüfungsamt.

29. Mai 2006. 5. Bei Unterschleif gilt die Klausur als nicht bestanden und es erfolgt eine Meldung an das Prüfungsamt. L. Fahrmeir, C. Belitz Department für Statistik Bitte für die Korrektur freilassen! Aufgabe 1 2 3 4 Punkte Klausur zur Vorlesung Statistik III für Studenten mit Wahlfach Statistik 29. Mai 2006 Hinweise:

Mehr

Univariate Lineare Regression. (eine unabhängige Variable)

Univariate Lineare Regression. (eine unabhängige Variable) Univariate Lineare Regression (eine unabhängige Variable) Lineare Regression y=a+bx Präzise lineare Beziehung a.. Intercept b..anstieg y..abhängige Variable x..unabhängige Variable Lineare Regression y=a+bx+e

Mehr

Übungen zur Ingenieur-Mathematik III WS 2009/10 Blatt 10 21.12.2009

Übungen zur Ingenieur-Mathematik III WS 2009/10 Blatt 10 21.12.2009 Übungen zur Ingenieur-Mathematik III WS 2009/10 Blatt 10 21.12.2009 Aufgabe 35: Thema: Singulärwertzerlegung und assoziierte Unterräume Sei A eine m n Matrix mit Rang r und A = UDV T ihre Singulärwertzerlegung.

Mehr

Statistik und Wahrscheinlichkeitsrechnung

Statistik und Wahrscheinlichkeitsrechnung Statistik und Wahrscheinlichkeitsrechnung Übung 2 28.02.2008 1 Inhalt der heutigen Übung Beschreibende Statistik Gemeinsames Lösen der Übungsaufgaben 2.1: Häufigkeitsverteilung 2.2: Tukey Boxplot 25:Korrelation

Mehr

Häufigkeitstabellen. Balken- oder Kreisdiagramme. kritischer Wert für χ2-test. Kontingenztafeln

Häufigkeitstabellen. Balken- oder Kreisdiagramme. kritischer Wert für χ2-test. Kontingenztafeln Häufigkeitstabellen Menüpunkt Data PivotTable Report (bzw. entsprechendes Icon): wähle Data Range (Zellen, die die Daten enthalten + Zelle mit Variablenname) wähle kategoriale Variable für Spalten- oder

Mehr

Computer Vision: 3D-Geometrie. D. Schlesinger () Computer Vision: 3D-Geometrie 1 / 17

Computer Vision: 3D-Geometrie. D. Schlesinger () Computer Vision: 3D-Geometrie 1 / 17 Computer Vision: 3D-Geometrie D. Schlesinger () Computer Vision: 3D-Geometrie 1 / 17 Lochkamera Modell C Projektionszentrum, Optische Achse, Bildebene, P Hauptpunkt (optische Achse kreuzt die Bildebene),

Mehr

Angewandte Ökonometrie, WS 2012/13, 1. Teilprüfung am 6.12.2012 - Lösungen. Das folgende Modell ist ein GARCH(1,1)-Modell:

Angewandte Ökonometrie, WS 2012/13, 1. Teilprüfung am 6.12.2012 - Lösungen. Das folgende Modell ist ein GARCH(1,1)-Modell: Angewandte Ökonometrie, WS 2012/13, 1. Teilprüfung am 6.12.2012 - Lösungen LV-Leiterin: Univ.Prof.Dr. Sylvia Frühwirth-Schnatter 1 Wahr oder falsch? 1. Das folgende Modell ist ein GARCH(1,1)-Modell: Y

Mehr

Lineare Algebra - alles was man wissen muß

Lineare Algebra - alles was man wissen muß Statistik für Bioinformatiker SoSe 3 Rainer Spang Lineare Algebra - alles was man wissen muß Der Titel ist natürlich gelogen, aber was wir hier zusammengetragen haben ist zumindest ein Anfang. Weniger

Mehr

OPERATIONS-RESEARCH (OR)

OPERATIONS-RESEARCH (OR) OPERATIONS-RESEARCH (OR) Man versteht darunter die Anwendung mathematischer Methoden und Modelle zur Vorbereitung optimaler Entscheidungen bei einem Unternehmen. Andere deutsche und englische Bezeichnungen:

Mehr

Neuerungen in Minitab 16

Neuerungen in Minitab 16 Neuerungen in Minitab 16 minitab@additive-net.de - Telefon: 06172 / 5905-30 Willkommen zu Minitab 16! Die neueste Version der Minitab Statistical Software umfasst mehr als siebzig neue Funktionen und Verbesserungen,

Mehr

Elemente der Analysis II

Elemente der Analysis II Elemente der Analysis II Kapitel 3: Lineare Abbildungen und Gleichungssysteme Informationen zur Vorlesung: http://www.mathematik.uni-trier.de/ wengenroth/ J. Wengenroth () 15. Mai 2009 1 / 35 3.1 Beispiel

Mehr

Grundlagen quantitativer Sozialforschung Interferenzstatistische Datenanalyse in MS Excel

Grundlagen quantitativer Sozialforschung Interferenzstatistische Datenanalyse in MS Excel Grundlagen quantitativer Sozialforschung Interferenzstatistische Datenanalyse in MS Excel 16.11.01 MP1 - Grundlagen quantitativer Sozialforschung - (4) Datenanalyse 1 Gliederung Datenanalyse (inferenzstatistisch)

Mehr

6. METRISCHE UND KATEGORIALE MERKMALE

6. METRISCHE UND KATEGORIALE MERKMALE 6. METRISCHE UND KATEGORIALE MERKMALE wenn an einer Beobachtungseinheit eine (oder mehrere) metrische und eine (oder mehrere) kategoriale Variable(n) erhoben wurden Beispiel: Haushaltsarbeit von Teenagern

Mehr

3.2 Bivariate Verteilungen

3.2 Bivariate Verteilungen 3.2 Bivariate Verteilungen zwei Variablen X, Y werden gemeinsam betrachtet (an jedem Objekt i, i = 1,..., n, werden gleichzeitig zwei Merkmale beobachtet) Beobachtungswerte sind Paare/Kombinationen von

Mehr

Varianzanalytische Methoden Zweifaktorielle Versuchspläne 4/13. Durchführung in SPSS (File Trait Angst.sav)

Varianzanalytische Methoden Zweifaktorielle Versuchspläne 4/13. Durchführung in SPSS (File Trait Angst.sav) Zweifaktorielle Versuchspläne 4/13 Durchführung in SPSS (File Trait Angst.sav) Analysieren > Allgemeines Lineares Modell > Univariat Zweifaktorielle Versuchspläne 5/13 Haupteffekte Geschlecht und Gruppe

Mehr

Lösung zu Kapitel 11: Beispiel 1

Lösung zu Kapitel 11: Beispiel 1 Lösung zu Kapitel 11: Beispiel 1 Eine Untersuchung bei 253 Personen zur Kundenzufriedenheit mit einer Einzelhandelskette im Südosten der USA enthält Variablen mit sozialstatistischen Daten der befragten

Mehr

Analog zu Aufgabe 16.1 werden die Daten durch folgenden Befehl eingelesen: > kredit<-read.table("c:\\compaufg\\kredit.

Analog zu Aufgabe 16.1 werden die Daten durch folgenden Befehl eingelesen: > kredit<-read.table(c:\\compaufg\\kredit. Lösung 16.3 Analog zu Aufgabe 16.1 werden die Daten durch folgenden Befehl eingelesen: > kredit

Mehr

Inhaltsverzeichnis. I Einführung in STATISTICA 1. 1 Erste Schritte in STATISTICA 3

Inhaltsverzeichnis. I Einführung in STATISTICA 1. 1 Erste Schritte in STATISTICA 3 I Einführung in STATISTICA 1 1 Erste Schritte in STATISTICA 3 2 Datenhaltung in STATISTICA 11 2.1 Die unterschiedlichen Dateitypen in STATISTICA....... 11 2.2 Import von Daten......... 12 2.3 Export von

Mehr

Allgemeine Regressionsanalyse. Kovariablen / Prädiktoren / unabhängige Variablen X j R d, evtl. deterministisch

Allgemeine Regressionsanalyse. Kovariablen / Prädiktoren / unabhängige Variablen X j R d, evtl. deterministisch Prof. Dr. J. Franke Statistik II für Wirtschaftswissenschaftler 9.1 Allgemeine Regressionsanalyse Daten (X j, Y j ), j = 1,..., N unabhängig Kovariablen / Prädiktoren / unabhängige Variablen X j R d, evtl.

Mehr

26. GIL Jahrestagung

26. GIL Jahrestagung GeorgAugustUniversität Göttingen 26. GIL Jahrestagung Einsatz von künstlichen Neuronalen Netzen im Informationsmanagement der Land und Ernährungswirtschaft: Ein empirischer Methodenvergleich Holger Schulze,

Mehr

Marktliquidität von Aktien

Marktliquidität von Aktien Marktliquidität von Aktien Inauguraldissertation zur Erlangung der Würde eines Doctor rerum oeconomicarum der Wirtschafts- und Sozialwissenschaftlichen Fakultät der Universität Bern Lukas Roth Die Fakultät

Mehr

Einfache Statistiken in Excel

Einfache Statistiken in Excel Einfache Statistiken in Excel Dipl.-Volkswirtin Anna Miller Bergische Universität Wuppertal Schumpeter School of Business and Economics Lehrstuhl für Internationale Wirtschaft und Regionalökonomik Raum

Mehr

Termin3 Klassifikation multispektraler Daten unüberwachte Verfahren

Termin3 Klassifikation multispektraler Daten unüberwachte Verfahren Ziel Termin3 Klassifikation multispektraler Daten unüberwachte Verfahren Einteilung (=Klassifikation) der Pixel eines multispektralen Datensatzes in eine endliche Anzahl von Klassen. Es sollen dabei versucht

Mehr

Willkommen zur Vorlesung Statistik

Willkommen zur Vorlesung Statistik Willkommen zur Vorlesung Statistik Thema dieser Vorlesung: Varianzanalyse Prof. Dr. Wolfgang Ludwig-Mayerhofer Universität Siegen Philosophische Fakultät, Seminar für Sozialwissenschaften Prof. Dr. Wolfgang

Mehr

Tabelle 6a: Deskriptive Statistiken der metrischen Variablen

Tabelle 6a: Deskriptive Statistiken der metrischen Variablen Ergebnisse 77 5 Ergebnisse Das folgende Kapitel widmet sich der statistischen Auswertung der Daten zur Ü- berprüfung der Hypothesen. Die hier verwendeten Daten wurden mit den in 4.3 beschriebenen Instrumenten

Mehr

KAPITEL 4. Lineare Ausgleichsrechnung Beispiel 4.1. Das Ohmsche Gesetz: U = RI. Eine Meßreihe von Daten:

KAPITEL 4. Lineare Ausgleichsrechnung Beispiel 4.1. Das Ohmsche Gesetz: U = RI. Eine Meßreihe von Daten: KAPITEL 4 Lineare Ausgleichsrechnung Beispiel 41 Das Ohmsche Gesetz: Eine Meßreihe von Daten: U = RI (U i, I i ) (Spannung, Stromstärke), i = 1,, m Aufgabe: man bestimme aus diesen Meßdaten den Widerstand

Mehr

Univariate/ multivariate Ansätze. Klaus D. Kubinger. Test- und Beratungsstelle. Effektgrößen

Univariate/ multivariate Ansätze. Klaus D. Kubinger. Test- und Beratungsstelle. Effektgrößen Univariate/ multivariate Ansätze Klaus D. Kubinger Effektgrößen Rasch, D. & Kubinger, K.D. (2006). Statistik für das Psychologiestudium Mit Softwareunter-stützung zur Planung und Auswertung von Untersuchungen

Mehr

PRAKTIKUM Experimentelle Prozeßanalyse 2. VERSUCH AS-PA-2 "Methoden der Modellbildung statischer Systeme" Teil 2 (für ausgewählte Masterstudiengänge)

PRAKTIKUM Experimentelle Prozeßanalyse 2. VERSUCH AS-PA-2 Methoden der Modellbildung statischer Systeme Teil 2 (für ausgewählte Masterstudiengänge) FACHGEBIET Systemanalyse PRAKTIKUM Experimentelle Prozeßanalyse 2 VERSUCH AS-PA-2 "Methoden der Modellbildung statischer Systeme" Teil 2 (für ausgewählte Masterstudiengänge) Verantw. Hochschullehrer: Prof.

Mehr

Webergänzung zu Kapitel 10

Webergänzung zu Kapitel 10 Webergänzung zu Kapitel 10 10.1.4 Varianzanalyse (ANOVA: analysis of variance) Im Kapitel 10 haben wir uns hauptsächlich mit Forschungsbeispielen beschäftigt, die nur zwei Ergebnissätze hatten (entweder

Mehr

Anhang A: Fragebögen und sonstige Unterlagen

Anhang A: Fragebögen und sonstige Unterlagen Anhang Anhang A: Fragebögen und sonstige Unterlagen A.: Flyer zur Probandenrekrutierung 46 A.: Fragebogen zur Meditationserfahrung 47 48 A.3: Fragebogen Angaben zur Person 49 5 5 A.4: Termin- und Einladungsschreiben

Mehr

9 Resümee. Resümee 216

9 Resümee. Resümee 216 Resümee 216 9 Resümee In der vorliegenden Arbeit werden verschiedene Methoden der Datenreduktion auf ihre Leistungsfähigkeit im sozialwissenschaftlichstatistischen Umfeld anhand eines konkreten Anwendungsfalls

Mehr

(2) Mittels welcher Methode ist es im ALM möglich kategoriale Variablen als Prädiktoren in eine Regressionsgleichung zu überführen?

(2) Mittels welcher Methode ist es im ALM möglich kategoriale Variablen als Prädiktoren in eine Regressionsgleichung zu überführen? Beispielaufgaben LÖSUNG (1) Grenzen Sie eine einfache lineare Regression von einem Random Intercept Modell mit nur einem Level1-Prädiktor ab! a. Worin unterscheiden sich die Voraussetzungen? - MLM braucht

Mehr

Statistische Methoden: Tests, Regression und multivariate Verfahren

Statistische Methoden: Tests, Regression und multivariate Verfahren (CM)²-Nachwuchsring, Workshop Statistik, 25.Januar 2013 Statistische Methoden: Tests, Regression und multivariate Verfahren Ralf Korn ((CM)², TU Kaiserslautern, Fraunhofer ITWM) 0. Einige Probleme aus

Mehr

Klausur zur Vorlesung Statistik III für Studenten mit dem Wahlfach Statistik

Klausur zur Vorlesung Statistik III für Studenten mit dem Wahlfach Statistik Ludwig Fahrmeir, Nora Fenske Institut für Statistik Bitte für die Korrektur freilassen! Aufgabe 1 2 3 4 Punkte Klausur zur Vorlesung Statistik III für Studenten mit dem Wahlfach Statistik 29. März 21 Hinweise:

Mehr

SFB 833 Bedeutungskonstitution. Kompaktkurs. Datenanalyse. Projekt Z2 Tübingen, Mittwoch, 18. und 20. März 2015

SFB 833 Bedeutungskonstitution. Kompaktkurs. Datenanalyse. Projekt Z2 Tübingen, Mittwoch, 18. und 20. März 2015 SFB 833 Bedeutungskonstitution Kompaktkurs Datenanalyse Projekt Z2 Tübingen, Mittwoch, 18. und 20. März 2015 Messen und Skalen Relativ (Relationensystem): Menge A von Objekten und eine oder mehrere Relationen

Mehr

Prof. Dr. Gabriele Helga Franke TESTTHEORIE UND TESTKONSTRUKTION

Prof. Dr. Gabriele Helga Franke TESTTHEORIE UND TESTKONSTRUKTION Prof. Dr. Gabriele Helga Franke TESTTHEORIE UND TESTKONSTRUKTION 2. FS Master Rehabilitationspsychologie, SoSe 2012 Faktorenanalyse/ faktorielle Validität 2 Einleitung Allgemeines zu Faktorenanalysen (FA)

Mehr

Modellbildung und Simulation

Modellbildung und Simulation Modellbildung und Simulation 5. Vorlesung Wintersemester 2007/2008 Klaus Kasper Value at Risk (VaR) Glossar Portfolio: In der Ökonomie bezeichnet der Begriff Portfolio ein Bündel von Investitionen, das

Mehr

Weitere (wählbare) Kontraste in der SPSS Prozedur Allgemeines Lineares Modell

Weitere (wählbare) Kontraste in der SPSS Prozedur Allgemeines Lineares Modell Einfaktorielle Versuchspläne 27/40 Weitere (wählbare) Kontraste in der SPSS Prozedur Allgemeines Lineares Modell Abweichung Einfach Differenz Helmert Wiederholt Vergleich Jede Gruppe mit Gesamtmittelwert

Mehr

Standardab er des. Testwert = 145.5 95% Konfidenzintervall. T df Sig. (2-seitig) Differenz Untere Obere -2.011 698.045-5.82-11.50 -.14.

Standardab er des. Testwert = 145.5 95% Konfidenzintervall. T df Sig. (2-seitig) Differenz Untere Obere -2.011 698.045-5.82-11.50 -.14. Aufgabe : einfacher T-Test Statistik bei einer Stichprobe Standardfehl Standardab er des Mittelwert weichung Mittelwertes 699 39.68 76.59 2.894 Test bei einer Sichprobe Testwert = 45.5 95% Konfidenzintervall

Mehr

Modellierung von Korrelationen zwischen Kreditausfallraten für Kreditportfolios. Bernd Rosenow, 3. Kölner Workshop Quantitative Finanzmarktforschung

Modellierung von Korrelationen zwischen Kreditausfallraten für Kreditportfolios. Bernd Rosenow, 3. Kölner Workshop Quantitative Finanzmarktforschung Modellierung von Korrelationen zwischen Kreditausfallraten für Kreditportfolios Bernd Rosenow Rafael Weißhaupt Frank Altrock Universität zu Köln West LB AG, Düsseldorf Gliederung Beschreibung des Datensatzes

Mehr

Kernel, Perceptron, Regression. Erich Schubert, Arthur Zimek. 2014-07-20 KDD Übung

Kernel, Perceptron, Regression. Erich Schubert, Arthur Zimek. 2014-07-20 KDD Übung Kernel, Perceptron, Regression Erich Schubert, Arthur Zimek Ludwig-Maximilians-Universität München 2014-07-20 KDD Übung Kernel-Fukctionen Kernel kann mehrdeutig sein! Unterscheidet zwischen: Kernel function

Mehr

Allgemeines Lineares Modell: Univariate Varianzanalyse und Kovarianzanalyse

Allgemeines Lineares Modell: Univariate Varianzanalyse und Kovarianzanalyse Allgemeines Lineares Modell: Univariate Varianzanalyse und Kovarianzanalyse Univariate Varianz- und Kovarianzanlyse, Multivariate Varianzanalyse und Varianzanalyse mit Messwiederholung finden sich unter

Mehr

Lineare Modelle in R: Einweg-Varianzanalyse

Lineare Modelle in R: Einweg-Varianzanalyse Lineare Modelle in R: Einweg-Varianzanalyse Achim Zeileis 2009-02-20 1 Datenaufbereitung Wie schon in der Vorlesung wollen wir hier zur Illustration der Einweg-Analyse die logarithmierten Ausgaben der

Mehr

Probeklausur Zeitreihenökonometrie (Sommersemester 2014) 1

Probeklausur Zeitreihenökonometrie (Sommersemester 2014) 1 Probeklausur Zeitreihenökonometrie (Sommersemester 2014) 1 Aufgabe 1: Betrachtet wird folgendes Modell zur Erklärung des Managergehalts salary durch den Umsatz sales, die Eigenkapitalrendite roe und die

Mehr

Evaluation der Normalverteilungsannahme

Evaluation der Normalverteilungsannahme Evaluation der Normalverteilungsannahme. Überprüfung der Normalverteilungsannahme im SPSS P. Wilhelm; HS SPSS bietet verschiedene Möglichkeiten, um Verteilungsannahmen zu überprüfen. Angefordert werden

Mehr

Grundlagen von Versuchsmethodik und Datenanalyse

Grundlagen von Versuchsmethodik und Datenanalyse Grundlagen von Versuchsmethodik und Datenanalyse Der Anfang: Hypothesen über Ursache-Wirkungs-Zusammenhänge Ursache Wirkung Koffein verbessert Kurzzeitgedächtnis Gewaltfilme führen zu aggressivem Verhalten

Mehr

Kapitel 4: Binäre Regression

Kapitel 4: Binäre Regression Kapitel 4: Binäre Regression Steffen Unkel (basierend auf Folien von Nora Fenske) Statistik III für Nebenfachstudierende WS 2013/2014 4.1 Motivation Ausgangssituation Gegeben sind Daten (y i, x i1,...,

Mehr

Linearer Zusammenhang von Datenreihen

Linearer Zusammenhang von Datenreihen Linearer Zusammenhang von Datenreihen Vielen Problemen liegen (möglicherweise) lineare Zusammenhänge zugrunde: Mein Internetanbieter verlangt eine Grundgebühr und rechnet minutenweise ab Ich bestelle ein

Mehr

Commercial Banking Übung 1 Kreditscoring

Commercial Banking Übung 1 Kreditscoring Commercial Banking Übung Kreditscoring Dr. Peter Raupach raupach@wiwi.uni-frankfurt.de Sprechzeit Dienstag 6-7:00 Uhr Raum 603 B Kreditscoring Gliederung Grundanliegen Das Sample Modellspezifikation Diskriminanzanalyse

Mehr

IBM SPSS Categories 22

IBM SPSS Categories 22 IBM SPSS Categories 22 Hinweis Vor Verwendung dieser Informationen und des darin beschriebenen Produkts sollten die Informationen unter Bemerkungen auf Seite 57 gelesen werden. Produktinformation Diese

Mehr

SPSS-Beispiel zu Kapitel 6: Methoden der Reliabilitätsbestimmung 1

SPSS-Beispiel zu Kapitel 6: Methoden der Reliabilitätsbestimmung 1 SPSS-Beispiel zu Kapitel 6: Methoden der Reliabilitätsbestimmung 1 Karin Schermelleh-Engel & Christina S. Werner Inhaltsverzeichnis 1 Empirischer Datensatz... 1 2 Interne Konsistenz... 2 3 Split-Half-Reliabilität...

Mehr

8. Februar 2007. 5. Bei Unterschleif gilt die Klausur als nicht bestanden und es erfolgt eine Meldung an das Prüfungsamt.

8. Februar 2007. 5. Bei Unterschleif gilt die Klausur als nicht bestanden und es erfolgt eine Meldung an das Prüfungsamt. L. Fahrmeir, C. Belitz Department für Statistik Bitte für die Korrektur freilassen! Aufgabe 1 2 3 4 Punkte Klausur zur Vorlesung Statistik III für Studenten mit Wahlfach Statistik 8. Februar 2007 Hinweise:

Mehr

Multiple Regression II: Signifikanztests, Gewichtung, Multikollinearität und Kohortenanalyse

Multiple Regression II: Signifikanztests, Gewichtung, Multikollinearität und Kohortenanalyse Multiple Regression II: Signifikanztests,, Multikollinearität und Kohortenanalyse Statistik II Übersicht Literatur Kausalität und Regression Inferenz und standardisierte Koeffizienten Statistik II Multiple

Mehr

Numerisches Programmieren

Numerisches Programmieren Technische Universität München SS 2012 Institut für Informatik Prof Dr Thomas Huckle Dipl-Inf Christoph Riesinger Dipl-Math Alexander Breuer Dipl-Math Dipl-Inf Jürgen Bräckle Dr-Ing Markus Kowarschik Numerisches

Mehr

Verteilungsanalyse. Johannes Hain. Lehrstuhl für Mathematik VIII Statistik 1/35

Verteilungsanalyse. Johannes Hain. Lehrstuhl für Mathematik VIII Statistik 1/35 Verteilungsanalyse Johannes Hain Lehrstuhl für Mathematik VIII Statistik 1/35 Datentypen Als Sammeln von Daten bezeichnet man in der Statistik das Aufzeichnen von Fakten. Erhobene Daten klassifziert man

Mehr

Austausch- bzw. Übergangsprozesse und Gleichgewichtsverteilungen

Austausch- bzw. Übergangsprozesse und Gleichgewichtsverteilungen Austausch- bzw. Übergangsrozesse und Gleichgewichtsverteilungen Wir betrachten ein System mit verschiedenen Zuständen, zwischen denen ein Austausch stattfinden kann. Etwa soziale Schichten in einer Gesellschaft:

Mehr

Grundlagen der Datenanalyse am Beispiel von SPSS

Grundlagen der Datenanalyse am Beispiel von SPSS Grundlagen der Datenanalyse am Beispiel von SPSS Einführung Dipl. - Psych. Fabian Hölzenbein hoelzenbein@psychologie.uni-freiburg.de Einführung Organisatorisches Was ist Empirie? Was ist Statistik? Dateneingabe

Mehr

Abschlussklausur (60 Minuten), 15. Juli 2014

Abschlussklausur (60 Minuten), 15. Juli 2014 Prof. Dr. Amelie Wuppermann Volkswirtschaftliche Fakultät Universität München Sommersemester 2014 Empirische Ökonomie 1 Abschlussklausur (60 Minuten), 15. Juli 2014 Bearbeitungshinweise Die Bearbeitungszeit

Mehr

Quantitative Methoden der Bildungsforschung

Quantitative Methoden der Bildungsforschung Glieung Wieholung Korrelationen Grundlagen lineare Regression Lineare Regression in SPSS Übung Wieholung Korrelationen Standardisiertes Zusammenhangsmaß (unstandardisiert: Kovarianz) linearer Zusammenhang

Mehr

0 Einführung: Was ist Statistik

0 Einführung: Was ist Statistik 0 Einführung: Was ist Statistik 1 Datenerhebung und Messung Die Messung Skalenniveaus 2 Univariate deskriptive Statistik 3 Multivariate Statistik 4 Regression 5 Ergänzungen Grundbegriffe Statistische Einheit,

Mehr

Messdaten auswerten und visualisieren 5 Tipps, die passende Darstellungstechnik für ein Messsystem zu finden

Messdaten auswerten und visualisieren 5 Tipps, die passende Darstellungstechnik für ein Messsystem zu finden Messdaten auswerten und visualisieren 5 Tipps, die passende Darstellungstechnik für ein Messsystem zu finden 27.05.13 Autor / Redakteur: Nach Unterlagen von National Instruments / Hendrik Härter Messdaten

Mehr

3 Deskriptive Statistik in R (univariat)

3 Deskriptive Statistik in R (univariat) (univariat) Markus Burkhardt (markus.burkhardt@psychologie.tu-chemnitz.de) Inhalt 3.1 Ziel... 1 3.2 Häufigkeiten... 1 3.3 Deskriptive Kennziffern I Lagemaße... 2 3.4 Streuungsmaße... 5 3.5 Standardisierung:

Mehr

(λ Ri I A+BR)v Ri = 0. Lässt sich umstellen zu

(λ Ri I A+BR)v Ri = 0. Lässt sich umstellen zu Herleitung der oppenecker-formel (Wiederholung) Für ein System ẋ Ax + Bu (B habe Höchstrang) wird eine Zustandsregelung u x angesetzt. Der geschlossene egelkreis gehorcht der Zustands-Dgl. ẋ (A B)x. Die

Mehr

3.3 Eigenwerte und Eigenräume, Diagonalisierung

3.3 Eigenwerte und Eigenräume, Diagonalisierung 3.3 Eigenwerte und Eigenräume, Diagonalisierung Definition und Lemma 3.3.1. Sei V ein K-Vektorraum, φ End K (V ), λ K. Wir defnieren den zu λ gehörigen Eigenraum von φ als Dies ist ein Unterraum von V.

Mehr