Kapitel 3. Erste Schritte der Datenanalyse. 3.1 Einlesen und Überprüfen der Daten

Größe: px
Ab Seite anzeigen:

Download "Kapitel 3. Erste Schritte der Datenanalyse. 3.1 Einlesen und Überprüfen der Daten"

Transkript

1 Kapitel 3 Erste Schritte der Datenanalyse 3.1 Einlesen und Überprüfen der Daten Nachdem die Daten erfasst worden sind, etwa mit Hilfe eines Fragebogens, ist die nächste Frage, wie ich sie in den Rechner bekomme. Wir haben in Kapitel 1.2 gesagt, dass die Daten in einer Datenmatrix stehen sollen. Jede Zeile steht für einen Merkmalsträger, jede Spalte für eine Variable. Es ist am einfachsten, die Daten mit einem Editor oder einem Tabellenprogramm wie Excel in Matrixform zu schreiben. Die im ersten Übungsblatt verwendeten Daten des Fragebogens zur Statistischen Methodenlehre I wurden mit einem Sprachprogramm eingelesen und lagen mir dann in Matrixform vor (siehe Folie), so sieht es jedenfalls aus. Doch standen in einer Zeile die Beobachtungen für mehrere Merkmalsträger. Deshalb konnten die Daten mit dem R-Befehl scan nur als Vektor eingelesen werden. (Vor der Erfassung der Daten ist zunächst die Codierung für die qualitativen Variablen zu überlegen, ferner wie die fehlenden Werte zu behandeln sind. Hier wurde (siehe Folie) für die fehlenden Werte NA eingegeben, das Zeichen, das auch in R für fehlende Werte verwendet wird.) frag.vec<-scan(file) Das Einlesen der Daten geschieht zeilenweise. Aus diesem Vektor wurde dann mit matrix eine Matrix gebildet, wobei die Zahlen wieder zeilenweise einzulesen sind (byrow=t). Es ist entweder die richtige Zeilen- oder Spaltenanzahl oder auch beides einzugeben. frag.mat<-matrix(frag.vec,byrow=t,ncol=30) oder frag.mat<-matrix(frag.vec,byrow=t,ncol=30,nrow=239) oder frag.mat<-matrix(scan(file),byrow=t,ncol=30). Wären die Daten schon in der richtigen Matrixform gespeichert worden, etwa als Excel-Datei (im Textformat speichern), so hätte man den Befehl read.table verwenden können: frag.mat<-read.table(file,sep="") Nach dem Einlesen der Daten, sind diese auf Fehler zu überprüfen (siehe z.b, Chatfield und Collins, 1991, S. 36). Bei den Daten dieses Fragebogens stellte sich heraus, dass er einige unmögliche Werte enthielt (z.b. zu kleine Gewichte oder Körpergrößen oder Schuhgrößen wie 24 und 97). Deshalb empfielt es sich zu überprüfen, ob die Daten im richtigen Wertebereich liegen. Hier hatte das Sprachprogramm wiederholt einige Ziffern vertauscht, z.b. 18 statt 81. Die Überprüfung der Daten (man kann in R dazu die Befehle range oder table oder sort verwenden, ist ein wichtiger Schritt, bevor die eigentliche Auswertung der Daten beginnen kann. Wir können jedoch aus zeitlichen Gründen nicht näher darauf eingehen. 22

2 3.2. ERSTE STATISTIKEN Erste Statistiken Mittelwert, Standardabweichung, Korrelation Bei einer univariaten Analyse beginnt man in der Regel mit einer Berechnung des Mittelwertes und der Standardabweichung (oder der Varianz). Genauer sollten wir sagen, man berechnet die Momente in der Stichprobe. Bei einem multivariaten Datensatz berechnet man zusätzlich für jedes mögliche Paar von Variablen den Korrelationskoeffizienten. Der Stichprobenmittelwert der j-ten Variablen ist gegeben durch: x j = 1 n x rj n Mit x bezeichnen wir den Mittelwertvektor, d.h. x = ( x 1, x 2,..., x m ). Falls es sich bei dem Datensatz um eine zufällige Stichprobe aus einer Grundgesamtheit mit Erwartungswert µ handelt, ist der Stichprobenmittelwertvektor x der übliche Punktschätzer, welcher erwartungstreu ist. Die Standardabweichung der j-ten Variablen ist: s j = 1 n (x rj x j ) n 1 2 Der Korrelationskoeffizient zwischen der i-ten und j-ten Variablen ist gegeben durch: r ij = 1 n 1 n (x ri x i )(x rj x j ) = s i s j n (x ri x i )(x rj x j ) (n 1)s i s j Die Korrelationskoeffizienten werden üblicherweise in der (Stichproben-)Korrelationsmatrix zusammengefasst, die gegeben ist durch: R = 1 r r 1m r r 2m. r m1 r m Die Diagonalelemente sind alle 1. Diese Matrix kann als Schätzer der Korrelationsmatrix P (Rho) der Grundgesamtheit aufgefasst werden. Mittelwerte und Standardabweichungen können als Lage- und Streuungsparameter aufgefasst werden. Grafische Darstellung: Es empfiehlt sich auch eine grafische Darstellung der Daten, um einen Eindruck von der Form der Verteilung zu bekommen. Aus der Datei frag.frame, die die Daten zum Fragebogen in Statistik I enthält (siehe Übungsblatt 1), wurden die drei Variablen Körpergröße, Schuhgröße, Gewicht herausgegriffen: teil.frame<-frag.frame[,c(3,4,5)] Da der Datensatz fehlende Werte enthielt, wurden diese zur Vereinfachung entfernt. Hier wurden alle Zeilen entfernt, bei denen einer der drei Werte fehlte. teil01.frame <- teil.frame[is.finite(teil.frame[,1]) & is.finite (teil.frame[,2]) & is.finite (teil.frame[,3]),]

3 24 KAPITEL 3. ERSTE SCHRITTE DER DATENANALYSE Wir verwenden hier für unsere Datenmatrizen die Endung.frame, da es sich um R-Objekte vom Typ data.frame handelt. Diese können Variablen von unterschiedlichem Datentyp (numeric, character oder logical) enthalten. Die Grafik 3.1 wurde mit dem Befehl pairs(teil01.frame) erzeugt. Man nennt diese Grafik Scatterplotmatrix. Alle Paare von Variablen werden gegeneinander geplottet. Wie in der Kovarianz- oder Korrelationsmatrix erscheinen dieselben Paare zweier Variablen oberund unterhalb der Diagonalen spiegelbildlich (x und y vertauscht). Es ist möglich, oberhalb und unterhalb der Diagonalen verschiedene Grafiken zu erzeugen und auch in der Diagonalen eine Grafik der entsprechenden Variablen anstelle des Variablennamens Groesse Schuh Gewicht Abbildung 3.1: Scatterplotmatrix Die Grafik 3.2 wurde mit dem folgenden Befehl erzeugt: pairs( teil01.frame, lower.panel = panel.smooth, diag.panel = panel.hist, upper.panel = panel.cor) Dabei sind lower.panel, diag.panel und upper.panel Argumente zu pairs, mit denen man grafische Funktionen für den Bereich unterhalb der Diagonalen, für die Diagonale und für den Bereich oberhalb der Diagonale vereinbaren kann. Die hier verwendeten Funktionen panel.smooth, panel.hist und panel.cor sind in der Hilfe zu pairs als Beispiele angegeben und können einfach in die R-Console kopiert werden. Hier wird der Korrelationskoeffizient in den Bereich oberhalb der Diagonalen geschrieben. Die grafische Darstellung kann eventuell Hinweise auf eine Transformation einer Variablen geben. Häufig ist die logarithmische Transformation geeignet, die Schiefe der Verteilung zu reduzieren und Daten zu erzeugen, die eher normalverteilt sind als die Ursprungsdaten. Wir illustrieren dies in der Abbildung 3.3 am Beispiel der Schuhgrößen, die wir getrennt für Männer und Frauen betrachtet haben. Die Kovarianzmatrix in der Stichprobe: Wir bezeichnen die Kovarianzmatrix in der Stichprobe mit dem Buchstaben S. Das Element in der i-ten Zeile und j-ten Spalte wird mit s ij bezeichnet und ist die Stichprobenkovarianz zwischen der Variablen i und j: n s ij = (x ri x i )(x rj x j ) / ( n (n 1) = ) x ri x rj n x i x j /(n 1) (3.1) Wir verwenden (wie auch R) den Nenner (n-1) statt n und erhalten damit einen erwartungs-

4 3.2. ERSTE STATISTIKEN Groesse Schuh 0.79 Gewicht Abbildung 3.2: Scatterplotmatrix Männer Frauen Frequency Frequency Schuh[Geschlecht == 0] Schuh[Geschlecht == 1] Männer Frauen Frequency Frequency log(schuh[geschlecht == 0]) log(schuh[geschlecht == 1]) Abbildung 3.3: Histogramm der Schuhgrößen und logarithmierten Schuhgrößen nach Geschlecht treuen Schätzer der entsprechenden Kovarianz in der Grundgesamtheit. Für i = j erhalten wir die Stichprobenvarianz, die wir im multivariaten Fall mit s ii anstelle s 2 i im univariaten Fall bezeichnen. Dies vereinfacht die Schreibweise der Kovarianzmatrix: S = s 11 s s 1m s 21 s s 2m. s m1 s m2... s mm Da s ij für alle i und j ein erwartungstreuer Schätzer von σ ij ist, sagen wir: S ist ein erwartungstreuer Schätzer von Σ. Die Matrix S ist symmetrisch und in der Diagonalen stehen die Varianzen der Variablen. Die Standardabweichungen erhält man dann durch s i = s ii. Die Kovarianzen außerhalb der Diagonalen sind schwer zu interpretieren, da sie bekanntlich von der Dimension der Variablen abhängen. So sind sie im allgemeinen nur ein Rechenschritt

5 26 KAPITEL 3. ERSTE SCHRITTE DER DATENANALYSE auf dem Weg zur Berechnung der Korrelationskoeffizienten r ij = s ij /s i s j Diese Größen kann man auffassen als eine standardisierte Stichprobenkovarianz mit Werten zwischen -1 und +1. Die Berechnung der Kovarianzen kann direkt nach Gleichung 3.1 erfolgen. In Matrizenschreibweise sieht das so aus: S = (X 1 x t ) t (X 1 x t )/(n 1) = (X t X n x x t )/(n 1) (3.2) (Dabei ist 1 ein n-dimensionaler Spaltenvektor, dessen Elemente alle gleich 1 sind. Folglich ist das Matrizenprodukt 1 x eine n m Matrix, deren Elemente in der j-tenspalte alle gleich x j sind. In dem Ausdruck X 1 x t wird also von jedem Element der Datenmatrix der zugehörige Mittelwert der Variablen subtrahiert.) In Analogie zu Gleichung 2.7 kann man R auch so aus S berechnen: Wir definieren die Diagonalmatrix ˆD durch ˆD = s s s m Dann ist: R = ˆD 1 S ˆD 1 (3.3) Dabei ist ˆD 1 = 1/s /s /s m Zur Interpretation des Korrelationskoeffizienten sei gesagt, dass ein Korrelationskoeffizient nahe bei +1 oder -1 einen starken linearen Zusammenhang mit einer positiven bzw. negativen Steigung anzeigt, während ein Korrelationskoeffizient nahe Null aussagt, dass es nahezu keinen linearen Zusammenhang gibt. Die Betonung liegt auf linear. Man sollte den Korrelationskoeffizienten nicht ausrechnen, wenn der Zusammenhang zwischen zwei Variablen offensichtlich nichtlinear ist. Wir geben noch einen Test an zur Überprüfung der Hypothese, dass der Korrelationskoeffizient zwischen zwei Zufallsvariablen Null ist. Die Prüfgröße ist: PG = r n 2 / 1 r 2 In der Grafik 3.2 wurde als Korrelationskoeffizient zwischen Schuhgröße und Körpergröße der Wert 0.85 ausgewiesen. Mit n = 226 ist der Wert der Prüfgröße PG = / = Dieser Wert ist mit kritischen Werten der t-verteilung mit n 2 = 224 Freiheitsgraden zu vergleichen. Da die t-verteilung mit steigender Anzahl der Freiheitsgrade gegen die Standardnormalverteilung konvergiert, ist dieser Wert hochsignifikant. Dieser Test kann in R mit dem Befehl cor.test durchgeführt werden. Der Befehl

6 3.2. ERSTE STATISTIKEN 27 cor.test(groesse,schuh) ergibt die Ausgabe: Pearson s product-moment correlation data: Groesse and Schuh t = , df = 235, p-value = < 2.2e-16 alternative hypothesis: true correlation is not equal to 0 sample estimates: cor Der Wert der Prüfgröße ist also bei 235 Freiheitsgraden. Die veränderte Anzahl der Freiheitsgrade ergibt sich dadurch, dass hier alle Wertepaare verwendet werden, für die beide Werte für Groesse und Schuh vorliegen (es ist der Datensatz frag.frame zu verwenden. Oben wurden alle Wertepaare verwendet, für die alle Tripel (Groesse, Schuh und Gewicht) vollständig waren. Bei der Berechnung von Kovarianz- oder Korrelationsmatrizen mit R hat man entsprechend zwei Optionen. Die Funktionen var, cov und cor haben das Argument use mit den Optionen "all.obs ", "complete.obs" oder "pairwise.complete.obs ". Bei der ersten Option erhält man nur dann einen Wert, wenn alle Datensätze vollständig sind. Bei der zweiten Option werden nur die Zeilen der Datenmatrix verwendet, die vollständig sind (für alle Spalten Werte haben). Bei der dritten Option werden die Datensätze verwendet, die für das jeweilige Paar von Variablen vollständig sind. Bei der Betrachtung der Kovarianzmatrix in der Übung war die hohe Kovarianz (1038) zwischen den Variablen UeGewicht und Woerter auffallend. Wir wissen zwar, dass die Kovarianz nichts über die Stärke des Zusammenhangs aussagt. Bei der Variablen UeGewicht handelt es sich um das geschätzte Gewicht des Übungsbuches zu Statistik I. Bei der Variablen Woerter sollte die Anzahl der Wörter auf einer kurzfristig aufgelegten Folie geschätzt werden. Falls diese hohe Kovarianz tatsächlich einen positiven Zusammenhang bedeuten würde, hieße das dann, dass Versuchspersonen dazu neigen, sich immer in der gleichen Richtung zu verschätzen? Nun der Korrelationskoeffizient ist ein dimensionsloses Maß für den linearen Zusammenhang. Er ergibt in diesem Fall: r = Der entsprechende Test (cor.test(uegewicht,woerter)) ergibt die Ausgabe: t = , df = 217, p-value = Das bedeutet: Der Wert der Prüfgröße ist bei 217 Freiheitsgraden (also war n=219). Der P-Wert ist , d.h. die Wahrscheinlichkeit bei einer t-verteilung mit 217 Freiheitsgraden einen extremeren Wert als zu erhalten ist Da diese Wahrscheinlichkeit nicht klein ist, kann die Hypothese, dass der Korrelationskoeffizient Null ist, nicht abgelehnt werden. Was bedeutet nun in diesem Fall extremer? Nun: die Wahrscheinlichkeit einen größeren Wert als zu erhalten, können wir so berechnen: 1-pt(0.6645,217) Das Ergebnis ist (gerundet) , also die Hälfte des P-Wertes. Der Test ist also zweiseitig. Es wird bei großen und kleinen Werten abgelehnt. Um zu entscheiden, welche Werte für den Korrelationskoeffizienten von Bedeutung sind, sollte man sich an den Zusammenhang zwischen dem Korrelationskoeffizienten und der Residualvarianz in Erinnerung rufen (Statistische Methodenlehre II).

7 28 KAPITEL 3. ERSTE SCHRITTE DER DATENANALYSE Mannschuh Manngroesse Abbildung 3.4: Schuhgrößen in Abhängigkeit der Körpergröße von Männern Die Abbildung 3.4, die mit den Befehlen Mannschuh<-Schuh[Geschlecht==0] Manngroesse<-Groesse[Geschlecht==0] plot(manngroesse,mannschuh) lsout<-lsfit(manngroesse,mannschuh) abline(lsout,lwd=2) abline(h=mean(mannschuh,na.rm=t),lwd=2) erzeugt wurde, zeigt den Zusammenhang zwischen der Schuhgröße und der Körpergröße von Männern. Bezeichnen wir die Variablen - wie im x, y-koordiantensystem üblich - mit x und y, so streut die Variable y einmal um ihren Mittelwert, die eingezeichnete waagrechte Gerade. Diese Streuung wird üblicherweise beschrieben durch die Summe der Quadrate Total, die Summe der quadrierten Abweichungen vom Mittelwert (SQ(Total) = n (y r ȳ) 2 ), Nun kann diese Streuung zum Teil durch den linearen Zusammenhang zwischen y und x erkärt werden. Da die nach der Methode der kleinsten Quadrate angepasste Gerade steigt, müssen y-werte mit steigendem x-wert zwangsläufig steigen. Es gibt Abweichungen zwischen der angepassten Geraden und dem Mittelwert, dies ergibt eine Summe der Quadrate Regression SQ(Regression) = n (ŷ r ȳ) 2 ). Dabei ist ŷ r der Wert der Geraden an der Stelle x r und schließlich verbleiben noch Abweichungen zwischen den Beobachtungen und der angepassten Geraden. Dies ergibt eine Summe der Quadrate der Residuale SQ(Residuale) = n (y r ŷ r ) 2. Nun ist: und SQ(Total) = SQ(Regression) + SQ(Residuale) r 2 = SQ(Regression) SQ(Total) Das bedeutet: r 2 ist der Anteil der Totalvariation, der durch die Regression, die lineare Beziehung zwischen y und x erklärt ist, während der Anteil der Restvariation, der Variation um die Gerade, 1 r 2 ist. Ergibt sich nun ein geschätzter Korrelationskoeffizient von r = 0.6, so bedeutet dies, dass 36% der Totalvariation durch die Regression erkärt sind, während 64%

8 3.2. ERSTE STATISTIKEN 29 Restvariation (unerklärte Variation oder Variation um die Gerade) bleiben. Die Varianz der Residuale (Abstände von der Geraden) beträgt also 64% der ursprünglichen Varianz (Streuung um die waagerechte Gerade). Betrachtet man die Standardabweichungen, so bedeutet dies, dass die Residualstandardabweichung immer noch 80% der ursprünglichen Standardabweichung ist. Wir hatten in unserem Beispiel (Schuhgröße, Körpergröße) r = 0.85 erhalten, d.h. r 2 = , d.h % der Totalvariation sind durch die Regression erklärt, für die Restvariation verbleiben 27.75% der ursprünglichen Variation. Die Residualstandardabweichung ist 52.68% der ursprünglichen Standardabweichung. Chatfield und Collins (1991) geben wichtige Hinweise zur Interpretation und Aufbereitung, d.h. Darstellung von Korrelationsmatrizen. Sie beziehen sich dabei teilweise auf Ehrenberg (1975, siehe auch Ehrenberg 1982, 1986). Zunächst beklagen sie, dass Computerprogramme Korrelationsmatrizen meist in unübersichtlicher Form ausgeben. Sie geben zu viele Stellen aus und bei vielen Variablen erscheint die Ausgabe, dann oft in zwei oder noch mehr Blöcken und wird dadurch unübersichtlich. Wir betrachten dazu ein Beispiel. Wir haben aus dem Datensatz frag.frame zur Befragung in Statistik I mit dem Befehl fragmet.frame<-frag.frame[,c(1,3:5,27:30)] einen Teildatensatz herausgenommen, der aus allen Variablen mit metrischem Skalenniveau besteht. Mit dem Befehl cor(fragmet.frame,use="c") erhalten wir die folgende Ausgabe (Tabelle 3.1). Tabelle 3.1: Ausgabe der Korrelationsmatrix in R Alter Groesse Schuh Gewicht UeGewicht Alter Groesse Schuh Gewicht UeGewicht GroeBoe Woerter ZuZahl GroeBoe Woerter ZuZahl Alter Groesse Schuh Gewicht UeGewicht GroeBoe Woerter ZuZahl Wir haben 8 Variablen, die Ausgabe erfolgt in zwei Blöcken, die Zahlen sind so lang (8 Nachkommastellen), dass man nichts erkennen kann. Chatfield und Collins (1991) empfehlen, die Anzahl der Dezimalstellen auf zwei zu begrenzen. Mit dem Befehl

9 30 KAPITEL 3. ERSTE SCHRITTE DER DATENANALYSE print(round(cor(fragmet.frame,use="c"),digits=2)) erhalten wir die Ausgabe in Tabelle 3.2. Tabelle 3.2: Ausgabe der Korrelationsmatrix in R Alter Groesse Schuh Gewicht UeGewicht GroeBoe Woerter ZuZahl Alter Groesse Schuh Gewicht UeGewicht GroeBoe Woerter ZuZahl Wichtig ist der Befehl round innerhalb des print-befehls. Ohne round erhält man allein mit dem Argument digits, d.h. mit dem Befehl print(cor(fragmet.frame,use="c"),digits=2) nicht die gewünschte Anzahl Dezimalstellen. Außerdem wird grundsätzlich nach oben gerundet. Die Ausgabe ist jedoch nach den Empfehlungen bei Chatfield und Collins noch nicht optimal. So fällt es z.b. schwer, die Variablen mit hoher Korrelation von denen mit niedriger Korrelation zu trennen. Dabei ist es bei diesem Datensatz eigentlich klar aufgrund der Erhebung, welche Variablen hoch und welche eigentlich nicht korreliert sein sollten. Die Variablen Körpergröße, Schuhgröße und Gewicht sollten hochkorreliert sein. Da es sich bei Studierenden um ausgewachsene Menschen handelt, sollte keine oder allenfalls geringe Korrelation mit dem Alter vorhanden sein. Bei den vier anderen Variablen, handelte es sich um Schätzaufgaben (Schätzen einer Körpergröße (GroeBoe), des Gewichts eines Buches (UeGewicht), der Anzahl Wörter (Woerter) auf einer Folie) und der Nennung einer Zahl (ZuZahl) zwischen 0 und 99. Diese Variablen sollten untereinander und mit den anderen Variablen unkorreliert sein. Man könnte also die Variablen in eine andere Reihenfolge bringen: zunächst die mit hoher Korrelation, dann Alter, dann die anderen mit erwarteter geringer Korrelation. Bevor wir das tun, schauen wir uns alle Empfehlungen bei Chatfiled und Collins an: a) Runde die Zahlen auf zwei Dezimalstellen, u.u. sogar auf eine Stelle. b) Lass die Elemente in der Diagonalen weg, da sie alle 1 sind. Sie lenken nur das Auge ab, ohne wertvolle Informationen zu geben. c) Lass die Nullen weg, die vor den Dezimalstellen bei den Elementen außerhalb der Diagonalen erscheinen. d) Obwohl die Matrix symmetrisch ist, ist es hilfreich, sowohl die Elemente unterhalb als auch oberhalb der Diagonalen anzugeben. e) Wähle einen engen Abstand zwischen den Zeilen und Spalten, da die Zahlen leichter zu vergleichen sind, wenn das Auge sich nicht zu viel hin und her bewegen muss.

10 3.2. ERSTE STATISTIKEN 31 Aber lass einen etwas größeren Abstand nach jeder fünften Zeile und Spalte, da es dann leichter ist, bestimmte Variablen zu lokalisieren. Wenn wir diese Empfehlungen beherzigen und außerdem die Variablen umordnen, erhalten wir die Tabelle 3.3. Wir haben die Namen der Variablen auf zwei Buchstaben abgekürzt, damit die Spalten näher zusammenrücken können. Diese Änderungen wurden mit einem Editor vorgenommen. Tabelle 3.3: Korrelationsmatrix, neu geordnet und bearbeitet Gr SG Gw Al ÜG GB Wö ZZ Gr SG Gw Al ÜG GB Wö ZZ Jetzt ist es möglich, die wesentlichen Aussagen dieser Korrelationsmatrix zu erkennen. Chatfield und Collins empfehlen noch, markante Ergebnisse durch Kreise zu markieren. In dieser Matrix ist auffallend, die hohe Korrelation zwischen den Variablen Körpergröße, Schuhgöße und Gewicht und dann die geringe Korrelation zwischen den Variablen, die aus Schätzaufgaben hervorgingen. Bei diesen ist die größte Korrelation zwischen den Variablen GroeBoe und Woerter mit Wir führen hier noch einmal den Test durch, dass die Korrelation Null ist und erhalten in R die folgende Ausgabe. cor.test(groeboe, Woerter) Pearson s product-moment correlation data: GroeBoe and Woerter t = , df = 230, p-value = alternative hypothesis: true correlation is not equal to 0 sample estimates: cor Wir erhalten jetzt einen anderen Wert für den Korrelationskoeffizienten. Das liegt daran, dass wir bei der Berechnung der Korrelationsmatrix das Argument use="c" gewählt hatten. Mit use="p" erhalten Sie dasselbe Ergebnis wie hier im Test. Die Hypothese, dass der Korrelationskoeffizient Null ist, lässt sich also nicht verwerfen. Der P-Wert ist Mit einer Irrtumswahrscheinlichkeit von 17.66% könnte man behaupten, dass der Korrelationskoeffizient von Null verschieden ist. Schauen wir uns jetzt noch die Variable Alter an. Sie hat die höchste Korrelation mit dem Körpergewicht. Das ist vielleicht am ehesten plausibel, dass das Körpergewicht bei jungen Erwachsenen mit dem Alter noch zunimmt. Auch hier führen wir den Test durch:

11 32 KAPITEL 3. ERSTE SCHRITTE DER DATENANALYSE cor.test(alter,gewicht) Pearson s product-moment correlation data: Alter and Gewicht t = , df = 223, p-value = alternative hypothesis: true correlation is not equal to 0 sample estimates: cor Der P-Wert ist in diesem Fall Mit einer Irrtumswahrscheinlichkeit von 0.08 lässt sich also behaupten, dass der Korrelationskoeffizient zwischen dem Alter und dem Körpergewicht von Null verschieden ist. Man mache sich aber klar, wie klein dieser Korrelationskoeffizient (r = 0.12) ist und wie schwach damit der lineare Zusammenhang zwischen diesen beiden Variablen ist. Wir erinnern uns: Der Anteil an der Gesamtvariation, der durch die Regression erklärt ist, ist r 2 = = = 1.44%. Damit entfallen 98.56% der Gesamtvariation auf die Variation um die Gerade. Die Standardabweichung der Residuale (Abstände von der Geraden) ist damit 99.28% der ursprünglichen Standardabweichung. Der Rang der Korrelationsmatrix: Wir bemerken hier noch, dass die Kovarianzmatrix S und damit wegen Gleichung 3.3 auch die Korrelationsmatrix R positiv semidefinit ist. Da die Diagonalmatrix ˆD nichtsingulär ist, haben R und S denselben Rang. Wegen Gleichung 3.2 und der Beziehung Rang(A) = Rang(AA t ) = Rang(A t A) für eine Matrix A folgt, dass auch die um die Mittelwerte bereinigte Datenmatrix (X 1 x t ) denselben Rang haben muss. Die Matrix (X 1 x t ) ist eine n m-matrix. Daher ist ihr Rang kleiner oder gleich min(n, m). Wenn es weniger Beobachtungen als Variablen gibt, d.h. n < m, dann ist der Rang(X 1 x t ) < m und daraus folgt, dass S und R singulär sind. Wenn n = m, ist (X 1 x t ) eine quadratische Matrix, für die jede Spaltensumme Null ist. Die Zeilenvektoren sind also linear abhängig, so dass der Rang kleiner als m ist. Damit sind auch S und R singulär mit Rang kleiner als m. Für n = 3 und m = 3 z.b. gibt es also nur drei Beobachtungen und wir können immer eine Ebene durch drei Punkte im dreidimensionalen Raum legen, so dass die Daten eigentlich zweidimensional sind. Um solche Singularitäten wegen zu kleiner Beobachtungszahl zu vermeiden, sollte die Anzahl der Beobachtungen stets größer als die Anzahl der Variablen sein. Wenn n > m, dann wird der Rang von S und (X 1 x t ) i.a. gleich m sein. Aber wenn es lineare Zusammenhänge zwischen den Zufallsvariablen gibt, sollten sie auch in den Stichprobendaten sein und zu singulären Matrizen (X 1 x t ), S und R führen. Die Anzahl der linearen Nebenbedingungen in den Daten ist gleich m Rang(R), so dass der Rang der Korrelationsmatrix die eigentliche Dimension der Daten angibt.

2. Deskriptive Statistik 2.1. Häufigkeitstabellen, Histogramme, empirische Verteilungsfunktionen

2. Deskriptive Statistik 2.1. Häufigkeitstabellen, Histogramme, empirische Verteilungsfunktionen 4. Datenanalyse und Modellbildung Deskriptive Statistik 2-1 2. Deskriptive Statistik 2.1. Häufigkeitstabellen, Histogramme, empirische Verteilungsfunktionen Für die Auswertung einer Messreihe, die in Form

Mehr

Multivariate Statistik

Multivariate Statistik Hermann Singer Multivariate Statistik 1 Auflage 15 Oktober 2012 Seite: 12 KAPITEL 1 FALLSTUDIEN Abbildung 12: Logistische Regression: Geschätzte Wahrscheinlichkeit für schlechte und gute Kredite (rot/blau)

Mehr

Einfache Statistiken in Excel

Einfache Statistiken in Excel Einfache Statistiken in Excel Dipl.-Volkswirtin Anna Miller Bergische Universität Wuppertal Schumpeter School of Business and Economics Lehrstuhl für Internationale Wirtschaft und Regionalökonomik Raum

Mehr

Einführung in die Vektor- und Matrizenrechnung. Matrizen

Einführung in die Vektor- und Matrizenrechnung. Matrizen Einführung in die Vektor- und Matrizenrechnung Matrizen Definition einer Matrix Unter einer (reellen) m x n Matrix A versteht man ein rechteckiges Schema aus reellen Zahlen, die wie folgt angeordnet sind:

Mehr

9. Schätzen und Testen bei unbekannter Varianz

9. Schätzen und Testen bei unbekannter Varianz 9. Schätzen und Testen bei unbekannter Varianz Dr. Antje Kiesel Institut für Angewandte Mathematik WS 2011/2012 Schätzen und Testen bei unbekannter Varianz Wenn wir die Standardabweichung σ nicht kennen,

Mehr

Zusammenhänge zwischen metrischen Merkmalen

Zusammenhänge zwischen metrischen Merkmalen Zusammenhänge zwischen metrischen Merkmalen Darstellung des Zusammenhangs, Korrelation und Regression Daten liegen zu zwei metrischen Merkmalen vor: Datenpaare (x i, y i ), i = 1,..., n Beispiel: x: Anzahl

Mehr

Analog zu Aufgabe 16.1 werden die Daten durch folgenden Befehl eingelesen: > kredit<-read.table("c:\\compaufg\\kredit.

Analog zu Aufgabe 16.1 werden die Daten durch folgenden Befehl eingelesen: > kredit<-read.table(c:\\compaufg\\kredit. Lösung 16.3 Analog zu Aufgabe 16.1 werden die Daten durch folgenden Befehl eingelesen: > kredit

Mehr

3.2 Bivariate Verteilungen

3.2 Bivariate Verteilungen 3.2 Bivariate Verteilungen zwei Variablen X, Y werden gemeinsam betrachtet (an jedem Objekt i, i = 1,..., n, werden gleichzeitig zwei Merkmale beobachtet) Beobachtungswerte sind Paare/Kombinationen von

Mehr

Inhaltsverzeichnis. Regressionsanalyse. http://mesosworld.ch - Stand vom: 20.1.2010 1

Inhaltsverzeichnis. Regressionsanalyse. http://mesosworld.ch - Stand vom: 20.1.2010 1 Inhaltsverzeichnis Regressionsanalyse... 2 Lernhinweise... 2 Einführung... 2 Theorie (1-8)... 2 1. Allgemeine Beziehungen... 3 2. 'Best Fit'... 3 3. 'Ordinary Least Squares'... 4 4. Formel der Regressionskoeffizienten...

Mehr

Kapitel 4: Binäre Regression

Kapitel 4: Binäre Regression Kapitel 4: Binäre Regression Steffen Unkel (basierend auf Folien von Nora Fenske) Statistik III für Nebenfachstudierende WS 2013/2014 4.1 Motivation Ausgangssituation Gegeben sind Daten (y i, x i1,...,

Mehr

Grundlagen der Inferenzstatistik: Was Ihnen nicht erspart bleibt!

Grundlagen der Inferenzstatistik: Was Ihnen nicht erspart bleibt! Grundlagen der Inferenzstatistik: Was Ihnen nicht erspart bleibt! 1 Einführung 2 Wahrscheinlichkeiten kurz gefasst 3 Zufallsvariablen und Verteilungen 4 Theoretische Verteilungen (Wahrscheinlichkeitsfunktion)

Mehr

Statistische Software P. Fink. Statistische Software (R) Wiederholungshausübung SoSe 2015

Statistische Software P. Fink. Statistische Software (R) Wiederholungshausübung SoSe 2015 Allgmeine Hinweise Die Hausübung umfasst 7 Aufgaben mit insgesamt 120 Punkten. Erstellen Sie eine R Skript-Datei mit Ihrer Matrikelnummer als Dateinamen. Diese Datei enthält Ihren vollständigen und mit

Mehr

Univariate Lineare Regression. (eine unabhängige Variable)

Univariate Lineare Regression. (eine unabhängige Variable) Univariate Lineare Regression (eine unabhängige Variable) Lineare Regression y=a+bx Präzise lineare Beziehung a.. Intercept b..anstieg y..abhängige Variable x..unabhängige Variable Lineare Regression y=a+bx+e

Mehr

8. Methoden der klassischen multivariaten Statistik

8. Methoden der klassischen multivariaten Statistik 8. Methoden der klassischen multivariaten Statistik 8.1. Darstellung von Daten Voraussetzungen auch in diesem Kapitel: Grundgesamtheit (Datenraum) Ω von Objekten (Fällen, Instanzen), denen J-Tupel von

Mehr

2. Korrelation, lineare Regression und multiple Regression

2. Korrelation, lineare Regression und multiple Regression multiple 2.2 Lineare 2.2 Lineare 1 / 130 2.2 Lineare 2 / 130 2.1 Beispiel: Arbeitsmotivation Untersuchung zur Motivation am Arbeitsplatz in einem Chemie-Konzern 25 Personen werden durch Arbeitsplatz zufällig

Mehr

Bachelorabschlussseminar Dipl.-Kfm. Daniel Cracau

Bachelorabschlussseminar Dipl.-Kfm. Daniel Cracau 1 Einführung in die statistische Datenanalyse Bachelorabschlussseminar Dipl.-Kfm. Daniel Cracau 2 Gliederung 1.Grundlagen 2.Nicht-parametrische Tests a. Mann-Whitney-Wilcoxon-U Test b. Wilcoxon-Signed-Rank

Mehr

Risikomessung und Value at Risk Wintersemester 2013/14

Risikomessung und Value at Risk Wintersemester 2013/14 Risikomessung und Value at Risk Wintersemester 2013/14 Walter Sanddorf-Köhle Statistik und Ökonometrie Foliensatz Nr. 11 Version vom 24. Januar 2014 1 / 45 6.5.1 Bisherige Vorgehensweise zur Berechnung

Mehr

Einseitig gerichtete Relation: Mit zunehmender Höhe über dem Meeresspiegel sinkt im allgemeinen die Lufttemperatur.

Einseitig gerichtete Relation: Mit zunehmender Höhe über dem Meeresspiegel sinkt im allgemeinen die Lufttemperatur. Statistik Grundlagen Charakterisierung von Verteilungen Einführung Wahrscheinlichkeitsrechnung Wahrscheinlichkeitsverteilungen Schätzen und Testen Korrelation Regression Einführung Die Analyse und modellhafte

Mehr

Klausur zur Vorlesung Statistik III für Studenten mit dem Wahlfach Statistik

Klausur zur Vorlesung Statistik III für Studenten mit dem Wahlfach Statistik Ludwig Fahrmeir, Nora Fenske Institut für Statistik Bitte für die Korrektur freilassen! Aufgabe 1 2 3 4 Punkte Klausur zur Vorlesung Statistik III für Studenten mit dem Wahlfach Statistik 29. März 21 Hinweise:

Mehr

Lösung zu Kapitel 11: Beispiel 1

Lösung zu Kapitel 11: Beispiel 1 Lösung zu Kapitel 11: Beispiel 1 Eine Untersuchung bei 253 Personen zur Kundenzufriedenheit mit einer Einzelhandelskette im Südosten der USA enthält Variablen mit sozialstatistischen Daten der befragten

Mehr

Verteilungsanalyse. Johannes Hain. Lehrstuhl für Mathematik VIII Statistik 1/35

Verteilungsanalyse. Johannes Hain. Lehrstuhl für Mathematik VIII Statistik 1/35 Verteilungsanalyse Johannes Hain Lehrstuhl für Mathematik VIII Statistik 1/35 Datentypen Als Sammeln von Daten bezeichnet man in der Statistik das Aufzeichnen von Fakten. Erhobene Daten klassifziert man

Mehr

1,11 1,12 1,13 1,14 1,15 1,16 1,17 1,17 1,17 1,18

1,11 1,12 1,13 1,14 1,15 1,16 1,17 1,17 1,17 1,18 3. Deskriptive Statistik Ziel der deskriptiven (beschreibenden) Statistik (explorativen Datenanalyse) ist die übersichtliche Darstellung der wesentlichen in den erhobenen Daten enthaltene Informationen

Mehr

Korrelation - Regression. Berghold, IMI

Korrelation - Regression. Berghold, IMI Korrelation - Regression Zusammenhang zwischen Variablen Bivariate Datenanalyse - Zusammenhang zwischen 2 stetigen Variablen Korrelation Einfaches lineares Regressionsmodell 1. Schritt: Erstellung eines

Mehr

Lineare Modelle in R: Einweg-Varianzanalyse

Lineare Modelle in R: Einweg-Varianzanalyse Lineare Modelle in R: Einweg-Varianzanalyse Achim Zeileis 2009-02-20 1 Datenaufbereitung Wie schon in der Vorlesung wollen wir hier zur Illustration der Einweg-Analyse die logarithmierten Ausgaben der

Mehr

Prüfen von Mittelwertsunterschieden: t-test

Prüfen von Mittelwertsunterschieden: t-test Prüfen von Mittelwertsunterschieden: t-test Sven Garbade Fakultät für Angewandte Psychologie SRH Hochschule Heidelberg sven.garbade@hochschule-heidelberg.de Statistik 1 S. Garbade (SRH Heidelberg) t-test

Mehr

Methoden Quantitative Datenanalyse

Methoden Quantitative Datenanalyse Leitfaden Universität Zürich ISEK - Andreasstrasse 15 CH-8050 Zürich Telefon +41 44 635 22 11 Telefax +41 44 635 22 19 www.isek.uzh.ch 11. September 2014 Methoden Quantitative Datenanalyse Vorbereitung

Mehr

Modellbildung und Simulation

Modellbildung und Simulation Modellbildung und Simulation 5. Vorlesung Wintersemester 2007/2008 Klaus Kasper Value at Risk (VaR) Glossar Portfolio: In der Ökonomie bezeichnet der Begriff Portfolio ein Bündel von Investitionen, das

Mehr

12. Vergleich mehrerer Stichproben

12. Vergleich mehrerer Stichproben 12. Vergleich mehrerer Stichproben Dr. Antje Kiesel Institut für Angewandte Mathematik WS 2011/2012 Häufig wollen wir verschiedene Populationen, Verfahren, usw. miteinander vergleichen. Beipiel: Vergleich

Mehr

Eine computergestützte Einführung mit

Eine computergestützte Einführung mit Thomas Cleff Deskriptive Statistik und Explorative Datenanalyse Eine computergestützte Einführung mit Excel, SPSS und STATA 3., überarbeitete und erweiterte Auflage ^ Springer Inhaltsverzeichnis 1 Statistik

Mehr

25. Januar 2010. Ruhr-Universität Bochum. Methodenlehre III, WS 2009/2010. Prof. Dr. Holger Dette. 4. Multivariate Mittelwertvergleiche

25. Januar 2010. Ruhr-Universität Bochum. Methodenlehre III, WS 2009/2010. Prof. Dr. Holger Dette. 4. Multivariate Mittelwertvergleiche Ruhr-Universität Bochum 25. Januar 2010 1 / 75 2 / 75 4.1 Beispiel: Vergleich von verschiedenen Unterrichtsmethoden Zwei Zufallsstichproben (A und B) mit je 10 Schülern und 8 Schülern Gruppe A wird nach

Mehr

Grundlagen von Versuchsmethodik und Datenanalyse

Grundlagen von Versuchsmethodik und Datenanalyse Grundlagen von Versuchsmethodik und Datenanalyse Der Anfang: Hypothesen über Ursache-Wirkungs-Zusammenhänge Ursache Wirkung Koffein verbessert Kurzzeitgedächtnis Gewaltfilme führen zu aggressivem Verhalten

Mehr

2 Multivariate Statistik

2 Multivariate Statistik MS13 1 2 Multivariate Statistik 21 Grundbegriffe In diesem Abschnitt sollen die ersten wichtigen Grundbegriffe der Multivariaten Statistik eingeführt werden: Mehrdimensionale Variablen, Erwartungswerte,

Mehr

Institut für Soziologie. Methoden 2. Regressionsanalyse I: Einfache lineare Regression

Institut für Soziologie. Methoden 2. Regressionsanalyse I: Einfache lineare Regression Institut für Soziologie Methoden 2 Regressionsanalyse I: Einfache lineare Regression Programm Anwendungsbereich Vorgehensweise Interpretation Annahmen Zusammenfassung Übungsaufgabe Literatur # 2 Anwendungsbereich

Mehr

Verteilungsanalyse. Johannes Hain. Lehrstuhl für Mathematik VIII Statistik 1/31

Verteilungsanalyse. Johannes Hain. Lehrstuhl für Mathematik VIII Statistik 1/31 Verteilungsanalyse Johannes Hain Lehrstuhl für Mathematik VIII Statistik 1/31 Datentypen Als Sammeln von Daten bezeichnet man in der Statistik das Aufzeichnen von Fakten. Erhobene Daten klassifziert man

Mehr

3 Deskriptive Statistik in R (univariat)

3 Deskriptive Statistik in R (univariat) (univariat) Markus Burkhardt (markus.burkhardt@psychologie.tu-chemnitz.de) Inhalt 3.1 Ziel... 1 3.2 Häufigkeiten... 1 3.3 Deskriptive Kennziffern I Lagemaße... 2 3.4 Streuungsmaße... 5 3.5 Standardisierung:

Mehr

Kontingenzkoeffizient (nach Pearson)

Kontingenzkoeffizient (nach Pearson) Assoziationsmaß für zwei nominale Merkmale misst die Unabhängigkeit zweier Merkmale gibt keine Richtung eines Zusammenhanges an 46 o jl beobachtete Häufigkeiten der Kombination von Merkmalsausprägungen

Mehr

Modul G.1 WS 07/08: Statistik 17.01.2008 1. Die Korrelation ist ein standardisiertes Maß für den linearen Zusammenhangzwischen zwei Variablen.

Modul G.1 WS 07/08: Statistik 17.01.2008 1. Die Korrelation ist ein standardisiertes Maß für den linearen Zusammenhangzwischen zwei Variablen. Modul G.1 WS 07/08: Statistik 17.01.2008 1 Wiederholung Kovarianz und Korrelation Kovarianz = Maß für den linearen Zusammenhang zwischen zwei Variablen x und y Korrelation Die Korrelation ist ein standardisiertes

Mehr

Lineare Algebra - alles was man wissen muß

Lineare Algebra - alles was man wissen muß Statistik für Bioinformatiker SoSe 3 Rainer Spang Lineare Algebra - alles was man wissen muß Der Titel ist natürlich gelogen, aber was wir hier zusammengetragen haben ist zumindest ein Anfang. Weniger

Mehr

9. StatistischeTests. 9.1 Konzeption

9. StatistischeTests. 9.1 Konzeption 9. StatistischeTests 9.1 Konzeption Statistische Tests dienen zur Überprüfung von Hypothesen über einen Parameter der Grundgesamtheit (bei einem Ein-Stichproben-Test) oder über die Verteilung einer Zufallsvariablen

Mehr

BEDIENUNGSANLEITUNG FÜR AMOS (Letzte Änderung: Mittwoch, 10. Februar 2001)

BEDIENUNGSANLEITUNG FÜR AMOS (Letzte Änderung: Mittwoch, 10. Februar 2001) AMOS - Bedienungsanaleitung 1 BEDIENUNGSANLEITUNG FÜR AMOS (Letzte Änderung: Mittwoch, 10. Februar 2001) A. Aufbau einer Inputdatei (Excel-Arbeitsblatt), welche eine Kovarianz- bzw. Korrelationsmatrix

Mehr

KAPITEL 4. Lineare Ausgleichsrechnung Beispiel 4.1. Das Ohmsche Gesetz: U = RI. Eine Meßreihe von Daten:

KAPITEL 4. Lineare Ausgleichsrechnung Beispiel 4.1. Das Ohmsche Gesetz: U = RI. Eine Meßreihe von Daten: KAPITEL 4 Lineare Ausgleichsrechnung Beispiel 41 Das Ohmsche Gesetz: Eine Meßreihe von Daten: U = RI (U i, I i ) (Spannung, Stromstärke), i = 1,, m Aufgabe: man bestimme aus diesen Meßdaten den Widerstand

Mehr

Statistische Verfahren für das Data Mining in einem Industrieprojekt

Statistische Verfahren für das Data Mining in einem Industrieprojekt Statistische Verfahren für das Data Mining in einem Industrieprojekt Thorsten Dickhaus Forschungszentrum Jülich GmbH Zentralinstitut für Angewandte Mathematik Telefon: 02461/61-4193 E-Mail: th.dickhaus@fz-juelich.de

Mehr

Elemente der Analysis II

Elemente der Analysis II Elemente der Analysis II Kapitel 3: Lineare Abbildungen und Gleichungssysteme Informationen zur Vorlesung: http://www.mathematik.uni-trier.de/ wengenroth/ J. Wengenroth () 15. Mai 2009 1 / 35 3.1 Beispiel

Mehr

Häufigkeitstabellen. Balken- oder Kreisdiagramme. kritischer Wert für χ2-test. Kontingenztafeln

Häufigkeitstabellen. Balken- oder Kreisdiagramme. kritischer Wert für χ2-test. Kontingenztafeln Häufigkeitstabellen Menüpunkt Data PivotTable Report (bzw. entsprechendes Icon): wähle Data Range (Zellen, die die Daten enthalten + Zelle mit Variablenname) wähle kategoriale Variable für Spalten- oder

Mehr

Auswertung und Darstellung wissenschaftlicher Daten (1)

Auswertung und Darstellung wissenschaftlicher Daten (1) Auswertung und Darstellung wissenschaftlicher Daten () Mag. Dr. Andrea Payrhuber Zwei Schritte der Auswertung. Deskriptive Darstellung aller Daten 2. analytische Darstellung (Gruppenvergleiche) SPSS-Andrea

Mehr

Statistik im Bachelor-Studium der BWL und VWL

Statistik im Bachelor-Studium der BWL und VWL Max C. Wewel Statistik im Bachelor-Studium der BWL und VWL Methoden, Anwendung, Interpretation Mit herausnehmbarer Formelsammlung ein Imprint von Pearson Education München Boston San Francisco Harlow,

Mehr

Empirische Softwaretechnik. Einführung in das Statistikpaket R?! Entwickler von R. nicht vergleichbar mit den üblichen Statistikprogrammen

Empirische Softwaretechnik. Einführung in das Statistikpaket R?! Entwickler von R. nicht vergleichbar mit den üblichen Statistikprogrammen Empirische Softwaretechnik Einführung in das Statistikpaket Prof. Dr. Walter F. Tichy Dr. Frank Padberg Sommersemester 2007 1 2 R?! nicht vergleichbar mit den üblichen Statistikprogrammen wie SAS oder

Mehr

Multivariate Zeitreihenanalyse mit EViews 4.1

Multivariate Zeitreihenanalyse mit EViews 4.1 Multivariate Zeitreihenanalyse mit EViews 4.1 Unterlagen für LVen des Instituts für Angewandte Statistic (IFAS) Johannes Kepler Universität Linz Stand: 30. Mai 2005, Redaktion: Frühwirth-Schnatter 1 Deskriptive

Mehr

5.2. Nichtparametrische Tests. 5.2.1. Zwei unabhängige Stichproben: U- Test nach MANN- WHITNEY

5.2. Nichtparametrische Tests. 5.2.1. Zwei unabhängige Stichproben: U- Test nach MANN- WHITNEY 5.2. Nichtparametrische Tests 5.2.1. Zwei unabhängige Stichproben: U- Test nach MANN- WHITNEY Voraussetzungen: - Die Verteilungen der beiden Grundgesamtheiten sollten eine ähnliche Form aufweisen. - Die

Mehr

Linearer Zusammenhang von Datenreihen

Linearer Zusammenhang von Datenreihen Linearer Zusammenhang von Datenreihen Vielen Problemen liegen (möglicherweise) lineare Zusammenhänge zugrunde: Mein Internetanbieter verlangt eine Grundgebühr und rechnet minutenweise ab Ich bestelle ein

Mehr

3 Berechnungen und Variablen

3 Berechnungen und Variablen 3 Berechnungen und Variablen Du hast Python installiert und weißt, wie man die Python-Shell startet. Jetzt kannst Du etwas damit machen. Wir fangen mit ein paar einfachen Berechnungen an und wenden uns

Mehr

Regressionsanalysen. Zusammenhänge von Variablen. Ziel der Regression. ( Idealfall )

Regressionsanalysen. Zusammenhänge von Variablen. Ziel der Regression. ( Idealfall ) Zusammenhänge von Variablen Regressionsanalysen linearer Zusammenhang ( Idealfall ) kein Zusammenhang nichtlinearer monotoner Zusammenhang (i.d.regel berechenbar über Variablentransformationen mittels

Mehr

Kapitel 23 Lineare Regression

Kapitel 23 Lineare Regression Kapitel 23 Lineare Regression Sowohl einfache als auch multiple Regressionsanalysen können Sie mit dem Befehl STATISTIK REGRESSION LINEAR... durchführen. Dabei lassen sich mit Hilfe diverser Optionen zahlreiche

Mehr

Projektaufgaben Block 2

Projektaufgaben Block 2 Kurs BZQ III - Stochastikpraktikum WS 2013/14 Humboldt-Universität zu Berlin Randolf Altmeyer Philip-Moritz Eckert Projektaufgaben Block 2 Abgabe: bis 10.12.2013 Zur Einstimmung (freiwillig, ohne Abgabe)

Mehr

T-TEST BEI EINER STICHPROBE:

T-TEST BEI EINER STICHPROBE: Kapitel 19 T-Test Mit Hilfe der T-TEST-Prozeduren werden Aussagen über Mittelwerte getroffen. Dabei wird versucht, aus den Beobachtungen einer Stichprobe Rückschlüsse auf die Grundgesamtheit zu ziehen.

Mehr

Das Dialogfeld für die Regressionsanalyse ("Lineare Regression") findet sich im Statistik- Menu unter "Regression"-"Linear":

Das Dialogfeld für die Regressionsanalyse (Lineare Regression) findet sich im Statistik- Menu unter Regression-Linear: Lineare Regression Das Dialogfeld für die Regressionsanalyse ("Lineare Regression") findet sich im Statistik- Menu unter "Regression"-"Linear": Im einfachsten Fall werden mehrere Prädiktoren (oder nur

Mehr

3 Zusammenhangsmaße Zusammenhangshypothesen

3 Zusammenhangsmaße Zusammenhangshypothesen 3 Zusammenhangsmaße Zusammenhangshypothesen Zusammenhänge (zwischen 2 Variablen) misst man mittels Korrelationen. Die Wahl der Korrelation hängt ab von: a) Skalenniveau der beiden Variablen: 1) intervallskaliert

Mehr

Kapitel 3. Zufallsvariable. Wahrscheinlichkeitsfunktion, Dichte und Verteilungsfunktion. Erwartungswert, Varianz und Standardabweichung

Kapitel 3. Zufallsvariable. Wahrscheinlichkeitsfunktion, Dichte und Verteilungsfunktion. Erwartungswert, Varianz und Standardabweichung Kapitel 3 Zufallsvariable Josef Leydold c 2006 Mathematische Methoden III Zufallsvariable 1 / 43 Lernziele Diskrete und stetige Zufallsvariable Wahrscheinlichkeitsfunktion, Dichte und Verteilungsfunktion

Mehr

Übungsserie Nr. 10 mit Lösungen

Übungsserie Nr. 10 mit Lösungen Übungsserie Nr. 10 mit Lösungen 1 Ein Untersuchungsdesign sieht einen multivariaten Vergleich einer Stichprobe von Frauen mit einer Stichprobe von Männern hinsichtlich der Merkmale X1, X2 und X3 vor (Codierung:

Mehr

Schätzer (vgl. Kapitel 1): Stichprobenmittel X N. Stichprobenmedian X N

Schätzer (vgl. Kapitel 1): Stichprobenmittel X N. Stichprobenmedian X N Prof. Dr. J. Franke Statistik II für Wirtschaftswissenschaftler 8.1 Schätzer für Lage- und Skalenparameter und Verteilungsmodellwahl Lageparameter (l(x + a) = l(x) + a): Erwartungswert EX Median von X

Mehr

Einleitung 19. Teil I SPSS kennen lernen 25. Kapitel 1 In 25 Minuten zum SPSS-Profi 27

Einleitung 19. Teil I SPSS kennen lernen 25. Kapitel 1 In 25 Minuten zum SPSS-Profi 27 Inhaltsverzeichnis Einleitung 19 SPSS oder PASW oder was? 19 Über dieses Buch 20 Konventionen in diesem Buch 20 Was Sie nicht lesen müssen 21 Törichte Annahmen über den Leser 21 Wie dieses Buch aufgebaut

Mehr

Microsoft Excel 2010 Matrix-Funktionen

Microsoft Excel 2010 Matrix-Funktionen Hochschulrechenzentrum Justus-Liebig-Universität Gießen Microsoft Excel 2010 Matrix-Funktionen Matrix-Funktionen in Excel 2010 Seite 1 von 7 Inhaltsverzeichnis Einleitung... 2 Integrierte Matrixfunktionen...

Mehr

Multiple Regression. Ziel: Vorhersage der Werte einer Variable (Kriterium) bei Kenntnis der Werte von zwei oder mehr anderen Variablen (Prädiktoren)

Multiple Regression. Ziel: Vorhersage der Werte einer Variable (Kriterium) bei Kenntnis der Werte von zwei oder mehr anderen Variablen (Prädiktoren) Multiple Regression 1 Was ist multiple lineare Regression? Ziel: Vorhersage der Werte einer Variable (Kriterium) bei Kenntnis der Werte von zwei oder mehr anderen Variablen (Prädiktoren) Annahme: Der Zusammenhang

Mehr

Institut für Soziologie Dr. Christian Ganser. Methoden 2. Einführung, grundlegende PASW-Bedienung, univariate Statistik

Institut für Soziologie Dr. Christian Ganser. Methoden 2. Einführung, grundlegende PASW-Bedienung, univariate Statistik Institut für Soziologie Dr. Methoden 2 Einführung, grundlegende PASW-Bedienung, univariate Statistik Programm Wiederholung zentraler Aspekten der Übungen Literatur zur Veranstaltung Erste Schritte mit

Mehr

29. Mai 2006. 5. Bei Unterschleif gilt die Klausur als nicht bestanden und es erfolgt eine Meldung an das Prüfungsamt.

29. Mai 2006. 5. Bei Unterschleif gilt die Klausur als nicht bestanden und es erfolgt eine Meldung an das Prüfungsamt. L. Fahrmeir, C. Belitz Department für Statistik Bitte für die Korrektur freilassen! Aufgabe 1 2 3 4 Punkte Klausur zur Vorlesung Statistik III für Studenten mit Wahlfach Statistik 29. Mai 2006 Hinweise:

Mehr

6. METRISCHE UND KATEGORIALE MERKMALE

6. METRISCHE UND KATEGORIALE MERKMALE 6. METRISCHE UND KATEGORIALE MERKMALE wenn an einer Beobachtungseinheit eine (oder mehrere) metrische und eine (oder mehrere) kategoriale Variable(n) erhoben wurden Beispiel: Haushaltsarbeit von Teenagern

Mehr

Einführung. Vorlesungen zur Komplexitätstheorie: Reduktion und Vollständigkeit (3) Vorlesungen zur Komplexitätstheorie. K-Vollständigkeit (1/5)

Einführung. Vorlesungen zur Komplexitätstheorie: Reduktion und Vollständigkeit (3) Vorlesungen zur Komplexitätstheorie. K-Vollständigkeit (1/5) Einführung 3 Vorlesungen zur Komplexitätstheorie: Reduktion und Vollständigkeit (3) Univ.-Prof. Dr. Christoph Meinel Hasso-Plattner-Institut Universität Potsdam, Deutschland Hatten den Reduktionsbegriff

Mehr

1. Biometrische Planung

1. Biometrische Planung 1. Biometrische Planung Die biometrische Planung ist Teil der Studienplanung für wissenschaftliche Studien, in denen eine statistische Bewertung von Daten erfolgen soll. Sie stellt alle erforderlichen

Mehr

Profil A 49,3 48,2 50,7 50,9 49,8 48,7 49,6 50,1 Profil B 51,8 49,6 53,2 51,1 51,1 53,4 50,7 50 51,5 51,7 48,8

Profil A 49,3 48,2 50,7 50,9 49,8 48,7 49,6 50,1 Profil B 51,8 49,6 53,2 51,1 51,1 53,4 50,7 50 51,5 51,7 48,8 1. Aufgabe: Eine Reifenfirma hat für Winterreifen unterschiedliche Profile entwickelt. Bei jeweils gleicher Geschwindigkeit und auch sonst gleichen Bedingungen wurden die Bremswirkungen gemessen. Die gemessenen

Mehr

Grundlagen der Datenanalyse am Beispiel von SPSS

Grundlagen der Datenanalyse am Beispiel von SPSS Grundlagen der Datenanalyse am Beispiel von SPSS Einführung Dipl. - Psych. Fabian Hölzenbein hoelzenbein@psychologie.uni-freiburg.de Einführung Organisatorisches Was ist Empirie? Was ist Statistik? Dateneingabe

Mehr

Stichprobenauslegung. für stetige und binäre Datentypen

Stichprobenauslegung. für stetige und binäre Datentypen Stichprobenauslegung für stetige und binäre Datentypen Roadmap zu Stichproben Hypothese über das interessierende Merkmal aufstellen Stichprobe entnehmen Beobachtete Messwerte abbilden Schluss von der Beobachtung

Mehr

HTS-Berichte des ZTD - 01/2002 Vergleichsuntersuchung WILDE-Intelligenz-Test - Daten BFW Leipzig Bearbeiterin: A. Bettinville

HTS-Berichte des ZTD - 01/2002 Vergleichsuntersuchung WILDE-Intelligenz-Test - Daten BFW Leipzig Bearbeiterin: A. Bettinville UNIVERSITÉ DE FRIBOURG SUISSE UNIVERSITÄT FREIBURG SCHWEIZ ZENTRUM FÜR TESTENTWICKLUNG UND DIAGNOSTIK AM DEPARTEMENT FÜR PSYCHOLOGIE CENTRE POUR LE DEVELOPPEMENT DE TESTS ET LE DIAGNOSTIC AU DEPARTEMENT

Mehr

Webergänzung zu Kapitel 10

Webergänzung zu Kapitel 10 Webergänzung zu Kapitel 10 10.1.4 Varianzanalyse (ANOVA: analysis of variance) Im Kapitel 10 haben wir uns hauptsächlich mit Forschungsbeispielen beschäftigt, die nur zwei Ergebnissätze hatten (entweder

Mehr

Universität Bonn 28. Juli 2010 Fachbereich Rechts- und Wirtschaftswissenschaften Statistische Abteilung Prof. Dr. A. Kneip. KLAUSUR Statistik B

Universität Bonn 28. Juli 2010 Fachbereich Rechts- und Wirtschaftswissenschaften Statistische Abteilung Prof. Dr. A. Kneip. KLAUSUR Statistik B Universität Bonn 28. Juli 2010 Fachbereich Rechts- und Wirtschaftswissenschaften Statistische Abteilung Prof. Dr. A. Kneip Sommersemester 2010 KLAUSUR Statistik B Hinweise zur Bearbeitung: Bei allen Teilaufgaben

Mehr

Abhängigkeit zweier Merkmale

Abhängigkeit zweier Merkmale Abhängigkeit zweier Merkmale Johannes Hain Lehrstuhl für Mathematik VIII Statistik 1/33 Allgemeine Situation Neben der Untersuchung auf Unterschiede zwischen zwei oder mehreren Untersuchungsgruppen hinsichtlich

Mehr

Multivariate Verfahren

Multivariate Verfahren Selbstkontrollarbeit 2 Multivariate Verfahren Musterlösung Aufgabe 1 (28 Punkte) Der Marketing-Leiter einer Lebensmittelherstellers möchte herausfinden, mit welchem Richtpreis eine neue Joghurt-Marke auf

Mehr

Faktorenanalyse. 1. Grundlegende Verfahren. Bacher, SoSe2007

Faktorenanalyse. 1. Grundlegende Verfahren. Bacher, SoSe2007 Faktorenanalyse Bacher, SoSe2007 1. Grundlegende Verfahren explorative FA (EXFA): Für eine Menge von Variablen/Items werden zugrunde liegende gemeinsame (latente) Dimensionen/Faktoren gesucht, die Faktorstruktur

Mehr

Inhaltsverzeichnis. Fragestellungen und Methoden 11. Vorwort 15. Kapitel 1 Einführung 17. Kapitel 2 Statistische Grundbegriffe 23

Inhaltsverzeichnis. Fragestellungen und Methoden 11. Vorwort 15. Kapitel 1 Einführung 17. Kapitel 2 Statistische Grundbegriffe 23 Fragestellungen und Methoden 11 Vorwort 15 Kapitel 1 Einführung 17 1.1 KonzeptiondesBuchs... 18 1.2 AufbaudesBuchs... 19 1.3 Programmversionen von PASW bzw. SPSS..... 20 1.4 WiekanndiesesBuchverwendetwerden?...

Mehr

Felix-Nicolai Müller. Seminar Fragebogenmethodik - WS2009/2010 - Universität Trier Dr. Dirk Kranz 24.11.2009

Felix-Nicolai Müller. Seminar Fragebogenmethodik - WS2009/2010 - Universität Trier Dr. Dirk Kranz 24.11.2009 Cohen s Kappa Felix-Nicolai Müller Seminar Fragebogenmethodik - WS2009/2010 - Universität Trier Dr. Dirk Kranz 24.11.2009 Felix-Nicolai Müller Cohen s Kappa 24.11.2009 1 / 21 Inhaltsverzeichnis 1 2 3 4

Mehr

Kreuztabellenanalyse -Zusammenhangsmaße

Kreuztabellenanalyse -Zusammenhangsmaße Lehrveranstaltung Empirische Forschung und Politikberatung der Universität Bonn, WS 2007/2008 Kreuztabellenanalyse -Zusammenhangsmaße 14. Dezember 2007 Anja Hall, Bundesinstitut für Berufsbildung, AB 2.2:

Mehr

Datenanalyse mit SPSS spezifische Analysen

Datenanalyse mit SPSS spezifische Analysen Datenanalyse mit SPSS spezifische Analysen Arnd Florack Tel.: 0251 / 83-34788 E-Mail: florack@psy.uni-muenster.de Raum 2.015 Sprechstunde: Dienstags 15-16 Uhr 25. Mai 2001 2 Auswertung von Häufigkeitsdaten

Mehr

Kapitel 7: Varianzanalyse mit Messwiederholung

Kapitel 7: Varianzanalyse mit Messwiederholung Kapitel 7: Varianzanalyse mit Messwiederholung Durchführung einer einfaktoriellen Varianzanalyse mit Messwiederholung 1 Durchführung einer zweifaktoriellen Varianzanalyse mit Messwiederholung auf einem

Mehr

Binäre abhängige Variablen

Binäre abhängige Variablen Binäre abhängige Variablen Thushyanthan Baskaran thushyanthan.baskaran@awi.uni-heidelberg.de Alfred Weber Institut Ruprecht Karls Universität Heidelberg Einführung Oft wollen wir qualitative Variablen

Mehr

Allgemeines Lineares Modell: Univariate Varianzanalyse und Kovarianzanalyse

Allgemeines Lineares Modell: Univariate Varianzanalyse und Kovarianzanalyse Allgemeines Lineares Modell: Univariate Varianzanalyse und Kovarianzanalyse Univariate Varianz- und Kovarianzanlyse, Multivariate Varianzanalyse und Varianzanalyse mit Messwiederholung finden sich unter

Mehr

3.3 Eigenwerte und Eigenräume, Diagonalisierung

3.3 Eigenwerte und Eigenräume, Diagonalisierung 3.3 Eigenwerte und Eigenräume, Diagonalisierung Definition und Lemma 3.3.1. Sei V ein K-Vektorraum, φ End K (V ), λ K. Wir defnieren den zu λ gehörigen Eigenraum von φ als Dies ist ein Unterraum von V.

Mehr

Standardab er des. Testwert = 145.5 95% Konfidenzintervall. T df Sig. (2-seitig) Differenz Untere Obere -2.011 698.045-5.82-11.50 -.14.

Standardab er des. Testwert = 145.5 95% Konfidenzintervall. T df Sig. (2-seitig) Differenz Untere Obere -2.011 698.045-5.82-11.50 -.14. Aufgabe : einfacher T-Test Statistik bei einer Stichprobe Standardfehl Standardab er des Mittelwert weichung Mittelwertes 699 39.68 76.59 2.894 Test bei einer Sichprobe Testwert = 45.5 95% Konfidenzintervall

Mehr

Einführung in die Statistik mir R

Einführung in die Statistik mir R Einführung in die Statistik mir R ww w. syn t egris.de Überblick GESCHÄFTSFÜHRUNG Andreas Baumgart, Business Processes and Service Gunar Hofmann, IT Solutions Sven-Uwe Weller, Design und Development Jens

Mehr

Grundlagen quantitativer Sozialforschung Interferenzstatistische Datenanalyse in MS Excel

Grundlagen quantitativer Sozialforschung Interferenzstatistische Datenanalyse in MS Excel Grundlagen quantitativer Sozialforschung Interferenzstatistische Datenanalyse in MS Excel 16.11.01 MP1 - Grundlagen quantitativer Sozialforschung - (4) Datenanalyse 1 Gliederung Datenanalyse (inferenzstatistisch)

Mehr

Varianzanalyse ANOVA

Varianzanalyse ANOVA Varianzanalyse ANOVA Johannes Hain Lehrstuhl für Mathematik VIII Statistik 1/23 Einfaktorielle Varianzanalyse (ANOVA) Bisher war man lediglich in der Lage, mit dem t-test einen Mittelwertsvergleich für

Mehr

Korrelation. Übungsbeispiel 1. Übungsbeispiel 4. Übungsbeispiel 2. Übungsbeispiel 3. Korrel.dtp Seite 1

Korrelation. Übungsbeispiel 1. Übungsbeispiel 4. Übungsbeispiel 2. Übungsbeispiel 3. Korrel.dtp Seite 1 Korrelation Die Korrelationsanalyse zeigt Zusammenhänge auf und macht Vorhersagen möglich Was ist Korrelation? Was sagt die Korrelationszahl aus? Wie geht man vor? Korrelation ist eine eindeutige Beziehung

Mehr

Regression mit Gretl Eine erste Einführung 1

Regression mit Gretl Eine erste Einführung 1 Kurzeinführung in Gretl S. 1 Regression mit Gretl Eine erste Einführung 1 Installation: Gretl für das entsprechende Betriebssystem herunterladen und die Setup-Datei ausführen. Hinweis: Für die Benutzung

Mehr

Multivariate and Geostatistical Data Analysis. Multivariate and Geostatistical Data Analysis

Multivariate and Geostatistical Data Analysis. Multivariate and Geostatistical Data Analysis Multivariate and Geostatistical Data Analysis Multivariate and Geostatistical Data Analysis c 2012 Helmut Schaeben Geomathematics and Geoinformatics Technische Universität Bergakademie Freiberg, Germany

Mehr

14.01.14 DAS THEMA: INFERENZSTATISTIK II. Standardfehler Konfidenzintervalle Signifikanztests. Standardfehler

14.01.14 DAS THEMA: INFERENZSTATISTIK II. Standardfehler Konfidenzintervalle Signifikanztests. Standardfehler DAS THEMA: INFERENZSTATISTIK II INFERENZSTATISTISCHE AUSSAGEN Standardfehler Konfidenzintervalle Signifikanztests Standardfehler der Standardfehler Interpretation Verwendung 1 ZUR WIEDERHOLUNG... Ausgangspunkt:

Mehr

6 Symmetrische Matrizen und quadratische Formen

6 Symmetrische Matrizen und quadratische Formen Mathematik für Ingenieure II, SS 9 Freitag. $Id: quadrat.tex,v.5 9//5 ::59 hk Exp $ $Id: orthogonal.tex,v.4 9// ::54 hk Exp $ $Id: fourier.tex,v. 9// :: hk Exp $ Symmetrische Matrizen und quadratische

Mehr

Auswertung mit dem Statistikprogramm SPSS: 30.11.05

Auswertung mit dem Statistikprogramm SPSS: 30.11.05 Auswertung mit dem Statistikprogramm SPSS: 30.11.05 Seite 1 Einführung SPSS Was ist eine Fragestellung? Beispiel Welche statistische Prozedur gehört zu welcher Hypothese? Statistische Berechnungen mit

Mehr

# # Daten aus einem csv-file einlesen # readerout = reader(open("daten.csv","rb"),delimiter=',');

# # Daten aus einem csv-file einlesen # readerout = reader(open(daten.csv,rb),delimiter=','); -*- coding: utf-8 -*- This Python-program was developed using "Enthought Canopy v. 1.4.1", a Pytho analysis environment, on a MacBook Pro running OS X 10.9.5 written by T. Ihn, D-PHYS ETH Zurich, 5 Oct

Mehr

Multiple Regression II: Signifikanztests, Gewichtung, Multikollinearität und Kohortenanalyse

Multiple Regression II: Signifikanztests, Gewichtung, Multikollinearität und Kohortenanalyse Multiple Regression II: Signifikanztests,, Multikollinearität und Kohortenanalyse Statistik II Übersicht Literatur Kausalität und Regression Inferenz und standardisierte Koeffizienten Statistik II Multiple

Mehr

Austausch- bzw. Übergangsprozesse und Gleichgewichtsverteilungen

Austausch- bzw. Übergangsprozesse und Gleichgewichtsverteilungen Austausch- bzw. Übergangsrozesse und Gleichgewichtsverteilungen Wir betrachten ein System mit verschiedenen Zuständen, zwischen denen ein Austausch stattfinden kann. Etwa soziale Schichten in einer Gesellschaft:

Mehr

Angewandte Ökonometrie, WS 2012/13, 1. Teilprüfung am 6.12.2012 - Lösungen. Das folgende Modell ist ein GARCH(1,1)-Modell:

Angewandte Ökonometrie, WS 2012/13, 1. Teilprüfung am 6.12.2012 - Lösungen. Das folgende Modell ist ein GARCH(1,1)-Modell: Angewandte Ökonometrie, WS 2012/13, 1. Teilprüfung am 6.12.2012 - Lösungen LV-Leiterin: Univ.Prof.Dr. Sylvia Frühwirth-Schnatter 1 Wahr oder falsch? 1. Das folgende Modell ist ein GARCH(1,1)-Modell: Y

Mehr

Einführung in SPSS. 1. Die Datei Seegräser

Einführung in SPSS. 1. Die Datei Seegräser Einführung in SPSS 1. Die Datei Seegräser An 25 verschiedenen Probestellen wurde jeweils die Anzahl der Seegräser pro m 2 gezählt und das Vorhandensein von Seeigeln vermerkt. 2. Programmaufbau Die wichtigsten

Mehr