Kapitel 3. Erste Schritte der Datenanalyse. 3.1 Einlesen und Überprüfen der Daten

Größe: px
Ab Seite anzeigen:

Download "Kapitel 3. Erste Schritte der Datenanalyse. 3.1 Einlesen und Überprüfen der Daten"

Transkript

1 Kapitel 3 Erste Schritte der Datenanalyse 3.1 Einlesen und Überprüfen der Daten Nachdem die Daten erfasst worden sind, etwa mit Hilfe eines Fragebogens, ist die nächste Frage, wie ich sie in den Rechner bekomme. Wir haben in Kapitel 1.2 gesagt, dass die Daten in einer Datenmatrix stehen sollen. Jede Zeile steht für einen Merkmalsträger, jede Spalte für eine Variable. Es ist am einfachsten, die Daten mit einem Editor oder einem Tabellenprogramm wie Excel in Matrixform zu schreiben. Die im ersten Übungsblatt verwendeten Daten des Fragebogens zur Statistischen Methodenlehre I wurden mit einem Sprachprogramm eingelesen und lagen mir dann in Matrixform vor (siehe Folie), so sieht es jedenfalls aus. Doch standen in einer Zeile die Beobachtungen für mehrere Merkmalsträger. Deshalb konnten die Daten mit dem R-Befehl scan nur als Vektor eingelesen werden. (Vor der Erfassung der Daten ist zunächst die Codierung für die qualitativen Variablen zu überlegen, ferner wie die fehlenden Werte zu behandeln sind. Hier wurde (siehe Folie) für die fehlenden Werte NA eingegeben, das Zeichen, das auch in R für fehlende Werte verwendet wird.) frag.vec<-scan(file) Das Einlesen der Daten geschieht zeilenweise. Aus diesem Vektor wurde dann mit matrix eine Matrix gebildet, wobei die Zahlen wieder zeilenweise einzulesen sind (byrow=t). Es ist entweder die richtige Zeilen- oder Spaltenanzahl oder auch beides einzugeben. frag.mat<-matrix(frag.vec,byrow=t,ncol=30) oder frag.mat<-matrix(frag.vec,byrow=t,ncol=30,nrow=239) oder frag.mat<-matrix(scan(file),byrow=t,ncol=30). Wären die Daten schon in der richtigen Matrixform gespeichert worden, etwa als Excel-Datei (im Textformat speichern), so hätte man den Befehl read.table verwenden können: frag.mat<-read.table(file,sep="") Nach dem Einlesen der Daten, sind diese auf Fehler zu überprüfen (siehe z.b, Chatfield und Collins, 1991, S. 36). Bei den Daten dieses Fragebogens stellte sich heraus, dass er einige unmögliche Werte enthielt (z.b. zu kleine Gewichte oder Körpergrößen oder Schuhgrößen wie 24 und 97). Deshalb empfielt es sich zu überprüfen, ob die Daten im richtigen Wertebereich liegen. Hier hatte das Sprachprogramm wiederholt einige Ziffern vertauscht, z.b. 18 statt 81. Die Überprüfung der Daten (man kann in R dazu die Befehle range oder table oder sort verwenden, ist ein wichtiger Schritt, bevor die eigentliche Auswertung der Daten beginnen kann. Wir können jedoch aus zeitlichen Gründen nicht näher darauf eingehen. 22

2 3.2. ERSTE STATISTIKEN Erste Statistiken Mittelwert, Standardabweichung, Korrelation Bei einer univariaten Analyse beginnt man in der Regel mit einer Berechnung des Mittelwertes und der Standardabweichung (oder der Varianz). Genauer sollten wir sagen, man berechnet die Momente in der Stichprobe. Bei einem multivariaten Datensatz berechnet man zusätzlich für jedes mögliche Paar von Variablen den Korrelationskoeffizienten. Der Stichprobenmittelwert der j-ten Variablen ist gegeben durch: x j = 1 n x rj n Mit x bezeichnen wir den Mittelwertvektor, d.h. x = ( x 1, x 2,..., x m ). Falls es sich bei dem Datensatz um eine zufällige Stichprobe aus einer Grundgesamtheit mit Erwartungswert µ handelt, ist der Stichprobenmittelwertvektor x der übliche Punktschätzer, welcher erwartungstreu ist. Die Standardabweichung der j-ten Variablen ist: s j = 1 n (x rj x j ) n 1 2 Der Korrelationskoeffizient zwischen der i-ten und j-ten Variablen ist gegeben durch: r ij = 1 n 1 n (x ri x i )(x rj x j ) = s i s j n (x ri x i )(x rj x j ) (n 1)s i s j Die Korrelationskoeffizienten werden üblicherweise in der (Stichproben-)Korrelationsmatrix zusammengefasst, die gegeben ist durch: R = 1 r r 1m r r 2m. r m1 r m Die Diagonalelemente sind alle 1. Diese Matrix kann als Schätzer der Korrelationsmatrix P (Rho) der Grundgesamtheit aufgefasst werden. Mittelwerte und Standardabweichungen können als Lage- und Streuungsparameter aufgefasst werden. Grafische Darstellung: Es empfiehlt sich auch eine grafische Darstellung der Daten, um einen Eindruck von der Form der Verteilung zu bekommen. Aus der Datei frag.frame, die die Daten zum Fragebogen in Statistik I enthält (siehe Übungsblatt 1), wurden die drei Variablen Körpergröße, Schuhgröße, Gewicht herausgegriffen: teil.frame<-frag.frame[,c(3,4,5)] Da der Datensatz fehlende Werte enthielt, wurden diese zur Vereinfachung entfernt. Hier wurden alle Zeilen entfernt, bei denen einer der drei Werte fehlte. teil01.frame <- teil.frame[is.finite(teil.frame[,1]) & is.finite (teil.frame[,2]) & is.finite (teil.frame[,3]),]

3 24 KAPITEL 3. ERSTE SCHRITTE DER DATENANALYSE Wir verwenden hier für unsere Datenmatrizen die Endung.frame, da es sich um R-Objekte vom Typ data.frame handelt. Diese können Variablen von unterschiedlichem Datentyp (numeric, character oder logical) enthalten. Die Grafik 3.1 wurde mit dem Befehl pairs(teil01.frame) erzeugt. Man nennt diese Grafik Scatterplotmatrix. Alle Paare von Variablen werden gegeneinander geplottet. Wie in der Kovarianz- oder Korrelationsmatrix erscheinen dieselben Paare zweier Variablen oberund unterhalb der Diagonalen spiegelbildlich (x und y vertauscht). Es ist möglich, oberhalb und unterhalb der Diagonalen verschiedene Grafiken zu erzeugen und auch in der Diagonalen eine Grafik der entsprechenden Variablen anstelle des Variablennamens Groesse Schuh Gewicht Abbildung 3.1: Scatterplotmatrix Die Grafik 3.2 wurde mit dem folgenden Befehl erzeugt: pairs( teil01.frame, lower.panel = panel.smooth, diag.panel = panel.hist, upper.panel = panel.cor) Dabei sind lower.panel, diag.panel und upper.panel Argumente zu pairs, mit denen man grafische Funktionen für den Bereich unterhalb der Diagonalen, für die Diagonale und für den Bereich oberhalb der Diagonale vereinbaren kann. Die hier verwendeten Funktionen panel.smooth, panel.hist und panel.cor sind in der Hilfe zu pairs als Beispiele angegeben und können einfach in die R-Console kopiert werden. Hier wird der Korrelationskoeffizient in den Bereich oberhalb der Diagonalen geschrieben. Die grafische Darstellung kann eventuell Hinweise auf eine Transformation einer Variablen geben. Häufig ist die logarithmische Transformation geeignet, die Schiefe der Verteilung zu reduzieren und Daten zu erzeugen, die eher normalverteilt sind als die Ursprungsdaten. Wir illustrieren dies in der Abbildung 3.3 am Beispiel der Schuhgrößen, die wir getrennt für Männer und Frauen betrachtet haben. Die Kovarianzmatrix in der Stichprobe: Wir bezeichnen die Kovarianzmatrix in der Stichprobe mit dem Buchstaben S. Das Element in der i-ten Zeile und j-ten Spalte wird mit s ij bezeichnet und ist die Stichprobenkovarianz zwischen der Variablen i und j: n s ij = (x ri x i )(x rj x j ) / ( n (n 1) = ) x ri x rj n x i x j /(n 1) (3.1) Wir verwenden (wie auch R) den Nenner (n-1) statt n und erhalten damit einen erwartungs-

4 3.2. ERSTE STATISTIKEN Groesse Schuh 0.79 Gewicht Abbildung 3.2: Scatterplotmatrix Männer Frauen Frequency Frequency Schuh[Geschlecht == 0] Schuh[Geschlecht == 1] Männer Frauen Frequency Frequency log(schuh[geschlecht == 0]) log(schuh[geschlecht == 1]) Abbildung 3.3: Histogramm der Schuhgrößen und logarithmierten Schuhgrößen nach Geschlecht treuen Schätzer der entsprechenden Kovarianz in der Grundgesamtheit. Für i = j erhalten wir die Stichprobenvarianz, die wir im multivariaten Fall mit s ii anstelle s 2 i im univariaten Fall bezeichnen. Dies vereinfacht die Schreibweise der Kovarianzmatrix: S = s 11 s s 1m s 21 s s 2m. s m1 s m2... s mm Da s ij für alle i und j ein erwartungstreuer Schätzer von σ ij ist, sagen wir: S ist ein erwartungstreuer Schätzer von Σ. Die Matrix S ist symmetrisch und in der Diagonalen stehen die Varianzen der Variablen. Die Standardabweichungen erhält man dann durch s i = s ii. Die Kovarianzen außerhalb der Diagonalen sind schwer zu interpretieren, da sie bekanntlich von der Dimension der Variablen abhängen. So sind sie im allgemeinen nur ein Rechenschritt

5 26 KAPITEL 3. ERSTE SCHRITTE DER DATENANALYSE auf dem Weg zur Berechnung der Korrelationskoeffizienten r ij = s ij /s i s j Diese Größen kann man auffassen als eine standardisierte Stichprobenkovarianz mit Werten zwischen -1 und +1. Die Berechnung der Kovarianzen kann direkt nach Gleichung 3.1 erfolgen. In Matrizenschreibweise sieht das so aus: S = (X 1 x t ) t (X 1 x t )/(n 1) = (X t X n x x t )/(n 1) (3.2) (Dabei ist 1 ein n-dimensionaler Spaltenvektor, dessen Elemente alle gleich 1 sind. Folglich ist das Matrizenprodukt 1 x eine n m Matrix, deren Elemente in der j-tenspalte alle gleich x j sind. In dem Ausdruck X 1 x t wird also von jedem Element der Datenmatrix der zugehörige Mittelwert der Variablen subtrahiert.) In Analogie zu Gleichung 2.7 kann man R auch so aus S berechnen: Wir definieren die Diagonalmatrix ˆD durch ˆD = s s s m Dann ist: R = ˆD 1 S ˆD 1 (3.3) Dabei ist ˆD 1 = 1/s /s /s m Zur Interpretation des Korrelationskoeffizienten sei gesagt, dass ein Korrelationskoeffizient nahe bei +1 oder -1 einen starken linearen Zusammenhang mit einer positiven bzw. negativen Steigung anzeigt, während ein Korrelationskoeffizient nahe Null aussagt, dass es nahezu keinen linearen Zusammenhang gibt. Die Betonung liegt auf linear. Man sollte den Korrelationskoeffizienten nicht ausrechnen, wenn der Zusammenhang zwischen zwei Variablen offensichtlich nichtlinear ist. Wir geben noch einen Test an zur Überprüfung der Hypothese, dass der Korrelationskoeffizient zwischen zwei Zufallsvariablen Null ist. Die Prüfgröße ist: PG = r n 2 / 1 r 2 In der Grafik 3.2 wurde als Korrelationskoeffizient zwischen Schuhgröße und Körpergröße der Wert 0.85 ausgewiesen. Mit n = 226 ist der Wert der Prüfgröße PG = / = Dieser Wert ist mit kritischen Werten der t-verteilung mit n 2 = 224 Freiheitsgraden zu vergleichen. Da die t-verteilung mit steigender Anzahl der Freiheitsgrade gegen die Standardnormalverteilung konvergiert, ist dieser Wert hochsignifikant. Dieser Test kann in R mit dem Befehl cor.test durchgeführt werden. Der Befehl

6 3.2. ERSTE STATISTIKEN 27 cor.test(groesse,schuh) ergibt die Ausgabe: Pearson s product-moment correlation data: Groesse and Schuh t = , df = 235, p-value = < 2.2e-16 alternative hypothesis: true correlation is not equal to 0 sample estimates: cor Der Wert der Prüfgröße ist also bei 235 Freiheitsgraden. Die veränderte Anzahl der Freiheitsgrade ergibt sich dadurch, dass hier alle Wertepaare verwendet werden, für die beide Werte für Groesse und Schuh vorliegen (es ist der Datensatz frag.frame zu verwenden. Oben wurden alle Wertepaare verwendet, für die alle Tripel (Groesse, Schuh und Gewicht) vollständig waren. Bei der Berechnung von Kovarianz- oder Korrelationsmatrizen mit R hat man entsprechend zwei Optionen. Die Funktionen var, cov und cor haben das Argument use mit den Optionen "all.obs ", "complete.obs" oder "pairwise.complete.obs ". Bei der ersten Option erhält man nur dann einen Wert, wenn alle Datensätze vollständig sind. Bei der zweiten Option werden nur die Zeilen der Datenmatrix verwendet, die vollständig sind (für alle Spalten Werte haben). Bei der dritten Option werden die Datensätze verwendet, die für das jeweilige Paar von Variablen vollständig sind. Bei der Betrachtung der Kovarianzmatrix in der Übung war die hohe Kovarianz (1038) zwischen den Variablen UeGewicht und Woerter auffallend. Wir wissen zwar, dass die Kovarianz nichts über die Stärke des Zusammenhangs aussagt. Bei der Variablen UeGewicht handelt es sich um das geschätzte Gewicht des Übungsbuches zu Statistik I. Bei der Variablen Woerter sollte die Anzahl der Wörter auf einer kurzfristig aufgelegten Folie geschätzt werden. Falls diese hohe Kovarianz tatsächlich einen positiven Zusammenhang bedeuten würde, hieße das dann, dass Versuchspersonen dazu neigen, sich immer in der gleichen Richtung zu verschätzen? Nun der Korrelationskoeffizient ist ein dimensionsloses Maß für den linearen Zusammenhang. Er ergibt in diesem Fall: r = Der entsprechende Test (cor.test(uegewicht,woerter)) ergibt die Ausgabe: t = , df = 217, p-value = Das bedeutet: Der Wert der Prüfgröße ist bei 217 Freiheitsgraden (also war n=219). Der P-Wert ist , d.h. die Wahrscheinlichkeit bei einer t-verteilung mit 217 Freiheitsgraden einen extremeren Wert als zu erhalten ist Da diese Wahrscheinlichkeit nicht klein ist, kann die Hypothese, dass der Korrelationskoeffizient Null ist, nicht abgelehnt werden. Was bedeutet nun in diesem Fall extremer? Nun: die Wahrscheinlichkeit einen größeren Wert als zu erhalten, können wir so berechnen: 1-pt(0.6645,217) Das Ergebnis ist (gerundet) , also die Hälfte des P-Wertes. Der Test ist also zweiseitig. Es wird bei großen und kleinen Werten abgelehnt. Um zu entscheiden, welche Werte für den Korrelationskoeffizienten von Bedeutung sind, sollte man sich an den Zusammenhang zwischen dem Korrelationskoeffizienten und der Residualvarianz in Erinnerung rufen (Statistische Methodenlehre II).

7 28 KAPITEL 3. ERSTE SCHRITTE DER DATENANALYSE Mannschuh Manngroesse Abbildung 3.4: Schuhgrößen in Abhängigkeit der Körpergröße von Männern Die Abbildung 3.4, die mit den Befehlen Mannschuh<-Schuh[Geschlecht==0] Manngroesse<-Groesse[Geschlecht==0] plot(manngroesse,mannschuh) lsout<-lsfit(manngroesse,mannschuh) abline(lsout,lwd=2) abline(h=mean(mannschuh,na.rm=t),lwd=2) erzeugt wurde, zeigt den Zusammenhang zwischen der Schuhgröße und der Körpergröße von Männern. Bezeichnen wir die Variablen - wie im x, y-koordiantensystem üblich - mit x und y, so streut die Variable y einmal um ihren Mittelwert, die eingezeichnete waagrechte Gerade. Diese Streuung wird üblicherweise beschrieben durch die Summe der Quadrate Total, die Summe der quadrierten Abweichungen vom Mittelwert (SQ(Total) = n (y r ȳ) 2 ), Nun kann diese Streuung zum Teil durch den linearen Zusammenhang zwischen y und x erkärt werden. Da die nach der Methode der kleinsten Quadrate angepasste Gerade steigt, müssen y-werte mit steigendem x-wert zwangsläufig steigen. Es gibt Abweichungen zwischen der angepassten Geraden und dem Mittelwert, dies ergibt eine Summe der Quadrate Regression SQ(Regression) = n (ŷ r ȳ) 2 ). Dabei ist ŷ r der Wert der Geraden an der Stelle x r und schließlich verbleiben noch Abweichungen zwischen den Beobachtungen und der angepassten Geraden. Dies ergibt eine Summe der Quadrate der Residuale SQ(Residuale) = n (y r ŷ r ) 2. Nun ist: und SQ(Total) = SQ(Regression) + SQ(Residuale) r 2 = SQ(Regression) SQ(Total) Das bedeutet: r 2 ist der Anteil der Totalvariation, der durch die Regression, die lineare Beziehung zwischen y und x erklärt ist, während der Anteil der Restvariation, der Variation um die Gerade, 1 r 2 ist. Ergibt sich nun ein geschätzter Korrelationskoeffizient von r = 0.6, so bedeutet dies, dass 36% der Totalvariation durch die Regression erkärt sind, während 64%

8 3.2. ERSTE STATISTIKEN 29 Restvariation (unerklärte Variation oder Variation um die Gerade) bleiben. Die Varianz der Residuale (Abstände von der Geraden) beträgt also 64% der ursprünglichen Varianz (Streuung um die waagerechte Gerade). Betrachtet man die Standardabweichungen, so bedeutet dies, dass die Residualstandardabweichung immer noch 80% der ursprünglichen Standardabweichung ist. Wir hatten in unserem Beispiel (Schuhgröße, Körpergröße) r = 0.85 erhalten, d.h. r 2 = , d.h % der Totalvariation sind durch die Regression erklärt, für die Restvariation verbleiben 27.75% der ursprünglichen Variation. Die Residualstandardabweichung ist 52.68% der ursprünglichen Standardabweichung. Chatfield und Collins (1991) geben wichtige Hinweise zur Interpretation und Aufbereitung, d.h. Darstellung von Korrelationsmatrizen. Sie beziehen sich dabei teilweise auf Ehrenberg (1975, siehe auch Ehrenberg 1982, 1986). Zunächst beklagen sie, dass Computerprogramme Korrelationsmatrizen meist in unübersichtlicher Form ausgeben. Sie geben zu viele Stellen aus und bei vielen Variablen erscheint die Ausgabe, dann oft in zwei oder noch mehr Blöcken und wird dadurch unübersichtlich. Wir betrachten dazu ein Beispiel. Wir haben aus dem Datensatz frag.frame zur Befragung in Statistik I mit dem Befehl fragmet.frame<-frag.frame[,c(1,3:5,27:30)] einen Teildatensatz herausgenommen, der aus allen Variablen mit metrischem Skalenniveau besteht. Mit dem Befehl cor(fragmet.frame,use="c") erhalten wir die folgende Ausgabe (Tabelle 3.1). Tabelle 3.1: Ausgabe der Korrelationsmatrix in R Alter Groesse Schuh Gewicht UeGewicht Alter Groesse Schuh Gewicht UeGewicht GroeBoe Woerter ZuZahl GroeBoe Woerter ZuZahl Alter Groesse Schuh Gewicht UeGewicht GroeBoe Woerter ZuZahl Wir haben 8 Variablen, die Ausgabe erfolgt in zwei Blöcken, die Zahlen sind so lang (8 Nachkommastellen), dass man nichts erkennen kann. Chatfield und Collins (1991) empfehlen, die Anzahl der Dezimalstellen auf zwei zu begrenzen. Mit dem Befehl

9 30 KAPITEL 3. ERSTE SCHRITTE DER DATENANALYSE print(round(cor(fragmet.frame,use="c"),digits=2)) erhalten wir die Ausgabe in Tabelle 3.2. Tabelle 3.2: Ausgabe der Korrelationsmatrix in R Alter Groesse Schuh Gewicht UeGewicht GroeBoe Woerter ZuZahl Alter Groesse Schuh Gewicht UeGewicht GroeBoe Woerter ZuZahl Wichtig ist der Befehl round innerhalb des print-befehls. Ohne round erhält man allein mit dem Argument digits, d.h. mit dem Befehl print(cor(fragmet.frame,use="c"),digits=2) nicht die gewünschte Anzahl Dezimalstellen. Außerdem wird grundsätzlich nach oben gerundet. Die Ausgabe ist jedoch nach den Empfehlungen bei Chatfield und Collins noch nicht optimal. So fällt es z.b. schwer, die Variablen mit hoher Korrelation von denen mit niedriger Korrelation zu trennen. Dabei ist es bei diesem Datensatz eigentlich klar aufgrund der Erhebung, welche Variablen hoch und welche eigentlich nicht korreliert sein sollten. Die Variablen Körpergröße, Schuhgröße und Gewicht sollten hochkorreliert sein. Da es sich bei Studierenden um ausgewachsene Menschen handelt, sollte keine oder allenfalls geringe Korrelation mit dem Alter vorhanden sein. Bei den vier anderen Variablen, handelte es sich um Schätzaufgaben (Schätzen einer Körpergröße (GroeBoe), des Gewichts eines Buches (UeGewicht), der Anzahl Wörter (Woerter) auf einer Folie) und der Nennung einer Zahl (ZuZahl) zwischen 0 und 99. Diese Variablen sollten untereinander und mit den anderen Variablen unkorreliert sein. Man könnte also die Variablen in eine andere Reihenfolge bringen: zunächst die mit hoher Korrelation, dann Alter, dann die anderen mit erwarteter geringer Korrelation. Bevor wir das tun, schauen wir uns alle Empfehlungen bei Chatfiled und Collins an: a) Runde die Zahlen auf zwei Dezimalstellen, u.u. sogar auf eine Stelle. b) Lass die Elemente in der Diagonalen weg, da sie alle 1 sind. Sie lenken nur das Auge ab, ohne wertvolle Informationen zu geben. c) Lass die Nullen weg, die vor den Dezimalstellen bei den Elementen außerhalb der Diagonalen erscheinen. d) Obwohl die Matrix symmetrisch ist, ist es hilfreich, sowohl die Elemente unterhalb als auch oberhalb der Diagonalen anzugeben. e) Wähle einen engen Abstand zwischen den Zeilen und Spalten, da die Zahlen leichter zu vergleichen sind, wenn das Auge sich nicht zu viel hin und her bewegen muss.

10 3.2. ERSTE STATISTIKEN 31 Aber lass einen etwas größeren Abstand nach jeder fünften Zeile und Spalte, da es dann leichter ist, bestimmte Variablen zu lokalisieren. Wenn wir diese Empfehlungen beherzigen und außerdem die Variablen umordnen, erhalten wir die Tabelle 3.3. Wir haben die Namen der Variablen auf zwei Buchstaben abgekürzt, damit die Spalten näher zusammenrücken können. Diese Änderungen wurden mit einem Editor vorgenommen. Tabelle 3.3: Korrelationsmatrix, neu geordnet und bearbeitet Gr SG Gw Al ÜG GB Wö ZZ Gr SG Gw Al ÜG GB Wö ZZ Jetzt ist es möglich, die wesentlichen Aussagen dieser Korrelationsmatrix zu erkennen. Chatfield und Collins empfehlen noch, markante Ergebnisse durch Kreise zu markieren. In dieser Matrix ist auffallend, die hohe Korrelation zwischen den Variablen Körpergröße, Schuhgöße und Gewicht und dann die geringe Korrelation zwischen den Variablen, die aus Schätzaufgaben hervorgingen. Bei diesen ist die größte Korrelation zwischen den Variablen GroeBoe und Woerter mit Wir führen hier noch einmal den Test durch, dass die Korrelation Null ist und erhalten in R die folgende Ausgabe. cor.test(groeboe, Woerter) Pearson s product-moment correlation data: GroeBoe and Woerter t = , df = 230, p-value = alternative hypothesis: true correlation is not equal to 0 sample estimates: cor Wir erhalten jetzt einen anderen Wert für den Korrelationskoeffizienten. Das liegt daran, dass wir bei der Berechnung der Korrelationsmatrix das Argument use="c" gewählt hatten. Mit use="p" erhalten Sie dasselbe Ergebnis wie hier im Test. Die Hypothese, dass der Korrelationskoeffizient Null ist, lässt sich also nicht verwerfen. Der P-Wert ist Mit einer Irrtumswahrscheinlichkeit von 17.66% könnte man behaupten, dass der Korrelationskoeffizient von Null verschieden ist. Schauen wir uns jetzt noch die Variable Alter an. Sie hat die höchste Korrelation mit dem Körpergewicht. Das ist vielleicht am ehesten plausibel, dass das Körpergewicht bei jungen Erwachsenen mit dem Alter noch zunimmt. Auch hier führen wir den Test durch:

11 32 KAPITEL 3. ERSTE SCHRITTE DER DATENANALYSE cor.test(alter,gewicht) Pearson s product-moment correlation data: Alter and Gewicht t = , df = 223, p-value = alternative hypothesis: true correlation is not equal to 0 sample estimates: cor Der P-Wert ist in diesem Fall Mit einer Irrtumswahrscheinlichkeit von 0.08 lässt sich also behaupten, dass der Korrelationskoeffizient zwischen dem Alter und dem Körpergewicht von Null verschieden ist. Man mache sich aber klar, wie klein dieser Korrelationskoeffizient (r = 0.12) ist und wie schwach damit der lineare Zusammenhang zwischen diesen beiden Variablen ist. Wir erinnern uns: Der Anteil an der Gesamtvariation, der durch die Regression erklärt ist, ist r 2 = = = 1.44%. Damit entfallen 98.56% der Gesamtvariation auf die Variation um die Gerade. Die Standardabweichung der Residuale (Abstände von der Geraden) ist damit 99.28% der ursprünglichen Standardabweichung. Der Rang der Korrelationsmatrix: Wir bemerken hier noch, dass die Kovarianzmatrix S und damit wegen Gleichung 3.3 auch die Korrelationsmatrix R positiv semidefinit ist. Da die Diagonalmatrix ˆD nichtsingulär ist, haben R und S denselben Rang. Wegen Gleichung 3.2 und der Beziehung Rang(A) = Rang(AA t ) = Rang(A t A) für eine Matrix A folgt, dass auch die um die Mittelwerte bereinigte Datenmatrix (X 1 x t ) denselben Rang haben muss. Die Matrix (X 1 x t ) ist eine n m-matrix. Daher ist ihr Rang kleiner oder gleich min(n, m). Wenn es weniger Beobachtungen als Variablen gibt, d.h. n < m, dann ist der Rang(X 1 x t ) < m und daraus folgt, dass S und R singulär sind. Wenn n = m, ist (X 1 x t ) eine quadratische Matrix, für die jede Spaltensumme Null ist. Die Zeilenvektoren sind also linear abhängig, so dass der Rang kleiner als m ist. Damit sind auch S und R singulär mit Rang kleiner als m. Für n = 3 und m = 3 z.b. gibt es also nur drei Beobachtungen und wir können immer eine Ebene durch drei Punkte im dreidimensionalen Raum legen, so dass die Daten eigentlich zweidimensional sind. Um solche Singularitäten wegen zu kleiner Beobachtungszahl zu vermeiden, sollte die Anzahl der Beobachtungen stets größer als die Anzahl der Variablen sein. Wenn n > m, dann wird der Rang von S und (X 1 x t ) i.a. gleich m sein. Aber wenn es lineare Zusammenhänge zwischen den Zufallsvariablen gibt, sollten sie auch in den Stichprobendaten sein und zu singulären Matrizen (X 1 x t ), S und R führen. Die Anzahl der linearen Nebenbedingungen in den Daten ist gleich m Rang(R), so dass der Rang der Korrelationsmatrix die eigentliche Dimension der Daten angibt.

Klausur zur Vorlesung Multivariate Verfahren, SS 2006 6 Kreditpunkte, 90 min

Klausur zur Vorlesung Multivariate Verfahren, SS 2006 6 Kreditpunkte, 90 min Klausur, Multivariate Verfahren, SS 2006, 6 Kreditpunkte, 90 min 1 Prof. Dr. Fred Böker 08.08.2006 Klausur zur Vorlesung Multivariate Verfahren, SS 2006 6 Kreditpunkte, 90 min Gesamtpunkte: 39 Aufgabe

Mehr

Kapitel 4. Hauptkomponentenanalyse. 4.1 Einführung. 4.2 Herleitung der Hauptkomponenten

Kapitel 4. Hauptkomponentenanalyse. 4.1 Einführung. 4.2 Herleitung der Hauptkomponenten Kapitel 4 Hauptkomponentenanalyse 4. Einführung Die Hauptkomponentenanalyse ist eine variablenorientierte Methode, die, wie die Faktorenanalyse auch, versucht, die Originalvariablen durch eine kleinere

Mehr

2. Deskriptive Statistik 2.1. Häufigkeitstabellen, Histogramme, empirische Verteilungsfunktionen

2. Deskriptive Statistik 2.1. Häufigkeitstabellen, Histogramme, empirische Verteilungsfunktionen 4. Datenanalyse und Modellbildung Deskriptive Statistik 2-1 2. Deskriptive Statistik 2.1. Häufigkeitstabellen, Histogramme, empirische Verteilungsfunktionen Für die Auswertung einer Messreihe, die in Form

Mehr

9. Schätzen und Testen bei unbekannter Varianz

9. Schätzen und Testen bei unbekannter Varianz 9. Schätzen und Testen bei unbekannter Varianz Dr. Antje Kiesel Institut für Angewandte Mathematik WS 2011/2012 Schätzen und Testen bei unbekannter Varianz Wenn wir die Standardabweichung σ nicht kennen,

Mehr

Multivariate Statistik

Multivariate Statistik Hermann Singer Multivariate Statistik 1 Auflage 15 Oktober 2012 Seite: 12 KAPITEL 1 FALLSTUDIEN Abbildung 12: Logistische Regression: Geschätzte Wahrscheinlichkeit für schlechte und gute Kredite (rot/blau)

Mehr

Analytische Statistik I. Statistische Methoden in der Korpuslinguistik Heike Zinsmeister WS 2009/10

Analytische Statistik I. Statistische Methoden in der Korpuslinguistik Heike Zinsmeister WS 2009/10 Analytische Statistik I Statistische Methoden in der Korpuslinguistik Heike Zinsmeister WS 2009/10 Testen Anpassungstests (goodness of fit) Weicht eine gegebene Verteilung signifikant von einer bekannten

Mehr

a) Zeichnen Sie in das nebenstehende Streudiagramm mit Lineal eine Regressionsgerade ein, die Sie für passend halten.

a) Zeichnen Sie in das nebenstehende Streudiagramm mit Lineal eine Regressionsgerade ein, die Sie für passend halten. Statistik für Kommunikationswissenschaftler Wintersemester 2009/200 Vorlesung Prof. Dr. Helmut Küchenhoff Übung Cornelia Oberhauser, Monia Mahling, Juliane Manitz Thema 4 Homepage zur Veranstaltung: http://www.statistik.lmu.de/~helmut/kw09.html

Mehr

5. Schließende Statistik. 5.1. Einführung

5. Schließende Statistik. 5.1. Einführung 5. Schließende Statistik 5.1. Einführung Sollen auf der Basis von empirischen Untersuchungen (Daten) Erkenntnisse gewonnen und Entscheidungen gefällt werden, sind die Methoden der Statistik einzusetzen.

Mehr

Analog zu Aufgabe 16.1 werden die Daten durch folgenden Befehl eingelesen: > kredit<-read.table("c:\\compaufg\\kredit.

Analog zu Aufgabe 16.1 werden die Daten durch folgenden Befehl eingelesen: > kredit<-read.table(c:\\compaufg\\kredit. Lösung 16.3 Analog zu Aufgabe 16.1 werden die Daten durch folgenden Befehl eingelesen: > kredit

Mehr

Eine zweidimensionale Stichprobe

Eine zweidimensionale Stichprobe Eine zweidimensionale Stichprobe liegt vor, wenn zwei qualitative Merkmale gleichzeitig betrachtet werden. Eine Urliste besteht dann aus Wertepaaren (x i, y i ) R 2 und hat die Form (x 1, y 1 ), (x 2,

Mehr

Einfache statistische Auswertungen mit dem Programm SPSS

Einfache statistische Auswertungen mit dem Programm SPSS Einfache statistische Auswertungen mit dem Programm SPSS Datensatz: fiktive_daten.sav Dipl. Päd. Anne Haßelkus Dr. Dorothea Dette-Hagenmeyer 11/2011 Überblick 1 Deskriptive Statistiken; Mittelwert berechnen...

Mehr

Einfache Statistiken in Excel

Einfache Statistiken in Excel Einfache Statistiken in Excel Dipl.-Volkswirtin Anna Miller Bergische Universität Wuppertal Schumpeter School of Business and Economics Lehrstuhl für Internationale Wirtschaft und Regionalökonomik Raum

Mehr

Datenanalyse mit Excel. Wintersemester 2013/14

Datenanalyse mit Excel. Wintersemester 2013/14 Datenanalyse mit Excel 1 KORRELATIONRECHNUNG 2 Korrelationsrechnung Ziel der Korrelationsrechnung besteht im bivariaten Fall darin, die Stärke des Zusammenhangs zwischen zwei interessierenden statistischen

Mehr

METHODENLEHRE I WS 2013/14 THOMAS SCHÄFER

METHODENLEHRE I WS 2013/14 THOMAS SCHÄFER METHODENLEHRE I WS 2013/14 THOMAS SCHÄFER DAS THEMA: INFERENZSTATISTIK IV INFERENZSTATISTISCHE AUSSAGEN FÜR ZUSAMMENHÄNGE UND UNTERSCHIEDE Inferenzstatistik für Zusammenhänge Inferenzstatistik für Unterschiede

Mehr

Einfache statistische Auswertungen mit dem TI-Nspire

Einfache statistische Auswertungen mit dem TI-Nspire 1. Neues Dokument und darin eine neue Seite anlegen Als Typ 6: Lists & Spreadsheet wählen. Darin die Messwerte in einer Spalte erfassen. Dies ergibt die Urliste. Wenn mehrere Messwerte vorliegen, die diejenigen,

Mehr

Wahrscheinlichkeitsrechnung und Statistik für Biologen 5. Der zwei-stichproben-t-test. und der Wilcoxon-Test

Wahrscheinlichkeitsrechnung und Statistik für Biologen 5. Der zwei-stichproben-t-test. und der Wilcoxon-Test Wahrscheinlichkeitsrechnung und Statistik für Biologen 5. Der zwei-stichproben-t-test (t-test für ungepaarte Stichproben) und der Wilcoxon-Test Dirk Metzler 22. Mai 2015 Inhaltsverzeichnis 1 Wiederholung:

Mehr

Inhaltsverzeichnis. Regressionsanalyse. http://mesosworld.ch - Stand vom: 20.1.2010 1

Inhaltsverzeichnis. Regressionsanalyse. http://mesosworld.ch - Stand vom: 20.1.2010 1 Inhaltsverzeichnis Regressionsanalyse... 2 Lernhinweise... 2 Einführung... 2 Theorie (1-8)... 2 1. Allgemeine Beziehungen... 3 2. 'Best Fit'... 3 3. 'Ordinary Least Squares'... 4 4. Formel der Regressionskoeffizienten...

Mehr

Eine Einführung in R: Statistische Tests

Eine Einführung in R: Statistische Tests Eine Einführung in R: Statistische Tests Bernd Klaus, Verena Zuber Institut für Medizinische Informatik, Statistik und Epidemiologie (IMISE), Universität Leipzig http://www.uni-leipzig.de/ zuber/teaching/ws12/r-kurs/

Mehr

Korrelation - Regression. Berghold, IMI

Korrelation - Regression. Berghold, IMI Korrelation - Regression Zusammenhang zwischen Variablen Bivariate Datenanalyse - Zusammenhang zwischen 2 stetigen Variablen Korrelation Einfaches lineares Regressionsmodell 1. Schritt: Erstellung eines

Mehr

Lösung zu Kapitel 11: Beispiel 1

Lösung zu Kapitel 11: Beispiel 1 Lösung zu Kapitel 11: Beispiel 1 Eine Untersuchung bei 253 Personen zur Kundenzufriedenheit mit einer Einzelhandelskette im Südosten der USA enthält Variablen mit sozialstatistischen Daten der befragten

Mehr

Einführung in die Vektor- und Matrizenrechnung. Matrizen

Einführung in die Vektor- und Matrizenrechnung. Matrizen Einführung in die Vektor- und Matrizenrechnung Matrizen Definition einer Matrix Unter einer (reellen) m x n Matrix A versteht man ein rechteckiges Schema aus reellen Zahlen, die wie folgt angeordnet sind:

Mehr

Klausur Statistik Lösungshinweise

Klausur Statistik Lösungshinweise Klausur Statistik Lösungshinweise Prüfungsdatum: 1. Juli 2015 Prüfer: Etschberger, Heiden, Jansen Studiengang: IM und BW Aufgabe 1 14 Punkte Ein Freund von Ihnen hat über einen Teil seiner Daten, die er

Mehr

Lineare Modelle in R: Einweg-Varianzanalyse

Lineare Modelle in R: Einweg-Varianzanalyse Lineare Modelle in R: Einweg-Varianzanalyse Achim Zeileis 2009-02-20 1 Datenaufbereitung Wie schon in der Vorlesung wollen wir hier zur Illustration der Einweg-Analyse die logarithmierten Ausgaben der

Mehr

Kapitel 4: Binäre Regression

Kapitel 4: Binäre Regression Kapitel 4: Binäre Regression Steffen Unkel (basierend auf Folien von Nora Fenske) Statistik III für Nebenfachstudierende WS 2013/2014 4.1 Motivation Ausgangssituation Gegeben sind Daten (y i, x i1,...,

Mehr

Statistische Auswertung der Daten von Blatt 13

Statistische Auswertung der Daten von Blatt 13 Statistische Auswertung der Daten von Blatt 13 Problemstellung 1 Graphische Darstellung der Daten 1 Diskussion der Normalverteilung 3 Mittelwerte und deren Konfidenzbereiche 3 Signifikanz der Behandlung

Mehr

Bachelorabschlussseminar Dipl.-Kfm. Daniel Cracau

Bachelorabschlussseminar Dipl.-Kfm. Daniel Cracau 1 Einführung in die statistische Datenanalyse Bachelorabschlussseminar Dipl.-Kfm. Daniel Cracau 2 Gliederung 1.Grundlagen 2.Nicht-parametrische Tests a. Mann-Whitney-Wilcoxon-U Test b. Wilcoxon-Signed-Rank

Mehr

Zusammenhänge zwischen metrischen Merkmalen

Zusammenhänge zwischen metrischen Merkmalen Zusammenhänge zwischen metrischen Merkmalen Darstellung des Zusammenhangs, Korrelation und Regression Daten liegen zu zwei metrischen Merkmalen vor: Datenpaare (x i, y i ), i = 1,..., n Beispiel: x: Anzahl

Mehr

1,11 1,12 1,13 1,14 1,15 1,16 1,17 1,17 1,17 1,18

1,11 1,12 1,13 1,14 1,15 1,16 1,17 1,17 1,17 1,18 3. Deskriptive Statistik Ziel der deskriptiven (beschreibenden) Statistik (explorativen Datenanalyse) ist die übersichtliche Darstellung der wesentlichen in den erhobenen Daten enthaltene Informationen

Mehr

Das Dialogfeld für die Regressionsanalyse ("Lineare Regression") findet sich im Statistik- Menu unter "Regression"-"Linear":

Das Dialogfeld für die Regressionsanalyse (Lineare Regression) findet sich im Statistik- Menu unter Regression-Linear: Lineare Regression Das Dialogfeld für die Regressionsanalyse ("Lineare Regression") findet sich im Statistik- Menu unter "Regression"-"Linear": Im einfachsten Fall werden mehrere Prädiktoren (oder nur

Mehr

3.3 Das allgemeine lineare Modell (ALM), Methode der kleinsten Quadrate

3.3 Das allgemeine lineare Modell (ALM), Methode der kleinsten Quadrate 31 und 31 und (), Methode der 33 Das allgemeine (), Methode der kleinsten Quadrate 37 Modelle mit Messwiederholungen 1 / 113 Eine grundsätzliche Bemerkung zu Beginn Es bestehen viele Ähnlichkeiten zwischen

Mehr

Monte-Carlo-Simulationen mit Copulas. Kevin Schellkes und Christian Hendricks 29.08.2011

Monte-Carlo-Simulationen mit Copulas. Kevin Schellkes und Christian Hendricks 29.08.2011 Kevin Schellkes und Christian Hendricks 29.08.2011 Inhalt Der herkömmliche Ansatz zur Simulation logarithmischer Renditen Ansatz zur Simulation mit Copulas Test und Vergleich der beiden Verfahren Fazit

Mehr

Methoden Quantitative Datenanalyse

Methoden Quantitative Datenanalyse Leitfaden Universität Zürich ISEK - Andreasstrasse 15 CH-8050 Zürich Telefon +41 44 635 22 11 Telefax +41 44 635 22 19 www.isek.uzh.ch 11. September 2014 Methoden Quantitative Datenanalyse Vorbereitung

Mehr

Statistisches Programmieren

Statistisches Programmieren Statistisches Programmieren Session 1 1 Was ist R R ist eine interaktive, flexible Software-Umgebung in der statistische Analysen durchgeführt werden können. Zahlreiche statistische Funktionen und Prozeduren

Mehr

R ist freie Software und kann von der Website. www.r-project.org

R ist freie Software und kann von der Website. www.r-project.org R R ist freie Software und kann von der Website heruntergeladen werden. www.r-project.org Nach dem Herunterladen und der Installation von R kann man R durch Doppelklicken auf das R-Symbol starten. R wird

Mehr

3.2 Bivariate Verteilungen

3.2 Bivariate Verteilungen 3.2 Bivariate Verteilungen zwei Variablen X, Y werden gemeinsam betrachtet (an jedem Objekt i, i = 1,..., n, werden gleichzeitig zwei Merkmale beobachtet) Beobachtungswerte sind Paare/Kombinationen von

Mehr

Aufgabe 1 10 ECTS. y i x j gering mittel hoch n i Hausrat 200 25 0 225 KFZ 0 10 75 85 Unfall 20 35 90 145 Reiserücktritt 40 5 0 45 n j 260 75 165 500

Aufgabe 1 10 ECTS. y i x j gering mittel hoch n i Hausrat 200 25 0 225 KFZ 0 10 75 85 Unfall 20 35 90 145 Reiserücktritt 40 5 0 45 n j 260 75 165 500 Aufgabe 1 Für die Securance-Versicherung liegen Ihnen die gemeinsamen absoluten Häugkeiten der Merkmale X: Schadenshöhe und Y : Versicherungsart für die letzten 500 gemeldeten Schäden vor. 1. Interpretieren

Mehr

Klausur zur Vorlesung Statistik III für Studenten mit dem Wahlfach Statistik

Klausur zur Vorlesung Statistik III für Studenten mit dem Wahlfach Statistik Ludwig Fahrmeir, Nora Fenske Institut für Statistik Bitte für die Korrektur freilassen! Aufgabe 1 2 3 4 Punkte Klausur zur Vorlesung Statistik III für Studenten mit dem Wahlfach Statistik 29. März 21 Hinweise:

Mehr

Prüfen von Mittelwertsunterschieden: t-test

Prüfen von Mittelwertsunterschieden: t-test Prüfen von Mittelwertsunterschieden: t-test Sven Garbade Fakultät für Angewandte Psychologie SRH Hochschule Heidelberg sven.garbade@hochschule-heidelberg.de Statistik 1 S. Garbade (SRH Heidelberg) t-test

Mehr

Verteilungsanalyse. Johannes Hain. Lehrstuhl für Mathematik VIII Statistik 1/35

Verteilungsanalyse. Johannes Hain. Lehrstuhl für Mathematik VIII Statistik 1/35 Verteilungsanalyse Johannes Hain Lehrstuhl für Mathematik VIII Statistik 1/35 Datentypen Als Sammeln von Daten bezeichnet man in der Statistik das Aufzeichnen von Fakten. Erhobene Daten klassifziert man

Mehr

5.2. Nichtparametrische Tests. 5.2.1. Zwei unabhängige Stichproben: U- Test nach MANN- WHITNEY

5.2. Nichtparametrische Tests. 5.2.1. Zwei unabhängige Stichproben: U- Test nach MANN- WHITNEY 5.2. Nichtparametrische Tests 5.2.1. Zwei unabhängige Stichproben: U- Test nach MANN- WHITNEY Voraussetzungen: - Die Verteilungen der beiden Grundgesamtheiten sollten eine ähnliche Form aufweisen. - Die

Mehr

Statistische Software P. Fink. Statistische Software (R) Wiederholungshausübung SoSe 2015

Statistische Software P. Fink. Statistische Software (R) Wiederholungshausübung SoSe 2015 Allgmeine Hinweise Die Hausübung umfasst 7 Aufgaben mit insgesamt 120 Punkten. Erstellen Sie eine R Skript-Datei mit Ihrer Matrikelnummer als Dateinamen. Diese Datei enthält Ihren vollständigen und mit

Mehr

Häufigkeitstabellen. Balken- oder Kreisdiagramme. kritischer Wert für χ2-test. Kontingenztafeln

Häufigkeitstabellen. Balken- oder Kreisdiagramme. kritischer Wert für χ2-test. Kontingenztafeln Häufigkeitstabellen Menüpunkt Data PivotTable Report (bzw. entsprechendes Icon): wähle Data Range (Zellen, die die Daten enthalten + Zelle mit Variablenname) wähle kategoriale Variable für Spalten- oder

Mehr

Grundlagen der Inferenzstatistik: Was Ihnen nicht erspart bleibt!

Grundlagen der Inferenzstatistik: Was Ihnen nicht erspart bleibt! Grundlagen der Inferenzstatistik: Was Ihnen nicht erspart bleibt! 1 Einführung 2 Wahrscheinlichkeiten kurz gefasst 3 Zufallsvariablen und Verteilungen 4 Theoretische Verteilungen (Wahrscheinlichkeitsfunktion)

Mehr

Sozialwissenschaftliche Fakultät der Universität Göttingen. Sommersemester 2009. Statistik mit SPSS

Sozialwissenschaftliche Fakultät der Universität Göttingen. Sommersemester 2009. Statistik mit SPSS Sommersemester 2009 Statistik mit SPSS 15. Mai 2009 15. Mai 2009 Statistik Dozentin: mit Esther SPSSOchoa Fernández 1 Überblick 1. Korrelationsanalysen Kovariation und Kovarianz Korrelation: - Interpretation

Mehr

Skriptum zur Veranstaltung. Quantitative Methoden (Mathematik/Statistik) Teil Induktive Statistik. 1. Version (mehr Draft als Skriptum)

Skriptum zur Veranstaltung. Quantitative Methoden (Mathematik/Statistik) Teil Induktive Statistik. 1. Version (mehr Draft als Skriptum) Skriptum zur Veranstaltung Quantitative Methoden (Mathematik/Statistik) Teil Induktive Statistik 1. Version (mehr Draft als Skriptum) Anmerkungen, Aufzeigen von Tippfehlern und konstruktive Kritik erwünscht!!!

Mehr

Franz Kronthaler. Statistik angewandt. Datenanalyse ist (k)eine Kunst. Excel Edition. ^ Springer Spektrum

Franz Kronthaler. Statistik angewandt. Datenanalyse ist (k)eine Kunst. Excel Edition. ^ Springer Spektrum Franz Kronthaler Statistik angewandt Datenanalyse ist (k)eine Kunst Excel Edition ^ Springer Spektrum Inhaltsverzeichnis Teil I Basiswissen und Werkzeuge, um Statistik anzuwenden 1 Statistik ist Spaß 3

Mehr

Auswerten mit Excel. Viele Video-Tutorials auf Youtube z.b. http://www.youtube.com/watch?v=vuuky6xxjro

Auswerten mit Excel. Viele Video-Tutorials auf Youtube z.b. http://www.youtube.com/watch?v=vuuky6xxjro Auswerten mit Excel Viele Video-Tutorials auf Youtube z.b. http://www.youtube.com/watch?v=vuuky6xxjro 1. Pivot-Tabellen erstellen: In der Datenmaske in eine beliebige Zelle klicken Registerkarte Einfügen

Mehr

Auswertung und Darstellung wissenschaftlicher Daten (1)

Auswertung und Darstellung wissenschaftlicher Daten (1) Auswertung und Darstellung wissenschaftlicher Daten () Mag. Dr. Andrea Payrhuber Zwei Schritte der Auswertung. Deskriptive Darstellung aller Daten 2. analytische Darstellung (Gruppenvergleiche) SPSS-Andrea

Mehr

Linearer Zusammenhang von Datenreihen

Linearer Zusammenhang von Datenreihen Linearer Zusammenhang von Datenreihen Vielen Problemen liegen (möglicherweise) lineare Zusammenhänge zugrunde: Mein Internetanbieter verlangt eine Grundgebühr und rechnet minutenweise ab Ich bestelle ein

Mehr

8. Methoden der klassischen multivariaten Statistik

8. Methoden der klassischen multivariaten Statistik 8. Methoden der klassischen multivariaten Statistik 8.1. Darstellung von Daten Voraussetzungen auch in diesem Kapitel: Grundgesamtheit (Datenraum) Ω von Objekten (Fällen, Instanzen), denen J-Tupel von

Mehr

Einführung in die Statistik mit EXCEL und SPSS

Einführung in die Statistik mit EXCEL und SPSS Christine Duller Einführung in die Statistik mit EXCEL und SPSS Ein anwendungsorientiertes Lehr- und Arbeitsbuch Zweite, überarbeitete Auflage Mit 71 Abbildungen und 26 Tabellen Physica-Verlag Ein Unternehmen

Mehr

Auswertung von kritischen Daten Vorgehensweise anhand eines Beispiels Visual-XSel 10.0

Auswertung von kritischen Daten Vorgehensweise anhand eines Beispiels Visual-XSel 10.0 Auswertung von kritischen Daten Vorgehensweise anhand eines Beispiels Visual-XSel 10.0??? Curt Ronniger 2007 Bei Neueinstieg in das Programm, sollte zunächst die Dokumentation XSelDoE10.pdf gelesen werden.

Mehr

Arbeiten mit Excel. 1. Allgemeine Hinweise

Arbeiten mit Excel. 1. Allgemeine Hinweise 1. Allgemeine Hinweise Man sollte eine Excel Tabelle immer so übersichtlich wie möglich halten. Dazu empfiehlt es sich, alle benötigten Daten, Konstanten und Messwerte inklusive aller dazugehörigen Einheiten

Mehr

Univariate Lineare Regression. (eine unabhängige Variable)

Univariate Lineare Regression. (eine unabhängige Variable) Univariate Lineare Regression (eine unabhängige Variable) Lineare Regression y=a+bx Präzise lineare Beziehung a.. Intercept b..anstieg y..abhängige Variable x..unabhängige Variable Lineare Regression y=a+bx+e

Mehr

Einseitig gerichtete Relation: Mit zunehmender Höhe über dem Meeresspiegel sinkt im allgemeinen die Lufttemperatur.

Einseitig gerichtete Relation: Mit zunehmender Höhe über dem Meeresspiegel sinkt im allgemeinen die Lufttemperatur. Statistik Grundlagen Charakterisierung von Verteilungen Einführung Wahrscheinlichkeitsrechnung Wahrscheinlichkeitsverteilungen Schätzen und Testen Korrelation Regression Einführung Die Analyse und modellhafte

Mehr

1. Allgemeine Hinweise Alexander.Martin.Koenig@TU-Clausthal.de

1. Allgemeine Hinweise Alexander.Martin.Koenig@TU-Clausthal.de 1. Allgemeine Hinweise Alexander.Martin.Koenig@TU-Clausthal.de Man sollte eine Excel-Tabelle immer so übersichtlich wie möglich halten. Dazu empfiehlt es sich, alle benötigten Daten, Konstanten und Messwerte

Mehr

Statistik Einführung // Lineare Regression 9 p.2/72

Statistik Einführung // Lineare Regression 9 p.2/72 Statistik Einführung Lineare Regression Kapitel 9 Statistik WU Wien Gerhard Derflinger Michael Hauser Jörg Lenneis Josef Ledold Günter Tirler Rosmarie Wakolbinger Statistik Einführung // Lineare Regression

Mehr

2. Korrelation, lineare Regression und multiple Regression

2. Korrelation, lineare Regression und multiple Regression multiple 2.2 Lineare 2.2 Lineare 1 / 130 2.2 Lineare 2 / 130 2.1 Beispiel: Arbeitsmotivation Untersuchung zur Motivation am Arbeitsplatz in einem Chemie-Konzern 25 Personen werden durch Arbeitsplatz zufällig

Mehr

12. Vergleich mehrerer Stichproben

12. Vergleich mehrerer Stichproben 12. Vergleich mehrerer Stichproben Dr. Antje Kiesel Institut für Angewandte Mathematik WS 2011/2012 Häufig wollen wir verschiedene Populationen, Verfahren, usw. miteinander vergleichen. Beipiel: Vergleich

Mehr

Willkommen zur Vorlesung Statistik (Master)

Willkommen zur Vorlesung Statistik (Master) Willkommen zur Vorlesung Statistik (Master) Thema dieser Vorlesung: Verteilungsfreie Verfahren Prof. Dr. Wolfgang Ludwig-Mayerhofer Universität Siegen Philosophische Fakultät, Seminar für Sozialwissenschaften

Mehr

Eine computergestützte Einführung mit

Eine computergestützte Einführung mit Thomas Cleff Deskriptive Statistik und Explorative Datenanalyse Eine computergestützte Einführung mit Excel, SPSS und STATA 3., überarbeitete und erweiterte Auflage ^ Springer Inhaltsverzeichnis 1 Statistik

Mehr

2.3 Univariate Datenanalyse in R

2.3 Univariate Datenanalyse in R 2.3. UNIVARIATE DATENANALYSE IN R 47 2.3 Univariate Datenanalyse in R Wir wollen nun lernen, wie man in R Daten elementar analysiert. R bietet eine interaktive Umgebung, Befehlsmodus genannt, in der man

Mehr

Lösungen zu Janssen/Laatz, Statistische Datenanalyse mit SPSS 1

Lösungen zu Janssen/Laatz, Statistische Datenanalyse mit SPSS 1 LÖSUNG 9B a) Lösungen zu Janssen/Laatz, Statistische Datenanalyse mit SPSS 1 Man kann erwarten, dass der Absatz mit steigendem Preis abnimmt, mit höherer Anzahl der Außendienstmitarbeiter sowie mit erhöhten

Mehr

SAS-Vertiefung zur Statistischen Software im SS 2010 Übungsaufgaben

SAS-Vertiefung zur Statistischen Software im SS 2010 Übungsaufgaben SAS-Vertiefung zur Statistischen Software im SS 2010 Übungsaufgaben Helmut Küchenhoff, Cornelia Oberhauser, Monia Mahling, Armin Monecke Im Folgenden gibt es 4 Aufgabenblöcke. Block 1: Daten einlesen,

Mehr

Statistische Verfahren für das Data Mining in einem Industrieprojekt

Statistische Verfahren für das Data Mining in einem Industrieprojekt Statistische Verfahren für das Data Mining in einem Industrieprojekt Thorsten Dickhaus Forschungszentrum Jülich GmbH Zentralinstitut für Angewandte Mathematik Telefon: 02461/61-4193 E-Mail: th.dickhaus@fz-juelich.de

Mehr

Einführung in die Statistik für Wirtschaftswissenschaftler für Betriebswirtschaft und Internationales Management

Einführung in die Statistik für Wirtschaftswissenschaftler für Betriebswirtschaft und Internationales Management Einführung in die Statistik für Wirtschaftswissenschaftler für Betriebswirtschaft und Internationales Management Sommersemester 2013 Hochschule Augsburg : Gliederung 1 Einführung 2 Deskriptive Statistik

Mehr

Einfaches Datenmanagement in R

Einfaches Datenmanagement in R Einfaches Datenmanagement in R Achim Zeileis 2009-02-20 1 Daten einlesen Datensätze werden in R typischerweise als Objekte der Klasse "data.frame" dargestellt. In diesen entsprechen die Zeilen den Beobachtungen

Mehr

11./ 12. April 2006. Andrea Ossig andrea.ossig@web.de. Prof. Dr. Helmut Küchenhoff kuechenhoff@stat.uni-muenchen.de

11./ 12. April 2006. Andrea Ossig andrea.ossig@web.de. Prof. Dr. Helmut Küchenhoff kuechenhoff@stat.uni-muenchen.de Einführung in SPSS 11./ 12. April 2006 Andrea Ossig andrea.ossig@web.de Prof. Dr. Helmut Küchenhoff kuechenhoff@stat.uni-muenchen.de Monia Mahling monia.mahling@web.de 1 Vor /Nachteile von SPSS +/ intuitiv

Mehr

Biostatistik, WS 2015/2016 Der zwei-stichproben-t-test

Biostatistik, WS 2015/2016 Der zwei-stichproben-t-test 1/29 Biostatistik, WS 2015/2016 Der zwei-stichproben-t-test (t-test für ungepaarte Stichproben) Matthias Birkner http://www.staff.uni-mainz.de/birkner/biostatistik1516/ 11.12.2015 2/29 Inhalt 1 t-test

Mehr

Risikomessung und Value at Risk Wintersemester 2013/14

Risikomessung und Value at Risk Wintersemester 2013/14 Risikomessung und Value at Risk Wintersemester 2013/14 Walter Sanddorf-Köhle Statistik und Ökonometrie Foliensatz Nr. 11 Version vom 24. Januar 2014 1 / 45 6.5.1 Bisherige Vorgehensweise zur Berechnung

Mehr

Kontingenzkoeffizient (nach Pearson)

Kontingenzkoeffizient (nach Pearson) Assoziationsmaß für zwei nominale Merkmale misst die Unabhängigkeit zweier Merkmale gibt keine Richtung eines Zusammenhanges an 46 o jl beobachtete Häufigkeiten der Kombination von Merkmalsausprägungen

Mehr

Klausur: Einführung in die Statistik

Klausur: Einführung in die Statistik 1 Lösungen immer unter die jeweiligen Aufgaben schreiben. Bei Platzmangel auf die Rückseite schreiben (dann Nummer der bearbeiteten Aufgabe mit anmerken!!!). Lösungen, die nicht auf den Aufgabenblättern

Mehr

Erstellen einer Formel

Erstellen einer Formel Software Erstellen einer Formel In Excel kann man individuelle Formeln erstellen, dabei wird eine Formel mit ein Gleichzeichen = eingeleitet. Man kann direkt in eine Zelle schreiben oder in dem dafür vorgesehen

Mehr

Kapitel 15. Lösung linearer Gleichungssysteme

Kapitel 15. Lösung linearer Gleichungssysteme Kapitel 15. Lösung linearer Gleichungssysteme Lineare Gleichungssysteme Wir befassen uns nun mit der Lösung im allgemeinen nichthomogener linearer Gleichungssysteme in zweifacher Hinsicht. Wir studieren

Mehr

Überblick über die Verfahren für Ordinaldaten

Überblick über die Verfahren für Ordinaldaten Verfahren zur Analyse ordinalskalierten Daten 1 Überblick über die Verfahren für Ordinaldaten Unterschiede bei unabhängigen Stichproben Test U Test nach Mann & Whitney H Test nach Kruskal & Wallis parametrische

Mehr

3 Deskriptive Statistik in R (univariat)

3 Deskriptive Statistik in R (univariat) (univariat) Markus Burkhardt (markus.burkhardt@psychologie.tu-chemnitz.de) Inhalt 3.1 Ziel... 1 3.2 Häufigkeiten... 1 3.3 Deskriptive Kennziffern I Lagemaße... 2 3.4 Streuungsmaße... 5 3.5 Standardisierung:

Mehr

Güte von Tests. die Wahrscheinlichkeit für den Fehler 2. Art bei der Testentscheidung, nämlich. falsch ist. Darauf haben wir bereits im Kapitel über

Güte von Tests. die Wahrscheinlichkeit für den Fehler 2. Art bei der Testentscheidung, nämlich. falsch ist. Darauf haben wir bereits im Kapitel über Güte von s Grundlegendes zum Konzept der Güte Ableitung der Gütefunktion des Gauss im Einstichprobenproblem Grafische Darstellung der Gütefunktionen des Gauss im Einstichprobenproblem Ableitung der Gütefunktion

Mehr

Multivariate Regression

Multivariate Regression Multivariate Regression Ziel: Man will überprüfen, welche Variablen wieviel Varianz einer Zielvariable erlären und ob die durch die einzelnen Variablen wegerlärte Varianz signifiant von 0 verschieden ist

Mehr

9. StatistischeTests. 9.1 Konzeption

9. StatistischeTests. 9.1 Konzeption 9. StatistischeTests 9.1 Konzeption Statistische Tests dienen zur Überprüfung von Hypothesen über einen Parameter der Grundgesamtheit (bei einem Ein-Stichproben-Test) oder über die Verteilung einer Zufallsvariablen

Mehr

Herzlich Willkommen zur Vorlesung Statistik

Herzlich Willkommen zur Vorlesung Statistik Herzlich Willkommen zur Vorlesung Statistik Thema dieser Vorlesung: Kovarianz und Korrelation Prof. Dr. Wolfgang Ludwig-Mayerhofer Universität Siegen Philosophische Fakultät, Seminar für Sozialwissenschaften

Mehr

Weitere Fragestellungen im Zusammenhang mit einer linearen Einfachregression

Weitere Fragestellungen im Zusammenhang mit einer linearen Einfachregression Weitere Fragestellungen im Zusammenhang mit einer linearen Einfachregression Speziell im Zusammenhang mit der Ablehnung der Globalhypothese werden bei einer linearen Einfachregression weitere Fragestellungen

Mehr

Institut für Soziologie. Methoden 2. Regressionsanalyse I: Einfache lineare Regression

Institut für Soziologie. Methoden 2. Regressionsanalyse I: Einfache lineare Regression Institut für Soziologie Methoden 2 Regressionsanalyse I: Einfache lineare Regression Programm Anwendungsbereich Vorgehensweise Interpretation Annahmen Zusammenfassung Übungsaufgabe Literatur # 2 Anwendungsbereich

Mehr

Fortgeschrittene Statistik SPSS Einführung

Fortgeschrittene Statistik SPSS Einführung Fortgeschrittene Statistik SPSS Einführung Q U A N T I T A T I V E M E R K M A L E, Q U A L I T A T I V E M E R K M A L E, A U S P R Ä G U N G E N, C O D I E R U N G E N, S K A L E N N I V E A U, D A T

Mehr

Dokumentation. estat Version 2.0

Dokumentation. estat Version 2.0 Dokumentation estat Version 2.0 Installation Die Datei estat.xla in beliebiges Verzeichnis speichern. Im Menü Extras AddIns... Durchsuchen die Datei estat.xla auswählen. Danach das Auswahlhäkchen beim

Mehr

Einige Statistische Tests für den Ein- Zwei- und k-stichprobenfall (Nach Sachs, Stat. Meth.)

Einige Statistische Tests für den Ein- Zwei- und k-stichprobenfall (Nach Sachs, Stat. Meth.) ue biostatistik: nichtparametrische testverfahren / ergänzung 1/6 h. Lettner / physik Statistische Testverfahren Einige Statistische Tests für den Ein- Zwei- und k-stichprobenfall (Nach Sachs, Stat. Meth.)

Mehr

Profil A 49,3 48,2 50,7 50,9 49,8 48,7 49,6 50,1 Profil B 51,8 49,6 53,2 51,1 51,1 53,4 50,7 50 51,5 51,7 48,8

Profil A 49,3 48,2 50,7 50,9 49,8 48,7 49,6 50,1 Profil B 51,8 49,6 53,2 51,1 51,1 53,4 50,7 50 51,5 51,7 48,8 1. Aufgabe: Eine Reifenfirma hat für Winterreifen unterschiedliche Profile entwickelt. Bei jeweils gleicher Geschwindigkeit und auch sonst gleichen Bedingungen wurden die Bremswirkungen gemessen. Die gemessenen

Mehr

Einleitung 19. Teil I Datenanalyse und Modellbildung Grundlagen 25

Einleitung 19. Teil I Datenanalyse und Modellbildung Grundlagen 25 Inhaltsverzeichnis Einleitung 19 Zu diesem Buch 19 Konventionen in diesem Buch 20 Was Sie nicht lesen müssen 21 Falsche Voraussetzungen 21 Wie dieses Buch aufgebaut ist 21 Teil I: Datenanalyse und Grundlagen

Mehr

Webergänzung zu Kapitel 10

Webergänzung zu Kapitel 10 Webergänzung zu Kapitel 10 10.1.4 Varianzanalyse (ANOVA: analysis of variance) Im Kapitel 10 haben wir uns hauptsächlich mit Forschungsbeispielen beschäftigt, die nur zwei Ergebnissätze hatten (entweder

Mehr

Universität Bonn 28. Juli 2010 Fachbereich Rechts- und Wirtschaftswissenschaften Statistische Abteilung Prof. Dr. A. Kneip. KLAUSUR Statistik B

Universität Bonn 28. Juli 2010 Fachbereich Rechts- und Wirtschaftswissenschaften Statistische Abteilung Prof. Dr. A. Kneip. KLAUSUR Statistik B Universität Bonn 28. Juli 2010 Fachbereich Rechts- und Wirtschaftswissenschaften Statistische Abteilung Prof. Dr. A. Kneip Sommersemester 2010 KLAUSUR Statistik B Hinweise zur Bearbeitung: Bei allen Teilaufgaben

Mehr

LU-Zerlegung. Zusätze zum Gelben Rechenbuch. Peter Furlan. Verlag Martina Furlan. Inhaltsverzeichnis. 1 Definitionen.

LU-Zerlegung. Zusätze zum Gelben Rechenbuch. Peter Furlan. Verlag Martina Furlan. Inhaltsverzeichnis. 1 Definitionen. Zusätze zum Gelben Rechenbuch LU-Zerlegung Peter Furlan Verlag Martina Furlan Inhaltsverzeichnis Definitionen 2 (Allgemeine) LU-Zerlegung 2 3 Vereinfachte LU-Zerlegung 3 4 Lösung eines linearen Gleichungssystems

Mehr

Tutorium zur Makroökonomik

Tutorium zur Makroökonomik Universität Ulm 89069 Ulm Germany Dipl. WiWi. Sabrina Böck Institut für Wirtschaftspolitik Fakultät für Mathematik und Wirtschaftswissenschaften Ludwig-Erhard-Stiftungsprofessur Tutorium zur Makroökonomik

Mehr

FAKTORIELLE VERSUCHSPLÄNE. Andreas Handl

FAKTORIELLE VERSUCHSPLÄNE. Andreas Handl FAKTORIELLE VERSUCHSPLÄNE Andreas Handl 1 Inhaltsverzeichnis 1 Versuchsplanung 4 2 Einfaktorielle Varianzanalyse 6 2.1 DieAnnahmen... 6 2.2 Die ANOVA-Tabelle und der F -Test... 6 2.3 Versuche mit zwei

Mehr

Standardisierung von Daten Darstellung von Daten in Texten, Tabellen und Abbildungen. Standardisierung von Daten

Standardisierung von Daten Darstellung von Daten in Texten, Tabellen und Abbildungen. Standardisierung von Daten DAS THEMA: TABELLEN UND ABBILDUNGEN Standardisierung von Daten Darstellung von Daten in Texten, Tabellen und Abbildungen Standardisierung von Daten z-standardisierung Standardnormalverteilung 1 DIE Z-STANDARDISIERUNG

Mehr

Mathematik 1. Inhaltsverzeichnis. Prof. Dr. K. Melzer. karin.melzer@hs-esslingen.de http://www.hs-esslingen.de/de/mitarbeiter/karin-melzer.

Mathematik 1. Inhaltsverzeichnis. Prof. Dr. K. Melzer. karin.melzer@hs-esslingen.de http://www.hs-esslingen.de/de/mitarbeiter/karin-melzer. Mathematik 1 Prof Dr K Melzer karinmelzer@hs-esslingende http://wwwhs-esslingende/de/mitarbeiter/karin-melzerhtml Inhaltsverzeichnis 1 Matrizenrechnung 2 11 Matrixbegri 2 12 Spezielle Matrizen 3 13 Rechnen

Mehr

4. Erstellen von Klassen

4. Erstellen von Klassen Statistik mit Tabellenkalkulation 4. Erstellen von Klassen Mit einem einfachen Befehl lässt sich eine Liste von Zahlen auf die Häufigkeit der einzelnen Werte untersuchen. Verwenden Sie dazu den Befehl

Mehr

1.9 Eigenwerte und Eigenvektoren

1.9 Eigenwerte und Eigenvektoren .9. EIGENWERTE UND EIGENVEKTOREN 0.9 Eigenwerte und Eigenvektoren Alles in diesem Abschnitt bezieht sich auf quadratische reelle oder komplexe n n-matrizen. Statt E n (n n-einheitsmatrix) wird kurz E geschrieben..

Mehr

Allgemeines Lineares Modell: Univariate Varianzanalyse und Kovarianzanalyse

Allgemeines Lineares Modell: Univariate Varianzanalyse und Kovarianzanalyse Allgemeines Lineares Modell: Univariate Varianzanalyse und Kovarianzanalyse Univariate Varianz- und Kovarianzanlyse, Multivariate Varianzanalyse und Varianzanalyse mit Messwiederholung finden sich unter

Mehr

Modellbildung und Simulation

Modellbildung und Simulation Modellbildung und Simulation 5. Vorlesung Wintersemester 2007/2008 Klaus Kasper Value at Risk (VaR) Glossar Portfolio: In der Ökonomie bezeichnet der Begriff Portfolio ein Bündel von Investitionen, das

Mehr

Übungsserie Nr. 10 mit Lösungen

Übungsserie Nr. 10 mit Lösungen Übungsserie Nr. 10 mit Lösungen 1 Ein Untersuchungsdesign sieht einen multivariaten Vergleich einer Stichprobe von Frauen mit einer Stichprobe von Männern hinsichtlich der Merkmale X1, X2 und X3 vor (Codierung:

Mehr

Lösungen zum SPSS-Buch zweiter Teil Einführung in das quantitativ orientierte Forschen

Lösungen zum SPSS-Buch zweiter Teil Einführung in das quantitativ orientierte Forschen 1 Lösungen zum SPSS-Buch zweiter Teil Einführung in das quantitativ orientierte Forschen 2. Auflage Allgemeine Anmerkung Die Interpretationen zur Signifikanz erfolgen auf dem 5%-Nieveau. Kapitel 8 Studienaufgabe

Mehr