Kapitel 3. Erste Schritte der Datenanalyse. 3.1 Einlesen und Überprüfen der Daten

Größe: px
Ab Seite anzeigen:

Download "Kapitel 3. Erste Schritte der Datenanalyse. 3.1 Einlesen und Überprüfen der Daten"

Transkript

1 Kapitel 3 Erste Schritte der Datenanalyse 3.1 Einlesen und Überprüfen der Daten Nachdem die Daten erfasst worden sind, etwa mit Hilfe eines Fragebogens, ist die nächste Frage, wie ich sie in den Rechner bekomme. Wir haben in Kapitel 1.2 gesagt, dass die Daten in einer Datenmatrix stehen sollen. Jede Zeile steht für einen Merkmalsträger, jede Spalte für eine Variable. Es ist am einfachsten, die Daten mit einem Editor oder einem Tabellenprogramm wie Excel in Matrixform zu schreiben. Die im ersten Übungsblatt verwendeten Daten des Fragebogens zur Statistischen Methodenlehre I wurden mit einem Sprachprogramm eingelesen und lagen mir dann in Matrixform vor (siehe Folie), so sieht es jedenfalls aus. Doch standen in einer Zeile die Beobachtungen für mehrere Merkmalsträger. Deshalb konnten die Daten mit dem R-Befehl scan nur als Vektor eingelesen werden. (Vor der Erfassung der Daten ist zunächst die Codierung für die qualitativen Variablen zu überlegen, ferner wie die fehlenden Werte zu behandeln sind. Hier wurde (siehe Folie) für die fehlenden Werte NA eingegeben, das Zeichen, das auch in R für fehlende Werte verwendet wird.) frag.vec<-scan(file) Das Einlesen der Daten geschieht zeilenweise. Aus diesem Vektor wurde dann mit matrix eine Matrix gebildet, wobei die Zahlen wieder zeilenweise einzulesen sind (byrow=t). Es ist entweder die richtige Zeilen- oder Spaltenanzahl oder auch beides einzugeben. frag.mat<-matrix(frag.vec,byrow=t,ncol=30) oder frag.mat<-matrix(frag.vec,byrow=t,ncol=30,nrow=239) oder frag.mat<-matrix(scan(file),byrow=t,ncol=30). Wären die Daten schon in der richtigen Matrixform gespeichert worden, etwa als Excel-Datei (im Textformat speichern), so hätte man den Befehl read.table verwenden können: frag.mat<-read.table(file,sep="") Nach dem Einlesen der Daten, sind diese auf Fehler zu überprüfen (siehe z.b, Chatfield und Collins, 1991, S. 36). Bei den Daten dieses Fragebogens stellte sich heraus, dass er einige unmögliche Werte enthielt (z.b. zu kleine Gewichte oder Körpergrößen oder Schuhgrößen wie 24 und 97). Deshalb empfielt es sich zu überprüfen, ob die Daten im richtigen Wertebereich liegen. Hier hatte das Sprachprogramm wiederholt einige Ziffern vertauscht, z.b. 18 statt 81. Die Überprüfung der Daten (man kann in R dazu die Befehle range oder table oder sort verwenden, ist ein wichtiger Schritt, bevor die eigentliche Auswertung der Daten beginnen kann. Wir können jedoch aus zeitlichen Gründen nicht näher darauf eingehen. 22

2 3.2. ERSTE STATISTIKEN Erste Statistiken Mittelwert, Standardabweichung, Korrelation Bei einer univariaten Analyse beginnt man in der Regel mit einer Berechnung des Mittelwertes und der Standardabweichung (oder der Varianz). Genauer sollten wir sagen, man berechnet die Momente in der Stichprobe. Bei einem multivariaten Datensatz berechnet man zusätzlich für jedes mögliche Paar von Variablen den Korrelationskoeffizienten. Der Stichprobenmittelwert der j-ten Variablen ist gegeben durch: x j = 1 n x rj n Mit x bezeichnen wir den Mittelwertvektor, d.h. x = ( x 1, x 2,..., x m ). Falls es sich bei dem Datensatz um eine zufällige Stichprobe aus einer Grundgesamtheit mit Erwartungswert µ handelt, ist der Stichprobenmittelwertvektor x der übliche Punktschätzer, welcher erwartungstreu ist. Die Standardabweichung der j-ten Variablen ist: s j = 1 n (x rj x j ) n 1 2 Der Korrelationskoeffizient zwischen der i-ten und j-ten Variablen ist gegeben durch: r ij = 1 n 1 n (x ri x i )(x rj x j ) = s i s j n (x ri x i )(x rj x j ) (n 1)s i s j Die Korrelationskoeffizienten werden üblicherweise in der (Stichproben-)Korrelationsmatrix zusammengefasst, die gegeben ist durch: R = 1 r r 1m r r 2m. r m1 r m Die Diagonalelemente sind alle 1. Diese Matrix kann als Schätzer der Korrelationsmatrix P (Rho) der Grundgesamtheit aufgefasst werden. Mittelwerte und Standardabweichungen können als Lage- und Streuungsparameter aufgefasst werden. Grafische Darstellung: Es empfiehlt sich auch eine grafische Darstellung der Daten, um einen Eindruck von der Form der Verteilung zu bekommen. Aus der Datei frag.frame, die die Daten zum Fragebogen in Statistik I enthält (siehe Übungsblatt 1), wurden die drei Variablen Körpergröße, Schuhgröße, Gewicht herausgegriffen: teil.frame<-frag.frame[,c(3,4,5)] Da der Datensatz fehlende Werte enthielt, wurden diese zur Vereinfachung entfernt. Hier wurden alle Zeilen entfernt, bei denen einer der drei Werte fehlte. teil01.frame <- teil.frame[is.finite(teil.frame[,1]) & is.finite (teil.frame[,2]) & is.finite (teil.frame[,3]),]

3 24 KAPITEL 3. ERSTE SCHRITTE DER DATENANALYSE Wir verwenden hier für unsere Datenmatrizen die Endung.frame, da es sich um R-Objekte vom Typ data.frame handelt. Diese können Variablen von unterschiedlichem Datentyp (numeric, character oder logical) enthalten. Die Grafik 3.1 wurde mit dem Befehl pairs(teil01.frame) erzeugt. Man nennt diese Grafik Scatterplotmatrix. Alle Paare von Variablen werden gegeneinander geplottet. Wie in der Kovarianz- oder Korrelationsmatrix erscheinen dieselben Paare zweier Variablen oberund unterhalb der Diagonalen spiegelbildlich (x und y vertauscht). Es ist möglich, oberhalb und unterhalb der Diagonalen verschiedene Grafiken zu erzeugen und auch in der Diagonalen eine Grafik der entsprechenden Variablen anstelle des Variablennamens Groesse Schuh Gewicht Abbildung 3.1: Scatterplotmatrix Die Grafik 3.2 wurde mit dem folgenden Befehl erzeugt: pairs( teil01.frame, lower.panel = panel.smooth, diag.panel = panel.hist, upper.panel = panel.cor) Dabei sind lower.panel, diag.panel und upper.panel Argumente zu pairs, mit denen man grafische Funktionen für den Bereich unterhalb der Diagonalen, für die Diagonale und für den Bereich oberhalb der Diagonale vereinbaren kann. Die hier verwendeten Funktionen panel.smooth, panel.hist und panel.cor sind in der Hilfe zu pairs als Beispiele angegeben und können einfach in die R-Console kopiert werden. Hier wird der Korrelationskoeffizient in den Bereich oberhalb der Diagonalen geschrieben. Die grafische Darstellung kann eventuell Hinweise auf eine Transformation einer Variablen geben. Häufig ist die logarithmische Transformation geeignet, die Schiefe der Verteilung zu reduzieren und Daten zu erzeugen, die eher normalverteilt sind als die Ursprungsdaten. Wir illustrieren dies in der Abbildung 3.3 am Beispiel der Schuhgrößen, die wir getrennt für Männer und Frauen betrachtet haben. Die Kovarianzmatrix in der Stichprobe: Wir bezeichnen die Kovarianzmatrix in der Stichprobe mit dem Buchstaben S. Das Element in der i-ten Zeile und j-ten Spalte wird mit s ij bezeichnet und ist die Stichprobenkovarianz zwischen der Variablen i und j: n s ij = (x ri x i )(x rj x j ) / ( n (n 1) = ) x ri x rj n x i x j /(n 1) (3.1) Wir verwenden (wie auch R) den Nenner (n-1) statt n und erhalten damit einen erwartungs-

4 3.2. ERSTE STATISTIKEN Groesse Schuh 0.79 Gewicht Abbildung 3.2: Scatterplotmatrix Männer Frauen Frequency Frequency Schuh[Geschlecht == 0] Schuh[Geschlecht == 1] Männer Frauen Frequency Frequency log(schuh[geschlecht == 0]) log(schuh[geschlecht == 1]) Abbildung 3.3: Histogramm der Schuhgrößen und logarithmierten Schuhgrößen nach Geschlecht treuen Schätzer der entsprechenden Kovarianz in der Grundgesamtheit. Für i = j erhalten wir die Stichprobenvarianz, die wir im multivariaten Fall mit s ii anstelle s 2 i im univariaten Fall bezeichnen. Dies vereinfacht die Schreibweise der Kovarianzmatrix: S = s 11 s s 1m s 21 s s 2m. s m1 s m2... s mm Da s ij für alle i und j ein erwartungstreuer Schätzer von σ ij ist, sagen wir: S ist ein erwartungstreuer Schätzer von Σ. Die Matrix S ist symmetrisch und in der Diagonalen stehen die Varianzen der Variablen. Die Standardabweichungen erhält man dann durch s i = s ii. Die Kovarianzen außerhalb der Diagonalen sind schwer zu interpretieren, da sie bekanntlich von der Dimension der Variablen abhängen. So sind sie im allgemeinen nur ein Rechenschritt

5 26 KAPITEL 3. ERSTE SCHRITTE DER DATENANALYSE auf dem Weg zur Berechnung der Korrelationskoeffizienten r ij = s ij /s i s j Diese Größen kann man auffassen als eine standardisierte Stichprobenkovarianz mit Werten zwischen -1 und +1. Die Berechnung der Kovarianzen kann direkt nach Gleichung 3.1 erfolgen. In Matrizenschreibweise sieht das so aus: S = (X 1 x t ) t (X 1 x t )/(n 1) = (X t X n x x t )/(n 1) (3.2) (Dabei ist 1 ein n-dimensionaler Spaltenvektor, dessen Elemente alle gleich 1 sind. Folglich ist das Matrizenprodukt 1 x eine n m Matrix, deren Elemente in der j-tenspalte alle gleich x j sind. In dem Ausdruck X 1 x t wird also von jedem Element der Datenmatrix der zugehörige Mittelwert der Variablen subtrahiert.) In Analogie zu Gleichung 2.7 kann man R auch so aus S berechnen: Wir definieren die Diagonalmatrix ˆD durch ˆD = s s s m Dann ist: R = ˆD 1 S ˆD 1 (3.3) Dabei ist ˆD 1 = 1/s /s /s m Zur Interpretation des Korrelationskoeffizienten sei gesagt, dass ein Korrelationskoeffizient nahe bei +1 oder -1 einen starken linearen Zusammenhang mit einer positiven bzw. negativen Steigung anzeigt, während ein Korrelationskoeffizient nahe Null aussagt, dass es nahezu keinen linearen Zusammenhang gibt. Die Betonung liegt auf linear. Man sollte den Korrelationskoeffizienten nicht ausrechnen, wenn der Zusammenhang zwischen zwei Variablen offensichtlich nichtlinear ist. Wir geben noch einen Test an zur Überprüfung der Hypothese, dass der Korrelationskoeffizient zwischen zwei Zufallsvariablen Null ist. Die Prüfgröße ist: PG = r n 2 / 1 r 2 In der Grafik 3.2 wurde als Korrelationskoeffizient zwischen Schuhgröße und Körpergröße der Wert 0.85 ausgewiesen. Mit n = 226 ist der Wert der Prüfgröße PG = / = Dieser Wert ist mit kritischen Werten der t-verteilung mit n 2 = 224 Freiheitsgraden zu vergleichen. Da die t-verteilung mit steigender Anzahl der Freiheitsgrade gegen die Standardnormalverteilung konvergiert, ist dieser Wert hochsignifikant. Dieser Test kann in R mit dem Befehl cor.test durchgeführt werden. Der Befehl

6 3.2. ERSTE STATISTIKEN 27 cor.test(groesse,schuh) ergibt die Ausgabe: Pearson s product-moment correlation data: Groesse and Schuh t = , df = 235, p-value = < 2.2e-16 alternative hypothesis: true correlation is not equal to 0 sample estimates: cor Der Wert der Prüfgröße ist also bei 235 Freiheitsgraden. Die veränderte Anzahl der Freiheitsgrade ergibt sich dadurch, dass hier alle Wertepaare verwendet werden, für die beide Werte für Groesse und Schuh vorliegen (es ist der Datensatz frag.frame zu verwenden. Oben wurden alle Wertepaare verwendet, für die alle Tripel (Groesse, Schuh und Gewicht) vollständig waren. Bei der Berechnung von Kovarianz- oder Korrelationsmatrizen mit R hat man entsprechend zwei Optionen. Die Funktionen var, cov und cor haben das Argument use mit den Optionen "all.obs ", "complete.obs" oder "pairwise.complete.obs ". Bei der ersten Option erhält man nur dann einen Wert, wenn alle Datensätze vollständig sind. Bei der zweiten Option werden nur die Zeilen der Datenmatrix verwendet, die vollständig sind (für alle Spalten Werte haben). Bei der dritten Option werden die Datensätze verwendet, die für das jeweilige Paar von Variablen vollständig sind. Bei der Betrachtung der Kovarianzmatrix in der Übung war die hohe Kovarianz (1038) zwischen den Variablen UeGewicht und Woerter auffallend. Wir wissen zwar, dass die Kovarianz nichts über die Stärke des Zusammenhangs aussagt. Bei der Variablen UeGewicht handelt es sich um das geschätzte Gewicht des Übungsbuches zu Statistik I. Bei der Variablen Woerter sollte die Anzahl der Wörter auf einer kurzfristig aufgelegten Folie geschätzt werden. Falls diese hohe Kovarianz tatsächlich einen positiven Zusammenhang bedeuten würde, hieße das dann, dass Versuchspersonen dazu neigen, sich immer in der gleichen Richtung zu verschätzen? Nun der Korrelationskoeffizient ist ein dimensionsloses Maß für den linearen Zusammenhang. Er ergibt in diesem Fall: r = Der entsprechende Test (cor.test(uegewicht,woerter)) ergibt die Ausgabe: t = , df = 217, p-value = Das bedeutet: Der Wert der Prüfgröße ist bei 217 Freiheitsgraden (also war n=219). Der P-Wert ist , d.h. die Wahrscheinlichkeit bei einer t-verteilung mit 217 Freiheitsgraden einen extremeren Wert als zu erhalten ist Da diese Wahrscheinlichkeit nicht klein ist, kann die Hypothese, dass der Korrelationskoeffizient Null ist, nicht abgelehnt werden. Was bedeutet nun in diesem Fall extremer? Nun: die Wahrscheinlichkeit einen größeren Wert als zu erhalten, können wir so berechnen: 1-pt(0.6645,217) Das Ergebnis ist (gerundet) , also die Hälfte des P-Wertes. Der Test ist also zweiseitig. Es wird bei großen und kleinen Werten abgelehnt. Um zu entscheiden, welche Werte für den Korrelationskoeffizienten von Bedeutung sind, sollte man sich an den Zusammenhang zwischen dem Korrelationskoeffizienten und der Residualvarianz in Erinnerung rufen (Statistische Methodenlehre II).

7 28 KAPITEL 3. ERSTE SCHRITTE DER DATENANALYSE Mannschuh Manngroesse Abbildung 3.4: Schuhgrößen in Abhängigkeit der Körpergröße von Männern Die Abbildung 3.4, die mit den Befehlen Mannschuh<-Schuh[Geschlecht==0] Manngroesse<-Groesse[Geschlecht==0] plot(manngroesse,mannschuh) lsout<-lsfit(manngroesse,mannschuh) abline(lsout,lwd=2) abline(h=mean(mannschuh,na.rm=t),lwd=2) erzeugt wurde, zeigt den Zusammenhang zwischen der Schuhgröße und der Körpergröße von Männern. Bezeichnen wir die Variablen - wie im x, y-koordiantensystem üblich - mit x und y, so streut die Variable y einmal um ihren Mittelwert, die eingezeichnete waagrechte Gerade. Diese Streuung wird üblicherweise beschrieben durch die Summe der Quadrate Total, die Summe der quadrierten Abweichungen vom Mittelwert (SQ(Total) = n (y r ȳ) 2 ), Nun kann diese Streuung zum Teil durch den linearen Zusammenhang zwischen y und x erkärt werden. Da die nach der Methode der kleinsten Quadrate angepasste Gerade steigt, müssen y-werte mit steigendem x-wert zwangsläufig steigen. Es gibt Abweichungen zwischen der angepassten Geraden und dem Mittelwert, dies ergibt eine Summe der Quadrate Regression SQ(Regression) = n (ŷ r ȳ) 2 ). Dabei ist ŷ r der Wert der Geraden an der Stelle x r und schließlich verbleiben noch Abweichungen zwischen den Beobachtungen und der angepassten Geraden. Dies ergibt eine Summe der Quadrate der Residuale SQ(Residuale) = n (y r ŷ r ) 2. Nun ist: und SQ(Total) = SQ(Regression) + SQ(Residuale) r 2 = SQ(Regression) SQ(Total) Das bedeutet: r 2 ist der Anteil der Totalvariation, der durch die Regression, die lineare Beziehung zwischen y und x erklärt ist, während der Anteil der Restvariation, der Variation um die Gerade, 1 r 2 ist. Ergibt sich nun ein geschätzter Korrelationskoeffizient von r = 0.6, so bedeutet dies, dass 36% der Totalvariation durch die Regression erkärt sind, während 64%

8 3.2. ERSTE STATISTIKEN 29 Restvariation (unerklärte Variation oder Variation um die Gerade) bleiben. Die Varianz der Residuale (Abstände von der Geraden) beträgt also 64% der ursprünglichen Varianz (Streuung um die waagerechte Gerade). Betrachtet man die Standardabweichungen, so bedeutet dies, dass die Residualstandardabweichung immer noch 80% der ursprünglichen Standardabweichung ist. Wir hatten in unserem Beispiel (Schuhgröße, Körpergröße) r = 0.85 erhalten, d.h. r 2 = , d.h % der Totalvariation sind durch die Regression erklärt, für die Restvariation verbleiben 27.75% der ursprünglichen Variation. Die Residualstandardabweichung ist 52.68% der ursprünglichen Standardabweichung. Chatfield und Collins (1991) geben wichtige Hinweise zur Interpretation und Aufbereitung, d.h. Darstellung von Korrelationsmatrizen. Sie beziehen sich dabei teilweise auf Ehrenberg (1975, siehe auch Ehrenberg 1982, 1986). Zunächst beklagen sie, dass Computerprogramme Korrelationsmatrizen meist in unübersichtlicher Form ausgeben. Sie geben zu viele Stellen aus und bei vielen Variablen erscheint die Ausgabe, dann oft in zwei oder noch mehr Blöcken und wird dadurch unübersichtlich. Wir betrachten dazu ein Beispiel. Wir haben aus dem Datensatz frag.frame zur Befragung in Statistik I mit dem Befehl fragmet.frame<-frag.frame[,c(1,3:5,27:30)] einen Teildatensatz herausgenommen, der aus allen Variablen mit metrischem Skalenniveau besteht. Mit dem Befehl cor(fragmet.frame,use="c") erhalten wir die folgende Ausgabe (Tabelle 3.1). Tabelle 3.1: Ausgabe der Korrelationsmatrix in R Alter Groesse Schuh Gewicht UeGewicht Alter Groesse Schuh Gewicht UeGewicht GroeBoe Woerter ZuZahl GroeBoe Woerter ZuZahl Alter Groesse Schuh Gewicht UeGewicht GroeBoe Woerter ZuZahl Wir haben 8 Variablen, die Ausgabe erfolgt in zwei Blöcken, die Zahlen sind so lang (8 Nachkommastellen), dass man nichts erkennen kann. Chatfield und Collins (1991) empfehlen, die Anzahl der Dezimalstellen auf zwei zu begrenzen. Mit dem Befehl

9 30 KAPITEL 3. ERSTE SCHRITTE DER DATENANALYSE print(round(cor(fragmet.frame,use="c"),digits=2)) erhalten wir die Ausgabe in Tabelle 3.2. Tabelle 3.2: Ausgabe der Korrelationsmatrix in R Alter Groesse Schuh Gewicht UeGewicht GroeBoe Woerter ZuZahl Alter Groesse Schuh Gewicht UeGewicht GroeBoe Woerter ZuZahl Wichtig ist der Befehl round innerhalb des print-befehls. Ohne round erhält man allein mit dem Argument digits, d.h. mit dem Befehl print(cor(fragmet.frame,use="c"),digits=2) nicht die gewünschte Anzahl Dezimalstellen. Außerdem wird grundsätzlich nach oben gerundet. Die Ausgabe ist jedoch nach den Empfehlungen bei Chatfield und Collins noch nicht optimal. So fällt es z.b. schwer, die Variablen mit hoher Korrelation von denen mit niedriger Korrelation zu trennen. Dabei ist es bei diesem Datensatz eigentlich klar aufgrund der Erhebung, welche Variablen hoch und welche eigentlich nicht korreliert sein sollten. Die Variablen Körpergröße, Schuhgröße und Gewicht sollten hochkorreliert sein. Da es sich bei Studierenden um ausgewachsene Menschen handelt, sollte keine oder allenfalls geringe Korrelation mit dem Alter vorhanden sein. Bei den vier anderen Variablen, handelte es sich um Schätzaufgaben (Schätzen einer Körpergröße (GroeBoe), des Gewichts eines Buches (UeGewicht), der Anzahl Wörter (Woerter) auf einer Folie) und der Nennung einer Zahl (ZuZahl) zwischen 0 und 99. Diese Variablen sollten untereinander und mit den anderen Variablen unkorreliert sein. Man könnte also die Variablen in eine andere Reihenfolge bringen: zunächst die mit hoher Korrelation, dann Alter, dann die anderen mit erwarteter geringer Korrelation. Bevor wir das tun, schauen wir uns alle Empfehlungen bei Chatfiled und Collins an: a) Runde die Zahlen auf zwei Dezimalstellen, u.u. sogar auf eine Stelle. b) Lass die Elemente in der Diagonalen weg, da sie alle 1 sind. Sie lenken nur das Auge ab, ohne wertvolle Informationen zu geben. c) Lass die Nullen weg, die vor den Dezimalstellen bei den Elementen außerhalb der Diagonalen erscheinen. d) Obwohl die Matrix symmetrisch ist, ist es hilfreich, sowohl die Elemente unterhalb als auch oberhalb der Diagonalen anzugeben. e) Wähle einen engen Abstand zwischen den Zeilen und Spalten, da die Zahlen leichter zu vergleichen sind, wenn das Auge sich nicht zu viel hin und her bewegen muss.

10 3.2. ERSTE STATISTIKEN 31 Aber lass einen etwas größeren Abstand nach jeder fünften Zeile und Spalte, da es dann leichter ist, bestimmte Variablen zu lokalisieren. Wenn wir diese Empfehlungen beherzigen und außerdem die Variablen umordnen, erhalten wir die Tabelle 3.3. Wir haben die Namen der Variablen auf zwei Buchstaben abgekürzt, damit die Spalten näher zusammenrücken können. Diese Änderungen wurden mit einem Editor vorgenommen. Tabelle 3.3: Korrelationsmatrix, neu geordnet und bearbeitet Gr SG Gw Al ÜG GB Wö ZZ Gr SG Gw Al ÜG GB Wö ZZ Jetzt ist es möglich, die wesentlichen Aussagen dieser Korrelationsmatrix zu erkennen. Chatfield und Collins empfehlen noch, markante Ergebnisse durch Kreise zu markieren. In dieser Matrix ist auffallend, die hohe Korrelation zwischen den Variablen Körpergröße, Schuhgöße und Gewicht und dann die geringe Korrelation zwischen den Variablen, die aus Schätzaufgaben hervorgingen. Bei diesen ist die größte Korrelation zwischen den Variablen GroeBoe und Woerter mit Wir führen hier noch einmal den Test durch, dass die Korrelation Null ist und erhalten in R die folgende Ausgabe. cor.test(groeboe, Woerter) Pearson s product-moment correlation data: GroeBoe and Woerter t = , df = 230, p-value = alternative hypothesis: true correlation is not equal to 0 sample estimates: cor Wir erhalten jetzt einen anderen Wert für den Korrelationskoeffizienten. Das liegt daran, dass wir bei der Berechnung der Korrelationsmatrix das Argument use="c" gewählt hatten. Mit use="p" erhalten Sie dasselbe Ergebnis wie hier im Test. Die Hypothese, dass der Korrelationskoeffizient Null ist, lässt sich also nicht verwerfen. Der P-Wert ist Mit einer Irrtumswahrscheinlichkeit von 17.66% könnte man behaupten, dass der Korrelationskoeffizient von Null verschieden ist. Schauen wir uns jetzt noch die Variable Alter an. Sie hat die höchste Korrelation mit dem Körpergewicht. Das ist vielleicht am ehesten plausibel, dass das Körpergewicht bei jungen Erwachsenen mit dem Alter noch zunimmt. Auch hier führen wir den Test durch:

11 32 KAPITEL 3. ERSTE SCHRITTE DER DATENANALYSE cor.test(alter,gewicht) Pearson s product-moment correlation data: Alter and Gewicht t = , df = 223, p-value = alternative hypothesis: true correlation is not equal to 0 sample estimates: cor Der P-Wert ist in diesem Fall Mit einer Irrtumswahrscheinlichkeit von 0.08 lässt sich also behaupten, dass der Korrelationskoeffizient zwischen dem Alter und dem Körpergewicht von Null verschieden ist. Man mache sich aber klar, wie klein dieser Korrelationskoeffizient (r = 0.12) ist und wie schwach damit der lineare Zusammenhang zwischen diesen beiden Variablen ist. Wir erinnern uns: Der Anteil an der Gesamtvariation, der durch die Regression erklärt ist, ist r 2 = = = 1.44%. Damit entfallen 98.56% der Gesamtvariation auf die Variation um die Gerade. Die Standardabweichung der Residuale (Abstände von der Geraden) ist damit 99.28% der ursprünglichen Standardabweichung. Der Rang der Korrelationsmatrix: Wir bemerken hier noch, dass die Kovarianzmatrix S und damit wegen Gleichung 3.3 auch die Korrelationsmatrix R positiv semidefinit ist. Da die Diagonalmatrix ˆD nichtsingulär ist, haben R und S denselben Rang. Wegen Gleichung 3.2 und der Beziehung Rang(A) = Rang(AA t ) = Rang(A t A) für eine Matrix A folgt, dass auch die um die Mittelwerte bereinigte Datenmatrix (X 1 x t ) denselben Rang haben muss. Die Matrix (X 1 x t ) ist eine n m-matrix. Daher ist ihr Rang kleiner oder gleich min(n, m). Wenn es weniger Beobachtungen als Variablen gibt, d.h. n < m, dann ist der Rang(X 1 x t ) < m und daraus folgt, dass S und R singulär sind. Wenn n = m, ist (X 1 x t ) eine quadratische Matrix, für die jede Spaltensumme Null ist. Die Zeilenvektoren sind also linear abhängig, so dass der Rang kleiner als m ist. Damit sind auch S und R singulär mit Rang kleiner als m. Für n = 3 und m = 3 z.b. gibt es also nur drei Beobachtungen und wir können immer eine Ebene durch drei Punkte im dreidimensionalen Raum legen, so dass die Daten eigentlich zweidimensional sind. Um solche Singularitäten wegen zu kleiner Beobachtungszahl zu vermeiden, sollte die Anzahl der Beobachtungen stets größer als die Anzahl der Variablen sein. Wenn n > m, dann wird der Rang von S und (X 1 x t ) i.a. gleich m sein. Aber wenn es lineare Zusammenhänge zwischen den Zufallsvariablen gibt, sollten sie auch in den Stichprobendaten sein und zu singulären Matrizen (X 1 x t ), S und R führen. Die Anzahl der linearen Nebenbedingungen in den Daten ist gleich m Rang(R), so dass der Rang der Korrelationsmatrix die eigentliche Dimension der Daten angibt.

Klausur zur Vorlesung Multivariate Verfahren, SS 2006 6 Kreditpunkte, 90 min

Klausur zur Vorlesung Multivariate Verfahren, SS 2006 6 Kreditpunkte, 90 min Klausur, Multivariate Verfahren, SS 2006, 6 Kreditpunkte, 90 min 1 Prof. Dr. Fred Böker 08.08.2006 Klausur zur Vorlesung Multivariate Verfahren, SS 2006 6 Kreditpunkte, 90 min Gesamtpunkte: 39 Aufgabe

Mehr

9. Schätzen und Testen bei unbekannter Varianz

9. Schätzen und Testen bei unbekannter Varianz 9. Schätzen und Testen bei unbekannter Varianz Dr. Antje Kiesel Institut für Angewandte Mathematik WS 2011/2012 Schätzen und Testen bei unbekannter Varianz Wenn wir die Standardabweichung σ nicht kennen,

Mehr

Kapitel 4. Hauptkomponentenanalyse. 4.1 Einführung. 4.2 Herleitung der Hauptkomponenten

Kapitel 4. Hauptkomponentenanalyse. 4.1 Einführung. 4.2 Herleitung der Hauptkomponenten Kapitel 4 Hauptkomponentenanalyse 4. Einführung Die Hauptkomponentenanalyse ist eine variablenorientierte Methode, die, wie die Faktorenanalyse auch, versucht, die Originalvariablen durch eine kleinere

Mehr

2. Deskriptive Statistik 2.1. Häufigkeitstabellen, Histogramme, empirische Verteilungsfunktionen

2. Deskriptive Statistik 2.1. Häufigkeitstabellen, Histogramme, empirische Verteilungsfunktionen 4. Datenanalyse und Modellbildung Deskriptive Statistik 2-1 2. Deskriptive Statistik 2.1. Häufigkeitstabellen, Histogramme, empirische Verteilungsfunktionen Für die Auswertung einer Messreihe, die in Form

Mehr

Einfache statistische Auswertungen mit dem Programm SPSS

Einfache statistische Auswertungen mit dem Programm SPSS Einfache statistische Auswertungen mit dem Programm SPSS Datensatz: fiktive_daten.sav Dipl. Päd. Anne Haßelkus Dr. Dorothea Dette-Hagenmeyer 11/2011 Überblick 1 Deskriptive Statistiken; Mittelwert berechnen...

Mehr

6.1 Definition der multivariaten Normalverteilung

6.1 Definition der multivariaten Normalverteilung Kapitel 6 Die multivariate Normalverteilung Wir hatten die multivariate Normalverteilung bereits in Abschnitt 2.3 kurz eingeführt. Wir werden sie jetzt etwas gründlicher behandeln, da die Schätzung ihrer

Mehr

Multivariate Statistik

Multivariate Statistik Hermann Singer Multivariate Statistik 1 Auflage 15 Oktober 2012 Seite: 12 KAPITEL 1 FALLSTUDIEN Abbildung 12: Logistische Regression: Geschätzte Wahrscheinlichkeit für schlechte und gute Kredite (rot/blau)

Mehr

a) Zeichnen Sie in das nebenstehende Streudiagramm mit Lineal eine Regressionsgerade ein, die Sie für passend halten.

a) Zeichnen Sie in das nebenstehende Streudiagramm mit Lineal eine Regressionsgerade ein, die Sie für passend halten. Statistik für Kommunikationswissenschaftler Wintersemester 2009/200 Vorlesung Prof. Dr. Helmut Küchenhoff Übung Cornelia Oberhauser, Monia Mahling, Juliane Manitz Thema 4 Homepage zur Veranstaltung: http://www.statistik.lmu.de/~helmut/kw09.html

Mehr

METHODENLEHRE I WS 2013/14 THOMAS SCHÄFER

METHODENLEHRE I WS 2013/14 THOMAS SCHÄFER METHODENLEHRE I WS 2013/14 THOMAS SCHÄFER DAS THEMA: INFERENZSTATISTIK IV INFERENZSTATISTISCHE AUSSAGEN FÜR ZUSAMMENHÄNGE UND UNTERSCHIEDE Inferenzstatistik für Zusammenhänge Inferenzstatistik für Unterschiede

Mehr

Eine zweidimensionale Stichprobe

Eine zweidimensionale Stichprobe Eine zweidimensionale Stichprobe liegt vor, wenn zwei qualitative Merkmale gleichzeitig betrachtet werden. Eine Urliste besteht dann aus Wertepaaren (x i, y i ) R 2 und hat die Form (x 1, y 1 ), (x 2,

Mehr

Analytische Statistik I. Statistische Methoden in der Korpuslinguistik Heike Zinsmeister WS 2009/10

Analytische Statistik I. Statistische Methoden in der Korpuslinguistik Heike Zinsmeister WS 2009/10 Analytische Statistik I Statistische Methoden in der Korpuslinguistik Heike Zinsmeister WS 2009/10 Testen Anpassungstests (goodness of fit) Weicht eine gegebene Verteilung signifikant von einer bekannten

Mehr

Analog zu Aufgabe 16.1 werden die Daten durch folgenden Befehl eingelesen: > kredit<-read.table("c:\\compaufg\\kredit.

Analog zu Aufgabe 16.1 werden die Daten durch folgenden Befehl eingelesen: > kredit<-read.table(c:\\compaufg\\kredit. Lösung 16.3 Analog zu Aufgabe 16.1 werden die Daten durch folgenden Befehl eingelesen: > kredit

Mehr

5. Schließende Statistik. 5.1. Einführung

5. Schließende Statistik. 5.1. Einführung 5. Schließende Statistik 5.1. Einführung Sollen auf der Basis von empirischen Untersuchungen (Daten) Erkenntnisse gewonnen und Entscheidungen gefällt werden, sind die Methoden der Statistik einzusetzen.

Mehr

Lineare Modelle in R: Einweg-Varianzanalyse

Lineare Modelle in R: Einweg-Varianzanalyse Lineare Modelle in R: Einweg-Varianzanalyse Achim Zeileis 2009-02-20 1 Datenaufbereitung Wie schon in der Vorlesung wollen wir hier zur Illustration der Einweg-Analyse die logarithmierten Ausgaben der

Mehr

Eine Einführung in R: Statistische Tests

Eine Einführung in R: Statistische Tests Eine Einführung in R: Statistische Tests Bernd Klaus, Verena Zuber Institut für Medizinische Informatik, Statistik und Epidemiologie (IMISE), Universität Leipzig http://www.uni-leipzig.de/ zuber/teaching/ws12/r-kurs/

Mehr

Wahrscheinlichkeitsrechnung und Statistik für Biologen 5. Der zwei-stichproben-t-test. und der Wilcoxon-Test

Wahrscheinlichkeitsrechnung und Statistik für Biologen 5. Der zwei-stichproben-t-test. und der Wilcoxon-Test Wahrscheinlichkeitsrechnung und Statistik für Biologen 5. Der zwei-stichproben-t-test (t-test für ungepaarte Stichproben) und der Wilcoxon-Test Dirk Metzler 22. Mai 2015 Inhaltsverzeichnis 1 Wiederholung:

Mehr

Einfache Statistiken in Excel

Einfache Statistiken in Excel Einfache Statistiken in Excel Dipl.-Volkswirtin Anna Miller Bergische Universität Wuppertal Schumpeter School of Business and Economics Lehrstuhl für Internationale Wirtschaft und Regionalökonomik Raum

Mehr

9 Faktorenanalyse. Wir gehen zunächst von dem folgenden Modell aus (Modell der Hauptkomponentenanalyse): Z = F L T

9 Faktorenanalyse. Wir gehen zunächst von dem folgenden Modell aus (Modell der Hauptkomponentenanalyse): Z = F L T 9 Faktorenanalyse Ziel der Faktorenanalyse ist es, die Anzahl der Variablen auf wenige voneinander unabhängige Faktoren zu reduzieren und dabei möglichst viel an Information zu erhalten. Hier wird davon

Mehr

Statistische Auswertung der Daten von Blatt 13

Statistische Auswertung der Daten von Blatt 13 Statistische Auswertung der Daten von Blatt 13 Problemstellung 1 Graphische Darstellung der Daten 1 Diskussion der Normalverteilung 3 Mittelwerte und deren Konfidenzbereiche 3 Signifikanz der Behandlung

Mehr

Einfache statistische Auswertungen mit dem TI-Nspire

Einfache statistische Auswertungen mit dem TI-Nspire 1. Neues Dokument und darin eine neue Seite anlegen Als Typ 6: Lists & Spreadsheet wählen. Darin die Messwerte in einer Spalte erfassen. Dies ergibt die Urliste. Wenn mehrere Messwerte vorliegen, die diejenigen,

Mehr

Datenanalyse mit Excel. Wintersemester 2013/14

Datenanalyse mit Excel. Wintersemester 2013/14 Datenanalyse mit Excel 1 KORRELATIONRECHNUNG 2 Korrelationsrechnung Ziel der Korrelationsrechnung besteht im bivariaten Fall darin, die Stärke des Zusammenhangs zwischen zwei interessierenden statistischen

Mehr

R ist freie Software und kann von der Website. www.r-project.org

R ist freie Software und kann von der Website. www.r-project.org R R ist freie Software und kann von der Website heruntergeladen werden. www.r-project.org Nach dem Herunterladen und der Installation von R kann man R durch Doppelklicken auf das R-Symbol starten. R wird

Mehr

Lösung zu Kapitel 11: Beispiel 1

Lösung zu Kapitel 11: Beispiel 1 Lösung zu Kapitel 11: Beispiel 1 Eine Untersuchung bei 253 Personen zur Kundenzufriedenheit mit einer Einzelhandelskette im Südosten der USA enthält Variablen mit sozialstatistischen Daten der befragten

Mehr

1. Allgemeine Hinweise Alexander.Martin.Koenig@TU-Clausthal.de

1. Allgemeine Hinweise Alexander.Martin.Koenig@TU-Clausthal.de 1. Allgemeine Hinweise Alexander.Martin.Koenig@TU-Clausthal.de Man sollte eine Excel-Tabelle immer so übersichtlich wie möglich halten. Dazu empfiehlt es sich, alle benötigten Daten, Konstanten und Messwerte

Mehr

Klausur Statistik Lösungshinweise

Klausur Statistik Lösungshinweise Klausur Statistik Lösungshinweise Prüfungsdatum: 1. Juli 2015 Prüfer: Etschberger, Heiden, Jansen Studiengang: IM und BW Aufgabe 1 14 Punkte Ein Freund von Ihnen hat über einen Teil seiner Daten, die er

Mehr

Zusammenhänge zwischen metrischen Merkmalen

Zusammenhänge zwischen metrischen Merkmalen Zusammenhänge zwischen metrischen Merkmalen Darstellung des Zusammenhangs, Korrelation und Regression Daten liegen zu zwei metrischen Merkmalen vor: Datenpaare (x i, y i ), i = 1,..., n Beispiel: x: Anzahl

Mehr

Einführung in die Vektor- und Matrizenrechnung. Matrizen

Einführung in die Vektor- und Matrizenrechnung. Matrizen Einführung in die Vektor- und Matrizenrechnung Matrizen Definition einer Matrix Unter einer (reellen) m x n Matrix A versteht man ein rechteckiges Schema aus reellen Zahlen, die wie folgt angeordnet sind:

Mehr

1,11 1,12 1,13 1,14 1,15 1,16 1,17 1,17 1,17 1,18

1,11 1,12 1,13 1,14 1,15 1,16 1,17 1,17 1,17 1,18 3. Deskriptive Statistik Ziel der deskriptiven (beschreibenden) Statistik (explorativen Datenanalyse) ist die übersichtliche Darstellung der wesentlichen in den erhobenen Daten enthaltene Informationen

Mehr

Einfaches Datenmanagement in R

Einfaches Datenmanagement in R Einfaches Datenmanagement in R Achim Zeileis 2009-02-20 1 Daten einlesen Datensätze werden in R typischerweise als Objekte der Klasse "data.frame" dargestellt. In diesen entsprechen die Zeilen den Beobachtungen

Mehr

Inhaltsverzeichnis. Regressionsanalyse. http://mesosworld.ch - Stand vom: 20.1.2010 1

Inhaltsverzeichnis. Regressionsanalyse. http://mesosworld.ch - Stand vom: 20.1.2010 1 Inhaltsverzeichnis Regressionsanalyse... 2 Lernhinweise... 2 Einführung... 2 Theorie (1-8)... 2 1. Allgemeine Beziehungen... 3 2. 'Best Fit'... 3 3. 'Ordinary Least Squares'... 4 4. Formel der Regressionskoeffizienten...

Mehr

Korrelationsmatrix. Statistische Bindungen zwischen den N Zufallsgrößen werden durch die Korrelationsmatrix vollständig beschrieben:

Korrelationsmatrix. Statistische Bindungen zwischen den N Zufallsgrößen werden durch die Korrelationsmatrix vollständig beschrieben: Korrelationsmatrix Bisher wurden nur statistische Bindungen zwischen zwei (skalaren) Zufallsgrößen betrachtet. Für den allgemeineren Fall einer Zufallsgröße mit N Dimensionen bietet sich zweckmäßiger Weise

Mehr

3.2 Bivariate Verteilungen

3.2 Bivariate Verteilungen 3.2 Bivariate Verteilungen zwei Variablen X, Y werden gemeinsam betrachtet (an jedem Objekt i, i = 1,..., n, werden gleichzeitig zwei Merkmale beobachtet) Beobachtungswerte sind Paare/Kombinationen von

Mehr

Sozialwissenschaftliche Fakultät der Universität Göttingen. Sommersemester 2009. Statistik mit SPSS

Sozialwissenschaftliche Fakultät der Universität Göttingen. Sommersemester 2009. Statistik mit SPSS Sommersemester 2009 Statistik mit SPSS 15. Mai 2009 15. Mai 2009 Statistik Dozentin: mit Esther SPSSOchoa Fernández 1 Überblick 1. Korrelationsanalysen Kovariation und Kovarianz Korrelation: - Interpretation

Mehr

Auswerten mit Excel. Viele Video-Tutorials auf Youtube z.b. http://www.youtube.com/watch?v=vuuky6xxjro

Auswerten mit Excel. Viele Video-Tutorials auf Youtube z.b. http://www.youtube.com/watch?v=vuuky6xxjro Auswerten mit Excel Viele Video-Tutorials auf Youtube z.b. http://www.youtube.com/watch?v=vuuky6xxjro 1. Pivot-Tabellen erstellen: In der Datenmaske in eine beliebige Zelle klicken Registerkarte Einfügen

Mehr

Linearer Zusammenhang von Datenreihen

Linearer Zusammenhang von Datenreihen Linearer Zusammenhang von Datenreihen Vielen Problemen liegen (möglicherweise) lineare Zusammenhänge zugrunde: Mein Internetanbieter verlangt eine Grundgebühr und rechnet minutenweise ab Ich bestelle ein

Mehr

Kapitel 4: Binäre Regression

Kapitel 4: Binäre Regression Kapitel 4: Binäre Regression Steffen Unkel (basierend auf Folien von Nora Fenske) Statistik III für Nebenfachstudierende WS 2013/2014 4.1 Motivation Ausgangssituation Gegeben sind Daten (y i, x i1,...,

Mehr

Korrelation - Regression. Berghold, IMI

Korrelation - Regression. Berghold, IMI Korrelation - Regression Zusammenhang zwischen Variablen Bivariate Datenanalyse - Zusammenhang zwischen 2 stetigen Variablen Korrelation Einfaches lineares Regressionsmodell 1. Schritt: Erstellung eines

Mehr

Kapitel 15. Lösung linearer Gleichungssysteme

Kapitel 15. Lösung linearer Gleichungssysteme Kapitel 15. Lösung linearer Gleichungssysteme Lineare Gleichungssysteme Wir befassen uns nun mit der Lösung im allgemeinen nichthomogener linearer Gleichungssysteme in zweifacher Hinsicht. Wir studieren

Mehr

Monte-Carlo-Simulationen mit Copulas. Kevin Schellkes und Christian Hendricks 29.08.2011

Monte-Carlo-Simulationen mit Copulas. Kevin Schellkes und Christian Hendricks 29.08.2011 Kevin Schellkes und Christian Hendricks 29.08.2011 Inhalt Der herkömmliche Ansatz zur Simulation logarithmischer Renditen Ansatz zur Simulation mit Copulas Test und Vergleich der beiden Verfahren Fazit

Mehr

Matrizen, Determinanten, lineare Gleichungssysteme

Matrizen, Determinanten, lineare Gleichungssysteme Matrizen, Determinanten, lineare Gleichungssysteme 1 Matrizen Definition 1. Eine Matrix A vom Typ m n (oder eine m n Matrix, A R m n oder A C m n ) ist ein rechteckiges Zahlenschema mit m Zeilen und n

Mehr

Dokumentation. estat Version 2.0

Dokumentation. estat Version 2.0 Dokumentation estat Version 2.0 Installation Die Datei estat.xla in beliebiges Verzeichnis speichern. Im Menü Extras AddIns... Durchsuchen die Datei estat.xla auswählen. Danach das Auswahlhäkchen beim

Mehr

Das Dialogfeld für die Regressionsanalyse ("Lineare Regression") findet sich im Statistik- Menu unter "Regression"-"Linear":

Das Dialogfeld für die Regressionsanalyse (Lineare Regression) findet sich im Statistik- Menu unter Regression-Linear: Lineare Regression Das Dialogfeld für die Regressionsanalyse ("Lineare Regression") findet sich im Statistik- Menu unter "Regression"-"Linear": Im einfachsten Fall werden mehrere Prädiktoren (oder nur

Mehr

Bachelorabschlussseminar Dipl.-Kfm. Daniel Cracau

Bachelorabschlussseminar Dipl.-Kfm. Daniel Cracau 1 Einführung in die statistische Datenanalyse Bachelorabschlussseminar Dipl.-Kfm. Daniel Cracau 2 Gliederung 1.Grundlagen 2.Nicht-parametrische Tests a. Mann-Whitney-Wilcoxon-U Test b. Wilcoxon-Signed-Rank

Mehr

Häufigkeitstabellen. Balken- oder Kreisdiagramme. kritischer Wert für χ2-test. Kontingenztafeln

Häufigkeitstabellen. Balken- oder Kreisdiagramme. kritischer Wert für χ2-test. Kontingenztafeln Häufigkeitstabellen Menüpunkt Data PivotTable Report (bzw. entsprechendes Icon): wähle Data Range (Zellen, die die Daten enthalten + Zelle mit Variablenname) wähle kategoriale Variable für Spalten- oder

Mehr

5.2. Nichtparametrische Tests. 5.2.1. Zwei unabhängige Stichproben: U- Test nach MANN- WHITNEY

5.2. Nichtparametrische Tests. 5.2.1. Zwei unabhängige Stichproben: U- Test nach MANN- WHITNEY 5.2. Nichtparametrische Tests 5.2.1. Zwei unabhängige Stichproben: U- Test nach MANN- WHITNEY Voraussetzungen: - Die Verteilungen der beiden Grundgesamtheiten sollten eine ähnliche Form aufweisen. - Die

Mehr

Methoden Quantitative Datenanalyse

Methoden Quantitative Datenanalyse Leitfaden Universität Zürich ISEK - Andreasstrasse 15 CH-8050 Zürich Telefon +41 44 635 22 11 Telefax +41 44 635 22 19 www.isek.uzh.ch 11. September 2014 Methoden Quantitative Datenanalyse Vorbereitung

Mehr

Statistische Software P. Fink. Statistische Software (R) Wiederholungshausübung SoSe 2015

Statistische Software P. Fink. Statistische Software (R) Wiederholungshausübung SoSe 2015 Allgmeine Hinweise Die Hausübung umfasst 7 Aufgaben mit insgesamt 120 Punkten. Erstellen Sie eine R Skript-Datei mit Ihrer Matrikelnummer als Dateinamen. Diese Datei enthält Ihren vollständigen und mit

Mehr

Erstellen einer Formel

Erstellen einer Formel Software Erstellen einer Formel In Excel kann man individuelle Formeln erstellen, dabei wird eine Formel mit ein Gleichzeichen = eingeleitet. Man kann direkt in eine Zelle schreiben oder in dem dafür vorgesehen

Mehr

Universität Bonn 28. Juli 2010 Fachbereich Rechts- und Wirtschaftswissenschaften Statistische Abteilung Prof. Dr. A. Kneip. KLAUSUR Statistik B

Universität Bonn 28. Juli 2010 Fachbereich Rechts- und Wirtschaftswissenschaften Statistische Abteilung Prof. Dr. A. Kneip. KLAUSUR Statistik B Universität Bonn 28. Juli 2010 Fachbereich Rechts- und Wirtschaftswissenschaften Statistische Abteilung Prof. Dr. A. Kneip Sommersemester 2010 KLAUSUR Statistik B Hinweise zur Bearbeitung: Bei allen Teilaufgaben

Mehr

Franz Kronthaler. Statistik angewandt. Datenanalyse ist (k)eine Kunst. Excel Edition. ^ Springer Spektrum

Franz Kronthaler. Statistik angewandt. Datenanalyse ist (k)eine Kunst. Excel Edition. ^ Springer Spektrum Franz Kronthaler Statistik angewandt Datenanalyse ist (k)eine Kunst Excel Edition ^ Springer Spektrum Inhaltsverzeichnis Teil I Basiswissen und Werkzeuge, um Statistik anzuwenden 1 Statistik ist Spaß 3

Mehr

Prof. Dr. Walter F. Tichy Dr. Matthias Müller Sommersemester 2006

Prof. Dr. Walter F. Tichy Dr. Matthias Müller Sommersemester 2006 Empirische Softwaretechnik Prof. Dr. Walter F. Tichy Dr. Matthias Müller Sommersemester 2006 1 Experiment zur Vererbungstiefe Softwaretechnik: die Vererbungstiefe ist kein guter Schätzer für den Wartungsaufwand

Mehr

8. Methoden der klassischen multivariaten Statistik

8. Methoden der klassischen multivariaten Statistik 8. Methoden der klassischen multivariaten Statistik 8.1. Darstellung von Daten Voraussetzungen auch in diesem Kapitel: Grundgesamtheit (Datenraum) Ω von Objekten (Fällen, Instanzen), denen J-Tupel von

Mehr

Prüfen von Mittelwertsunterschieden: t-test

Prüfen von Mittelwertsunterschieden: t-test Prüfen von Mittelwertsunterschieden: t-test Sven Garbade Fakultät für Angewandte Psychologie SRH Hochschule Heidelberg sven.garbade@hochschule-heidelberg.de Statistik 1 S. Garbade (SRH Heidelberg) t-test

Mehr

Klausur zur Vorlesung Statistik III für Studenten mit dem Wahlfach Statistik

Klausur zur Vorlesung Statistik III für Studenten mit dem Wahlfach Statistik Ludwig Fahrmeir, Nora Fenske Institut für Statistik Bitte für die Korrektur freilassen! Aufgabe 1 2 3 4 Punkte Klausur zur Vorlesung Statistik III für Studenten mit dem Wahlfach Statistik 29. März 21 Hinweise:

Mehr

Standardisierung von Daten Darstellung von Daten in Texten, Tabellen und Abbildungen. Standardisierung von Daten

Standardisierung von Daten Darstellung von Daten in Texten, Tabellen und Abbildungen. Standardisierung von Daten DAS THEMA: TABELLEN UND ABBILDUNGEN Standardisierung von Daten Darstellung von Daten in Texten, Tabellen und Abbildungen Standardisierung von Daten z-standardisierung Standardnormalverteilung 1 DIE Z-STANDARDISIERUNG

Mehr

Skriptum zur Veranstaltung. Quantitative Methoden (Mathematik/Statistik) Teil Induktive Statistik. 1. Version (mehr Draft als Skriptum)

Skriptum zur Veranstaltung. Quantitative Methoden (Mathematik/Statistik) Teil Induktive Statistik. 1. Version (mehr Draft als Skriptum) Skriptum zur Veranstaltung Quantitative Methoden (Mathematik/Statistik) Teil Induktive Statistik 1. Version (mehr Draft als Skriptum) Anmerkungen, Aufzeigen von Tippfehlern und konstruktive Kritik erwünscht!!!

Mehr

Biostatistik, WS 2015/2016 Der zwei-stichproben-t-test

Biostatistik, WS 2015/2016 Der zwei-stichproben-t-test 1/29 Biostatistik, WS 2015/2016 Der zwei-stichproben-t-test (t-test für ungepaarte Stichproben) Matthias Birkner http://www.staff.uni-mainz.de/birkner/biostatistik1516/ 11.12.2015 2/29 Inhalt 1 t-test

Mehr

Statistische Auswertung:

Statistische Auswertung: Statistische Auswertung: Die erhobenen Daten mittels der selbst erstellten Tests (Surfaufgaben) Statistics Punkte aus dem Punkte aus Surftheorietest Punkte aus dem dem und dem Surftheorietest max.14p.

Mehr

Lösungen zu Janssen/Laatz, Statistische Datenanalyse mit SPSS 1

Lösungen zu Janssen/Laatz, Statistische Datenanalyse mit SPSS 1 LÖSUNG 9B a) Lösungen zu Janssen/Laatz, Statistische Datenanalyse mit SPSS 1 Man kann erwarten, dass der Absatz mit steigendem Preis abnimmt, mit höherer Anzahl der Außendienstmitarbeiter sowie mit erhöhten

Mehr

Aufgabe 1 10 ECTS. y i x j gering mittel hoch n i Hausrat 200 25 0 225 KFZ 0 10 75 85 Unfall 20 35 90 145 Reiserücktritt 40 5 0 45 n j 260 75 165 500

Aufgabe 1 10 ECTS. y i x j gering mittel hoch n i Hausrat 200 25 0 225 KFZ 0 10 75 85 Unfall 20 35 90 145 Reiserücktritt 40 5 0 45 n j 260 75 165 500 Aufgabe 1 Für die Securance-Versicherung liegen Ihnen die gemeinsamen absoluten Häugkeiten der Merkmale X: Schadenshöhe und Y : Versicherungsart für die letzten 500 gemeldeten Schäden vor. 1. Interpretieren

Mehr

Grundlagen der Inferenzstatistik: Was Ihnen nicht erspart bleibt!

Grundlagen der Inferenzstatistik: Was Ihnen nicht erspart bleibt! Grundlagen der Inferenzstatistik: Was Ihnen nicht erspart bleibt! 1 Einführung 2 Wahrscheinlichkeiten kurz gefasst 3 Zufallsvariablen und Verteilungen 4 Theoretische Verteilungen (Wahrscheinlichkeitsfunktion)

Mehr

Einige Statistische Tests für den Ein- Zwei- und k-stichprobenfall (Nach Sachs, Stat. Meth.)

Einige Statistische Tests für den Ein- Zwei- und k-stichprobenfall (Nach Sachs, Stat. Meth.) ue biostatistik: nichtparametrische testverfahren / ergänzung 1/6 h. Lettner / physik Statistische Testverfahren Einige Statistische Tests für den Ein- Zwei- und k-stichprobenfall (Nach Sachs, Stat. Meth.)

Mehr

Gymnasium Gerlingen. Physik Praktikum Mittelstufe. Auswertung von Messungen mit Excel. Versuchsauswertung mit Microsoft Excel. 1.

Gymnasium Gerlingen. Physik Praktikum Mittelstufe. Auswertung von Messungen mit Excel. Versuchsauswertung mit Microsoft Excel. 1. Seite - 1 - Versuchsauswertung mit Microsoft Excel Microsoft Excel ist ein mächtiges Werkzeug, um Messwerte tabellarisch darzustellen, Berechnungen mit ihnen durchzuführen und Grafiken aus ihnen zu erstellen.

Mehr

4. Erstellen von Klassen

4. Erstellen von Klassen Statistik mit Tabellenkalkulation 4. Erstellen von Klassen Mit einem einfachen Befehl lässt sich eine Liste von Zahlen auf die Häufigkeit der einzelnen Werte untersuchen. Verwenden Sie dazu den Befehl

Mehr

Güte von Tests. die Wahrscheinlichkeit für den Fehler 2. Art bei der Testentscheidung, nämlich. falsch ist. Darauf haben wir bereits im Kapitel über

Güte von Tests. die Wahrscheinlichkeit für den Fehler 2. Art bei der Testentscheidung, nämlich. falsch ist. Darauf haben wir bereits im Kapitel über Güte von s Grundlegendes zum Konzept der Güte Ableitung der Gütefunktion des Gauss im Einstichprobenproblem Grafische Darstellung der Gütefunktionen des Gauss im Einstichprobenproblem Ableitung der Gütefunktion

Mehr

Verteilungsanalyse. Johannes Hain. Lehrstuhl für Mathematik VIII Statistik 1/35

Verteilungsanalyse. Johannes Hain. Lehrstuhl für Mathematik VIII Statistik 1/35 Verteilungsanalyse Johannes Hain Lehrstuhl für Mathematik VIII Statistik 1/35 Datentypen Als Sammeln von Daten bezeichnet man in der Statistik das Aufzeichnen von Fakten. Erhobene Daten klassifziert man

Mehr

3.3 Das allgemeine lineare Modell (ALM), Methode der kleinsten Quadrate

3.3 Das allgemeine lineare Modell (ALM), Methode der kleinsten Quadrate 31 und 31 und (), Methode der 33 Das allgemeine (), Methode der kleinsten Quadrate 37 Modelle mit Messwiederholungen 1 / 113 Eine grundsätzliche Bemerkung zu Beginn Es bestehen viele Ähnlichkeiten zwischen

Mehr

Webergänzung zu Kapitel 10

Webergänzung zu Kapitel 10 Webergänzung zu Kapitel 10 10.1.4 Varianzanalyse (ANOVA: analysis of variance) Im Kapitel 10 haben wir uns hauptsächlich mit Forschungsbeispielen beschäftigt, die nur zwei Ergebnissätze hatten (entweder

Mehr

1.3 Die Beurteilung von Testleistungen

1.3 Die Beurteilung von Testleistungen 1.3 Die Beurteilung von Testleistungen Um das Testergebnis einer Vp zu interpretieren und daraus diagnostische Urteile ableiten zu können, benötigen wir einen Vergleichsmaßstab. Im Falle des klassischen

Mehr

Kapitel 7. Regression und Korrelation. 7.1 Das Regressionsproblem

Kapitel 7. Regression und Korrelation. 7.1 Das Regressionsproblem Kapitel 7 Regression und Korrelation Ein Regressionsproblem behandelt die Verteilung einer Variablen, wenn mindestens eine andere gewisse Werte in nicht zufälliger Art annimmt. Ein Korrelationsproblem

Mehr

Statistik Einführung // Lineare Regression 9 p.2/72

Statistik Einführung // Lineare Regression 9 p.2/72 Statistik Einführung Lineare Regression Kapitel 9 Statistik WU Wien Gerhard Derflinger Michael Hauser Jörg Lenneis Josef Ledold Günter Tirler Rosmarie Wakolbinger Statistik Einführung // Lineare Regression

Mehr

Auswertung und Darstellung wissenschaftlicher Daten (1)

Auswertung und Darstellung wissenschaftlicher Daten (1) Auswertung und Darstellung wissenschaftlicher Daten () Mag. Dr. Andrea Payrhuber Zwei Schritte der Auswertung. Deskriptive Darstellung aller Daten 2. analytische Darstellung (Gruppenvergleiche) SPSS-Andrea

Mehr

12. Vergleich mehrerer Stichproben

12. Vergleich mehrerer Stichproben 12. Vergleich mehrerer Stichproben Dr. Antje Kiesel Institut für Angewandte Mathematik WS 2011/2012 Häufig wollen wir verschiedene Populationen, Verfahren, usw. miteinander vergleichen. Beipiel: Vergleich

Mehr

Regression und Korrelation

Regression und Korrelation Kapitel 7 Regression und Korrelation Ein Regressionsproblem behandeltdie VerteilungeinerVariablen, wenn mindestens eine andere gewisse Werte in nicht zufälliger Art annimmt. Ein Korrelationsproblem dagegen

Mehr

Arbeiten mit Excel. 1. Allgemeine Hinweise

Arbeiten mit Excel. 1. Allgemeine Hinweise 1. Allgemeine Hinweise Man sollte eine Excel Tabelle immer so übersichtlich wie möglich halten. Dazu empfiehlt es sich, alle benötigten Daten, Konstanten und Messwerte inklusive aller dazugehörigen Einheiten

Mehr

Statistisches Programmieren

Statistisches Programmieren Statistisches Programmieren Session 1 1 Was ist R R ist eine interaktive, flexible Software-Umgebung in der statistische Analysen durchgeführt werden können. Zahlreiche statistische Funktionen und Prozeduren

Mehr

2. Korrelation, lineare Regression und multiple Regression

2. Korrelation, lineare Regression und multiple Regression multiple 2.2 Lineare 2.2 Lineare 1 / 130 2.2 Lineare 2 / 130 2.1 Beispiel: Arbeitsmotivation Untersuchung zur Motivation am Arbeitsplatz in einem Chemie-Konzern 25 Personen werden durch Arbeitsplatz zufällig

Mehr

Einseitig gerichtete Relation: Mit zunehmender Höhe über dem Meeresspiegel sinkt im allgemeinen die Lufttemperatur.

Einseitig gerichtete Relation: Mit zunehmender Höhe über dem Meeresspiegel sinkt im allgemeinen die Lufttemperatur. Statistik Grundlagen Charakterisierung von Verteilungen Einführung Wahrscheinlichkeitsrechnung Wahrscheinlichkeitsverteilungen Schätzen und Testen Korrelation Regression Einführung Die Analyse und modellhafte

Mehr

Einführung in die Statistik mit EXCEL und SPSS

Einführung in die Statistik mit EXCEL und SPSS Christine Duller Einführung in die Statistik mit EXCEL und SPSS Ein anwendungsorientiertes Lehr- und Arbeitsbuch Zweite, überarbeitete Auflage Mit 71 Abbildungen und 26 Tabellen Physica-Verlag Ein Unternehmen

Mehr

Klausur: Einführung in die Statistik

Klausur: Einführung in die Statistik 1 Lösungen immer unter die jeweiligen Aufgaben schreiben. Bei Platzmangel auf die Rückseite schreiben (dann Nummer der bearbeiteten Aufgabe mit anmerken!!!). Lösungen, die nicht auf den Aufgabenblättern

Mehr

Tutorium zur Makroökonomik

Tutorium zur Makroökonomik Universität Ulm 89069 Ulm Germany Dipl. WiWi. Sabrina Böck Institut für Wirtschaftspolitik Fakultät für Mathematik und Wirtschaftswissenschaften Ludwig-Erhard-Stiftungsprofessur Tutorium zur Makroökonomik

Mehr

2.1 Gemeinsame-, Rand- und bedingte Verteilungen

2.1 Gemeinsame-, Rand- und bedingte Verteilungen Kapitel Multivariate Verteilungen 1 Gemeinsame-, Rand- und bedingte Verteilungen Wir hatten in unserer Datenmatrix m Spalten, dh m Variablen Demnach brauchen wir jetzt die wichtigsten Begriffe für die

Mehr

Auswertung von kritischen Daten Vorgehensweise anhand eines Beispiels Visual-XSel 10.0

Auswertung von kritischen Daten Vorgehensweise anhand eines Beispiels Visual-XSel 10.0 Auswertung von kritischen Daten Vorgehensweise anhand eines Beispiels Visual-XSel 10.0??? Curt Ronniger 2007 Bei Neueinstieg in das Programm, sollte zunächst die Dokumentation XSelDoE10.pdf gelesen werden.

Mehr

Überblick über die Verfahren für Ordinaldaten

Überblick über die Verfahren für Ordinaldaten Verfahren zur Analyse ordinalskalierten Daten 1 Überblick über die Verfahren für Ordinaldaten Unterschiede bei unabhängigen Stichproben Test U Test nach Mann & Whitney H Test nach Kruskal & Wallis parametrische

Mehr

LU-Zerlegung. Zusätze zum Gelben Rechenbuch. Peter Furlan. Verlag Martina Furlan. Inhaltsverzeichnis. 1 Definitionen.

LU-Zerlegung. Zusätze zum Gelben Rechenbuch. Peter Furlan. Verlag Martina Furlan. Inhaltsverzeichnis. 1 Definitionen. Zusätze zum Gelben Rechenbuch LU-Zerlegung Peter Furlan Verlag Martina Furlan Inhaltsverzeichnis Definitionen 2 (Allgemeine) LU-Zerlegung 2 3 Vereinfachte LU-Zerlegung 3 4 Lösung eines linearen Gleichungssystems

Mehr

Einführung in die Statistik für Wirtschaftswissenschaftler für Betriebswirtschaft und Internationales Management

Einführung in die Statistik für Wirtschaftswissenschaftler für Betriebswirtschaft und Internationales Management Einführung in die Statistik für Wirtschaftswissenschaftler für Betriebswirtschaft und Internationales Management Sommersemester 2013 Hochschule Augsburg : Gliederung 1 Einführung 2 Deskriptive Statistik

Mehr

Eine computergestützte Einführung mit

Eine computergestützte Einführung mit Thomas Cleff Deskriptive Statistik und Explorative Datenanalyse Eine computergestützte Einführung mit Excel, SPSS und STATA 3., überarbeitete und erweiterte Auflage ^ Springer Inhaltsverzeichnis 1 Statistik

Mehr

Dipl.-Volksw. Markus Pullen Wintersemester 2012/13

Dipl.-Volksw. Markus Pullen Wintersemester 2012/13 Statistische Auswertungen mit R Universität Kassel, FB 07 Wirtschaftswissenschaften Dipl.-Volksw. Markus Pullen Wintersemester 2012/13 Beispiele 8. Sitzung Konfidenzintervalle, Hypothesentests > # Anwendungsbeispiel

Mehr

Willkommen zur Vorlesung Statistik (Master)

Willkommen zur Vorlesung Statistik (Master) Willkommen zur Vorlesung Statistik (Master) Thema dieser Vorlesung: Verteilungsfreie Verfahren Prof. Dr. Wolfgang Ludwig-Mayerhofer Universität Siegen Philosophische Fakultät, Seminar für Sozialwissenschaften

Mehr

Profil A 49,3 48,2 50,7 50,9 49,8 48,7 49,6 50,1 Profil B 51,8 49,6 53,2 51,1 51,1 53,4 50,7 50 51,5 51,7 48,8

Profil A 49,3 48,2 50,7 50,9 49,8 48,7 49,6 50,1 Profil B 51,8 49,6 53,2 51,1 51,1 53,4 50,7 50 51,5 51,7 48,8 1. Aufgabe: Eine Reifenfirma hat für Winterreifen unterschiedliche Profile entwickelt. Bei jeweils gleicher Geschwindigkeit und auch sonst gleichen Bedingungen wurden die Bremswirkungen gemessen. Die gemessenen

Mehr

Einfache Varianzanalyse für abhängige

Einfache Varianzanalyse für abhängige Einfache Varianzanalyse für abhängige Stichproben Wie beim t-test gibt es auch bei der VA eine Alternative für abhängige Stichproben. Anmerkung: Was man unter abhängigen Stichproben versteht und wie diese

Mehr

Univariate Lineare Regression. (eine unabhängige Variable)

Univariate Lineare Regression. (eine unabhängige Variable) Univariate Lineare Regression (eine unabhängige Variable) Lineare Regression y=a+bx Präzise lineare Beziehung a.. Intercept b..anstieg y..abhängige Variable x..unabhängige Variable Lineare Regression y=a+bx+e

Mehr

Austausch- bzw. Übergangsprozesse und Gleichgewichtsverteilungen

Austausch- bzw. Übergangsprozesse und Gleichgewichtsverteilungen Austausch- bzw. Übergangsrozesse und Gleichgewichtsverteilungen Wir betrachten ein System mit verschiedenen Zuständen, zwischen denen ein Austausch stattfinden kann. Etwa soziale Schichten in einer Gesellschaft:

Mehr

Felix-Nicolai Müller. Seminar Fragebogenmethodik - WS2009/2010 - Universität Trier Dr. Dirk Kranz 24.11.2009

Felix-Nicolai Müller. Seminar Fragebogenmethodik - WS2009/2010 - Universität Trier Dr. Dirk Kranz 24.11.2009 Cohen s Kappa Felix-Nicolai Müller Seminar Fragebogenmethodik - WS2009/2010 - Universität Trier Dr. Dirk Kranz 24.11.2009 Felix-Nicolai Müller Cohen s Kappa 24.11.2009 1 / 21 Inhaltsverzeichnis 1 2 3 4

Mehr

Herzlich Willkommen zur Vorlesung Statistik

Herzlich Willkommen zur Vorlesung Statistik Herzlich Willkommen zur Vorlesung Statistik Thema dieser Vorlesung: Kovarianz und Korrelation Prof. Dr. Wolfgang Ludwig-Mayerhofer Universität Siegen Philosophische Fakultät, Seminar für Sozialwissenschaften

Mehr

Schätzen und Testen von Populationsparametern im linearen Regressionsmodell PE ΣO

Schätzen und Testen von Populationsparametern im linearen Regressionsmodell PE ΣO Schätzen und Testen von Populationsparametern im linearen Regressionsmodell PE ΣO 4. Dezember 2001 Generalisierung der aus Stichprobendaten berechneten Regressionsgeraden Voraussetzungen für die Generalisierung

Mehr

Statistische Verfahren für das Data Mining in einem Industrieprojekt

Statistische Verfahren für das Data Mining in einem Industrieprojekt Statistische Verfahren für das Data Mining in einem Industrieprojekt Thorsten Dickhaus Forschungszentrum Jülich GmbH Zentralinstitut für Angewandte Mathematik Telefon: 02461/61-4193 E-Mail: th.dickhaus@fz-juelich.de

Mehr

90-minütige Klausur Statistik für Studierende der Kommunikationswissenschaft

90-minütige Klausur Statistik für Studierende der Kommunikationswissenschaft Prof. Dr. Helmut Küchenhoff SS08 90-minütige Klausur Statistik für Studierende der Kommunikationswissenschaft am 22.7.2008 Anmerkungen Überprüfen Sie bitte sofort, ob Ihre Angabe vollständig ist. Sie sollte

Mehr

Kommentiertes Beispiel für das Gaußsche Eliminationsverfahren

Kommentiertes Beispiel für das Gaußsche Eliminationsverfahren Kommentiertes Beispiel für das Gaußsche Eliminationsverfahren oder: Wie rechnet eigentlich der TI 84, wenn lineare Gleichungssysteme gelöst werden? Hier wird an einem Beispiel das Gaußsche Verfahren zum

Mehr

FAKTORIELLE VERSUCHSPLÄNE. Andreas Handl

FAKTORIELLE VERSUCHSPLÄNE. Andreas Handl FAKTORIELLE VERSUCHSPLÄNE Andreas Handl 1 Inhaltsverzeichnis 1 Versuchsplanung 4 2 Einfaktorielle Varianzanalyse 6 2.1 DieAnnahmen... 6 2.2 Die ANOVA-Tabelle und der F -Test... 6 2.3 Versuche mit zwei

Mehr