E 71,00 74,00 67,50 62,5 52,75 53,00 H 6,00 5,00 5,00 3,00 2,75 4,25

Ähnliche Dokumente
6 Korrelation und Regression

Tutorial: Regression Output von R

Jonathan Harrington. Die t-verteilung

Lösung zu Kapitel 11: Beispiel 1

1 Einfachregression 1.1In 10 Haushalten wurden Einkommen und Ausgaben für Luxusgüter erfragt:

Deskriptive Statistik Lösungen zu Blatt 5 Christian Heumann, Susanne Konrath SS Lösung Aufgabe 27. f X Y (a i b j ) = f i j = f ij f j

Lineare Strukturgleichungsmodelle (LISREL) Konfirmatorische Faktorenanalyse (CFA)

Lineare Modelle in R: Klassische lineare Regression

Lineare Modelle in R: Einweg-Varianzanalyse

Unterlagen zu Fisher s Exact Test, Vergleich von Anteilswerten und logistischer Regression. Robin Ristl. Wintersemester 2012/13

Statistik Einführung // Lineare Regression 9 p.2/72

10. Übung (Korrelation und lineare Regressionsanalyse)

Tutorial: Rangkorrelation

1. Erklären Sie den Unterschied zwischen einem einseitigen und zweiseitigen Hypothesentest.

» S C H R I T T - F Ü R - S C H R I T T - A N L E I T U N G «M U L T I P L E L I N E A R E R E G R E S S I O N M I T S P S S / I B M Daniela Keller

Musterlösung zu Serie 14

10. Die Normalverteilungsannahme

Zusammenhangsanalyse mit SPSS. Messung der Intensität und/oder der Richtung des Zusammenhangs zwischen 2 oder mehr Variablen

Breusch-Pagan-Test I auf Heteroskedastie in den Störgrößen

Analyse von Querschnittsdaten. Signifikanztests I Basics

Eine zweidimensionale Stichprobe

Kapitel 4: Binäre Regression

Beipiele zum Üben und Wiederholen Wirtschaftsstatistik 2 (Kurs 3) Lösungen

Versuchsplanung SoSe 2015 R - Lösung zu Übung 1 am Autor: Ludwig Bothmann

Tests einzelner linearer Hypothesen I

1 Interaktion von zwei Dummyvariablen. 2 Interaktion einer Dummyvariablen mit einer kardinalskalierten Variablen

Prof. Dr. Walter F. Tichy Dr. Matthias Müller Sommersemester 2006

Lösung Aufgabe 1 (Regression) Es wurden in einer Befragung zwei metrische Merkmale X und Y erhoben. Betrachten Sie dazu die

Kovarianz, Korrelation, (lineare) Regression

Klausur zu Methoden der Statistik II (mit Kurzlösung) Wintersemester 2012/13. Aufgabe 1

PROC FREQ für Kontingenztafeln

Klausur zur Vorlesung Statistik III für Studenten mit dem Wahlfach Statistik

Hypothesentests mit R Ashkan Taassob Andreas Reisch

Klausur zur Vorlesung Statistik III für Studenten mit Wahlfach Statistik. 7. Februar 2008

Brückenkurs Statistik für Wirtschaftswissenschaften

Wahrscheinlichkeitsrechnung und Statistik für Biologen 6. Chi-Quadrat-Test und Fishers exakter Test

Statistik II: Signifikanztests /1

Analytische Statistik I. Statistische Methoden in der Korpuslinguistik Heike Zinsmeister WS 2009/10

Dipl.-Volksw. Markus Pullen Wintersemester 2012/13

Die Varianzanalyse. Analysis of Variance (ANOVA) Jonathan Harrington

Statistischer Rückschluss und Testen von Hypothesen

Modul G.1 WS 07/08: Statistik

Empirische Softwaretechnik

Regression mit Faktoren, Interaktionen und transformierten Variablen

Glossar Statistik 2. Bivariate Verfahren: zwei nummerische Merkmale

Inferenzstatistik Vergleich mehrerer Stichproben - Varianzanalyse

Inhaltsverzeichnis. Regressionsanalyse. - Stand vom:

Bachelorabschlussseminar Dipl.-Kfm. Daniel Cracau

STATISTISCHE MUSTERANALYSE - DARSTELLUNGSVORSCHLAG

Zwei kategoriale Merkmale. Homogenität Unabhängigkeit

Statistik. Jan Müller

Vorlesung Wirtschaftsstatistik 2 (FK ) Multiple lineare Regression. Dipl.-Ing. Robin Ristl Wintersemester 2012/13

Ergänzungsmaterial zur Vorlesung. Statistik 2. Modelldiagnostik, Ausreißer, einflussreiche Beobachtungen

Korrelation - Regression. Berghold, IMI

3. ZWEI KATEGORIALE MERKMALE (bivariate kategoriale Daten)

Kapitel 8. Einfache Regression. Anpassen des linearen Regressionsmodells, OLS. Eigenschaften der Schätzer für das Modell

Sozialwissenschaftliche Fakultät der Universität Göttingen. Sommersemester Statistik mit SPSS

Schätzen und Testen von Populationsparametern im linearen Regressionsmodell PE ΣO

Klausur Statistik Lösungshinweise

1 Lambert-Beersches Gesetz

Entschädigungen von Stiftungsräten

Ausgewählte Kapitel der Statistik: Regressions- u. varianzanalytische Modelle Lösung von Grundaufgaben mit SPSS Statistics 20.0

Übungsklausur Lineare Modelle. Prof. Dr. H. Toutenburg

Bivariate Kreuztabellen

8. Konfidenzintervalle und Hypothesentests

8. Keine Normalverteilung der Störgrößen (Verletzung der B4-Annahme)

Statistik. Für Sozialwissenschaftler. Dritte, neu bearbeitete Auflage Mit 71 Abbildungen und 224 Tabellen

Sozialwissenschaftliche Fakultät der Universität Göttingen. Sommersemester Statistik mit SPSS

k np g(n, p) = Pr p [T K] = Pr p [T k] Φ. np(1 p) DWT 4.1 Einführung 359/467 Ernst W. Mayr

Regressionsanalyse in R

Probeklausur Statistik Lösungshinweise

Übung zur Empirischen Wirtschaftsforschung V. Das Lineare Regressionsmodell

Bivariate Zusammenhänge

Anpassungstests VORGEHENSWEISE

a) Zeichnen Sie in das nebenstehende Streudiagramm mit Lineal eine Regressionsgerade ein, die Sie für passend halten.

Zweiseitiger Test für den unbekannten Mittelwert µ einer Normalverteilung bei unbekannter Varianz

Lineare Korrelation. Statistik für SozialwissenschaftlerInnen II p.143

Eine Einführung in R: Statistische Tests

Prüfungsleistung Quantitative Methoden II, WS10/11

Computergestützte Methoden. Master of Science Prof. Dr. G. H. Franke WS 07/08

Formelsammlung für das Modul. Statistik 2. Bachelor. Sven Garbade

Es können keine oder mehrere Antworten richtig sein. Eine Frage ist NUR dann richtig beantwortet, wenn ALLE richtigen Antworten angekreuzt wurden.

Willkommen zur Vorlesung Statistik (Master)

Chi-Quadrat Verfahren

Deskriptive Statistik

Test auf Varianzgleichheit (F-Test) (einseitiger Test!!)

Eine Einführung in R: Das Lineare Modell

Analytische Statistik II

ÜBUNGSAUFGABEN ZUR DESKRIPTIVEN UND EXPLORATIVEN DATENANALYSE

Statistik. Ludwig Fahrmeir Rita Künstler Iris Pigeot Gerhard Tutz. Der Weg zur Datenanalyse. Springer. Zweite, verbesserte Auflage

1.8 Kolmogorov-Smirnov-Test auf Normalverteilung

Seminar zur Energiewirtschaft:

Bonus-Lektion: Prüfung der Voraussetzungen und Transformationen

Transkript:

GRUNDAUFGABEN ZUR KORRELATION UND REGRESSION 1. An bestimmten von sechs verschiedenen Grasarten stammenden Chromosomen wurden die Teillängen E und H des C-Band Euchromatins bzw. Heterochromatins gemessen (Angaben in µm; aus H.M. Thomas, Heredity, 46: 263-267, 1981). Man berechne die Produktmomentkorrelation r EH. Ist die Produktmomentkorrelation signifikant von null verschieden? (α = 5%) E 71,00 74,00 67,50 62,5 52,75 53,00 H 6,00 5,00 5,00 3,00 2,75 4,25 2. In einer Studie wurde untersucht, ob zwischen der Mortalität in der Perinatalperiode (Merkmal Y, Werte ja/nein) und dem Rauchen während der Schwangerschaft (Merkmal X, Werte ja/nein) ein Zusammenhang besteht. Zu diesem Zweck wurden Daten in einer Geburtenstation erhoben. Man berechne den Phi-Koeffizienten und das Odds-Ratio. Ist der Phi-Koeffizient auf 5%igen Testniveau von null verschieden? Raucher X Mortalität Y ja nein Σ (Zeilen) ja 246 264 510 nein 8160 10710 18870 Σ (Spalten) 8406 10974 19380 3. Von einem Gebiet der Schweiz liegen aus 10 Wintern (Dezember bis März) die in der folgenden Tabelle angeführten Werte der Schneehöhe X (in cm) und der Lawinenabgänge Y vor. Man stelle die Abhängigkeit der Anzahl der Lawinenabgänge von der Schneehöhe durch ein lineares Regressionsmodell dar. (α=5%) X 80 300 590 170 302 515 609 843 221 616 Y 31 44 78 65 75 38 51 104 37 91 4. Der Energieumsatz E (in kj pro kg Körpergewicht und Stunde) wurde in Abhängigkeit von der Laufgeschwindigkeit v (in m/s) gemessen. Man stelle die Abhängigkeit des Energieumsatzes von der Laufgeschwindigkeit durch ein geeignetes Regressionsmodell dar und prüfe, ob im Rahmen des Modells überhaupt ein signifikanter Einfluss der Geschwindigkeit auf den Energieumsatz besteht (α=5%). Hinweis: Logarithmiert man den Energieumsatz und die Laufgeschwindigkeit ergibt sich im Streudiagramm eine Punkteverteilung mit einem linearen Trend. v 3,1 4,2 5,0 5,4 6,6 E 27,6 50,6 62,7 147,1 356,3 Musterbeispiele_STAT6_mit_Loesungen 1

LÖSUNGEN MIT R Aufgabe 1 (Grundaufgabe KR1, Produktmomentkorrelation) Präzisierung der Aufgabe: Die Aufgabe beinhaltet die rechnerische Bestimmung der Pearson-Korrelation r EH zwischen den Teillängen E und H sowie die Prüfung, ob der Korrelationskoeffizient auf dem Testniveau 5% signifikant von null verschieden ist, also eine Abhängigkeit zwischen den Teillängen besteht. Für die Interpretation und den Test ist nachzuweisen, dass die Verteilung von E und H nicht wesentlich von der bivariaten Normalverteilung abweicht. Eine notwendige Voraussetzung hierfür ist, dass die univariaten Verteilungen von E und H mit der Normalverteilungsannahme verträglich sind. Lösungsansatz: Die Lösung umfasst zunächst eine univariate Datenbeschreibung und die Überprüfung der Normalverteilungsannahme für E und H; hierbei lautet die Alternativhypothese H1 jeweils: Die Grundgesamtheit ist nicht normalverteilt. Für den Abhängigkeitstest lautet die Alternativhypothese H1: Korrelationskoeffizient ρ EH <> 0, die Nullhypothese H0: Korrelationskoeffizient ρ EH = 0. Die Nullhypothese ist zu verwerfen, wenn der P-Wert kleiner als das vorgegebene Testniveau ist. Rechnerische Lösung (mit R): > E <- c(71, 74, 67.5, 62.5, 52.75, 53) > H <- c(6, 5, 5, 3, 2.75, 4.25) > options(digits=4) > # univariate Statistiken > n_e <- length(e) > n_h <- length(h) > m_e <- mean(e) > m_h <- mean(h) > s_e <- sd(e) > s_h <- sd(h) > print(cbind(n_e, m_e, s_e)) n_e m_e s_e [1,] 6 63.46 9.048 > print(cbind(n_h, m_h, s_h)) n_h m_h s_h [1,] 6 4.333 1.262 > # Überprüfung der Normalverteilung > shapiro.test(e) Shapiro-Wilk normality test data: E W = 0.8966, p-value = 0.3545 > shapiro.test(h) Shapiro-Wilk normality test data: H W = 0.9278, p-value = 0.563 > # Schätzwert für die Pearson-Korrelation > # Test auf Abweichung von Nullkorrelation > cor.test(e, H, alternative="two.sided") Pearson's product-moment correlation data: E and H t = 2.107, df = 4, p-value = 0.1028 alternative hypothesis: true correlation is not equal to 0 95 percent confidence interval: -0.2097 0.9674 sample estimates: cor 0.7253 Musterbeispiele_STAT6_mit_Loesungen 2

Ergebnis: Die (univariate) Überprüfung der Normalverteilung ergibt auf Grund der P-Werte (0.3545 >=5% bzw. 0.563 >= 5%), dass die Daten nicht in Widerspruch zur jeweiligen Normalverteilungsannahme stehen. Da der P-Wert im Abhängigkeitstest >= 5% ist, kann die Nullhypothese (Korrelation zwischen E und H ist null) nicht abgelehnt werden; obwohl der Schätzwert der Pearsonkorrelation r EH =0,7253 deutlich von null abweicht, ergibt die Abhängigkeitsprüfung ein nichtsignifikantes Resultat! Aufgabe 2 (Grundaufgabe KR2, Phi-Koeffzient, Odds-Ratio) Präzisierung der Aufgabe: Während in Aufgabe 1 der Zusammenhang zwischen zwei metrischen Variablen zu untersuchen war (der übliche Kennwert dafür ist die Pearson-Korrelation) geht es in Aufgabe 2 um den Zusammenhang zwischen zwei 2-stufig skalierten Variablen. Ein Maß zur Beschreibung des Zusammenhangs zwischen zwei 2-stufig skalierten Merkmalen ist der PHI-Koeffizient. Neben der numerischen Bestimmung des PHI-Koeffizienten ist zu untersuchen, ob dieser auf dem Testniveau 5% signifikant von null abweicht. Zusätzlich ist das sogenannte Odds-Ratio zu berechnen. Lösungsansatz: Die Prüfung, ob der PHI-Koeffizient signifikant von null abweicht, erfolgt mit dem Chiquadrat-Test; ist der ausgewiesene P-Wert kleiner als 5%, wird die Nullhypothese (keine Abhängigkeit, d.h. PHI- Koeffizient=0) abgelehnt (signifikanter Testausgang). Im Rahmen des Tests wird u.a. auch die Chiquadratsumme (Goodness of Fit - Statistik) GF bestimmt, mit der der PHI-Koeffizient (= Quadratwurzel aus GF/n) bestimmt wird; hier ist n der Umfang der bivariaten Stichprobe. Das Odds- Ratio ist gleich dem Verhältnis der Chancen Sterben:Überleben mit und ohne Risikofaktor (Rauchen), d.h. gleich dem Verhältnis (246:8160)/(264:10710). Rechnerische Lösung (mit R): > options(digits=4) > freq <- matrix(c(246, 8160, 264, 10710), nrow=2, ncol=2, byrow=f, + dimnames=list(mortalität=c("ja", "nein"), Raucher=c("ja", "nein"))) > # Wiedergabe der Matrix der beobachteten Häufigkeiten > freq Raucher Mortalität ja nein ja 246 264 nein 8160 10710 > # Prüfung auf Abhängigkeit > # H1: Abhängigkeit vs. H0: keine Abhängigkeit > testergebnis <- chisq.test(freq, correct=true) > testergebnis Pearson's Chi-squared test with Yates' continuity correction data: freq X-squared = 4.837, df = 1, p-value = 0.02785 > # Bestimmung des PHI-Koeffizienten > summary(testergebnis) Length Class Mode statistic 1 -none- numeric parameter 1 -none- numeric p.value 1 -none- numeric method 1 -none- character data.name 1 -none- character observed 4 -none- numeric expected 4 -none- numeric residuals 4 -none- numeric > testergebnis[1] $statistic X-squared 4.837 > chi2sum <- testergebnis[[1]] # Auswahl des numerischen Elementes der Liste > chi2sum X-squared 4.837 Musterbeispiele_STAT6_mit_Loesungen 3

> phi <- sqrt(chi2sum/sum(freq)) > phi X-squared 0.0158 > # Bestimmung des Odds-Ratio (Chancenverhältnis) > OR <- (freq[1,1]/freq[2,1])/(freq[1,2]/freq[2,2]) > OR [1] 1.223 Ergebnis: Die Prüfung auf Abhängigkeit (bzw. Abweichung des PHI-Koeffizienten von null) ist wegen p-value = 0.02785 < 0.05 signifikant, d.h. es gilt H1 (Die Mortalität ist vom Raucherverhalten abhängig). Der PHI-Koeffizient ist in der Ergebnisdarstellung des Chiquadrat-Tests (testergebnis) das erste Element, auf dessen numerischen Inhalt mit testergebnis[[1]] zugegriffen werden kann; es folgt für den PHI- Koeffizienten der Wert 0,0158; für das Odds-Ratio ergibt sich 1.223 > 1, d.h. die Sterbechancen des Kindes einer rauchenden Mutter sind größer als jene einer nichtrauchenden. Aufgabe 3 (Grundaufgabe KR3, Lineare Regression) Präzisierung der Aufgabe: Es ist die Anzahl Y der Lawinenabgänge in Abhängigkeit von der Schneehöhe X durch ein lineares Regressionsmodell darzustellen. Die Angabe der Regressionsgleichung ist nur dann sinnvoll, wenn nachgewiesen wurde, dass Y tatsächlich (linear) von X abhängt. Dies erfolgt so, indem gezeigt wird, dass die Pearson-Korrelation zwischen X und Y auf dem Testniveau 5% (angenommen) von null abweicht. Lösungsansatz: In einem ersten Schritt wird die Adäquatheit des linearen Modells zur Beschreibung der Abhängigkeit untersucht. Zu diesem Zwecke erstellt man ein Streudiagramm (X horizontal, Y vertikal). Folgen die Datenpunkte einem linearen Trend ist das lineare Modell anwendbar. Es ist dabei zweckmäßig, die Regressionsgerade in das Streudiagramm einzuzeichnen. Bei der folgenden Abhängigkeitsprüfung lautet die Alternativhypothese H1: Y hängt von X (linear) ab, die Nullhypothese ist H0: Y hängt von X nicht ab (zumindest nicht linear). Bei signifikantem Testausgang (Abhängigkeit) wird die Gleichung der Regressionsgeraden angegeben. Rechnerische Lösung (mit R): > options(digits=4) > x <- c(80, 300, 590, 170, 302, 515, 609, 843, 221, 616) > y <- c(31, 44, 78, 65, 75, 38, 51, 104, 37, 91) > daten <- data.frame(x, y) > daten x y 1 80 31 2 300 44 3 590 78 4 170 65 5 302 75 6 515 38 7 609 51 8 843 104 9 221 37 10 616 91 > # univariate Statistiken > n_x <- length(x) > n_y <- length(y) > m_x <- mean(x) > m_y <- mean(y) > s_x <- sd(x) > s_y <- sd(y) > print(cbind(n_x, m_x, s_x)) n_x m_x s_x [1,] 10 424.6 244.2 > print(cbind(n_y, m_y, s_y)) n_y m_y s_y Musterbeispiele_STAT6_mit_Loesungen 4

[1,] 10 61.4 25.04 > # Streudiagramm mit Regressionsgeraden > plot(x, y) > abline(lm(y~x)) y 40 60 80 100 200 400 600 800 x > # Schätzung der Regressionsparameter einschl. Abhängigkeitsprüfung) > modell <- lm(formula=y~x, data=daten) > summary(modell) Call: lm(formula = y ~ x, data = daten) Residuals: Min 1Q Median 3Q Max -29.670-9.899-0.686 15.640 22.103 Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) 31.9522 12.9125 2.47 0.038 * x 0.0694 0.0267 2.60 0.032 * --- Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 Residual standard error: 19.6 on 8 degrees of freedom Multiple R-squared: 0.458, Adjusted R-squared: 0.39 F-statistic: 6.75 on 1 and 8 DF, p-value: 0.0317 Ergebnis: Aus dem Streudiagramm entnimmt man, dass die Datenpunkte durch eine Gerade ausgeglichen werden können. Die Abhängigkeitsprüfung ergibt den p-value = 0.0317 < 0.05; es folgt, dass H0 (keine lineare Abhängigkeit) abgelehnt werden kann, d.h. Y kann tatsächlich durch eine lineare Regressionsgleichung in Abhängigkeit von X dargestellt werden. Der Anstieg k der Regressionsgeraden ist 0.0694 (siehe unter Coefficients, bei x) und der y-achsenabschnitt (Intercept) d = 31.9522; somit lautet die Regressionsgerade: y = kx + d = 0.0694x + 31.9522. Man beachte, dass eine allfällige Hochschätzung von der Schneehöhe X auf die erwartete Zahl von Lawinenabgängen mit der Regressionsgleichung nur innerhalb des Variationsbereichs von X also von etwa X = 80 bis X= 850 - möglich ist; die Abhängigkeit der Variablen Y von X ist offensichtlich nichtlinear (für X=0 müsste sich Y=0 ergeben), kann aber in einem begrenzten Bereich durch ein lineares Modell approximiert werden. Musterbeispiele_STAT6_mit_Loesungen 5

Aufgabe 4 (Grundaufgabe KR4, Nichtlineare Regression log/log-transformation) Präzisierung der Aufgabe: Es ist der Energieumsatz E in Abhängigkeit von der Laufgeschwindigkeit v durch ein geeignetes Regressionsmodell darzustellen. Man überzeugt sich durch ein Streudiagramm, dass sich mit den beobachteten Daten keine Punkteverteilung mit linearem Trend ergibt. Zum Zwecke der Linearisierung werden entsprechend dem Hinweis sowohl die E- als auch die v-werte logarithmiert (man nehme z.b. natürliche Logarithmen). Wir bezeichnen die logarithmierten Variablen mit E =ln(e) und v =ln(v). Man überzeuge sich, dass das mit v und E gebildete Streudiagramm ein lineares Regressionsmodell zur Beschreibung der Abhängigkeit der Variablen E von v rechtfertigt. Die Angabe der Regressionsgleichung E = k v + d ist nur dann sinnvoll, wenn nachgewiesen wurde, dass E tatsächlich (linear) von v abhängt. Dies erfolgt, in dem gezeigt wird, dass die Pearson-Korrelation zwischen v und E auf dem Testniveau 5% (angenommen) von null abweicht. Lösungsansatz: Die Lösungsschritte sind: Erstellung eines Streudiagramms mit den beobachteten Daten und der Erkenntnis daraus, dass die Punkteverteilung keinen linearen Trend besitzt. Logarithmische Transformation der Variablen E und v in E =ln(e) bzw. v =ln(v) und Erstellen eines Streudiagramms mit den logarithmierten Messwerten (die Punkteverteilung sollte nun durch ein lineares Regressionsmodell darstellbar sein). Prüfung der (linearen) Abhängigkeit der Variablen E von v. Die Alternativhypothese lautet H1: E hängt von v (linear) ab, die Nullhypothese ist H0: E hängt nicht von v ab (zumindest nicht linear). Bei signifikantem Testausgang (Abhängigkeit) wirddie Gleichung der Regressionsgeraden angegeben. Rechnerische Lösung (mit R): > options(digits=4) > v <- c(3.1, 4.2, 5, 5.4, 6.6) > E <- c(27.6, 50.6, 62.7, 147.1, 356.3) > print(cbind(v, E)) v E [1,] 3.1 27.6 [2,] 4.2 50.6 [3,] 5.0 62.7 [4,] 5.4 147.1 [5,] 6.6 356.3 > # Überprüfung der Adäquatheit > # des linearen Modells > plot(v, E) > abline(lm(e ~ v)) E 50 100 150 200 250 300 350 3.0 3.5 4.0 4.5 5.0 5.5 6.0 6.5 v Musterbeispiele_STAT6_mit_Loesungen 6

> # Überprüfung der Wirkung der log/log-transformation > plot(v_strich, E_strich) > abline(lm(e_strich ~ v_strich)) > # Abhängigkeitsprüfung & Parameterschätzung > daten <- data.frame(v_strich, E_strich) > daten v_strich E_strich 1 1.131 3.318 2 1.435 3.924 3 1.609 4.138 4 1.686 4.991 5 1.887 5.876 E_strich 3.5 4.0 4.5 5.0 5.5 1.2 1.4 1.6 1.8 v_strich > lm.energie <- lm(formula= E_strich ~ v_strich, data=daten) > summary(lm.energie) Call: lm(formula = E_strich ~ v_strich, data = daten) Residuals: 1 2 3 4 5 0.250-0.146-0.508 0.091 0.313 Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) -0.667 1.066-0.63 0.576 v_strich 3.301 0.679 4.86 0.017 * --- Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 Residual standard error: 0.386 on 3 degrees of freedom Multiple R-squared: 0.887, Adjusted R-squared: 0.85 F-statistic: 23.7 on 1 and 3 DF, p-value: 0.0166 Ergebnis: Aus dem mit den E- und v-werten gezeichneten Streudiagramm entnimmt man, dass die Datenpunkte nicht durch eine Gerade ausgeglichen werden können, es liegt eine eindeutig gekrümmte Anordnung der Datenpunkte vor. Nach Übergang zu den Variablen E =ln(e) und v =ln(v) erkennt man im (v,e )- Diagramm, dass nunmehr den Datenpunkten eine Gerade angepasst werden kann. Die Abhängigkeitsprüfung ergibt den p-value = 0.0166 < 0.05; es folgt, dass H0 (keine lineare Abhängigkeit) abgelehnt werden kann, d.h. E kann tatsächlich durch eine lineare Regressionsgleichung in Abhängigkeit von v dargestellt werden. Der Anstieg k der Musterbeispiele_STAT6_mit_Loesungen 7

Regressionsgeraden ist 3,301 (siehe unter Coefficients, bei v_strich) und der y-achsenabschnitt (Intercept) d = -0,667; somit lautet die Regressionsgerade: E = kv + d = 3,301v 0,667; setzt man hier die Originalvariablen ein, folgt lne = 3,301lnv 0,667, Potenzieren mit der Basis e ergibt schließlich E = e -0,667 v 3,301 = 0,513 v 3,301. Musterbeispiele_STAT6_mit_Loesungen 8