Mathematik für Biologen

Ähnliche Dokumente
Mathematik für Biologen

Mathematik für Biologen

Mathematik für Biologen

Mathematik für Biologen

Ausführliche Lösungen zu ausgewählten Aufgaben von ÜB 5 und 6. Streudiagramm

(f(xi ) y i ) 2. minimal ist: man will also die Summe der quadratischen Abweichungen minimieren ... f(x i ) y i, i=1 (t x i) 2

Mathematik 2 für Naturwissenschaften

Geg.: Eine Menge von Elementen, z.b.

Mathematik für Biologen

MATHEMATIK 3 STUNDEN

Eine zweidimensionale Stichprobe

Mathematik für Biologen

Mathematik für Biologen

Statistik II. Lineare Regressionsrechnung. Wiederholung Skript 2.8 und Ergänzungen (Schira: Kapitel 4) Statistik II

Bivariate Zusammenhänge

Mathematik für Biologen

Didaktisches Seminar über Stochastik. Themen: ffl Korrelation von zwei Zufallsvariablen

Prof. Dr. Walter F. Tichy Dr. Matthias Müller Sommersemester 2006

49 Mathematik für Biologen, Biotechnologen und Biochemiker

Dr. Maike M. Burda. Welchen Einfluss hat die Körperhöhe auf das Körpergewicht? Eine Regressionsanalyse. HU Berlin, Econ Bootcamp 7.-9.

Exponentialfunktionen

Der Korrelationskoezient nach Pearson

Mathematik für Biologen

Kapitel 7. Regression und Korrelation. 7.1 Das Regressionsproblem

HIER FEHLEN DIE PUNKTWOLKEN - siehe JUMBO -0, ,67 0,90

WISTA WIRTSCHAFTSSTATISTIK

Kapitel XI - Korrelationsrechnung

Mathematik für Biologen

2 Regressionsgerade und Korrelation

Dr. I. Fahrner WiSe 2016/17 Fakultät Grundlagen Hochschule Esslingen Übungsblatt 2. Statistik

Anwendungsaufgaben. a. Anhand des Streudiagramms (. Abb. 1) lässt sich ein linearer Zusammenhang vermuten. Aufgabe 1. Anhang 1: Lösungen der Aufgaben

Statistik II: Signifikanztests /2

Hochschule Darmstadt FB Mathematik und Naturwissenschaften. Statistik. für Wirtschaftsingenieure (B.Sc.) Sommersemester 2017

Eigene MC-Fragen (Teil II) "Kap. 9 Zusammenhangsmaße

Mathematik für Biologen

Regression und Korrelation

Statistik für Naturwissenschaftler

Mathematik für Biologen

Pearson- Korrelationskoeffizienten höherer Grade

Bivariate Regressionsanalyse

Mathematik für Biologen

Allgemeine Chemie Computer Praktikum Frühjahrssemester Regressions-Tutorial Lineare und nicht-lineare Regression

Deskriptive Beschreibung linearer Zusammenhänge

Statistische Methoden in den Umweltwissenschaften

Lösungsvorschläge zur Klausur Beschreibende Statistik und Wirtschaftsstatistik (Sommersemester 2013)

Sommersemester Marktforschung

Komplexe Zahlen. z = a + i b

Mathematik für Biologen

6 Korrelations- und Regressionsanalyse: Zusammenhangsanalyse stetiger Merkmale

Lineare Korrelation. Statistik für SozialwissenschaftlerInnen II p.143

Mathematik für Biologen

Welche der folgenden Aussagen sind richtig? (x aus 5) A Ein metrisches Merkmal, das überabzählbar viele Ausprägungen besitzt heißt diskret.

Mathematik für Biologen

4 Potenzen Wachstumsprozesse Exponentialfunktionen

Es sei x 1. Zeigen Sie mittles vollständiger Induktion, dass dann für jede natürliche Zahl n 0 gilt: n x k = 1 xn+1 1 x.

Einführungsbeispiel Kostenfunktion

Statistik I. 1. Klausur Wintersemester 2010/2011 Hamburg, Art der Anmeldung: STiNE FlexNow Zulassung unter Vorbehalt

(a) Richtig, die Varianz ist eine Summe quadratischer Größen.

Übersicht Teil 1 - deskriptive Statistik

Praktikum Grundlagen Elektrotechnik, Prof. Kern

Mathematische und statistische Methoden I

Biomathematik für Mediziner

1 x 1 y 1 2 x 2 y 2 3 x 3 y 3... n x n y n

Bivariate lineare Regression. Statistik für SozialwissenschaftlerInnen II p.154

Eine Firma will den Zusammenhang zwischen Werbungskosten und Absatz untersuchen. Dazu nimmt sie zunächst eine Stichprobe dieser beiden Merkmale

1 Lambert-Beersches Gesetz

Anwendungen der Differentialrechnung

Aufgabe 1 (Exponentielles Wachstum, wird teilweise auch in Vorlesung besprochen, Teile a) bis c) sind exakt die Aufgaben von Blatt 2, Aufgabe 3))

Mathematik für Biologen

Bayern Teil 1. Aufgabe 1. Abitur Mathematik: Musterlösung. Der Term unter der Wurzel darf nicht negativ werden. Es muss also gelten:

Skalenniveaus =,!=, >, <, +, -

Dr. Maike M. Burda. Welchen Einfluss hat die Körperhöhe auf das Körpergewicht? Eine Regressionsanalyse. HU Berlin, Econ Bootcamp

Assoziation & Korrelation

Brückenkurs Statistik für Wirtschaftswissenschaften

Assoziation & Korrelation

Verlauf Material LEK Glossar Lösungen. Vom Mittelwert zur Ausgleichsgeraden interessante Entdeckungen bei eigenen statistischen Erhebungen

Mathematik für Biologen

Karl Entacher. FH-Salzburg

Klausur vom

Mathematik für Biologen

Mathematik für Biologen

Statistik. Ronald Balestra CH St. Peter

Korrelation (II) Korrelation und Kausalität

Biomathematik für Mediziner, Klausur WS 2003/2004 Seite 1

Das zyklische Wachstum wird mit Hilfe trigonometrischer Funktionen - meist der Sinusfunktion. f(x) = a sin(bx + c) + d.

TEIL 12: BIVARIATE ANALYSE FÜR METRISCH SKALIERTE VARIABLEN

Funktionen. D. Horstmann: Oktober

Merksatz Begriff der Funktion

Institut für Biometrie und klinische Forschung. WiSe 2012/2013

MATHEMATIK 3 STUNDEN

Wachstum und Zerfall / Exponentialfunktionen. a x = e (lna) x = e k x

Wahrscheinlichkeitstheorie und Statistik vom

Einführung in die Korrelationsrechnung

Kapitel X - Lineare Regression

Die folgende Tabelle 1 wurde im Rahmen einer Umfrage unter den Studenten eines Statistikseminars erstellt.

Es können keine oder mehrere Antworten richtig sein. Eine Frage ist NUR dann richtig beantwortet, wenn ALLE richtigen Antworten angekreuzt wurden.

Zusammenhänge zwischen metrischen Merkmalen

TEIL 12: BIVARIATE ANALYSE FÜR METRISCH SKALIERTE VARIABLEN

1 Lineare Funktionen. 1 Antiproportionale Funktionen

Transkript:

Mathematik für Biologen Prof. Dr. Rüdiger W. Braun Heinrich-Heine-Universität Düsseldorf 21. Oktober 2010

1 Datenpaare Korrelation Lineare Regression Regression im exponentiellen Modell

Datenpaare Häufig erhebt man zwei Merkmale, um deren Abhängigkeit zu erforschen beispielsweise könnte man Alter und Blutdruck messen mathematisch stellt man solch ein Ergebnis als Menge von Datenpaaren dar (x 1, y 1 ), (x 2, y 2 ),..., (x n, y n )

Blutdruckdaten Die Tabelle zeigt Alter und Blutdruck von 30 Probanden (17, 110) (19, 125) (21, 118) (23, 119) (25, 125) (27, 128) (36, 108) (37, 136) (38, 118) (38, 146) (41, 122) (42, 128) (42, 145) (42, 158) (45, 132) (45, 136) (46, 144) (47, 126) (47, 195) (48, 148) (53, 165) (53, 175) (57, 152) (58, 175) (63, 168) (64, 184) (66, 194) (67, 182) (68, 177) (69, 199)

Korrelation Eine Korrelation zwischen zwei Datensätzen ist eine gemeinsame oder gegenläufige Tendenz. Beispielsweise steigt der Blutdruck tendenziell mit dem Alter. Gemessen wird die Korrelation durch den empirischen Korrelationskoeffizienten. Diesen berechnet man wiederum aus der empirischen Kovarianz. Wenn Korrelation besteht, kann sie durch die Methode der linearen Regression quantifiziert werden.

Empirische Kovarianz Wir haben n Datenpaare (x 1, y 1 ), (x 2, y 2 ),..., (x n, y n ) das arithmetische Mittel der x j ist x, das der y j ist y die empirische Kovarianz von x und y ist covar emp (x, y) = 1 ( (x1 x)(y 1 y) + (x 2 x)(y 2 y) +... n 1 + (x n x)(y n y) ) Formel ohne Pünktchen covar emp (x, y) = n j=1 (x j x)(y j y) n 1

Empirischer Korrelationskoeffizient s x sei die Stichprobenstreuung der x j und s y die Stichprobenstreuung der y j dann ist der empirische Korrelationskoeffizient gleich ausgeschrieben bedeutet das r = covar emp(x, y) s x s y r = ( n n j=1 (x j x)(y j y) j=1 (x j x) 2 )( n j=1 (y j y) 2 )

Randfälle wenn y = x, dann ist die Kovarianz von x und y (also die Kovarianz von x mit sich selbst) gleich der Varianz von x also ist in diesem Fall der Korrelationskoeffizient gleich 1 wenn y = x, dann ist die Kovarianz von x und y (also die Kovarianz von x mit x) gleich dem Negativen der Varianz von x in diesem Fall ist der Korrelationskoeffizient gleich 1 wenn alle x j oder alle y j gleich sind, dann sind Kovarianz und Korrelationskoeffizient gleich 0 der Korrelationskoeffizient liegt immer zwischen 1 und 1

positiver Korrelationskoeffizient 0.7 0.6 0.5 0.4 0.3 0.2 0.1 r= 0.986 1.6 r= 0.511 1.4 1.2 1.0 0.8 0.6 0.4 0.2 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.5 0.0 0.5 1.0 1.5

negativer Korrelationskoeffizient r=-0.986 0.2 0.1 0.0 0.1 0.2 0.3 0.4 0.0 0.2 0.4 0.6 0.8 1.0 1.0 r=-0.641 0.8 0.6 0.4 0.2 0.0 0.2 0.4 0.0 0.5 1.0

Korrelationskoeffizient nahe Null 1.2 r=-0.057 1.0 0.8 0.6 0.4 0.2 0.0 0.2 0.0 0.2 0.4 0.6 0.8 1.0 1.2

Interpretation Der Korrelationskoeffizient zeigt an, ob zwei Datensätze eine gemeinsame Tendenz aufweise wenn er nahe bei 1 liegt, dann wachsen x und y gemeinsam wenn er nahe bei 1 liegt, dann fällt y, wenn x wächst wenn er nahe bei 0 liegt, dann gibt es keine gemeinsame Tendenz

Korrelation Kausalität Wenn der Korrelationskoeffizient von x und y nahe 0 liegt, dann gibt es keinen (linearen) kausalen Zusammenhang zwischen ihnen Man kann aber im umgekehrten Fall von einem Korrelationskoeffizienten nahe bei 1 nicht auf einen kausalen Zusammenhang schließen Zum Beispiel nimmt seit Jahrzehnten in Deutschland sowohl die Zahl der Geburten als auch die Zahl der Störche ab Der kausale Zusammenhang ist aber umstritten

xkcd Quelle: http://xkcd.com/552

Lineare Regression linear : auf einer Gerade liegend Gerade : Funktionsvorschrift y = m x + b Hierbei ist m die Steigung der Geraden b der Ordinatenabschnitt der Geraden lineare Regression : Annäherung der Daten durch die bestmögliche Gerade

Formel für die lineare Regression Gegeben: Datenpaare (x 1, y 1 ), (x 2, y 2 ),..., (x n, y n ) Gesucht: Regressionsgerade y = m x + b Rechenvorschrift: m = covar emp(x, y) s 2 x b = y mx Dabei: x und y: arithmetisches Mittel von x und y s 2 x Varianz von x covar emp (x, y) empirische Kovarianz von x und y

Beispiel: Blutdruckdaten 200 180 Blutdruck in mm Hg 160 140 120 100 10 20 30 40 50 60 70 Alter Blutdruckwerte von 30 gesunden Männern. Der empirische Korrelationskoeffizienten beträgt r = 0.84

Beispiel: lineare Regression der Blutdruckdaten 200 180 Blutdruck in mm Hg 160 140 120 100 10 20 30 40 50 60 70 Alter Die Regressionsgerade ist Einheit: mm Hg y = 1.5 x + 80

Regression im exponentiellen Modell Lineares Modell: in gleichen Zeitabständen gleiche absolute Zuwächse Exponentielles Modell: in gleichen Zeitabständen gleiche relative Zuwächse Biologische Wachstums- oder Abklingprozesse verlaufen meistens exponentiell Aufgabe der Regression im exponentiellen Modell ist es, bei Wachstumsprozessen die Verdoppelungszeit und bei Abklingprozessen die Halbwertszeit zu bestimmen Dies geschieht, indem man die Werte logarithmiert und dann deren lineare Regression berechnet

Regression im exponentiellen Modell x die Zeit, z Daten, die exponentiell wachsen (bzw. schrumpfen) Modellgleichung für Wachstumsprozess: z = c e A x Modellgleichung für Abklingprozess: logarithmierte Modellgleichung z = c e A x y = ln(z) = ln(c) ± A x bestimme diese Gerade durch lineare Regression

Gendatenbank Anzahl der Sequenzen in der Gendatenbank des NCBI Jahr Sequenzen 1982 606 1983 2 427 1984 4 175 1985 5 700 1986 9 978 1987 14 584 1988 20 579 1989 28 791 1990 39 533 Jahr Sequenzen 1991 55 627 1992 78 608 1993 143 492 1994 215 273 1995 555 694 1996 1 021 211 1997 1 765 847 1998 2 837 897 1999 4 864 570 Jahr Sequenzen 2000 10 106 023 2001 14 976 310 2002 22 318 883 2003 30 968 418 2004 40 604 319 2005 52 016 762 2006 64 893 747 2007 80 388 382 2008 98 868 465

Anzahl der Sequenzen in der Gendatenbank 1.0 1e8 0.8 0.6 0.4 0.2 0.0 1980 1985 1990 1995 2000 2005 2010

Halblogarithmischer Graph der Anzahl der Sequenzen 10 8 10 7 10 6 10 5 10 4 10 3 101980 2 1985 1990 1995 2000 2005 2010 Der halblogarithmische Graph von z zeigt ln(z), aber mit der Skaleneinteilung von z.

Gendatenbank: Regression im exponentiellen Modell z ist die Anzahl der Sequenzen in der Gendatenbank Jahr ln(z) 1982 6.41 1983 7.79 1984 8.34 1985 8.65 1986 9.21 1987 9.59 1988 9.93 1989 10.27 1990 10.58 Jahr ln(z) 1991 10.93 1992 11.27 1993 11.87 1994 12.28 1995 13.23 1996 13.84 1997 14.38 1998 14.86 1999 15.40 Jahr ln(z) 2000 16.13 2001 16.52 2002 16.92 2003 17.25 2004 17.52 2005 17.77 2006 17.99 2007 18.20 2008 18.41

Gendatenbank: Fortsetzung der Regression Lineare Regression für y = ln(z) x = 1995 y = 13.17 s 2 = 63 covar emp (x, y) = 29.38 Also m = covar emp(x, y) s 2 x Dazu gehört die Verdopplungszeit = 0.4662 x d = ln(2) m = 1.487

Lineare Regression der logarithmierten Daten 20 18 16 14 12 10 8 1980 6 1985 1990 1995 2000 2005 2010