Einführung in die biologische Datenanalyse mit Matlab SS 2009 Tag8

Ähnliche Dokumente
1 Messfehler. 1.1 Systematischer Fehler. 1.2 Statistische Fehler

Fehler- und Ausgleichsrechnung

Teil XII. Einfache Lineare Regression. Woche 10: Lineare Regression. Lernziele. Zusammenfassung. Patric Müller

Kurvenanpassung mit dem SOLVER

Verarbeitung von Messdaten

Statistik, Datenanalyse und Simulation

Tag 7: Beschreibende Statistik

Statistik II. Lineare Regressionsrechnung. Wiederholung Skript 2.8 und Ergänzungen (Schira: Kapitel 4) Statistik II

Methode der kleinsten Quadrate

Tag 7: Statistik. Themen: A) Standardfehler des Mittelwerts B) Median und Quantile C) Signifikanztest D) Hausaufgabe

3.3 Absenkungsverlauf

Fadenpendel (M1) Ziel des Versuches. Theoretischer Hintergrund

M0 BIO - Reaktionszeit

Mixed Effects Models: Wachstumskurven

Schnellkurs und Übersicht zur Gröÿtfehlerabschätzung und Fehlerrechnung

Versuch 11 Einführungsversuch

Einführung in die Theorie der Messfehler

Fadenpendel (M1) Ziel des Versuches. Theoretischer Hintergrund

Die Maximum-Likelihood-Methode

Einführung Fehlerrechnung

Praktikumsbericht. Gruppe 6: Daniela Poppinga, Jan Christoph Bernack. Betreuerin: Natalia Podlaszewski 11. November 2008

Numerische Verfahren Übungen und Lösungen, Blatt 1

Hypothesentests mit SPSS

Bivariate Regressionsanalyse

(f(xi ) y i ) 2. minimal ist: man will also die Summe der quadratischen Abweichungen minimieren ... f(x i ) y i, i=1 (t x i) 2

Forschungsstatistik I

In diesem Skript werden einige Plot-Typen und Funktionen beschrieben, die für die allgemeine Datenanalyse nützlich sind.

Wirkungsquantum Ein Physikprotokoll

Übungen mit dem Applet. by Michael Gärtner

Der diskrete Kalman Filter

LK Lorentzkraft. Inhaltsverzeichnis. Moritz Stoll, Marcel Schmittfull (Gruppe 2) 25. April Einführung 2

Übungen zum MATLAB Kurs Teil

Statistische Methoden der Datenanalyse Wintersemester 2012/2013 Albert-Ludwigs-Universität Freiburg

Tag 7: Statistik. A) Stichprobengröße

Statistische Analyse hydrologischer Daten (HW Berechnung)

Teil: lineare Regression

Einführung in die Fehlerrechnung und Messdatenauswertung

Physikprotokoll: Fehlerrechnung. Martin Henning / Torben Zech / Abdurrahman Namdar / Juni 2006

1 Lambert-Beersches Gesetz

Einführung in die linearen Funktionen. Autor: Benedikt Menne

Begleitmaterial zur Vorlesung. Fehlerrechnung und Fehlerabschätzung bei physikalischen Messungen

Trim Size: 176mm x 240mm Lipow ftoc.tex V1 - March 9, :34 P.M. Page 11. Über die Übersetzerin 9. Einleitung 19

Neuronale Kodierung sensorischer Reize. Computational Neuroscience Jutta Kretzberg

Übungen mit dem Applet Interpolationspolynome

Die Funktion f wird als Regressionsfunktion bezeichnet.

Übungen mit dem Applet Wahrscheinlichkeitsnetz

Fehlerabschätzung und Fehlerrechnung

Einführungsbeispiel Kostenfunktion

Optimale Steuerung 1

Regression, Interpolation, numerische. Integration

Numerische Methoden und Algorithmen in der Physik

1 Beispiel zur Methode der kleinsten Quadrate

Kalmanfiter (1) Typische Situation für den Einsatz von Kalman-Filtern

Kantonsschule Solothurn RYS SS11/ Nach welcher Vorschrift wird der Funktionswert y aus x berechnet? Welcher Definitionsbereich ID ist sinnvoll?

Auswertung Elastizität Versuch P1-11. Stefanie Falk und Corinna Roy

Übungen zur Vorlesung. Statistik 2

9.3 Lineare Regression

Tag 6: Statistik. Version vom Wobei

Vergleichsklausur 2006 für Jahrgangsstufe 11

Notgepäck Genauigkeit

SA - Saitenschwingung Blockpraktikum Frühjahr 2005

Versuch P2-71,74: Kreisel. Auswertung. Von Jan Oertlin und Ingo Medebach. 25. Mai Drehimpulserhaltung 2. 2 Freie Achse 2

Analytische Lösung algebraischer Gleichungen dritten und vierten Grades

Abiturprüfung Mathematik 2005 (Baden-Württemberg) Berufliche Gymnasien ohne TG Analysis Gruppe I, Aufgabe A

Korrelation und Regression

Die Ebola-Epidemie in Westafrika

Aufgabe 1. Signal Processing and Speech Communication Lab. Graz University of Technology

10. Die Normalverteilungsannahme

Funktion Das Skript erstellt ROC-Kurven mit Konfidenzbändern, berechnet (gewichtete) Cutoff-Punkte und (partial) Area under the Curve (AUC, pauc).

Kapitel 2 Kurvenanpassung

Komplexe Zahlen. z = a + i b

Statistik II Übung 1: Einfache lineare Regression

Protokoll Grundpraktikum: O1 Dünne Linsen

6 Bestimmung linearer Funktionen

Anleitung: Standardabweichung

Einführung. Ablesen von einander zugeordneten Werten

Statistik II. II. Univariates lineares Regressionsmodell. Martin Huber 1 / 20

Physik 4 Praktikum Auswertung Hall-Effekt

1. Experimente zur Verkehrsphysik

Statistik und Wahrscheinlichkeitsrechnung

Grundkompetenzkatalog. Mathematik

Musterlösung. Modulklausur Multivariate Verfahren

Anwendungen der Differentialrechnung

Dr. I. Fahrner WiSe 2016/17 Fakultät Grundlagen Hochschule Esslingen Übungsblatt 2. Statistik

2. Grundbegriffe. Literatur. Skript D. Huhnke S emg GEM. emg GEM

Statistische Methoden in der Wirtschaftsund Sozialgeographie

Praktikum Optische Technologien, Protokoll Versuch Absorptionsmessung

E19 Magnetische Suszeptibilität

Dr. Maike M. Burda. Welchen Einfluss hat die Körperhöhe auf das Körpergewicht? Eine Regressionsanalyse. HU Berlin, Econ Bootcamp

Statistik. R. Frühwirth. Statistik. VO Februar R. Frühwirth Statistik 1/536

Wahrscheinlichkeitsrechnung und Statistik für Biologen 2. Der Standardfehler

Statistische Versuchsplanung - zuverlässiger und schneller zu Ergebnissen" Dr. Uwe Waschatz

Übungen mit dem Applet x /s-regelkarte nach Shewhart

einzeichnen von Steigungsdreiecken bestimmt werden oder durch die rechnerische Form. Hier wird die rechnerische Form gezeigt:

Dr. Maike M. Burda. Welchen Einfluss hat die Körperhöhe auf das Körpergewicht? Eine Regressionsanalyse. HU Berlin, Econ Bootcamp 7.-9.

Informationen zur KLAUSUR am

Octave/Matlab-Übungen

Elemente der Analysis II

Einführung in die Fehlerrechnung

Auswertung. D07: Photoeffekt

Transkript:

Tag 8: Modellbildung A) Kurvenanpassung B) Variation von Modellparametern C) Hausaufgaben A) Kurvenanpassung Kurvenanpassung dient dazu, Messdaten durch eine Kurve - also einen mathematisch beschreibbare Funktion - zu beschreiben. Die Idee dabei ist, dass die Messdaten systematisch von einem vorgegebenen Parameter abhängen, aber statistisch um die zu erwartenden Werte streuen. Graphisch trägt man die Werte des Parameters (z.b. Zeit, Düngemittelmenge, Sonnenscheindauer etc) auf der x-achse auf, die Messwerte und die theoretischen Werte in Abhängigkeit von diesem Parameter auf der y-achse. Häufig werden dabei die Messwerte als Punkte (oder andere Symbole) dargestellt, die theoretischen Werte als durchgezogene Kurve. Diese Darstellung hilft dabei, die Idee der Interpolation zu verstehen: Durch sie lässt sich abschätzen, welche Messwerte zu erwarten gewesen wären, wenn man zwischen den gewählten Parameterwerten weitere Messpunkte ermittelt hätte. Außerdem ermöglicht Kurvenanpassung auch Extrapolation, die Vorhersage, wie sich die Messwerte außerhalb des getesteten Parameterbereichs verhalten. Um eine Funktion zu finden, die die Abhängigkeit der vorhandenen Messdaten vom variierten Parameter möglichst gut beschreibt, möchte man eine Kurve finden, die möglichst nah an den Messdaten liegt. Hierfür (oder generell wenn man versucht, Messdaten durch eine Bildungsregel (also ein Modell) zu beschreiben), braucht man ein Maß dafür, wie gut das Modell die Daten widerspiegelt. Dadurch kann man verschiedene Modelle miteinander vergleichen und sich für das am besten passende entscheiden. Ein Standardverfahren, um die optimale Funktion (bzw. das optimale Modell) zu bestimmen, ist die mittlere quadratische Abweichung zwischen den Messwerten und den geschätzten Werten zu minimieren. (Prinzipiell gibt es aber noch viele andere Möglichkeiten, die Güte eines Modells zu messen.) Hierzu wird zunächst für jeden Datenpunkt das Residuum bestimmt, also die Differenz zwischen dem empirisch ermittelten Wert y i und der Schätzung für diesen Wert (Schätzwerte macht man gerne mit einem Dach kenntlich):

Die mittlere quadratische Abweichung zwischen allen Datenpunkten und der Schätzung wird ermittelt als Summe der quadrierten Residuen, geteilt durch die Anzahl der Datenpunkte n: Was bewirkt das Quadrat? In diesem Kurs benutzen wir Polynome der Form p(x)=p 1 x n +p 2 x n-1 +...p n x+p n+1 um den empirischen Daten eine Funktion anzupassen. Wie sieht in dieser Darstellung eine Gerade mit Steigung 2.5 und y-achsenabschnitt 7 aus? Natürlich lassen sich nicht alle Abhängigkeiten durch Polynome adäquat darstellen. Welche Gegenbeispiele fallen Ihnen ein? In Matlab stehen für die Kurvenanpassung eines Polynoms an Messdaten die Befehle polyfit und polyval zur Verfügung: [p,s]=polyfit(x,y,n) gibt im Vektor p=[p 1 p 2... p n p n+1 ] diejenigen Koeffizienten für die Gleichung p(x)=p 1 x n +p 2 x n-1 +...p n x+p n+1 zurück, die den quadratischen Fehler zwischen Messwerten und geschätzten Werten minimiert. S ist eine Struktur, die polyval als Eingabe braucht (Strukturen behandeln wir morgen ausfuehrlicher). y_schaetz = polyval(p,x,s) bekommt als Eingabe den von polyfit zurückgegebenen Vektor p und die Struktur S, sowie einen Vektor von x-werten. Für diese x -Werte berechnet polyval die gemäß der gefundenen Gleichung vorhergesagten y-werte (die x Werte werden in die Gleichung eingesetzt). Versieht man die Funktion polyval mit einem zweiten Ausgabeparameter [y_schaetz,delta] = polyval(p,x,s) wird im Vektor delta ein Maß dafür angegeben, wie sicher diese Schätzung ist. Im Bereich y_schaetz-delta bis y_schaetz+delta liegen 50% der Messpunkte. Trotz dieser Befehle möchte ich Sie bitten, zunächst einmal für einen einfachen Fall Kurvenanpassung von Hand vorzunehmen, damit Sie die Grundidee besser verstehen: T8A1) Als Vorbereitung beschäftigen wir uns zuerst mal mit dem Fehlermaß, der mittleren quadratischen Abweichung: Schreiben Sie eine Funktion, die einen Vektor gemessener und einen gleichlangen Vektor geschätzter y-werte bekommt und den mittleren quadratische Fehler zurückgibt.

*T8A2) Erweitern Sie Ihre Funktion so, dass Sie auch für eine Matrix von Messwerten (bei der jedem x-wert mehrere y-werte zugeordnet sind) und einen Vektor der geschätzten y-werte (für jeden x-wert einer) den mittleren quadratischen Fehler berechnet. T8A3) Jetzt zur eigentlichen Kurvenanpassung: Wenn man Nervenzellen mit Strom reizt, reagieren sie darauf mit einer Folge von Aktionspotentialen (auch Spikes genannt). Stellen Sie sich ein Neuron vor, das auf einen Stromimpuls von 1 na mit einer Frequenz von 32 Spikes/s reagiert, bei 2 na produziert es 60 Spikes/s. a) Welche Antwortfrequenz erwarten Sie bei einer Strominjektion von 1.5 na? b) Wie lautet die lineare Gleichung für die Gerade, die beide Punkte verbindet? c) Plotten Sie die Gerade und die beiden Datenpunkte T8A4) Sie führen jetzt eine weitere Messung durch und stellen fest, dass bei 1.5 na Strominjektion 44 Spikes/s erzeugt werden. a) Erweitern Sie Ihren plot um den neuen Datenpunkt. b) Berechnen Sie den quadratischen vertikalen Abstand des Datenpunkts von der Geraden. c) Schätzen Sie "per Auge" eine Gerade, die alle drei Punkte gut annähert und plotten sie zusammen mit den Datenpunkten. d) Berechnen Sie Ihren mittleren quadratischen Fehler. f) Benutzen Sie jetzt die oben erklärten Befehle polyfit, um die beste lineare Nährung zu finden und polyval um den Fehler zu berechnen und die Gerade zu plotten. Plotten Sie die von Matlab berechnete Kurve und deren delta-werte als Fehlerbalken gemeinsam mit den Datenpunkten in eine Abbildung. Wie gut war Ihre Schätzung? *g) Eigentlich braucht man die Funktion polyval nicht unbedingt für unsere Anwendung. Schreiben Sie eine Funktion, die Vektor p der Koeffizienten und den x- Vektor als Eingangsargumente bekommt und den resultierenden Vektor der Schätzwerte zurückgibt. Testen Sie, ob ihre Schätzungen denjenigen der Funktion polyval entsprechen. T8A5) Um das Neuron besser zu charakterisieren wurde eine Messreihe mit Stromreizen zwischen 0 und 3.5nA durchgeführt und jeweils 10 mal die Antwortrate gemessen. Die Reize sind unter [reizt8.mat] die resultierenden Raten unter [ratent8.mat] abgespeichert. a) Laden Sie Reize und Raten ein und plotten diese als einzelne Datenpunkte. b) Finden Sie die beste lineare Nährung für die Daten und plotten sie dazu. c) Welche Rate erwarten Sie in Antwort auf einen 5nA starken Reiz? Welche bei -2nA? T8A6) Um unsere Extrapolation zu prüfen wurde die Messreihe erweitert, unter [allereizet8.mat] und [alleratent8.mat] sind die entsprechenden Ergebnisse gespeichert. a) Plotten Sie alleraten gegen allereize als Einzelpunkte zusammen mit der bereits erstellten linearen Nährung für den in T8A3) bearbeiteten Teil der Daten. b) Erstellen Sie eine neue lineare Nährung für alle Datenpunkte. c) Wird die Nährung besser, wenn man ein Polynom zweiten Gerades verwendet?

Wie sieht sie für Polynome höheren Grades aus? Verwenden Sie zur Abschätzung der Güte der Nährung die mittlere quadratische Abweichung der Messpunkte von der geschätzten Kurve. d) Eine alternative Möglichkeit zur Fehlerabschätzung ist der von [p,s]=polyfit(x,y,n) zurückgegebene Wert S.normr. Dieser Wert gibt den Betrag (euklidische Norm) der Residuen an. (Man kann ihn sich einfach z.b. mit residuen_betrag=s.normr anzeigen lassen. Was es mit dieser seltsamen Schreibweise auf sich hat, sehen wir morgen). e) Wie viele Koeffizienten werden gebraucht, um die Daten mit polyfit zufriedenstellend anzunähern? Wann wird die Schätzung nicht mehr besser, wenn man zusätzliche Koeffizienten hinzunimmt? Untersuchen Sie systematisch, wie sich die Anpassung mit wachsender Koeffizientenzahl verbessert. T8A7) Berechnen Sie für jeden der Stromwerte, mit dem Messungen durchgeführt wurden, Mittelwert und Standardabweichung und plotten diesen mit errorbar in eine Abbildung. (Hinweis: für diese Aufgabe ist es günstiger, aus dem langen Vektor der Messwerte eine Matrix zu machen. Das geht mit reshape.) *T8A8) Mathematisch Interessierte könnten sich unter dem Stichwort "least squares fitting" ansehen, wie die Datenanpassung in Matlab vorgenommen wird und welche Möglichkeiten die Curve Fitting Toolbox noch bietet. B) Variation von Modellparametern Das Ziel vieler Experimente ist es, eine Abhängigkeit zwischen Parameterwerten und einer Messgröße zu finden. Man versucht, diese Abhängigkeit mathematisch durch eine Formel zu beschreiben. Dadurch kann man für gegebene Parameterwerte vorhersagen, welche Messwerte man erwartet. Dieses Vorgehen bezeichnet man auch als Simulation. Im Experiment kann dann überprüft werden ob die Vorhersagen den tatsächlichen Messungen entsprechen. Wenn dies nicht der Fall ist, muss das Modell (also die Formel zur Beschreibung der Abhängigkeit) entsprechend angepasst werden. T8B1) Tatsächlich handelt es sich bei den gerade verwendeten Daten nicht um echte Messungen, sondern um mit Rauschen überlagerte Punkte auf einer Sigmoidfunktion. Sigmodidfunktionen spielen in der Biologie eine wichtige Rolle, da es kaum Beispiele für unbegrenzt lineare Abhängigkeiten gibt. Sigmoidfunktionen kann man mit der Formel y=a./(1+(exp(b*(c-x)))) darstellen. a) Erzeugen Sie einen Vektor x, der von -10 bis 10 in kleinen Schritten läuft. Setzen Sie die Parameter a=120; b=1; c=2. Berechnen Sie y entsprechend der Sigmoidformel. b) Plotten Sie die Sigmoidfunktion zusammen mit alleraten und Ihrem besten Fit. Wie ähnlich sind sich die beiden Linien? *c) Mit welcher Standardabweichung habe ich die Datenpunkte erzeugt? T8B2) Es lohnt sich, die Sigmoidfunktion genauer kennenzulernen. Schreiben Sie ein Skript, in dem Sie systematisch die drei Parameter der Sigmoidfunktion variieren und

die Auswirkung grafisch als Kurvenscharen darstellen. Was bewirken die drei Parameter? (Tipp: gehen Sie von den Werten a=1, b=1, c=1 aus, um die Effekte gut zu sehen.) **T8B3) Schreiben Sie ein Programm, das für eine gegebene Menge an Messwerten eine Sigmoidfunktion bestimmt, die den mittleren quadratischen Abstand zu den Messwerten minimiert. Testen Sie diese Funktion, indem Sie künstliche Daten herstellen, bei denen eine Sigmoidfunktion mit Rauschen überlagert wird. C) Hausaufgaben T8H1) Sie impfen 20 Petrischalen jeweils mit 100 Einzellern und zählen 10 Stunden lang 10 mal pro Stunde, wie viele Einzeller sich in der Petrischale befinden. Dadurch erhalten Sie folgende Matrix [populationen.mat]. Schauen Sie sich die Messpunkte grafisch an. Ermitteln Sie das Polynom, das das Wachstum der Population am besten beschreibt. * T8H2) Fünf Ratten leben in einem Käfig. Bei unserer Beobachtung interessieren wir uns im Moment nur für die Frage wie viele der Ratten zu einem gegebenen Zeitpunkt schlafen und wie viele wach sind. a) Schreiben Sie eine Simulation des Schlaf-Wach-Verhaltens der Ratten, in der sie jeweils einmal in der Stunde bestimmen, wie viele Ratten wach sind, basierend auf folgenden Regeln: Ausgangszustand: 3 Ratten sind wach, 2 schlafen Wenn zu einem gegebenen Zeitpunkt nur 0 oder 1 Ratte wach ist, ist die Wahrscheinlichkeit für jede der Ratten 80%, dass sie bei der nächsten Messung schläft. Wenn 2 oder mehr Ratten wach sind, ist die Wahrscheinlichkeit für jede Ratte nur 20%, dass sie bei der nächsten Messung schläft (denn die Tiere stören sich gegenseitig.) b) Lassen Sie Ihre Simulation über einen langen Zeitraum laufen und protokollieren Sie die Anzahl der wachen Ratten. Wie groß ist der Prozentsatz der Zeit, den die Tiere schlafend verbringen? **c) Jetzt machen wir die Sache mal etwas komplizierter: Die fünf Ratten sind in Einzelkäfigen untergebracht, die nebeneinander stehen. Jetzt stören sich nur noch diejenigen Ratten gegenseitig, die direkt nebeneinander untergebracht sind. Nun sehen die Regeln so aus: Ausgangszustand: Ratte 1, 3 und 5 sind wach, 2 und 4 schlafen Wenn alle Nachbarn schlafen, ist die Wahrscheinlichkeit für jede Ratte 80%, dass sie bei der nächsten Messung schläft. Wenn mindestens ein Nachbar wach ist, ist die Wahrscheinlichkeit für jede Ratte nur 20%, dass sie bei der nächsten Messung schläft

Lassen Sie Ihre Simulation über einen langen Zeitraum laufen und protokollieren Sie, welche der Ratten wann wach ist. Wie groß ist der Prozentsatz der Zeit, den die einzelnen Tiere schlafend verbringen? Gibt es Unterschiede zwischen den Tieren? Sind diese signifikant? Stellen Sie den Verlauf des Schlaf-Wach-Musters der Tiere grafisch dar.