Einführung in die statistische Ökologie



Ähnliche Dokumente
Einfache statistische Auswertungen mit dem Programm SPSS

Einfache Varianzanalyse für abhängige

Güte von Tests. die Wahrscheinlichkeit für den Fehler 2. Art bei der Testentscheidung, nämlich. falsch ist. Darauf haben wir bereits im Kapitel über

Lineargleichungssysteme: Additions-/ Subtraktionsverfahren

4. Erstellen von Klassen

Leseprobe. Wilhelm Kleppmann. Versuchsplanung. Produkte und Prozesse optimieren ISBN: Weitere Informationen oder Bestellungen unter

Statistische Auswertung:

Tutorial: Homogenitätstest

Würfelt man dabei je genau 10 - mal eine 1, 2, 3, 4, 5 und 6, so beträgt die Anzahl. der verschiedenen Reihenfolgen, in denen man dies tun kann, 60!.

Anleitung über den Umgang mit Schildern

90-minütige Klausur Statistik für Studierende der Kommunikationswissenschaft

Korrelation (II) Korrelation und Kausalität

Daten sammeln, darstellen, auswerten

Melanie Kaspar, Prof. Dr. B. Grabowski 1

AGROPLUS Buchhaltung. Daten-Server und Sicherheitskopie. Version vom b

Auswertung mit dem Statistikprogramm SPSS:

Unterrichtsmaterialien in digitaler und in gedruckter Form. Auszug aus: Übungsbuch für den Grundkurs mit Tipps und Lösungen: Analysis

Geld Verdienen im Internet leicht gemacht

Die Optimalität von Randomisationstests

Einführung in statistische Testmethoden

OECD Programme for International Student Assessment PISA Lösungen der Beispielaufgaben aus dem Mathematiktest. Deutschland

Anwendungshinweise zur Anwendung der Soziometrie

Gibt es einen Geschmacksunterschied zwischen Coca Cola und Cola Zero?

1.3 Die Beurteilung von Testleistungen

Zeichen bei Zahlen entschlüsseln

Statistik mit Excel. für Praktiker: Statistiken aufbereiten und präsentieren HORST-DIETER RADKE

Uli Greßler. Qualitätsmanagement. Überwachung der Produkt- und Prozessqualität. Arbeitsheft. 2. Auflage. Bestellnummer 04796

Biostatistik, WS 2015/2016 Der zwei-stichproben-t-test

Mobile Intranet in Unternehmen

Statistik mit Excel. für Praktiker: Statistiken aufbereiten und präsentieren HORST-DIETER RADKE. Markt+Technik

Behörde für Bildung und Sport Abitur 2008 Lehrermaterialien zum Leistungskurs Mathematik

Plotten von Linien ( nach Jack Bresenham, 1962 )

1 Mathematische Grundlagen

Primzahlen und RSA-Verschlüsselung

V 2 B, C, D Drinks. Möglicher Lösungsweg a) Gleichungssystem: 300x y = x + 500y = 597,5 2x3 Matrix: Energydrink 0,7 Mineralwasser 0,775,

Lineare Funktionen. 1 Proportionale Funktionen Definition Eigenschaften Steigungsdreieck 3

Profil A 49,3 48,2 50,7 50,9 49,8 48,7 49,6 50,1 Profil B 51,8 49,6 53,2 51,1 51,1 53,4 50, ,5 51,7 48,8

Grundlagen der Inferenzstatistik

Einfache statistische Auswertungen mit dem TI-Nspire

2. Im Admin Bereich drücken Sie bitte auf den roten Button Webseite bearbeiten, sodass Sie in den Bearbeitungsbereich Ihrer Homepage gelangen.

QM: Prüfen -1- KN

Manager. von Peter Pfeifer, Waltraud Pfeifer, Burkhard Münchhagen. Spielanleitung

2.8 Grenzflächeneffekte

IIE4. Modul Elektrizitätslehre II. Transformator

4. BEZIEHUNGEN ZWISCHEN TABELLEN

Survival of the Fittest Wie statistische Modelle an Daten angepasst werden

Whitepaper. Produkt: combit Relationship Manager 7. combit Relationship Manager -rückläufer Script. combit GmbH Untere Laube Konstanz

Lernerfolge sichern - Ein wichtiger Beitrag zu mehr Motivation

Intrinsisch motivierte Mitarbeiter als Erfolgsfaktor für das Ideenmanagement: Eine empirische Untersuchung

Patienteninformation: Gentestung bei familiärem Brust- und Eierstockkrebs (Basis-Information):

Dokumentation. estat Version 2.0

Professionelle Seminare im Bereich MS-Office

B 2. " Zeigen Sie, dass die Wahrscheinlichkeit, dass eine Leiterplatte akzeptiert wird, 0,93 beträgt. (genauerer Wert: 0,933).!:!!

Information zum Projekt. Mitwirkung von Menschen mit Demenz in ihrem Stadtteil oder Quartier

Univariates Chi-Quadrat-Verfahren für ein dichotomes Merkmal und eine Messwiederholung: Test nach McNemar

METHODENLEHRE I WS 2013/14 THOMAS SCHÄFER

Webergänzung zu Kapitel 10

1 PIVOT TABELLEN. 1.1 Das Ziel: Basisdaten strukturiert darzustellen. 1.2 Wozu können Sie eine Pivot-Tabelle einsetzen?

W-Rechnung und Statistik für Ingenieure Übung 11

Outlook. sysplus.ch outlook - mail-grundlagen Seite 1/8. Mail-Grundlagen. Posteingang

LU-Zerlegung. Zusätze zum Gelben Rechenbuch. Peter Furlan. Verlag Martina Furlan. Inhaltsverzeichnis. 1 Definitionen.

Klausur Nr. 1. Wahrscheinlichkeitsrechnung. Keine Hilfsmittel gestattet, bitte alle Lösungen auf dieses Blatt.

Musterlösung zu Serie 14

Zwischenablage (Bilder, Texte,...)

L10N-Manager 3. Netzwerktreffen der Hochschulübersetzer/i nnen Mannheim 10. Mai 2016

Musterlösungen zur Linearen Algebra II Blatt 5

Lineare Gleichungssysteme

9. Schätzen und Testen bei unbekannter Varianz

Fortgeschrittene Statistik Logistische Regression

Einführung in statistische Analysen

Grundlagen der Datenanalyse am Beispiel von SPSS

1. Man schreibe die folgenden Aussagen jeweils in einen normalen Satz um. Zum Beispiel kann man die Aussage:

Verband der TÜV e. V. STUDIE ZUM IMAGE DER MPU

Charakteristikum des Gutachtenstils: Es wird mit einer Frage begonnen, sodann werden die Voraussetzungen Schritt für Schritt aufgezeigt und erörtert.

Statistik II Wahrscheinlichkeitsrechnung und induktive Statistik Erste Klausur zum Sommersemester Juli 2005

2. Psychologische Fragen. Nicht genannt.

50. Mathematik-Olympiade 2. Stufe (Regionalrunde) Klasse Lösung 10 Punkte

Risikodiversifikation. Birgit Hausmann

Viele Bilder auf der FA-Homepage

sondern alle Werte gleich behandelt. Wir dürfen aber nicht vergessen, dass Ergebnisse, je länger sie in der Vergangenheit

Eigenwerte und Eigenvektoren von Matrizen

Varianzanalyse (ANOVA: analysis of variance)

Simulation LIF5000. Abbildung 1

Pränatales Screening auf Chromosomenstörungen. Pränatales Screening. Leitfaden für werdende Mütter und Väter. Leitfaden für werdende Mütter und Väter

Approximation durch Taylorpolynome

Grundlagen der Theoretischen Informatik, SoSe 2008

7 Rechnen mit Polynomen

Von der Untersuchungsfrage zu statistischen Hypothesen, und wie war das nochmal mit dem α- und

Business Value Launch 2006

Konzepte der Informatik

DAS PARETO PRINZIP DER SCHLÜSSEL ZUM ERFOLG

Welche Gedanken wir uns für die Erstellung einer Präsentation machen, sollen Ihnen die folgende Folien zeigen.

Statistik I für Betriebswirte Vorlesung 11

Statistik für Studenten der Sportwissenschaften SS 2008

2.1 Präsentieren wozu eigentlich?

Tipp III: Leiten Sie eine immer direkt anwendbare Formel her zur Berechnung der sogenannten "bedingten Wahrscheinlichkeit".

Überblick über die Tests

Access [basics] Rechnen in Berichten. Beispieldatenbank. Datensatzweise berechnen. Berechnung im Textfeld. Reporting in Berichten Rechnen in Berichten

2 Aufbau der Arbeit und wissenschaftliche Problemstellung

Transkript:

Einführung in die statistische Ökologie (Statistics in Ecology I) (mit Übungen) Dr. J.-P. Airoldi / Herbstsemester 2009 Zeit: Montag 9-10 (Theorie), 10-11 (Übungen) Beginn: 14.9.2009 Anmeldung: um am Kurs teil zu nehmen, melden Sie sich über ILIAS an. Ort: PC Schulungsraum der Fachbereichsbibliothek (FBB), Baltzerstrasse 4, 3012 Bern Inhalt des Kurses Buch: Lozan, J.L. & H. Kausch (2007). Angewandte Statistik für Naturwissenschaftler. Wissenschaftliche Auswertungen, Hamburg. ISBN 3-00-012119-6 (kann am Anfang des Kurses bei J.-P. Airoldi mit 20% Rabatt gekauft werden, ca. Sfr. 45.-) Vorraussetzungen: Besuch von "Einführung in die angewandte Statistik für BiologInnen" ist erwünscht, aber nicht obligatorisch. Für weitere Auskünfte: Airoldi Jean-Pierre, Dr, Universität Bern, Institut für Ökologie und Evolution, Baltzerstrasse 5, CH-3012 Bern, Tel.: 031 631 45 71; e-mail: airoldi@iee.unibe.ch A. Einführung Als Basis des Kurses dient das Buch von J.L. Lozan & H. Kausch (2007). Angewandte Statistik für Naturwissenschaftler. Wissenschaftliche Auswertungen, Hamburg. ISBN 3-00-012119-6. Der Stoff des Kurses wird in Form von 100 Fragen, die dem allgemeinen Plan des Buches entsprechen, präsentiert. Es wird ein Skript von ca. 100 Seiten abgegeben (Theorie und Lösungen zu den Übungen) Einige Beispiele: Was ist ein Ausreisser? Was bedeuten Genauigkeit und Treffsicherheit? Wie sind die Varianz und die Standardabweichung definiert? Was ist eine Poisson-Verteilung? Was ist eine ANOVA? Wie ist die Kovarianz definiert? Was ist eine multiple Regression? Was versteht man unter Arten-Diversität? Was ist eine Kontingenz-Tafel? Wie kann man Ähnlichkeiten zwischen Standorten quantifizieren? Wozu dient eine Hauptkomponenten-Analyse? Für jede Frage gibt es eine Antwort (kurzer Abschnitt oder bis zu 2 Seiten je nach Thema), und Übungen. Die meisten Übungen können mit EXCEL gelöst werden; damit lernt man mit Formeln um zu gehen und kann verschiedene Analysen selber programmieren, was das Verständnis erhöht. Will man umfangreiche Datensätze analysieren oder komplexere Modelle verwenden, muss man andere Programme beiziehen (siehe unten). Alle Übungen stehen als Excel-Tabellen zur Verfügung mit den entsprechenden Lösungsvorschlägen (auch im Skript), die auf Memory-Stick kopiert und auf dem eigenen Computer bearbeitet werden können. 1

Am Schluss des Kurses wird eine 3-stündige Leistungskontrolle (Prüfung) durchgeführt: 1. Teil: Theorie (45 Minuten); 2. Teil: Praktische Anwendungen (2 Stunden) B. Übersicht 1. Grundbegriffe und wichtigste Formeln der Statistik. 2. Versuchsplanung und Varianzanalyse (ANOVA) 3. Regressionsanalyse 4. Räumliche Verteilung der Organismen 5. Diversität und Artenvielfalt 6. Ähnlichkeit zwischen Standorten und/oder Arten; Cluster-Analyse 7. Multivariate Statistik: Hauptkomponenten-, Korrespondenz- und Diskriminanz-Analyse (kurzer Einblick) C. Statistik-Programme Im Kurs werden folgende Programme verwendet: Ecological Methodology, Excel, GPower, JMP, Openstat, PAST, Simstat D. Literatur Backhaus, K., Erichson, B., Plinke, W. & Weiber, R. (2000). - Multivariate Analysenmethoden. Eine Anwendungsorientierte Einführung. Springer, Berlin. 660 pp. Collins, C. & Seeney, F. (1999). - Statistical experiment design and interpretation. An introduction with agricultural examples. J. Wiley & Sons, Ltd. Chichester. 280 pp. Davis, J.C. (2002). - Statistics and Data Analysis in Geology. J. Wiley & Sons, Inc. New York. 638 pp. Duller, C. (2007). - Einführung in die Statistik mit EXCEL und SPSS. Physica-Verlag (Springer), Heidelberg. 285 pp. Dytham, C. (1999). - Choosing and Using Statistics. A Biologist's Guide. Blackwell Science Ltd. Oxford. 218 pp. Ehrenberg, A.S.C. (1986). - Statistik oder der Umgang mit Daten. Eine praktische Einführung mit Übungen. VCH Verlagsgesellschaft mbh, Weinheim (Deutschland). 344 pp. Falissard, B. (1996). - Comprendre et utiliser les statistiques dans les sciences de la vie. Masson. 314 pp. Fry, J.C. (Ed.)(1994). - Biological Data Analysis. A practical Approach. Oxford University Press. 418 pp. Heiberger, R.M. & Holland, B. (2004). - Statistical analysis and data display. An intermediate course with examples in S-Plus, R, and SAS. Springer Verlag, New York. 729 pp Köhler, W., Schachtel, G. & O. Voleske (1996). - Biostatistik. Springer Verlag, Berlin. 2. Auflage. 285 pp. Krebs, C.J. (1999). - Ecological methodology. Addison-Wesley Publ. Co, New York. 576 pp. Legendre, L. & Legendre, P. (1998). - Numerical Ecology. Developments in Environmental Modelling 20. 2nd Edition. 853 pp. Elsevier Scientific Publ. Co, Amsterdam. 2

Leyer, I. and Wesche, K. (2007). - Multivariate Statistik in der Ökologie. Eine Einführung. Springer, Berlin. 221 pp. Lorenz, R.J. (1984). - Biometrie. Grundbegriffe der Biometrie. Gustav Fischer Verlag Stuttgart. 241 pp. Lozan, J.L. & Kausch, H. (2004). - Angewandte Statistik für Naturwissenschaftler. 3. Auflage. Wissenschaftliche Auswertungen, Hamburg. 299 pp. Ludwig, J.A. & J. F. Reynolds. (1988). - Statistical ecology. A primer on methods and computing. John Wiley & Sons, New York. 337 pp. McKillup, S. (2005). - Statistics explained. An introductory guide for life scientists.cambridge University Press, Cambridge UK, 267 pp. McPherson, G. (2001). Applying and interpreting statistics. A comprehensive guide. Springer Verlag, New York, 640 pp. Mühlenberg, M. (1993). - Freilandökologie. Quelle & Meyer. UTB 595. Heidelberg, 512 pp. Pielou, E.C. (1984). - The interpretation of ecological data. A primer on classification and ordination. John Wiley & Sons, New York. 263 pp. Pruscha, H. (2006). - Statistisches Methodenbuch. - Verfahren, Fallstudien, Programmcodes. Springer-Verlag, Berlin. 412 pp. Quinn, G.P. & Keough, M.J. (2002). - Experimental design and data analysis for biologists. Cambridge University Press. 537 pp. Scheiner, S. M. & J. Gurevitch (Eds) (1993). - Design and analysis of ecological experiments. Chapman & Hall, New York, 445 pp. Sokal, R.R. & F.J. Rohlf (1995). - Biometry. The principles and practice of statistics in biological research. W.H. Freeman, New York. 887 pp. Southwood, T. R. E.; Henderson, P.A. (2000). -Ecological Methods. 3rd Edition. Blackwell Science Ltd, Oxford. 575 pp. Steland, A. (2004) Mathematische Grundlagen der empirischen Forschung. Springer-Verlag. Berlin. 375 pp. Tabachnick, B.G. & Fidell, L.S. (2001). - Using multivariate analysis. 4th Edition. Allyn and Bacon, Boston. 966 pp. Townend, J. (2002). - Practical statistics for environmental and biological scientists. John Wiley & Sons, Ltd, New York. 276 pp. Untersteiner, H. (2005). - Biostatistik. Datenauswertung mit Excel und SPSS für Naturwissenschafter/innen und Mediziner/innen. Facultas Verlags- und Buchhandels AG, Wien. 212 pp. Weiss, C. (1999). - Basiswissen medizinische Statistik. Springer-Verlag. Berlin. 299 pp. Wratten, S.D. & Fry, G.L.A. (1980). - Field and Laboratory Exercises in Ecology. Edward Arnold, 227 pp. Young L.J. & Young, J. H. (1998). - Statistical Ecology. Kluwer Academic Publishers, Boston 565 pp. Zar, J.H. (1999). - Biostatistical Analysis. Prentice-Hall, Inc. London. 4th Edition. 931 pp. Zuur, A.F., Ieno, E.N., Smith, G.M. (2007). - Analysing ecological data. Springer Verlag, Berlin. 672 pp. 3

E. Einführung anhand typischer Probleme 1. Versuchsanordnung und Varianzanalyse Problem: Man möchte wissen, ob Tiere einer bestimmten Art in Bezug auf die Distanz zu einem Ackerkrautstreifen gleich häufig auftreten. Es werden jeweils 6 Stichproben auf 3 Linien in Abständen von 5, 10 und 20 Metern zum Ackerkrautstreifen entnommen und die Tiere gezählt. Statistisch kann man das Problem folgendermassen formulieren: Sind die Unterschiede rein zufällig oder ist irgend ein Faktor dafür verantwortlich? Man kann die Wahrscheinlichkeit p bestimmen, dass die berechnete F-Statistik einen solchen Wert nur per Zufall erreicht. Man kann dann entscheiden, ob die Differenzen zwischen den Gruppen als statistisch gesichert zu betrachten sind oder nicht. Üblicherweise werden folgende Signifikanzschwellen für p verwendet: 0.05, 0.01 und 0.001. Im vorliegenden Fall sind die Mittelwerte 24.0, 25.0, bzw. 26.0. Falls die Stichproben voneinander unabhängig sind, kann man sich fragen, ob die Unterschiede rein zufällig sind oder nicht. Man kann die Varianz zwischen den Gruppen mit derjenigen innerhalb der Gruppen vergleichen. Man bildet den Quotienten der beiden und erhält einen Wert von F = 3.0. Je grösser F ist, desto unwahrscheinlicher ist es, dass er nur vom Zufall abhängig ist. Der Wert F folgt einer eigenen Verteilung, mit den entsprechenden Freiheitsgraden v1 (Anzahl Gruppen - 1) oder k-1 und v2 (Gesamtzahl Individuen - k) oder N-k. Für unser Beispiel ist die Wahrscheinlichkeit, dass F zufällig einen Wert von 3.0 erreicht gleich 0.08. Das entspricht dem Wert p oder alpha und wird Typ I Fehler benannt, weil man die Nullhypothese fälschlicherweise verwirft. Da 0.08 grösser als 0.05 ist, verwirft man die Nullhypothese nicht. Nun kann man berechnen, wie gross die Wahrscheinlichkeit (beta) ist, die Nullhypothese anzunehmen, wenn sie falsch ist (Typ II Fehler). Hier ist beta = 0.50, also relativ gross. 1-beta wird auch Power genannt und gibt die Wahrscheinlichkeit an mit welcher man die Nullhypothese verwirft, wenn sie tatsächlich falsch ist. In diesem Beispiel ist die Power gleich 0.50. Man kann nicht gleichzeitig die Typ I und II Fehler reduzieren. Verkleinert man alpha, vergrössert sich beta und umgekehrt. Je nach Situation, wird man eher versuchen beta als alpha zu reduzieren. In der Medizin kann man kranke von gesunden Personen anhand der Anzahl Leukozyten im Blut bestimmen. Ein Grenzwert wird festgelegt. Da sich die Verteilungen der beiden Gruppen überschneiden, gibt es Leute mit niedriger Anzahl Leukozyten, die fälschlicherweise als gesund betrachtet werden (beta oder Typ II Fehler), obwohl sie krank sind, und solche, mit höherer Anzahl Abstand 5m 10 m 20 m 24 23 25 24 22 26 24 26 25 27 23 25 27 28 26 25 24 26 4

Leukozyten, die fälschlicherweise als krank betrachtet werden, obwohl sie gesund sind (alpha oder Typ I Fehler). Ist die Krankheit ansteckend und/oder gefährlich, dann ist es sicher gut den Typ II Fehler zu reduzieren indem man einen grösseren Typ I Fehler in Kauf nimmt, d.h. mehr Leute behandelt, die eigentlich nicht krank sind. Falls das Medikament teuer ist und/oder Nebenwirkungen zeigt, dann ist es nicht angebracht einen zu grossen Fehler Typ I zu tolerieren. Am besten wäre es dann eine bessere Diagnose-Methode zu haben, damit man den Anteil der Personen, die fälschlicherweise als krank oder gesund betrachtet werden, reduzieren kann. All diese Überlegungen setzen eine Normalverteilung der Werte voraus. Die Power nimmt zu, wenn N (Anzahl Beobachtungen) und/oder der Unterschied der Mittelwerte zunimmt, und/oder die Varianz abnimmt. Es ist ratsam, bevor man eine Untersuchung startet, sich Gedanken über Fehler Typ I und II, bzw. Power macht. Man kann die Anzahl Individuen abschätzen, die für eine gewisse statistische Signifikanz notwendig ist. Aus Vorversuchen, können die Unterschiede zwischen den Mittelwerten, sowie die Varianz, geschätzt werden. Wenn man im vorliegenden Beispiel die Anzahl Stichproben pro Gruppe um 2 erhöhen würde, indem man zweimal die Werte 24 der Gruppe 1, zweimal den Wert 25 der Gruppe 2 und zweimal den Wert 26 der Gruppe 3 zufügen würde, dann ergäbe sich ein F von 5.6 und ein p von 0.011. Die Power wäre dann 0.80. 2. Regressionsanalyse Problem I: Es wurden Schnecken (je 5 Stichproben auf einer gleich grossen Fläche) in einem Ackerkrautstreifen und in Abständen von 1, 3, 5, 10 und 20 Metern davon gesammelt. Man kann sich wiederum fragen, ob die mittlere Anzahl der Tiere in den verschiedenen Abständen etwa gleich gross ist und die Unterschiede rein zufälliger Natur sind. Das wäre wiederum ein Fall, den man mit Varianzanalyse untersuchen kann. Eine weitere, meines Erachtens interessantere Frage wäre: Nimmt die Anzahl Schnecken in Bezug auf die Distanz signifikant ab und kann man dies modellieren, z.b. durch Anpassung einer Geraden oder einer anderen Kurve? Abstand Probe 1 Probe 2 Probe 3 Probe 4 Probe 5 1 m 12 14 10 11 13 3 m 10 8 12 9 11 5 m 8 6 9 7 8 10 m 7 8 6 5 6 20 m 4 3 5 3 2 5

Die nebenstehende Grafik zeigt, dass eine Gerade eine mögliche Approximation darstellen könnte. Wahrscheinlich würde eine Kurve eine bessere Anpassung an die Daten liefern. Das Prinzip der Sparsamkeit (parsimony) kann hier angewandt werden: man sollte versuchen, ein Phänomen mit möglichst wenigen Parametern zu beschreiben. Bei einer Geraden muss man lediglich die Steigung bestimmen, bei einer Kurve mindestens 2 Parameter! Problem 2: Es wurden auf einem Streifen von 100 Meter Länge 10 Stichproben von Boden- Arthropoden, eine alle 10 Meter, gesammelt. Ferner wurden für jede Stichprobe noch die folgenden Variablen gemessen: Bodentemperatur, Lufttemperatur, Bodenfeuchtigkeit, Pflanzendeckung. Frage: Ist die Anzahl Tiere in den Stichproben von diesen Variablen abhängig? Man könnte die Anzahl Tiere gegen jede dieser Variablen auftragen. Da diese Variablen aber mit grosser Wahrscheinlichkeit miteinander korreliert sind, müsste diese Tatsache mitberücksichtigt werden. Falls die Variablen nicht miteinander korreliert sind, kann jede als unabhängig von den anderen betrachtet werden. Wenn aber die Korrelation relativ gross ist, dann sollte man für jede Variable nur den Anteil berücksichtigen, der nicht schon von einer anderen Variablen bestimmt wird. Multiple lineare Regression ist ein Verfahren, das es erlaubt, die Abhängigkeit einer Variablen, in unserem Falle die Anzahl Tiere, von anderen Variablen unter Berücksichtigung ihrer Korrelation zu bestimmen. 3. Verteilungen Problem: Es wurden 10 Blätter von 3 Baumarten auf Tiere untersucht. Für jede Baumart wurde eine andere Tierart berücksichtigt. Die Daten sind in der folgenden Tabelle zusammengefasst: Blatt Nr.: 1 2 3 4 5 6 7 8 9 10 Mittelwert Varianz Baumart 1 2 4 4 1 3 5 5 3 0 3 3.0 2.67 Baumart 2 0 8 0 3 0 10 0 0 0 9 3.0 18.22 Baumart 3 3 3 3 2 3 4 3 3 3 3 3.0 0.22 6

Man sieht, dass die mittlere Anzahl der Tiere in den 3 Stichproben gleich ist, aber für Baumart 2 streuen die Werte viel stärker als bei Baumart 3. Im ersten Fall sind die Werte mehr oder weniger zufällig verteilt, im Fall 2 scheinen die Tiere in Gruppen vorzukommen und im letzten Fall ist die Verteilung gleichmässig. Frage: Kann man die Verteilung der Tiere auf den Blättern dieser Baumarten modellieren? Man kann die beobachteten Verteilungen mit theoretischen Verteilungen vergleichen und eine Statistik berechnen (χ²), anhand welcher man dann bestimmen kann, wie gross die Wahrscheinlichkeit p ist, dass die beobachteten Unterschiede rein zufällig sind. 4. Diversität oder Artenvielfalt Problem: Es wurden Pflanzen auf Quadraten (20 x 20 m) an 5 verschiedenen Standorten bestimmt und gezählt. Die Daten sind in der folgenden Tabelle zusammengefasst, wo für jede Art (a-p) die Anzahl Individuen pro Standort angegeben ist: Standorte STA1 STA2 STA3 STA4 STA5 a 0 1 24 10 5 b 2 3 25 12 4 c 1 2 45 10 8 d 3 0 34 13 1 e 34 29 3 20 9 f 24 20 5 23 2 g 56 45 7 26 3 h 45 39 3 15 5 i 1 2 12 0 10 j 0 4 15 1 12 k 12 10 10 2 15 l 15 17 7 3 18 m 18 10 5 2 23 n 0 1 3 0 34 o 1 2 2 0 56 p 2 3 1 1 16 Anzahl Arten: 13 15 16 13 16 Man sieht, dass nicht alle Arten an jedem Standort vorkommen und dass die Anzahl Individuen je Standort unterschiedlich ist. Fragen: Wie kann man die Artenvielfalt ausdrücken? Die Anzahl Arten pro Standort wäre ein solches Mass. Doch berücksichtigt man dabei die Anzahl Tiere pro Art nicht. In anderen Worten könnte in Standort 1 jede vorkommende Art nur mit einem Individuum vertreten sein. Es ist dann nahe liegend, dass man die Artenvielfalt der Standorte 1 und 4 nicht als gleich gross betrachten dürfte. Es gibt Verfahren, die auf Informations- oder Wahrscheinlichkeitstheorie beruhen und es erlauben, einen Diversitätsindex zu berechnen. Anmerkung: im vorherigen Fall (Kap 3. Verteilungen) war man an der Verteilung einer einzelnen Art interessiert. Hier wird die Verteilung von Arten innerhalb eines Standortes bestimmt. 7

5. Ähnlichkeit zwischen Standorten / Cluster-Analyse Problem: Mit den Daten der vorherigen Tabelle kann man sich auch fragen, wie ähnlich die Standorte untereinander in Bezug auf die Artenzusammensetzung sind. Hier gibt es prinzipiell zwei mögliche Ansätze: a) man berücksichtigt nur das Vorhandensein bzw. Nichtvorhandensein einer Art an 2 Standorten; b) es wird auch die Anzahl Tiere der betreffenden Arten miteinbezogen. Für die Standorte 3 und 5 ergibt sich eine maximale Ähnlichkeit, wenn man nur das Vorhandensein einer Art betrachtet, da alle 16 Arten an beiden Orten auftreten. Man sieht jedoch, dass die Arten a-d an Standort 3 häufiger sind als an Standort 5 und für die Arten l-p das Gegenteil gilt. Es gibt Ähnlichkeits-Koeffizienten, die dies berücksichtigen. Allgemein ist die maximale Ähnlichkeit gleich 1 und die minimale gleich 0. Vergleicht man die Standorte paarweise mittels des Jaccard-Koeffizienten, der nur Anwesenheit zweier Arten berücksichtigt, bekommt man folgende Matrix: STA1 STA2 STA3 STA4 STA5 STA1 1.000 0.750 0.813 0.733 0.813 STA2 1.000 0.938 0.750 0.938 STA3 1.000 0.813 1.000 STA4 1.000 0.813 STA5 1.000 Die Matrix ist symmetrisch, d.h. die Werte unterhalb der Diagonale sind mit denjenigen über der Diagonale identisch. Die Werte der Diagonale sind gleich 1.000, da definitionsgemäss die Ähnlichkeit eines Standortes mit sich selbst gleich 1 ist! In der Literatur wurden eine Vielzahl von Ähnlichkeitskoeffizienten beschrieben. Die Wahl hängt jeweils von der Fragestellung ab. Man kann diese Matrix durch ein Dendrogramm darstellen; dies ist insbesondere dann hilfreich, wenn die Anzahl Zeilen, bzw. Kolonnen gross ist. Das Verfahren, das diese geometrische Darstellung ermöglicht, heisst Cluster-Analyse. Auch hier gibt es eine Vielzahl von Algorithmen und Optionen. Je nach Problemstellung kann man die Standorte oder die Arten miteinander vergleichen. Im Vorliegenden Fall wurde von den Standorten ausgegangen. 8

6. Hauptkomponenten- und Korrespondenzanalyse Problem: Häufig misst man mehrere Variablen. Eine davon (abhängige Variable) ist diejenige, die man anhand der anderen (unabhängige Variablen) bestimmen möchte. Da die Variablen meistens miteinander korreliert sind, nimmt der Beitrag jeder zusätzlichen Variablen in Bezug auf die gesamte Korrelation zwischen der abhängigen und den unabhängigen Variablen ab. Die Hauptkomponenten- Analyse ist ein multivariates statistisches Verfahren, das erlaubt, durch Transformation der ursprünglichen Variablen neue Variablen (=Komponenten) zu definieren. Hat man k Variablen, kann man k Komponenten definieren, mit der Eigenschaft, dass die erste Komponente möglichst viel von der Gesamtvariabilität erfasst. Die zweite Komponente enthält nur Variabilität, die nicht schon von der ersten erfasst wird, usw. für die restlichen Komponenten. Damit ist es möglich, einen Datensatz mit mehreren Variablen auf wenige Hauptkomponenten zu reduzieren, die dann einen grossen Anteil der Gesamtvariabilität erfassen (in unserem Beispiel 52%, bzw. 44%). Die Korrelation der ursprünglichen Variablen mit den Hauptkomponenten ermöglicht deren Interpretation. Wenn zum Beispiel die erste Hauptkomponente stark mit klimatischen Variablen korreliert, dann kann man sie als klimatische Komponente betrachten. Die weiteren Komponenten sind mit anderen Variablen wie Vegetation oder Nahrungsangebot usw. korreliert. Die Korrespondenzanalyse ist mit der Hauptkomponenten-Analyse mathematisch nahe verwandt. Sie erlaubt es, z.b. gleichzeitig Arten und Standorte darzustellen. Daraus lassen sich dann Beziehungen zwischen den Arten und den Standorten ableiten. Die folgende Grafik zeigt die Projektionen der Standorte und der Arten auf den ersten 2 Hauptachsen (=Hauptkomponenten). Man sieht zum Beispiel, dass die Standorte 1 und 2 sehr ähnlich sind und durch die Arten e, f, g, h charakterisiert werden. Standort 5 unterscheidet sich von allen anderen am meisten, und die Arten n, o, p sind dort am häufigsten. Es können noch weitere Zusammenhänge festgestellt werden, auf die hier nicht näher eingegangen wird. 9

7. "Resampling" - Verfahren: Jackknife und Bootstrap Bei der Bestimmung einer Statistik, sei es Mittelwert oder Standardabweichung einer Verteilung, Diversitäts- oder Ähnlichkeitsindex, usw., geht man in den meisten Fällen von einer Stichprobe aus, die repräsentativ für eine gesamte Population sein sollte. Man ist deshalb daran interessiert zu wissen, wie variabel die Schätzung eines solchen Parameters ist. In bestimmten Fällen gibt es Formeln, die uns erlauben, die Variabilität zu berechnen. Als Beispiel seien Mittelwert und Standardabweichung einer Normalverteilung genannt. Wenn aber keine Formeln existieren und es zu kostspielig und/oder unmöglich ist, mehrere Stichproben aus einer Population zu entnehmen, dann hat man die Möglichkeit, mit "Resampling"-Verfahren wie Jackknife und Bootstrap die Streuung eines Parameters zu schätzen. Praktisch geht man beim Bootstrap folgendermassen vor: aus den gesammelten Daten entnimmt man eine grosse Anzahl (N > 100) Stichproben mit Zurücklegen und berechnet jedes Mal die uns interessierende Statistik; diese Werte kann man dann graphisch darstellen und Konfidenzintervalle definieren. F. Vergleich wichtigster statistischer Verfahren in der Ökologie Beschreibende Statistik (deskriptive Statistik) Univariate Parameter Mittelwert, Varianz, Standardabweichung, usw. Bivariate Statistik: Korrelation und Regression Korrelation, Schätzen einer Variablen Y mittels einer Variablen X Multiple Regression Multiple Korrelation, Schätzen einer Variablen Y mittels mehrerer Variablen X Diversitäts-Indices Ähnlichkeitsmasse/ Cluster Analyse Hauptkomponenten-Analyse (Principal Component Analysis PCA) Korrespondenz-Analyse (Correspondence Analysis, CA; Reciprocal Averaging, RA) Entscheidungs-Statistik (Testen einer Hypothese) t-test: Signifikanz der Unterschiede zwischen 2 Mittelwerten Diskriminanz-Analyse Trennung zweier oder mehrerer Gruppen mittels mehrerer Variablen ANOVA (Analysis of Variance) Varianzanalyse: Vergleich der Varianz zwischen Gruppen und innerhalb der Gruppen und Signifikanz der Unterschiede mittels einer Variablen. Bei mehreren Gruppen-Variablen: multifaktorielle ANOVA bei mehreren Variablen: MANOVA Chi² : Vergleich von beobachteten mit erwarteten Werten 10

Anmerkung: In vielen Fällen gibt es sowohl parametrische (auf Normalverteilung basierend) als auch nicht-parametrische Verfahren (setzen keine Normalverteilung voraus). Es werden folgende Programm-Pakete für die Übungen verwendet: ECOLOGICAL METHODOLOGY, EXCEL, GPOWER, JMP, MVSP (MultiVariate Statistical Programs), OPENSTAT, PAST (PAleontological STatistics), SAMPLE POWER, SIMSTAT, SPSS, XLSTAT (unter EXCEL) und die Programme, die von Ludwig & Reynolds (1988) geschrieben wurden. 11