CURS DE STATISTICA APLICATA PENTRU INGINERII SILVICI. modificat si adaptat dupa Quinn si Keough (2002)

Größe: px
Ab Seite anzeigen:

Download "CURS DE STATISTICA APLICATA PENTRU INGINERII SILVICI. modificat si adaptat dupa Quinn si Keough (2002)"

Transkript

1 CURS DE STATISTICA APLICATA PENTRU INGINERII SILVICI modificat si adaptat dupa Quinn si Keough (2002) Roxana Tesileanu ICAS Brasov 2014

2 2

3 Curs de statistica aplicata pentru inginerii silvici Cuprins Capitolul 1: Variabile si distributii Distributiile de probabilitati ale variabilelor Distributii de probabilitati pentru variabile continue Distributii de probabilitati pentru variabile discrete Distributiile de probabilitati ale statisticilor de testare...10 Capitolul 2: Estimarea parametrilor Esantioane si populatii statistice Parametrii uzuali ai unei populatii si statisticile lor esantionale (estimatorii de punct) Eroarea standard si intervale de confidenta pentru medie Metode de estimarea parametrilor Metode de reesantionare folosite pentru estimare Inferenta Bayesiana...20 Capitolul 3: Testarea ipotezelor Testarea ipotezelor statisticii clasice Valoarea P (probabilitatea asociata) si eroarea de Tip I (α) Testarea ipotezelor pentru una sau doua populatii Erorile de decizie Semnificatia de mediu vs. semnificatia statistica Alte metode de testarea ipotezelor (in afara celor parametrice) Testele parametrice robuste Testele randomizante Testele neparametrice bazate pe ranguri (engl. rank-based tests) Clasa de teste cu transformari in ranguri (engl. rank transformation tests) Testele neparametrice: remarci Testarea multipla Combinarea rezultatelor testelor statistice Critica adusa procesului de testare al ipotezelor statistice Testarea Bayesiana a ipotezelor...42 Capitolul 4: Explorarea grafica a datelor Tehnici grafice de explorare a datelor Analiza grafica a prezumtiilor Transformarile datelor Valorile extreme...54 Capitolul 5: Corelatia si regresia Analiza corelatiei Corelatia robusta Modelele lineare Regresia lineara simpla (bivariata) Modelul de regresie lineara simpla Estimarea parametrilor modelului Valorile prognozate si reziduurile Analiza variatiei Ipotezele nule ale regresiei Prezumtiile analizei de regresie Metode de diagnosticare a regresiei Grafice de diagnoza

4 5.4.9 Transformari Regresia prin origine Metoda celor mai mici patrate ponderate Modelul II al regresiei (X aleator) Regresia robusta Netezirea (engl. smoothing) Remarci generale pentru analiza de corelatie si regresie...82 Bibliografie

5 Capitolul 1: Variabile si distributii Datele folosite in orice tip de analiza statistica sunt reprezentate de observatiile esantionate/ prelevate in cadrul unitatilor experimentale (de ex. parcele tratate diferit, sau diferite zone folosite pentru prelevarea datelor). Observatiile sunt grupate in esantioane care provin dintr-o populatie statistica clar definita anterior. Dupa cum mentioneaza Quinn si Keough (2002), rolul observatiilor este de a masura o caracteristica a obiectelor/indivizilor acestei populatii statistice (de ex. diametrul sau inaltimea arborilor, numarul de arbori atacati de o ciuperca, etc.). Aceste caracteristici se numesc variabile. O variabila, pe care o denotam cu Y si care ia valorile y, poate fi aleatoare/randomizata (necunoscuta la inceputul experimentului, inainte de prelevare) sau fixa (cunoscuta si fixata de catre investigator). Setul de valori posibil sa fie inregistrate in cadrul unui experiment deci ale unei variabile randomizate reprezinta spatiul esantional. Variabilele randomizate pot fi de doua feluri: (i) variabile randomizate discrete - pot lua numai anumite valori, de obicei sunt numere intregi cum ar fi un anumit nr. de oua depuse, sau animale prezente intr-un anume areal, sau (ii) variabile randomizate continue - care pot lua orice valoare, de ex. lungimea unei aripi, sau greutatea unui animal. Conform celor doi autori australieni Quinn si Keough (2002), Kleinbaum et al. (1997) au facut diferenta intre cele doua tipuri de variabile randomizate cu referire la golurile dintre valorile posibile. Variabilele discrete au goluri intre doua valori alaturate, iar valorile continue nu au goluri intre valorile alaturate. Diferentierea intre discret si continuu influenteaza tipul de distributie caracteristic pentru probabilitatile variabilei date, fapt important in estimarea probabilitatilor legate de valorile acelei variabile. 1.1 Distributiile de probabilitati ale variabilelor Distributii de probabilitati pentru variabile continue Majoritatea analizelor statistice sunt bazate pe distributiile de probabilitati ale variabilelor analizate. Exista multe tipuri de distributii definite matematic si unele dintre ele se preteaza foarte bine la descrierea distributiilor variabilelor biologice. De exemplu, una din distributiile cele mai des folosite in biologie este distributia normala sau Gaussiana. Multe procese si variabile biologice pot fi descrise cu ajutorul ei (Pelz 2005), cum ar fi de ex. pentru a descrie dinamica populatiei daunatorilor in timpul gradatiei. Distributia normala poate descrie numai o variabila continua, iar forma ei simetrica de clopot (fig. 1.1) poate fi definita matematic cu ajutorul a doi parametrii, media (μ) si varianta (σ2), independenti unul de altul: unde f(y) este functia de densitate a probabilitatii oricarei valorii y a variabilei Y. Distributia normala poate fi abreviata cu ajutorul celor doi parametrii dupa forma generala N(Y:μ,σ2). Pentru ca exista un numar infinit de combinatii de medie cu varianta, avem un numar infinit de distributii normale (Quinn & Keough, 2002). Cele mai uzuale proceduri statistice, cum ar fi regresia lineara sau analiza variantei au la baza distributia normala. 5

6 Pentru variabilele continue care se stie ca au distributii experimentale cu asimetrie pozitiva (adica alungite spre dreapta), se poate folosi distributia matematica lognormala. Aceste valori daca sunt transformate logaritmic, devin distribuite normal, ceea ce ingaduie aplicarea procedurilor bazate pe distributia normala. In biologie, majoritatea variabilelor masurate au asimetrie pozitiva, din simplul fapt ca ele nu pot lua valori de zero (Quinn si Keough 2002), de ex. greutatea unei insecte, diametrul unui arbore, etc.. In cazul distributiei lognormale, exista o relatie pozitiva intre medie si varianta. O alta distributie teoretica aplicata pentru unele variabile este cea exponentiala (cum sunt cresterea sau scaderea exponentiala in timp a unei variabile). Aceasta distributie e bazata deci pe un singur parametru (λ) care caracterizeaza rata si are urmatoarea functie de densitate a probabilitatilor: Distributia gamma face parte din familia distributiilor exponentiale (ca si cea normala si exponentiala). Este definita ca ajutorul a doi parametrii ce caracterizeaza forma (α) si rata (β-1). Distributia exponentiala este un caz special al distributiei gamma (α=1), ca si distributia chi-patrat (α=ν/2 unde ν este nr. de df, β=2). Functia de densitate a distributiei gamma este: unde, Г(α) reprezinta functia gamma dupa care este denumita distributia. Pentru α<1 avem functii descrescator monotone iar pentru α>1 avem curbe asimetrice pozitiv (Crawley, 2007). De aceea, distributiile gamma sunt folosite mai ales pentru a descrie date de masurare continue care nu sunt distribuite normal. 6

7 Distributia gama pentru diferite combinatii de parametrii: O alta categorie de distributii folosite pentru variabilele continue este cea beta. Ea este definita cu ajutorul a doi parametrii de forma (a si b, cu x intre 0 si 1) si poate lua forme de la U la J pana la forme simetrice ca in graficul de mai jos. Distributia beta (Crawley 2007): O alta distributie folosita in ecologie este distributia Weibull cu doi parametrii (de forma si de scala), a carei forme variaza intre asimetric pozitiv si simetric, in functie de parametrii. Ea sta la baza analizei celei mai slabe verigi (engl. weakest link analysis). De ex. cei mai slabi indivizi dintro populatie sunt distribuiti conform distributiei Weibull daca avem un nr. mare de verigi/indivizi. Este folosita in studii demografice si analiza supravietuirii (engl. survival analysis) pentru ca permite ca rata mortalitatii sa creasca sau sa scada cu varsta (Crawley, 2007) Distributii de probabilitati pentru variabile discrete Si pentru variabilele discrete exista distributii care pot fi folosite pentru descrierea frecventelor variabilelor explorate experimental. Cel mai minimalist exemplu pentru un experiment cu variabile 7

8 discrete este tipul de experiment cu doar doua rezultate posibile: succes sau esec, bila alba sau bila neagra, arbore vatamat sau arbore nevatamat, etc., in care numarul de incercari n este limitat de catre investigator. Acest gen de experiment este numit experiment de tip Bernoulli. Distributia de probabilitati a numarului de succese inregistrate intr-un sir de n experimente identice dar independente de tip Bernoulli este numita distributia binomiala (cu o variabila de raspuns binara, adica care poate lua doar doua valori): unde, P(y=r) este probabilitatea unei anume valori (y) a variabilei randomizate (Y) de a inregistra r succese in n experimente. Distributia binomiala poate fi folosita pentru a calcula probabilitatea lui r (a numarului de succese) inregistrate in n experimente, stiind probabilitatea de succes a unui experiment (Quinn si Keough, 2002). Sa luam exemplul oferit de Crawley (2007) care explica distributia binomiala a functiei de densitate cu ajutorul pestilor parazitati gasiti intr-un esantion. Daca vrem sa aflam probabilitatea ca avem un numar x de pesti parazitati intr-un esantion de n=4 pesti, stiind o anume probabilitate de succes, de ex. 0.1, atunci obtinem graficul din stanga: In graficul stang de mai sus vedem ca cel mai posibil numar de pesti parazitati gasiti intr-un esantion cu n=4 pesti, cu probabilitatea de a gasi un peste parazitat de p=0.1 este 0 (cu o p=0.6), adica analizam f(x). Pe de alta parte, daca analizam distributia binomiala pentru functia cumulativa p(x), vedem ca probabilitatea de a avea 1 sau mai putin de un peste parazitat intr-un esantion este de 0.9 iar probabilitatea de a avea 2 sau mai putin de 2 pesti parazitati se apropie de 1.0 (graficul drept). Putem sa luam si un exemplu din hidrologie cu o inundatie mare o data la 20 de ani, deci cu o probabilitate anuala de 1/20, adica de p=0.05. Dar daca vrem sa aflam de exemplu probabilitatea cu care un an din trei va fi lovit de o inundatie pe fundalul probabilitatii ca o data la 20 de ani se intampla o inundatie, atunci probabilitatea de densitate este p=0.135 (se aplica formula functiei binomiale de densitate) si deci, ca nu se va intampla de p=0.865 (adica ). Insa, daca privim suma cumulativa a probabilitatilor, atunci pentru 1 an inundat si mai putin de 1 an inundat din 3 ani obtinem o p=0.99. Deci nu putem sa excludem posibilitatea unei mari inundatii intr-o perioada de 3 ani consecutivi, pe fundalul unei mari inundatii o data la 20 de ani (Rosin, 2010). O alta distributie de probabilitati foarte importanta pentru variabilele discrete este distributia 8

9 Poisson, care descrie un numar de aparitii independente ale unor rezultate intr-o perioada de timp sau intr-un spatiu delimitat, de ex. numarul de organizme dintr-o parcela, numarul de seminte ciugulite de o pasare pe minut, numarul de gandaci pe o anume suprafata de scoarta, etc., adica pentru date numarate (enlg. count data). Distributia Poisson este descrisa de functia: unde, P(y=r) este probabilitatea cu care un numar de evenimente/rezultate inregistrate este egal cu un numar intreg (r=0,1,2,3...), μ este media (si varianta) numarului de rezultate inregistrate (Quinn & Keough 2002). O variabila Poisson poate fi orice numar integru intre zero si infinit pentru ca numarul de incercari/experimente dintr-o serie de experimente binomiale identice nu este fix (in contrast cu distributia binomiala). Una dintre caracteristicile distributiei Poisson este ca media egaleaza varianta. Pentru valori mici ale mediei (deci a variantei), distributia Poisson este asimetrica pozitiv iar dar daca media este in jurul sau mai mare decat cinci, atunci ea devine simetrica (vezi fig. 1.1 rata mica si rata mare de evenimente inregistrate). Pentru a face inteleasa mai bine diferenta intre distributia binomiala si cea Poisson, Quinn si Keough (2002) ne dau urmatorul exemplu: daca stim media nr. de seminte al unei specii ce a fost numarat pentru o parcela, putem folosi distributia Poisson pentru a modela probabilitatea diferitelor numere de seminte numarate pro parcela, presupunand o esantionare independenta. Distributia binomiala cere o variabila binara, care aici ar putea fi parcela cu seminte vs. parcela fara seminte, cu care sa modelam numarul de parcele cu seminte (dintr-un nr. fix de parcele), stiind probabilitatea unei parcele de a avea seminte. Distributia Poisson este o distributie de baza in urmatoarele pentru urmatoarele trei teme ale statisticii (Crawley, 2007): in descrierea aleatoare a aranjamentelor de date in spatiu, de ex. pentru a descrie daca organizmele in natura sunt distribuite la intamplare (Quinn & Keough, 2002), ca distributie de frecventa ale datelor numarate (engl. counts) ce privesc evenimente rare dar independente, de ex. probabilitatea de a fi lovit de traznet, sau de o bomba pe timp de pace, ca distributie a erorilor modelelor lineare generalizate (GLMs) pentru date numarate. O alta distributie de probabilitati folositoare pentru datele numarate este distributia binomiala negativa. Ea este definita de doi parametrii (media si parametrul de conglomerare adica un fel de varianta). Ea este des folosita in cazurile in care varianta este mult mai mare ca media, adica este foarte asimetrica pozitiv (Crawley, 2007). Stiind ca parametrul de conglomerare (engl. clumping parameter) denotat cu k este: functia de probabilitate a densitatilor distributiei binomiale negative este: <= Exemplu de distributie binomial negativa (probabilitatea densitatilor p(x)). In contrast cu functia de densitate f(x) a probabilitatii valorilor, care are forma de curba asimetrica. 9

10 Distributia binomiala negativa prezinta doua avantaje fata de distributia binomiala in reprezentarea datelor asimetrice numarate (Quinn & Keough, 2002): media nu trebuie sa fie egala cu varianta nu este necesara independenta experimentelor dintr-o serie de experimente. 1.2 Distributiile de probabilitati ale statisticilor de testare Statisticile de testare sunt folosite in testarea ipotezelor. Aceste distributii ne indica probabilitatea unei valori a unei statistici de testare, probabilitate care ne asteptam sa fie inregistrata daca ipoteza nula este adevarata. Daca valoarea statisticii este mai mare sau mai mica decat valorile prinse/considerate in distributia de testare pentru H0 adevarata, atunci ipoteza nula este falsa. Deci, distributiile de testare definesc cand este considerat un rezultat statistic (adica o valoare a statisticii de testare) ca dovada adusa in favoarea ipotezei nule (Crawley, 2007). Principiul testatii ipotezelor va fi pe larg explicat in capitolul 3 ( Testarea ipotezelor ). Patru dintre distributiile de testare sunt deosebit de uzuale (Quinn & Keough, 2002; Crawley, 2007): distributia z sau distributia normala standardizata folosita pentru compararea unei statistici esantionale cu parametrul corespunzator al populatiei din care provine esantionul, distributia chi-patrat (X2), pentru ipoteze formulate pentru date masurate (engl. counts), distributia t a lui Student, pentru compararea a doua medii in esantioane mici, distributia F a lui Fisher, in analiza variantelor (ANOVA) pentru compararea a doua variante independente una de alta (adica care provin din populatii independente). Distributiile de testare sunt tabelate in cartile de specialitate si programate in software-urile statistice, deci citirea probailitatilor valorilor obtinute pentru statisticile de testare (F,t,z,X 2) nu este o problema. Probabilitatile reprezentate in distributiile de testare sunt probabilitati ale statisticilor de testare la care ne-am astepta in exercitii de esantionare randomizata repetate pentru aceeasi populatie sau populatii. 10

11 Capitolul 2: Estimarea parametrilor 2.1 Esantioane si populatii statistice Populatie: colectia tuturor observatiilor posibile de interes. Esantion: colectia de observatii prelevate din cadrul unei populatii. Dimensiunea esantionului: numarul de observatii dintr-un esantion (denotat n). Statistici esantionale: caracteristici masurate ale unui esantion (de ex. media esantionului) variabile aleatoare (engl. random variables). Parametrii: caracteristici masurate ale unei populatii (de ex. media populatiei) variabile fixe. Tipuri de esantionare: o metoda de baza a selectarii observatiilor pentru un esantion este esantionarea aleatorie simpla (engl. simple random sampling). Prin aceasta metoda toate observatiile au aceeasi probabilitate de a fi selectate. Daca vrem sa luam in considerare si heterogenitatea populatiei putem sa folosim esantionarea stratificata engl. stratified sampling (vezi cap. 7 pentru descrieri). Populatiile statistice trebuiesc definite la inceputul unui studiu, atunci cand se stabileste si cadrul temporal si spatial al populatiei precum si inferenta noastra statistica. Cateodata o populatie statistica coincide cu o populatie biologica, dar nu este intotdeauna cazul. Deci o populatie statistica nu este acelasi lucru cu o populatie biologica. Prelevarea aleatorie este importanta in biologie si alte stiinte ale naturii. Motivul pentru care se foloseste esantionarea/prelevarea aleatorie dintr-o populatie clar definita este ca se pot folosi statisticile esantionale (de ex. media esantionala sau varianta esantionala) pentru a estima parametrii populatiei din care face parte (de ex. media si varianta populatiei). Parametrii populatiei sunt considerati ca fiind ficsi (chiar daca sunt necunoscuti), deci nu sunt variabile aleatoare, si nu au distributii de probabilitate! (In contrast cu analiza Bayesiana, in care parametrii populatiei sunt priviti ca fiind variabile aleatorii.) Statisticile esantionale sunt variabile aleatoare, pentru ca valoarea lor depinde de rezultatul esantionarii, si deci au distributii de probabilitate, care se numesc distributii esantionale (engl. sampling distributions). Un bun estimator al unui parametru are urmatoarele calitati: este nedistorsionat- adica valoarea asteptata (valoarea cu probabilitatea maxima) a unei statistici esantionale (adica media distributiei ei de probabilitate) ar trebui in mod ideal sa fie egala cu parametrul populatiei si sa nu il sub- ori supraestimeze considerabil. 11

12 este consistent adica cu cat creste dimensiunea esantionului (nr. de observatii dintr-un esantion), cu atat se apropie mai mult de parametrul populatiei. eficient- adica are cea mai mica varianta dintre toti estimatorii unui parametru. Tipuri de estimatori: estimatori de punct ofera o singura valoare care estimeaza parametrul unei populatii, de ex. media esantionala estimatori de interval- ofera un interval de valori care ar putea include cu o anume probabilitate parametrul estimat, de ex. intervale de confidenta 2.2 Parametrii uzuali ai unei populatii si statisticile lor esantionale (estimatorii de punct) Sa consideram o populatie de observatii ale unei variabile Y masurata pe N unitati esantionale din cadrul populatiei in discutie. Prelevam un esantion aleator de n observatii (y1, y2, y3, y4,...n) din cadrul populatiei. Suntem interesati in cele mai multe cazuri de parametrii de locatie (enlg. location parameters) si de parametrii de spectru (engl. spread parameters). Parametrii uzuali ai unei populatii sunt: media, medianul, varianta, deviatia standard, deviatia absoluta mediana, coeficientul de variatie, eroarea standard, intervalul de confidenta de 95% pentru medie. Sunt prezentati in tabelul 2.1 impreuna cu statisticile lor. Se recomanda invatarea termenilor si pe engleza, dat fiind ca programele de statistica genereaza rezultatele pe engleza si trebuie sa le putem intelege pentru a le analiza. De aceea vom folosi in acest curs denotarea pe stil englez, de ex. " se da o variabila Y" si nu " se da o variabila X". 12

13 Estimatorii de locatie ai unei distributii: estimatorii L: organizeaza/ordoneaza datele de la valoarea cea mai mica la valoarea cea mai mare si apoi formeaza o combinatie lineara de asa-numite statistici ponderate de ordine. Media aritmetica (ponderata cu 1/n), medianul, media trimmed (media calculata dupa omiterea a 5% dintre cele mai mari si cele mai mici valori), media Winzorized (valorile omise sunt inlocuite cu cea mai apropiata valoare ramasa). estimatorii M: ponderarea (engl. weightings) data diferitelor observatii se schimba gradual de la mijlocul/media esantionului spre margini si incorporeaza in procedura de estimare o masura a variabilitatii. De ex. estimatorii M de tip Huber sau Hampel. Acesti estimatori joaca un rol important in regresia robusta si tehnicile ANOVA pentru analiza modelelor lineare. estimatorii R: sunt bazati pe rangurile observatiilor si formeaza baza multor teste neparametrice bazate pe ranguri. De ex. estimatorul Hodges-Lehmann. Pentru datele cu valori extreme (enlg. outliers), medianul si media trimmed si Winzorized sunt cele mai simplu de calculat. Dar programele de statistica noi calculeaza si estimatorii de tip M si R. Estimatorii de spectru al distributiilor (spectrul de variabilitate al distributiilor): varianta esantionala s2 (engl. sample variance)- estimatorul variantei populatiei σ2, este o masura importanta a variabilitatii. Varianta esantionala este suma medie a patratelor (engl. averaged sum-of-squares). Unitatile ei de masura sunt patratul unitatilor observatiilor originale. deviatia standard esantionala s (engl. sample standard deviation) estimatorul deviatiei standard a populatiei σ, este radacina patrata a variantei. O masura de variatie in aceleasi unitati de masura ca si observatiile originale. coeficientul de variatie (CV) folosit pentru a compara deviatiile standard ale populatiilor cu medii diferite, si este independent de unitatea de masura (expune deviatia standard ca si procentaj din medie). deviatia absoluta mediana este mai putin sensibila la valori extreme. Este un estimator de spectru care se foloseste in asociatie cu medianul. spectrul intercuartilic diferenta dintre 1. cuartil si al 3. cuartil (observatia care are 25% din observatii sub ea, si observatia care are 25% din observatii deasupra). Este folosit la construirea boxplot-urilor. 2.3 Eroarea standard si intervale de confidenta pentru medie Teorema limitei centrale este importanta pentru a intelege cum se calculeaza intervalele de confidenta pentru media populatiei. Ea presupune urmatoarele: distributia probabilitatilor mediilor esantionale ale unei populatii distribuite normal este si ea distribuita normal. odata cu cresterea dimensiunilor esantionale (numarul de observatii dintr-un esantion), distributia probabilitatiilor mediilor esantionale care provin din oricare alt tip de distributie (nu numai populatii distribuite normal) se apropie de distributia normala. valoarea asteptata a mediei din distributia probabilitatiilor mediilor esantionale este egala cu media populatiei (μ ) din care provin esantioanele. 13

14 Fig. 2.2 ilustreaza principiul teoremei limitei centrale, conform careia esantioane repetate de dimensiuni mari (n mari) provenite din orice tip de distributie vor avea medii esantionale distribuite normal. Eroarea standard a mediei esantionale Dupa cum am vazut in teorema limitei centrale, ne indreptam atentia de la distributia populatiei originale, spre distributia normala a populatiei de medii esantionale ale esantioanelor populatiei originale. Conform teoremei limitei centrale mediile esantionale sunt distribuite normal. Deci, putem sa calculam varianta si eroarea standard a observatiilor unui singur esantion, ca si estimatori pentru parametrii populatiei mediilor esantionale. Eroarea standard a mediilor esantionale Eroarea standard a mediei (unui esantion), sau deviatia standard esantionala Pentru ca suntem rar in pozitia in care putem colecta multe esantioane dintr-o populatie, estimam eroarea standard a mediilor esantionale σӯ (engl. standard deviation of the sample means), pe baza unui singur esantion, deci pe baza deviatiei standard esantionale sӯ (engl. sample standard deviation). sӯ - deviatia standard esantionala descrie variatia din esantionul ales. Ne indica eroarea ce ia nastere cand folosim ӯ pentru a estima μ. Daca sӯ este mare, media esantionului nu se apropie de adevarata medie a populatiei. Intervale de confidenta pentru media esantionala (interval de confidenta=t eroarea standard) Orice intervalul de confidenta al oricarei medii are forma generala: interval de confidenta=t eroarea standard a mediei unui esantion Prin intremediul distributiei z, convertim orice distributie normala intr-o distributie normala standardizata. Pentru o valoare yi a oricarei distributii normale obtinem urmatoarea valoare z: 14

15 Confrom formulei de mai sus, putem sa convertim orice medie esantionala dintr-o populatie de medii esantionale intr-o medie esantionala standardizata. Adaptam formula pentru cazul mediei esantionale: (media esantionala minus media populatiei de medii esantionale, echivalentul mediei populatiei adevarate, divizata pe eroarea standard a mediilor esantionale) Putem face asta cu orice medie esantionala ӯ a distributiei de medii esantionale. Dar intrebarea urmatoare este: cat de aproape suntem de adevarata medie a populatiei (media distributiei mediilor esantionale)? Sau altfel spus: cat de increzatori/confidenti suntem ca media noastra esantionala este un estimator bun pentru μ, adevarata medie a populatiei? De ex. sa determinam intre ce valori ale lui z se incadreaza media adevarata in 95 din 100 de cazuri calculate (interval de confidenta de 95%). Stim ca intre -1.96σ si +1.96σ se afla 95% din valorile z obtinute (vezi distributia normala).deci putem spune ca avem urmatoarea probabilitate pentru intevalul de confidenta de 95%: P{-1.96 z +1.96}=0.95 sau P{-1.96 ( ӯ- μ)/σӯ +1.96}=0.95 mai departe izolam media μ: P{ ӯ-1.96 σ ӯ μ ӯ+1.96 σ ӯ }=0.95 Deci media se incadreaza intre cele doua valori limita (de jos L1 si de sus L2): L1= ӯ-1.96 σ ӯ L2= ӯ+1.96 σ ӯ Problema este ca cunoastem rar σ (deviatia standard a populatiei), deci trebuie sa folosim deviatia standard esantionala sӯ. Deviatia standard esantionala sӯ se distribuie ca si o distributie t, nu ca o distributie normala. Deci, trebuie sa folosim distributia t pentru a calcula intervalul de confidenta al mediei populatiei. 15

16 Distributia t arata diferit pentru diferite grade de libertate (enlg. degrees-of-freedom): Distributia t este simetrica, centrata in jurul lui zero si poate fi definita matematic. Probabilitati pentru distributia t standardizata (media la 0, deviatia standard de 1) sunt tabelate in carti. Forma distributiei depinde de gradele de libertate definite ca df=n-1 si nu de n, pentru ca eroarea standard s ofera o estimare imprecisa a σ daca dimensiunea esantionului este mica, si creste in precizie odata cu cresterea dimensiunii esantionului. Cand n este mare (>30), distributia t este foarte similara cu distributia normala (sӯ o sa fie aproape de σӯ). Deci distributia t este simplu distributia relatiei (ӯ-μ)/sȳ (analog cu z al distributiei normale), si avem un diferit t pentru fiecare df(n-1). Intervalul de confidenta al mediei populatiei este atunci: P{ ӯ-t0.05(n-1) sӯ μ ӯ+ t0.05(n-1) sӯ}=0.95 t0.05(n-1) este valoarea din distributia t cu (n-1) df intre care se gasesc 95% din toate valorile t sӯ este eroarea standard a mediei esantionale. => dimensiunea intervalului depinde de dimensiunea esantionului n, deviatia standard esantionala si de nivelul de confidenta. Explicatia gradelor de libertate: Gradele de libertate (df) sunt simplu expus numarul de observatii din esantion care sunt libere sa varieze cand estimam varianta. Din moment ce am determinat deja media, atunci numai n-1 observatii sunt libere sa varieze, pentru ca cunoscand media avem numai 1 valoare fixa. Ca o regula generala, numarul gradelor de libertate este numarul observatiilor minus numarul parametrilor inclusi in formula variantei (Quinn & Keough 2002). Interpretarea intervalelor de confidenta pentru media populatiei: nu sunt o constatare a probabilitatii valorii mediei populatiei, care este o variabila fixa => deci, intervalele de confidenta ori estimeaza corect μ ori nu. Probabilitatea asociata cu intervalele de confidenta este interpretata ca si frecventa de lunga durata a unei proceduri care va produce intervale corecte 95% din cazuri (din 100 de medii esantionale calculate, 95 din intervalele de confidenta contin μ si 5 nu). Erori standard pentru alte statistici esantionale Putem sa calculam erorile standard si deci, intervale de confidenta si pentru alte statistici esantionale (de ex. coeficienti de regresie, varianta esantionala). Cand suntem siguri ca distributia statisticii noaste esantionale este distribuita normal, putem sa 16

17 folosim aceeasi procedura de calculare a erorii standard esantionale ca si in cazul mediei esantionale, de ex. pentru coeficientii de regresie. Aceste statistici esantionale divizate cu eroarea standard, se distribuie ca distributie t, si ca atare, intervalele de confidenta pot fi determinate pentru aceste statistici esantionale conform formei generale: confidence interval= t standard error. O exceptie importanta este varianta esantionala care se distribuie non-normal, deci teorema limitei centrale nu se aplica la variante. Pentru a calcula intervale de confidenta pentru varianta populatiei, ne folosim de distributia X2 (distributia chi-patrat). Chi-patrat (X2) poate lua valori de la 0 la. Este o distributie esantionala, ca si distributia t, deci forma distributiei de probabilitati depinde de (n-1)df. Vom folosi distributia chi-patrat pentru a calcula intervale de confidenta pentru varianta: Frecventa de lunga durata a esantionarii repetate a intervalului de confidenta resulta in intervale de confidenta dintre care 95% ar include adevarata varianta a populatiei. Intervalele de confidenta pentru variante sunt foarte importante pentru interpretarea componentelor variantei din modelele lineare (cap. 8). 2.4 Metode de estimarea parametrilor Vom prezenta pe scurt doua proceduri generale pentru estimarea parametrilor, pentru ca modelele in care sunt folositi sa se potriveasca cat mai bine cu datele observate (engl. best fit): metoda verosimilitudinii/posibilitatii maxime si metoda celor mai mici patrate. Verosimilitudinea/posibilitatea maxima (engl. Maximal Likelihood) - ML Idea de baza: Sa consideram un esantion de observatii dintr-o populatie. Telul nostru este sa gasim estimatii ale unui sau mai multor parametrii care sa maximizeze posibilitatea (engl. likelihood) de a observa cu adevarat datele prelevate. Deci vom determina asa numiti estimatori de maxima posibilitate prin intermediul unei functii de posibilitate a unui parametru, care calculeaza posibilitatea datelor statisticii noatre esantionale de a fi cu adevarat observate pentru toate valorile parametrului pe care incercam sa il estimam. Pentru un parametru θ, avem urmatoarea functie de posibilitate: Deci L(y;θ) este produsul (Π) al f(yi; θ). Unde f(yi; θ) este probabilitatea comuna a yi si θ, adica distributia probabilitatilor lui Y pentru toate valorile lui θ. Estimatorul ML este acela care maximizeaza functia de posibilitate a parametrului. Pentru a maximiza functia de posibilitate o transformam logaritmic pentru a putea lucra mai usor cu ea (produsul Π devine suma ): 17

18 De ex. estimatorul ML al μ pentru media esantionala (cunoscand varianta σ 2), este valoarea lui μ care maximizeaza posibilitatea de a observa cu adevarat datele prelevate in esantion. Pentru un μ care provine dintr-o populatie distribuita normal, functia de posibilitate f(yi,μ) este ecuatia distributiei normale (depinde numai de μ si de σ2): Estimatorii ML au cateodata solutii aritmetice exacte, cum ar fi in cazul estimarii mediilor sau a parametrilor modelelor lineare. Din potriva, cand analizam distributii non-normale, estimatorii ML trebuiesc calculati folosind algoritmi iterativi complecsi. Este important sa intelegem ca o posibilitate a unui parametru (engl. likelihood) nu este acelasi lucru cu probabilitatea unei variabile (engl. probability), si ca functia de posibilitate nu este o distributie de probabilitati. In distributia de probabilitati a unei variabile randomizate parametrul este considerat fix si datele sunt considerate variabile necunoscute. Intr-o functie de posibilitate, datale sunt considerate fixe si parametrul variaza intre toate valorile posibile, pentru a maximiza posibilitatea ca estimatia descrie cat mai bine datele. In orice caz, posibilitatea unei estimatii de a descrie cu adevarat datele prelevate este legata de probabilitatea de a obtine exact aceleasi date daca aplicam estimatia. Metoda celor mai mici patrate (OLS) Prin metoda celor mai mici patrate (engl. ordinary least squares OLS) se estimeaza parametrul cautat in asa fel incat el sa minimizeze suma diferentelor la patrat dintre valoarea observata in esantion si cea estimata de parametru, adica minimizeaza urmatoarea functie: De ex. estimatorul OLS al μ pentru un esantion dat este valoarea lui μ care minimizeaza suma diferentelor patrate dintre orice valoare din esantion si estimatia lui μ (adica Σ (yi-ӯ)2). 18

19 Estimatorii OLS au intotdeauna solutii aritmetice exacte. Cea mai importanta aplicatie a estimarii OLS este cand estimam parametrii modelelor lineare, in care ecuatia de mai sus reprezinta suma diferentelor patrate dintre valorile observate si cele estimate de model. Estimarea ML vs estimarea OLS Pentru cei mai uzuali parametrii de populatie, valorile estimatorilor ML si OLS coincid daca premizele pentru OLS sunt indeplinite. Exceptie face varianta populatiei pentru care estimatorul ML este usor distorsionat. In modelele lineare balansate (regresia lineara si ANOVA) pentru care premizele sunt indeplinite, valorile estimatorilor ML si OLS pentru panta regresiei (engl. regression slope) si/sau pentru efectele factoriale sunt identice. Pentru modelele in care variabila raspuns sau rezidurile nu sunt distribuite normal (sunt binare sau date de tip categoric), estimarea pe baza de ML este apropriata. Deci, modelarea lineara generalizata (engl. generalized linear models GLM) de ex. regresia logistica si modelele log-lineare pe de o parte, si modelarea nonlineara pe de alta parte, sunt bazate pe estimarea ML. 2.5 Metode de reesantionare folosite pentru estimare Putem sa calculam eroarea standard a unei statistici si intervalul de confidenta pentru un parametru, daca sunt indeplinite doua conditii: distributia esantionala a acelei statistici este presupusa a fi normala (deci, teorema limitei centrale poate fi aplicata), si daca cunoastem formula exacta a erorii standard. Daca variantele si distributiile esantionale ale statisticilor sunt necunoscute, trebuie sa ne bazam pe metodele de reesantionare (engl. resampling methods) intensive ca procesare informatica, pentru a masura precizia statisticilor noastre. In absenta oricarei alte informatii, cele mai importante indicii pentru cum ar arata distributia esantionala a statisticii cautate ni le ofera observatiile din esantion. Metodele de reesantionare estimeaza eroarea standard a unei statistici esantionale si intervalul de confidenta a unui parametru prin reesantionarea esantionului original. Metodele de reesantionare pot fi folosite si in testarea de ipoteze (cap.3). Bootstrap Distributia esantionala este determinata empiric prin reesantionare randomizata, cu inlocuire din esantionul original, creand esantioane noi de obicei de dimensiunile esantionului original. Statistica dorita poate fi determinata din oricare esantion obtinut prin bootstrap si distributia esantionala a oricarei statistici poate fi determinata. Estimatia bootstrap este simpla medie a statisticii esantionale provenita din esantioanele obtinute prin bootstrap. Pentru a masura cat de distorsionat este un estimator, tehnici ca bootstrap calculeaza diferenta dintre media unei statistici obtinute prin bootstrap si statistica calculata din esantionul original. Distributia probabilitatilor unei statistici bootstrap este calculata. Din nefericire distributiile lor sunt deseori deformate, in special pentru statistici altele decat media, deci si intervalele de confidenta sunt distorsionate. O metoda care corecteaza distorsionarea determina percentilele pentru valorile intervalului. Metoda numita bootstrap accelerat corecteaza in plus distorsiunea. Jackknife Este o alternativa mai veche a bootstrap-ului. Sunt calculate pseudovalori prin indepartarea 19

20 observatiilor din esantion. Fiecare pseudovaloare este o combinatie a doua estimatii a statisticii esantionale cautate, o estimare fiind bazata pe intregul esantion iar a doua pe esantionul cu o observatie eliminata. Jackknife nu se foloseste de obicei pentru estimarea intervalelor de confidenta. 2.6 Inferenta Bayesiana Exista doua mari limitari in procedeul clasic de determinarea estimarilor de punct si de interval, si anume: numai datele observate in esantion contribuie la estimarea parametrilor unei populatii => orice informatie anterioara pe care o avem cu privire la o posibila valoare a unui parametru nu poate fi luata in considerare usor cand determinam estimatia. Desi, cunostintele noastre anterioare despre subiectul studiat ar trebui sa influentieze design-ul de esantionare si prelevare a observatiilor. estimarile intervalelor au o interpretare frecventiata (engl. frequentist), adica legata de frecventa cu care se intampla un eveniment intr-un experiment repetativ de lunga durata. Sau mai simplu spus, doar un anumit procentaj (de ex. 95%) al intervalelor de confidenta obtinute prin esantionare repetata contin parametrul considerat fix al populatiei. => procedeul Bayesian incorporeaza cunostintele anterioare sub forma de grade-de-supozitie (engl. degrees-of-belief) in estimarea parametrilor si produce astfel declaratii probabile: de ex. 95% ca μ este continut intr-un anumit interval. Estimarea Bayesiana Unii Bayesieni considera parametrii populatiei ca fiind variabile aleatorii/randomizate (ca de ex. Barnett 1999). Altii considera parametrii populatiei ca fiind doar variabile necunoscute, care au distributii aterioare si posterioare (engl. prior and posterior) de probabilitati ca acestea ar putea avea diferite valori (ca de ex. Dennis 1996). Logica de baza a inferentei Bayesiene pentru a estima un parametru este: 20 θ este parametrul populatiei (considerat o variabila necunoscuta si randomizata) P(θ) este probabilitatea anterioara neconditionata a lui θ, exprimata ca distributie de probabilitati care insumeaza parerile noastre anterioare despre probabilitatea ca θ o sa ia anumite valori P(data θ) este posibilitatea (engl. likelihood) de a observa cu adevarat esantionul de date pentru valori diferite ale lui θ, exprimata ca functie de posibilitate (distributia comuna de probabilitati a lui Y pentru valori posibile ale lui θ) P(data) este valoarea asteptata (media) a functiei de posibilitate P(data θ); aceasta standardizare a ecuatiei de mai sus prin divizarea cu media inseamna ca suprafata de sub distributia posterioara de probabilitati este egala cu unu; P(data) este o constanta care normalizeaza distributia posterioara. P(θ data) este probabilitatea posterioara a lui θ conditionata de observarea cu adevarat a datelor, exprimata ca o distributie de probabilitati care insumeaza probabilitatile ca θ ia

21 diferite valori prin combinarea distributiei anterioare de probabilitati cu functia de posibilitate. probabilitatea posterioara = functia de posibilitate probabilitatea anterioara (Regula-SI de calculare a probabilitatilor) P(θ): nivelul de cunostinte anterior si probabilitatea lui Distributia anterioara de probabilitati masuara influenta relativa a supozitiei (engl. strength of belief) asupra posibilelor valori pe care le poate lua un parametru. Exista doua tipuri de distributii anterioare de probabilitati, si anume: Ignoranta anterioara, sau altfel spus cunostinte anterioare vagi, in cazul in care nu avem informatii deloc sau numai putine despre ce valoare ar putea lua parametrul. => putem reprezenta ignoranta anterioara printr-o distributie anterioara non-informativa (de ex. o distributie aplatizata care acorda fiecarei valori aceeasi probabilitate de a fi observata in realitate). => o clasa de probabilitati anterioare dizainate pentru a reprezenta cunostinte anterioare putine si pentru a lasa datele prelevate, deci functia de posibilitate, sa domine distributia posterioara. Cunostinte anterioare substantiale sau supozitii puternice, reprezentate printr-o distributie anterioara informativa (de ex. distributia normala sau distributia beta). Constructia acestor distributii anterioare informative este unul dintre aspectele cele mai controversate ale inferentei Bayesiene, in special daca sunt construite pe baza unor opinii subiective. P(data θ): functia de posibilitate Este standardizata, fiind divizata cu valoarea asteptata (engl. expected value) a functiei de posibilitate P(data). Datele prelevate intra in inferenta Bayesiana doar prin intermediul functiei de posibilitate. Daca variabila noastra este distribuita normal si parametrul in care suntem interesati este media, functia de posibilitate standardizata este o distributie normala cu o media egala cu media datelor prelevate si o varianta egala cu eroarea standard la patrat a mediei datelor prelevate. P(θ data): probabilitatea posterioara Reprezinta distributia noastra anterioara modificata de functia de posibilitate. Forma distributiei posterioare ne arata spectrul de valori in care se observa cea mai mare masa a probabilitatilor. Cea mai buna estimatie a parametrului este media distributiei posterioare, daca distributia este simetrica, sau medianul sau valoarea modala daca distributia este non-simetrica. Daca consideram un parametru (θ) cu o distributie anterioara normala media distributiei posterioare este media ponderata dintre media distributiei anterioare si media datelor din esantion. Sa remarcam ca daca avem o distributie anterioara non-informativa, adica aplatizata, distributia posterioara va fi determinata in intregime de datele esantionale si de functia de posibilitate a parametrului de a reda cu adevarat datele prelevate. Media distributiei posterioare este atunci media datelor esantionale iar varianta posterioara este varianta datelor esantionale divizate cu numarul de observatii din esantion (adica cu n, dimensiunea esantionala). 21

22 Intervalele de confidenta Bayesiene sunt numite intervale de credibilitate sau de probabilitate Bayesiene. Ele sunt de asemenea numite si regiuni de densitate maxima sau regiuni de probabilitati pentru ca orice valoare din regiune sau interval are o probabilitate mai mare de a se intampla/aparea decat o valoare din exteriorul regiunii sau intervalului. Pentru intervalul de probabilitate a unui parametru (θ) cu o distributie posterioara normala avem: unde, este varianta distributiei posterioare. Intervalul de probabilitate ne informeaza ca exista o probabilitate de 95% ca valoarea obtinuta se incadreaza in interval, informatie construita in jurul datelor prelevate. Cu o distributie anterioara non-informativa (aplatizata), intervalul de credibilitate Bayesian va fi identic cu cel obtinut prin metodele statisticii clasice, de orientare frecventiala. Singura diferenta este cea de interpretare! Cu o distributie anterioara informativa, intervalul de credibilitate Bayesian va fi mai restrans decat intevalul de confidenta al statisticii clasice. Pe de alta parte, avem si riscul de a construi o anterioara falsa (bazata pe opinii false despre praguri critice de ex.), care o sa eroneze probabilitatea posterioara si mai mult decat o face metodologia statisticii clasice, fapt ce rezulta in regiuni de confidenta false. De aceea calitatea anterioarei este esentiala. Cum putem calcula influenta opiniilor eronate din probabilitatea anterioara asupra celei posterioare. Cand se inclina rezulatatul in directia eronata (punctul de inflexiune engl. tipping point)? Un fel de eroare de Tip I numai ca pentru metoda Bayesiana. In cazul pragurilor ecologice critice care de cele mai multe ori nu pot fi clar definite ar trebui sa calculam intervalele de confidenta cu ajutorul a mai multor metode (una clasica si una Bayesiana) si sa le comparam si eventual insumam, pentru a urma sfatul dat de Chee (2004) de a se mentine de partea precautiei. In figura de mai jos este schitat principiul inferentei Bayesiene cu o probabilitate anterioara P(θ) si o functie de posibilitate standardizata normala: 22

23 Alte remarci la adresa inferentei Bayesiene: ca si in estimarea statisticii clasice, distributiile normale sunt folosite pentru a descrie distributiile de interes (de ex. pentru probabilitatile anterioare, posterioare si functiile de posibilitate), cand avem de-a face cu parametrii distribuiti normal (e.g mediile). Pentru parametrii distribuiti binomial este folosita distributia beta. Putem folosi si alte tipuri de distributii in functie de parametrii. Datele esantionale au o influenta mai mare asupra distributiei posterioare de probabilitati decat o are distributia anterioara de probabilitati. O exceptie o face cazul in care dimensiunea esantionala si/sau varianta probabilitatii anterioare sunt foarte mici. Daca deviatia standard a distributiei anterioare este foarte mica, atunci diferentele in media acestei distributii ar putea avea efecte marcante asupra mediei distributiei posterioare => asanumitul efect editorial cand rezultatele analizei sunt mai mult opinie! Daca folosim o anterioara non-informativa, si presupunem ca datele provin dintr-o populatie distribuita normal, atunci posterioara o sa fie o distributie normala sau o distributie t, ca si in statistica clasica. In cazul unei anterioare non-informative, distributia posterioara folosita la estimarea lui μ este o distributie normala daca o cunoastem pe σ, sau o distributie t daca σ este necunoscuta si folosim s (eroarea standard) pentru estimare. Deci, folosim intr-un fel chiar si in statistica clasica o distributie anterioara. Altfel spus, folosind o distributie anterioara non-informativa (aplatizata) si data provenind din distributii normale va da aceleasi rezultate ca si analiza statisticii clasice. Capitolul 3: Testarea ipotezelor 3.1 Testarea ipotezelor statisticii clasice Testarea ipotezelor in statistica clasica are trei componente: ipoteza nula H0 care este de obicei (dar nu necesar) o ipoteza despre o diferenta inexistenta sau despre o relatie inexistenta intre parametrii populatiei. Deci, H0 este de obicei o ipoteza despre faptul ca un efect este inexistent (nici o diferenta intre mediile sau variantele a doua populatii diferite, s.a). Ipoteza nula H 0 este rezultatul pe care l-am astepta daca am esantiona randomizat din diferite grupuri experimentale cand in realitate nu este nici un efect al tratamentului experimentat. alegerea unei statistici de testare (engl. test statistic) pentru a testa H0. O statistica de testare este o variabila randomizata care poate fi descrisa cu ajutorul unei distributii de probabilitati. De ex. o statistica de testare pentru a testa o ipoteza despre media unei sau a mai multor populatii este statistica t. Are o distributie de probabilitati pentru fiecare grad de libertate df(n-1). Statisticile de testare sunt variabile randomizate continue, deci nu putem defini probabilitatea unei singure valori t. Putem doar sa vorbim despre probabilitatea cu care t este mai mare sau mai mic decat o anume valoare sau ca t este cuprins in intervalul dintre doua valori. 23

24 ipoteza alternativa HA care trebuie sa fie adevarata daca H 0 este falsa. De ex. daca H0 spune ca doua medii de populatie sunt egale, atunci HA spune ca ele difera cu o anumita valoare. Biologii, ca si psihologii folosesc cel mai curent urmatoarea metodologie pentru testarea ipotezelor cu ajutorul statisticii clasice: 1. Se specifica H0 si HA si statistica de testare apropriata. 2. Se specifica a priori nivelul de significanta (de ex. 0.05), care este frecventa de lunga durata a erorii de Tip I (α) (eroarea de a respinge in mod gresit H 0) pe care suntem pregatiti sa o acceptam. 3. Colectarea datelor cu ajutorul unui sau mai multor esantioane randomizate/aleatorii din cadrul populatiei/populatiilor de interes si calcularea statisticilor esantionale pe baza observatiilor colectate. 4. Compararea statisticii calculate cu distributia ei esantionala, presupunand ca H 0 este adevarata, pentru a descoperii valoarea P care corespunde statisticii noastre calculate, adica valoarea P a, de ex., valorii t calculate, deci P(t). 5. Daca probabilitatea de a obtine acea valoare t este mai mica decat nivelul de significanta specificat a priori (de ex. 0.05), atunci se conclude ca H0 este falsa si este respinsa. Rezultatul experimentului nostru este semnificant din punct de vedere statistic. 6. Daca probabilitatea de a obtine acea valoare este mai mare sau egala cu nivelul de significanta specificat, atunci se conclude ca H0 este adevarata, neavand nici un argument impotriva ei. Rezultatul experimentului nostru este nesemnificant din punct de vedere statistic. Unii biologi folosesc: P < 0.05 (semnificant) P<0.01 (foarte semnificant) P<0.001 (extrem de significant) sau prezinta valoarea P obtinuta pentru a indica intensitatea argumentului adus impotriva H0. Interpretarea testelor statistice clasice este bazata pe interpretarea probabilitatilor dintr-un punct de vedere frecvential. Adica, probabilitatea unui rezultat/eveniment de a se intampla intr-un experiment identic repetat de lunga durata. Frecventa cu care este inregistrat, sau mai simplu spus de cate ori a fost inregistrat acel rezultat pe durata experimentului. Pentru interpretarea testelor statistice clasice, datele trebuiesc prelevate randomizat din populatii clar definite. Deci, testarea ipotezelor statisticii clasice este bazata pe frecventele de lunga durata ale evenimentelor inregistrate in esantionari repetate. Daca populatiile statistice din care se esantioneaza randomizat nu sunt clar definite, rezultatele testarii ipotezelor clasice sunt mai greu de interpretat. In acest caz, testele de randomizare, care nu necesita esantionare randomizata dintr-o populatie, sunt mai apropriate. 3.2 Valoarea P (probabilitatea asociata) si eroarea de Tip I (α) Distributia esantionala a unei statistici (de ex. t) ne prezinta probabilitatile de lunga durata a diferitelor intervale de valori t care se inregistreaza daca esantionam repetat dintr-o populatie pentru care H0 este adevarata. Valoarea P (probabilitatea asociata) este probabilitatea de lunga durata de a obtine statistica esantionala obtinuta de noi acum daca H0 este adevarata. Deci valoarea P poate fi exprimata si ca 24

25 P(data H0), probabilitatea de a observa cu adevarat datele obtinute in experimente identice repetate, daca H0 este adevarata. Daca vrem sa stim probabilitatea alternativei nule H 0 de a fi adevarata avand in vedere datele esantionate acum, deci P(H0 data), trebuie sa investigam intrebarea/ipoteza statistica din punct de vedere Bayesian. In analiza clasica valorile P se folosesc astfel: P(t)<P( tc) P(t) P( tc) => H0 falsa => H0 adevarata => rezultat significant => rezultat nesignificant => HA se accepta => H0 se retine Un rezultat nesignificant statistic (retinerea H0) inseamna de fapt ca nu avem nici un argument impotriva H0 si nu putem trage nici o concluzie pe baza datelor. Un nou experiment cu o noua ipoteza de testat, poate va genera un rezultat significant din punct de vedere statistic. Desi, un rezultat nesignificant este tot un rezultat. Underwood (1990, 1999) este de parere ca un rezultat statistic nesignificant ar trebui sa initieze un proces de revizuire sau inlocuire a modelului folosit/teoriei testate si dizainarea unor noi teste pentru noi modele/teorii (Quinn & Keough 2002). Rata erorii de Tip I este probabilitatea de lunga durata de a respinge H0 la nivelul de significanta ales daca H0 este de fapt adevarata in toate experimentele repetate. Graficul de mai jos explica relatia dintre valorile t si valorile P(t) corespunzatoare pentru distributia t a H0: P( ) 25

26 3.3 Testarea ipotezelor pentru una sau doua populatii Exemplu pentru o singura populatie: Sa folosim testul t pentru un singur parametru in baza unui singur esantion (engl. one-sample t test) St statistica esantionala SSt eroarea standard a statisticii esantionale St θ valoarea populatiei => pentru testarea ipotezelor despre parametrii unei singure populatii 1. Ipoteza: Este media populatiei egala cu zero? Acest gen de intrebare este din punct de vedere biologic rar de intalnit, de aceea vom presupune ca schimbarea in media populatiei in urma unui tratament experimental este egala cu zero. Intrebarea se poate pune si pentru coeficienti de regresie sau componente ale variantei. Schimbarea in media populatiei ( μ) o consideram ca fiind tot o medie si o denotam numai cu μ, ca pe orice medie, fiind o simpla diferenta intre doua medii. Acest exemplu de schimbare in media unei populatii dupa un tratament experimental ar putea fi si un caz pentru testul t pereche (engl. pairwise-t-test), daca avem doua esantioane pe aceleasi observatii ale aceleiasi populatii, sau testul t pentru doua esantioane (engl. two-sample t test), daca avem doua seturi de date esantionate pe aceleasi observatii, dar care provin din doua populatii diferite. H0: HA: μ=0 μ 0 2. Se preleva un esantion randomizat dintr-o populatie clar definita si se calculeaza t=( ӯ-0)/sӯ Daca H0 este adevarata ne asteptam ca media populatiei sa se situeze in jurul lui zero. Deci, media esantionala a celor mai multe esantioane ar trebui sa fie aproape de zero. Valori mai mari sau mai mici sunt si ele preconizate daca H 0 este adevarata, dar valori t extrem de mari sau extrem de mici fata de zero sunt mai putin probabile. 3. Compararea valorii t esantionale (obtinute pe baza esantionului prelevat de noi) cu valoarea t din distributia esantionala a lui t pentru a identifica valoarea t a esantionului prelevat de noi (engl. sample t value). Valori mari ale statisticii t esantionale au valori P mici. Daca valoarea P este mai mica decat nivelul de significanta ales, de ex. 0.05, atunci H0 este respinsa. Teste unilaterale si teste bilaterale Testele a caror ipoteza nula H0 presupune ca un parametru este egal cu o anumita valoare (numite ipoteze simple sau ipoteze de punct) sunt teste bilaterale (engl. two-tailed tests). Testele bilaterale au o valoarea critica (tc) la ambele capete ale distributiei. De ex. daca nivelul de significanta P=0.05, atunci avem α=0.025 la ambele capete (eroarea de Tip I se imparte in doua). Exemplu de ipoteze simple: 26 H0: μ = 0 sau HA:μ 0

27 Daca ipoteza nula H0 presupune ca un parametru este mai mare sau mai mic decat o anumita valoare, deci mai clar specificat decat in prezumtia de nici o diferenta a ipotezelor simple, eroarea de Tip I este in intregime amplasata la un singur capat al distributiei. Daca presupunem ca un parametru este mai mare decat o anumita valoare, atunci excludem posibilitatea ca statistica noastra esantionala sa se inregistreze si la un nivel mai mic decat valoarea specificata in ipoteza, deci excludem o parte din distributie si din posibilitati. De aceea trebuie sa ne gandim bine daca cazul nostru este intr-adevar un caz de testare unilaterala (engl. one-tailed test) (Quinn & Keough 2002). Exemplu de ipoteze unilaterale: H0: μ1 μ2 sau HA: μ1 μ2 Fig.: Distributia t pentru H0 unui test bilateral (a) si a unui test unilateral (b) Ipoteze pentru doua populatii Exista teste de ipoteza nula despre acelasi parametru al doua populatii independente. Aceste teste pot fi bilaterale sau unilaterale, desi cele bilaterale sunt cele mai des folosite pentru ca testele verifica de cele mai multe ori ipoteza nula ca parametrul celor doua populatii are aceeasi valoare. Pentru doua populatii independente, care sunt reprezentate de doua colectii de observatii diferite (de ex. provenite din doua unitati experimentale diferite) putem sa comparam de ex. cele doua medii (testul t pentru doua esantioane a doua populatii independente), sau cele doua variante a doua populatii independente (testul F). Putem compara de altfel si doua variabile pereche a fiecarei observatii a aceleiasi populatii (testul t pereche). Daca comparam mediile a doua populatii independete utilizand doua esantioane randomizate (unul din fiecare populatie), testam urmatoarea ipoteza: 27 H0: μ1= μ2 (compararea a doua medii independete) => poate fi testata cu testul t si cu un test de raport-f ANOVA.

28 sӯ1- ӯ2 este eroarea standard a diferentei dintre doua medii. Daca testam daca variantele a doua populatii sunt egale, testam ipoteza: H0: σ21= σ22 (compararea variantelor a doua populatii)=> poate fi testata cu testul raport-f Daca comparam diferentele dintre doua esantioane ale acelorasi observatii ale unei singure populatii: H0: μd= 0 (compararea esantioanelor pereche provenite din aceeasi populatie)=> poate fi testata cu testul t pereche Testele parametrice si prezumtiile lor Putem folosi un test parametric cand putem sa specificam o distributie de probabilitati pentru populatiile variabilelor din care provin esantioanele, si cand urmatoarele prezumtii sunt adevarate: esantioanele provin din populatii distribuite normal esantioanele provin din populatii cu variante egale observatiile sunt esantionate randomizat/aleator din populatii clar definite valorile extreme se pot detecta si trata 1. Populatii distribuite normal Testele t sunt de obicei robuste la incalcarea acestei prezumtii, daca distributiile nu sunt extrem de asimetrice, adica orientate mai mult spre dreapta sau stanga sau multimodale (mai multe maxime locale). Verificari ale simetriei pot fi facute cu ajutorul graficelor de tip dotplot (daca n este destul de mare), boxplot sau pplot. Transformari ale variabilelor in alte scale de masura (vezi cap. 4) pot in cele mai multe cazuri sa imbunatateasca normalitatea distributiei. Quinn & Keough (2002) nu recomanda testele de significanta formale pentru a testa normalitatea (cum ar fi testul KolmogorovSmirnov), pentru ca ele depind de dimensiunea esantionala, si ar putea respinge H 0 pentru normalitate si in situatii in care testul t ulterior este fiabil. 28

29 2. Populatii cu variante egale Testul t comun este foarte robust la o inegalitate moderata a variantelor daca dimensiunea esantioanelor este aceeasi. Acesta lucru este valabil si pentru ANOVA (testul t este echivalentul unui test de raport-f ANOVA pentru doua grupuri). Dar, daca avem dimensiuni esantionale inegale apar urmatoarele probleme (stiind ca F=s12/s22=[ μ1/(n-1)]/[ μ2/(n-2)], si s12 este varianta mai mare): - Eroarea de Tip I: daca esantionul de dimensiuni mai mici are varianta mai mare => F devine mai mare => P(F) devine mai mica => H0 este respinsa din greseala mai usor => Eroarea de Tip I. - Eroarea de Tip II: daca esantionul de dimensiuni mai mari are varianta mai mare => F devine mai mic => P(F) devine mai mare => H0 este retinuata din greseala mai usor => Eroarea de Tip II. Deci, rezultatele testelor depind de dimensiunile esantioanelor! Deci, este intotdeauna o idee buna sa dizainam studii cu dimensiuni esantionale egale! Variantele inegale apar de cele mai multe ori din cauza distributiilor asimetrice, deci rezolvarea problemei de non-normalitate a distributiilor va produce variante mai apropiate/asemanatoare. Aceasta prezumtie se poate verifica prin examinarea boxplot-urilor pentru fiecare esantion pentru a vedea daca spectrul de variatie este asemanator. Nu se recomanda folosirea unui test prelimar pentru a testa egalitatea dintre variantele populatiilor cu un test de raport-f inaintea unui test t, pentru ca testul de raport-f este mai sensibil la non-normalitate decat testul t. Rezultatul testului de raport-f depinde de dimensiunea esantionala (cum am aratat mai sus) si s-ar putea sa nu detecteze inegalitate in variante care ar putea invalida testul t efectuat ulterior, sau ar putea detecta inegalitate care nu ar afecta testul t ulterior. 3. Observatiile sunt esantionate randomizat La lucrul acesta ar trebui sa ne gandim inca din faza dizainarii studiului! Daca esantioanele nu pot fi prelevate randomizat atunci nu putem sa testam ipoteze despre diferente intre doua esantioane cu ajutorul testelor parametrice. Daca nu putem preleva randomizat esantioanele, atunci putem folosi un test randomizant (engl. randomization test). 4. Detectarea si tratarea valorilor extreme Ambele tipuri de teste (parametrice si neparametrice bazate pe ranguri) sunt afectate de valorile extreme, desi cele bazate pe ranguri sunt mai putin sensibile. Valorile extreme ar putea creste sau scade mediile si variantele, deci ar putea amplifica erorile de Tip I si II. 3.4 Erorile de decizie Exista doua tipuri de erori in testele statisticii clasice: Eroarea de Tip I: respingerea gresita a H0, cand H0 este adevarata, eroare denotata cu α. Eroarea de Tip II: retinerea gresita a H0, cand H0 este falsa, eroare denotata cu β. Urmatoarele doua grafice prezinta principiul celor doua tipuri de erori. 29

30 Probability distribution of H0 rejected Probability distribution of H0 retained H0 wird nicht abgelehnt H0 trifft zu HA wird nicht abgelehnt HA trifft zu Type II error α=β Region where H0 true Region where H0 false, HA true Probability distribution of H0 rejected Probability distribution of H0 retained H0 wird nicht abgelehnt H0 trifft zu Type I error H0 true HA true HA wird nicht abgelehnt HA trifft zu H0 true H false 0 Type II error 30 α=β Type I error

31 Exista asadar patru decizii statistice: a se decide corect pentru H0, cand ea este adevarata a se decide corect pentru HA, cand HA este adevatata si H0 falsa a respinge din greseala H0, cand H0 este adevarata (eroarea de Tip I) a retine din greseala H0, cand HA este adevarata (eroarea de Tip II). Daca diferentele sunt mici intre parametrii testati (de ex. intre mediile a doua esantioane), distributia probabilitatilor a H0 si a HA de a fi retinute se apropie una de alta, deci regiunea in care H 0 cand este adevarata devine si ea mai mare (vezi urmatorul grafic). In acest fel eroarea de Tip I de a respinge din greseala H0 este mai mare decat eroarea de Tip II (α > β ). Erorile de Tip I detecteaza un efect neexistent. α > β Daca diferentele intre parametrii testati sunt mari, cele doua distributii de probabilitati se vor indeparta una de alta. Prin urmare, regiunea in care H0 este adevarata va scadea iar regiunea in care HA este adevarata va creste. Deci, eroarea de Tip II de a retine din greseala H 0 este mai mare decat eroarea de Tip I. Erorile de Tip II nu detecteaza un efect existent. Erorile de Tip II (efecte nedetectate) sunt foarte importante in monitoring-ul de mediu si evaluarea impacturilor activitatilor umane asupra mediului. Ele reprezinta de fapt nereusita de a detecta o schimbare care a avut loc. Verdictul de impact nesemnificativ (retinerea defectuoasa a H0) rezulta in continuarea activitatilor nocive. Consecinta erorii de Tip II esta de a nu detecta degradarea significanta a mediului cand ea este prezenta deja sau, cel putin, de a o detecta inainte de a se inrautati situatia prea tare (Quinn & Keough 2002). Inversul erorii de Tip II este puterea testului, probabilitatea de a respinge o H0 falsa: puterea testului=p(h0 respinsa HA adevarata)=(1- β). 31

32 3.5 Semnificatia de mediu vs. semnificatia statistica Am vazut ca erorile de Tip II (efect nedetectat) pot cauza probleme de mediu. Deci, trebuie sa prestabilim dimensiunile efectelor (engl. effect sizes), care sunt significante din punct de vedere al mediului, ca si puncte de referinta sau intervale de referinta (daca variabilele sunt continue) inainte de a efectua testul statistic. Mai apoi sa comparam rezultatele statistice cu punctul sau intervalul de referinta si sa concludem daca rezultatele sunt semnificative in situatii reale date (Quinn & Keough 2002). Pentru ca suntem adeptii parerii ca si dimensiuni mici ale efectelor pot avea un impact mare nu numai asupra parametrilor biologici ci si la scale spatiale mari de mediu, introducem pe scurt conceptul panarhiei dezvoltat de Folke (2006). Conform acestuia, efecte mici dar la scala mare (spatiala si/sau temporala) in variabile care se modifica foarte incet (de ex. pedogeneza, biodiversitatea, specii cheie engl. keystone species) ar putea genera efecte mari la scale mici (Tesileanu 2009). Fig.: Panarhia, un model explicativ simplificant format din cicluri de reinoire adaptive intercalate care subliniaza influentele pe care le au scalele una asupra alteia. Acest tip de a vedea lucrurile ar putea genera discutii noi si pe tema pragurilor ecologice critice, mai ales in alegerea intervalelor de confidenta ale testelor statistice, alegere care ar trebui sa fie bazata pe analizarea dimensiunilor semnificative ale efectelor si incorporarea lor in controlul erorii de Tip II. Deciziile luate in legatura cu pragurile ecologice critice ar trebui intotdeauna sa aiba intervale de confidenta astfel stabilite. Daca pragurile ecologice critice nu pot fi stabilite (din lipsa de cunostinte), atunci ar trebui folosite praguri critice stabilite de societatea in care traim, in functie de importanta atribuita riscurilor cu privire la deciziile de mediu (Jax 2014). Insa atunci rezultatele statistice au un alt inteles care trebuie interpretat ca atare. Fig. Valoarea arborilor in protectia impotriva inundatiilor ( dupa Farber et al. 2002) 32

33 Pentru ca cele doua erori, α si β, au caracter competitiv, adica cresterea uneia duce la scaderea celeilalte, raportul celor doua erori descrie ce importanta atribuim fiecarei dintre ele. P(choosing H0 H0 true)/p(choosing HA/HA true)=(1- α)/(1- β) daca α = β, raportul lor este egal cu 1 daca α > β => (1- β) devine mai mare, deci puterea testului devine mai mare. Problema este ca de multe ori nu stim cum arata distributia H A, numai cea a H0 (Quinn & Keough 2002). Daca distributia HA este necunoscuta, este greu de stiut raportul exact dintre cele doua erori. Desi, acest lucru este important daca vrem sa controlam eroarea de Tip II cu ajutorul acestui raport. Daca folosim numai H0 in distributii (ca in graficele de mai sus), ambele erori pot fi mai usor vizualizate. Putem astfel sa ne decidem ce tip de eroare este mai importanta pentru analiza noastra, si sa stabilim raportul dorit intre cele doua erori numai pe baza distributiilor H 0. Problema necunoasterii distributiei HA ramane insa de necontestat. Daca respingem H0, alegem o necunoscuta in schimb? Problema necunoasterii HA este cel putin la fel de controversata ca cea a subiectivitatii distributiei anterioare. Daca avem subiectivitate in ambele tipuri de analiza statistica (in cea Bayesiana si in cea clasica- in distributia anterioara si in distributia H A) atunci HA sunt practic la fel numai interpretarea rezultatelor este diferita. Atunci cel putin sa recunoastem ca suntem subiectivi intr-o oarecare masura. Deci, aici intervine importanta calitatii procesului de analiza in generarea rezultatelor statistice. Cunoastem variabilele indeaproape? Ce dizain aplicam in acest context? Cum stabilim nivelul de significanta? Ce tip de eroare este important? Cum interpretam rezultatele din punct de vedere biologic/de mediu/s.a. m.d Alte metode de testarea ipotezelor (in afara celor parametrice) Alte metode folosite in testarea ipotezelor statisticii clasice sunt: testele parametrice robuste (de ex. testul-t-welch) testele randomizante testele neparametrice bazate pe ranguri (testul MWW, testul Wilcoxon) clasa de teste cu transformarea datelor in ranguri Testele parametrice robuste Pentru urmatoarea ipoteza nula: H0: μ1= μ2, but σ21 σ22 putem folosi testul-t-welch pentru doua esantioane de dimensiuni esantionale egale sau inegale si cu variante inegale. t=(ȳ1-ȳ2)/sȳ1-ȳ2 unde, sȳ1-ȳ2= 33

34 Testul Welch este adecvat cand esantioanele provin din populatii distribuite normal. Pentru populatii cu distributii asimetrice putem folosi testul H Wilcox, bazat pe estimatori M si estimari ale variantei obtinute prin bootstrap Testele randomizante Aceste teste reesantioneaza sau restructureaza datele originale de mai multe ori pentru a genera distributii esantionale a unei statistici de testare. De ex. sa testam ipoteza nula H0: μ1= μ2, nici o diferenta intre unitati experimentale. Sa folosim exemplul dat de Quinn & Keough (2002) de comparare a zonelelor cu midii si melci de strand in ceea ce priveste media numarului de oua depuse de L. vinosa (gastropode). Pasii unui test randomizant sunt urmatorii: calcularea diferentei intre mediile a doua unitati/grupuri/zone experimentale: D0=ӯ1-ӯ2 redesemnarea randomizata/aleatoare a observatiilor celor doua zone (n1+n2) respectand dimensiunile esantionale ale esantioanelor originale si recalcularea diferentei intre cele doua zone: D1=ӯ1'-ӯ2 repretarea pasului de redesemnare randomizata a observatiilor un numar mare de ori (de ex de ori pentru un nivel de semnificatie de 0.05, de 5000 de ori pentru 0.01) de fiecare data calculand Di calcularea proportiei intre numarul Di D0 si numarul total al Di => valoarea noastra P, care poate fi comparata cu un nivel de semnificatie stabilit a priori va decide daca vom respinge sau nu H0. Putem folosi testele randomizante pentru a: compara doua grupuri experimentale testa daca un set de observatii se inregistreaza aleator sau nu (de ex. observatiile seriilor de lunga durata) pentru a analiza datele ale caror distributii sunt necunoscute cand esantionarea randomizata nu este posibila (de ex. in folosirea observatiilor care se inregistreaza in mod oportun) cand alte prezumtii, cum ar fi independenta observatiilor, sunt indoielnice, ca atunci cand testam trend-uri temporale (autocorelarea observatiilor in seriile de lunga durata). Potentiale probleme de interpretare: rezultatele lor sunt mai dificil de extrapolat pentru populatii mai mari, pentru ca testele randomizante reesantioneaza datele a doar doua grupuri experimentale. Insa dat fiind ca rezultatele testelor parametrice standard genereaza valori P similare cu cele ale testelor randomizante, discutia extrapolarii pentru o populatie intreaga ar trebui extinsa si pentru cele standard sau sa afirmam ca pentru testele randomizante aceasta problema este doar teoretica si nu si practica (Quinn & Keough 2002). ipoteza H0 nu este legata strict de un parametru al populatiei ci doar de diferentele dintre mediile a doua grupuri, sau ca alternativa sa afirmam ca diferenta daca este mai mare, nu este mai mare doar in mod accidental. Pentru ca valoarea P este determinata printr-un proces 34

35 de reesantionare, putem determina si intervale de confidenta pentru valoarea P. Testele randomizante nu sunt lipsite de prezumtii: este posibil sa fie sensibile la diferentele intre variante, deci aceste teste nu ar trebui aplicate din start numai pentru a evita problema heterogenitatii variatelor testele randomizante de diferente de locatie (legate de medii) au prezumtia conform careia distributiile variabilelor din cele doua esantioane sunt similare Testele neparametrice bazate pe ranguri (engl. rank-based tests) Principiul dupa care sunt construite testele neparametrice bazate pe ranguri este de a atribui ranguri observatiilor si mai apoi de a reesantiona randomizat valorile astfel transformate pentru a construi o distributie esantionala pentru o statistica de testare bazata pe ranguri (de ex. pentru suma esantionala a rangurilor). Reesantionarea randomizata are loc cu ajutorul testelor randomizante in baza observatiilor originale. Testul Mann-Whitney-Wilcoxon despre diferentele intre doua populatii H0: doua populatii provin din distributii indentice HA: esantioanele provin din populatii care difera doar in termeni de locatie (medii sau mediane) Pasii unui test MWW: Atribuirea unui rang tuturor observatiilor, ignorand grupurile. Observatiilor legate li se atribuie media rangurilor lor. Observatiile legate (engl. tied observations) apar cand doua sau mai multe observatii sunt egale, fie ca ele apar in acelasi esantion sau in esantioane diferite. Calcularea sumei rangurilor pentru ambele esantioane. Daca H 0 este adevarata, ne asteptam la o mixtura de ranguri similara in ambele esantioane. Compararea sumei mai mici a rangurilor cu distributia de probabilitati a sumei esantionale a rangurilor, care ne sta la dispozitie in tabele bazate pe esantionari randomizate repetate a observatiilor, pentru a testa ipoteza. Pentru dimensiuni esantionale mari, distributia de probabilitati a sumei rangurilor se apropie de distributia normala, si statistica z poate fi folosita. Dar este numai o aproximare/apropiere, deci rezultatele testelor-mww care au fost efectuate cu programe diferite pot varia, in functie de ce s-a folosit pentru a testa: aproximarea bazata pe dimensiuni esantionale mari sau metode de reesantionare randomizata exacte, si de cum s-au tratat observatiile legate. Testul Wilcoxon de ranguri cu semn despre diferente bazate pe observatii pereche (engl. Wilcoxon signed-rank test) H0: doua seturi de observatii provin din aceeasi populatie HA: populatiile difera in locatie (media sau medianul) => analizeaza esantioane pereche, deci diferente pereche Pasii unui test Wilcoxon de ranguri cu semn: Calcularea diferentei intre observatii pentru fiecare pereche, notand semnul pentru fiecare 35

36 diferenta. If H0 este adevarata, ne asteptam la aproape acelasi numar de semne si +. Calcularea sumei rangurilor pozitive si a sumei celor negative. Compararea sumei mai mici a rangurilor cu distributia de probabilitati a sumei esantionale a rangurilor, care ne sta la dispozitie in tabele bazate pe esantionari randomizate repetate a observatiilor, pentru a testa ipoteza. Pentru dimensiuni esantionale mari, distributia de probabilitati a sumei rangurilor se apropie de distributia normala, si statistica z poate fi folosita. Dar este numai o aproximare/apropiere, deci rezultatele testelor-mww care au fost efectuate cu programe diferite pot varia, in functie de ce s-a folosit pentru a testa: aproximarea bazata pe dimensiuni esantionale mari sau metode de reesantionare randomizata exacte, si de cum s-au tratat observatiile legate Clasa de teste cu transformari in ranguri (engl. rank transformation tests) Testele cu transformarea datelor in ranguri pot teoretic fi aplicate la orice fel de analiza pentru care ar exista si un test parametric, numai ca prezumtiile parametrice nu sunt indeplinite si suntem nevoiti sa folosim un test neparametric. Idea de baza a testelor cu tranformari in ranguri este de a transforma mai intai datele in ranguri. Aceasta transformare este in principiu ca orice tranformare a datelor in alte scale de masura, de ex. transformarea logaritmica a datelor. Testul cu transformari in ranguri va da in general aceleasi rezultate ca si testul bazat pe ranguri care ii corespunde. Testele bazate pe metoda transformarii in ranguri au fost folosite si in diferite analize de modele lineare Testele neparametrice: remarci Desi testele neparametrice de diferente de locatie nu pun conditia unei anumite forme a distributiei (de ex. cea normala), ele presupun totusi ca distributiile populatiilor din care provin observatiile sunt similare, deci prezumtia homogenitatii variantelor (variante egale) ramane valabila. Heterogenitatea in variante in testarea ipotezelor cu doua esantioane ar trebui efectuata folosind un test robust ca testul-t-welch, sau prin tranformarea datelor pentru a inlatura relatia dintre medie si varianta (cap. 4). Testele neparametrice au in general o putere a testului mai mica ca testele parametrice corespunzatoare, dar diferenta in putere este mica. Cu distributii ne-normale, testele neparametrice sunt mai fiabile ca cele parametrice, dar normalitatea in sine nu este o prezumtie parametrica atat de aspra, deci este greu de spus care dintre cele doua tipuri de teste ar trebui folosite, cu exceptia cand: distributiile arata foarte ciudat (foarte asimetrice, foarte decalate spre o parte sau alta), iar transformarile nu ne folosesc la nimic. Acest lucru poate fi cauzat de valorile extreme. Care ne aduce la punctul urmator: prezenta valorilor extreme. Daca valorile extreme sunt prezente este bine de stiut ca nici testele neparametrice nu sunt imune la valori extreme, ci doar ca nu sunt atat de afectate de ele ca cele parametrice. O alternativa ar fi tratarea valorilor extreme prin trimming si winzorizing (vezi cap. 1) si folosirea unui test parametric. Testele bazate pe ranguri nu aduc nici un avantaj fata de testele randomizante bazate pe datele originale. Testele bazate pe ranguri au fost create inainte de dezvoltarea informaticii. Ambele tipuri de testare au prezumtia distributiilor egale a celor doua grupuri, si deci variante egale, si nici unul nu este foarte sensibil la ne-normalitate. 36

37 Quinn si Keough (2002) recomanda folosirea testelor parametrice pentru datele care in forma lor originala sunt sub forma de ranguri (deci nu masurate pe o scala continua) daca prezumtiile parametrice sunt indeplinite. Acest procedeu este mai simplu si mai coerent. 3.7 Testarea multipla Unul din punctele cele mai critice ale testelor statistice este acumularea de erori de decizie in testarea multipla. Sa consideram ca avem o familie de teste (un set de teste), definita ca fiind o colectie de teste simultane, in care un numar de ipoteze sunt testate simultan folosind un singur set de date de la un singur experiment sau program esantional. Ne intalnim cu o familie de teste cand de ex. facem comparatii pereche intre grupuri de tratament dintr-un experiment, testam corelatii pereche intre variabile multiple inregistrate in aceleasi unitati experimentale sau esantionale sau in analize univariate multiple ( de ex. teste t) ale acestor variabile. Cand numarul de teste din cadrul unei familii creste, asa se intampla si cu probabilitatea de a face cel putin o eroare de Tip I printre multiplele teste efectuate. Aceasta probabilitate este numita rata familiala (la nivel de familie) de erori de Tip I (engl. family-wise Type I error rate). Rata de erori de Tip I apare in orice situatie cand avem teste de significanta multiple care sunt considerate simultane. Daca testele sunt ortogonale (independente una de alta), rata familiala de erori de Tip I poate fi calculata:, unde c este numarul de teste. Tinem testele independente daca nu folosim aceeasi populatie in mai mult de un test. Daca testele sunt ne-ortogonale, atunci rata familiala de erori de Tip I este mai mica, dar nu poate fi calculata pentru ca depinde de gradul de ne-independenta dintre teste. Cand luam in considerare rata familiala a erorii de Tip I fiecare cercetator ar trebui sa ia o decizie a priori despre importanta relativa a ratelor erorilor de Tip I si II, pentru ce ele sunt legate una de alta. O reducere in eroarea de Tip I genereaza o crestere a erorii de Tip II. Controlul ratei familiale de erori de Tip I (setarea ei prea joasa), devine o problema daca eroarea de Tip II are semnificatie de mediu (adica daca efectul testat pentru populatia in cauza la un nivel care genereaza o problema de mediu iar efectul ramane neidentificat statistic). Controlul ratei familiale de erori de Tip I Oricare ar fi parerea noastra despre cele expuse mai sus in legatura cu controlul ratei familiale de erori de TipI, s-ar putea ca vreodata situatia sa ne ceara lucrul asta. Putem controla rata familiala a erorii de Tip I prin ajustarea nivelelor de significanta in jos pentru fiecare test. Putem sa ajustam si valorile P si sa folosim aceleasi nivele de significanta. Este echivalent. Procedura Bonferroni: in care se divizeaza α cu c (nr. de teste). Fiecare comparatie este testata la nivelul de significanta α/c. Acest procedeu asigura un control strict al ratei de erori de Tip I dar fiecare test sau comparatie va avea valoare interpretationala mica (puterea testului este mica). Procedura Dunn-Sidak: fiecare comparatie este testata la 1-(1- α)1/c. Bonferroni secventiala: statisticile (F, t, ect.) fiecarui test c sau valorile P sunt aranjate pe ranguri de la cea mai mare valoare la cea mai mica, iar valoarea P cea mai mica este testata la α/c, urmatoarea la α/(c-1), urmatoarea la α/(c-2), etc.. Opriri de testare cand apare un 37

38 rezultat significant. Aceasta procedura confera mai multa putere fiecarui test c. Putem si sa incepem cu valoarea P cea mai mare in mod analog. Testele ne-parametrice care folosesc aceasta structura sunt de ex. testul Student-Newmann-Keuls, sau testul Dunnett, cu opriri la aparitia unui rezultat significant. Ajustarea valorilor P bazata pe reesantionare: Westfall si Young (1993) au definit valoarea P ajustata ca: unde, Prand este valoarea P randomizata a fiecarui test. In principiu, procedura lor masoara cat de extrema este oricare valoare P dintr-o lista de valori P obtinute intr-un set de teste multiple presupunand ca toate H0 sunt adevarate. 3.8 Combinarea rezultatelor testelor statistice combinarea valorilor P meta-analiza Aceste procedee sunt utilizate pentru a evalua studii in care au fost folosite analize statistice pentru a testa ipoteze similare despre tema investigata, de ex. efectul unui anumit tratament experimental. Interesul nostru este sa investigam dimensiunile efectului tratamentului la un nivel mai amplu cu ajutorul datelor din mai multe studii si de a testa H 0 ca nu este un efect de amploare/general (engl. overall effect) al tratamentului. Combinarea valorilor P Acest procedeu combina valorile P dintr-un numar de teste independente care au aceeasi ipoteza. Pentru testarea H0 generala se foloseste o distributie de probabilitati bazata pe urmatoarea formula: unde, c este numarul de teste independente, fiecare cu valoarea lui P folosita pentru testarea H 0 generale. Distributia de probabilitati pentru valorile P combinate este o distributie X 2 (chi patrat) cu gradele de libertate df=2c. H0 generala este ca toate H0 din colectie sunt adevarate. Respingem H0 generala daca concluzionam ca exista un efect general/ de amploare al tratamentului investigat sau un contrast de amploare intre analize. Meta-analiza Valorile P sunt numai o parte din informatia folosita pentru a interpreta testele statistice. Ele indica numai daca sa respingem sau nu H 0 la nivelul ales de significanta. Un procedeu mai bun ar incorpora dimesiunile efectelor si ale dimensiunilor esantionale in combinarea rezultatelor diferitelor teste si un rezumat global al concluziilor diferitelor studii. O meta-analiza ofera aceste lucruri. In principiu, meta-analiza calculeaza pentru fiecare analiza incorporata, o masura a dimensiunii efectelor care considera efectul variantei. Aceste dimensiuni ale efectelor ale unui numar c de teste sunt divizate/ponderate folosind suma inverselor variantelor lor (inversa variantei medii ponderate). 38

39 Aceste dimensiuni ponderate ale efectelor pot fi folosite ca o masura rezumativa a efectului general al procesului investigat. Putem sa calculam si o masura a homogenitatii (Q) pentru a testa daca toate c dimensiuni ale efectelor sunt egale. Q este suma medie a diferentelor patrate intre dimensiunile fiecarui efect si inversa variantei medii ponderate ale dimensiunilor efectelor (un fel de deviatie standard pentru dimensiunile efectelor). Q are o distributie X2 cu grade de libertate df=c-1. Meta-analiza poate fi folosita in orice situatie in care vrem sa investigam dimensiunile unui efect, iar varianta lui poate fi calculata, deci nu se restrange doar la variabilele continue. Meta-analizele insa depind de calitatea literaturii investigate. Daca lucrarile studiate nu ofera destula informatie pentru a masura dimensiunile efectului si varianta lui, atunci aceste lucrari nu pot trece de controlul calitatii. Un punct slab important al meta-analizei este problema publicarii preferentiate (engl. filedrawer problem). Adica, cercetatorii sunt inclinati spre a publica cu predilectie studiile care au produs rezultate significante din punt de vedere statistic, restul raman ascunse in sertarele (enlg. file drawer) birourilor. Deci, studiile cu rezultate nesignificante sunt subreprezentate in literatura de specialitate. O meta-analiza a lucrarilor publicate ar trebui sa includa si o analiza atenta a intrebarii referitoare la ce populatie statistica formeaza aceste studii publicate. 3.9 Critica adusa procesului de testare al ipotezelor statistice Conform argumentelor expuse de Quinn si Keough (2002), validitatea testarii significantei a fost pusa sub semnul intrebarii de unii psihologi (de ex. Cohen 1990, 1994, s.a.) si de unii biologi (de ex. Johnson 1999, s.a.). Unele dintre subiectele de debata sunt: dependenta de dimensiunile esantionale si regulile de oprirea testarii spatiul esantional relevanta datelor ramase neobservate valorile P ca masura a dovezii aduse impotriva H0 ipoteza nula formulata a priori ca falsa nivele de significanta alese arbitrar. De aceea cu timpul au aparut alternative la procedurile statisticii clasice: estimarea intervalelor si determinarea dimensiunilor efectelor (Cohen si Oakes) posibilitati (engl. likelihoods) bazate pe date observate ca si dovada in evaluarea ipotezelor alternative procedurile Bayesiene, bazate pe combinarea probabilitatilor anterioare cu functiile de posibilitate pentru a produce probabilitati posterioare. => asadar exista patru curente importante ale inferentei statistice (adica ale statisticii ca domeniu): testarea ipotezelor dupa modelul Fisherian (inceputurile statisticii clasice) testarea ipotezelor dupa modelul Neyman-Pearson (statistica clasica moderna) inferenta posibilitatilor bazate pe functii de posibilitate (Royall 1997) metodele Bayesiene. Cele patru curente ale inferentei statistice au doua puncte comune: functia de posibilitati: dovada adusa de datele observate in ceea ce priveste ipoteza este reprezentata de functia de posibilitati, care este posibilitatea de a observa datele esantionate avand in vedere ipoteza data. Proportia de posibilitati: putem avea mai multe ipoteze care sunt valabile intr-o oarecare masura (masura relativa de dovada) pentru aceleasi date esantionate. Proportia dintre masurile relative de dovada aduse in sprijinul ipotezelor competitive este numita proportia 39

40 de posibilitati. Cu alte cuvinte, poate fi vazuta ca o masura a influentei relative a dovezii aduse de datele esantionate in favoarea H1 comparata cu H2. Daca propotia de posibilitati este egala cu 1, atunci cele doua ipoteze sunt egale in termeni de dovada adusa in favoarea lor. Acesta este principiul de posibilitate (engl. likelihood principle). Unul din argumentele folosite impotriva testelor statistice de significanta este ca ele incalca principiul de posibilitate. Proportia de posibiliati a doua ipoteze competitive. Posibilitatile sunt relevante in ambele curente statistice, in cel clasic si in cel Bayesian. Proportiile de posibilitati pot fi adesea testate in cadrul metodelor statisticii clasice. Cu multe conditii indeplinite, proportia de posibilitati este distribuita conform unei distributii X 2. In analiza Bayesiana, datele observate intra in inferenta statistica prin functia de posibilitate si, daca distributia probabilitatii anterioare este non-informativa, atunci distributia probabilitatii posterioare are aceeasi forma cu cea a functiei de posibilitate (Quinn & Keough 2002). In ceea ce urmeaza prezentam pe scurt principalele subiecte de debata legate de testarea clasica a ipotezelor: dependenta de dimensiunile esantionale si regulile de oprirea testarii, spatiul esantional relevanta datelor ramase neobservate, valorile P ca masura a dovezii aduse impotriva H 0, ipoteza nula formulata a priori ca falsa, nivele de significanta alese arbitrar. a) Dependenta de dimensiunile esantionale si regulile de oprirea testarii Asta inseamna ca daca pastram tot dizainul testarii la fel si variam numai dimensiunile esantionale, dimensiuni esantionale mari pot induce rezultate statistice significante chiar si in cazul efectelor minore/neinsemnate. Deci dizainul bazat pe considerente a priori legate de puterea testului sunt cruciale. Trebuie analizat cum se schimba eroarea de Tip II (retinerea gresita a H 0) prin varierea dimensiunii esantionale. Decat sa alegem dimensiunile esantionale in mod arbitrar, alegerea noastra ar trebui sa fie bazata pe cantitatea de esantioane necesare pentru a detecta un efect statistic care indica un impact de mediu significant daca ar aparea la nivelul populatiei studiate. Subiectul legat de alegerea arbitrara a dimensiunilor esantionale este legat si de regulile de oprirea testarii. Cum ne hotaram cand sa oprim un experiment sau un program de esantionare? In testarea clasica a ipotezelor, felul in care datele sunt colectate (randomizat/aleator sau nu, si ce dimensiuni esantionale folosim) influenteaza modul in care analizam si interpretam rezultatele. Insa acest lucru nu se intrevede in proportia de posibilitati a celor doua ipoteze competitive, a caror masuri de dovada relative nu par a depinde de dimensiunile esantionale sau punctul de oprire al testarii. Conform principiului de posibilitate aceste considerente nu ar trebui sa fie relevante (Quinn & Keough 2002). b) Spatiul esantional- relevanta datelor ramase neobservate Spatiul esantional este setul de rezultate posibile ale unui experiment de lunga durata sau ale unui exercitiu de esantionare, deci reuneste toate valorile posibile ale unei variabile randomizate ale unei statistici de testare. Cu alte cuvinte, este distributia de probabilitati ale unei statistici de testare. Asa o distributie include practic si valori care nu sunt observate in colectii de esantioane din situatiile reale. Am putea spune ca valorile extreme de la capetele distributiei, care sunt folosite pentru a 40

41 delimita spatiul erorilor de sub curba distributiei (integralele erorilor), nu sunt bazate pe date observate in realitate. Deci nu putem masura cu exactitate erorile decat teoretic si din punct de vedere frecvential. Deci, dovada acelorasi date observate exprimata cu ajutorul functiei de posibilitate poate duce la concluzii diferite. Un contra-argument este ca posibilitatile nu permit masurarea probabilitatilor erorilor testelor statistice cu ajutorul distributiilor statisticii de testare. Probabilitatile frecventiale sunt de fapt functii de posibilitate care sunt interpretate cu ajutorul distributiilor statisticii de testare. Functiile de posibilitate L(data H) nu au interpretare frecventiala, chiar daca ca forma par a fi similare cu probabilitatile frecventiale (tot P(data H)). L(data H) este acelasi lucru cu P(data H) din formula inferentei Bayesiene. c) Valorile P ca masura a dovezii aduse impotriva H0 Daca plecam de la intrebarea: ce vrem sa aflam de la un test statistic, atunci cele doua curente statistice ne ofera doua raspunsuri diferite. Conform ideii expuse de Mayo (1996), testarea clasica a ipotezelor investigheaza care este probabilitatea cu care niste rezultate anume ar apare dat fiind un anume experiment (Quinn si Keough 2002). Deci, ceea ce ne informeaza testul de significanta clasic este probabilitatea de lunga durata de a obtine datele esantionate, daca H 0 este adevarata, adica P(data H0). Pe de alta parte, analiza Bayesiana este bazata pe idea ca ceea ce vrem sa aflam de fapt de la un test statistic este probabilitatea cu care H 0 este adevarata, dat fiind datele esantionate, adica P(H0 data). Aceste doua probabilitati, P(data H0) si P(H0 data) nu sunt inverse, si analizele Bayesiene care ofera o masura a P(H0 data), pot produce rezultate foarte diferite si nelegate de valorile P ale testelor de significanta. d) Ipoteza nula formulata a priori ca falsa Cohen (1990) si altii au argumentat ca testarea H 0 este superfluu (inutila) pentru ca ea este de la inceput formulata ca fiind falsa: mediile a doua populatii nu vor fi niciodata exact la fel, un anumit parametru nu va fi niciodata exact zero. Si acest lucru este adevarat mai ales in stiintele naturii in care cele mai multe H0 sunt intotdeauna false. Deci, ce rost are sa testam o ipoteza care stim de la inceput ca este falsa? Ideea este ca ar trebui sa ne uitam la H 0 ca la un complement al ipotezei de cercetare pe care vrem sa o investigam. Ipoteza nula nu ne arata decat ca am detectat un efect pe care ar trebui sa il investigam mai departe. Mai mult ipotezele nule nu trebuie sa fie numai de forma nici un efect asteptat. Ar putea fi si cazuri in care un parametru are o valoare non-zero. De ex. in monitoringul de mediu am putea compara parcelele de control cu cele de impact, si sa presupunem schimbari de-alungul timpului in diferenta control-impact. Am putea sa presupunem ca doua medii sunt diferite una de alta ca rezultat al proceselor naturale, dar si al activitatii umane, de ex.. Acest tip de investigatie este si in spiritul inferentei Bayesiene. e) Nivele de significanta alese arbitrar Nu avem de ce sa folosim pentru toate testele un nivel de significanta fixat la Mapstone (1995) ne ofera un cadru de luarea-deciziilor in care probabilitatile erorilor de Tip I si II sunt setate in functie de evaluarea costurilor pe care le implica o decizie eronata. Dupa ce am prezentat pe scurt punctele sensibile ale testarii clasice a ipotezelor, se mentioneaza ca folosirea ei in mod adecvat, adica in legatura cu ipoteze apropriate, combinata si cu alte forme de interpretare (de ex. care iau in considerare dimensiunile efectelor si intervalele de confidenta) poate 41

42 oferi un cadru de evaluare sensibil (care este capabil de a indica diferente) al ipotezelor de cercetare. Totusi, dupa cum s-a mai mentionat anterior, ar trebui sa ne gandim in permanenta la faptul ca significanta statistica nu implica in mod necesar importanta din punct de vedere biologic sau de mediu. Rezultatele statistice fara o ipoteza de cercetare relevanta din punct de vedere biologic sau de mediu nu sunt capabile de a aduce noi cunostinte in domeniu. Iar acesta este scopul cercetarii. Rezultatele statistice doar ajuta la intelegerea proceselor nu le genereaza. Numai prin planificarea studiilor statistice in asa fel incat ele sa detecteze un efect relevant din punct de vedere biologic sau de mediu putem relationa significanta biologica sau de mediu cu cea statistica (Quinn & Keough 2002) Testarea Bayesiana a ipotezelor O metodologie care reprezinta o alternativa realista la testarea clasica a ipotezelor in anumite circumstante este cea Bayesiana. In metodologia Bayesiana, parametrii populatiei sunt aleatori sau cel putin sunt declarati ca necunoscuti. Bayesienii construiesc distributii posterioare de posibilitati pentru un parametru si folosesc aceste distributii de probabilitati pentru a calcula intervale de confidenta. Ei folosesc informatii dobandite a priori (informatii anterioare) pentru a modifica distributiile posterioare de probabilitati ale parametrilor. Aceaste informatii dobandite a priori sunt exprimate in probabilitati bazate pe evaluari subiective despre starea unui parametru. Bayesienii nu evalueaza de obicei ipoteze alternative sau modele dupa principiul respins/retinut. Ei pur si simplu se pozitioneaza mai mult sau mai putin in favoarea alternativelor prezentate, folosindu-se de forma distributiei posterioare de probabilitati. Putem folosi inferenta Bayesiana pentru a afla probabilitatea unei ipoteze, de ex. H 1, de a fi adevarata dat fiind datele esantionate: Deci, putem sa facem asta cu orice H0: probabilitatea posterioara a H0 = posibilitatea de a observa datele esantionate daca H 0 adevarata probabilitatea anterioara a H0 Probabilitatea posterioara se obtine prin integrare (daca parametrul al H 0 este continuu) sau insumare (daca este discret) sub distributia posterioara de posibilitati pentru spectrul de valori specificate in H0. Putem sa prezentam dovada relativa pentru H0 si ipoteza competitiva HA sub forma de raport posterior de sanse (engl. posterior odds ratio): adica, raportul probabilitatilor posterioare ale ipotezelor competitive, dat fiind datele avute. 42

43 Raportul posterior de sanse este si produsul dintre [P(H0)/P(HA)] si factorul Bayes (B): [P(H0)/P(HA)] factorul Bayes = P(H0 data)/p(ha data) Daca P(H0)=P(HA) => B = P(H0 data)/p(ha data) Daca P(H0) P(HA) => B P(H0 data)/p(ha data), de aceea factorul Bayes este folosit mai ales in cazurile in care cele doua probabilitati anterioare sunt egale. Cand ambele ipoteze sunt simple (adica θ egaleaza o anumita valoare) factorul Bayes este si raportul de posibilitati: Si, teoretic, daca: B=L(data H0)/L(data HA) si teoretic: P(H0)=P(HA), deci in plus B = P(H0 data)/p(ha data) atunci B= L(data H0)/L(data HA)=P(H0 data)/p(ha data) => in acest caz, inferenta clasica = inferenta Bayesiana. (cele doua probabilitati anterioare se anuleaza reciproc) Totusi, cand valorile P clasice [P(data H0)] sunt comparate cu factorii Bayes sau probabilitati posterioare [P(H0 data)], diferentele pot fi notabile, chiar daca P(H0)=P(HA). Un motiv pentru acest fapt este ca valorile P sunt conditionate de spatiul esantional, care include si o suprafata sub distributie ce contine valori mult mai extreme decat cele observate. Pe de alta parte, probabilitatea posterioara Bayesiana este conditionata numai de datele observate introduse in inferenta prin functia de posibilitati. Cand una sau amandoua ipotezele sunt mai complexe, factorul Bayes ramane un raport de posibilitati, insa numitorul si numaratorul sunt determinate prin integrarea sub functiile de posibilitati pentru spectrul de valori ale parametrului specifice pentru ipoteza respectiva. Acum folosim functiile de posibilitate mai mult ca pe niste distributii de probabilitati. Pentru ipoteze complexe cu parametrii multipli aceasta integrarea poate fi complicata, si s-ar putea sa avem nevoie de metodele Monte Carlo (care vor fi explicate in cursul de statistica Bayesiana). Pentru a alege intre ipoteze, putem ori sa elaboram un cadru decizional (engl. decision framework) cu valori critice pentru raportul de sanse stabilite a priori, sau mai des intalnit, sa folosim dimensiunea/valoarea factorului Bayes ca dovada in favoarea unei ipoteze. Diferentele dintre valorile P si probabilitatile posterioare Bayesiene sunt mai severe in cazul testelor bilaterale, in care valorile P subestimeaza dovada adusa impotriva H 0, adica retine H0 cand probabilitatea posterioara sugereaza ca dovada adusa este destul de puternica pentru a respinge H 0. In ciuda acestui fapt, valorile P sunt in mare parte intr-o relatie monotona cu probabilitatile posterioare ale H0, adica valorile P mai mici implica valori mai mici ale probabilitatilor posterioare, si pentru testele unilaterale s-ar putea chiar sa existe o echivalenta intre valorile P si probabilitatile posterioare pentru distributii anterioare tolerabile. Deci, ce metodologie sa alegem: testarea clasica a ipotezelor sau metodologia Bayesiana? 43

44 Daca continutul din informatia probabilitatii anterioare poate fi luat in considerare si incorporat in dizainul experimentului/studiului, atunci Quinn si Keough (2002) recomanda utilizarea testarii clasice a ipotezelor. Deci, in experimente bine dizainate, in care puterea de a detecta o H A rezonabila (un efect) a fost considerata in mod explicit in dizainul procesului, si raportul dintre eroarea de Tip I si II a fost stabilit, putem folosi testarea clasica a ipotezelor. Pe de alta parte, metodele Bayesiene au fost folosite cu precadere in estimari si nu pentru testarea ipotezelor. Pentru ca ele pot fi folosite pentru a descrie dimensiunile efectelor, le putem folosi pentru a compara efectele estimate ale doua sau mai multe actiuni/activitati/scenarii. Deci, metodele Bayesine au fost folosite mai ales in managementul de mediu, cand administratorii sunt interesati mai mult in a sti probabilitatea unui anume rezultat sau probabilitatea diferitelor politici de a avea rezultatele dorite. A sti daca diferitele politici sunt diferite significant una fata de alta nu ne ajuta prea mult, iar calcularea probabilitatilor posterioare ale modelelor competitive ar fi mai apropriata. Experimentele unice, nereplicate ar putea face si ele subiectul analizelor Bayesiene pentru ca in acest caz interpretarea cu ajutorul frecventelor de lunga durata nu are sens, si doar probabilitatea unui singur eveniment este de interes. Capitolul 4: Explorarea grafica a datelor 4.1 Tehnici grafice de explorare a datelor Explorarea datelor implica verificarea lor pentru a descoperi valori anormale, extreme, pentru a ne asigura ca datele indeplinesc prezumtiile analizelor alese, si ocazional, de a decide ce analiza sau model sa folosim. Este esential sa efectuam verificari preliminare ale datelor din urmatoarele motive: sa ne asiguram ca avem date elocvente sa detectam erori provenite din introducerea gresita in calculator sa detectam un eventual aranjament sau trend informal in reprezentarea grafica a datelor esantionate (engl. data pattern) care s-ar putea sa nu fie detectate de analizele statistice pe care le vom folosi sa ne asiguram ca prezumtiile analizelor sunt indeplinite sa interpretam deraierile de la prezumtii sa detectam valorile anormale, adica valorile extreme (engl. outliers) => deci, scopul analizei de explorare a datelor este de a gasi si descrie aranjamente in datele esantionate. Pentru seturi mici de date, explorarea se poate face prin simpla examinare a coloanelor si liniilor tabelelor. Pentru seturi mari de date, in special pentru cele cu variabile multiple, tehnicile/metodele grafice sunt mai apropriate. Cel mai important lucru pe care vrem sa-l stim despre datele esantionate, si deci despre populatia statistica din care provin este forma distributiei. Putem sa analizam distributia de valori a unei variabile cu ajutorul curbei de densitati (engl. density distribution), in care sunt reprezentate frecventele, adica densitatile, diferitelor valori sau categorii. 44

45 Urmatoarele paragrafe prezinta pe scurt tipurile de reprezentari grafice folosite in mod uzual in explorarea datelor: histograma, dotplot-ul, boxplot-ul, scatterplot-ul, matricea de scatterplot-uri. a) Histograma Histograma grupeaza observatiile in clase definite a priori (pe axa horizontala) si frecventa acestora (pe axa verticala). Daca variabila este continua, dimensiunea (latimea) claselor va depinde de numarul de observatii. Pentru variabilele discrete, valorile lor determina de obicei clasele. Histogramele ne dezvaluie daca distributiile sunt simetrice sau asimetrice, unimodale sau multimodale. Ele sunt foarte des folosite in biometria silvica, unde avem dimensiuni esantionale mari si putem forma clase de diametre (Pelz 2005). Din pacate, histogramele nu sunt intotdeauna folositoare in biologie, in special in cea experimentala, pentru ca aici intalnim cu precadere dimensiuni esantionale mici (< 20). Un component aditional folositor este suprapunerea unei functii formale de densitate a probabilitatilor, de ex. functia distributiei normale de probabilitati, in functie de media si varianta esantionala. O alternativa este aceea de a nu specifica o distributie anume pentru datele esantionate, ci de a folosi datele esantionate pentru a genera o curba de densitate a probabilitatilor. Acest procedeu este un procedeu neparametric de estimare pentru ca nu presupune o distributie anume a variabilei pentru populatia in cauza. Acest procedeu de estimare produce curbe de densitate a probabilitatilor care pot fi simetrice, asimetrice sau multimodale, in functie de datele observate si aspectul/aranjamentul grafic al densitatilor lor. Cea mai uzuala metoda de estimare neparametrica a densitatilor este estimarea cu pasi marunti numita estimarea kernel. Pentru fiecare observatie construim o fereastra de o anumita latime, dupa principiul claselor unei histograme. Apoi se ajusteaza o functie simetrica de densitate a probabilitatilor (engl. curve/function fitting), numita kernel, la observatiile din fiecare fereastra. Ajustarea consta pe scurt in construirea unei curbe plecand de la functii matematice si ajustarea parametrilor acestor functii in asa fel incat graficul ei sa se apropie de graficul datelor esantionate. In mod normal, pentru estimarea kernel, datele se ajusteaza dupa distributia normala. Densitatea estimata pentru orice valoare a variabilei studiate este suma estimatiilor functiilor de densitate din fiecare fereastra. Estimatorii de densitate kernel sunt in zilele noastre optiuni uzuale in programele de statistica. Latimea ferestrei este numita si parametrul de netezire (engl. smoothing parameter), pentru ca ea influenteaza forma finala a functiei de densitati estimata. Daca parametrul de netezire este mic (ferestre inguste), atunci functiile de densitate au numeroase puncte maxime locale (sunt multimodale), multe din ele nascute in mod artificial daca dimensiunile esantionale sunt mici. Daca parametrul de netezire este mare (ferestre late), atunci functia de densitate va fi mai neteda, dar detalii importante, cum ar fi punctele maxime reale, s-ar putea pierde (fig. 4.2). Estimarea kernel necesita dimensiuni esantionale mari, pentru a avea destule observatii pentru kernel-ul din interiorul fiecarei ferestre si destule ferestre pentru a putea surprinde detaliile prezente in datele esantionate. Estimatorul de densitate kernel poate de asemenea si sa ne indice ce distributie parametrica mai formala ar putea fi folosita in modelare. 45

46 b) Dotplot-ul Un dotplot este un grafic pentru valorile unei singure variabile, in care fiecare observatie este reprezentata de un punct (engl. dot) sau un simbol, cu valoarea observatiei trecuta pe axa horizontala. Dotplot-urile pot fi folosite pentru datele univariate si bivariate, in ultimul caz fiind scatterplot-uri. Dotplot-urile univariate sunt foarte efective in reprezentarea unui singur esantion pentru ca asimetria si valorile neobisnuit de mari sau de mici sunt usor de detectat. 46

47 c) Boxplot-ul Boxplot-ul merge folosit cel mai bine impreuna cu un dotplot pentru a reprezenta esantioane de ca. 8 sau mai multe valori ale unei singure variabile. Boxplot-urile sunt bazate pe mediane si cuartile, deci sunt foarte rezistente la valorile extreme, care nu afecteaza forma unui boxplot prea tare. Boxplot-urile sunt formate din urmatoarele componente: medianul, pentru a identifica locatia cuartilul de 25% pentru capetele box-ului (engl. hinges) spectrul (engl. range), diferenta dintre valorile celor doua capete valorile neobisnuit de mari sau mici (engl. outliers), care sunt denotate cu * liniile, care se intind pana la valorile extreme din intervalul pornind de la capetele box-ului pana la 1.5 ori spectrul. Variabilitatea esantionului si forma lui, in special daca este simetrica sau nu, este indicata de lungimea liniilor (linii egale in stanga si dreapta => simetrica). Boxplot-urile pot fi utilizate pe post de rezumate grafice ale datelor in cadrul publicatiilor de cercetare in locul uneltelor traditionalelor (de ex. deviatia standard, medii, s.a). Ele sunt folosite mai ales cand s-au efectuat analize neparametrice, pentru care media s-ar putea sa nu fie o masura apropriata pentru a indica centrul distributiei. d) Scatterplot-ul Scatterplot-urile prezinta relatia dintre doua variabile. Ele sunt foarte informative in special cand sunt flancate de boxplot-uri pentru fiecare variabila. Nelinearitatea si valorile extreme pot fi indetificate, la fel ca si deraierile de la modelele lineare ajustate. 47

48 e) Matricea de scatterplot-uri (SPLOM) Matricea de scatterplot-uri este o extensie a scatterplot-ului pentru trei sau mai multe variabile. Fiecare panou din matrice reprezinta un scatterplot intre doua variabile si panourile de-alungul diagonalei indica informatie univariata (adica despre o singura variabila) in boxplot-uri. 4.2 Analiza grafica a prezumtiilor Analiza statistica bazata pe modele lineare (de ex. regresia, modele de analiza variantei) pune cateva conditii importante, asa-numitele prezumtii (engl. assumptions): esantionarea randomizata/aleatoare normalitatea homogenitatea variantelor linearitatea independenta Prezumtiile modelelor lineare se aplica la variabila raspuns (variabila dependenta) si la termenii de eroare ai modelului ajustat. Cateodata unele din prezumtii nu sunt critice pentru ca rezultatul analizei (estimarea sau testarea unei ipoteze) va fi la fel chiar daca ele sunt incalcate. Atunci spunem ca testele sunt robuste la incalcarea prezumtiilor respective. Alte prezumtii, pe de alta parte, sunt critice pentru ca testele statistice nu dau rezultate fiabile daca prezumtiile sunt incalcate. In continuare vom explica ce implica prezumtiile si cum pot fi ele verificate grafic. 48

49 a) Normalitatea Modelele lineare (regresia sau modelele de analiza variantei) sunt bazate pe estimarea OLS (engl. ordinary least squares). Fiabilitatea estimarilor este influentata de faptul daca variabila raspuns provine dintr-o populatie ditribuita normal. Majoritatea analizelor sunt robuste la aceasta prezumtie, in mod special daca dimensiunile esantionale sunt egale. In ciuda acestei robustete, simetria fiecarui esantion (parti aproximativ egale de o parte si de alta a mediei sau medianului) ar trebui verificata in mod grafic, de ex. cu ajutorul boxplot-urilor. Un alt mod de a evalua normalitatea este de a folosi plot-urile probabilitatilor (engl. probability plots) numite pe scurt pplots. Aceste grafice/ploturi prezinta distributia cumulativa a frecventelor datelor. Deci ele folosesc functia cumulativa a frecventelor pentru distributia normala, si nu functia de densitate a frecventelor! Functia cumulativa a frecventelor distributiei de probabilitati a unei variabile reale aleatorii Y, deci FY: R [0,1], arata probabilitatea cu care o valoare specificata a lui Y (deci, orice yi) ia o valoare egala sau mai mica decat P(yi): FY(yi)=P(Y yi). Pe cand functia de densitate ne indica o probabilitate anume pentru o valoare yi. Graficul de mai jos ne prezinta functiile cumulative ale distributiilor normale cu urmatorii parametrii: N(0,0.2), N(0,1.0), N(0,5.0), N(-2,0.5). In comparatie cu functiile de densitate ale distributiilor normale cu parametrii: N(0,1), N(0,4), N(1,4), prezentate in graficul de mai jos. 49

50 Deci, cu ajutorul distributiei cumulative a frecventelor distributiei normale prezentate in pplot-uri, putem sa evaluam normalitatea datelor esantionate. Daca datele esantionate sunt nomale, atunci ar trebui sa se asemene cat de cat cu cele din graficul de mai sus care prezinta functiile cumulative ale distributiilor normale N(0,0.2), N(0,1.0), N(0,5.0), N(-2,0.5). Asimetria si multimodalitatea se traduce printr-o linie franta, in loc de un S alungit (fig. 4.7). Quinn si Keough (2002) noteaza ca cel mai comun caz de asimetrie intalnit in datele esantionate in biologie este asimetria pozitiva (engl. positive skewness), adica populatiile cu a parte alungita spre dreapta. In biologie avem rareori cazuri de variabile care au valori sub zero (de ex. lungimi, inaltimi, greutati, etc.), de aceea distributiile variabilelor sunt de obicei trunchiate la zero, rezultand in asimetria pozitiva. Un alt motiv pentru asimetria pozitiva din datele biologice este ca adesea variabilele sunt distribuite lognornal (variabile masurate) sau Poisson (variabile numarate). Transformarile variabilelor asimetrice intr-o alta scala de masura (de ex. log, sau ridicari la putere) imbunatatesc adesea normalitatea. Pe langa distributia asimetrica, alt tip de distributie care pune proboleme este cea multimodala, care are doua sau mai multe varfuri distincte. Nu putem aduce prea multe imbunatatiri la aceasta distributie; ambele tipuri de teste (parametrice si neparametrice) nu produc rezultate fiabile in acest caz. Cea mai buna solutie ar fi sa consideram fiecare varf (engl. peak) al distributiei ca reprezentand o populatie aparte, si sa impartim analiza pe populatii luate separat. In studiile ecologice s-ar putea ivi problema aceasta cand avem diferite cohorte intr-o populatie de plante sau animale, si suntem nevoiti sa ne punem intrebari despre media si varianta primei, a celei de-a doua, etc., cohorte (Quinn & Keough 2002). Un ultim tip de distributie care ne pune probleme este cel care contine multe observatii de zero si cateva observatii de non-zero. Aceste zero-uri vor duce la formarea de varfuri in distributia noastra. Pentru aceasta situatie Quinn si Keough (2002) sugereaza ca datele reflecta doua procese diferite, cum ar fi daca o replicare anume da raspuns sau nu (zero sau nu), si nivelul de raspuns cand el apare (valorile non-zero). Am putea face doua comparatii: (i) difera probabilitatea de a da un raspuns de zero sau non-zero intre grupuri, si (ii) o comparatie a raspunsului intre grupuri, folosind numai replicatiile pentru care s-au inregistrat valori non-zero. b) Homogenitatea variantelor O alta prezumtie a modelelor parametrice lineare (regresia si modelele de analiza variantei) este homogenitatea in variante. Adica, varianta din variabila raspuns ramane aceeasi pentru valori ale 50

51 variabilei de predictie (variabila independenta) alese la orice nivel sau combinatie de niveluri (Quinn & Keough 2002). Termenul se va intelege mai bine cand vom avea de-a face cu regresia lineara, unde homogenitatea implica variante egale in variabila raspuns pentru orice valoare a variabilei de predictie. Daca variabila raspuns se stie ca este distribuita normal, atunci variante inegale se datoreaza farte probabil catorva valori neobisnuite, in special daca dimensiunile esantionale sunt mici. Rezidurile (yi-ŷi) unui model de regresie cu o variabila raspuns distribuita normal sunt distribuite uniform: yi yˆ i yi yˆ i + + f 0 0 y i y i Daca variabila raspuns are o distributie lognormala sau Poisson, inegalitatea in variante s-ar putea datora distributiei aflata la baza variabilei. Transformari care imbunatatesc normalitatea imbunatatesc de obicei si homogenitatea in variante. Exista teste formale pentru testarea homogenitatii variantelor, cum ar fi testul de raport-f inaintea unui test t sau a unei ANOVA. Dar Quinn si Keough (2002) nu recomanda folosirea acestora pentru ca ele sunt mai sensibile la non-normalitate decat testul t ulterior. Mai putin formale, dar mai folositoare sunt verificarile care includ boxplot-uri alaturate pentru analiza grupurilor multiple, analiza care permite verificarea homogenitatii spectrului esantional (adica variantei). Plot-urile rezidurilor dintre model si valorile preconizate (ca cele doua grafice de mai sus) sunt de asemenea folosite in explorarea homogenitatii datelor. d) Linearitatea relatiei dintre doua variabile Corelatia parametrica si regresia lineara sunt bazate pe relatii drepte intre variabile. Cel mai simplu mod de a verifica non-linearitatea este examinarea scatterplot-ului celor doua variabile sau ale SPLOM-ului pentru mai mult de doua variabile. Functiile de netezire (engl. smoothing functions) aplicate datelor esantionate, pot de asemenea sa dezvaluie non-linearitatea relatiei intre doua variabile (vezi mai mult despre acest subiect in cap. 5). 7 e) Independenta Aceasta prezumtie implica ca toate observatiile sa fie independente una de alta, in interiorul cat si intre grupuri, 4.3 Transformarile datelor Transformarile datelor in alte scale de masura pot fi o solutie in cazuri de non-normalitate, care daca sunt corectate, ar putea de asemenea corecta si inhomogenitatea in variante sau problemele de non51

52 linearitate. Alt motiv pentru transformarea datelor este de a reduce influenta valorilor extreme, in special daca ele se afla numai la un capat al distributiei, si pentru a atenua efectele care sunt multilicative in scala originala de masura transformandu-le in efecte aditive in noua scala de masura (reducand astfel dimensiunile interactiunilor dintre efecte). Justificarea cea mai plauzibila pentru folosirea transformarilor pentru seturile de date este ca scalele de masura originale sunt alese oricum arbitrar (Quinn & Keough 2002). Cateodata transformarile constau numai in adaugarea unei constante la toate observatiile pentru a inlatura valorile zero. Cele mai uzuale in analiza datelor sunt transformarile care modifica datele intr-un mod non-linear. Una dintre transformarile non-lineare cele mai des folosite este tranformarea logaritmica. Transformarea logaritmica este monotona (adica, ordinea valorilor ramane aceeasi si dupa transformare), si este folosita pentru a face distributiile cu asimetrie pozitiva mai simetrice. Daca o valoare constanta (c) este adaugata inaintea tranformarii log, valorile zero din setul de date original pot fi incorporate in analiza. Berry (1987) a scos in evidenta ca daca folosim valori diferite pentru constanta c, testul ANOVA poate produce rezultate diferite. De aceea el recomanda folosirea unei valori c care face distributia rezidurilor sa fie cat mai simetrica cu putinta. Pentru date cu asimetrie pozitiva putem de asemenea sa folosim transformarea radacinii patrate ( ) in mod special pentru seturi de date care au fost prelevate prin numarare (adica distribuite Poisson) si in care schimbari in varianta provoaca schimbari in medie (adica avem outliers intr-un capat al distributiei). Radacini din puterea a treia (radacina cubica), radacini din puterea a patra, etc., vor imbunatati distributii din ce in ce mai asimetrice. Transformari cu ajutorul radacinii din puterea a patra sunt uzuale in seturile de datel despre abundenta din ecologie (engl. abundence data), in care se gasesc multe zerouri si cateva valori mari. Pentru datele cu asimetrie negativa, adica daca distributia este deplasata spre stanga, putem folosi reflectarea datelor originale inainte de transformare. Reflectarea consta in crearea unei constante ulterioare (λ - lambda) prin adaugarea unei constante initiale la valoarea cea mai mare din setul dat si divizarea fiecarei observatii la λ (Quinn si Keough, 2002). Acest tip de transformare face parte din familia de transformari Box-Cox care sunt descrise prin formula: Y (λ)= (yλ-1)/λ (Crawley, 2007). Transformarile Box-Cox pot fi folosite pentru a imbunatati homogenitatea variantei si normalitatea, printr-un proces iterativ care selecteaza o valoare a λ care maximizeaza functia de posibilitate repectiva (Quinn si Keough 2002). De asemenea, pentru ca in unele cazuri nu este clar din punct de vedere teoretic care este transformarea optimala a variabilei raspuns, transformarea Box-Cox ne ofera solutia empirica la aceasta problema, si gaseste λ care maximizeaza posibilitatea ca datele observate (X, variabilele independente) sa fie ajustate la valorile variabilei raspuns (Y) (Crawley, 2007). Lambda λ poate lua valori negative si pozitive. Daca avem: λ=0 λ=0.5 λ=-1 λ=1 => avem transformarea log, => avem transformarea radacinii patrate, => avem transformarea reciproca => nu avem nici o transformare. Daca datele sunt procente sau proportii, ele iau valori intre 0% si 100%. Transformarile cu puteri ar torsiona valorile de la cele doua capete ale distributiei in mod inegal. O procedura uzuala in aceste cazuri este tranformarea unghiulara, in special transformarea arcsin. La final, trebuie sa mentionam si transformarea in ranguri a datelor, care converteste observatiile in ranguri asa cum a fost descris in cap. 3 la testele neparametrice. Acest tip de transformare este unul 52

53 extrem pentru ca ia in considerare diferenta dintre fiecare pereche de observatii din setul care este transformat (diferente relative), indiferent de valorile lor absolute (indiferent de diferentele absolute). De aceea aceasta transformare rezulata in cea mai mare pierdere de informatie dintre toate transformarile monotonice. 53

54 Remarca: Transformarile si aditivitatea Transformarile afecteaza de asemenea modul in care apreciam efectele modelelor lineare. Interpretam efectele ca si valori absolute sau in termeni relativi? Pentru a evalua efectul unui tratament pe o parcela tratata (engl. treatment plot) in comparatie cu una netratata (engl. control plot), ar trebui sa alegem interpretarea care are sens din punct de vedere biologic. Asa cum este prezentat in tabelul de mai sus, pe scala originala de valori (valorile netransformate), efectele tratamentului sunt foarte diferite daca comparam Time 1 cu Time 2 fara sa ne uitam la proportia dintre masura control/tratament. In termeni procentuali, efectele sunt de fapt egale, in ambele cazuri inregistrandu-se o injumatatire a valorilor (daca comparam proportia control/tratament pentru amandoua datile (Time 1 si Time 2). Deci, ar trebui sa concludem ca efectele tratamentului sunt la fel de ambele dati. Transformarea log a datelor pune in evidenta acest lucru. Remarca: Standardizarile Daca includem doua sau mai multe variabile intr-o analiza (de ex. regresie sau analiza multivariata), atunci convertirea tuturor variabilelor la o scala similara este adesea importanta inainte de a fi incluse in analiza (Quinn & Keough, 2002). Una din metodele de standardizare a variabilelor este centrarea unei variabile prin schimbarea ei in asa fel incat sa aiba o medie de zero. Variabilele pot fi si schimbate in asa fel incat sa se incadreze in spectrul de la zeor (minim) la unu (maxim). Tipul de transformare de mai sus este folositor in special la standardizarea datelor de abundenta (engl. abundance data) inaintea analizelor multivariate care examineaza disimilaritatile dintre unitatile de esantionare in ceea ce priveste compozitia speciilor (Quinn & Keough, 2002). 4.4 Valorile extreme Valorile extreme sau valorile anormale (engl. outliers) sunt acele valori ale variabilelor care se inregistreaza in afara spectrului uzual al acelor variabile, deci ele pot afecta in mod serios rezultatele analizelor. Exista teste formale de detectarea valorilor extreme, care presupun ca observatiile sunt distribuite normal, de ex. testul Q al lui Dixon examineaza diferenta dintre 54

55 valoarea extrema si cea mai apropiata observatie luand in considerare intreg spectrul datelor esantionate. O alta metoda de detectare este statisitca D a lui Cook, folosita in modele lineare ca regresia lineara. Statistica D indica influenta fiecarei informatii asupra analizei. Valorile extreme sunt usor de detectat cu ajutorul tehnicilor de analiza grafica prezentate la punctul 4.1 (boxplot-uri, plot-urile rezidurilor, scatterplot-urile la care sunt adaugate functii adecvate de netezire engl. smoothing functions). Dupa identificarea valorilor extreme, trebuie explorata natura/originea lor. Sunt rezultatul greselilor de dactilografiere? Sunt produse prin implementarea gresita a dizainului experimental? Tinand protocoale exacte ale experimentelor putem verifica ulterior originea valorilor extreme. Daca valorile extreme nu sunt rezultatul erorilor (sistematice sau aleatorii/randomizate), atunci ele trebuiesc incluse in analiza (Pelz 2005). Ele ar putea indica faptul ca exploram din greseala sau in acelasi timp valori care provin din doua populatii diferite. Daca nu este asa, atunci putem sa incercam transformarea datelor pentru a integra valorile extreme in distributiile experimentale. O alta optiune ar fi sa folosim tehnici care sunt mai robuste la valorile extreme cam sunt de ex. testele bazate pe ranguri. Este important sa stergem valorile extreme numai daca ele sunt rezultate din erori. Capitolul 5: Corelatia si regresia Analizele statistice care exploreaza o singura variabila se numesc univariate (de ex. daca se analizeaza numai diametrele). Datele care contin doua variabile inregistrate pentru fiecare unitate esantionata sunt denumite bivariate (de ex. daca se analizeaza diametrele si inaltimile), pe cand cele care contin mai mult de doua variabile randomizate sunt denumite multivariate. Seturile de date bisi multivariate sunt folosite pentru a descrie relatiile intre doua si mai multe variabile continue, si pentru a folosi relatia dintre ele pentru prognosticari. 5.1 Analiza corelatiei Putem sa descriem intensitatea (engl. strength) relatiei statistice dintre doua variabile aleatoare/randomizate folosind corelatia. Sa consideram doua variabile continue Y 1 si Y2 ce caracterizeaza o populatie biologica, ce pot lua valorile yi1 si yi2 (i este folosit pentru denotarea fiecarei perechi de observatii esantionate). In acest fel se formeaza o populatie statistica comuna, populatia lui (Y1 & Y2). Deci avem si o distributie comuna a celor doua variabile, o asa-numita distributie bivariata, cu Y1, Y2 si f((y1 & Y2) pe axele x, y si z. Pentru ca doua variabile sa fie corelate, distributia lor bivariata este considerata ca fiind distribuita normal (vezi fig. 5.1), deci analiza corelatiei este o analiza parametrica. Daca distributia bivariata este distribuita normal, atunci relatia dintre cele doua variabile este una lineara. 55

56 Distributia bivariata normala este definita prin media si deviatia standard a fiecarei variabile, covarianta populatiei si coeficientul de corelatie al populatiei (μ1, μ2, σy1, σy2, σy1y2, ρy1y2). Deci, trebuie sa nu uitam de faptul ca fiecare dintre cele doua variabile isi pastreaza in continuare varianta ei proprie, deci varianta comuna, asa-numita covarianta σy1y2 (suma produselor celor i deviatii de la mediile ponderate cu gradele de libertate df) nu este acelasi lucru cu produsul celor doua variante luate separat (adica produsul dintre cele doua sume patrate ale celor i deviatii de la mediile ponderate cu gradele de libertate df) (Giurgiu 1972). Proportia dintre cele doua masuri reprezinta coeficientul de corelatie al populatiei ρ Y1Y2. In acest fel eliminam gradele de libertate din ecuatie (Quinn & Keough, 2002). Covarianta populatiei σy1y2 si estimatorul sy1y2 ei au spectrul de la - la +, in functie de gradele de libertate df. Pe de alta parte, coeficientul de corelatie al populatiei ρ Y1Y2 si estimatorul lui, coeficientul de corelatie esantional ry1y2, ajunge de la +1 la -1, fiind independent de df (adica, fiind standardizat). Numim ry1y2 coeficientul de corelatie Pearson, cu -1 si +1 indicand o corelatie stransa (perechile de observatii ale celor doua variabile sunt asezate de-alungul unei linii) si cu 0 indicand lipsa unei corelatii. Coeficientul de corelatie esantional r Y1Y2 este o statistica esantionala, deci are propria lui distributie esantionala (distributia de probabilitati a r Y1Y2 bazata pe esantionare repetata). Cand ry1y2 este egal cu ±1, cea mai stransa corelatie, distributia lui r Y1Y2 ar trebui sa se apropie de cea normala. In acest caz deviatia standard esantionala poate fi calculata. Pentru corelatii mai putin stranse distributia lui ry1y2 este asimetrica, iar deviatia standard esantionala nu poate fi determinata cu usurinta (Quinn si Keough 2002). Intervale de confidenta aproximate pot fi calculate folosind una dintre versiunile transformarii lui Fisher care converteste distributia lui ry1y2 intr-una aproximativ normala (vezi Sokal & Rohlf 1995). Exemple cu diagrame pentru diferite valori ale coeficientului de corelatie (ρy1y2): 56

57 Relatiile nonlineare intre doua variabile ne indica ca nu avem de-a face cu o distributie bivariata normala si trebuie sa folosim alte proceduri care nu pun aceasta conditie pentru a cuantifica intensitatea acestor relatii. Ipoteze de testare pentru ρy1y2 In mod traditional, cea mai uzuala H0 folosita pentru testarea statistica a corelatiei intre doua variabile randomizate este (Sokal & Rohlf 2012): H0: ρ=0, care este testata cu urmatoarea statistica t de testare cu (n-2) df: Totusi, daca ne gandim ca prezumtia teoretica a corelatiei ca cele doua variabile randomizate Y 1 si Y2 sunt distribuite normal si f(y 1&Y2) este distribuita normal in cazul de cea mai stransa corelatie, adica in cazul in care ρ=±1, atunci ar trebui sa testam de fapt urmatoarea ipoteza nula: H0: ρ= ±1, care ar trebui sa fie testata folosind statistica t de testare prezentata mai sus. Pentru distributii ry1y2 care nu sunt distribuite normal si pentru a testa daca doi coeficienti de corelatie sunt egali putem folosi teste bazate pe transformarea z a lui Fisher (Quinn & Keough 2002). Prezumtiile corelatiei Corelatia presupune, pe langa esantionarea randomizata si independenta observatiilor si urmatoarele: cele doua variabile Y1 si Y2 sunt independente. O corelatie stransa nu indica neaparat o relatie cauzala intre cele doua variabile. Corelatia poate apare pentru ca alti factori decat efectul unei variabile asupra celeilalte variabile influenteaza simultan valorile celor doua variabile corelate. Detectarea unei corelatii intre cele doua variabile este primul pas in identificarea exacta a naturii relatiei dintre cele doua variabile. Numai in cercetari ulterioare stabilirii unei corelatii se pot detecta causalitatile in jurul fenomenelor studiate (Giurgiu 1972, p. 227). distributia comuna de probabilitati a variabilelor Y 1 si Y2 este bivariata normala. Aceasta prezumtie impune linearitatea lui f(y1 & Y2). Aceasta prezumtie nu este indeplinita neaparat chiar si pentru cazul in care cele doua variabile sunt distribuite normal. Relatii nonlineare pot aparea chiar daca cele doua variabile sunt distribuite normal. De aceea trebuie sa tinem minte ca coeficientul de corelatie Pearson masoara intensitatea unei relatii lineare dintre doua variabile, deci verificari ale nonlinearitatii si asimetriei cu ajutorul scatterplot-urilor si boxplot-urilor (fig. 5.3) sunt importante (Quinn & Keough 2002). Daca prezumtia de normalitate bivariata este suspecta (din cauza distributiei non-normale a unei dintre variabile sau/si relatie non-lineara intre cele doua variabile), putem folosi urmatoarele proceduri: (i) transformarile pot ajuta la normalizarea distributiilor variabilelor, sau (ii) masuri mai robuste ale corelatiei care nu presupun normalitate bivariata, deci nu presupun relatii lineare. 57

58 5.2 Corelatia robusta Daca detectam ca f(y1 & Y2) nu este linear, atunci putem folosi analizele de corelatie nonparametrice care detecteaza relatiile monotone dintre doua variabile. Este de remarcat ca nu toate asociatiile nonlineare ale variabilelor sunt detectate, ci doar cele monotone (Quinn & Keough 2002). Exemple de monotonie: a. functie monoton crescanda, b. functie monoton descrescanda, c. functie nemonotona. a. b. c. Dupa cum se observa in graficul de mai sus, o functie monoton crescanda este caracterizata de faptul ca pentru fiecare valoare x mai mica avem intotdeauna o valoare y mai mica (Papula 2011): x1<x2 => f(x1)<f(x2) => y1<y2 (monoton crescanda). Analog, o functie monoton descrescanda este caracterizata de faptul ca pentru orice x mai mic intotdeauna avem un y mai mare: x1<x2 => f(x1)>f(x2) => y1>y2 (monoton descrescanda). Deci, corelatia robusta (corelatia neparametrica) este folosita pentru a detecta relatii monotone intre variabile, adica daca o variabila numai creste cand cealalta numai creste, sau numai scade cand cealalta numai creste, dar nu neaparat intr-o maniera lineara. 58

59 O procedura neparametrica generala este sa transformi valorile celor doua variabile in ranguri si sa examinezi relatia dintre ele. Coeficientul de corelatie pentru ranguri a lui Spearman (r s) este coeficientul de corelatie Pearson dupa transformarea separata a celor doua variabile in ranguri cu pastrarea perechiilor (yi1, yi2) dupa transformare. O masura alternativa este coeficientul de corelatie pentru ranguri a lui Kendall (τ), care se numeste si tau-ul (τ) lui Kendall. Pentru un anumit set de date, coeficientul lui Spearman rs este cu ceva mai mare decat τ (Quinn & Keough 2002). Regiuni de confidenta parametrice si neparametrice Cand reprezentam o relatie bivariata cu un scatterplot, este de multe ori necesar sa includem in grafic si regiunile de confidenta (fig. 5.4). Regiunea de confidenta de, spre exemplu, 95% este regiunea in care ne asteptam ca observatia care reprezinta media celor doua variabile sa apara in 95 din 100 de ori in conditii de esantionare repetata pentru aceeasi populatie. Presupunand ca cele doua variabile sunt distribuite bivariat normal, banda de confidenta o sa fie intotdeauna o elipsa centrata in jurul mediilor esantionale ale lui Y1 si Y2, iar orientarea elipsei este determinata de covarianta. Axele principale ale elipsei (latimea si lungimea) sunt determinate de variantele lui Y 1 si Y2. Aceste axe sunt folosite si in cadrul unor forme de analiza a regresiei si proceduri care cu date multivariate cum ar fi analiza componentelor principale (Quinn & Keough 2002). Este de remarcat ca daca relatia lineara dintre cele doua variabile este slaba, atunci marginea elipsei se poate chiar sa depaseasca spectrul teoretic si esantionat al datelor noastre, si sa includa valori imposibile pentru acele variabile, cum sunt de ex. cele negative pentru variabilele din fig De aceea s-ar putea ca in unele cazuri sa nu ne intereseze regiunile de confidenta parametrice, bazate pe estimari ale mediilor, ci sa folosim estimatorii de densitate kernel, care determina regiuni de confidenta neparametrice. Pentru o relatie bivariata, estimatorii de densitate kernel determina contururile care imprejmuiesc regiuni de densitate bivariata ridicata. Contururile sunt determinate prin insumarea unei serii de distributii bivariate simetrice ajustate la grupuri de observatii locale pereche. Estimatorii de densitate kernel nu sunt constransi de respectarea unei forme elipsoide si reprezinta deseori mai bine aranjamentul de densitate al datelor (Quinn & Keough 2002). 5.3 Modelele lineare Am vazut mai sus ca analiza corelatiei indica numai existenta unei relatii intre doua variabile. La inceputul investigatiei se presupune mai intai ca ele sunt independente una de alta (Giurgiu 1972). 59

60 Pentru a testa daca exista o dependenta lineara intre cele doua variabile, trebuie sa ne imaginam, pe baza aranjamentului grafic al datelor esantionate (deci, cu ajutorul metodelor de analiza grafica), felul in care o variabila ar putea influenta-o pe cealalta. Incepem prin a presupune ca exista o relatie biofizica intre variabile (Quinn & Keough 2002, Giurgiu 1972). Aceasta relatie biofizica este capturata de catre cercetatori cu ajutorul unei functii biofizice (Papula 2011, p. 190), adica cu ajutorul unei functii teoretice care descrie in mare relatiile biofizice dintre diferitii parametrii care determina procesul biofizic capturat/descris. Pentru a fi investigat, functia biofizica teoretica (modelul plin al relatiilor biofizice din jurul fenomenului/procesului biofizic investigat) poate fi impartita pana la un anumit grad in mai multe componente (subseturi ale modelului plin), care pot fi descrise cu ajutorul functiilor polinomiale (Papula 2011 p. 190). Functiile polinomiale sunt combinatii lineare de parametrii, in care, conform Netter et al. (1996), nici un parametru nu apare ca exponent sau nu este multiplicat sau divizat cu alt parametru (Quinn & Keough 2002, p. 77). In statistica, combinatiile lineare de parametrii sunt numite modele lineare. Putem avea n parametrii, in care n este numar natural (nϵn), deci modelele lineare (sinonim: combinatii lineare de parametrii, functii polinomiale) se formeaza dupa formula generala: f(x)=anxn+an-1xn a1x1+a0 unde: xϵr, nϵn, an 0. Cum am aratat mai sus, modelele lineare explica aranjamentul grafic al unei variabile (variabila dependenta) cu ajutorul altei variabile (variabila independenta sau de prognoza). Cum nϵn, putem avea tot felul de functii polinomiale ca si modele lineare: y=c y=a1x+a0 y=a2x2+a1x1+a0 y=a3x3+ a2x2+a1x1+a0 etc... (functia constanta) (functia simpla sau lineara) (functia patrata) (functia cubica) etc... Pentru ca modelul plin (functia biofizica) poate fi impartit, deci explicat, numai pana la un anumit grad cu ajutorul unui sau mai multor modele lineare de subset (una sau mai multe functii polinomiale), vom avea intotdeauna un rest nexplicat. Acest fapt este cauzat de complexitatea proceselor biofizice, in special la scala larga cum este cea de peisaj, complexitate pe care nu reusim sa o intelegem pe deplin (Giurgiu 1972). In consecinta aceste modele vor avea urmatoarea forma generala: model plin= i modele subset + rest (eroare) model subset= model + eroarea de subset eroarea totala de model= restul + suma celor i erori de subset Chiar daca suntem constienti de toate tipurile de erori, tot nu suntem in masura sa cream un model corect in sensul absolut al cuvantului. Aceasta este urmarea faptului ca s-ar putea sa nu fi ales toti parametrii care sunt de relevanta sau sa nu fi considerat combinatii de parametrii care influenteaza variabila raspuns (Quinn & Keough 2002). Tot ceea ce pot face modelele lineare este sa ne ajute sa comparam modelele imaginate de noi si sa vedem care dintre ele se potriveste cel mai bine la datele esantionate, asa incat sa fim in pozitia sa testam ipoteze despre parametrii inclusi in acel model (Quinn & Keough 2002). 60

61 Modele lineare generale si modele lineare generalizate Scopul nostru principal este sa schimbam/adaptam modelul pana es potriveste bine la datele noastre. Aceasta ajustare este in principiu o procedura de estimare ce poate fi facuta cu ajutorul celor mai mici patrate (OLS) sau a posibilitatii maxime (ML) (Quinn & Keough 2002). Daca presupunem ca erorile de Tip I ale estimarilor de interval si ale testarilor de ipoteze sunt distribuite normal, putem folosi pentru modelul nostru metoda celor mai mici patrate (OLS). Modelele bazate pe estimari OLS sunt denumite modele lineare generale (engl. general linear models). Termenul de general se refera la faptul ca ambele tipuri de prognoze, cele continue si cele categorice, sunt posibile. Daca erorile modelului sunt distribuite altfel decat normal, in special cand este o relatie intre varianta si medie, atunci se foloseste ML pentru estimari. Aceste modele sunt numite modele lineare generalizate (engl. generalized linear models GLMs), generalizate insemnand ca alte distributii decat cea normala si relatii intre varianta si medie pot fi acceptate/tolerate (Quinn & Keough 2002). 5.4 Regresia lineara simpla (bivariata) Analiza de regresia lineara simpla (bivariata) a relatiei dintre doua variabile continue (o variabila raspuns Y si o variabila de prognoza X) are trei mari scopuri (Quinn & Keough 2002): sa descrie relatia lineara dintre Y si X, sa determine cat din variatia (deviatia de la linia regresiei) lui Y poate fi explicata prin relatia lineara cu X si cat din aceasta variatie ramane neexplicata de modelul regresiei simple, de a prognoza valori noi ale lui Y din valori noi ale lui X Modelul de regresie lineara simpla Am vazut mai sus ca in matematica functia polinomiala lineara simpla are forma generala urmatoare: y=a0 +a1x => doua variabile pentru care, y=f(x). Relatia dintre cele doua variabile este descrisa de o linie dreapta. Panta (engl. slope) este a1. Punctul de intersectie (engl. intercept) cu axa y este a0. Acum sa consideram un set de la i=1 la n observatii in care fiecare observatie a fost selectata pentru valoarea ei X specifica, adica valorile lui X sunt fixate de catre investigator, deci sunt fixe, iar valorile lui Y pentru aceste valori X selectate sunt libere sa varieze, adica sunt esantionate dintr-o populatie de valori Y posibile (yi). Modelul de regresie lineara simpla foloseste conceptul functiei polinomiale simple adaptata la conditiile statistice (esantionare repetata si variatia neexplicata asociata cu observatia i) si este numita ecuatia de regresie lineara, care este: yi=ß0+ß1xi+ɛi unde, 61 yi este valoarea lui Y pentru observatia i cand variabila de prognoza are valoarea X=xi, ß0 este intersectarea cu axa y, valoarea medie a distributiei de probabilitati a Y cand xi=0, ß1 este panta populatiei si masura de schimbare in Y pentru o unitate de schimbare in X, ɛi este eroarea aleatoare/randomizata neexplicata a modelului asociata cu observatia i.

62 Ca si in cazul corelatiei avem o populatie statistica comuna (engl. joint statistical population), populatia lui (Y&X). Despre aceasta populatie este vorba cand vorbim de ß 1 ca fiind panta populatiei, pentru ca ecuatia de regresie simpla descrie populatia statistica a lui (Y&X). Din cauza ca ecuatia contine ɛi (eroarea aleatoare neexplicata), obtinem in conditii de esantionare repetata o distributie de probabilitati a valorilor lui Y in jurul unei valori asteptate a lui Y, μ yi (adica media valorii Y pentru observatia i) pentru fiecare valoare xi aleasa a lui X (vezi fig. 5.5). Deci pentru μ yi avem: μyi= ß0+ß1xi (adica nu avem eroare in ecuatie) si deci putem reexprima modelul de regresie linear pentru fiecare xi ca fiind si: yi=μyi+ɛi => ɛi =yi-μyi deci, pentru fiecare xi avem o eroare ɛi care masoara diferenta dintre fiecare yi observat si media lui yi (μyi), prognozata de modelul de regresie al populatiei. Pentru ca niciodata nu stim cu exactitate ɛ i, presupunem ca pentru fiecare xi obtinem o populatie de valori ɛi distribuite normal. Aceasta prezumtie este bazata pe faptul ca, in conditii de esantionare repetata, valorile ɛi sunt conectate cu valorile yi obtinute pentru fiecare xi iar acestea din urma sunt distribuite normal. Pentru μyi (cand yi este egal cu μyi) avem o eroare ɛi de zero. Varianta ɛi este aceeasi pentru toate valorile xi pentru ca varianta yi este de asemenea aceeasi pentru toate valorile x i (homogenitatea variantelor), deci varianta valorilor ɛ i si cea a valorilor yi sunt egale. Varianta lor comuna este denotata cu σ2ε. Pentru ca numai valorile lui Y sunt aleatoare (nu sunt fixe ca cele ale X), putem spune ca fiecare yi este independent de alte valori y i obtinute pentru o valoare xi anume/specificata, deci fiecare ɛi este independent de alte valori ɛi obtinute pentru o valoare xi anume/specificata. Normalitatea, homogenitatea in variante si independenta sunt transmise mai departe de la valorile yi obtinute pentru fiecare xi si la valorie ɛi obtinute pentru fiecare xi. Daca schimbam perspectiva si trecem de la nivelul unei populatii la nivelul unui esantion folosit la estimarea parametrilor populatiei, modelul de regresie al populatiei devine ecuatia esantionala a regresiei (fara litere grecesti!), care este urmatoarea (Quinn & Keough 2002): ŷi=b0+b1xi in care, ŷi este valoarea Y prognozata pentru un xi; estimeaza media populatiei μyi, b0 este punctul de intersectie esantional care estimeaza ß0, b1 este panta esantionala a regresiei care estimeaza ß1. 62

63 5.4.2 Estimarea parametrilor modelului Scopul principal al analizei de regresie este de a estima parametrii inclusi in modelul linear de regresie (ß0, ß1, si εi) in baza observatiilor esantionate cu valori X fixe si valori Y aleatoare/randomizate. Pentru a estima ß0 si ß1 cu ajutorul metodei celor mai mici patrate (OLS) producem o dreapta esantionala de regresie (ŷi=b0+b1xi) care minimizeaza Σ(yi-ŷi)2. Aceasta este suma deviatiilor la patrat (engl. sum-of-squares) intre fiecare yi observat si valoarea yi prognozata de dreapta esantionala de regresie pentru fiecare x i. Aceasta este suma distantelor verticale patrate intre dintre fiecare observatie si dreapta de regresie ajustata (fig. 5.6). Valorile lui b0 si b1 sunt gasite prin metode de calcul care duc la derivarea a doua noi ecuatii, denumite ecuatii normale, care sunt rezolvate simultan pentru b0 si b1. Derivarea parametrilor de regresie cu ajutorul OLS poate fi gasita in Neter el al (Quinn & Keough 2002). Tabelul 5.2 insumeaza estimarile modelului linear de regresie. 63

64 Panta estimata (b1) a modelului linear de regresie derivata prin rezolvarea ecuatiilor normale este covarianta dintre Y si X divizata cu suma patratelor lui X (vezi tabelul 5.2). Relatia matematica stransa dintre regresia lineara si corelatia bivariata (b 1 are covarianta in formula) face posibila exprimarea lui b1 si ca fiind: unde, r este coeficientul de corelatie dintre Y si X, sy si sx sunt deviatiile standard esantionale ale Y si X. Sa notam ca b1 depinde de unitatile de masura ale lui Y si X, deci este dificil sa comparam pantele de regresie estimate pentru diferite seturi de date (Quinn & Keough 2002, p. 86). Deci, este practic sa folosim o panta de regresie standardizata b 1*, denumita coeficientul beta, care este independenta de unitatile lui Y si X: Panta de regresie standardizata este deci panta de regresie estimata multiplicata cu raportul dintre deviatia standard a lui X si Y, deci este coeficientul de corelatie dintre Y si X, adica r. Valoarea lui b1* ne ofera o estimare a pantei modelului de regresie care este folositoare in compararea pantelor diferitelor seturi de date. Daca folosim valori standardizate pentru Y si X (media de zero, deviatia standard de unu), nu vom avea un punct de intersectare cu axa y, pentru ca dreapta de regresie trece prin origine (Quinn & Keough 2002). Pantele de regresie standardizate sunt produse de cele mai multe programe statistice. Punctul de intersectare (b0) este exprimat trece prin punctele ce contin in coordinate folosind caracteristica dreptei de regresie de a (vezi fig. 5.6). Intervale de confidenta pentru β1 si β0 (intervale de confidenta=t*eroarea standard a statisticii esantionale) Avand estimatiile de punct (b1 si b0) pentru ambele, panta populatiei si punctul de intersectare al populatiei (β1 si β0), putem sa determinam intervalele de confidenta pentru aceste statistici esantionale, stiind eroarea standard a b1 si b0 a esantionului (vezi tab. 5.2) folosindu-ne de distributia t. Limitele pentru intervalul de confidenta de 95% sunt urmatoarele: pentru β1: limita de jos L1=b1-t0.05,n-2*sb1 limita de sus L2=b1+t0.05,n-2*sb1 pentru β0: limita de jos L1=bo-t0.05,n-2*sb0 limita de sus L2=b0+t0.05,n-2*sb0 Interpretarea frecventiala a intervalului de confidenta de 95% este ca in conditii de esantionare 64

65 repetata, ne asteptam ca 95% din aceste intervale sa contina adevarata panta si adevaratul punct de intersectare al modelului nostru de regresie, care sunt fixe dar necunoscute Valorile prognozate si reziduurile Pentru a estima eroarea intamplatoare/randomizata εi, trebuie sa retinem ca avem o distributie de probabilitati pentru populatia de valori yi pentru fiecare valoare xi, deci, εi este estimat cu ajutorul mediei acelei populatii, mai precis cu ajutorul ŷi ca si estimatie pentru media μyi. Diferenta dintre fiecare valoare Y preconizata, adica ŷi, si cea observata yi este numita reziduu (ei). Reziduu ei este estimarea OLS a erorii randomizate εi. ei=yi- ŷi Tocmai am introdus mai sus o a treia populatie statistica, populatia de erori randomizate εi, cu reziduul esantional ei ca si estimator. Varianta esantionala a acestor reziduri este denumita Patratul Mediu Rezidual (engl. Residual Mean Square MSResidual). MSResidual este estimatorul variantei populatiei εi, deci a σ2ε. Ca si orice varianta, MS Residual este suma patratelor divizata cu gradele de libertate df=(n-2). Suma patratelor (SSResidual) este cantitatea pe care OLS o minimizeaza cand se determina estimatiile pentru parametrii modelului de regresie. Cand ŷi=yi, atunci, ei=0, deci media erorilor ei pentru acea valoare xi este egala cu 0. Acest lucru se datoreaza faptului ca distributia normala lui P(yi) si distributia lui P(ei) a valorilor yi pentru o valoare X anume (xi), sunt conectate una cu alta. Ambele distributii sunt normale, ambele au aceeasi varianta si ambele au media la aceeasi valoare a lui Y. Putem vedea grafic ca suma rezidurilor este zero, pentru ca distributia de probabilitati a lui e i pentru o anume valoare X este simetrica si suma erorilor ei cu semn negativ egaleaza suma erorilor ei cu semn pozitiv pentru o valoare xi anume, dat fiind ca ei=0 este media distributiei normale P(ei) (vezi graficul urmator). Distributia de probabilitati a valorilor Y pentru o valoare X si distributia corespunzatoare superimpozata a valorilor ei: P(yi) for one xi value xi P(ei) for one xi value 65 yi for one xi value the sample regression line

66 Eroarea standard si valorile Y prognozate Prognozarea cu ajutorul ecuatiei de regresie cu parametrii estimati prin metoda OLS se face prin simpla atribuire a unei valori xi in modelul de regresie cu parametrii ajustati. Apoi se calculeaza valoarea Y, care este valoarea Y prognozata de model. Este bine sa ne ferim sa extrapolam cand facem prognoze, adica sa nu prognozanm pe baza valorilor X din afara spectrului datelor noastre (Quinn & Keough 2002, p. 87). Am vazut mai sus ca valorile Y ale unei valori X au o distributie esantionala care este normala. De aceea prezentam imediat mai jos ecuatia pentru eroarea standard a unei valori Y prognozate, pentru cazul in care programul statistic nu folosit nu o are (Quinn & Keough 2002): Daca am calculat eroarea standard putem calcula intevale de confidenta (cu distributia t si df=n-2) pentru valoarea Y prognozata, valoare care este considerata estimatia mediei adevarate a valorilor yi pentru valoarea X introdusa in ecuatia regresiei (xp - valoarea X folosita in prognozare) Analiza variatiei O componenta fundamentala a analizei cu ajutorul modelelor lineare este explicarea surselor de variatie din jurul modelului. In mod traditional, se considera ca analiza regresiei are doua surse de variatie: variatia explicata de model si variatia reziduala (vezi fig. 5.7). 66

67 Insa, cand analizam variatia din jurul unui model de regresie lineara, ar trebui sa ne uitam la media valorilor lui Y pentru o valoare X data, si nu la media dreptei de regresie pentru intregul set de date. Trebuie sa ne uitam la fig. 5.5 care prezinta distributia normala a valorilor Y pentru mai multe valori X pentru a intelege acest lucru. Deci, o sa analizam variatia legata de un model de regresie lineara dupa cum urmeaza: la nivelul fiecarei valori X (variatia reziduala), pentru a explora normalitatea erorii randomizate neexplicata de model pentru fiecare valoare X si apoi sa agregam suma a n e i la ei, si intre valori X diferite (variatia variantelor), pentru a explora homogenitatea variantelor dintre diferitele distributii ei. Deci, modelul ideal de regresie lineara ar trebui sa aranjeze valorile Y corespunzatoare valorilor X date in asa maniera incat sa formeze un val uniform de distributii normale y i centrat in jurul dreptei regresiei (Sokal & Rohlf 2012, p. 476). Pentru ca distributiile e i sunt conectate cu distributiile yi, modelul ideal de val uniform se aplica si pentru distributiile normale ale ei. Variatia la nivelul fiecarei valori X Avem diferenta dintre yi observat si ŷi prognozat, care este asa-numitul reziduu ei, care genereaza variatia neexplicata de model, variatia reziduala. In mod traditional se presupune ca a doua sursa de variatie in Y este pozitia yi fata de media valorilor lui Y, adica ӯ. Aceasta diferenta reprezinta variatia regresiei, sau variatia explicata de model. De fapt exista numai o singura sursa de variatie la nivelul fiecarei valori X prezenta in modelele de regresie lineara, si anume cea randomizata, reziduala. Ea este cea care genereaza distributiile normale ale valorilor y i pentru o valoare X in conditii de esantionare repetata. Cel putin pentru analiza calitatii ajustarii (engl. goodness-of-fit analysis), doar MSResidual joaca un rol. Graficul care arata legatura dintre ei si ӯi pentru o singura valoare X, ne arata ca in caz ideal cand yi= ŷi => atunci,yi= ŷi =ӯi. In acest caz ei=0. Daca ne miscam de-a lungul distributiei de probabilitati a e i si yi putem vedea ca ei creste cand ne indepartam de ӯi (adica de punctul ei=0). De fapt pentru calitatea ajustarii dreptei de regresie nu este relevant, daca ea este orizontala cu axa x sau nu. Doar segmentul dintre yi si ӯi este important, iar acest segment este de fapt valoarea ei. Deci, ar trebui mai degraba sa exploram normalitatea fiecarei distributii e i pentru a vedea daca erorile ei sunt aleatoare/randomizate pentru orice valoare X, deci pentru a vedea daca este vorba de variatie naturala. Daca gasim alte distributii, atunci ar trebui sa reconsideram numarul variabilelor, si sa trecem la regresia multipla, pentru a imparti variatia naturala intre mai multe variabile. Variatia dintre distributiile yi (si deci si ei) ale diferitelor valori X Problema este ca nu stim daca varianta estimata a valorilor lui Y pentru o valoare X este aceeasi pentru toate valorile lui X. Variatia variantelor valorilor lui Y pentru diferite valori X reprezinta a doua sursa a variatiei in analiza regresiei lineare. Deci ar trebui sa exploram homogenitatea variantelor pentru a vedea daca modelul regresiei se potriveste cu aranjamentul grafic real al datelor noastre Ipotezele nule ale regresiei Ipoteza nula testata in mod uzual in regresia lineara este cea conform careia β1=0, deci termenul β1*x al modelului de regresie dispare si nu mai putem avea o relatie lineara intre Y si X. Dar, chiar 67

68 daca avem o functie constanta de forma y= β0 + 0*x, tot avem o linie de regresie (deci o relatie intre Y si X) (Giurgiu 1972). Vom avea o dreapta horizontala cu axa x. Pentru toate valorile X ale unei populatii trecem un y= β0, care genereaza o singura populatie de valori yi, datorata erorii randomizate ei. Deci daca β1=0 nu inseamna neaparat ca suma patratelor n-ar exista, ci doar ca panta regresiei este zero. Pentru ca panta sa fie zero, coeficientul de corelatie trebuie sa fie zero, asta conform formulei: iar asa ceva ar exclude o relatie lineara intre Y si X, doar in sensul ca cele doua variabile nu sunt corelate una cu alta. De fapt noi repetam testul corelatiei si pentru regresie. Din cauza ca o regresie implica intotdeauna si o corelatie, nu ne putem baza pe una pentru a o conclude pe cealalta. De fapt ar trebui sa testam daca εi (suma celor n sume ale erorilor neexplicate e i) egaleaza 0. Pentru ca stim ca suma rezidurilor trebuie sa fie zero, daca este vorba de o regresie. Deci, o H0 a regresiei ar putea fi si: εi=0 Putem folosi testul t pentru fiecare distributie e i, ca in cazul testarii mediei esantionale egala cu zero. Apoi sa vedem procentul de distributii care trec testul. Cu cat procentul este mai mare cu atat mai bine. De aici putem deduce puterea explicativa a modelului de regresie. Ar trebui sa testam si egalitatea variantelor intre diferitele distributii ale valorilor X date. Am putea folosi un gen de test multiplu, cu opriri de testare daca observam o diferenta semnificativa intre variante. O eventuala problema ar putea fi eroarea familiala de Tip I. Cu cat avem mai putine opriri de testare cu atat mai bun este modelul de regresie. Ar trebui sa ne gandim si la prezenta valorilor extreme. Cat de des apar? Apar intotdeauna in mod sistematic sau sunt genul de erori singulare. Daca apar sistematic si cauzeaza inhomogenitate in variante atunci modelul nostru nu este corect. Daca sunt o prezenta singulara (apar o singura data), atunci ele pot fi ignorate in estimarea parametrilor modelului de regresie. Putem de asemenea sa folosim doua modele, unul pentru spectrul care include marea masa de observatii (ale valorilor X) si unul care ia in considerare valorile X pentru care apar valorile extreme (daca ele apar in dreapta sau in stanga spectrului de valori X integrate in primul model). Daca vrem sa comparam doua modele de regresie simpla, ar trebui sa ne uitam la cat de bine sunt acoperite datele esantionate de catre cele doua modele, adica la cat de bine sunt ajustate modelele Prezumtiile analizei de regresie Prezumtiile analizei de regresie (normalitatea, homogenitatea variantelor si independenta observatiilor) nu sunt importante doar pentru evaluarea relatiei dintre cele doua variabile (testarea ipotezelor cu referire la relatia dintre Y si X), dar si pentru determinarea fiabila a intervalelor de confidenta ai parametrilor modelului de regresie. Datorita legaturii cu valorile y i, rezidurile modelului ajustat sunt importante pentru a verifica daca prezumtiile analizei de regresie lineara sunt indeplinite. Rezidurile ne indica cat de departe este orice observatie de dreapta de regresie ajustata cu ajutorul metodei OLS, in spatiul variabilei Y. Observatiile cu reziduri mari se afla mai departe de 68

69 dreapta de regresie decat cele cu reziduri mici. De aceea, aranjamentele rezidurilor (plot-urile rezidurilor) pot fi folosite pentru a verifica prezumtiile si influenta pe care orice observatie o are asupra estimarii parametrilor modelului, adica in ajustarea lui la datele esantionate (Quinn & Keough 2002). Normalitatea Normalitatea populatiilor yi si ei ale variabilei raspuns Y a fost subliniata de-alungul acestui capitol. Normalitatea este importanta pentru ca este asociata cu homogenitatea variantelor. Daca avem distributii yi asimetrice suntem de obicei confruntati si cu inhomogenitatea in variante si nonlinearitatea relatiilor dintre variabile. Putem sa analizam grafic normalitatea rezidurilor si sa concludem despre normalitatea valorilor yi (cu ajutorul boxplot-urilor, pplot-urilor). Daca distributia este asimetrica pozitiv, putem incerca transformarea lui Y, pentru a vedea daca asa sunt indeplinite prezumtiile. O alta optiune este folosirea modelelor lineare generalizate (GMLs) care tolereaza alte distributii pentru erori decat cea normala (Quinn & Keough 2002). Homogenitatea variantelor Aceasta prezumtie implica ca populatia de valori Y si termenii e i sa aiba aceeasi varianta pentru orice xi. Aceasta prezumtie este importanta pentru fiabilitatea estimarilor intervalelor de confidenta si testarii ipotezelor bazate pe variante. Inhomogenitatea este datorata in special distributiilor asimetrice ale valorilor variabilei Y la nivel de x i dar si unui numar mic de valori extreme. Putem sa verificam cu usurinta homogenitatea variantelor cu plot-ul rezidurilor la fiecare x i. Pentru a inlatura inhomogenitatea putem imbunatati normalitatea valorilor lui Y transformandu-le, sau putem folosi GLMs. Alternativ, putem folosi metoda celor mai mici patrate ponderate (engl. weighted least squares) daca avem un aranjament anume de variante inegale (de ex. cresterea variantei in Y cu cresterea in X) (Quinn & Keough 2002). Independenta Aceasta prezumtie implica ca valoarea Y pentru orice valoare X, nu influenteaza valorile Y pentru alte valori X. Acest lucru este valabil si pentru termenii de eroare. Cel mai comun caz de nonindependenta este cand valorile Y, deci si termenii de eroare, se auto-coreleaza temporal. Adica, valorile Y si termenii de eroare sunt non-independenti de-alungul timpului, si avem un coeficient de cerelatie intre valorile Y succesive si intre termenii de eroare succesivi. Auto-corelarea apare cand (Quinn & Keough 2002): observatiile reprezinta masurari repetate in cadrul unitatilor experimentale sau de esantionare, deci in studii care implementeaza o structura de tratament in baza mai multor unitati experimentale, si fiecare unitate este esantionata repetat de-alungul timpului sau face subiectul diferitelor tratamente de-alungul timpului. Modelarea seriilor de observatii repetate dintr-o unitate experimentala sau esantionala este bazata pe analiza modelelor de tip al variantei (vezi cap. 11 din Quinn & Keough 2002). Alte proceduri includ unified mixed linear models sau generalized estimating equations bazate pe modele lineare generalizate (vezi cap. 13 din Quinn & Keough 2002). observatiile reprezinta o serie a unui experiment de lunga durata (engl. time series), cu una sau mai multe unitati esantionale. O procedura este de a modifica estimarea OLS a analizei de regresie in functie de nivelul de auto-corelare. De obicei insa, seturile de date care formeaza seriile de lunga durata au nevoie de proceduri mai sofisticate de modelare, cum sunt analizele formale ale seriilor de lunga durata (engl. time-series analysis). Acestea pot fi 69

70 lineare sau mai uzual non-lineare. Relatia pozitiva dintre termenii de eroare ale observatiilor adiacente in timp (observatii succesive) este numita auto-corelare pozitiva de primul ordin. Acest tip de auto-corelare poate fi testat cu ajutorul testului Durbin-Watson cu H0 ca parametrul de auto-corelare este egal cu zero (Quinn & Keough 2002). Auto-corelarea poate fi nu numai temporala ci si spatiala, unde observatiile apropiate spatial sunt mai similare decat cele departate. Valorile X fixe Un model linear in care valorile variabilei de prognoza sunt fixe (adica stabilite de investigator, cu nici o varianta asociata cu ele) este cunoscut ca fiind un Model I sau un model cu efecte fixe (engl. fixed effects model). Adeseori acesta este cazul experimentelor in care nivelurile variabilei X sunt reprezentate de tratamente alese in mod specific. In agronomie si silvicultura am putea intalni mai des asa tratamente (comparatii intre tratamente de-alungul timpului). In biologie totusi, intalnim rar aceste experimente astfel dizainate. De obicei se alege randomizat aria exacta din care se colecteaza datele (de ex. esantionare intamplatoare a ariilor in care se gasesc midii la tarm; orice repetitie a acestui studiu ar produce alte arii de esantionare). Acest tip de model de regresie linear cu ambele variabile aleatoare/randomizate este cunoscut si ca Model II sau model cu efecte randomizate (engl. random effects model) Metode de diagnosticare a regresiei Diagnosticarea regresiei lineare simple cuprinde verificari legate de cat de bine este ajustat modelul pentru a se potrivi cu datele esantionate. In legatura cu aceasta chestiune, am putea sa ne punem urmatoarele intrebari (Quinn & Keough 2002): Este modelul dreptei un model fiabil pentru datele esantionate, sau ar trebui sa luam in considerare si varianta unui model curvilinear? Avem valori extreme care influenteaza ajustarea modelului la datele esantionate? Prima intrebare este usor de elucidat grafic, cu ajutorul scatterplot-ului dintre cele doua variabile. Trebuie sa comparam aranjamentul datelor noastre esantionate cu distributiile matematice curvilineare folosite in statistica (de ex. cea exponentiala) (Giurgiu 1972). A doua intrebare se ocupa de influenta unei valori asupra calitatii ajustarii modelului (engl. goodness-of-fit). Influenta unei anume valori este data de: ce reziduu are (diferenta dintre valorile observate si cele prognozate de model) si de faptul daca xi este o valoare extrema in spatiul axei X. Parghia (engl. leverage) Daca un anumit xi este o valoare extrema in spatiul X, atunci acea observatie are o valoare parghie mare (enlg. high leverage value). Ar trebui sa ne gandim la dreapta de regresie ca la o balanta cu punctul de echilibru la media-x (media-x intra in calcularea parametrilor de regresie b 1 si b0). Deci valorile X mai departate de media-x influenteaza modelul (deci, valorile Y prognozate) mai mult decat cele mai apropiate de media lui X. Acesta este cazul general al oricarei medii influentate de valorile extreme. Numai ca pentru ca aici media-x intra in calcularea parametrilor regresiei, valorile extreme din spatiul X influenteaza indirect modelul de regresie (vezi fig. 5.8). Sa notam ca parghia investigheaza doar spatiul X, cel Y nu intra deloc in calculul parghiei (Quinn & Keough 2002). 70

71 Reziduuri Pentru a evalua influenta unei anumite valori x i asupra parametrilor regresiei, ar trebui de asemenea sa analizam reziduul sau (diferenta dintre yi-observat si yi-prognozat). Problema cu rezidurile este ca s-ar putea ca ele sa nu aiba o varianta constanta ca urmare a inhomogenitatii variatiei in y i dealungul valorilor X. Metodele de detectare a unei valori extreme e i care ne indica o valoare extrema yi (deci, o valoare extrema fata de dreapta de regresie ajustata) incearca sa depaseasca problema inhomogenitatii in variantele reziduurilor (Quinn & Keough 2002). De ex. reziduul studentizat (engl. studentized residual), care include parghia (hi) si eroarea standard a rezidurilor (MSResidual): Aceste reziduri studentizate au varianta constanta, deci reziduuri studentizate diferite pot fi comparate in mod fiabil. Reziduri studentizate mari ne indica ca ele corespund unei valori y i care este o valoare extrema fata de dreapta de regresie ajustata. O alta metoda este sa folosim asanumitul reziduu PRESS numit si reziduul sters pentru observatia i. Reziduul sters pentru observatia i este definit ca si diferenta dintre valorile Y observate si cele prognozate de dreapta de regresie pentru toate observatiile cu exceptia lui i. Aceste reziduuri sterse sunt de obicei calculate din reziduuri studentizate. Aceste reziduuri sterse studentizate pot detecta valori extreme care altfel nu ar fi fost detectate de verificari normale ale altor tipuri de reziduuri. Statistica de distanta a lui Cook O masura a influentei pe care o observatie anume o are asupra ajustarii dreptei de regresie (adica asupra procesului de estimare al parametrilor modelului nostru de regresie) este statistica de distanta a lui Cook (Di) (engl. Cook's distance statistic). Di ia in considerare ambele: marimea parghiei si reziduul pentru o anume observatie si masoara practic influenta fiecarei observatii asupra estimarii 71

72 pantei regresiei (fig. 5.8). O valoare D i mare indica ca inlaturarea acelei observatii ar schimba estimatiile parametrilor regresiei in mod considerabil. Ca regula aproximativa de ghidare este ca daca o observatie are o Di mai mare de unu atunci ei influenteaza deosibit de tare procesul de estimare al parametrilor regresiei. Prezenta valorilor extreme in randul ei si deci, si a non-normalitatii si inhomogenitatii variantelor, poate fi inlaturata si de transformari ale variabilei Y pentru a reduce influenta valorilor extreme asupra ajustarii dreptei de regresie. Daca transformarile nu ajuta, atunci strategiile discutate la punctul 2.2 pentru atenuarea valorilor extreme ar trebui luate in considerare Grafice de diagnoza Inspectarea in preliminariu a datelor esantionate este foarte importanta pentru a verifica prezumtiile impuse de modelul de regresie lineara. Deci, inainte de a incepe orice analiza formala, ar trebui mai intai sa exploram grafic datele esantionate (Quinn & Keough 2002). Doua dintre cele mai folositoare grafice de explorare sunt: scatterplot-ul si plot-ul cu reziduri. Scatterplot-urile Scatterplot-ul lui Y si X este, ca si in cazul corelatiei, primul pas in orice analiza de regresie. Scatterplot-urile pot indica variantele inegale, non-linearitatea si valorile extreme. Le putem folosi pentru a explora relatia dintre Y si X fara a fi constransi de un model linear anume (Quinn & Keough 2002). Pentru a sublinia importanta scatterplot-urilor inainte de orice analiza formala a datelor noaste, ne folosim de exemplul realizat de Anscombe (1973) si preluat de Quinn & Keough (2002, p. 97). 72

73 Exemplul lui Anscombe (1973) subliniaza si faptul ca ipotezele nule traditionale ale regresiei lineare nu ne ajuta in identificarea linearitatii relatiei dintre Y si X. De aceea ar trebui sa luam in considerare si ipoteza nula introdusa de noi mai sus. Plot-urile reziduurilor Cel mai informativ mod de a examina rezidurile (originale sau studentizate) este cu plot-ul rezidurilor pentru valorile lor yi prognozate (fig. 5.10). Aceste plot-uri ne pot spune daca prezumtiile modelului sunt indeplinite si daca sunt multe observatii neobisnuite care nu se potrivesc cu modelul foarte bine. Aranjamentul grafic ideal in plot-urile rezidurilor este o dispersie a punctelor care nu indica o forma crescanda sau descrescanda a rezidurilor, mai precis spus a variantei lor cum este in exemplul din fig d). 73

74 Non-linearitatea poate fi detectata daca identificam un aranjament grafic curbat al rezidurilor. Valorile extreme fata de dreapta de regresie ajustata se deosebesc prin faptul ca au reziduri mari. Aceste valori extreme pot fi diferite de valorile extreme din spatiul Y, care pot fi identificate si cu simplele boxplot-uri, care nu iau in considerare variabila X. Conform celor doi autori australieni, Quinn si Keough (2002), putem intalni si plot-uri de reziduri in care punctele sunt asezate de-alungul liniilor paralele, fiecare dintre linii avand o panta mai mica cu unu (fig. 5.11). Acest fenomen este rezultatul faptului ca mai multe observatii au valori similare pentru una dintre variabile. In exemplul din fig. 5.11, variabila raspuns (numarul de melci de mare pro aglomerare de midii) ia doar trei valori: zero, unu si doi. Daca variabila raspuns este binara (doar doua valori posibile), atunci punctele din plot-ul rezidurilor vor fi ordonate de-alungul a doua linii paralele. In acest caz special regresia estimata cu OLS nu este probabil technica cea mai apropriata pentru aceste date si am putea folosi in schimb un model linear generalizat cu termen de eroare binomial Transformari Pentru ca avem nevoie ca valorile Y sa fie distribuite normal, putem incerca transformarea distributiilor Y asimetrice pentru a le apropia de normal. Transformarea variabilei raspuns Y poate de asemenea imbunatati inhomogenitatea in variantele valorilor yi pentru a fiecarui xi, in special cand varianta creste cand xi creste. Prezumtia ca valorile xi sunt valori fixe alese de investigator ne sugereaza ca transformari ale variabilei de predictie X nu sunt indicate. Totusi, daca avem analize de regresie bazate pe ambele Y si X ca fiind variabile aleatoare, atunci ar trebui sa concluzionam numai pentru valorile X folosite (numai pentru spectrul esantionat), sau putem folosi analiza pe baza Modelului II. In orice caz transformarea lui X poate fi de ajutor daca avem valori X cu o valoare parghie neobisnuit de mare, care influenteaza estimatia parametriilor regresiei. Deci, transformari ale lui X pot imbunatati ajustarea modelului, de aceea transformarile ambelor variabile Y si X sunt cateodata mai efective decat doar transformarea lui Y (Quinn & Keough 2002). 74

75 Pe langa faptul ca combat non-normalitatea, transformarile efectuate in cadrul analizei de regresie lineara pot ajuta la linearizarea relatiei dintre Y si X daca ea este non-lineara. Putem sa ne descurcam cu non-linearitatea ori prin introducerea unor termeni polinomiali in modelul linear, ori prin transformarea unei sau ambelor variabile pentru a face ca un model linear simplu sa fie o ajustare apropriata pentru datele esantionate. Relatiile nonlineare care pot fi linearizate prin simpla transformare a variabilelor sunt cateodata denumite lineare intrinsec. Daca nu este nici o dovada ca ar fi vreo inhomogenitate in variante, atunci ar fi bine sa fie transformat doar X in incercarea de a lineariza relatia dintre X si Y, pentru ca transformarea lui Y ar putea afecta homogenitatea variantelor, si ar putea supara termenii de eroare care sunt deja distribuiti normal (Quinn & Keough 2002). Totusi non-linearitatea este asociata adesea cu non-normalitatea variabilei raspuns deci transformarea ambelor variabile ar putea fi necesara. Sa notam ca interpretarea modelului de regresie bazat pe variabile transformate, si orice prognoze bazate pe el, trebuie sa fie in termeni de variabile Y si/sau X transformate, de ex. prognoza in logaritmi a nr. de specii dintr-o arie in logaritmi, desi prognozele se pot transforma inapoi in scala originala de masura daca este necesar Regresia prin origine Exista situatii numeroase cand stim ca teoretic cand Y este zero si X trebuie sa fie zero, de ex. cand greutatea unui organizm este zero atunci si dimensiunile lui sunt egale cu zero. Acest lucru ne tenteaza sa fortam dreapta de regresie sa treaca prin origine, prin ajustarea unui model linear fara punct de intersectare (Quinn & Keough 2002): 75

76 yi=ß1xi+ɛi A forta o dreapta de regresie sa treaca prin origine cauzeaza cateva dificultati in interpretarea rezultatelor: valoarea xi minima observata rar atinge zero, si a forta dreapta de regresie sa treaca prin origine nu inseamna numai a extrapola in afara spectrului de date esantionat ci si a presupune ca relatia dintre Y si X ramane lineara si pentru spectrul de valori X mici. Desi, sar putea ca relatia dintre Y si X sa fie non-lineara, cel putin pentru valori X mici, suma patratelor rezidurilor poate creste la modelul fortat prin origine, afectand calitatea ajustarii. Deci, Quinn si Keough (2002) recomanda ca in general, sa nu ne decidem pentru un model fortat prin origine Metoda celor mai mici patrate ponderate Inca o metoda folosita la imbunatatirea inhomogenitatilor in variante, pe langa transformari, este metoda celor mai mici patrate ponderate (engl. weighted least squares). Ea pondereaza fiecare observatie cu reciproca estimatiei variantei (σi2) : wi=1/si2. Stim ca pentru a estima β0 si β1 cu ajutorul metodei celor mai mici patrate (OLS) producem o dreapta de regresie (ŷi=b0+b1xi) care minimizeaza Σ(yi-ŷi)2, care reprezinta suma deviatiilor patrate dintre fiecare yi observat si valoarea yi prognozata de dreapta de regresie esantionala pentru fiecare xi. Principiul metodei celor mai mici patrate ponderate minimizeaza termenul Σw i(yi-ŷi)2, denotat ca cele mai mici patrate generalizate (engl. generalized least squares). Dificultatea in calcularea wi este ca nu putem calcula si2 decat daca avem replicari ale valorilor Y obtinute la fiecare xi. Una din procedurile folosite este de a grupa observatiile invecinate si de a calcula astfel s i2, desi nu exita recomandari clare cate observatii trebuiesc incluse intr-un grup. O alta procedura foloseste valoarea absoluta a fiecarui reziduu ( ei ) generat de dreapta regresiei OLS ca si estimatie a σi. Quinn si Keough (2002) afirma ca metoda celor mai mici patrate ponderate a fost aplicata rar in biologie, cei mai multi biologi preferand sa transforme una sau ambele variabile pentru a intruni prezumtiile modelelor lineare generalizate Modelul II al regresiei (X aleator) Pana acum am presupus ca valorile X sunt fixe si estimarile OLS au fost facute pentru axa Y, minimizand Σ(yi-ŷi)2. In majoritatea stiintelor naturii insa, cazurile in care ambele variabile Y si X sunt aleatoare/randomizate este des intalnit. Acest lucru se datoreaza faptului ca deseori ambele variabile fac subiectul variatiei naturale si al erorilor de masurare (Sokal & Rohlf 2012). Desi am putea sa distingem din punct de vedere conceptual a variabila raspuns Y si una de predictie X, ajustarea unui model de predictie linear pentru Y bazat pe X a datelor cand ambele variabile sunt aleatoare, si presupuse sa aiba o distributie bivariata normala comuna, a fost denumita Modelul II al regresiei (Quinn & Keough 2002). Intrebarea care dintre cele doua modele de regresie (Modelul I sau Modelul II) este cel mai apropriat, depinde de natura datelor si de intentiile investigatorului (Sokal & Rohlf 2012). Daca dreapta de regresie este ajustata mai ales cu scopul de a fi folosita pentru prognozare, recomandarea actuala stabilita prin consens este de a folosi Modelul I de regresie. Daca vrem sa determinam panta comuna a celor doua variabile aleatoare si intersectarea cu 76

77 axa Y (adica relatia functionala dintre cele doua variabile), atunci se recomanda folosirea Modelului II al regresiei (Sokal & Rohlf 2012). Desi pentru prognozare se recomanda Modelul I al regresiei, suntem interesati in prognozare mai ales de varianta care ne ofera cea mai buna ajustare a modelului la datele esantionate cand vrem sa prezicem valori Y in baza valorilor X, deci ar trebui sa fim interesati de Modelul II al regresiei. De aceea recomandarile nu trebuiesc luate ca fiind ceva strict, decizia de alegere a modelului cel mai apropriat apartinand de fapt investigatorului. Daca presupunem ca ambele variabile variaza natural (diferente individuale sunt cauzate genetic sau de mediu), deci ambele sunt aleatoare, avem o eroare datorata variatiei asociata cu ambele Y (σ2ε) si X (σ2δ). Raportul dintre cele doua variante (λ) ne indica dimensiunile greselii din estimarea OLS pentru β1 (adica Modelul I), comparata cu cea estimarea pentru β 1 din Modelul II al regresiei. Pentru regresia OLS obisnuita, σ2δ este egala cu zero, atunci λ este egal cu. Alegerea metodei de estimare pentru modelul de regresie linear cand ambele variabile sunt aleatoare/randomizate, depinde de cum evaluam/ghicim valoarea lui λ, evaluare care este bazata pe cunoasterea celor doua variabile, a scalelor pe care ele au fost masurate si a variantelor lor esantionale (Quinn & Keough 2002). Exista doua metode folosite uzual in Modelul II al regresiei: regresia axei majore (MA) si regresia axei majore reduse (RMA). Regresia axei majore (engl. major axis regression- MA) este estimata prin minimizarea sumei patratelor distantelor perpendiculare de la fiecare observatie la dreapta ajustata (fig. 5.12). Aceste perpendiculare iau in considerare ambele axe X si Y. Pentru regresia lineara simpla, aceste deviatii de la dreapta ajustata sunt paralele cu axa Y (Sokal & Rohlf 2012). Pentru regresia MA presupunem ca σ2δ este egala cu σ2ε, deci λ este egala cu unu (Quinn & Keough 2002). Calcularea pantei modelului de regresie MA es face folosind estimarea pantei obtinuta in Modelul I al regresiei si a coeficientului de corelatie (Quinn & Keough 2002): unde,. 77

78 Erorile standard si intervalele de confidenta se estimeaza cel mai bine prin bootstrapping iar pentru testul ipotezei nule de corelatie (H0 al pantei egala cu ±1) sunt folosite testele randomizante. Conform Quinn & Keough (2002), Legendre & Legendre (1998) au afirmat ca regresia MA este adecvata cand ambele variabile sunt masurate pe aceeasi scala cu aceleasi unitati de masura, sau pentru variabilele care sunt nedimensionale. Ei au prezentat si o modificare a regresiei MA, numita regresia MA de spectru (engl. ranged MA regression). Variabilele sunt standardizate cu spectrele lor, apoi se calculeaza regresia MA, si mai apoi panta regresiei este transformata inapoi la scala de masura originala. Avantajul regresiei MA de spectru este ca variabilele nu trebuie sa fie in unitati de masura comparabile (Quinn & Keough 2002). Regresia axei majore reduse (engl. reduced major axis regression RMA) numita si regresia axei majore standard (SMA), este ajustata prin minimizarea sumei suprafetelor triunghiurilor formate de liniile verticale si orizontale de la fiecare observatie la dreapta ajustata (fig. 5.12). Pentru regresia RMA se presupune ca cele doua proportii σ2ε/ σ2δ si σ2y/ σ2x sunt egale. Deci, panta regresiei RMA este raportul dintre deviatia standard a lui Y si deviatia standard a lui X: Eroarea standard pentru estimarea RMA poate fi determinata prin bootstrapping si s-a constatat ca pentru b1 ea este aceeasi ca cea obtinuta in estimarea OLS (Modelul I de regresie) (Quinn & Keough 2002). Intervalele de confidenta pentru β1 pot fi determinate in modul prezentat pentru media populatiei. Ipoteza nula H0 ca β1 este egal cu o anume valoare (cu exceptia valorii de zero!) poate fi testata cu o statistica T (Quinn & Keough 2002): unde, b1 este estimarea RMA a β1, β1* este valoarea lui β1 specificata in H0, numitorul este eroarea standard a coeficientului de corelatie r. Dreapta RMA de regresie este si axa longitudinala a elipsei bivariate de confidenta, ceea ce indica o legatura stransa intre coeficientul de corelatie si dreapta de regresie RMA (cu siguranta pentru ca estimatia RMA a β1 contine cele doua erori standard ca si coeficientul de corelatie). Remarca: Sa notam ca ajustarea unui model de regresie a lui Y bazat pe X produce o dreapta de regresie OLS diferita de cea a modelului de regresie a lui X bazat pe Y pentru acelasi set de date! Acest lucru se datoreaza faptului ca pentru Y bazat pe X se minimizeaza deviatiile in spatiul Y de la dreapta de regresie iar pentru X bazat pe Y se minimizeaza deviatiile de la dreapta de regresie in spatiul X. In mod interesant, conform lui Jackson (1991), dreapta RMA pare a fi pentru cei mai multi dintre observatori mai intuitiva si mai bine ajustata la datele esantionate decat cea bazata pe OLS, din moment ce ea pica la jumatatea dintre dreapta OLS a lui Y bazat pe X si dreapta OLS a lui X bazat pe Y (Quinn & Keough 2002). Pentru a intelege mai bine conceptele legate de MA, MA de spectru si RMA este nevoie de o analiza mai amanuntita. Quinn si Keough (2002) recomanda ca punct de plecare pentru o lectura 78

79 mai amanuntita despre cum sa selectam modelul adecvat analizei noastre articolele lui Legendre & Legendre (1998) si McArdle (1988). Pentru ca stiintele naturii sunt ramura in care variatia naturala predomina, deci in care ambele variabile sunt aleatorii, ar trebui sa ajungem sa cunoastem mai bine metodele Modelului II de regresie. Quinn si Keough (2002) afirma ca aceste metode sunt deseori omise in studiile biologice pentru faptul ca majoritatea cartilor despre modelele lineare descriu numai exemple de regresii din domeniul industriei si business-ului unde prezumtia conform careia X este fix este valabila mai des Regresia robusta Am vazut ca estimarile OLS pentru parametrii regresiei sunt sensibile la prezumtiile distributionale si afectate de valorile extreme, care produc reziduuri mari. Chiar si modelele lineare generalizate (GLMs) care tolereaza si alt gen de distributii pentru termenii de eroare in afara de cea normala, si care sunt bazate pe estimarea ML, sunt sensibile la observatii extreme. Metodele regresiei robuste sunt proceduri folosite la ajustarea modelelor de regresie lineara, proceduri care sunt mai putin sensibile la deviatii de la distributia aleasa pentru descrierea termenilor de eroare, deci sunt mai putin sensibile la observatiile extreme (Quinn & Keough 2002). Mai jos prezentam pe scurt cateva dintre metodele cele mai uzuale ale regresiei robuste: metoda celor mai mici deviatii absolute (LAD), estimatorii M, regresia bazata pe ranguri (neparametrica) si testele randomizante. Cele mai mici deviatii absolute (engl. LAD least absolute deviations) Aceasta procedura estimeaza β1 si β0 asa incat sa minimizeze suma valorilor absolute ale reziduurilor si nu suma patratelor reziduurilor (Ʃ=ei2) ca in OLS:. Prin evitarea ridicarii la patrat a reziduurilor, valorile extreme influenteaza mai putin procesul de ajustare a modelului. Exista algoritmi pentru calcularea β1 si β0, si metodele LAD sunt integrate in programele uzuale de statistica (deseori ca procedura de rutina in modelarea non-lineara) (Quinn & Keough 2002). Estimatorii M Estimatorii M de tip Huber pondereaza observatiile diferit in functie de cat de departe se gasesc de centrul distributiei. In contextul regresiei, estimatorii M contribuie la minimizarea Ʃ=ei2 pentru estimarea OLS si Ʃ= ei pentru LAD. Estimatorii M de tip Huber pondereaza reziduurile (e i) in functie de cat de departe sunt de zero, si folosesc aceste reziduuri noi pentru a calcula valori Y adaptate. Estimarea β1 si β0 cu ajutorul estimatorilor M Huber, implica alegerea pragului in valoarea reziduurilor la care metoda schimba de la OLS (cand reziduurile sunt aproape de zero) la LAD (cand rezidurile sunt departe de zero). Wilcoxon (1997) a descris un tip de estimator M bazat pe reponderari iterative a reziduurilor pentru a ne ajuta sa raspundem la aceasta intrebare (Quinn & Keough 2002). Distributiile esantionale ale parametrilor β 1 si β0 estimati cu ajutorul estimatorilor M este putin probabil sa fie normale, doar daca dimensiunile esantionale sunt mari. Deci, calculatiile erorilor standard, intervalelor de confidenta si testarii ipotezelor s-ar putea sa nu fie valabile (Quinn & Keough 2002). 79

80 Regresia bazata pe ranguri (neparametrica) Aceasta procedura nu are prezumtia unei distributii specifice pentru termenii de eroare, si este deosebit de folositoare daca una sau ambele variabile sunt distribuite normal si non-linearitatea este evidenta iar transformarile sunt ori inefective sau nu mai reprezinta procesele biologice studiate. Analiza de regresie non-parametrica simpla este bazata pe un numar egal cu [n(n-1)]/2 de pante OLS ale dreptelor de regresie construite cu cate doua puncte apartinand lui X (adica panta pentru dreapta care trece prin y1x1 si y2x2, panta pentru dreapta care trece prin y2x2 si y3x3, s.a.m.d.). Estimatorul non-parametric al lui β1 (b1) este medianul acestor pante iar estimatorul lui β 0 (b0) este medianul tuturor diferentelor yi-b1xi. Birkes & Dodge (1993) prezinta un test t pentru β 1 nonparametric bazat pe valori Y; o alternativa este folosirea coeficientului de corelatie bazat pe ranguri al lui Kendall (Quinn & Keough 2002). Testele randomizante Quinn si Keough (2002) afirma ca pentru o H0 cu β1 putem folosi si un test randomizant prin compararea valorii b1 observate cu valoarea b1 din distributia construita pentru b1 prin imperecherea la intamplare a unui nr. mare de valori y i si xi si valoarea calculata a b 1 pentru fiecare pereche de valori yixi. Valoarea P este % de valori b1 din aceasta distributie care sunt egale sau mai mari decat valoarea b1 observata Netezirea (engl. smoothing) In unele cazuri stim ca un model linear nu este adecvat pentru descrierea relatiei dintre Y si X pentru ca scatterplot-ul celor doua variabile ne arata in mod evident non-linearitatea relatiei dintre cele doua variabile sau si pentru ca s-ar putea sa stim din start ca din punct de vedere teoretic se potriveste alt tip de modelare. Sau pur si simplu dorim sa exploram natura relatiei dintre Y si X fara sa avem in minte un anumit model teoretic. In aceste cazuri, avem nevoie de o metoda de ajustare a curbelor la relatia dintre Y si X care sa nu fie restrictionata de un model linear anume sau de o structura specifica. Metodele de netezire (engl. smoothers) sunt o clasa larga de tehnici care descriu relatia dintre doua variabile impunand putine conditii in ceea ce priveste forma pe care sa o aiba relatia celor doua variabile. Daca scopul modelului linear uzual este de a separa datele in doua componente (model + reziduu), netezirea are ca scop separarea datelor in neted + dispers (engl. smooth + rough), unde componentul dispers ar trebui sa contina cat mai putina informatie si structura cu putinta (Quinn & Keough 2002). Logica netezirii este destul de simpla: Orice observatie este inlocuita de media sau medianul observatiilor din jurul sau, sau de valoarea prognozata de un model de regresie ajustat pentru aceste observatii locale. Observatiile inconjuratoare sunt acelea din interiorul unei ferestre (cateodata denumita banda sau vecinatate) care cuprinde spectrul de observatii de-alungul axei X sau valoarea X in jurul careia este centrata fereastra, valoare numita si valoare tinta. Dimensiunea ferestrei, adica nr. de observatii incluse, este determinata de un parametru de netezire (engl. smoothing parameter). Liniile succesive obtinute astfel se suprapun asa incat sa rezulta o linie neteda. Media sau medianul dintr-o fereastra nu sunt afectate de observatiile altor ferestre, deci 80

81 smoother-ii sunt robusti la valorile extreme. Ferestrele de la extremele spectrului de valori esantionate se intind deseori peste cea mai mica si peste cea mai mare valoare X a datelor noastre. De aceea aceste ferestre trebuiesc setate diferit, pentru ca valorile tinta (in jurul carora se centreaza fereastra) sa nu fie chiar ultima valoare din stanga si dreapta spectrului esantionat. Functiile de netezire nu impun conditii sepciale pentru Y si X. Exista o varietate de smoother-ii. Introducem mai jos cativa dintre ei: running means, LO(W)ESS, splines si kernels. Mediile miscatoare (engl. running means) Un smoother cu medii miscatoare este determinat de mediile tuturor ferestrelor. Fiecare fereastra este centrata pe valoarea tinta X iar valorile X incluse in fereastra pot fi determinate in doua moduri: (i) este inclus un nr. fix de observatii de ambele parti ale valorii tinta, sau (ii) este inclus un nr. fix de observatii din apropierea tintei X indiferent de ce parte a tintei apar. Varianta a doua tinde sa aiba performante mai bune in special pentru smother-ii locali ponderati. Sa notam ca orice observatie poate fi inclusa in calcularea mediei mai multor ferestre invecinate, de aici termenul de running means. Folosirea medianului miscator in locul mediei miscatoare face netezirea mai rezistenta la observatiile extreme, adica face netezirea mai robusta. Mediile sau medianele miscatoare au fost folosite de obicei pentru analiza seturilor de date din experimentele de lunga durata simple (engl. simple time series), desi linia care rezulta din netezire este rareori neteda. LO(W)ESS O modificare simpla a mediilor sau medianelor miscatoare este de a calcula dreapta de regresie OLS din ferestre si sa inlocuim yi observate cu cele prognozate de dreptele de regresie locale pentru valoarea X tinta a fiecarei ferestre. O modificare a acestei proceduri este netezirea prin regresia locala ponderata (engl. locally weighted regression scatterplot smoothing). Aici, observatiile dintr-o fereastra sunt ponderate diferit in functie de cat de departe sunt de valoarea X tinta folosind functia tricubica de ponderare. Prin repetarea procesului un numar de ori observatiile cu reziduuri mari pierd din influenta. Netezirea Loess finala este deseori o reprezentare excelenta a relatiei dintre Y si X, desi alegerea parametrului de netezire (dimensiunea ferestrei) poate fi importanta pentru interpretare. 81

DIDAKTIK DER INFORMATIK IN DEUTSCHLAND IN BEZUG AUF DIE SCHÜLER UND STUDENTEN, DIE ENTWEDER DEUTSCH ALS FREMDSPRACHE ODER ALS MUTTERSPRACHE HABEN

DIDAKTIK DER INFORMATIK IN DEUTSCHLAND IN BEZUG AUF DIE SCHÜLER UND STUDENTEN, DIE ENTWEDER DEUTSCH ALS FREMDSPRACHE ODER ALS MUTTERSPRACHE HABEN DIDAKTIK DER INFORMATIK IN DEUTSCHLAND IN BEZUG AUF DIE SCHÜLER UND STUDENTEN, DIE ENTWEDER DEUTSCH ALS FREMDSPRACHE ODER ALS MUTTERSPRACHE HABEN Daniela COSEAC Universitatea Pedagogică I. Creangă, Moldova,

Mehr

Lene Mayer-Skumanz / Salvatore Sciascia. traducere: Doina SANDU. Bufnicuta

Lene Mayer-Skumanz / Salvatore Sciascia. traducere: Doina SANDU. Bufnicuta Lene Mayer-Skumanz / Salvatore Sciascia traducere: Doina SANDU Bufnicuta Afost odată, ca niciodată, de mult, de mult de tot, încă pe vremea când animalele şi oamenii vorbeau aceeaşi limbă, a fost o bufniţă

Mehr

Das Erste Rumänische Lesebuch für Anfänger

Das Erste Rumänische Lesebuch für Anfänger Drakula Arefu Das Erste Rumänische Lesebuch für Anfänger Stufen A1 und A2 zweisprachig mit rumänisch-deutscher Übersetzung Audiodateien auf lppbooks.com erhältlich 1 www.lppbooks.com www.dual-language-graded-readers-for-beginners.com

Mehr

E19 Kommunikation: Korrespondenz, Telephon/Telefon

E19 Kommunikation: Korrespondenz, Telephon/Telefon E19 Kommunikation: Korrespondenz, Telephon/Telefon I. WORTSCHATZ 1. Ordnen Sie die Sätze des Dialogs. Ordonaţi propoziţiile în dialog. a... b.. c.. d.. e...... f...... g... h... i... j. 1. Auf welche denn?

Mehr

Grundlage des Ausbildungsrahmenlehrplans ist die in Deutschland vorgegebene Ausbildung zur Mechatronikerin / zum Mechatroniker.

Grundlage des Ausbildungsrahmenlehrplans ist die in Deutschland vorgegebene Ausbildung zur Mechatronikerin / zum Mechatroniker. Einführung in die Inhalte des Moduls Dieses Modul ist Teil des Ausbildungsrahmenlehrplans in deutscher und rumänischer Sprache zur Ausbildung zur Mechatronikerin / zum Mechatroniker in Deutschland und

Mehr

CAMPANIA STRATEGULUI ZOPYRION LA DUNĂREA- DE-JOS. Primul stat adevărat 1 care a reuşit efectiv 2 să-şi impună autoritatea VL.

CAMPANIA STRATEGULUI ZOPYRION LA DUNĂREA- DE-JOS. Primul stat adevărat 1 care a reuşit efectiv 2 să-şi impună autoritatea VL. VL. ILIESCU CAMPANIA STRATEGULUI ZOPYRION LA DUNĂREA- DE-JOS Primul stat adevărat 1 care a reuşit efectiv 2 să-şi impună autoritatea la Dunărea-de-jos înainte de stăpînirea romană 3~ fie chiar şi numai

Mehr

Haus, Familie I. WORTSCHATZ. 1. Vervollständigen Sie die Sätze mit den passenden Konstruktionen: Completaţi frazele cu construcţiile potrivite:

Haus, Familie I. WORTSCHATZ. 1. Vervollständigen Sie die Sätze mit den passenden Konstruktionen: Completaţi frazele cu construcţiile potrivite: E12 Haus, Familie I. WORTSCHATZ 1. Vervollständigen Sie die Sätze mit den passenden Konstruktionen: Completaţi frazele cu construcţiile potrivite: Das Kinderbett gehört ins... Letzte Nacht habe ich zwei

Mehr

Alpha Test zum Nachweis der deutschen Sprachkompetenz

Alpha Test zum Nachweis der deutschen Sprachkompetenz S1 Email schreiben (20 Minuten) Sie haben folgende E-Mail erhalten: Lieber, Ich möchte dir erneut danken dafür, dass du dieses Wochenende mit mir und meinen Freunden verbracht hast. Ich hoffe, du hattest

Mehr

Grundlage des Ausbildungsrahmenlehrplans ist die in Deutschland vorgegebene Ausbildung zur Mechatronikerin / zum Mechatroniker.

Grundlage des Ausbildungsrahmenlehrplans ist die in Deutschland vorgegebene Ausbildung zur Mechatronikerin / zum Mechatroniker. Einführung in die Inhalte des Moduls Dieses Modul ist Teil des Ausbildungsrahmenlehrplans in deutscher und rumänischer Sprache zur Ausbildung zur Mechatronikerin / zum Mechatroniker in Deutschland und

Mehr

Grup de firme Grup of companies Firmengruppe

Grup de firme Grup of companies Firmengruppe RO Grupul de firme Baupartner propune metode constructive inovatoare, pentru a răspunde în mod unic şi specific nevoilor fiecărui beneficiar în parte. Suntem un grup de firme cu gândire in perspectivă,

Mehr

d. Darf ich vorstellen? Das ist mein, Herr Richter. e. Mein neuer wohnt in der Wohnung links neben mir. Ich finde gute sehr wichtig.

d. Darf ich vorstellen? Das ist mein, Herr Richter. e. Mein neuer wohnt in der Wohnung links neben mir. Ich finde gute sehr wichtig. E22 Berufe I. WORTSCHATZ 1. Wen begrüßt man wie? Sie sind Student/ Studentin und treffen diese Leute am Nachmittag. Wie begrüßen Sie sie? Pe cine salutaţi şi cum? Sunteţi student/ ă şi vă întâlniţi cu

Mehr

E18 Computer, Nachrichten, Wetterbericht

E18 Computer, Nachrichten, Wetterbericht E18 Computer, Nachrichten, Wetterbericht I. WORTSCHATZ 1. Welche Wörter haben eine besondere Aussprache? Care cuvinte au o pronunţie specială? a. der Computer b. der Monitor c. die Diskette d. der Laptop

Mehr

E23 Kluge Antworten auf schwierige Fragen

E23 Kluge Antworten auf schwierige Fragen E23 Kluge Antworten auf schwierige Fragen 1. Finden Sie ein Synonym für die folgenden Ausdrücke. Găsiţi sinonimele: a. abfeiern b. Arbeitsplatz c. berufstätig d. freiberuflich e. krankfeiern f. kündigen

Mehr

Bine ati venit. în Gelsenkirchen! Informatii importante pentru imigrantii recenti. Willkommen. in Gelsenkirchen!

Bine ati venit. în Gelsenkirchen! Informatii importante pentru imigrantii recenti. Willkommen. in Gelsenkirchen! Bine ati venit în Gelsenkirchen! Informatii importante pentru imigrantii recenti Willkommen in Gelsenkirchen! Wichtige Informationen für neu Zugewanderte Willkommen in Gelsenkirchen Willkommen in Gelsenkirchen!

Mehr

EINIGE FRAGEN BEZÜGLICH DES ELEKTRISCHEN WIDERSTANDS VON THERMOELEMENTEN

EINIGE FRAGEN BEZÜGLICH DES ELEKTRISCHEN WIDERSTANDS VON THERMOELEMENTEN EINIGE FRAGEN BEZÜGLICH DES ELEKTRISCHEN WIDERSTANDS VON THERMOELEMENTEN Nicolae FÂNTÂNARU, Dan HODOR UNELE PROBLEME PRIVIND REZISTENŢA ELECTRICĂ A TERMOCUPLURILOR La măsurarea temperaturii cu termocupluri

Mehr

English... 2. Română... 19. Deutsch... 36

English... 2. Română... 19. Deutsch... 36 English... 2 Română... 19 Deutsch... 36 V 1.23 Content Introduction... 3 Intended use... 3 Supplied items... 3 Technical data... 4 System requirements... 4 Safety instructions... 4 Operating environment...

Mehr

Assessment of disgn-flows in water management, Classical methods, nonstationary and multidimensional extensions of Extreme Value Modeling (EVM)

Assessment of disgn-flows in water management, Classical methods, nonstationary and multidimensional extensions of Extreme Value Modeling (EVM) Assessment of disgn-flows in water management, Classical methods, nonstationary and multidimensional extensions of Extreme Value Modeling (EVM) Dr. Winfried Willems, IAWG Outline Classical Approach, short

Mehr

Allgemeine Bedingungen General Conditions Conditii generale

Allgemeine Bedingungen General Conditions Conditii generale Allgemeine Bedingungen General Conditions Conditii generale Die angeführten Bedingungen gelten für gegenständlichen Liefervertrag. Bei Widersprüchen zwischen den Allgemeinen Bedingungen und den Spezifischen

Mehr

Hidroizolare pentru acoperiºuri verzi: Centrul public St. Anton în Arlberg (A) Sisteme de hidroizolare pentru acoperiºuri ROMÂNÃ

Hidroizolare pentru acoperiºuri verzi: Centrul public St. Anton în Arlberg (A) Sisteme de hidroizolare pentru acoperiºuri ROMÂNÃ PROFILE Hidroizolare pentru acoperiºuri verzi: Centrul public St. Anton în Arlberg (A) Sisteme de hidroizolare pentru acoperiºuri ROÂNÃ Construcþia: Izolaþie împotriva umiditãþii solului Baza: Structurã

Mehr

WIENER PRIVATKLINIK. Von den besten Ärzten empfohlen Recomandat de cei mai buni medici. www.wpk.at

WIENER PRIVATKLINIK. Von den besten Ärzten empfohlen Recomandat de cei mai buni medici. www.wpk.at WIENER PRIVATKLINIK Von den besten Ärzten empfohlen Recomandat de cei mai buni medici Beste Bewertung aller österreichischen Privatkrankenanstalten im Hospital Guide Höchste Punktezahl im Anforderungsprofil

Mehr

Steierdorf-Anina. Minerul, într-al sorţii joc!

Steierdorf-Anina. Minerul, într-al sorţii joc! 1 Steierdorf-Anina. Minerul, într-al sorţii joc! 2 Bunicilor mei: ANNA şi STEFAN KUBERTSIK, BERTHA şi ALBERT KRIPPNER, precum şi părinţilor mei BERTA şi ADOLF KUBERTSIK. 3 Mulţumesc soţiei mele NINA, pentru

Mehr

GLASUL MINORITĂŢILOR

GLASUL MINORITĂŢILOR GLASUL MINORITĂŢILOR LA VOIX DES MINORITÉS DIE STIMME DER MINDERHEITEN ANUL ANNÉE JAHRGANG V. NOVEMBRIE NOVEMBRE NOVEMBER 1927. NUMĂRUL NUMÉRO NUMMER 11 Lealitate şi încredere! La sfârşitul discuţiei Mesajului,

Mehr

Biserica Română Unită două sute cincizeci de ani de istorie

Biserica Română Unită două sute cincizeci de ani de istorie DOCUMENT Madrid 1952 Biserica Română Unită două sute cincizeci de ani de istorie Casa de Editură VIAŢA CREŞTINĂ Cluj-Napoca [ 1 ] ISBN 973-9288-11-1 Cluj-Napoca 1998 Casa de Editură Viaţa Creştină cartea

Mehr

E19 Kommunikation: Korrespondenz, Telephon/ Telefon

E19 Kommunikation: Korrespondenz, Telephon/ Telefon E19 Kommunikation: Korrespondenz, Telephon/ Telefon Info In letzter Zeit verschicken wir immer seltener Briefe oder Ansichtskarten. Wir ziehen die Korrespondenz übers Internet (die E-Mails) vor. Diese

Mehr

Frailty Models in Survival Analysis

Frailty Models in Survival Analysis Aus dem Institut für Medizinische Epidemiologie, Biometrie und Informatik (Direktor: Prof. Dr. Johannes Haerting) Frailty Models in Survival Analysis Habilitation zur Erlangung des akademischen Grades

Mehr

RAPORT DE CERCETARE. Analiştii Erste Bank: Avem încredere în aur. 25 iunie 2008

RAPORT DE CERCETARE. Analiştii Erste Bank: Avem încredere în aur. 25 iunie 2008 RAPORT DE CERCETARE 25 iunie 2008 Analiştii Erste Bank: Avem încredere în aur Interesul investitorilor a crescut puternic în 2008 şi va continua să crească Aurul este în creştere ca valoare, din cauza

Mehr

Versuchsplanung SoSe 2015 R - Lösung zu Übung 1 am 24.04.2015 Autor: Ludwig Bothmann

Versuchsplanung SoSe 2015 R - Lösung zu Übung 1 am 24.04.2015 Autor: Ludwig Bothmann Versuchsplanung SoSe 2015 R - Lösung zu Übung 1 am 24.04.2015 Autor: Ludwig Bothmann Contents Aufgabe 1 1 b) Schätzer................................................. 3 c) Residuenquadratsummen........................................

Mehr

Elternhefteintragungen Rumänisch

Elternhefteintragungen Rumänisch Elternhefteintragungen Rumänisch Inhaltsverzeichnis Formulare, Ansuchen Daten des Kindes Seite 3 Fehlende Unterlagen Seite 4 Einstufung des Kindes Seite 5 Verlängerung des außerordentlichen Status Seite

Mehr

JAHRESBERICHT 2014 RAPORT ANUAL

JAHRESBERICHT 2014 RAPORT ANUAL JAHRESBERICHT 2014 RAPORT ANUAL Permanent Court of Arbitration of the AHK Romania Greentech - Initiative of the AHK Romania JAHRESBERICHT 2014 / RAPORT ANUAL 2014 3 Inhalt Cuprins Seite/ Pagina VORWORT

Mehr

Instructions for use WASHING MACHINE. Contents WIXE 127

Instructions for use WASHING MACHINE. Contents WIXE 127 Instructions for use WASHING MACHINE GB English,1 RO Romтnу,13 DE Deutsch,25 Contents Installation, 2-3 Unpacking and levelling Electric and water connections The first wash cycle Technical details GB

Mehr

Sicherheit und Gesundheitsschutz bei der Spargelproduktion

Sicherheit und Gesundheitsschutz bei der Spargelproduktion Stand: 03/07 Sicherheit und Gesundheitsschutz bei der Spargelproduktion Arbeitsblatt für die Unterweisung von Saisonarbeitskräften Landwirtschaftliche Berufsgenossenschaft Mittel- und Ostdeutschland Technischer

Mehr

STUDIA UNIVERSITATIS BABEŞ-BOLYAI THEOLOGIA CATHOLICA

STUDIA UNIVERSITATIS BABEŞ-BOLYAI THEOLOGIA CATHOLICA Anul LI 2006 STUDIA UNIVERSITATIS BABEŞ-BOLYAI THEOLOGIA CATHOLICA 4 Galaxia Gutenberg 2006 1 2 Anul LI 2006 STUDIA UNIVERSITATIS BABEŞ-BOLYAI THEOLOGIA CATHOLICA 4 - series historia ecclesiastica - Redacţia:

Mehr

INTERFERENŢE CULTURALE ŞI LINGVISTICE / KULTURELLE UND SPRACHINTERFERENZEN

INTERFERENŢE CULTURALE ŞI LINGVISTICE / KULTURELLE UND SPRACHINTERFERENZEN INTERFERENŢE CULTURALE ŞI LINGVISTICE / KULTURELLE UND SPRACHINTERFERENZEN ASPEKTE DES KULTURAUSTAUSCHES ZWISCHEN RUMÄNIEN UND DEM DRITTEN REICH in der Zwischenkriegszeit 1 Daniela Olărescu Holger Laube

Mehr

BIBLIOTECA UNIVERSITĂŢII

BIBLIOTECA UNIVERSITĂŢII EUGEN BARBUL BIBLIOTECA UNIVERSITĂŢII REGELE FERDINAND I. DIN CLUJ 19 3 5 TIPOGRAFIA CARTEA ROMÂNEASCĂ C L U J PREFAŢĂ. Am fost îndemnat să tipăresc lucrarea de faţă de trei motive principale, ceace a

Mehr

A B C 74 319 0523 0 G3113. 74 421 0198 0 RMZ792 [mm]

A B C 74 319 0523 0 G3113. 74 421 0198 0 RMZ792 [mm] 74 319 0523 0 G3113 de Installationsanleitung es Instrucciones de montaje el Οδηγίες Εγκατάστασης en Installation Instructions no Installasjonsveiledning sr Uputstva za montažu 7 4 3 1 9 0 5 2 3 0 fr Instructions

Mehr

Die Varianzanalyse ohne Messwiederholung. Jonathan Harrington. Bi8e noch einmal datasets.zip laden

Die Varianzanalyse ohne Messwiederholung. Jonathan Harrington. Bi8e noch einmal datasets.zip laden Die Varianzanalyse ohne Messwiederholung Jonathan Harrington Bi8e noch einmal datasets.zip laden Variablen, Faktoren, Stufen Eine Varianzanalyse ist die Erweiterung von einem t- test t- test oder ANOVA

Mehr

(GENERAL FULL FACTORIALS)

(GENERAL FULL FACTORIALS) TQU BUSINESS GMBH VOLLFAKTORIELLE VERSUCHSPLÄNE (GENERAL FULL FACTORIALS) Lernziele Sie können vollfaktorielle Versuchspläne auf und mehr Stufen erstellen. Sie kennen Haupteffekte und Wechselwirkungen

Mehr

Oliver Kuß*; Dorothee Twardella**; Maria Blettner***; Thomas L. Diepgen**

Oliver Kuß*; Dorothee Twardella**; Maria Blettner***; Thomas L. Diepgen** Effektschätzung in Cluster-Randomized Trials mit binärer Zielgröße: Eine Sensitivitätsanalyse mit numerischer Integration, MCMC und NPMLE am Beispiel der DHP Oliver Kuß*; Dorothee Twardella**; Maria Blettner***;

Mehr

Umgang mit und Ersetzen von fehlenden Werten bei multivariaten Analysen

Umgang mit und Ersetzen von fehlenden Werten bei multivariaten Analysen Umgang mit und Ersetzen von fehlenden Werten bei multivariaten Analysen Warum überhaupt Gedanken machen? Was fehlt, ist doch weg, oder? Allgegenwärtiges Problem in psychologischer Forschung Bringt Fehlerquellen

Mehr

Schäßburger Gemeindebrief Nr. 8 Revista Parohiei Evanghelice C.A. Sighi oara / paginile 8-9 sunt în limba român / nr. 8 advent 2006 - III

Schäßburger Gemeindebrief Nr. 8 Revista Parohiei Evanghelice C.A. Sighi oara / paginile 8-9 sunt în limba român / nr. 8 advent 2006 - III Exp.: Evangelische Kirchengemeinde A.B. Schäßburg, Str. Cositorarilor 13, 545400 Sighi oara; bergkirche@elsig.ro Destinatar: Einladung zum Kathreinenball am 24. November! Mehr dazu auf Seite 3 und 12!

Mehr

Modulhandbuch Diplom-Hauptstudium im Prüfungsfach Statistik

Modulhandbuch Diplom-Hauptstudium im Prüfungsfach Statistik Georg-August-Universität Göttingen Modulhandbuch Diplom-Hauptstudium im Prüfungsfach Statistik Inhaltsverzeichnis Module B.WIWI-QMW.0001: Lineare Modelle... 3 B.WIWI-VWL.0007: Einführung in die Ökonometrie...

Mehr

5 Varianzanalytische Modelle, komplexere lineare Modell und Random Models

5 Varianzanalytische Modelle, komplexere lineare Modell und Random Models 5 Varianzanalytische Modelle, komplexere lineare Modell und Random Models Auch in diesem Kapitel werden nur wenige statistische Hintergründe geliefert. Der Fokus des Kapitels liegt in der Einübung der

Mehr

STUDIENANGEBOT DER BABEȘ-BOLYAI UNIVERSITÄT OFERTA EDUCAȚIONALĂ ÎN LIMBA GERMANĂ LA UNIVERSITATEA BABEȘ-BOLYAI

STUDIENANGEBOT DER BABEȘ-BOLYAI UNIVERSITÄT OFERTA EDUCAȚIONALĂ ÎN LIMBA GERMANĂ LA UNIVERSITATEA BABEȘ-BOLYAI STUDIENANGEBOT DER BABEȘ-BOLYAI UNIVERSITÄT OFERTA EDUCAȚIONALĂ ÎN LIMBA GERMANĂ LA UNIVERSITATEA BABEȘ-BOLYAI INHALTSVERZEICHNIS FAKULTÄT FÜR WIRTSCHAFTSWISSENSCHAFTEN UND UNTERNEHMENSFÜHRUNG... 4-5

Mehr

EPISCOPIA ROMÂNĂ UNITĂ CU ROMA, GRECO CATOLICĂ, ORADEA ASOCIAȚIA EPISCOP VASILE AFTENIE * ŞCOALA ARDELEANĂ II

EPISCOPIA ROMÂNĂ UNITĂ CU ROMA, GRECO CATOLICĂ, ORADEA ASOCIAȚIA EPISCOP VASILE AFTENIE * ŞCOALA ARDELEANĂ II EPISCOPIA ROMÂNĂ UNITĂ CU ROMA, GRECO CATOLICĂ, ORADEA ASOCIAȚIA EPISCOP VASILE AFTENIE * ŞCOALA ARDELEANĂ II Tehnoredactor Adriana BOGDAN EPISCOPIA ROMÂNĂ UNITĂ CU ROMA, GRECO CATOLICĂ, ORADEA ASOCIAȚIA

Mehr

Thema: Bootstrap-Methoden für die Regressionsanalyse. Bachelorarbeit. im Fachgebiet Wirtschaftsinformatik am Lehrstuhl für Quantitative Methoden

Thema: Bootstrap-Methoden für die Regressionsanalyse. Bachelorarbeit. im Fachgebiet Wirtschaftsinformatik am Lehrstuhl für Quantitative Methoden Westfälische Wilhelms-Universität Münster Thema: Bootstrap-Methoden für die Regressionsanalyse Bachelorarbeit im Fachgebiet Wirtschaftsinformatik am Lehrstuhl für Quantitative Methoden Themensteller: Prof.

Mehr

Conjoint Measurement:

Conjoint Measurement: Conjoint Measurement: Eine Erfolgsgeschichte Das Ganze ist mehr als die Summe seiner Teile Leonhard Kehl Paul Green & Vithala Rao (1971) De-Kompositionelle Messung von Präferenzstrukturen aus Gesamt-Urteilen:

Mehr

Led Daytime Running Lights. Owner s manual Instrukcja obsługi Manual de utilizare Bedienungsanleitung EN PL RO DE URZ3332

Led Daytime Running Lights. Owner s manual Instrukcja obsługi Manual de utilizare Bedienungsanleitung EN PL RO DE URZ3332 Led Daytime Running Lights Owner s manual Instrukcja obsługi Manual de utilizare Bedienungsanleitung EN PL RO DE URZ3332 Owner s manual Super Bright LED Daylight LED Daylight: Universal LED slim Daytime

Mehr

Lösung zu Kapitel 11: Beispiel 1

Lösung zu Kapitel 11: Beispiel 1 Lösung zu Kapitel 11: Beispiel 1 Eine Untersuchung bei 253 Personen zur Kundenzufriedenheit mit einer Einzelhandelskette im Südosten der USA enthält Variablen mit sozialstatistischen Daten der befragten

Mehr

Monte Carlo simulation for estimating rare event probabilities and parameters in Markov process models

Monte Carlo simulation for estimating rare event probabilities and parameters in Markov process models Diss. ETH No. 19452 Monte Carlo simulation for estimating rare event probabilities and parameters in Markov process models A dissertation submitted to ETH ZURICH for the degree of Doctor of Sciences presented

Mehr

LEHRVERANSTALTUNGSBESCHREIBUNG INTERNE UNTERNEHMENSKOMMUNIKATION

LEHRVERANSTALTUNGSBESCHREIBUNG INTERNE UNTERNEHMENSKOMMUNIKATION LEHRVERANSTALTUNGSBESCHREIBUNG INTERNE UNTERNEHMENSKOMMUNIKATION 1. Angaben zum Programm 1.1 Hochschuleinrichtung Babes-Bolyai Universität 1.2 Fakultät Fakultät Fakultät für Politik-, Verwaltungs- und

Mehr

Broșură INHALT CUPRINS

Broșură INHALT CUPRINS Broșură INHALT CUPRINS Grußwort: Ostdeutschland - Im Herzen Europas Cuvânt introductiv: Germania de Est În centrul Europei Ostdeutschland - Im Herzen Europas Seit der Wiedervereinigung im Jahr 1990 hat

Mehr

Kapitel 4: Binäre Regression

Kapitel 4: Binäre Regression Kapitel 4: Binäre Regression Steffen Unkel (basierend auf Folien von Nora Fenske) Statistik III für Nebenfachstudierende WS 2013/2014 4.1 Motivation Ausgangssituation Gegeben sind Daten (y i, x i1,...,

Mehr

Parametrische Statistik

Parametrische Statistik Statistik und ihre Anwendungen Parametrische Statistik Verteilungen, maximum likelihood und GLM in R Bearbeitet von Carsten F. Dormann 1. Auflage 2013. Taschenbuch. xxii, 350 S. Paperback ISBN 978 3 642

Mehr

JAHRESBERICHT RAPORT ANUAL

JAHRESBERICHT RAPORT ANUAL 2011 JAHRESBERICHT RAPORT ANUAL JAHRESBERICHT 2011 / RAPORT ANUAL 2011 3 Inhalt Cuprins Seite/ Pagina Vorwort Cuvânt introductiv 4 AHK Rumänien Teil des AHK-Netzes weltweit AHK România Parte a unei rețele

Mehr

Lineare Modelle in R: Einweg-Varianzanalyse

Lineare Modelle in R: Einweg-Varianzanalyse Lineare Modelle in R: Einweg-Varianzanalyse Achim Zeileis 2009-02-20 1 Datenaufbereitung Wie schon in der Vorlesung wollen wir hier zur Illustration der Einweg-Analyse die logarithmierten Ausgaben der

Mehr

Monte Carlo Methoden in Kreditrisiko-Management

Monte Carlo Methoden in Kreditrisiko-Management Monte Carlo Methoden in Kreditrisiko-Management P Kreditportfolio bestehend aus m Krediten; Verlustfunktion L = n i=1 L i; Die Verluste L i sind unabhängig bedingt durch einen Vektor Z von ökonomischen

Mehr

Măgărin Lucian Pavel Monografia satului şi comunei Măureni Monographie der Moritzfeldergemeinde 1784-2013

Măgărin Lucian Pavel Monografia satului şi comunei Măureni Monographie der Moritzfeldergemeinde 1784-2013 Măgărin Lucian Pavel Monografia satului şi comunei Măureni Monographie der Moritzfeldergemeinde 1784-2013 Un model de multiculturalitate, creativitate socială şi metropolă modernă din Banat, România, Europa

Mehr

Einfache Modelle für Paneldaten. Statistik II

Einfache Modelle für Paneldaten. Statistik II Einfache Modelle für daten Statistik II Wiederholung Literatur daten Policy-Analyse II: Statistik II daten (1/18) Literatur Zum Nachlesen Einfache Modelle für daten Wooldridge ch. 13.1-13.4 (im Reader)

Mehr

Log-lineare Analyse I

Log-lineare Analyse I 1 Log-lineare Analyse I Einleitung Die log-lineare Analysemethode wurde von L.A. Goodman in den 60er und 70er Jahren entwickelt. Sie dient zur Analyse von Zusammenhängen in mehrdimensionalen Kontingenztafeln

Mehr

Workshop Aktuelle Entwicklungen bei der Auswertung von Fernerkundungsdaten für forstliche Aufgabenstellungen

Workshop Aktuelle Entwicklungen bei der Auswertung von Fernerkundungsdaten für forstliche Aufgabenstellungen Workshop Aktuelle Entwicklungen bei der Auswertung von Fernerkundungsdaten für forstliche Aufgabenstellungen Schätzung von Holzvorräten und Baumartenanteilen mittels Wahrscheinlichkeitsmodellen Haruth

Mehr

Klausur STATISTIK 2 für Diplom VWL

Klausur STATISTIK 2 für Diplom VWL Klausur STATISTIK 2 für Diplom VWL Name, Vorname: Matrikel-Nr. Die Klausur enthält zwei Typen von Aufgaben: Teil A besteht aus Fragen mit mehreren vorgegebenen Antwortvorschlägen, von denen mindestens

Mehr

SAP Predictive Challenge - Lösung. DI Walter Müllner, Dr. Ingo Peter, Markus Tempel 22. April 2015

SAP Predictive Challenge - Lösung. DI Walter Müllner, Dr. Ingo Peter, Markus Tempel 22. April 2015 SAP Predictive Challenge - Lösung DI Walter Müllner, Dr. Ingo Peter, Markus Tempel 22. April 2015 Teil II - Lösung Teil II-1: Fachbereich (automated mode) Teil II-2: Experte (PAL HANA) Teil II-3: Vergleich

Mehr

www. project-vulgata.ch www. zenith-voyages.ro

www. project-vulgata.ch www. zenith-voyages.ro www. project-vulgata.ch www. zenith-voyages.ro Donnerstag, 14. November Freitag, 15. November Bustransfer vom Flughafen zum Hotel Ankunft und Hotelbezug in Bukarest Bustransfer vom Hotel zum NEC Sosire

Mehr

Tutorial. Mediationsanalyse mit PROCESS. stefan.pfattheicher@uni-ulm.de. Das Konzept Mediation

Tutorial. Mediationsanalyse mit PROCESS. stefan.pfattheicher@uni-ulm.de. Das Konzept Mediation Tutorial Mediationsanalyse mit PROCESS stefan.pfattheicher@uni-ulm.de Das Konzept Mediation Ein Mediator (folgend M) erklärt den Zusammenhang zwischen unabhängiger Variable (folgend X) und einer abhängigen

Mehr

Statistische Verfahren:

Statistische Verfahren: Statistische Verfahren: Hidden-Markov-Modelle für Multiples Alignment Stochastic Context-Free Grammars (SCFGs) für RNA-Multiples Alignment Übersicht 1 1. Hidden-Markov-Models (HMM) für Multiples Alignment

Mehr

Grundlage des Ausbildungsrahmenlehrplans ist die in Deutschland vorgegebene Ausbildung zur Mechatronikerin / zum Mechatroniker.

Grundlage des Ausbildungsrahmenlehrplans ist die in Deutschland vorgegebene Ausbildung zur Mechatronikerin / zum Mechatroniker. Einführung in die Inhalte des Moduls Dieses Modul ist Teil des Ausbildungsrahmenlehrplans in deutscher und rumänischer Sprache zur Ausbildung zur Mechatronikerin / zum Mechatroniker in Deutschland und

Mehr

Easyliner. zubehör. divers accessories. accessori. 10,0 m 2. schutz- und abdeckvlies

Easyliner. zubehör. divers accessories. accessori. 10,0 m 2. schutz- und abdeckvlies Material: Textilfaser Maler aus Textilfasern mit rutschhemmender Unterseite, einseitig mit Folie kaschiert. Easyliner ist wiederverwendbar. Ideal zur Abdeckung von zu schützenden Untergründen/Bodenbelägen,

Mehr

$ % + 0 sonst. " p für X =1 $

$ % + 0 sonst.  p für X =1 $ 31 617 Spezielle Verteilungen 6171 Bernoulli Verteilung Wir beschreiben zunächst drei diskrete Verteilungen und beginnen mit einem Zufallsexperiment, indem wir uns für das Eintreffen eines bestimmten Ereignisses

Mehr

Kybernetik Systemidentifikation

Kybernetik Systemidentifikation Kberneti Sstemidentifiation Mohamed Oubbati Institut für euroinformati Tel.: +49 73 / 50 2453 mohamed.oubbati@uni-ulm.de 2. 06. 202 Was ist Sstemidentifiation? Der Begriff Sstemidentifiation beschreibt

Mehr

ASKUMA-Newsletter. 7. Jahrgang. Juni 2008 bis April 2009

ASKUMA-Newsletter. 7. Jahrgang. Juni 2008 bis April 2009 ASKUMA-Newsletter Juni 2008 bis April 2009 ASKUMA Newsletter - 1 - INHALTSVERZEICHNIS INHALTSVERZEICHNIS...2 AUSGABE JUNI 2008...3 Inhaltsverzeichnis... 3 Artikel... 4 AUSGABE AUGUST 2008...11 Inhaltsverzeichnis...

Mehr

Andreas Schumann Ruhr- Universität Bochum Lehrstuhl für Hydrologie, Wasserwirtschaft und Umwelttechnik

Andreas Schumann Ruhr- Universität Bochum Lehrstuhl für Hydrologie, Wasserwirtschaft und Umwelttechnik Das Augusthochwasser 22 im Osterzgebirge und dessen statistische Bewertung The extreme flood in August 22 in the eastern part of the Ore Mountains and its statistical assessment Andreas Schumann Ruhr-

Mehr

Varianzanalyse * (1) Varianzanalyse (2)

Varianzanalyse * (1) Varianzanalyse (2) Varianzanalyse * (1) Einfaktorielle Varianzanalyse (I) Die Varianzanalyse (ANOVA = ANalysis Of VAriance) wird benutzt, um Unterschiede zwischen Mittelwerten von drei oder mehr Stichproben auf Signifikanz

Mehr

Kategoriale abhängige Variablen:

Kategoriale abhängige Variablen: Kategoriale abhängige Variablen: Logit- und Probit -Modelle Statistik II Literatur Annahmen und Annahmeverletzungen Funktionen Exponenten, Wurzeln usw. Das Problem Das binäre Logit-Modell Statistik II

Mehr

Mehrgleichungsmodelle

Mehrgleichungsmodelle Mehrgleichungsmodelle Stichwörter: Typen von Mehrgleichungsmodellen multivariates Regressionsmodell seemingly unrelated Modell interdependentes Modell Schätzen der Parameter Bestimmtheitsmass Spezifikationstests

Mehr

Cuvânt înainte Manualul de limba germană anul II Redensarten im Alltag

Cuvânt înainte Manualul de limba germană anul II Redensarten im Alltag Cuvânt înainte Manualul de limba germană anul II este structurat pe 10 unităţi axate pe lexicul din sfera economică / piaţa forţei de muncă. Unităţile sunt variabile ca dimensiune şi înglobează dialoguri,

Mehr

Analyse von Eingabedaten

Analyse von Eingabedaten Analyse von Eingabedaten 5.1 Deterministische und Stochastische Eingabedaten 5.2 Sammlung der Daten 5.3 Verwendung der Daten 5.4 Keine Daten? Otto-von-Guericke-Universität Magdeburg Thomas Schulze 1 5

Mehr

Revista Misiunii Române Unite din Germania Zeitschrift der Rumänischen Katholischen Mission in Deutschland

Revista Misiunii Române Unite din Germania Zeitschrift der Rumänischen Katholischen Mission in Deutschland Revista Misiunii Române Unite din Germania Zeitschrift der Rumänischen Katholischen Mission in Deutschland Fondator / Gründer: Msgr. Dr. Dr. Octavian Bârlea Perspective ISSN 0935-2414 - - Consiliul de

Mehr

Academic Skills - Befragung und Auswertung

Academic Skills - Befragung und Auswertung Otto-von-Guericke University Magdeburg Allgemein Befragung Eine Befragung ist eine wissenschaftliche Maßnahme zur Erforschung von Verhalten, Einstellung oder Wissen Des Weiteren können auch demographische

Mehr

Inhaltsverzeichnis. Cuprins

Inhaltsverzeichnis. Cuprins Inhaltsverzeichnis - Fakultät für Wirtschaftswissenschaften und Unternehmensführung - Seite 4 - Fakultät für Europastudien - Seite 6 - Philologische Fakultät - Seite 8 - Fakultät für Politik-, Verwaltungs-

Mehr

JAHRESBERICHT RAPORT ANUAL. Deutsch-Rumänische Industrie- und Handelskammer Camera de Comerț și Industrie Româno-Germană

JAHRESBERICHT RAPORT ANUAL. Deutsch-Rumänische Industrie- und Handelskammer Camera de Comerț și Industrie Româno-Germană 2012 JAHRESBERICHT RAPORT ANUAL Deutsch-Rumänische Camera de Comerț și Industrie Româno-Germană JAHRESBERICHT 2012 / RAPORT ANUAL 2012 3 Inhalt Cuprins Seite/ Pagina Vorwort Cuvânt introductiv 4 AHK Rumänien

Mehr

08/12. Gebrauchsanleitung Trekkingrucksäcke Trekking rucksacks Instructions for use Notice d'emploi pour sacs à dos de trek

08/12. Gebrauchsanleitung Trekkingrucksäcke Trekking rucksacks Instructions for use Notice d'emploi pour sacs à dos de trek 08/12 Gebrauchsanleitung Trekkingrucksäcke Trekking rucksacks Instructions for use Notice d'emploi pour sacs à dos de trek X-TRANSITION Bedingungen der JACK WOLFSKIN 3-Jahres-Gewährleistung Terms and

Mehr

Klausur zur Vorlesung Statistik III für Studenten mit dem Wahlfach Statistik

Klausur zur Vorlesung Statistik III für Studenten mit dem Wahlfach Statistik Ludwig Fahrmeir, Nora Fenske Institut für Statistik Bitte für die Korrektur freilassen! Aufgabe 1 2 3 4 Punkte Klausur zur Vorlesung Statistik III für Studenten mit dem Wahlfach Statistik 29. März 21 Hinweise:

Mehr

Grundprinzipien der Bayes-Statistik

Grundprinzipien der Bayes-Statistik Grundprinzipien der Bayes-Statistik Karl-Rudolf Koch Zusammenfassung: In drei wesentlichen Punkten unterscheidet sich die Bayes-Statistik von der traditionellen Statistik. Zunächst beruht die Bayes-Statistik

Mehr

cellasys GmbH BioChip-based electrochemical platform for the label-free monitoring of living cells 2012/09/08 LINZ 2012 EUSAAT 2012

cellasys GmbH BioChip-based electrochemical platform for the label-free monitoring of living cells 2012/09/08 LINZ 2012 EUSAAT 2012 cellasys GmbH BioChip-based electrochemical platform for the label-free monitoring of living cells 2012/09/08 LINZ 2012 EUSAAT 2012 Dr.-Ing. Joachim Wiest www.cellasys.com Motivation Continuous monitoring

Mehr

Entwicklung eines Distanzmaßes zwischen Bildern über dem Modell der Fields of Visual Words

Entwicklung eines Distanzmaßes zwischen Bildern über dem Modell der Fields of Visual Words Entwicklung eines Distanzmaßes zwischen Bildern über dem Modell der Fields of Visual Words André Viergutz 1 Inhalt Einführung. Einordnung der Arbeit in die zugrunde liegenden Konzepte Das Modell der Fields

Mehr

Nr. 12 March März Mars 2011

Nr. 12 March März Mars 2011 Nr. 12 March März Mars 2011 Sound Edition Benz Patent Motor Car 1886 - Limited edition Highly detailed precision model of the first Benz automobile, in an elegant Mercedes- Benz Museum gift box and limited

Mehr

Mathematische Methoden der Wirtschaftswissenschaften

Mathematische Methoden der Wirtschaftswissenschaften Wolfgang Gaul Martin Schader Herausgeber Mathematische Methoden der Wirtschaftswissenschaften Festschrift für OTTO OPITZ Physica-Verlag Ein Unternehmen des Springer-Verlags Inhalt Teil 1: Data Mining Data

Mehr

Kapitel 1: Einführung, Normalisierung, Differentielle Gene, Multiples Testen. Kapitel 2: Clustering und Klassifikation

Kapitel 1: Einführung, Normalisierung, Differentielle Gene, Multiples Testen. Kapitel 2: Clustering und Klassifikation Vorlesung MicroarrayDatenanalyse Kapitel1:Einführung,Normalisierung, DifferentielleGene,MultiplesTesten Kapitel2:ClusteringundKlassifikation WassindDNA Microarrays? mrna Protein DNA WassindDNA Microarrays?

Mehr

Instrukcja obsługi URZ2001-1

Instrukcja obsługi URZ2001-1 PL Instrukcja obsługi Instrukcja obsługi URZ2001-1 Prosimy o zapoznanie się z poniższą instrukcją obsługi przed podłączeniem programatora do zasilania. UWAGA Nie podłączaj urządzenia w przypadku gdy obciążenie

Mehr

Gemischte Lineare Modelle

Gemischte Lineare Modelle Gemischte Lineare Modelle Linear Mixed Effect Models Fritz Günther SFB833, Projekt Z2 March 20, 2015 Fritz Günther Gemischte Lineare Modelle Übersicht Lineare Modelle allgemein Gemischte Lineare Modelle

Mehr

COMPUTER: Mission Berlin. Le 9 novembre 2006, dix heures, cinquante-cinq minutes. Il ne vous reste plus que 65 minutes et une vie.

COMPUTER: Mission Berlin. Le 9 novembre 2006, dix heures, cinquante-cinq minutes. Il ne vous reste plus que 65 minutes et une vie. Épisode 12 Musique sacrée Anna a encore 65 minutes. Dans l église, elle découvre que la boîte à musique est en fait un élément manquant de l orgue. La femme en rouge apparaît et lui demande une clé. Mais

Mehr

Seminar im Sommersemester 2012 Modellierung kategorialer Daten

Seminar im Sommersemester 2012 Modellierung kategorialer Daten LMU München, Institut für Statistik, Seminar für angewandte Stochastik Seminar im Sommersemester 2012 Modellierung kategorialer Daten Prof. Dr. G. Tutz; Dipl.-Stat. M. Oelker; Dipl.-Stat. F. Heinzl; Dipl.-Stat.

Mehr