Majoritatea studiilor includ mai multe variabile de răspuns, iar dependențele dintre ele sunt adesea de mare interes. De exemplu, este posibil să dorim să știm dacă nivelurile de ARNm și proteina corespunzătoare variază împreună într-un țesut sau dacă nivelurile crescute ale unui metabolit sunt asociate cu niveluri modificate ale altuia. În această lună începem o serie de rubrici despre relațiile dintre variabile (sau caracteristici ale unui sistem), începând cu modul în care dependențele pe perechi pot fi caracterizate cu ajutorul corelației.
Două variabile sunt independente atunci când valoarea uneia nu oferă nicio informație despre valoarea celeilalte. Pentru variabilele X și Y, putem exprima independența spunând că șansa de a măsura oricare dintre valorile posibile ale lui X nu este afectată de valoarea lui Y, și invers, sau folosind probabilitatea condiționată, P(X|Y) = P(X). De exemplu, aruncările succesive ale unei monede sunt independente – pentru o monedă corectă, P(H) = 0,5, indiferent de rezultatul aruncării anterioare, deoarece o aruncare nu modifică proprietățile monedei. În schimb, dacă un sistem este modificat prin observare, măsurătorile pot deveni asociate sau, în mod echivalent, dependente. Cărțile extrase fără înlocuire nu sunt independente; atunci când se extrage o carte roșie, probabilitatea de a extrage o carte neagră crește, deoarece acum există mai puține cărți roșii.
Asocierea nu trebuie confundată cu cauzalitatea; dacă X îl cauzează pe Y, atunci cele două sunt asociate (dependente). Cu toate acestea, asocierile pot apărea între variabile în prezența (adică X îl cauzează pe Y) și absența (adică au o cauză comună) unei relații cauzale, așa cum am văzut în contextul rețelelor bayesiene1. Ca exemplu, să presupunem că observăm că persoanele care beau zilnic mai mult de 4 cești de cafea au o șansă mai mică de a dezvolta cancer de piele. Acest lucru nu înseamnă neapărat că cafeaua conferă rezistență la cancer; o explicație alternativă ar fi aceea că persoanele care beau multă cafea lucrează în interior timp de multe ore și, prin urmare, se expun foarte puțin la soare, un risc cunoscut. Dacă acesta este cazul, atunci numărul de ore petrecute în aer liber este o variabilă de confuzie – o cauză comună pentru ambele observații. Într-o astfel de situație, nu se poate deduce o legătură cauzală directă; asocierea doar sugerează o ipoteză, cum ar fi o cauză comună, dar nu oferă o dovadă. În plus, atunci când sunt studiate mai multe variabile în sisteme complexe, pot apărea asocieri false. Astfel, asocierea nu implică o cauzalitate.
În limbajul cotidian, dependența, asocierea și corelația sunt utilizate în mod interschimbabil. Din punct de vedere tehnic, însă, asocierea este sinonimă cu dependența și este diferită de corelație (Fig. 1a). Asocierea este o relație foarte generală: o variabilă furnizează informații despre alta. Corelația este mai specifică: două variabile sunt corelate atunci când prezintă o tendință crescătoare sau descrescătoare. De exemplu, într-o tendință crescătoare, observarea faptului că X > μX implică faptul că este mai probabil ca Y > μY. Deoarece nu toate asocierile sunt corelații și deoarece cauzalitatea, așa cum s-a discutat mai sus, poate fi conectată doar la asociere, nu putem echivala corelația cu cauzalitatea în ambele sensuri.
Pentru datele cantitative și ordinale, există două măsuri primare de corelație: Corelația lui Pearson (r), care măsoară tendințele liniare, și corelația lui Spearman (rang) (s), care măsoară tendințele de creștere și descreștere care nu sunt neapărat liniare (Fig. 1b). Ca și alte statistici, acestea au valori populaționale, denumite de obicei ρ. Există și alte măsuri de asociere care sunt, de asemenea, denumite coeficienți de corelație, dar care ar putea să nu măsoare tendințele.
Când „corelat” este utilizat nemodificat, se referă în general la corelația lui Pearson, dată de ρ(X, Y) = cov(X, Y)/σXσY, unde cov(X, Y) = E((X – μX)(Y – μY)). Corelația calculată din eșantion este notată cu r. Ambele variabile trebuie să fie pe o scară de interval sau de raport; r nu poate fi interpretat dacă oricare dintre variabile este ordinală. Pentru o tendință liniară, |r| = 1 în absența zgomotului și scade odată cu zgomotul, dar este, de asemenea, posibil ca |r| < 1 pentru tendințe neliniare perfect asociate (Fig. 1b). În plus, seturile de date cu asocieri foarte diferite pot avea aceeași corelație (Fig. 1c). Astfel, pentru a interpreta r ar trebui să se utilizeze un grafic de dispersie. Dacă oricare dintre variabile este deplasată sau scalată, r nu se modifică și r(X, Y) = r(aX + b, Y). Cu toate acestea, r este sensibil la o transformare neliniară monotonă (crescătoare sau descrescătoare). De exemplu, atunci când se aplică transformarea logaritmică, r(X, Y) ≠ r(X, log(Y)). De asemenea, este sensibil la intervalul de valori X sau Y și poate scădea pe măsură ce valorile sunt eșantionate dintr-un interval mai mic.
Dacă se suspectează o relație crescătoare sau descrescătoare, dar neliniară, corelația lui Spearman este mai potrivită. Este o metodă neparametrică care convertește datele în ranguri și apoi aplică formula pentru corelația Pearson. Aceasta poate fi utilizată atunci când X este ordinal și este mai rezistentă la valorile aberante. De asemenea, nu este sensibilă la transformările crescătoare monotone, deoarece acestea păstrează rangurile – de exemplu, s(X, Y) = s(X, log(Y)). Pentru ambii coeficienți, o magnitudine mai mică corespunde unei dispersii crescânde sau unei relații nemonotonice.
Este posibil să se observe coeficienți de corelație mari chiar și pentru date aleatorii (Fig. 2a). Astfel, r trebuie raportat împreună cu o valoare P, care măsoară gradul în care datele sunt în concordanță cu ipoteza nulă că nu există o tendință în populație. Pentru Pearson’s r, pentru a calcula valoarea P folosim statistica testului √, care este distribuită t cu d.f. = n – 2 atunci când (X, Y) are o distribuție normală bivariată (P pentru s nu necesită normalitate) și corelația populației este 0. Chiar mai informativ este un interval de încredere de 95%, adesea calculat folosind metoda bootstrap2. În figura 2a vedem că valorile de până la |r| < 0,63 nu sunt semnificative din punct de vedere statistic – intervalele lor de încredere se întind pe zero. Mai important, există corelații foarte mari care sunt semnificative din punct de vedere statistic (Fig. 2a), chiar dacă sunt extrase dintr-o populație în care adevărata corelație este ρ = 0. Aceste cazuri false (Fig. 2b) ar trebui să fie de așteptat de fiecare dată când se calculează un număr mare de corelații – de exemplu, un studiu cu doar 140 de gene produce 9 730 de corelații. În schimb, corelațiile modeste între câteva variabile, cunoscute ca fiind zgomotoase, ar putea fi interesante din punct de vedere biologic.
Pentru că P depinde atât de r, cât și de mărimea eșantionului, nu ar trebui să fie niciodată folosit ca o măsură a intensității asocierii. Este posibil ca un r mai mic, a cărui magnitudine poate fi interpretată ca fiind mărimea estimată a efectului, să fie asociat cu un P mai mic doar din cauza unei dimensiuni mari a eșantionului3. Semnificația statistică a unui coeficient de corelație nu implică o semnificație substanțială și relevantă din punct de vedere biologic.
Valoarea ambilor coeficienți va fluctua în funcție de diferite eșantioane, așa cum se vede în figura 2, precum și în funcție de cantitatea de zgomot și/sau de mărimea eșantionului. Cu suficient zgomot, coeficientul de corelație poate înceta să mai fie informativ cu privire la orice tendință de bază. Figura 3a prezintă o relație perfect corelată (X, X) în care X este un set de n = 20 de puncte distribuite uniform în intervalul de variație în prezența unor cantități diferite de zgomot distribuit în mod normal cu o abatere standard σ. Pe măsură ce σ crește de la 0,1 la 0,3 la 0,6, r(X, X + σ) scade de la 0,95 la 0,69 la 0,42. La σ = 0,6, zgomotul este suficient de mare pentru ca r = 0,42 (P = 0,063) să nu fie semnificativ din punct de vedere statistic – intervalul său de încredere include ρ = 0,
Când tendința liniară este mascată de zgomot, sunt necesare eșantioane mai mari pentru a măsura cu încredere corelația. Figura 3b arată modul în care variază coeficientul de corelație pentru subeșantioane de dimensiune m extrase din eșantioane la diferite niveluri de zgomot: m = 4-20 (σ = 0,1), m = 4-100 (σ = 0,3) și m = 4-200 (σ = 0,6). Atunci când σ = 0,1, coeficientul de corelație converge la 0,96 odată ce m > 12. Cu toate acestea, atunci când zgomotul este ridicat, nu numai că valoarea lui r este mai mică pentru întregul eșantion (de exemplu, r = 0,59 pentru σ = 0,3), dar sunt necesare subeșantioane mai mari pentru a estima în mod robust ρ.
Coeficientul de corelație Pearson poate fi, de asemenea, utilizat pentru a cuantifica cât de mult poate fi explicată fluctuația unei variabile prin corelația sa cu o altă variabilă. O discuție anterioară despre analiza varianței4 a arătat că efectul unui factor asupra variabilei de răspuns poate fi descris ca explicând variația răspunsului; răspunsul a variat și, odată ce factorul a fost luat în considerare, variația a scăzut. Coeficientul de corelație Pearson la pătrat r2 are un rol similar: este proporția de variație în Y explicată de X (și viceversa). De exemplu, r = 0,05 înseamnă că doar 0,25% din variația lui Y este explicată de X (și viceversa), iar r = 0,9 înseamnă că 81% din variația lui Y este explicată de X. Această interpretare este utilă în evaluările privind importanța biologică a mărimii lui r atunci când este semnificativă din punct de vedere statistic.
Pe lângă corelația dintre caracteristici, putem vorbi și despre corelația dintre elementele pe care le măsurăm. Aceasta se exprimă, de asemenea, ca proporție a varianței explicate. În special, dacă unitățile sunt grupate în clustere, atunci corelația intraclasă (care ar trebui privită ca o corelație la pătrat) este procentul de varianță explicată de clustere și este dată de σb2/(σb2 + σw2), unde σb2 este variația între clustere și σb2 + σw2 este variația totală între clustere și în interiorul clusterelor. Această formulă a fost discutată anterior în cadrul unei examinări a procentului din variația totală explicată de variația biologică5 , unde clusterele sunt replicile tehnice pentru aceeași replică biologică. Ca și în cazul corelației dintre caracteristici, cu cât corelația intraclasă este mai mare, cu atât mai puțină dispersie în date – de data aceasta măsurată nu din curba de tendință, ci din centrele clusterelor.
Asocierea este același lucru cu dependența și poate fi datorată unei cauzalități directe sau indirecte. Corelația implică tipuri specifice de asociere, cum ar fi tendințele monotone sau clusterele, dar nu și cauzalitatea. De exemplu, atunci când numărul de caracteristici este mare în comparație cu dimensiunea eșantionului, apar frecvent corelații mari, dar false. În schimb, atunci când există un număr mare de observații, corelațiile mici și lipsite de importanță substanțială pot fi semnificative din punct de vedere statistic.
.