La maggior parte degli studi include più variabili di risposta, e le dipendenze tra loro sono spesso di grande interesse. Per esempio, potremmo voler sapere se i livelli di mRNA e la proteina corrispondente variano insieme in un tessuto, o se i livelli crescenti di un metabolita sono associati ai livelli modificati di un altro. Questo mese iniziamo una serie di rubriche sulle relazioni tra variabili (o caratteristiche di un sistema), iniziando con come le dipendenze a coppie possono essere caratterizzate usando la correlazione.
Due variabili sono indipendenti quando il valore di una non dà informazioni sul valore dell’altra. Per le variabili X e Y, possiamo esprimere l’indipendenza dicendo che la probabilità di misurare uno qualsiasi dei possibili valori di X non è influenzata dal valore di Y, e viceversa, o usando la probabilità condizionata, P(X|Y) = P(X). Per esempio, i lanci successivi di una moneta sono indipendenti – per una moneta giusta, P(H) = 0,5 indipendentemente dal risultato del lancio precedente, perché un lancio non altera le proprietà della moneta. Al contrario, se un sistema viene modificato dall’osservazione, le misure possono diventare associate o, equivalentemente, dipendenti. Le carte estratte senza sostituzione non sono indipendenti; quando viene estratta una carta rossa, la probabilità di estrarre una carta nera aumenta, perché ora ci sono meno carte rosse.
L’associazione non deve essere confusa con la causalità; se X causa Y, allora i due sono associati (dipendenti). Tuttavia, le associazioni possono sorgere tra le variabili in presenza (cioè, X causa Y) e in assenza (cioè, hanno una causa comune) di una relazione causale, come abbiamo visto nel contesto delle reti bayesiane1. Come esempio, supponiamo di osservare che le persone che bevono quotidianamente più di 4 tazze di caffè hanno una minore probabilità di sviluppare il cancro alla pelle. Questo non significa necessariamente che il caffè conferisca resistenza al cancro; una spiegazione alternativa potrebbe essere che le persone che bevono molto caffè lavorano al chiuso per molte ore e quindi sono poco esposte al sole, un rischio noto. Se questo è il caso, allora il numero di ore trascorse all’aperto è una variabile confondente – una causa comune a entrambe le osservazioni. In una tale situazione, non si può dedurre un legame causale diretto; l’associazione suggerisce semplicemente un’ipotesi, come una causa comune, ma non offre prove. Inoltre, quando si studiano molte variabili in sistemi complessi, possono sorgere associazioni spurie. Quindi, l’associazione non implica causalità.
Nel linguaggio quotidiano, dipendenza, associazione e correlazione sono usati in modo intercambiabile. Tecnicamente, tuttavia, l’associazione è sinonimo di dipendenza ed è diversa dalla correlazione (Fig. 1a). L’associazione è una relazione molto generale: una variabile fornisce informazioni su un’altra. La correlazione è più specifica: due variabili sono correlate quando mostrano una tendenza crescente o decrescente. Per esempio, in una tendenza crescente, osservare che X > μX implica che è più probabile che Y > μY. Poiché non tutte le associazioni sono correlazioni, e poiché la causalità, come discusso sopra, può essere collegata solo all’associazione, non possiamo equiparare la correlazione alla causalità in entrambe le direzioni.
Per i dati quantitativi e ordinali, ci sono due misure primarie di correlazione: La correlazione di Pearson (r), che misura le tendenze lineari, e la correlazione di Spearman (rango) (s), che misura le tendenze crescenti e decrescenti che non sono necessariamente lineari (Fig. 1b). Come altre statistiche, queste hanno valori di popolazione, di solito indicati come ρ. Ci sono altre misure di associazione che sono anche indicate come coefficienti di correlazione, ma che potrebbero non misurare le tendenze.
Quando “correlato” è usato senza modifiche, si riferisce generalmente alla correlazione di Pearson, data da ρ(X, Y) = cov(X, Y)/σXσY, dove cov(X, Y) = E((X – μX)(Y – μY)). La correlazione calcolata dal campione è indicata con r. Entrambe le variabili devono essere su una scala di intervallo o di rapporto; r non può essere interpretato se una delle due variabili è ordinale. Per una tendenza lineare, |r| = 1 in assenza di rumore e diminuisce con il rumore, ma è anche possibile che |r| < 1 per tendenze non lineari perfettamente associate (Fig. 1b). Inoltre, serie di dati con associazioni molto diverse possono avere la stessa correlazione (Fig. 1c). Quindi, un grafico di dispersione dovrebbe essere usato per interpretare r. Se una delle due variabili è spostata o scalata, r non cambia e r(X, Y) = r(aX + b, Y). Tuttavia, r è sensibile alla trasformazione monotona non lineare (crescente o decrescente). Per esempio, quando si applica la trasformazione log, r(X, Y) ≠ r(X, log(Y)). È anche sensibile alla gamma di valori di X o Y e può diminuire quando i valori sono campionati da una gamma più piccola.
Se si sospetta una relazione crescente o decrescente ma non lineare, la correlazione di Spearman è più appropriata. È un metodo non parametrico che converte i dati in gradi e poi applica la formula per la correlazione di Pearson. Può essere usato quando X è ordinale ed è più robusto agli outlier. Inoltre non è sensibile alle trasformazioni monotone crescenti perché conservano i gradi – per esempio, s(X, Y) = s(X, log(Y)). Per entrambi i coefficienti, una grandezza minore corrisponde a una dispersione crescente o a una relazione non monotona.
È possibile vedere grandi coefficienti di correlazione anche per dati casuali (Fig. 2a). Quindi, r dovrebbe essere riportato insieme a un valore P, che misura il grado in cui i dati sono coerenti con l’ipotesi nulla che non ci sia una tendenza nella popolazione. Per la r di Pearson, per calcolare il valore P si usa la statistica di test √, che è distribuita a t con d.f. = n – 2 quando (X, Y) ha una distribuzione normale bivariata (P per s non richiede normalità) e la correlazione della popolazione è 0. Ancora più informativo è un intervallo di confidenza al 95%, spesso calcolato usando il metodo bootstrap2. Nella figura 2a vediamo che i valori fino a |r| < 0,63 non sono statisticamente significativi – i loro intervalli di confidenza sono pari a zero. Più importante, ci sono correlazioni molto grandi che sono statisticamente significativi (Fig. 2a) anche se sono tratti da una popolazione in cui la vera correlazione è ρ = 0. Questi casi spuri (Fig. 2b) dovrebbe essere previsto ogni volta che un gran numero di correlazioni è calcolato – per esempio, uno studio con solo 140 geni produce 9.730 correlazioni. Al contrario, modeste correlazioni tra poche variabili, note per essere rumorose, potrebbero essere biologicamente interessanti.
Perché P dipende sia da r che dalla dimensione del campione, non dovrebbe mai essere usato come misura della forza dell’associazione. È possibile che un r più piccolo, la cui grandezza può essere interpretata come la dimensione stimata dell’effetto, sia associato a un P più piccolo semplicemente a causa di una grande dimensione del campione3. La significatività statistica di un coefficiente di correlazione non implica una significatività sostanziale e biologicamente rilevante.
Il valore di entrambi i coefficienti fluttuerà con diversi campioni, come si vede nella Figura 2, così come con la quantità di rumore e/o la dimensione del campione. Con abbastanza rumore, il coefficiente di correlazione può cessare di essere informativo su qualsiasi tendenza sottostante. La figura 3a mostra una relazione perfettamente correlata (X, X) dove X è un insieme di n = 20 punti uniformemente distribuiti nell’intervallo in presenza di diverse quantità di rumore normalmente distribuito con una deviazione standard σ. Come σ aumenta da 0,1 a 0,3 a 0,6, r(X, X + σ) diminuisce da 0,95 a 0,69 a 0,42. A σ = 0,6 il rumore è abbastanza alto che r = 0,42 (P = 0,063) non è statisticamente significativo – il suo intervallo di confidenza include ρ = 0,
Quando la tendenza lineare è mascherata dal rumore, sono necessari campioni più grandi per misurare con sicurezza la correlazione. La figura 3b mostra come varia il coefficiente di correlazione per sottocampioni di dimensione m tratti da campioni a diversi livelli di rumore: m = 4-20 (σ = 0,1), m = 4-100 (σ = 0,3) e m = 4-200 (σ = 0,6). Quando σ = 0,1, il coefficiente di correlazione converge a 0,96 una volta che m > 12. Tuttavia, quando il rumore è alto, non solo il valore di r è più basso per l’intero campione (ad esempio, r = 0,59 per σ = 0,3), ma sono necessari sottocampioni più grandi per stimare robustamente ρ.
Il coefficiente di correlazione di Pearson può anche essere usato per quantificare quanta fluttuazione in una variabile può essere spiegata dalla sua correlazione con un’altra variabile. Una precedente discussione sull’analisi della varianza4 ha mostrato che l’effetto di un fattore sulla variabile di risposta può essere descritto come la spiegazione della variazione nella risposta; la risposta varia, e una volta che il fattore è stato considerato, la variazione è diminuita. Il coefficiente di correlazione quadratico di Pearson r2 ha un ruolo simile: è la proporzione della variazione di Y spiegata da X (e viceversa). Per esempio, r = 0,05 significa che solo lo 0,25% della varianza di Y è spiegata da X (e viceversa), e r = 0,9 significa che l’81% della varianza di Y è spiegata da X. Questa interpretazione è utile nelle valutazioni dell’importanza biologica della grandezza di r quando è statisticamente significativa.
Oltre alla correlazione tra caratteristiche, possiamo anche parlare della correlazione tra gli elementi che stiamo misurando. Questo è anche espresso come la proporzione di varianza spiegata. In particolare, se le unità sono raggruppate, allora la correlazione intraclasse (che dovrebbe essere pensata come una correlazione al quadrato) è la percentuale di varianza spiegata dai cluster e data da σb2/(σb2 + σw2), dove σb2 è la variazione tra cluster e σb2 + σw2 è la variazione totale tra e dentro i cluster. Questa formula è stata discussa in precedenza in un esame della percentuale di varianza totale spiegata dalla variazione biologica5 dove i cluster sono i replicati tecnici per lo stesso replicato biologico. Come per la correlazione tra le caratteristiche, più alta è la correlazione intraclasse, minore è la dispersione nei dati – questa volta misurata non dalla curva di tendenza ma dai centri dei cluster.
L’associazione è la stessa cosa della dipendenza e può essere dovuta a una causalità diretta o indiretta. La correlazione implica tipi specifici di associazione come tendenze monotone o clustering, ma non la causalità. Per esempio, quando il numero di caratteristiche è grande rispetto alla dimensione del campione, si verificano spesso correlazioni grandi ma spurie. Al contrario, quando c’è un gran numero di osservazioni, correlazioni piccole e sostanzialmente non importanti possono essere statisticamente significative.