A maioria dos estudos inclui múltiplas variáveis de resposta, e as dependências entre elas são frequentemente de grande interesse. Por exemplo, podemos desejar saber se os níveis de mRNA e a proteína correspondente variam juntos em um tecido, ou se níveis crescentes de um metabolito estão associados a níveis alterados de outro. Este mês começamos uma série de colunas sobre relações entre variáveis (ou características de um sistema), começando com como as dependências pareadas podem ser caracterizadas usando correlação.
Duas variáveis são independentes quando o valor de uma não dá nenhuma informação sobre o valor da outra. Para as variáveis X e Y, podemos expressar independência dizendo que a chance de medir qualquer um dos valores possíveis de X não é afetada pelo valor de Y, e vice-versa, ou usando probabilidade condicional, P(X|Y) = P(X). Por exemplo, os lançamentos sucessivos de uma moeda são independentes – para uma moeda justa, P(H) = 0,5 independentemente do resultado do lançamento anterior, porque um lançamento não altera as propriedades da moeda. Em contraste, se um sistema for alterado por observação, as medidas podem tornar-se associadas ou, de forma equivalente, dependentes. Cartões desenhados sem substituição não são independentes; quando um cartão vermelho é desenhado, a probabilidade de desenhar um cartão preto aumenta, porque agora há menos cartões vermelhos.
Associação não deve ser confundida com causalidade; se X causa Y, então os dois são associados (dependentes). Entretanto, associações podem surgir entre variáveis na presença (ou seja, X causa Y) e ausência (ou seja, elas têm uma causa comum) de uma relação causal, como já vimos no contexto das redes Bayesianas1. Como exemplo, suponha-se que observemos que as pessoas que diariamente bebem mais de 4 xícaras de café têm uma chance menor de desenvolver câncer de pele. Isso não significa necessariamente que o café confere resistência ao câncer; uma explicação alternativa seria que as pessoas que bebem muito café trabalham dentro de casa por longas horas e, portanto, têm pouca exposição ao sol, um risco conhecido. Se este for o caso, então o número de horas passadas ao ar livre é uma variável confusa – uma causa comum a ambas as observações. Em tal situação, não se pode inferir um nexo causal direto; a associação apenas sugere uma hipótese, tal como uma causa comum, mas não oferece provas. Além disso, quando muitas variáveis em sistemas complexos são estudadas, associações espúrias podem surgir. Assim, associação não implica causalidade.
Em linguagem cotidiana, dependência, associação e correlação são usadas indistintamente. Tecnicamente, no entanto, associação é sinônimo de dependência e é diferente de correlação (Fig. 1a). A associação é uma relação muito geral: uma variável fornece informações sobre outra. A correlação é mais específica: duas variáveis são correlacionadas quando apresentam uma tendência crescente ou decrescente. Por exemplo, em uma tendência crescente, observando que X > μX implica que é mais provável que Y > μY. Como nem todas as associações são correlações, e como a causalidade, como discutido acima, pode ser ligada apenas à associação, não podemos equacionar correlação com causalidade em qualquer direção.
Para dados quantitativos e ordinais, há duas medidas primárias de correlação: A correlação de Pearson (r), que mede tendências lineares, e a correlação (s) de Spearman (rank), que mede tendências crescentes e decrescentes que não são necessariamente lineares (Fig. 1b). Como outras estatísticas, estas têm valores populacionais, geralmente referidos como ρ. Existem outras medidas de associação que também são referidas como coeficientes de correlação, mas que podem não medir tendências.
Quando “correlacionado” é usado não modificado, geralmente refere-se à correlação de Pearson, dada por ρ(X, Y) = cov(X, Y)/σXσY, onde cov(X, Y) = E((X – μX)(Y – μY)). A correlação calculada a partir da amostra é denotada por r. Ambas as variáveis devem estar em uma escala de intervalo ou razão; r não pode ser interpretada se uma das variáveis for ordinal. Para uma tendência linear, |r| = 1 na ausência de ruído e diminui com o ruído, mas também é possível que |r| < 1 para tendências não lineares perfeitamente associadas (Fig. 1b). Além disso, conjuntos de dados com associações muito diferentes podem ter a mesma correlação (Fig. 1c). Assim, um gráfico de dispersão deve ser usado para interpretar r. Se qualquer variável for deslocada ou escalonada, r não muda e r(X, Y) = r(aX + b, Y). No entanto, r é sensível à transformação monótona não linear (crescente ou decrescente). Por exemplo, ao aplicar transformação de log, r(X, Y) ≠ r(X, log(Y)). Também é sensível ao intervalo de valores X ou Y e pode diminuir conforme os valores são amostrados a partir de um intervalo menor.
Se houver suspeita de uma relação crescente ou decrescente mas não linear, a correlação de Spearman é mais apropriada. É um método não-paramétrico que converte os dados em classificações e depois aplica a fórmula para a correlação de Pearson. Ela pode ser usada quando X é ordinal e é mais robusta a outliers. Também não é sensível a transformações crescentes monótonas porque elas preservam os graus – por exemplo, s(X, Y) = s(X, log(Y)). Para ambos os coeficientes, uma menor magnitude corresponde a uma dispersão crescente ou uma relação não-monotônica.
É possível ver grandes coeficientes de correlação mesmo para dados aleatórios (Fig. 2a). Assim, r deve ser reportado juntamente com um valor P, que mede o grau de consistência dos dados com a hipótese nula de que não há tendência na população. Para r de Pearson, para calcular o valor de P usamos a estatística do teste √, que é distribuída em t com d.f. = n – 2 quando (X, Y) tem uma distribuição normal bivariada (P para s não requer normalidade) e a correlação da população é 0. Ainda mais informativo é um intervalo de confiança de 95%, muitas vezes calculado usando o método bootstrap2. Na Figura 2a vemos que valores até |r| < 0,63 não são estatisticamente significantes – os seus intervalos de confiança variam entre zero. Mais importante, há correlações muito grandes que são estatisticamente significantes (Fig. 2a) mesmo que sejam extraídas de uma população na qual a verdadeira correlação é ρ = 0. Estes casos espúrios (Fig. 2b) devem ser esperados a qualquer momento um grande número de correlações é calculado – por exemplo, um estudo com apenas 140 genes produz 9.730 correlações. Por outro lado, correlações modestas entre algumas variáveis, conhecidas como ruidosas, poderiam ser biologicamente interessantes.
A causa P depende tanto de r como do tamanho da amostra, nunca deve ser usada como medida da força da associação. É possível que um r menor, cuja magnitude pode ser interpretada como o tamanho do efeito estimado, seja associado a um P menor apenas por causa de um tamanho de amostra grande3. A significância estatística de um coeficiente de correlação não implica significância substantiva e biologicamente relevante.
O valor de ambos os coeficientes flutuará com diferentes amostras, como visto na Figura 2, assim como com a quantidade de ruído e/ou o tamanho da amostra. Com ruído suficiente, o coeficiente de correlação pode deixar de ser informativo sobre qualquer tendência subjacente. A Figura 3a mostra uma relação perfeitamente correlacionada (X, X) onde X é um conjunto de n = 20 pontos uniformemente distribuídos na faixa na presença de diferentes quantidades de ruído normalmente distribuídas com um desvio padrão σ. Como σ aumenta de 0,1 para 0,3 para 0,6, r(X, X + σ) diminui de 0,95 para 0,69 para 0,42. Em σ = 0,6 o ruído é suficientemente alto que r = 0,42 (P = 0,063) não é estatisticamente significante – seu intervalo de confiança inclui ρ = 0,
Quando a tendência linear é mascarada pelo ruído, são necessárias amostras maiores para medir com confiança a correlação. A Figura 3b mostra como o coeficiente de correlação varia para subamostras de tamanho m retiradas de amostras com diferentes níveis de ruído: m = 4-20 (σ = 0,1), m = 4-100 (σ = 0,3) e m = 4-200 (σ = 0,6). Quando σ = 0,1, o coeficiente de correlação converge para 0,96 uma vez m > 12. Contudo, quando o ruído é alto, não só o valor de r é mais baixo para a amostra completa (por exemplo, r = 0,59 para σ = 0,3), mas subamostras maiores são necessárias para estimar robustamente ρ.
O coeficiente de correlação de Pearson também pode ser usado para quantificar quanta flutuação em uma variável pode ser explicada por sua correlação com outra variável. Uma discussão anterior sobre análise de variância4 mostrou que o efeito de um fator sobre a variável resposta pode ser descrito como explicando a variação na resposta; a resposta variou, e uma vez que o fator foi contabilizado, a variação diminuiu. O coeficiente de correlação de Pearson ao quadrado r2 tem um papel semelhante: é a proporção da variação em Y explicada por X (e vice versa). Por exemplo, r = 0,05 significa que apenas 0,25% da variância de Y é explicada por X (e vice-versa), e r = 0,9 significa que 81% da variância de Y é explicada por X. Esta interpretação é útil nas avaliações da importância biológica da magnitude de r quando ela é estatisticamente significativa.
Além da correlação entre as características, podemos também falar da correlação entre os itens que estamos medindo. Isto também é expresso como a proporção da variância explicada. Em particular, se as unidades estão agrupadas, então a correlação intraclasse (que deve ser pensada como uma correlação quadrática) é a variação percentual explicada pelos agrupamentos e dada por σb2/(σb2 + σb2), onde σw2 é a variação entre os agrupamentos e σb2 + σb2 é a variação total entre os agrupamentos e dentro dos agrupamentos. Esta fórmula foi discutida anteriormente em um exame da porcentagem da variância total explicada pela variação biológica5 , onde os clusters são as réplicas técnicas para a mesma réplica biológica. Assim como na correlação entre características, quanto maior a correlação intraclasse, menor a dispersão nos dados – este tempo medido não a partir da curva de tendência, mas a partir dos centros dos clusters.
Associação é o mesmo que dependência e pode ser devido a causas diretas ou indiretas. A correlação implica tipos específicos de associação, tais como tendências monótonas ou agrupamento, mas não causação. Por exemplo, quando o número de características é grande em comparação com o tamanho da amostra, correlações grandes mas espúrias ocorrem frequentemente. Por outro lado, quando há um grande número de observações, correlações pequenas e substancialmente sem importância podem ser estatisticamente significativas.