La mayoría de los estudios incluyen múltiples variables de respuesta, y las dependencias entre ellas suelen ser de gran interés. Por ejemplo, podemos querer saber si los niveles de ARNm y la proteína correspondiente varían juntos en un tejido, o si el aumento de los niveles de un metabolito se asocia con el cambio de los niveles de otro. Este mes comenzamos una serie de columnas sobre las relaciones entre variables (o características de un sistema), comenzando con cómo las dependencias entre pares pueden caracterizarse utilizando la correlación.
Dos variables son independientes cuando el valor de una no da información sobre el valor de la otra. Para las variables X e Y, podemos expresar la independencia diciendo que la probabilidad de medir cualquiera de los posibles valores de X no se ve afectada por el valor de Y, y viceversa, o utilizando la probabilidad condicional, P(X|Y) = P(X). Por ejemplo, los lanzamientos sucesivos de una moneda son independientes: para una moneda justa, P(H) = 0,5 independientemente del resultado del lanzamiento anterior, porque un lanzamiento no altera las propiedades de la moneda. En cambio, si un sistema se modifica mediante la observación, las medidas pueden asociarse o, lo que es lo mismo, depender. Las cartas sacadas sin reemplazo no son independientes; cuando se saca una carta roja, la probabilidad de sacar una negra aumenta, porque ahora hay menos cartas rojas.
La asociación no debe confundirse con la causalidad; si X causa Y, entonces las dos están asociadas (dependientes). Sin embargo, pueden surgir asociaciones entre variables en presencia (es decir, X causa Y) y en ausencia (es decir, tienen una causa común) de una relación causal, como hemos visto en el contexto de las redes bayesianas1. Como ejemplo, supongamos que observamos que las personas que toman diariamente más de 4 tazas de café tienen una menor probabilidad de desarrollar cáncer de piel. Esto no significa necesariamente que el café confiera resistencia al cáncer; una explicación alternativa sería que las personas que beben mucho café trabajan en interiores durante muchas horas y, por tanto, se exponen poco al sol, un riesgo conocido. Si este es el caso, entonces el número de horas que se pasa al aire libre es una variable de confusión, una causa común a ambas observaciones. En tal situación, no se puede inferir una relación causal directa; la asociación simplemente sugiere una hipótesis, como una causa común, pero no ofrece pruebas. Además, cuando se estudian muchas variables en sistemas complejos, pueden surgir asociaciones espurias. Por tanto, la asociación no implica causalidad.
En el lenguaje cotidiano, dependencia, asociación y correlación se utilizan indistintamente. Sin embargo, técnicamente, asociación es sinónimo de dependencia y es diferente de correlación (Fig. 1a). La asociación es una relación muy general: una variable proporciona información sobre otra. La correlación es más específica: dos variables están correlacionadas cuando muestran una tendencia creciente o decreciente. Por ejemplo, en una tendencia creciente, observar que X > μX implica que es más probable que Y > μY. Dado que no todas las asociaciones son correlaciones, y dado que la causalidad, como se ha comentado anteriormente, sólo puede conectarse a la asociación, no podemos equiparar la correlación con la causalidad en ninguna dirección.
Para los datos cuantitativos y ordinales, hay dos medidas principales de correlación: La correlación de Pearson (r), que mide las tendencias lineales, y la correlación de Spearman (rango) (s), que mide las tendencias crecientes y decrecientes que no son necesariamente lineales (Fig. 1b). Al igual que otros estadísticos, éstos tienen valores poblacionales, normalmente denominados ρ. Existen otras medidas de asociación que también se denominan coeficientes de correlación, pero que podrían no medir tendencias.
Cuando se utiliza «correlación» sin modificar, generalmente se refiere a la correlación de Pearson, dada por ρ(X, Y) = cov(X, Y)/σXσY, donde cov(X, Y) = E((X – μX)(Y – μY)). La correlación calculada a partir de la muestra se denota por r. Ambas variables deben estar en una escala de intervalo o de razón; r no puede interpretarse si alguna de las variables es ordinal. Para una tendencia lineal, |r| = 1 en ausencia de ruido y disminuye con el ruido, pero también es posible que |r| < 1 para tendencias no lineales perfectamente asociadas (Fig. 1b). Además, conjuntos de datos con asociaciones muy diferentes pueden tener la misma correlación (Fig. 1c). Por lo tanto, se debe utilizar un gráfico de dispersión para interpretar r. Si cualquiera de las variables se desplaza o se escala, r no cambia y r(X, Y) = r(aX + b, Y). Sin embargo, r es sensible a la transformación monótona no lineal (creciente o decreciente). Por ejemplo, al aplicar la transformación logarítmica, r(X, Y) ≠ r(X, log(Y)). También es sensible al rango de valores de X o Y y puede disminuir a medida que los valores se muestrean de un rango más pequeño.
Si se sospecha una relación creciente o decreciente pero no lineal, la correlación de Spearman es más apropiada. Es un método no paramétrico que convierte los datos en rangos y luego aplica la fórmula de la correlación de Pearson. Puede utilizarse cuando X es ordinal y es más resistente a los valores atípicos. Tampoco es sensible a las transformaciones monótonas crecientes porque conservan los rangos; por ejemplo, s(X, Y) = s(X, log(Y)). Para ambos coeficientes, una magnitud menor corresponde a una dispersión creciente o a una relación no monótona.
Es posible ver grandes coeficientes de correlación incluso para datos aleatorios (Fig. 2a). Por lo tanto, la r debe informarse junto con un valor P, que mide el grado en que los datos son consistentes con la hipótesis nula de que no hay una tendencia en la población. En el caso de la r de Pearson, para calcular el valor P utilizamos el estadístico de prueba √, que tiene una distribución t con f.d. = n – 2 cuando (X, Y) tiene una distribución normal bivariada (P para s no requiere normalidad) y la correlación de la población es 0. Aún más informativo es un intervalo de confianza del 95%, a menudo calculado utilizando el método bootstrap2. En la figura 2a vemos que los valores hasta |r| < 0,63 no son estadísticamente significativos: sus intervalos de confianza abarcan cero. Lo que es más importante, hay correlaciones muy grandes que son estadísticamente significativas (Fig. 2a) a pesar de que se han extraído de una población en la que la verdadera correlación es ρ = 0. Estos casos espurios (Fig. 2b) deberían esperarse cada vez que se calcula un gran número de correlaciones; por ejemplo, un estudio con sólo 140 genes produce 9.730 correlaciones. Por el contrario, correlaciones modestas entre unas pocas variables, que se sabe que son ruidosas, podrían ser biológicamente interesantes.
Debido a que P depende tanto de r como del tamaño de la muestra, nunca debe utilizarse como medida de la fuerza de la asociación. Es posible que una r más pequeña, cuya magnitud puede interpretarse como el tamaño del efecto estimado, se asocie con una P más pequeña simplemente debido a un tamaño de muestra grande3. La significación estadística de un coeficiente de correlación no implica una significación sustantiva y biológicamente relevante.
El valor de ambos coeficientes fluctuará con diferentes muestras, como se ve en la Figura 2, así como con la cantidad de ruido y/o el tamaño de la muestra. Con suficiente ruido, el coeficiente de correlación puede dejar de ser informativo sobre cualquier tendencia subyacente. La figura 3a muestra una relación perfectamente correlacionada (X, X) en la que X es un conjunto de n = 20 puntos distribuidos uniformemente en el rango en presencia de diferentes cantidades de ruido distribuido normalmente con una desviación estándar σ. A medida que σ aumenta de 0,1 a 0,3 y a 0,6, r(X, X + σ) disminuye de 0,95 a 0,69 y a 0,42. A σ = 0,6 el ruido es lo suficientemente alto como para que r = 0,42 (P = 0,063) no sea estadísticamente significativo-su intervalo de confianza incluye ρ = 0,
Cuando la tendencia lineal está enmascarada por el ruido, se necesitan muestras más grandes para medir con confianza la correlación. La figura 3b muestra cómo varía el coeficiente de correlación para submuestras de tamaño m extraídas de muestras con diferentes niveles de ruido: m = 4-20 (σ = 0,1), m = 4-100 (σ = 0,3) y m = 4-200 (σ = 0,6). Cuando σ = 0,1, el coeficiente de correlación converge a 0,96 una vez que m > 12. Sin embargo, cuando el ruido es alto, no sólo el valor de r es menor para la muestra completa (por ejemplo, r = 0,59 para σ = 0,3), sino que se necesitan submuestras más grandes para estimar ρ de forma robusta.
El coeficiente de correlación de Pearson también puede utilizarse para cuantificar cuánta fluctuación en una variable puede explicarse por su correlación con otra variable. Una discusión anterior sobre el análisis de la varianza4 mostró que el efecto de un factor sobre la variable de respuesta puede describirse como la explicación de la variación en la respuesta; la respuesta varió, y una vez que el factor se tuvo en cuenta, la variación disminuyó. El coeficiente de correlación de Pearson al cuadrado r2 tiene una función similar: es la proporción de la variación de Y explicada por X (y viceversa). Por ejemplo, r = 0,05 significa que sólo el 0,25% de la varianza de Y se explica por X (y viceversa), y r = 0,9 significa que el 81% de la varianza de Y se explica por X. Esta interpretación es útil en las evaluaciones de la importancia biológica de la magnitud de r cuando es estadísticamente significativa.
Además de la correlación entre rasgos, también podemos hablar de la correlación entre los ítems que estamos midiendo. Esto también se expresa como la proporción de varianza explicada. En particular, si las unidades están agrupadas, entonces la correlación intraclase (que debe considerarse como una correlación al cuadrado) es el porcentaje de varianza explicado por las agrupaciones y viene dado por σb2/(σb2 + σw2), donde σb2 es la variación entre agrupaciones y σb2 + σw2 es la variación total entre y dentro de las agrupaciones. Esta fórmula se discutió anteriormente en un examen del porcentaje de la varianza total explicada por la variación biológica5 donde los clusters son las réplicas técnicas para la misma réplica biológica. Al igual que con la correlación entre características, cuanto mayor sea la correlación intraclase, menor será la dispersión en los datos, esta vez medida no a partir de la curva de tendencia sino de los centros de los clusters.
La asociación es lo mismo que la dependencia y puede deberse a una causalidad directa o indirecta. La correlación implica tipos específicos de asociación, como las tendencias monótonas o la agrupación, pero no la causalidad. Por ejemplo, cuando el número de características es grande en comparación con el tamaño de la muestra, es frecuente que se produzcan correlaciones grandes pero espurias. Por el contrario, cuando hay un gran número de observaciones, las correlaciones pequeñas y sin importancia pueden ser estadísticamente significativas.