Association, corrélation et causalité

La plupart des études comprennent de multiples variables de réponse, et les dépendances entre elles sont souvent d’un grand intérêt. Par exemple, nous pouvons souhaiter savoir si les niveaux d’ARNm et de la protéine correspondante varient ensemble dans un tissu, ou si l’augmentation des niveaux d’un métabolite est associée à la modification des niveaux d’un autre. Ce mois-ci, nous entamons une série de chroniques sur les relations entre variables (ou caractéristiques d’un système), en commençant par la façon dont les dépendances par paires peuvent être caractérisées à l’aide de la corrélation.

Deux variables sont indépendantes lorsque la valeur de l’une ne donne aucune information sur la valeur de l’autre. Pour les variables X et Y, on peut exprimer l’indépendance en disant que la chance de mesurer l’une des valeurs possibles de X n’est pas affectée par la valeur de Y, et vice versa, ou en utilisant la probabilité conditionnelle, P(X|Y) = P(X). Par exemple, les lancers successifs d’une pièce de monnaie sont indépendants – pour une pièce juste, P(H) = 0,5 quel que soit le résultat du lancer précédent, car un lancer ne modifie pas les propriétés de la pièce. En revanche, si un système est modifié par l’observation, les mesures peuvent devenir associées ou, de manière équivalente, dépendantes. Les cartes tirées sans remplacement ne sont pas indépendantes ; lorsqu’une carte rouge est tirée, la probabilité de tirer une carte noire augmente, car il y a maintenant moins de cartes rouges.

L’association ne doit pas être confondue avec la causalité ; si X cause Y, alors les deux sont associés (dépendants). Cependant, des associations peuvent survenir entre des variables en présence (c’est-à-dire que X cause Y) et en l’absence (c’est-à-dire qu’elles ont une cause commune) d’une relation causale, comme nous l’avons vu dans le contexte des réseaux bayésiens1. À titre d’exemple, supposons que nous observions que les personnes qui boivent quotidiennement plus de 4 tasses de café ont moins de chances de développer un cancer de la peau. Cela ne signifie pas nécessairement que le café confère une résistance au cancer ; une autre explication serait que les personnes qui boivent beaucoup de café travaillent en intérieur pendant de longues heures et sont donc peu exposées au soleil, un risque connu. Si c’est le cas, alors le nombre d’heures passées à l’extérieur est une variable de confusion – une cause commune aux deux observations. Dans une telle situation, un lien de causalité direct ne peut être déduit ; l’association suggère simplement une hypothèse, comme une cause commune, mais n’offre pas de preuve. En outre, lorsque de nombreuses variables de systèmes complexes sont étudiées, des associations fallacieuses peuvent apparaître. Ainsi, l’association n’implique pas la causalité.

Dans le langage courant, dépendance, association et corrélation sont utilisées de manière interchangeable. Techniquement, cependant, l’association est synonyme de dépendance et est différente de la corrélation (figure 1a). L’association est une relation très générale : une variable fournit des informations sur une autre. La corrélation est plus spécifique : deux variables sont corrélées lorsqu’elles présentent une tendance à la hausse ou à la baisse. Par exemple, dans une tendance croissante, observer que X > μX implique qu’il est plus probable que Y > μY. Parce que toutes les associations ne sont pas des corrélations, et parce que la causalité, comme nous l’avons vu plus haut, ne peut être reliée qu’à l’association, nous ne pouvons pas assimiler la corrélation à la causalité dans un sens ou dans l’autre.

Figure 1 : La corrélation est un type d’association et mesure des tendances croissantes ou décroissantes quantifiées à l’aide de coefficients de corrélation.

(a) Diagrammes de dispersion de variables associées (mais non corrélées), non associées et corrélées. Dans l’exemple de l’association inférieure, la variance de y augmente avec x. (b) Le coefficient de corrélation de Pearson (r, noir) mesure les tendances linéaires, et le coefficient de corrélation de Spearman (s, rouge) les tendances croissantes ou décroissantes. (c) Des ensembles de données très différents peuvent avoir des valeurs r similaires. Des descripteurs tels que la courbure ou la présence de valeurs aberrantes peuvent être plus spécifiques.

Pour les données quantitatives et ordinales, il existe deux mesures principales de corrélation : La corrélation de Pearson (r), qui mesure les tendances linéaires, et la corrélation de Spearman (rang) (s), qui mesure les tendances croissantes et décroissantes qui ne sont pas nécessairement linéaires (figure 1b). Comme d’autres statistiques, celles-ci ont des valeurs de population, généralement appelées ρ. Il existe d’autres mesures d’association qui sont également appelées coefficients de corrélation, mais qui peuvent ne pas mesurer les tendances.

Lorsque le terme « corrélé » est utilisé sans modification, il fait généralement référence à la corrélation de Pearson, donnée par ρ(X, Y) = cov(X, Y)/σXσY, où cov(X, Y) = E((X – μX)(Y – μY)). La corrélation calculée à partir de l’échantillon est désignée par r. Les deux variables doivent être sur une échelle d’intervalle ou de rapport ; r ne peut pas être interprété si l’une des variables est ordinale. Pour une tendance linéaire, |r| = 1 en l’absence de bruit et diminue avec le bruit, mais il est également possible que |r| < 1 pour des tendances non linéaires parfaitement associées (figure 1b). De plus, des ensembles de données avec des associations très différentes peuvent avoir la même corrélation (Fig. 1c). Ainsi, un diagramme de dispersion doit être utilisé pour interpréter r. Si l’une des variables est décalée ou mise à l’échelle, r ne change pas et r(X, Y) = r(aX + b, Y). Cependant, r est sensible aux transformations monotones non linéaires (croissantes ou décroissantes). Par exemple, lorsqu’on applique une transformation logarithmique, r(X, Y) ≠ r(X, log(Y)). Elle est également sensible à la plage de valeurs X ou Y et peut diminuer lorsque les valeurs sont échantillonnées dans une plage plus petite.

Si l’on soupçonne une relation croissante ou décroissante mais non linéaire, la corrélation de Spearman est plus appropriée. Il s’agit d’une méthode non paramétrique qui convertit les données en rangs, puis applique la formule de la corrélation de Pearson. Elle peut être utilisée lorsque X est ordinal et est plus robuste aux valeurs aberrantes. Elle n’est pas non plus sensible aux transformations monotones croissantes car elles préservent les rangs – par exemple, s(X, Y) = s(X, log(Y)). Pour les deux coefficients, une magnitude plus petite correspond à une dispersion croissante ou à une relation non monotone.

Il est possible de voir des coefficients de corrélation importants même pour des données aléatoires (Fig. 2a). Ainsi, r doit être rapporté avec une valeur P, qui mesure le degré de cohérence des données avec l’hypothèse nulle d’absence de tendance dans la population. Pour le r de Pearson, pour calculer la valeur P, nous utilisons la statistique de test √, qui est distribuée en t avec d.f. = n – 2 lorsque (X, Y) a une distribution normale bivariée (P pour s ne nécessite pas de normalité) et que la corrélation de la population est 0. Un intervalle de confiance à 95 %, souvent calculé à l’aide de la méthode bootstrap2, est encore plus informatif. Dans la figure 2a, nous voyons que les valeurs jusqu’à |r| < 0,63 ne sont pas statistiquement significatives – leurs intervalles de confiance sont nuls. Plus important encore, il existe des corrélations très importantes qui sont statistiquement significatives (figure 2a) même si elles sont tirées d’une population dans laquelle la vraie corrélation est ρ = 0. Ces cas fallacieux (figure 2b) doivent être attendus chaque fois qu’un grand nombre de corrélations est calculé – par exemple, une étude avec seulement 140 gènes donne 9 730 corrélations. Inversement, des corrélations modestes entre quelques variables, connues pour être bruyantes, pourraient être biologiquement intéressantes.

Figure 2 : Les coefficients de corrélation fluctuent dans les données aléatoires, et des corrélations fallacieuses peuvent apparaître.

(a) Distribution (gauche) et intervalles de confiance à 95% (droite) des coefficients de corrélation de 10 000 n = 10 échantillons de deux variables indépendantes normalement distribuées. Les coefficients statistiquement significatifs (α = 0,05) et les intervalles correspondants qui n’incluent pas r = 0 sont surlignés en bleu. (b) Échantillons avec les trois plus grands et plus petits coefficients de corrélation (statistiquement significatifs) de a.

Parce que P dépend à la fois de r et de la taille de l’échantillon, il ne devrait jamais être utilisé comme une mesure de la force de l’association. Il est possible qu’un r plus petit, dont la magnitude peut être interprétée comme la taille de l’effet estimé, soit associé à un P plus petit simplement en raison d’une grande taille d’échantillon3. La signification statistique d’un coefficient de corrélation n’implique pas une signification substantielle et biologiquement pertinente.

La valeur des deux coefficients fluctuera avec différents échantillons, comme le montre la figure 2, ainsi qu’avec la quantité de bruit et/ou la taille de l’échantillon. Avec suffisamment de bruit, le coefficient de corrélation peut cesser d’être informatif sur toute tendance sous-jacente. La figure 3a montre une relation parfaitement corrélée (X, X) où X est un ensemble de n = 20 points uniformément distribués dans l’intervalle en présence de différentes quantités de bruit normalement distribué avec un écart type σ. Lorsque σ augmente de 0,1 à 0,3 puis 0,6, r(X, X + σ) diminue de 0,95 à 0,69 puis 0,42. À σ = 0,6, le bruit est suffisamment élevé pour que r = 0,42 (P = 0,063) ne soit pas statistiquement significatif – son intervalle de confiance inclut ρ = 0,

Figure 3 : Effet du bruit et de la taille de l’échantillon sur le coefficient de corrélation de Pearson r.

(a) r d’un échantillon n = 20 de (X, X + ɛ), où ɛ est le bruit normalement distribué mis à l’échelle de l’écart-type σ. La quantité de dispersion et la valeur de r pour trois valeurs de σ sont indiquées. La zone ombrée représente l’intervalle de confiance à 95 %. Les intervalles qui n’incluent pas r = 0 sont surlignés en bleu (σ < 0,58), et ceux qui le font sont surlignés en gris et correspondent à des valeurs r non significatives (ns ; par exemple, r = 0,42 avec P = 0,063). (b) Lorsque la taille de l’échantillon augmente, r devient moins variable et l’estimation de la corrélation de la population s’améliore. Les échantillons illustrés sont de taille et de bruit croissants : n = 20 (σ = 0,1), n = 100 (σ = 0,3) et n = 200 (σ = 0,6). Les tracés en bas montrent r calculé à partir d’un sous-échantillon, créé à partir des m premières valeurs de chaque échantillon.

Lorsque la tendance linéaire est masquée par le bruit, des échantillons plus grands sont nécessaires pour mesurer la corrélation avec confiance. La figure 3b montre comment le coefficient de corrélation varie pour des sous-échantillons de taille m tirés d’échantillons à différents niveaux de bruit : m = 4-20 (σ = 0,1), m = 4-100 (σ = 0,3) et m = 4-200 (σ = 0,6). Lorsque σ = 0,1, le coefficient de corrélation converge vers 0,96 dès que m > 12. Cependant, lorsque le bruit est élevé, non seulement la valeur de r est plus faible pour l’échantillon complet (par exemple, r = 0,59 pour σ = 0,3), mais de plus grands sous-échantillons sont nécessaires pour estimer de manière robuste ρ.

Le coefficient de corrélation de Pearson peut également être utilisé pour quantifier la quantité de fluctuation d’une variable qui peut être expliquée par sa corrélation avec une autre variable. Une discussion précédente sur l’analyse de la variance4 a montré que l’effet d’un facteur sur la variable de réponse peut être décrit comme expliquant la variation de la réponse ; la réponse a varié, et une fois le facteur pris en compte, la variation a diminué. Le coefficient de corrélation de Pearson au carré r2 joue un rôle similaire : il s’agit de la proportion de la variation de Y expliquée par X (et vice versa). Par exemple, r = 0,05 signifie que seulement 0,25% de la variance de Y est expliquée par X (et vice versa), et r = 0,9 signifie que 81% de la variance de Y est expliquée par X. Cette interprétation est utile pour évaluer l’importance biologique de la magnitude de r lorsqu’elle est statistiquement significative.

En plus de la corrélation entre les caractéristiques, nous pouvons également parler de la corrélation entre les éléments que nous mesurons. Celle-ci s’exprime également par la proportion de la variance expliquée. En particulier, si les unités sont groupées, la corrélation intraclasse (qui doit être considérée comme une corrélation au carré) est le pourcentage de variance expliqué par les groupes et est donnée par σb2/(σb2 + σw2), où σb2 est la variation entre groupes et σb2 + σw2 est la variation totale entre et dans les groupes. Cette formule a été discutée précédemment dans le cadre d’un examen du pourcentage de la variance totale expliquée par la variation biologique5 où les clusters sont les réplicats techniques pour le même réplicat biologique. Comme pour la corrélation entre les caractéristiques, plus la corrélation intraclasse est élevée, moins il y a de dispersion dans les données – cette fois-ci mesurée non pas à partir de la courbe de tendance mais à partir des centres des clusters.

L’association est identique à la dépendance et peut être due à une causalité directe ou indirecte. La corrélation implique des types spécifiques d’association tels que des tendances monotones ou des regroupements, mais pas de causalité. Par exemple, lorsque le nombre de caractéristiques est important par rapport à la taille de l’échantillon, des corrélations importantes mais fallacieuses apparaissent fréquemment. Inversement, lorsqu’il y a un grand nombre d’observations, des corrélations faibles et sans importance peuvent être statistiquement significatives.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.