Association, correlation and causation

ほとんどの研究では、複数の応答変数があり、それらの間の依存関係はしばしば大きな関心事となる。 例えば、ある組織でmRNAとそれに対応するタンパク質のレベルが一緒に変化しているかどうかや、ある代謝物のレベルの上昇が別の代謝物のレベルの変化と関連しているかどうかを知りたい場合があります。 今月は、変数 (またはシステムの特徴) 間の関係に関する一連のコラムを開始し、相関関係を使用してペアワイズ依存性をどのように特徴付けることができるかを説明します。 変数XとYについて、Xの可能な値のいずれかを測定する確率はYの値に影響されないと言い、その逆は、P(X|Y)=P(X)という条件付き確率を使うことによって独立性を表現することができる。 例えば、コインを連続して投げると、前のコインの結果に関係なく、P(H) = 0.5となり、コインの性質が変化しない。 これに対して、観測によって系が変化すると、測定値が関連づけられたり、逆に依存するようになることがある。 赤いカードが引かれると、黒いカードを引く確率が高くなるが、これは赤いカードの枚数が少なくなったからである。 しかし、ベイジアンネットワークの文脈で見てきたように、因果関係がある(つまり、XがYを引き起こす)場合とない場合(つまり、共通の原因がある)でも、変数間に関連性が生じることがあります1。 例えば、毎日4杯以上のコーヒーを飲む人は、皮膚がんになる確率が低いことが観察されたとする。 これは必ずしもコーヒーが癌に対する抵抗力を持つことを意味しません。別の説明として、コーヒーをたくさん飲む人は室内で長時間働いているため、リスクとして知られている日光にほとんど当たらないということが考えられます。 もしそうであれば、屋外で過ごした時間が交絡変数となり、両方の観察に共通する原因となる。 このような状況では、直接的な因果関係を推論することはできない。関連は、共通の原因などの仮説を示唆するだけで、証明にはならない。 また、複雑なシステムの多くの変数を調査する場合、偽の関連性が生じる可能性がある。 したがって、関連は因果関係を意味しない。

日常語では、依存、関連、相関は同じ意味で使われている。 しかし、技術的には、関連は依存と同義であり、相関とは異なる(図1a)。 関連は非常に一般的な関係で、ある変数が別の変数に関する情報を提供する。 相関はより具体的で、2つの変数が増加または減少の傾向を示すとき、相関があるとされる。 例えば、増加傾向の場合、X > μXを観察すると、Y > μYの可能性が高くなることを意味する。 すべての関連が相関であるわけではなく、また、前述したように因果関係は関連にしか結びつかないので、相関と因果関係をどちらかに一致させることはできない。

図1:相関は関連の一種で、相関係数を用いて定量化した増減傾向を測る。

(a)associated (but not correlated), non-association and correlated variablesの散布図です。 下の関連例では、yの分散がxとともに増加している。 (b) ピアソン相関係数(r、黒)は線形傾向を測定し、スピアマン相関係数(s、赤)は増加または減少の傾向を測定する。 (c) 全く異なるデータセットでも、同じようなr値を示すことがある。 曲率や外れ値の有無などの記述子はより具体的である。

定量データや順序データには、主に2つの相関の尺度がある。 線形傾向を測定するピアソンの相関(r)と、必ずしも線形ではない増減傾向を測定するスピアマンの(順位)相関(s)である(図1b)。 他の統計と同様、これらは母数を持ち、通常ρと呼ばれます。 相関係数と呼ばれる他の関連性の尺度もありますが、それは傾向を測定しないかもしれません。

「相関」をそのまま使う場合、一般にピアソンの相関を指し、ρ(X, Y)=cov(X, Y)/σXσY で、ここで cov(X, Y)=E((X – μX)(Y – μY)) で与えられます。 標本から計算された相関は,r で示される.両方の変数が区間または比率尺度でなければならず,どちらかの変数が序数である場合,r は解釈されない. 線形トレンドの場合、ノイズがなければ|r|=1であり、ノイズとともに減少するが、完全に関連した非線形トレンドでは|r|<4357>1ということもありうる(図1b)。 また、非常に異なる関連を持つデータセットが同じ相関を持つこともある(Fig.1c)。 したがって、散布図はrを解釈するために使用されるべきである。どちらかの変数がシフトまたはスケーリングされた場合、rは変化せず、r(X, Y) = r(aX + b, Y)である。 しかし、rは非線形の単調(増加または減少)変換に敏感である。 例えば、対数変換を施すと、r(X, Y) ≠ r(X, log(Y))となる。 また、XやYの値の範囲に敏感で、小さい範囲から値をサンプリングすると減少することがあります。

増加または減少しているが非線形関係が疑われる場合は、スピアマンの相関がより適切です。 これはノンパラメトリックな方法で、データをランクに変換し、ピアソン相関の式を適用するものである。 Xが序数である場合に使用でき、外れ値に対してよりロバストである。 また、ランクを保持するため、単調増加変換にも影響されない-例えば、 s(X, Y) = s(X, log(Y)). 両係数とも、大きさが小さいほど散らばりが大きいか、単調でない関係であることを意味する。 したがって、rはP値とともに報告されるべきで、これはデータが母集団に傾向がないという帰無仮説とどの程度一致しているかを測るものである。 Pearsonのrでは、P値を計算するために検定統計量√を使います。これは(X, Y)が2変量正規分布で(P for sは正規性を必要としない)、母相関が0のときd.f.=n – 2のt分布になります。 図2aでは、|r| < 0.63までの値は統計的に有意ではなく、その信頼区間は0に及ぶことがわかる。 さらに重要なことは、真の相関がρ=0である集団から抽出されたにもかかわらず、統計的に有意な非常に大きな相関が存在することです(図2a)。これらの偽のケース(図2b)は、多数の相関を計算する際には常に予想されることです。例えば、140の遺伝子しかない研究では、9,730件の相関を得ることができます。 図2:ランダムなデータでは相関係数が変動し、偽の相関が発生する可能性がある。 統計的に有意な係数(α=0.05)とr=0を含まない対応する区間は青でハイライトされている。 (b) a.から3つの最大と最小の相関係数(統計的に有意)を持つサンプル

P はrとサンプルサイズの両方に依存するので、それは決して関連性の強さの尺度として使われてはならない。 サンプルサイズが大きいという理由だけで、推定効果量と解釈される小さいrが小さいPと関連する可能性がある3。 相関係数の統計的有意性は、実質的かつ生物学的な有意性を意味するものではない

両係数の値は、図2に見られるように、異なるサンプルによって、またノイズの量やサンプルサイズによって変動する。 十分なノイズがあると、相関係数は基本的な傾向についての情報にはならなくなります。 図3aは、標準偏差σを持つ正規分布ノイズの存在下で、範囲内で一様に分布するn=20点の集合をXとした完全相関関係(X、X)を示しています。 σが0.1→0.3→0.6と増加するにつれ、r(X, X + σ)は0.95→0.69→0.42と減少していくことがわかる。 σ=0.6ではノイズが大きいのでr=0.42(P=0.063)は統計的に有意ではなく、その信頼区間にはρ=0.

Figure 3: ピアソンの相関係数rに対するノイズとサンプルサイズによる影響。

(a) (X, X + ɛ)のn = 20サンプルのr、ここでɛは標準偏差σにスケールを合わせた正規分布ノイズです。 3つのσの値における散乱量とrの値を示している。 網掛けは95%信頼区間である。 r = 0を含まない区間は青で強調され(σ < 0.58)、含むものは灰色で強調され、有意ではないr値(ns;例えば、r = 0.42 with P = 0.063)に相当している。 (b)サンプルサイズが大きくなると、rの変動が少なくなり、母集団相関の推定値が改善される。 n = 20 (σ = 0.1), n = 100 (σ = 0.3), n = 200 (σ = 0.6) とサンプルサイズとノイズが増加する様子を示しています。 下のトレースは、各サンプルの最初のm個の値から作成したサブサンプルから計算したrを示す。

線形トレンドがノイズによってマスクされている場合、相関を確実に測定するには、より大きなサンプルが必要である。 図3bは、異なるノイズレベルのサンプルから抽出したサイズmのサブサンプルについて、相関係数がどのように変化するかを示している:m = 4-20 (σ = 0.1), m = 4-100 (σ = 0.3), m = 4-200 (σ = 0.6). σ=0.1の場合、m> 12になると相関係数は0.96に収束する。 しかし、ノイズが大きい場合は、全標本のrの値が低くなるだけでなく(例えば、σ=0.3の場合はr=0.59)、ρを頑健に推定するには、より大きな部分標本が必要になります。

ピアソン相関係数は、ある変数の変動が他の変数との相関でどのくらい説明できるか定量するのにも使用されます。 分散分析に関する以前の議論4は,応答変数に対する因子の効果が,応答の変動を説明すると表現できることを示した.応答は変動し,因子が説明されると,変動は減少する. 二乗ピアソン相関係数 r2 は,同様の役割を持つ:それは,X によって説明される Y の変動の割合である(逆もまた然り). 例えば、r=0.05はYの分散の0.25%しかXで説明できないことを意味し、r=0.9はYの分散の81%がXで説明できることを意味します。この解釈はrの大きさが統計的に有意な場合、その生物学的重要性を評価する際に有用です

特徴間の相関以外に、測定するアイテム間の相関について話すこともあります。 これは説明される分散の割合としても表現される。 特に、単位がクラスタ化されている場合、クラス内相関(二乗相関と考えるべき)はクラスタによって説明される分散の割合であり、σb2/(σb2+σw2)で与えられ、σb2はクラスタ間変動、σb2+σw2はクラスタ内変動の合計となる。 この式は、以前、生物学的変動によって説明される全変動の割合の検討5で述べたもので、クラスターは、同じ生物学的複製に対する技術的複製である。 クラス内相関が高ければ高いほど、データのばらつきが少ないということになる。 相関は単調なトレンドやクラスタリングなど特定のタイプの関連を意味するが、因果関係はない。 例えば、標本サイズに比べて特徴量の数が多い場合、大きな相関が生じるが、偽の相関が生じることが多い。 逆に、観測数が多い場合は、小さくて実質的に重要でない相関が統計的に有意になることもある

コメントを残す

メールアドレスが公開されることはありません。