Większość badań zawiera wiele zmiennych odpowiedzi, a zależności między nimi są często bardzo interesujące. Na przykład, możemy chcieć wiedzieć, czy poziomy mRNA i odpowiadającego mu białka zmieniają się razem w tkance, lub czy rosnące poziomy jednego metabolitu są związane ze zmienionymi poziomami innego. W tym miesiącu rozpoczynamy serię felietonów o związkach między zmiennymi (lub cechami systemu), zaczynając od tego, jak zależności między parami można scharakteryzować za pomocą korelacji.
Dwie zmienne są niezależne, gdy wartość jednej z nich nie daje informacji o wartości drugiej. Dla zmiennych X i Y możemy wyrazić niezależność mówiąc, że na szansę zmierzenia jakiejkolwiek z możliwych wartości X nie ma wpływu wartość Y, i odwrotnie, lub używając prawdopodobieństwa warunkowego, P(X|Y) = P(X). Na przykład, kolejne rzuty monetą są niezależne dla uczciwej monety, P(H) = 0.5 niezależnie od wyniku poprzedniego rzutu, ponieważ rzut nie zmienia właściwości monety. W przeciwieństwie do tego, jeśli system jest zmieniany przez obserwację, pomiary mogą stać się powiązane lub, równoważnie, zależne. Karty rysowane bez wymiany nie są niezależne; kiedy czerwona karta jest rysowana, prawdopodobieństwo rysowania czarnej karty wzrasta, ponieważ teraz jest mniej czerwonych kart.
Asocjacja nie powinna być mylona z przyczynowością; jeśli X powoduje Y, to dwa są związane (zależne). Jednak asocjacje mogą powstać między zmiennymi w obecności (tzn. X powoduje Y) i braku (tzn. mają wspólną przyczynę) związku przyczynowego, jak widzieliśmy w kontekście sieci bayesowskich1. Jako przykład, załóżmy, że obserwujemy, że ludzie, którzy codziennie piją więcej niż 4 filiżanki kawy, mają zmniejszone szanse na rozwój raka skóry. Nie musi to oznaczać, że kawa nadaje odporność na raka; jednym z alternatywnych wyjaśnień może być to, że ludzie, którzy piją dużo kawy, pracują w zamkniętych pomieszczeniach przez długie godziny, a zatem mają niewielką ekspozycję na słońce, co stanowi znane ryzyko. Jeśli tak jest, to liczba godzin spędzonych na świeżym powietrzu jest zmienną zakłócającą – przyczyną wspólną dla obu obserwacji. W takiej sytuacji nie można wnioskować o bezpośrednim związku przyczynowym; skojarzenie jedynie sugeruje hipotezę, taką jak wspólna przyczyna, ale nie stanowi dowodu. Ponadto, gdy badanych jest wiele zmiennych w złożonych systemach, mogą pojawić się fałszywe skojarzenia. Tak więc, stowarzyszenie nie implikuje przyczynowości.
W języku potocznym, zależność, stowarzyszenie i korelacja są używane zamiennie. Technicznie jednak, asocjacja jest synonimem zależności i różni się od korelacji (Rys. 1a). Asocjacja jest bardzo ogólną relacją: jedna zmienna dostarcza informacji o drugiej. Korelacja jest bardziej szczegółowa: dwie zmienne są skorelowane, gdy wykazują trend rosnący lub malejący. Na przykład, w trendzie rosnącym, zaobserwowanie, że X > μX implikuje, że jest bardziej prawdopodobne, że Y > μY. Ponieważ nie wszystkie asocjacje są korelacjami i ponieważ przyczynowość, jak omówiono powyżej, może być związana tylko z asocjacją, nie możemy utożsamiać korelacji z przyczynowością w żadnym kierunku.
Dla danych ilościowych i porządkowych istnieją dwie podstawowe miary korelacji: Korelacja Pearsona (r), która mierzy trendy liniowe, oraz korelacja Spearmana (rangowa) (s), która mierzy trendy rosnące i malejące, niekoniecznie liniowe (rys. 1b). Podobnie jak inne statystyki, mają one wartości populacyjne, zwykle określane jako ρ. Istnieją inne miary asocjacji, które są również określane jako współczynniki korelacji, ale które mogą nie mierzyć trendów.
Gdy „skorelowany” jest używany bez modyfikacji, ogólnie odnosi się do korelacji Pearsona, danej przez ρ(X, Y) = cov(X, Y)/σXσY, gdzie cov(X, Y) = E((X – μX)(Y – μY)). Korelacja obliczona na podstawie próby jest oznaczana jako r. Obie zmienne muszą być na skali przedziałowej lub stosunkowej; r nie może być interpretowane, jeżeli któraś ze zmiennych jest porządkowa. Dla trendu liniowego |r| = 1 przy braku szumu i maleje z szumem, ale jest również możliwe, że |r| < 1 dla doskonale powiązanych trendów nieliniowych (Rys. 1b). Ponadto, zestawy danych o bardzo różnych skojarzeniach mogą mieć tę samą korelację (Rys. 1c). Dlatego do interpretacji r należy użyć wykresu rozrzutu. Jeśli któraś ze zmiennych jest przesunięta lub przeskalowana, r nie zmienia się i r(X, Y) = r(aX + b, Y). Jednakże r jest wrażliwe na nieliniowe, monotoniczne (rosnące lub malejące) przekształcenia. Na przykład, przy zastosowaniu transformacji logarytmicznej, r(X, Y) ≠ r(X, log(Y)). Jest ona również wrażliwa na zakres wartości X lub Y i może maleć, gdy wartości są próbkowane z mniejszego zakresu.
Jeśli podejrzewa się rosnącą lub malejącą, ale nieliniową zależność, bardziej odpowiednia jest korelacja Spearmana. Jest to metoda nieparametryczna, która przekształca dane na rangi, a następnie stosuje wzór na korelację Pearsona. Może być stosowana, gdy X jest porządkowe i jest bardziej odporna na wartości odstające. Nie jest ona również wrażliwa na monotoniczne transformacje rosnące, ponieważ zachowują one rangi – na przykład s(X, Y) = s(X, log(Y)). Dla obu współczynników, mniejsza wielkość odpowiada rosnącemu rozproszeniu lub niemonotonicznemu związkowi.
Możliwe jest zaobserwowanie dużych współczynników korelacji nawet dla danych losowych (Rys. 2a). Dlatego r powinno być podawane wraz z wartością P, która mierzy stopień, w jakim dane są zgodne z hipotezą zerową, że w populacji nie ma trendu. W przypadku r Pearsona, aby obliczyć wartość P, używamy statystyki testowej √, która jest rozkładana t z d.f. = n – 2, gdy (X, Y) ma dwuczynnikowy rozkład normalny (P dla s nie wymaga normalności), a korelacja w populacji wynosi 0. Jeszcze bardziej informacyjny jest 95% przedział ufności, często obliczany przy użyciu metody bootstrap2. Na rysunku 2a widzimy, że wartości do |r| < 0.63 nie są statystycznie istotne – ich przedziały ufności obejmują zero. Co ważniejsze, istnieją bardzo duże korelacje, które są statystycznie istotne (ryc. 2a), mimo że pochodzą z populacji, w której prawdziwa korelacja wynosi ρ = 0. Takich fałszywych przypadków (ryc. 2b) należy się spodziewać za każdym razem, gdy obliczana jest duża liczba korelacji – na przykład badanie z zaledwie 140 genami daje 9 730 korelacji. I odwrotnie, skromne korelacje między kilkoma zmiennymi, o których wiadomo, że są zaszumione, mogą być biologicznie interesujące.
Ponieważ P zależy zarówno od r, jak i od wielkości próby, nigdy nie powinno się go używać jako miary siły związku. Możliwe jest, aby mniejsze r, którego wielkość może być interpretowana jako szacowana wielkość efektu, było związane z mniejszym P tylko z powodu dużej liczebności próby3. Statystyczna istotność współczynnika korelacji nie implikuje istotnego i biologicznie istotnego znaczenia.
Wartość obu współczynników będzie się wahać z różnymi próbkami, jak widać na rycinie 2, jak również z ilością szumu i / lub wielkością próbki. Przy wystarczającym szumie, współczynnik korelacji może przestać być informatywny o jakimkolwiek podstawowym trendzie. Rysunek 3a przedstawia doskonale skorelowaną zależność (X, X), gdzie X jest zbiorem n = 20 punktów równomiernie rozłożonych w przedziale w obecności różnych ilości normalnie rozłożonego szumu o odchyleniu standardowym σ. Wraz ze wzrostem σ z 0,1 przez 0,3 do 0,6, r(X, X + σ) maleje z 0,95 przez 0,69 do 0,42. Przy σ = 0,6 szum jest na tyle duży, że r = 0,42 (P = 0,063) nie jest statystycznie istotne – jego przedział ufności obejmuje ρ = 0,
Gdy trend liniowy jest maskowany przez szum, potrzebne są większe próbki, aby pewnie zmierzyć korelację. Rysunek 3b pokazuje, jak współczynnik korelacji zmienia się dla podpróbek o wielkości m wylosowanych z próbek przy różnych poziomach szumu: m = 4-20 (σ = 0.1), m = 4-100 (σ = 0.3) i m = 4-200 (σ = 0.6). Gdy σ = 0,1, współczynnik korelacji zbiega do 0,96, gdy m > 12. Jednakże, gdy szum jest wysoki, nie tylko wartość r jest niższa dla pełnej próby (np. r = 0,59 dla σ = 0,3), ale większe podpróby są potrzebne do solidnego oszacowania ρ.
Współczynnik korelacji Pearsona może być również użyty do ilościowego określenia, jak wiele wahań w jednej zmiennej może być wyjaśnione przez jej korelację z inną zmienną. Poprzednia dyskusja na temat analizy wariancji4 pokazała, że wpływ czynnika na zmienną odpowiedzi może być opisany jako wyjaśnienie zmienności odpowiedzi; odpowiedź zmieniała się, a gdy czynnik został uwzględniony, zmienność zmniejszyła się. Kwadratowy współczynnik korelacji Pearsona r2 pełni podobną rolę: jest to część zmienności w Y wyjaśniona przez X (i odwrotnie). Na przykład r = 0,05 oznacza, że tylko 0,25% wariancji Y jest wyjaśnione przez X (i vice versa), a r = 0,9 oznacza, że 81% wariancji Y jest wyjaśnione przez X. Ta interpretacja jest pomocna w ocenie biologicznego znaczenia wielkości r, gdy jest ona statystycznie istotna.
Poza korelacją między cechami, możemy również mówić o korelacji między elementami, które mierzymy. Jest to również wyrażone jako proporcja wyjaśnionej wariancji. W szczególności, jeśli jednostki są skupione w klastry, wtedy korelacja wewnątrzklasowa (o której należy myśleć jako o korelacji podniesionej do kwadratu) jest procentem wariancji wyjaśnionej przez klastry i jest dana przez σb2/(σb2 + σw2), gdzie σb2 jest zmiennością międzyklastrową, a σb2 + σw2 jest całkowitą zmiennością między- i wewnątrzklastrową. Wzór ten został omówiony wcześniej w badaniu procentu całkowitej wariancji wyjaśnionej przez zmienność biologiczną5 , gdzie klastry są technicznymi replikami dla tego samego repliki biologicznej. Podobnie jak w przypadku korelacji między cechami, im wyższa korelacja wewnątrzklasowa, tym mniejszy rozrzut w danych – tym razem mierzony nie na podstawie krzywej trendu, ale na podstawie centrów klastrów.
Asocjacja jest tym samym co zależność i może wynikać z bezpośredniej lub pośredniej przyczynowości. Korelacja implikuje specyficzne rodzaje asocjacji, takie jak monotoniczne trendy lub grupowanie, ale nie przyczynowość. Na przykład, gdy liczba cech jest duża w porównaniu z wielkością próby, często występują duże, ale fałszywe korelacje. I odwrotnie, gdy istnieje duża liczba obserwacji, małe i merytorycznie nieistotne korelacje mogą być statystycznie istotne.
.