Většina studií zahrnuje více proměnných odpovědí a závislosti mezi nimi jsou často velmi zajímavé. Například můžeme chtít vědět, zda se hladiny mRNA a odpovídajícího proteinu ve tkáni mění společně, nebo zda je zvýšení hladiny jednoho metabolitu spojeno se změnou hladiny jiného. Tento měsíc začínáme sérii sloupků o vztazích mezi proměnnými (nebo vlastnostmi systému) a začínáme tím, jak lze párové závislosti charakterizovat pomocí korelace.
Dvě proměnné jsou nezávislé, když hodnota jedné z nich neposkytuje žádnou informaci o hodnotě druhé. U proměnných X a Y můžeme vyjádřit nezávislost tak, že řekneme, že šance na naměření kterékoli z možných hodnot X není ovlivněna hodnotou Y a naopak, nebo pomocí podmíněné pravděpodobnosti, P(X|Y) = P(X). Například po sobě jdoucí hody mincí jsou nezávislé – pro spravedlivou minci platí P(H) = 0,5 bez ohledu na výsledek předchozího hodu, protože hod nemění vlastnosti mince. Naproti tomu, pokud je systém pozorováním změněn, mohou se měření stát asociovanými nebo ekvivalentně závislými. Karty tažené bez výměny nejsou nezávislé; když je tažena červená karta, zvyšuje se pravděpodobnost tažení černé karty, protože nyní je červených karet méně.
Asociace by se neměla zaměňovat s kauzalitou; jestliže X způsobuje Y, pak jsou tyto dvě věci asociované (závislé). Asociace však mohou vznikat mezi proměnnými za přítomnosti (tj. X způsobuje Y) i nepřítomnosti (tj. mají společnou příčinu) kauzálního vztahu, jak jsme viděli v souvislosti s bayesovskými sítěmi1. Jako příklad předpokládejme, že pozorujeme, že u lidí, kteří denně vypijí více než 4 šálky kávy, se snižuje pravděpodobnost vzniku rakoviny kůže. To nutně neznamená, že káva propůjčuje odolnost vůči rakovině; jedním z alternativních vysvětlení by bylo, že lidé, kteří pijí hodně kávy, pracují dlouhé hodiny v interiéru, a tudíž jsou málo vystaveni slunci, což je známé riziko. Pokud tomu tak je, pak je počet hodin strávených venku matoucí proměnnou – příčinou společnou pro obě pozorování. V takové situaci nelze vyvodit přímou příčinnou souvislost; souvislost pouze naznačuje hypotézu, například společnou příčinu, ale nenabízí důkaz. Navíc při studiu mnoha proměnných ve složitých systémech mohou vznikat falešné asociace. Asociace tedy neznamená příčinnou souvislost.
V běžném jazyce se slova závislost, asociace a korelace používají zaměnitelně. Z technického hlediska je však asociace synonymem pro závislost a liší se od korelace (obr. 1a). Asociace je velmi obecný vztah: jedna proměnná poskytuje informaci o druhé. Korelace je specifičtější: dvě proměnné spolu korelují, když vykazují rostoucí nebo klesající trend. Například při rostoucím trendu pozorování, že X > μX, znamená, že je pravděpodobnější, že Y > μY. Protože ne všechny asociace jsou korelací a protože kauzalita, jak bylo uvedeno výše, může být spojena pouze s asociací, nemůžeme ztotožňovat korelaci s kauzalitou v obou směrech.
Pro kvantitativní a ordinální data existují dvě základní míry korelace: Pearsonova korelace (r), která měří lineární trendy, a Spearmanova korelace (s), která měří rostoucí a klesající trendy, které nemusí být nutně lineární (obr. 1b). Stejně jako ostatní statistiky mají tyto míry populační hodnoty, obvykle označované jako ρ. Existují i další míry asociace, které se rovněž označují jako korelační koeficienty, ale které nemusí měřit trendy.
Pokud se slovo „korelace“ používá v nezměněné podobě, obvykle se vztahuje k Pearsonově korelaci, která je dána vztahem ρ(X, Y) = cov(X, Y)/σXσY, kde cov(X, Y) = E((X – μX)(Y – μY)). Korelace vypočtená ze vzorku se označuje r. Obě proměnné musí být na intervalové nebo poměrové stupnici; r nelze interpretovat, pokud je některá z proměnných ordinální. Pro lineární trend platí, že |r| = 1 v nepřítomnosti šumu a se šumem klesá, ale je také možné, že |r| < 1 pro dokonale asociované nelineární trendy (obr. 1b). Navíc soubory dat s velmi rozdílnými asociacemi mohou mít stejnou korelaci (obr. 1c). K interpretaci r je tedy třeba použít graf rozptylu. Pokud je některá z proměnných posunuta nebo škálována, r se nemění a r(X, Y) = r(aX + b, Y). R je však citlivé na nelineární monotónní (rostoucí nebo klesající) transformaci. Například při použití logaritmické transformace je r(X, Y) ≠ r(X, log(Y)). Je také citlivá na rozsah hodnot X nebo Y a může se snižovat, když se hodnoty vybírají z menšího rozsahu.
Pokud se předpokládá rostoucí nebo klesající, ale nelineární vztah, je vhodnější Spearmanova korelace. Jedná se o neparametrickou metodu, která převádí data na ranky a poté použije vzorec pro Pearsonovu korelaci. Lze ji použít, pokud je X ordinální a je odolnější vůči odlehlým hodnotám. Není také citlivá na monotónní rostoucí transformace, protože zachovávají hodnosti – například s(X, Y) = s(X, log(Y)). U obou koeficientů odpovídá menší velikost rostoucímu rozptylu nebo nemonotónnímu vztahu.
Je možné pozorovat velké korelační koeficienty i u náhodných dat (obr. 2a). Proto by r mělo být uváděno spolu s hodnotou P, která měří, do jaké míry jsou data konzistentní s nulovou hypotézou, že v populaci neexistuje žádný trend. Pro Pearsonovo r se k výpočtu hodnoty P používá testovací statistika √, která má t-rozdělení s d.f. = n – 2, když (X, Y) má dvourozměrné normální rozdělení (P pro s nevyžaduje normalitu) a populační korelace je 0. Ještě informativnější je 95% interval spolehlivosti, který se často počítá pomocí metody bootstrap2. Na obrázku 2a vidíme, že hodnoty do |r| < 0,63 nejsou statisticky významné – jejich intervaly spolehlivosti pokrývají nulu. Důležitější je, že existují velmi velké korelace, které jsou statisticky významné (obr. 2a), přestože jsou získány z populace, v níž je skutečná korelace ρ = 0. Tyto falešné případy (obr. 2b) je třeba očekávat vždy, když se počítá velký počet korelací – například studie s pouhými 140 geny dává 9 730 korelací. Naopak skromné korelace mezi několika málo proměnnými, o nichž se ví, že jsou zašuměné, mohou být biologicky zajímavé.
Protože P závisí na r i na velikosti vzorku, nikdy by se nemělo používat jako míra síly asociace. Je možné, že menší r, jehož velikost lze interpretovat jako odhadovanou velikost účinku, je spojeno s menším P pouze z důvodu velké velikosti vzorku3. Statistická významnost korelačního koeficientu neznamená věcnou a biologicky relevantní významnost.
Veličina obou koeficientů bude kolísat s různými vzorky, jak je vidět na obrázku 2, a také s množstvím šumu a/nebo velikostí vzorku. Při dostatečném šumu může korelační koeficient přestat být informativní o jakémkoli základním trendu. Obrázek 3a ukazuje dokonale korelovaný vztah (X, X), kde X je soubor n = 20 bodů rovnoměrně rozložených v rozsahu za přítomnosti různého množství normálně rozloženého šumu se směrodatnou odchylkou σ. S nárůstem σ z 0,1 na 0,3 až 0,6 se r(X, X + σ) snižuje z 0,95 na 0,69 až 0,42. Na obrázku je patrné, že r(X, X + σ) klesá. Při σ = 0,6 je šum natolik vysoký, že r = 0,42 (P = 0,063) není statisticky významné – jeho interval spolehlivosti zahrnuje ρ = 0,
Když je lineární trend maskován šumem, jsou k jistému měření korelace potřeba větší vzorky. Obrázek 3b ukazuje, jak se mění korelační koeficient pro dílčí vzorky velikosti m vybrané ze vzorků s různou úrovní šumu: m = 4-20 (σ = 0,1), m = 4-100 (σ = 0,3) a m = 4-200 (σ = 0,6). Při σ = 0,1 konverguje korelační koeficient k hodnotě 0,96, jakmile je m > 12. Je-li však šum vysoký, je nejen hodnota r nižší pro celý vzorek (např. r = 0,59 pro σ = 0,3), ale k robustnímu odhadu ρ je zapotřebí větších dílčích vzorků.
Pearsonův korelační koeficient lze také použít ke kvantifikaci toho, jak velké kolísání jedné proměnné lze vysvětlit její korelací s jinou proměnnou. Předchozí diskuse o analýze rozptylu4 ukázala, že vliv faktoru na proměnnou odpovědi lze popsat jako vysvětlení kolísání odpovědi; odpověď kolísala, a jakmile byl faktor zohledněn, kolísání se snížilo. Kvadrát Pearsonova korelačního koeficientu r2 má podobnou úlohu: je to podíl variability Y vysvětlené X (a naopak). Například r = 0,05 znamená, že pouze 0,25 % rozptylu Y je vysvětleno X (a naopak), a r = 0,9 znamená, že 81 % rozptylu Y je vysvětleno X. Tato interpretace je užitečná při posuzování biologického významu velikosti r, pokud je statisticky významná.
Kromě korelace mezi znaky můžeme hovořit také o korelaci mezi položkami, které měříme. Ta se také vyjadřuje jako podíl vysvětleného rozptylu. Konkrétně pokud jsou jednotky shlukovány, pak vnitroskupinová korelace (kterou bychom si měli představit jako kvadratickou korelaci) je procento rozptylu vysvětlené shluky a je dána vztahem σb2/(σb2 + σw2), kde σb2 je variabilita mezi shluky a σb2 + σw2 je celková variabilita mezi shluky a uvnitř shluků. Tento vzorec byl již dříve diskutován při zkoumání procenta celkového rozptylu vysvětleného biologickou variabilitou5 , kde shluky jsou technické repliky pro stejnou biologickou repliku. Stejně jako u korelace mezi znaky platí, že čím vyšší je vnitrotřídní korelace, tím menší je rozptyl v datech – tentokrát se neměří z trendové křivky, ale z center shluků.
Asociace je totéž co závislost a může být způsobena přímou nebo nepřímou příčinou. Korelace předpokládá specifické typy asociace, jako jsou monotónní trendy nebo shlukování, ale ne příčinnou souvislost. Například při velkém počtu znaků v porovnání s velikostí vzorku často dochází k velkým, ale falešným korelacím. Naopak při velkém počtu pozorování mohou být statisticky významné malé a věcně nevýznamné korelace
.