A legtöbb vizsgálat több válaszváltozót tartalmaz, és a köztük lévő függőségek gyakran nagy érdeklődésre tartanak számot. Például szeretnénk tudni, hogy az mRNS és a hozzá tartozó fehérje szintje együtt változik-e egy szövetben, vagy hogy az egyik metabolit növekvő szintje összefügg-e egy másik metabolit megváltozott szintjével. Ebben a hónapban a változók (vagy egy rendszer jellemzői) közötti kapcsolatokról szóló rovatsorozatot kezdünk, kezdve azzal, hogy a páros függőségek hogyan jellemezhetők a korreláció segítségével.
Két változó független, ha az egyik értéke nem ad információt a másik értékéről. X és Y változók esetében a függetlenséget úgy fejezhetjük ki, hogy azt mondjuk, hogy X bármelyik lehetséges értékének mérési esélyét nem befolyásolja Y értéke, és fordítva, vagy feltételes valószínűséggel: P(X|Y) = P(X). Például egy érme egymást követő feldobásai függetlenek – egy tisztességes érme esetében P(H) = 0,5, függetlenül az előző feldobás eredményétől, mivel a feldobás nem változtatja meg az érme tulajdonságait. Ezzel szemben, ha egy rendszert megfigyeléssel megváltoztatunk, a mérések társulttá vagy ezzel egyenértékűen függővé válhatnak. A csere nélkül kihúzott kártyák nem függetlenek; ha egy piros kártyát húzunk, megnő a fekete kártya húzásának valószínűsége, mert most kevesebb piros kártya van.
Az asszociáció nem tévesztendő össze a kauzalitással; ha X okozza Y-t, akkor a kettő összefügg (függ). A változók között azonban az oksági kapcsolat megléte (azaz X okozza Y-t) és hiánya (azaz közös okuk van) esetén is létrejöhetnek asszociációk, ahogy azt a Bayes-hálózatok1 kapcsán már láttuk. Példaként tegyük fel, hogy megfigyeljük, hogy azoknál az embereknél, akik naponta több mint 4 csésze kávét isznak, csökken a bőrrák kialakulásának esélye. Ez nem feltétlenül jelenti azt, hogy a kávé ellenállóvá tesz a rák ellen; egy alternatív magyarázat lehet, hogy a sok kávét fogyasztó emberek hosszú órákat dolgoznak zárt térben, és így kevéssé vannak kitéve a napfénynek, ami ismert kockázatot jelent. Ha ez a helyzet, akkor a szabadban töltött órák száma zavaró változó – egy olyan ok, amely mindkét megfigyelésben közös. Ilyen helyzetben nem lehet közvetlen ok-okozati összefüggésre következtetni; az összefüggés csupán egy hipotézist sugall, például egy közös okot, de nem nyújt bizonyítékot. Ezen túlmenően, amikor összetett rendszerekben sok változót vizsgálnak, hamis összefüggések keletkezhetnek. Így az asszociáció nem jelent ok-okozati összefüggést.
A hétköznapi nyelvben a függőséget, az asszociációt és a korrelációt felváltva használják. Technikailag azonban az asszociáció a függőség szinonimája, és különbözik a korrelációtól (1a. ábra). Az asszociáció egy nagyon általános kapcsolat: az egyik változó információt szolgáltat egy másikról. A korreláció konkrétabb: két változó akkor korrelál egymással, ha növekvő vagy csökkenő tendenciát mutat. Például növekvő tendencia esetén, ha megfigyeljük, hogy X > μX azt jelenti, hogy valószínűbb, hogy Y > μY. Mivel nem minden összefüggés korreláció, és mivel a kauzalitás, mint fentebb tárgyaltuk, csak az összefüggéshez kapcsolható, nem tehetjük egyenlővé a korrelációt a kauzalitással egyik irányban sem.

(a) Asszociált (de nem korrelált), nem asszociált és korrelált változók szórásdiagramjai. Az alsó asszociációs példában az y varianciája növekszik az x-szel. (b) A Pearson-féle korrelációs együttható (r, fekete) a lineáris trendeket, a Spearman-féle korrelációs együttható (s, piros) pedig a növekvő vagy csökkenő trendeket méri. (c) Nagyon különböző adatsorok hasonló r-értékekkel rendelkezhetnek. Az olyan leírók, mint a görbület vagy a kiugró értékek jelenléte pontosabbak lehetnek.
A mennyiségi és ordinális adatok esetében két elsődleges korrelációs mérték létezik: A Pearson-féle korreláció (r), amely lineáris tendenciákat mér, és a Spearman-féle (rang-) korreláció (s), amely növekvő és csökkenő tendenciákat mér, amelyek nem feltétlenül lineárisak (1b. ábra). Más statisztikákhoz hasonlóan ezeknek is vannak populációs értékeik, amelyekre általában ρ-ként hivatkoznak. Vannak más összefüggésmértékek, amelyeket szintén korrelációs együtthatóknak neveznek, de amelyek esetleg nem mérnek trendeket.
Ahol a “korrelált” kifejezést változatlanul használják, az általában a Pearson-féle korrelációra utal, amelyet ρ(X, Y) = cov(X, Y)/σXσY, ahol cov(X, Y) = E((X – μX)(Y – μY)). A mintából számított korrelációt r-rel jelöljük. Mindkét változónak intervallum- vagy arányskálán kell lennie; az r nem értelmezhető, ha valamelyik változó ordinális. Lineáris trend esetén |r| = 1 zaj hiányában és csökken a zajjal, de az is lehetséges, hogy |r| < 1 tökéletesen összefüggő nemlineáris trendek esetén (1b. ábra). Ezenkívül nagyon eltérő asszociációjú adatsorok is rendelkezhetnek azonos korrelációval (1c. ábra). Ezért az r értelmezéséhez szórásdiagramot kell használni. Ha valamelyik változót eltoljuk vagy skálázzuk, az r nem változik, és r(X, Y) = r(aX + b, Y). Az r azonban érzékeny a nemlineáris monoton (növekvő vagy csökkenő) transzformációra. Például log-transzformáció alkalmazásakor r(X, Y) ≠ r(X, log(Y)). Érzékeny az X vagy Y értékek tartományára is, és csökkenhet, ha az értékeket egy kisebb tartományból mintavételezzük.
Ha növekvő vagy csökkenő, de nem lineáris kapcsolat gyanúja merül fel, a Spearman-féle korreláció megfelelőbb. Ez egy nem parametrikus módszer, amely az adatokat rangsorokká alakítja, majd a Pearson-féle korreláció képletét alkalmazza. Akkor használható, ha az X ordinális, és robusztusabb a kiugró értékekkel szemben. Nem érzékeny a monoton növekvő transzformációkra sem, mivel ezek megőrzik a rangokat – például s(X, Y) = s(X, log(Y)). Mindkét együttható esetében a kisebb érték növekvő szórásnak vagy nem monoton kapcsolatnak felel meg.
Még véletlenszerű adatok esetén is nagy korrelációs együtthatókat láthatunk (2a. ábra). Ezért az r-t a P-értékkel együtt kell jelenteni, amely azt méri, hogy az adatok milyen mértékben állnak összhangban azzal a nullhipotézissel, hogy a populációban nincs trend. Pearson r esetén a P-érték kiszámításához a √ tesztstatisztikát használjuk, amely t-eloszlású, d.f. = n – 2, ha (X, Y) kétváltozós normális eloszlású (a s-re vonatkozó P nem követeli meg a normalitást), és a populációs korreláció 0. Még informatívabb a 95%-os konfidenciaintervallum, amelyet gyakran bootstrap módszerrel számolnak ki2. A 2a. ábrán látható, hogy az értékek |r| < 0,63-ig nem statisztikailag szignifikánsak – a konfidenciaintervallumuk nulla. Ennél is fontosabb, hogy vannak nagyon nagy korrelációk, amelyek statisztikailag szignifikánsak (2a. ábra), annak ellenére, hogy olyan populációból származnak, amelyben a valódi korreláció ρ = 0. Ezekre a hamis esetekre (2b. ábra) mindig számítani kell, amikor nagyszámú korrelációt számolunk ki – például egy mindössze 140 gént tartalmazó vizsgálatban 9730 korrelációt kapunk. Ezzel szemben néhány változó közötti szerény korrelációk, amelyekről ismert, hogy zajosak, biológiailag érdekesek lehetnek.

(a) Két független, normális eloszlású változó 10 000 n = 10 mintájának korrelációs együtthatóinak eloszlása (balra) és 95%-os konfidenciaintervallumai (jobbra). A statisztikailag szignifikáns együtthatók (α = 0,05) és a megfelelő, r = 0-t nem tartalmazó intervallumok kékkel vannak kiemelve. (b) A három legnagyobb és a legkisebb (statisztikailag szignifikáns) korrelációs együtthatóval rendelkező minták a.
Miatt a P függ az r-től és a mintanagyságtól is, soha nem szabad az összefüggés erősségének mértékeként használni. Lehetséges, hogy egy kisebb r, amelynek nagysága a becsült hatásméretként értelmezhető, pusztán a nagy mintaméret miatt kisebb P-vel társul3. A korrelációs együttható statisztikai szignifikanciája nem jelent érdemi és biológiailag releváns jelentőséget.
A két együttható értéke ingadozni fog a különböző minták esetében, amint az a 2. ábrán látható, valamint a zaj mennyiségétől és/vagy a mintamérettől függően. Elegendő zaj esetén a korrelációs együttható megszűnhet informatívnak lenni bármilyen mögöttes trendről. A 3a. ábra egy tökéletesen korrelált (X, X) összefüggést mutat, ahol X egy n = 20 pontból álló, a tartományban egyenletesen eloszló halmaz, különböző mennyiségű, σ szórású, normális eloszlású zaj jelenlétében. Ahogy σ 0,1-ről 0,3-ról 0,3-ra 0,6-ra nő, az r(X, X + σ) 0,95-ről 0,69-re 0,42-re csökken. σ = 0,6 esetén a zaj elég nagy ahhoz, hogy az r = 0,42 (P = 0,063) statisztikailag nem szignifikáns – a konfidenciaintervallumába ρ = 0,

(a) r egy n = 20 (X, X + ɛ) mintán, ahol ɛ a σ szórással skálázott, normális eloszlású zaj. A szórás mértéke és az r értéke a σ három értékénél látható. Az árnyékolt terület a 95%-os konfidenciaintervallum. Az r = 0-t nem tartalmazó intervallumok kékkel vannak kiemelve (σ < 0,58), az ezt tartalmazó intervallumok pedig szürkével vannak kiemelve, és nem szignifikáns r értékeknek (ns; pl. r = 0,42, P = 0,063) felelnek meg. (b) A mintanagyság növekedésével az r értékei egyre kevésbé változnak, és a populációs korreláció becslése javul. Az ábrán növekvő méretű és zajú minták láthatóak: n = 20 (σ = 0,1), n = 100 (σ = 0,3) és n = 200 (σ = 0,6). Az alsó nyomvonalak az egyes minták első m értékéből képzett részmintából számított r-t mutatják.
Ha a lineáris trendet elrejti a zaj, nagyobb mintákra van szükség a korreláció biztos méréséhez. A 3b. ábra azt mutatja, hogyan változik a korrelációs együttható a különböző zajszintű mintákból vett m méretű részminták esetében: m = 4-20 (σ = 0,1), m = 4-100 (σ = 0,3) és m = 4-200 (σ = 0,6). Ha σ = 0,1, a korrelációs együttható 0,96-hoz konvergál, amint m > 12. Nagy zaj esetén azonban nemcsak az r értéke alacsonyabb a teljes mintára (pl. r = 0,59 σ = 0,3 esetén), hanem nagyobb részmintákra is szükség van a ρ robusztus becsléséhez.
A Pearson-féle korrelációs együttható annak számszerűsítésére is használható, hogy egy változó ingadozása mennyire magyarázható egy másik változóval való korrelációjával. A varianciaanalízisről szóló korábbi értekezés4 megmutatta, hogy egy faktor hatása a válaszváltozóra úgy írható le, mint a válasz variációjának magyarázata; a válasz változott, és amint a faktort figyelembe vették, a variáció csökkent. Az r2 négyzetes Pearson-féle korrelációs együtthatónak hasonló szerepe van: ez az Y variációjának X által megmagyarázott aránya (és fordítva). Például r = 0,05 azt jelenti, hogy Y varianciájának csak 0,25%-át magyarázza X (és fordítva), r = 0,9 pedig azt, hogy Y varianciájának 81%-át magyarázza X. Ez az értelmezés segít az r nagyságának biológiai jelentőségének megítélésében, ha statisztikailag szignifikáns.
A jellemzők közötti korreláción kívül beszélhetünk a mérendő elemek közötti korrelációról is. Ezt a megmagyarázott variancia arányaként is kifejezzük. Különösen, ha az egységek klaszterezve vannak, akkor az osztályon belüli korreláció (amelyet négyzetes korrelációként kell elképzelni) a klaszterek által magyarázott variancia százalékos aránya, amelyet σb2/(σb2 + σw2) ad meg, ahol σb2 a klaszterek közötti variáció és σb2 + σw2 a teljes klaszterek közötti és klaszteren belüli variáció. Ezt a képletet korábban a biológiai variációval megmagyarázott teljes variancia százalékos arányának vizsgálata során tárgyaltuk5 , ahol a klaszterek ugyanazon biológiai ismétlés technikai ismétlődései. A jellemzők közötti korrelációhoz hasonlóan, minél nagyobb az osztályon belüli korreláció, annál kisebb a szórás az adatokban – ezúttal nem a trendgörbéből, hanem a klaszterközpontokból mérve.
Az asszociáció ugyanaz, mint a függőség, és lehet közvetlen vagy közvetett ok-okozati összefüggés. A korreláció az asszociáció bizonyos típusait feltételezi, mint például a monoton trendek vagy a klaszterezés, de nem okozati összefüggést. Például, ha a jellemzők száma a minta méretéhez képest nagy, gyakran előfordulnak nagy, de hamis korrelációk. Ezzel szemben, ha nagyszámú megfigyelés van, a kis és lényegében jelentéktelen korrelációk statisztikailag szignifikánsak lehetnek.