A legtöbb vizsgálat több válaszváltozót tartalmaz, és a köztük lévő függőségek gyakran nagy érdeklődésre tartanak számot. Például szeretnénk tudni, hogy az mRNS és a hozzá tartozó fehérje szintje együtt változik-e egy szövetben, vagy hogy az egyik metabolit növekvő szintje összefügg-e egy másik metabolit megváltozott szintjével. Ebben a hónapban a változók (vagy egy rendszer jellemzői) közötti kapcsolatokról szóló rovatsorozatot kezdünk, kezdve azzal, hogy a páros függőségek hogyan jellemezhetők a korreláció segítségével.
Két változó független, ha az egyik értéke nem ad információt a másik értékéről. X és Y változók esetében a függetlenséget úgy fejezhetjük ki, hogy azt mondjuk, hogy X bármelyik lehetséges értékének mérési esélyét nem befolyásolja Y értéke, és fordítva, vagy feltételes valószínűséggel: P(X|Y) = P(X). Például egy érme egymást követő feldobásai függetlenek – egy tisztességes érme esetében P(H) = 0,5, függetlenül az előző feldobás eredményétől, mivel a feldobás nem változtatja meg az érme tulajdonságait. Ezzel szemben, ha egy rendszert megfigyeléssel megváltoztatunk, a mérések társulttá vagy ezzel egyenértékűen függővé válhatnak. A csere nélkül kihúzott kártyák nem függetlenek; ha egy piros kártyát húzunk, megnő a fekete kártya húzásának valószínűsége, mert most kevesebb piros kártya van.
Az asszociáció nem tévesztendő össze a kauzalitással; ha X okozza Y-t, akkor a kettő összefügg (függ). A változók között azonban az oksági kapcsolat megléte (azaz X okozza Y-t) és hiánya (azaz közös okuk van) esetén is létrejöhetnek asszociációk, ahogy azt a Bayes-hálózatok1 kapcsán már láttuk. Példaként tegyük fel, hogy megfigyeljük, hogy azoknál az embereknél, akik naponta több mint 4 csésze kávét isznak, csökken a bőrrák kialakulásának esélye. Ez nem feltétlenül jelenti azt, hogy a kávé ellenállóvá tesz a rák ellen; egy alternatív magyarázat lehet, hogy a sok kávét fogyasztó emberek hosszú órákat dolgoznak zárt térben, és így kevéssé vannak kitéve a napfénynek, ami ismert kockázatot jelent. Ha ez a helyzet, akkor a szabadban töltött órák száma zavaró változó – egy olyan ok, amely mindkét megfigyelésben közös. Ilyen helyzetben nem lehet közvetlen ok-okozati összefüggésre következtetni; az összefüggés csupán egy hipotézist sugall, például egy közös okot, de nem nyújt bizonyítékot. Ezen túlmenően, amikor összetett rendszerekben sok változót vizsgálnak, hamis összefüggések keletkezhetnek. Így az asszociáció nem jelent ok-okozati összefüggést.
A hétköznapi nyelvben a függőséget, az asszociációt és a korrelációt felváltva használják. Technikailag azonban az asszociáció a függőség szinonimája, és különbözik a korrelációtól (1a. ábra). Az asszociáció egy nagyon általános kapcsolat: az egyik változó információt szolgáltat egy másikról. A korreláció konkrétabb: két változó akkor korrelál egymással, ha növekvő vagy csökkenő tendenciát mutat. Például növekvő tendencia esetén, ha megfigyeljük, hogy X > μX azt jelenti, hogy valószínűbb, hogy Y > μY. Mivel nem minden összefüggés korreláció, és mivel a kauzalitás, mint fentebb tárgyaltuk, csak az összefüggéshez kapcsolható, nem tehetjük egyenlővé a korrelációt a kauzalitással egyik irányban sem.
A mennyiségi és ordinális adatok esetében két elsődleges korrelációs mérték létezik: A Pearson-féle korreláció (r), amely lineáris tendenciákat mér, és a Spearman-féle (rang-) korreláció (s), amely növekvő és csökkenő tendenciákat mér, amelyek nem feltétlenül lineárisak (1b. ábra). Más statisztikákhoz hasonlóan ezeknek is vannak populációs értékeik, amelyekre általában ρ-ként hivatkoznak. Vannak más összefüggésmértékek, amelyeket szintén korrelációs együtthatóknak neveznek, de amelyek esetleg nem mérnek trendeket.
Ahol a “korrelált” kifejezést változatlanul használják, az általában a Pearson-féle korrelációra utal, amelyet ρ(X, Y) = cov(X, Y)/σXσY, ahol cov(X, Y) = E((X – μX)(Y – μY)). A mintából számított korrelációt r-rel jelöljük. Mindkét változónak intervallum- vagy arányskálán kell lennie; az r nem értelmezhető, ha valamelyik változó ordinális. Lineáris trend esetén |r| = 1 zaj hiányában és csökken a zajjal, de az is lehetséges, hogy |r| < 1 tökéletesen összefüggő nemlineáris trendek esetén (1b. ábra). Ezenkívül nagyon eltérő asszociációjú adatsorok is rendelkezhetnek azonos korrelációval (1c. ábra). Ezért az r értelmezéséhez szórásdiagramot kell használni. Ha valamelyik változót eltoljuk vagy skálázzuk, az r nem változik, és r(X, Y) = r(aX + b, Y). Az r azonban érzékeny a nemlineáris monoton (növekvő vagy csökkenő) transzformációra. Például log-transzformáció alkalmazásakor r(X, Y) ≠ r(X, log(Y)). Érzékeny az X vagy Y értékek tartományára is, és csökkenhet, ha az értékeket egy kisebb tartományból mintavételezzük.
Ha növekvő vagy csökkenő, de nem lineáris kapcsolat gyanúja merül fel, a Spearman-féle korreláció megfelelőbb. Ez egy nem parametrikus módszer, amely az adatokat rangsorokká alakítja, majd a Pearson-féle korreláció képletét alkalmazza. Akkor használható, ha az X ordinális, és robusztusabb a kiugró értékekkel szemben. Nem érzékeny a monoton növekvő transzformációkra sem, mivel ezek megőrzik a rangokat – például s(X, Y) = s(X, log(Y)). Mindkét együttható esetében a kisebb érték növekvő szórásnak vagy nem monoton kapcsolatnak felel meg.
Még véletlenszerű adatok esetén is nagy korrelációs együtthatókat láthatunk (2a. ábra). Ezért az r-t a P-értékkel együtt kell jelenteni, amely azt méri, hogy az adatok milyen mértékben állnak összhangban azzal a nullhipotézissel, hogy a populációban nincs trend. Pearson r esetén a P-érték kiszámításához a √ tesztstatisztikát használjuk, amely t-eloszlású, d.f. = n – 2, ha (X, Y) kétváltozós normális eloszlású (a s-re vonatkozó P nem követeli meg a normalitást), és a populációs korreláció 0. Még informatívabb a 95%-os konfidenciaintervallum, amelyet gyakran bootstrap módszerrel számolnak ki2. A 2a. ábrán látható, hogy az értékek |r| < 0,63-ig nem statisztikailag szignifikánsak – a konfidenciaintervallumuk nulla. Ennél is fontosabb, hogy vannak nagyon nagy korrelációk, amelyek statisztikailag szignifikánsak (2a. ábra), annak ellenére, hogy olyan populációból származnak, amelyben a valódi korreláció ρ = 0. Ezekre a hamis esetekre (2b. ábra) mindig számítani kell, amikor nagyszámú korrelációt számolunk ki – például egy mindössze 140 gént tartalmazó vizsgálatban 9730 korrelációt kapunk. Ezzel szemben néhány változó közötti szerény korrelációk, amelyekről ismert, hogy zajosak, biológiailag érdekesek lehetnek.
Miatt a P függ az r-től és a mintanagyságtól is, soha nem szabad az összefüggés erősségének mértékeként használni. Lehetséges, hogy egy kisebb r, amelynek nagysága a becsült hatásméretként értelmezhető, pusztán a nagy mintaméret miatt kisebb P-vel társul3. A korrelációs együttható statisztikai szignifikanciája nem jelent érdemi és biológiailag releváns jelentőséget.
A két együttható értéke ingadozni fog a különböző minták esetében, amint az a 2. ábrán látható, valamint a zaj mennyiségétől és/vagy a mintamérettől függően. Elegendő zaj esetén a korrelációs együttható megszűnhet informatívnak lenni bármilyen mögöttes trendről. A 3a. ábra egy tökéletesen korrelált (X, X) összefüggést mutat, ahol X egy n = 20 pontból álló, a tartományban egyenletesen eloszló halmaz, különböző mennyiségű, σ szórású, normális eloszlású zaj jelenlétében. Ahogy σ 0,1-ről 0,3-ról 0,3-ra 0,6-ra nő, az r(X, X + σ) 0,95-ről 0,69-re 0,42-re csökken. σ = 0,6 esetén a zaj elég nagy ahhoz, hogy az r = 0,42 (P = 0,063) statisztikailag nem szignifikáns – a konfidenciaintervallumába ρ = 0,
Ha a lineáris trendet elrejti a zaj, nagyobb mintákra van szükség a korreláció biztos méréséhez. A 3b. ábra azt mutatja, hogyan változik a korrelációs együttható a különböző zajszintű mintákból vett m méretű részminták esetében: m = 4-20 (σ = 0,1), m = 4-100 (σ = 0,3) és m = 4-200 (σ = 0,6). Ha σ = 0,1, a korrelációs együttható 0,96-hoz konvergál, amint m > 12. Nagy zaj esetén azonban nemcsak az r értéke alacsonyabb a teljes mintára (pl. r = 0,59 σ = 0,3 esetén), hanem nagyobb részmintákra is szükség van a ρ robusztus becsléséhez.
A Pearson-féle korrelációs együttható annak számszerűsítésére is használható, hogy egy változó ingadozása mennyire magyarázható egy másik változóval való korrelációjával. A varianciaanalízisről szóló korábbi értekezés4 megmutatta, hogy egy faktor hatása a válaszváltozóra úgy írható le, mint a válasz variációjának magyarázata; a válasz változott, és amint a faktort figyelembe vették, a variáció csökkent. Az r2 négyzetes Pearson-féle korrelációs együtthatónak hasonló szerepe van: ez az Y variációjának X által megmagyarázott aránya (és fordítva). Például r = 0,05 azt jelenti, hogy Y varianciájának csak 0,25%-át magyarázza X (és fordítva), r = 0,9 pedig azt, hogy Y varianciájának 81%-át magyarázza X. Ez az értelmezés segít az r nagyságának biológiai jelentőségének megítélésében, ha statisztikailag szignifikáns.
A jellemzők közötti korreláción kívül beszélhetünk a mérendő elemek közötti korrelációról is. Ezt a megmagyarázott variancia arányaként is kifejezzük. Különösen, ha az egységek klaszterezve vannak, akkor az osztályon belüli korreláció (amelyet négyzetes korrelációként kell elképzelni) a klaszterek által magyarázott variancia százalékos aránya, amelyet σb2/(σb2 + σw2) ad meg, ahol σb2 a klaszterek közötti variáció és σb2 + σw2 a teljes klaszterek közötti és klaszteren belüli variáció. Ezt a képletet korábban a biológiai variációval megmagyarázott teljes variancia százalékos arányának vizsgálata során tárgyaltuk5 , ahol a klaszterek ugyanazon biológiai ismétlés technikai ismétlődései. A jellemzők közötti korrelációhoz hasonlóan, minél nagyobb az osztályon belüli korreláció, annál kisebb a szórás az adatokban – ezúttal nem a trendgörbéből, hanem a klaszterközpontokból mérve.
Az asszociáció ugyanaz, mint a függőség, és lehet közvetlen vagy közvetett ok-okozati összefüggés. A korreláció az asszociáció bizonyos típusait feltételezi, mint például a monoton trendek vagy a klaszterezés, de nem okozati összefüggést. Például, ha a jellemzők száma a minta méretéhez képest nagy, gyakran előfordulnak nagy, de hamis korrelációk. Ezzel szemben, ha nagyszámú megfigyelés van, a kis és lényegében jelentéktelen korrelációk statisztikailag szignifikánsak lehetnek.