Assosiaatio, korrelaatio ja kausaatio

Useimmissa tutkimuksissa on useita vastemuuttujia, ja niiden väliset riippuvuudet ovat usein hyvin kiinnostavia. Saatamme esimerkiksi haluta tietää, vaihtelevatko mRNA:n ja sitä vastaavan proteiinin tasot yhdessä kudoksessa, tai liittyykö yhden aineenvaihduntatuotteen lisääntyminen toisen aineenvaihduntatuotteen muuttuneisiin tasoihin. Tässä kuussa aloitamme sarjan muuttujien (tai systeemin ominaisuuksien) välisiä suhteita käsitteleviä kolumneja, aloittaen siitä, miten pareittaisia riippuvuuksia voidaan luonnehtia korrelaation avulla.

Kaksi muuttujaa ovat riippumattomia, kun toisen muuttujan arvo ei anna tietoa toisen muuttujan arvosta. Muuttujien X ja Y riippumattomuus voidaan ilmaista sanomalla, että Y:n arvo ei vaikuta minkään X:n mahdollisen arvon mittaamisen todennäköisyyteen ja päinvastoin, tai käyttämällä ehdollista todennäköisyyttä P(X|Y) = P(X). Esimerkiksi peräkkäiset kolikon heitot ovat riippumattomia – reilun kolikon tapauksessa P(H) = 0,5 riippumatta edellisen heiton tuloksesta, koska heitto ei muuta kolikon ominaisuuksia. Sitä vastoin, jos systeemiä muutetaan havainnoimalla, mittauksista voi tulla assosioituneita tai vastaavasti riippuvaisia. Kortit, jotka arvotaan ilman vaihtoa, eivät ole riippumattomia; kun punainen kortti arvotaan, mustan kortin arvonnan todennäköisyys kasvaa, koska nyt punaisia kortteja on vähemmän.

Asosiaatiota ei pidä sekoittaa kausaalisuuteen; jos X aiheuttaa Y:n, nämä kaksi ovat assosioituneita (riippuvaisia). Muuttujien välille voi kuitenkin syntyä assosiaatioita kausaalisuhteen läsnä ollessa (eli X aiheuttaa Y:n) ja sen puuttuessa (eli niillä on yhteinen syy), kuten olemme nähneet Bayes-verkkojen1 yhteydessä. Oletetaan esimerkiksi, että havaitaan, että ihmisillä, jotka juovat päivittäin yli neljä kupillista kahvia, on pienempi mahdollisuus sairastua ihosyöpään. Tämä ei välttämättä tarkoita, että kahvi antaa vastustuskyvyn syöpää vastaan; yksi vaihtoehtoinen selitys olisi, että ihmiset, jotka juovat paljon kahvia, työskentelevät sisätiloissa pitkiä aikoja ja altistuvat siten vain vähän auringolle, joka on tunnettu riski. Jos näin on, ulkona vietettyjen tuntien määrä on sekoittava muuttuja – syy, joka on yhteinen molemmille havainnoille. Tällaisessa tilanteessa ei voida päätellä suoraa syy-yhteyttä, vaan yhteys vain viittaa hypoteesiin, kuten yhteiseen syyhyn, mutta ei tarjoa todisteita. Lisäksi kun tutkitaan monia muuttujia monimutkaisissa järjestelmissä, voi syntyä virheellisiä yhteyksiä. Näin ollen assosiaatio ei merkitse kausaalisuutta.

Kielessä riippuvuutta, assosiaatioita ja korrelaatiota käytetään vaihdellen. Teknisesti ottaen assosiaatio on kuitenkin riippuvuuden synonyymi ja eroaa korrelaatiosta (kuva 1a). Assosiaatio on hyvin yleinen suhde: yksi muuttuja antaa tietoa toisesta. Korrelaatio on yksityiskohtaisempi: kaksi muuttujaa korreloi keskenään, kun niillä on kasvava tai laskeva suuntaus. Esimerkiksi kasvavassa trendissä havainto, että X > μX merkitsee, että on todennäköisempää, että Y > μY. Koska kaikki assosioinnit eivät ole korrelaatioita ja koska kausaalisuus, kuten edellä käsiteltiin, voidaan liittää vain assosiaatioon, emme voi rinnastaa korrelaatiota kausaalisuuteen kumpaankaan suuntaan.

Kuvio 1: Korrelaatio on eräs assosiaatioiden tyyppi, ja se mittaa nousevia tai laskevia trendejä, jotka kvantifioidaan korrelaatiokertoimien avulla.

(a) Assosioituneiden (mutta ei-korreloitujen), ei-assosioituneiden ja korreloituneiden muuttujien hajontakuvioita. Alemman assosiaation esimerkissä y:n varianssi kasvaa x:n myötä. (b) Pearsonin korrelaatiokerroin (r, musta) mittaa lineaarisia trendejä, ja Spearmanin korrelaatiokerroin (s, punainen) mittaa kasvavia tai laskevia trendejä. (c) Hyvin erilaisilla aineistoilla voi olla samanlaisia r-arvoja. Kuvaajat, kuten kaarevuus tai outlierien esiintyminen, voivat olla tarkempia.

Kvantitatiivisille ja ordinaalisille tiedoille on olemassa kaksi ensisijaista korrelaatiomittaa: Pearsonin korrelaatio (r), joka mittaa lineaarisia trendejä, ja Spearmanin (rank) korrelaatio (s), joka mittaa nousevia ja laskevia trendejä, jotka eivät välttämättä ole lineaarisia (kuva 1b). Kuten muillakin tilastoilla, näillä on populaatioarvot, joihin viitataan yleensä nimellä ρ. On olemassa muitakin assosiaatiomittareita, joihin viitataan myös korrelaatiokertoimina, mutta jotka eivät välttämättä mittaa trendejä.

Kun sanaa ”korreloitunut” käytetään muokkaamattomana, sillä viitataan yleensä Pearsonin korrelaatioon, joka saadaan kaavalla ρ(X, Y) = cov(X, Y)/σXσY, missä cov(X, Y) = E((X – μX)(Y – μY)). Otoksesta laskettua korrelaatiota merkitään r:llä. Molempien muuttujien on oltava intervalli- tai suhdeasteikolla; r:ää ei voida tulkita, jos jompikumpi muuttuja on ordinaali. Lineaarisen trendin osalta |r| = 1, jos ei ole kohinaa, ja pienenee kohinan myötä, mutta on myös mahdollista, että |r| < 1 täydellisesti liittyvien epälineaaristen trendien osalta (kuva 1b). Lisäksi hyvin erilaisilla assosiaatioilla varustetuilla tietokokonaisuuksilla voi olla sama korrelaatio (kuva 1c). Näin ollen r:n tulkinnassa olisi käytettävä hajontakuviota. Jos jompaakumpaa muuttujaa siirretään tai skaalataan, r ei muutu ja r(X, Y) = r(aX + b, Y). R on kuitenkin herkkä epälineaariselle monotoniselle (kasvavalle tai vähenevälle) muunnokselle. Esimerkiksi log-muunnosta käytettäessä r(X, Y) ≠ r(X, log(Y)). Se on myös herkkä X- tai Y-arvojen vaihteluvälille ja voi pienentyä, kun arvot poimitaan pienemmältä vaihteluväliltä.

Jos epäillään kasvavaa tai vähenevää mutta epälineaarista suhdetta, Spearmanin korrelaatio on sopivampi. Se on ei-parametrinen menetelmä, joka muuntaa tiedot riveiksi ja soveltaa sitten Pearsonin korrelaation kaavaa. Sitä voidaan käyttää, kun X on järjestysluku, ja se on kestävämpi poikkeavien arvojen suhteen. Se ei myöskään ole herkkä monotonisesti kasvaville muunnoksille, koska ne säilyttävät rivit – esimerkiksi s(X, Y) = s(X, log(Y)). Molempien kertoimien osalta pienempi suuruus vastaa kasvavaa hajontaa tai ei-monotonista suhdetta.

Suuria korrelaatiokertoimia on mahdollista havaita myös satunnaisaineistoissa (kuva 2a). Näin ollen r olisi ilmoitettava yhdessä P-arvon kanssa, joka mittaa sitä, missä määrin tiedot ovat yhdenmukaisia nollahypoteesin kanssa, jonka mukaan populaatiossa ei ole trendiä. Pearsonin r:n osalta P-arvon laskemiseksi käytetään testistatistiikkaa √, joka on t-jakauma d.f. = n – 2, kun (X, Y) on kaksimuuttujainen normaalijakauma (P for s ei edellytä normaalisuutta) ja populaatiokorrelaatio on 0. Vielä informatiivisempi on 95 prosentin luottamusväli, joka lasketaan usein bootstrap-menetelmällä2. Kuvasta 2a nähdään, että arvot arvoon |r| < 0,63 asti eivät ole tilastollisesti merkitseviä – niiden luottamusvälit ovat nolla. Vielä tärkeämpää on, että on olemassa hyvin suuria korrelaatioita, jotka ovat tilastollisesti merkitseviä (kuva 2a), vaikka ne on poimittu populaatiosta, jossa todellinen korrelaatio on ρ = 0. Tällaisia vääränlaisia tapauksia (kuva 2b) on odotettavissa aina, kun lasketaan suuri määrä korrelaatioita – esimerkiksi tutkimuksessa, jossa on vain 140 geeniä, saadaan 9 730 korrelaatiota. Sitä vastoin vaatimattomat korrelaatiot muutaman muuttujan välillä, joiden tiedetään olevan kohinaisia, voivat olla biologisesti kiinnostavia.

Kuva 2: Korrelaatiokertoimet vaihtelevat satunnaisdatassa, ja virheellisiä korrelaatioita voi syntyä.

(a) Kahden toisistaan riippumattoman normaalisti jakaantuneen muuttujan korrelaatiokertoimien jakauma (vasemmalla) ja 95 %:n luottamusvälialueet (oikealla) kahden riippumattoman normaalisti jakautuneen muuttujan 10 000:lla n = 10:n otoksella. Tilastollisesti merkitsevät kertoimet (α = 0,05) ja vastaavat vaihteluvälit, jotka eivät sisällä r = 0, on korostettu sinisellä. (b) Näytteet, joissa on kolme suurinta ja pienintä (tilastollisesti merkitsevää) korrelaatiokerrointa a:sta.

Koska P riippuu sekä r:stä että otoskoon suuruudesta, sitä ei pitäisi koskaan käyttää yhteyden voimakkuuden mittarina. On mahdollista, että pienempi r, jonka suuruus voidaan tulkita arvioiduksi vaikutuskooksi, liittyy pienempään P:hen pelkästään suuren otoskoon vuoksi3. Korrelaatiokertoimen tilastollinen merkitsevyys ei tarkoita sisällöllistä ja biologisesti merkityksellistä merkitsevyyttä.

Kummankin kertoimen arvo vaihtelee eri näytteillä, kuten kuviosta 2 nähdään, sekä kohinan määrän ja/tai otoskoon mukaan. Kun kohinaa on tarpeeksi, korrelaatiokerroin voi lakata olemasta informatiivinen minkään taustalla olevan trendin suhteen. Kuvassa 3a esitetään täydellisesti korreloitunut suhde (X, X), jossa X on joukko n = 20 pistettä, jotka jakautuvat tasaisesti vaihteluvälille, kun mukana on erilaisia määriä normaalisti jakautunutta kohinaa, jonka keskihajonta σ on. Kun σ kasvaa 0,1:stä 0,3:sta 0,6:een, r(X, X + σ) laskee 0,95:stä 0,69:ään 0,42:een. Kun σ = 0,6, kohina on niin suuri, että r = 0,42 (P = 0,063) ei ole tilastollisesti merkitsevä – sen luottamusväli sisältää ρ = 0,

Kuva 3: Kohinan ja otoskoon vaikutus Pearsonin korrelaatiokertoimeen r.

(a) n = 20 otoksen (X, X + ɛ) r, jossa ɛ on normaalijakautunut kohina skaalattuna keskihajontaan σ. Kuvassa on esitetty hajonnan määrä ja r:n arvo kolmella σ:n arvolla. Tummennettu alue on 95 prosentin luottamusväli. Intervallit, jotka eivät sisällä r = 0, on korostettu sinisellä (σ < 0,58), ja ne, jotka eivät sisällä r = 0, on korostettu harmaalla ja vastaavat ei-merkitseviä r-arvoja (ns; esim. r = 0,42 ja P = 0,063). (b) Otoskoon kasvaessa r muuttuu vähemmän vaihtelevaksi ja populaatiokorrelaation estimaatti paranee. Kuvassa näytteet, joiden koko ja kohina kasvavat: n = 20 (σ = 0,1), n = 100 (σ = 0,3) ja n = 200 (σ = 0,6). Alareunan jäljet osoittavat r:n, joka on laskettu osaotoksesta, joka on luotu kunkin otoksen m ensimmäisestä arvosta.

Kun lineaarinen trendi peittyy kohinan alle, tarvitaan suurempia otoksia, jotta korrelaatio voidaan mitata luotettavasti. Kuvassa 3b esitetään, miten korrelaatiokerroin vaihtelee eri kohinatasoilla otetuista m-kokoisista näytteistä poimituilla osaotoksilla: m = 4-20 (σ = 0,1), m = 4-100 (σ = 0,3) ja m = 4-200 (σ = 0,6). Kun σ = 0,1, korrelaatiokerroin konvergoi 0,96:een, kun m > 12. Kun kohina on suuri, r:n arvo on kuitenkin pienempi koko otokselle (esim. r = 0,59, kun σ = 0,3), ja lisäksi tarvitaan suurempia osaotoksia, jotta ρ voidaan estimoida stabiilisti.

Pearsonin korrelaatiokertoimen avulla voidaan myös kvantifioida, kuinka paljon yhden muuttujan vaihtelua voidaan selittää sen korrelaatiolla toisen muuttujan kanssa. Aiempi keskustelu varianssianalyysistä4 osoitti, että tekijän vaikutusta vastemuuttujaan voidaan kuvata vastauksen vaihtelun selittämisenä; vaste vaihteli, ja kun tekijä oli otettu huomioon, vaihtelu väheni. Pearsonin korrelaatiokertoimen r2 neliöllä on samanlainen tehtävä: se on X:n selittämä osuus Y:n vaihtelusta (ja päinvastoin). Esimerkiksi r = 0,05 tarkoittaa, että vain 0,25 % Y:n varianssista selittyy X:llä (ja päinvastoin), ja r = 0,9 tarkoittaa, että 81 % Y:n varianssista selittyy X:llä. Tämä tulkinta on hyödyllinen arvioitaessa r:n suuruuden biologista merkitystä silloin, kun se on tilastollisesti merkitsevä.

Ominaisuuksien keskinäisen korrelaation lisäksi voimme puhua myös mittaamiemme kohteiden välisestä korrelaatiosta. Tämä ilmaistaan myös selitetyn varianssin osuutena. Erityisesti, jos yksiköt ovat klusteroituja, luokan sisäinen korrelaatio (jota olisi ajateltava neliökorrelaationa) on klustereiden selittämä varianssin prosenttiosuus, ja se annetaan σb2/(σb2 + σw2), missä σb2 on klustereiden välinen vaihtelu ja σb2 + σw2 on klustereiden välinen ja sisäinen kokonaisvaihtelu. Tätä kaavaa käsiteltiin aiemmin tarkasteltaessa biologisella vaihtelulla selitettävän kokonaisvarianssin prosenttiosuutta5 , jossa klusterit ovat saman biologisen replikaatin teknisiä toistoja. Kuten ominaisuuksien välisen korrelaation kohdalla, mitä suurempi luokan sisäinen korrelaatio on, sitä vähemmän hajontaa aineistossa on – tällä kertaa sitä ei mitata trendikäyrästä vaan klustereiden keskipisteistä.

Yhteys on sama kuin riippuvuus, ja se voi johtua suorasta tai epäsuorasta syy-yhteydestä. Korrelaatio merkitsee tietyntyyppisiä assosiaatioita, kuten monotonisia trendejä tai klusteroitumista, mutta ei kausaalisuutta. Esimerkiksi kun piirteiden määrä on suuri verrattuna otoskokoon, esiintyy usein suuria mutta virheellisiä korrelaatioita. Sitä vastoin, kun havaintoja on paljon, pienet ja sisällöllisesti merkityksettömät korrelaatiot voivat olla tilastollisesti merkitseviä.

Vastaa

Sähköpostiosoitettasi ei julkaista.