De flesta studier innehåller flera svarsvariabler, och beroendena mellan dem är ofta av stort intresse. Vi kan till exempel vilja veta om nivåerna av mRNA och det matchande proteinet varierar tillsammans i en vävnad, eller om ökande nivåer av en metabolit är förknippade med förändrade nivåer av en annan metabolit. Den här månaden inleder vi en serie kolumner om relationer mellan variabler (eller egenskaper hos ett system), och börjar med hur parvisa beroenden kan karakteriseras med hjälp av korrelation.
Två variabler är oberoende när värdet av den ena inte ger någon information om värdet av den andra. För variablerna X och Y kan vi uttrycka oberoende genom att säga att chansen att mäta något av de möjliga värdena på X inte påverkas av värdet på Y, och vice versa, eller genom att använda villkorlig sannolikhet, P(X|Y) = P(X). Till exempel är på varandra följande kast av ett mynt oberoende – för ett rättvist mynt är P(H) = 0,5 oavsett resultatet av det föregående kastet, eftersom ett kast inte ändrar myntets egenskaper. Om ett system däremot förändras genom observation kan mätningarna bli associerade eller, på motsvarande sätt, beroende. Kort som dras utan ersättning är inte oberoende; när ett rött kort dras ökar sannolikheten att dra ett svart kort, eftersom det nu finns färre röda kort.
Association bör inte förväxlas med kausalitet; om X orsakar Y är de två associerade (beroende). Associationer kan dock uppstå mellan variabler i närvaro (dvs. X orsakar Y) och avsaknad (dvs. de har en gemensam orsak) av ett orsakssamband, vilket vi har sett i samband med Bayesianska nätverk1. Som exempel kan vi anta att vi observerar att personer som dagligen dricker mer än 4 koppar kaffe har en minskad risk att drabbas av hudcancer. Detta betyder inte nödvändigtvis att kaffe ger motståndskraft mot cancer; en alternativ förklaring skulle kunna vara att personer som dricker mycket kaffe arbetar inomhus under långa tider och därmed har liten exponering för solen, vilket är en känd risk. Om detta är fallet är antalet timmar som tillbringas utomhus en förväxlingsvariabel – en orsak som är gemensam för båda observationerna. I en sådan situation kan man inte dra slutsatsen att det finns ett direkt orsakssamband; sambandet antyder bara en hypotes, t.ex. en gemensam orsak, men ger inga bevis. När många variabler i komplexa system studeras kan dessutom falska samband uppstå. Därför innebär association inte orsakssamband.
I dagligt tal används beroende, association och korrelation omväxlande. Tekniskt sett är dock association synonymt med beroende och skiljer sig från korrelation (figur 1a). Associering är ett mycket allmänt förhållande: en variabel ger information om en annan. Korrelation är mer specifik: två variabler är korrelerade när de uppvisar en ökande eller minskande trend. Om man till exempel observerar att X > μX innebär en ökande trend att det är mer sannolikt att Y > μY. Eftersom alla associationer inte är korrelationer, och eftersom kausalitet, som diskuterats ovan, endast kan kopplas till associationer, kan vi inte sätta likhetstecken mellan korrelation och kausalitet i någon riktning.
För kvantitativa och ordinala data finns det två primära mått på korrelation: Pearsons korrelation (r), som mäter linjära trender, och Spearmans (rang)korrelation (s), som mäter ökande och minskande trender som inte nödvändigtvis är linjära (fig. 1b). I likhet med annan statistik har dessa populationsvärden, vanligen kallade ρ. Det finns andra mått på samband som också kallas korrelationskoefficienter, men som kanske inte mäter trender.
När ”korrelerad” används i oförändrad form hänvisar det i allmänhet till Pearsons korrelation, som ges av ρ(X, Y) = cov(X, Y)/σXσY, där cov(X, Y) = E((X – μX)(Y – μY)). Den korrelation som beräknas från urvalet betecknas r. Båda variablerna måste vara på en intervall- eller kvotskala; r kan inte tolkas om någon av variablerna är ordinal. För en linjär trend är |r| = 1 i frånvaro av buller och minskar med buller, men det är också möjligt att |r| < 1 för perfekt associerade icke-linjära trender (fig. 1b). Dessutom kan datamängder med mycket olika associationer ha samma korrelation (fig. 1c). Därför bör ett spridningsdiagram användas för att tolka r. Om någon av variablerna förskjuts eller skalas ändras r inte och r(X, Y) = r(aX + b, Y). r är dock känslig för icke-linjära monotona (ökande eller minskande) omvandlingar. Om man till exempel tillämpar logtransformation, blir r(X, Y) ≠ r(X, log(Y)). Den är också känslig för intervallet av X- eller Y-värden och kan minska när värden tas från ett mindre intervall.
Om man misstänker ett ökande eller minskande men icke-linjärt förhållande är Spearmans korrelation mer lämplig. Det är en icke-parametrisk metod som omvandlar data till rangordning och sedan tillämpar formeln för Pearsonkorrelation. Den kan användas när X är ordinal och är mer robust mot outliers. Den är inte heller känslig för monotona ökande omvandlingar eftersom de bevarar rangerna – till exempel s(X, Y) = s(X, log(Y)). För båda koefficienterna motsvarar en mindre storlek en ökande spridning eller ett icke-monotont samband.
Det är möjligt att se stora korrelationskoefficienter även för slumpmässiga data (fig. 2a). Därför bör r rapporteras tillsammans med ett P-värde, som mäter i vilken grad data överensstämmer med nollhypotesen att det inte finns någon trend i populationen. För Pearsons r använder vi för att beräkna P-värdet teststatistiken √, som är t-fördelad med d.f. = n – 2 när (X, Y) har en bivariat normalfördelning (P för s kräver inte normalitet) och populationskorrelationen är 0. Ännu mer informativt är ett 95-procentigt konfidensintervall, som ofta beräknas med hjälp av bootstrapmetoden2. I figur 2a ser vi att värden upp till |r| < 0,63 inte är statistiskt signifikanta – deras konfidensintervall sträcker sig över noll. Ännu viktigare är att det finns mycket stora korrelationer som är statistiskt signifikanta (figur 2a) trots att de är hämtade från en population där den sanna korrelationen är ρ = 0. Dessa falska fall (figur 2b) bör förväntas varje gång ett stort antal korrelationer beräknas – till exempel ger en studie med endast 140 gener 9 730 korrelationer. Omvänt kan blygsamma korrelationer mellan ett fåtal variabler, som man vet är störande, vara biologiskt intressanta.
Om P beror på både r och provstorleken bör det aldrig användas som ett mått på styrkan i sambandet. Det är möjligt att ett mindre r, vars storlek kan tolkas som den uppskattade effektstorleken, är förknippat med ett mindre P enbart på grund av en stor urvalsstorlek3. Statistisk signifikans av en korrelationskoefficient innebär inte materiell och biologiskt relevant signifikans.
Värdet av båda koefficienterna kommer att fluktuera med olika prover, vilket framgår av figur 2, samt med mängden brus och/eller provstorleken. Med tillräckligt mycket brus kan korrelationskoefficienten upphöra att vara informativ om någon underliggande trend. Figur 3a visar ett perfekt korrelerat förhållande (X, X) där X är en uppsättning n = 20 punkter som är jämnt fördelade i intervallet i närvaro av olika mängder normalfördelat brus med standardavvikelsen σ. När σ ökar från 0,1 till 0,3 till 0,6 minskar r(X, X + σ) från 0,95 till 0,69 till 0,42. Vid σ = 0,6 är bruset tillräckligt stort för att r = 0,42 (P = 0,063) inte är statistiskt signifikant – dess konfidensintervall omfattar ρ = 0,
När den linjära trenden maskeras av brus behövs större prov för att säkert mäta korrelationen. Figur 3b visar hur korrelationskoefficienten varierar för delprov av storlek m som tagits från prov med olika bullernivåer: m = 4-20 (σ = 0,1), m = 4-100 (σ = 0,3) och m = 4-200 (σ = 0,6). När σ = 0,1 konvergerar korrelationskoefficienten till 0,96 när m > 12. När bruset är stort är dock inte bara värdet på r lägre för hela urvalet (t.ex. r = 0,59 för σ = 0,3), utan det behövs också större delurval för att på ett robust sätt skatta ρ.
Pearsons korrelationskoefficient kan också användas för att kvantifiera hur mycket fluktuation i en variabel som kan förklaras av dess korrelation med en annan variabel. En tidigare diskussion om variansanalys4 visade att effekten av en faktor på svarsvariabeln kan beskrivas som att den förklarar variationen i svaret; svaret varierade, och när faktorn väl hade beaktats minskade variationen. Den kvadrerade Pearsonkorrelationskoefficienten r2 har en liknande roll: den är den andel av variationen i Y som förklaras av X (och vice versa). Till exempel innebär r = 0,05 att endast 0,25 % av variationen i Y förklaras av X (och vice versa) och r = 0,9 att 81 % av variationen i Y förklaras av X. Denna tolkning är till hjälp vid bedömningar av den biologiska betydelsen av storleken på r när den är statistiskt signifikant.
Bortsett från korrelationen mellan egenskaperna kan vi också tala om korrelationen mellan de objekt som vi mäter. Detta uttrycks också som andelen förklarad varians. I synnerhet om enheterna är klustrade är intraklasskorrelationen (som bör betraktas som en kvadrerad korrelation) den procentuella varians som förklaras av klustren och som ges av σb2/(σb2 + σw2), där σb2 är variationen mellan klustren och σb2 + σw2 är den totala variationen mellan och inom klustren. Denna formel diskuterades tidigare i en undersökning av den procentandel av den totala variansen som förklaras av biologisk variation5 där klustren är de tekniska replikaten för samma biologiska replikat. Liksom för korrelationen mellan egenskaper gäller att ju högre intraklasskorrelationen är, desto mindre spridning i data – denna gång mätt inte från trendkurvan utan från klustercentrumen.
Association är samma sak som beroende och kan bero på direkt eller indirekt orsakssamband. Korrelation innebär specifika typer av samband, t.ex. monotona trender eller klusterbildning, men inte orsakssamband. När antalet egenskaper är stort i förhållande till urvalsstorleken uppstår till exempel ofta stora men falska korrelationer. Omvänt, när det finns ett stort antal observationer kan små och i sak oviktiga korrelationer vara statistiskt signifikanta.