Association, korrelation og årsagssammenhæng

De fleste undersøgelser omfatter flere responsvariabler, og afhængighederne mellem dem er ofte af stor interesse. Vi kan f.eks. ønske at vide, om niveauerne af mRNA og det tilsvarende protein varierer sammen i et væv, eller om stigende niveauer af en metabolit er forbundet med ændrede niveauer af en anden metabolit. I denne måned begynder vi en række klummer om relationer mellem variabler (eller træk ved et system), idet vi begynder med, hvordan parvise afhængigheder kan karakteriseres ved hjælp af korrelation.

To variabler er uafhængige, når værdien af den ene ikke giver nogen information om værdien af den anden. For variablerne X og Y kan vi udtrykke uafhængighed ved at sige, at chancen for at måle en af de mulige værdier af X er upåvirket af værdien af Y og omvendt, eller ved at bruge betinget sandsynlighed, P(X|Y) = P(X). For eksempel er på hinanden følgende kast med en mønt uafhængige – for en retfærdig mønt er P(H) = 0,5 uanset resultatet af det foregående kast, fordi et kast ikke ændrer møntens egenskaber. Hvis et system derimod ændres ved observation, kan målingerne blive associerede eller tilsvarende afhængige, hvis et system ændres ved observation. Kort, der trækkes uden udskiftning, er ikke uafhængige; når der trækkes et rødt kort, øges sandsynligheden for at trække et sort kort, fordi der nu er færre røde kort.

Associering bør ikke forveksles med kausalitet; hvis X forårsager Y, er de to associeret (afhængige). Der kan imidlertid opstå associationer mellem variabler i tilstedeværelse (dvs. X forårsager Y) og fravær (dvs. de har en fælles årsag) af et kausalt forhold, som vi har set i forbindelse med Bayesianske netværk1. Som et eksempel kan vi antage, at vi observerer, at personer, der dagligt drikker mere end 4 kopper kaffe, har en mindre risiko for at udvikle hudkræft. Dette betyder ikke nødvendigvis, at kaffe giver modstandsdygtighed over for kræft; en alternativ forklaring kunne være, at folk, der drikker meget kaffe, arbejder indendørs i mange timer og derfor kun er lidt udsat for solen, hvilket er en kendt risiko. Hvis dette er tilfældet, er antallet af timer, der tilbringes udendørs, en forvirrende variabel – en årsag, der er fælles for begge observationer. I en sådan situation kan der ikke udledes en direkte årsagssammenhæng; sammenhængen antyder blot en hypotese, f.eks. en fælles årsag, men er ikke et bevis. Når mange variabler i komplekse systemer undersøges, kan der desuden opstå falske sammenhænge. Associering indebærer således ikke årsagssammenhæng.

I daglig tale anvendes afhængighed, association og korrelation i flæng i flæng. Teknisk set er association imidlertid synonymt med afhængighed og er forskelligt fra korrelation (fig. 1a). Association er et meget generelt forhold: en variabel giver oplysninger om en anden variabel. Korrelation er mere specifik: to variabler er korreleret, når de udviser en stigende eller faldende tendens. Hvis man f.eks. i en stigende tendens konstaterer, at X > μX indebærer, at det er mere sandsynligt, at Y > μY er mere sandsynligt. Da ikke alle associationer er korrelationer, og da kausalitet, som diskuteret ovenfor, kun kan forbindes med association, kan vi ikke sidestille korrelation med kausalitet i nogen af retningerne.

Figur 1: Korrelation er en type association og måler stigende eller faldende tendenser kvantificeret ved hjælp af korrelationskoefficienter.

(a) Scatterplots af associerede (men ikke korrelerede), ikke-associerede og korrelerede variabler. I det nederste associeringseksempel er variansen i y stigende med x. (b) Pearson-korrelationskoefficienten (r, sort) måler lineære tendenser, og Spearman-korrelationskoefficienten (s, rød) måler stigende eller faldende tendenser. (c) Meget forskellige datasæt kan have lignende r-værdier. Deskriptorer som f.eks. krumning eller tilstedeværelsen af outliers kan være mere specifikke.

For kvantitative og ordinale data er der to primære mål for korrelation: Pearsons korrelation (r), som måler lineære tendenser, og Spearmans (rang)korrelation (s), som måler stigende og faldende tendenser, der ikke nødvendigvis er lineære (fig. 1b). Ligesom andre statistikker har disse populationsværdier, der normalt betegnes ρ. Der findes andre mål for association, der også betegnes korrelationskoefficienter, men som måske ikke måler tendenser.

Når “korreleret” bruges uændret, henviser det generelt til Pearsons korrelation, givet ved ρ(X, Y) = cov(X, Y)/σXσY, hvor cov(X, Y) = E((X – μX)(Y – μY)). Den korrelation, der beregnes ud fra stikprøven, betegnes r. Begge variabler skal være på en interval- eller forholdsskala; r kan ikke fortolkes, hvis en af variablerne er ordinale. For en lineær tendens er |r| = 1 i fravær af støj og aftager med støj, men det er også muligt, at |r| < 1 for perfekt associerede ikke-lineære tendenser (fig. 1b). Desuden kan datasæt med meget forskellige associationer have den samme korrelation (fig. 1c). Der bør derfor anvendes et spredningsdiagram til at fortolke r. Hvis en af variablerne forskydes eller skaleres, ændres r ikke, og r(X, Y) = r(aX + b, Y). r er imidlertid følsom over for ikke-lineær monoton (stigende eller faldende) transformation. Når der f.eks. anvendes logtransformation, er r(X, Y) ≠ r(X, log(Y)). Den er også følsom over for intervallet af X- eller Y-værdier og kan falde, når der udtages værdier fra et mindre interval.

Hvis der er mistanke om en stigende eller faldende, men ikke-lineær sammenhæng, er Spearmans korrelation mere hensigtsmæssig. Det er en ikke-parametrisk metode, der konverterer dataene til rangordener og derefter anvender formlen for Pearson-korrelation. Den kan anvendes, når X er ordinalt, og den er mere robust over for outliers. Den er heller ikke følsom over for monotone stigende transformationer, fordi de bevarer rangordene – f.eks. s(X, Y) = s(X, log(Y)). For begge koefficienter svarer en mindre størrelse til stigende spredning eller et ikke-monotonisk forhold.

Det er muligt at se store korrelationskoefficienter, selv for tilfældige data (fig. 2a). Derfor bør r rapporteres sammen med en P-værdi, som måler, i hvilken grad dataene er i overensstemmelse med nulhypotesen om, at der ikke er nogen tendens i populationen. For Pearson’s r bruger vi til beregning af P-værdien teststatistikken √, som er t-distribueret med d.f. = n – 2, når (X, Y) har en bivariat normalfordeling (P for s kræver ikke normalitet), og populationskorrelationen er 0. Endnu mere informativ er et 95 % konfidensinterval, som ofte beregnes ved hjælp af bootstrap-metoden2. I figur 2a kan vi se, at værdier op til |r| < 0,63 ikke er statistisk signifikante – deres konfidensintervaller spænder over nul. Endnu vigtigere er det, at der er meget store korrelationer, som er statistisk signifikante (fig. 2a), selv om de er udtrukket fra en population, hvor den sande korrelation er ρ = 0. Disse falske tilfælde (fig. 2b) bør forventes, hver gang et stort antal korrelationer beregnes – f.eks. giver en undersøgelse med kun 140 gener 9 730 korrelationer. Omvendt kan beskedne korrelationer mellem nogle få variabler, der vides at være støjende, være biologisk interessante.

Figur 2: Korrelationskoefficienter svinger i tilfældige data, og der kan opstå falske korrelationer.

(a) Fordeling (venstre) og 95 % konfidensintervaller (højre) af korrelationskoefficienter for 10.000 n = 10 prøver af to uafhængige normalfordelte variabler. Statistisk signifikante koefficienter (α = 0,05) og tilsvarende intervaller, der ikke omfatter r = 0, er fremhævet med blå farve. (b) Prøver med de tre største og mindste korrelationskoefficienter (statistisk signifikante) fra a.

Da P afhænger af både r og stikprøvestørrelsen, bør det aldrig bruges som et mål for styrken af sammenhængen. Det er muligt, at et mindre r, hvis størrelse kan fortolkes som den estimerede effektstørrelse, kan være forbundet med et mindre P alene på grund af en stor stikprøvestørrelse3. Statistisk signifikans af en korrelationskoefficient er ikke ensbetydende med indholdsmæssig og biologisk relevant signifikans.

Værdien af begge koefficienter vil svinge med forskellige stikprøver, som det ses i figur 2, samt med mængden af støj og/eller stikprøvestørrelsen. Med tilstrækkelig meget støj kan korrelationskoefficienten ophøre med at være informativ om en underliggende tendens. Figur 3a viser et perfekt korreleret forhold (X, X), hvor X er et sæt af n = 20 punkter, der er jævnt fordelt i intervallet i tilstedeværelsen af forskellige mængder normalfordelte støj med en standardafvigelse σ. Efterhånden som σ stiger fra 0,1 til 0,3 til 0,6, falder r(X, X + σ) fra 0,95 til 0,69 til 0,42. Ved σ = 0,6 er støjen tilstrækkelig stor til, at r = 0,42 (P = 0,063) ikke er statistisk signifikant – dens konfidensinterval omfatter ρ = 0,

Figur 3: Virkningen af støj og stikprøvestørrelse på Pearson’s korrelationskoefficient r.

(a) r for en n = 20 stikprøve af (X, X + ɛ), hvor ɛ er den normalfordelte støj, der er skaleret til standardafvigelsen σ. Størrelsen af spredningen og værdien af r ved tre værdier af σ er vist. Det skraverede område er det 95 % konfidensinterval. Intervaller, der ikke omfatter r = 0, er fremhævet med blå farve (σ < 0,58), og de intervaller, der omfatter r = 0, er fremhævet med grå farve og svarer til ikke-signifikante r-værdier (ns; f.eks. r = 0,42 med P = 0,063). (b) Efterhånden som stikprøvestørrelsen øges, bliver r mindre variabel, og estimatet af populationskorrelationen forbedres. Vist er vist prøver med stigende størrelse og støj: n = 20 (σ = 0,1), n = 100 (σ = 0,3) og n = 200 (σ = 0,6). Sporene nederst viser r beregnet ud fra en delprøve, der er oprettet ud fra de første m værdier i hver prøve.

Når den lineære tendens er maskeret af støj, er der behov for større prøver for at kunne måle korrelationen med sikkerhed. Figur 3b viser, hvordan korrelationskoefficienten varierer for delprøver af størrelsen m, der er udtaget fra prøver med forskellige støjniveauer: m = 4-20 (σ = 0,1), m = 4-100 (σ = 0,3) og m = 4-200 (σ = 0,6). Når σ = 0,1, konvergerer korrelationskoefficienten til 0,96, når m > 12. Når støjen er høj, er værdien af r imidlertid ikke blot lavere for hele stikprøven (f.eks. r = 0,59 for σ = 0,3), men der er også behov for større delprøver for at få et robust skøn over ρ.

Pearson-korrelationskoefficienten kan også bruges til at kvantificere, hvor meget udsving i en variabel der kan forklares ved dens korrelation med en anden variabel. En tidligere diskussion om variansanalyse4 viste, at virkningen af en faktor på responsvariablen kan beskrives som en forklaring af variationen i responsen; responsen varierede, og når der blev taget højde for faktoren, faldt variationen. Den kvadrerede Pearson-korrelationskoefficient r2 spiller en lignende rolle: den er den andel af variationen i Y, der forklares af X (og omvendt). F.eks. betyder r = 0,05, at kun 0,25 % af variansen i Y forklares af X (og omvendt), og r = 0,9 betyder, at 81 % af variansen i Y forklares af X. Denne fortolkning er nyttig ved vurderinger af den biologiske betydning af størrelsen af r, når den er statistisk signifikant.

Ud over korrelationen mellem træk kan vi også tale om korrelationen mellem de elementer, vi måler. Dette udtrykkes også som den andel af variansen, der forklares. Især hvis enhederne er grupperet, er intraklasseskorrelationen (som skal opfattes som en kvadreret korrelation) den procentvise varians, der forklares af klyngerne, og som er givet ved σb2/(σb2 + σw2), hvor σb2 er variationen mellem klyngerne og σb2 + σw2 er den samlede variation mellem og inden for klyngerne. Denne formel er tidligere blevet drøftet i en undersøgelse af den procentdel af den samlede varians, der forklares af biologisk variation5 , hvor klyngerne er de tekniske replikater for den samme biologiske replikat. Som med korrelationen mellem træk er det sådan, at jo højere intraklasseskorrelationen er, jo mindre spredning i dataene – denne gang målt ikke ud fra trendkurven, men ud fra klyngecentrene.

Association er det samme som afhængighed og kan skyldes direkte eller indirekte årsagssammenhæng. Korrelation indebærer specifikke typer af association som f.eks. monotone tendenser eller klynger, men ikke årsagssammenhæng. Når f.eks. antallet af træk er stort i forhold til stikprøvens størrelse, forekommer der ofte store, men falske korrelationer. Omvendt kan små og indholdsmæssigt uvæsentlige korrelationer være statistisk signifikante, når der er et stort antal observationer.

Skriv et svar

Din e-mailadresse vil ikke blive publiceret.