In de meeste studies komen meerdere responsvariabelen voor, en de onderlinge afhankelijkheid daarvan is vaak van groot belang. Wij willen bijvoorbeeld weten of de niveaus van het mRNA en de overeenkomstige proteïnen in een weefsel samen variëren, of dat stijgende niveaus van een metaboliet samenhangen met veranderde niveaus van een andere. Deze maand beginnen we met een serie columns over relaties tussen variabelen (of kenmerken van een systeem), te beginnen met hoe paarsgewijze afhankelijkheden kunnen worden gekarakteriseerd met behulp van correlatie.
Twee variabelen zijn onafhankelijk wanneer de waarde van de een geen informatie geeft over de waarde van de ander. Voor de variabelen X en Y kan men de onafhankelijkheid uitdrukken door te zeggen dat de kans dat een van de mogelijke waarden van X wordt gemeten, niet wordt beïnvloed door de waarde van Y, en omgekeerd, of door gebruik te maken van de voorwaardelijke kans, P(X|Y) = P(X). Bijvoorbeeld, opeenvolgende opgooiingen van een munt zijn onafhankelijk – voor een eerlijke munt is P(H) = 0,5, ongeacht de uitkomst van de vorige opgooi, omdat een opgooi de eigenschappen van de munt niet verandert. Als een systeem daarentegen door waarneming wordt veranderd, kunnen metingen geassocieerd of, omgekeerd, afhankelijk worden. Kaarten die zonder vervanging worden getrokken zijn niet onafhankelijk; wanneer een rode kaart wordt getrokken, neemt de kans op het trekken van een zwarte kaart toe, omdat er nu minder rode kaarten zijn.
Associatie mag niet worden verward met causaliteit; als X Y veroorzaakt, dan zijn de twee geassocieerd (afhankelijk). Associaties kunnen echter ontstaan tussen variabelen in aanwezigheid (d.w.z. X veroorzaakt Y) en afwezigheid (d.w.z. ze hebben een gemeenschappelijke oorzaak) van een oorzakelijk verband, zoals we hebben gezien in de context van Bayesiaanse netwerken1. Stel bijvoorbeeld dat we waarnemen dat mensen die dagelijks meer dan 4 koppen koffie drinken een verminderde kans hebben op het ontwikkelen van huidkanker. Dit betekent niet noodzakelijk dat koffie resistentie tegen kanker verleent; een alternatieve verklaring zou zijn dat mensen die veel koffie drinken lange uren binnenshuis werken en dus weinig blootstelling aan de zon hebben, een bekend risico. Als dit het geval is, dan is het aantal uren dat men buitenshuis doorbrengt een verwarrende variabele – een oorzaak die beide waarnemingen gemeen hebben. In een dergelijke situatie kan geen direct oorzakelijk verband worden afgeleid; de associatie suggereert slechts een hypothese, zoals een gemeenschappelijke oorzaak, maar biedt geen bewijs. Bovendien kunnen bij de bestudering van vele variabelen in complexe systemen onechte associaties ontstaan. Associatie impliceert dus geen oorzakelijk verband.
In het dagelijks taalgebruik worden afhankelijkheid, associatie en correlatie door elkaar gebruikt. Technisch gezien is associatie echter synoniem met afhankelijkheid en verschilt het van correlatie (fig. 1a). Associatie is een zeer algemene relatie: een variabele verschaft informatie over een andere. Correlatie is specifieker: twee variabelen zijn gecorreleerd wanneer zij een stijgende of dalende tendens vertonen. Bijvoorbeeld, in een stijgende trend impliceert de waarneming dat X > μX dat het waarschijnlijker is dat Y > μY. Omdat niet alle associaties correlaties zijn, en omdat causaliteit, zoals hierboven besproken, alleen met associatie in verband kan worden gebracht, kunnen we correlatie niet gelijkstellen met causaliteit in beide richtingen.
Voor kwantitatieve en ordinale gegevens zijn er twee primaire maatstaven voor correlatie: De correlatie van Pearson (r), die lineaire tendensen meet, en de correlatie van Spearman (rangorde) (s), die stijgende en dalende tendensen meet die niet noodzakelijk lineair zijn (fig. 1b). Net als andere statistieken hebben deze waarden een populatiewaarde, gewoonlijk aangeduid als ρ. Er zijn andere maatstaven voor associatie die ook correlatiecoëfficiënten worden genoemd, maar die wellicht geen trends meten.
Wanneer “gecorreleerd” ongewijzigd wordt gebruikt, wordt gewoonlijk verwezen naar de Pearson-correlatie, gegeven door ρ(X, Y) = cov(X, Y)/σXσY, waarbij cov(X, Y) = E((X – μX)(Y – μY)). De uit de steekproef berekende correlatie wordt aangeduid met r. Beide variabelen moeten op een interval- of verhoudingsschaal staan; r kan niet worden geïnterpreteerd als een van beide variabelen ordinaal is. Voor een lineaire trend geldt dat |r| = 1 bij afwezigheid van ruis en afneemt met ruis, maar het is ook mogelijk dat |r| < 1 voor perfect geassocieerde niet-lineaire trends (Fig. 1b). Bovendien kunnen gegevensreeksen met zeer verschillende associaties dezelfde correlatie hebben (Fig. 1c). Derhalve moet een spreidingsdiagram worden gebruikt om r te interpreteren. Als een van beide variabelen wordt verschoven of geschaald, verandert r niet en r(X, Y) = r(aX + b, Y). Maar r is gevoelig voor niet-lineaire monotone (toenemende of afnemende) transformatie. Bijvoorbeeld, wanneer een log-transformatie wordt toegepast, wordt r(X, Y) ≠ r(X, log(Y)). Het is ook gevoelig voor het bereik van X- of Y-waarden en kan afnemen naarmate waarden uit een kleiner bereik worden genomen.
Als een stijgend of dalend maar niet-lineair verband wordt vermoed, is de Spearman-correlatie geschikter. Het is een niet-parametrische methode waarbij de gegevens in rangen worden omgezet en vervolgens de formule voor de Pearson-correlatie wordt toegepast. Zij kan worden gebruikt wanneer X ordinaal is en is beter bestand tegen uitbijters. Zij is ook niet gevoelig voor monotone oplopende transformaties omdat zij de rangen behouden – bijvoorbeeld s(X, Y) = s(X, log(Y)). Voor beide coëfficiënten geldt dat een kleinere magnitude overeenkomt met toenemende spreiding of een niet-monotoon verband.
Het is mogelijk om grote correlatiecoëfficiënten te zien, zelfs voor willekeurige gegevens (fig. 2a). Daarom moet r worden gerapporteerd samen met een P-waarde, die aangeeft in welke mate de gegevens consistent zijn met de nulhypothese dat er geen trend in de populatie is. Voor Pearson’s r gebruiken wij voor de berekening van de P-waarde de teststatistiek √, die t-verdund is met d.f. = n – 2 wanneer (X, Y) bivariaat normaal verdeeld is (P voor s vereist geen normaliteit) en de correlatie van de populatie 0 is. Nog informatiever is een 95%-betrouwbaarheidsinterval, dat vaak met behulp van de bootstrapmethode2 wordt berekend. In figuur 2a zien we dat waarden tot |r| < 0,63 niet statistisch significant zijn – hun betrouwbaarheidsintervallen omvatten nul. Belangrijker is dat er zeer grote correlaties zijn die statistisch significant zijn (fig. 2a), ook al zijn ze afkomstig uit een populatie waarin de werkelijke correlatie ρ = 0 is. Deze onechte gevallen (fig. 2b) zijn te verwachten wanneer een groot aantal correlaties wordt berekend – bijvoorbeeld een studie met slechts 140 genen levert 9.730 correlaties op. Omgekeerd kunnen bescheiden correlaties tussen enkele variabelen, waarvan bekend is dat ze ruis vertonen, biologisch interessant zijn.
Omdat P zowel van r als van de steekproefgrootte afhangt, mag deze nooit als maatstaf voor de sterkte van het verband worden gebruikt. Het is mogelijk dat een kleinere r, waarvan de grootte kan worden geïnterpreteerd als de geschatte effectgrootte, geassocieerd is met een kleinere P louter vanwege een grote steekproefgrootte3. Statistische significantie van een correlatiecoëfficiënt impliceert geen substantiële en biologisch relevante significantie.
De waarde van beide coëfficiënten zal fluctueren met verschillende steekproeven, zoals te zien is in figuur 2, en ook met de hoeveelheid ruis en/of de steekproefgrootte. Bij voldoende ruis kan de correlatiecoëfficiënt ophouden informatie te verschaffen over een onderliggende trend. Figuur 3a toont een perfect gecorreleerde relatie (X, X) waarbij X een reeks van n = 20 punten is die uniform verdeeld zijn in het bereik in aanwezigheid van verschillende hoeveelheden normaal verdeelde ruis met een standaardafwijking σ. Naarmate σ toeneemt van 0,1 tot 0,3 tot 0,6, neemt r(X, X + σ) af van 0,95 tot 0,69 tot 0,42. Bij σ = 0,6 is de ruis zo groot dat r = 0,42 (P = 0,063) niet statistisch significant is – het betrouwbaarheidsinterval omvat ρ = 0,
Wanneer de lineaire trend door ruis wordt gemaskeerd, zijn grotere steekproeven nodig om de correlatie met zekerheid te meten. Figuur 3b toont hoe de correlatiecoëfficiënt varieert voor deelsteekproeven van grootte m getrokken uit steekproeven met verschillende ruisniveaus: m = 4-20 (σ = 0,1), m = 4-100 (σ = 0,3) en m = 4-200 (σ = 0,6). Wanneer σ = 0,1 convergeert de correlatiecoëfficiënt naar 0,96 zodra m > 12. Wanneer de ruis echter groot is, is niet alleen de waarde van r lager voor de volledige steekproef (bv. r = 0,59 voor σ = 0,3), maar zijn ook grotere deelsteekproeven nodig om ρ robuust te schatten.
De Pearson-correlatiecoëfficiënt kan ook worden gebruikt om te kwantificeren hoeveel fluctuatie in een variabele kan worden verklaard door de correlatie ervan met een andere variabele. Bij een eerdere bespreking van variantieanalyses4 is gebleken dat het effect van een factor op de responsvariabele kan worden omschreven als het verklaren van de variatie in de respons; de respons varieerde, en zodra met de factor rekening was gehouden, nam de variatie af. De gekwadrateerde Pearson-correlatiecoëfficiënt r2 heeft een soortgelijke functie: het is het aandeel van de variatie in Y dat door X wordt verklaard (en omgekeerd). Bijvoorbeeld, r = 0,05 betekent dat slechts 0,25% van de variantie van Y wordt verklaard door X (en omgekeerd), en r = 0,9 betekent dat 81% van de variantie van Y wordt verklaard door X. Deze interpretatie is nuttig bij de beoordeling van het biologische belang van de grootte van r wanneer deze statistisch significant is.
Naast de correlatie tussen kenmerken kunnen we het ook hebben over de correlatie tussen de items die we meten. Deze wordt ook uitgedrukt als het aandeel van de variantie dat wordt verklaard. In het bijzonder, als de eenheden geclusterd zijn, dan is de intra-klasse correlatie (die moet worden beschouwd als een gekwadrateerde correlatie) de procentuele variantie die door de clusters wordt verklaard en gegeven door σb2/(σb2 + σw2), waarbij σb2 de tussen-cluster variatie is en σb2 + σw2 de totale tussen- en binnen-cluster variatie. Deze formule is eerder besproken in een onderzoek naar het percentage van de totale variantie dat door biologische variatie wordt verklaard5 , waarbij de clusters de technische replicaten voor hetzelfde biologische replicaat zijn. Net als bij de correlatie tussen kenmerken geldt ook hier: hoe hoger de intraklassieke correlatie, hoe minder spreiding in de gegevens – ditmaal niet gemeten aan de hand van de trendcurve, maar aan de hand van de clustermiddelen.
Associatie is hetzelfde als afhankelijkheid en kan het gevolg zijn van een direct of indirect oorzakelijk verband. Correlatie impliceert specifieke soorten associatie, zoals monotone trends of clustering, maar geen oorzakelijk verband. Wanneer bijvoorbeeld het aantal kenmerken groot is in vergelijking met de steekproefomvang, treden vaak grote maar onechte correlaties op. Omgekeerd, wanneer er een groot aantal waarnemingen is, kunnen kleine en inhoudelijk onbelangrijke correlaties statistisch significant zijn.