Die meisten Studien umfassen mehrere Antwortvariablen, und die Abhängigkeiten zwischen ihnen sind oft von großem Interesse. Wir möchten zum Beispiel wissen, ob die mRNA-Konzentrationen und die entsprechenden Proteine in einem Gewebe zusammen variieren oder ob steigende Konzentrationen eines Metaboliten mit veränderten Konzentrationen eines anderen verbunden sind. In diesem Monat beginnen wir eine Reihe von Beiträgen über Beziehungen zwischen Variablen (oder Merkmalen eines Systems), beginnend mit der Frage, wie paarweise Abhängigkeiten mithilfe der Korrelation charakterisiert werden können.
Zwei Variablen sind unabhängig, wenn der Wert der einen keine Informationen über den Wert der anderen liefert. Für die Variablen X und Y kann man die Unabhängigkeit ausdrücken, indem man sagt, dass die Chance, einen der möglichen Werte von X zu messen, vom Wert von Y unbeeinflusst ist, und umgekehrt, oder indem man die bedingte Wahrscheinlichkeit P(X|Y) = P(X) verwendet. So sind beispielsweise aufeinanderfolgende Münzwürfe unabhängig – bei einer fairen Münze ist P(H) = 0,5, unabhängig vom Ergebnis des vorangegangenen Wurfs, da ein Wurf die Eigenschaften der Münze nicht verändert. Wird dagegen ein System durch Beobachtung verändert, können die Messungen assoziiert oder gleichwertig abhängig werden. Karten, die ersatzlos gezogen werden, sind nicht unabhängig; wenn eine rote Karte gezogen wird, erhöht sich die Wahrscheinlichkeit, eine schwarze Karte zu ziehen, weil es jetzt weniger rote Karten gibt.
Assoziation ist nicht mit Kausalität zu verwechseln; wenn X die Ursache für Y ist, dann sind die beiden miteinander verbunden (abhängig). Assoziationen können jedoch zwischen Variablen entstehen, wenn eine kausale Beziehung besteht (d.h. X verursacht Y) oder nicht (d.h. sie haben eine gemeinsame Ursache), wie wir im Zusammenhang mit Bayes’schen Netzwerken1 gesehen haben. Nehmen wir zum Beispiel an, dass Menschen, die täglich mehr als 4 Tassen Kaffee trinken, ein geringeres Risiko haben, an Hautkrebs zu erkranken. Eine alternative Erklärung wäre, dass Menschen, die viel Kaffee trinken, lange in geschlossenen Räumen arbeiten und daher wenig der Sonne ausgesetzt sind, was ein bekanntes Risiko darstellt. In diesem Fall ist die Zahl der im Freien verbrachten Stunden eine Störvariable – eine Ursache, die beiden Beobachtungen gemeinsam ist. In einer solchen Situation kann kein direkter Kausalzusammenhang abgeleitet werden; die Assoziation legt lediglich eine Hypothese nahe, wie z. B. eine gemeinsame Ursache, bietet aber keinen Beweis. Wenn viele Variablen in komplexen Systemen untersucht werden, kann es darüber hinaus zu ungewollten Assoziationen kommen. Daher impliziert Assoziation keine Kausalität.
In der Alltagssprache werden die Begriffe Abhängigkeit, Assoziation und Korrelation austauschbar verwendet. Technisch gesehen ist Assoziation jedoch ein Synonym für Abhängigkeit und unterscheidet sich von Korrelation (Abb. 1a). Assoziation ist eine sehr allgemeine Beziehung: eine Variable liefert Informationen über eine andere. Die Korrelation ist spezifischer: Zwei Variablen sind korreliert, wenn sie einen steigenden oder fallenden Trend aufweisen. Bei einem steigenden Trend bedeutet beispielsweise die Beobachtung, dass X > μX ist, dass es wahrscheinlicher ist, dass Y > μY ist. Da nicht alle Assoziationen Korrelationen sind und weil Kausalität, wie oben erörtert, nur mit Assoziationen in Verbindung gebracht werden kann, können wir Korrelation nicht mit Kausalität in beiden Richtungen gleichsetzen.
Für quantitative und ordinale Daten gibt es zwei primäre Korrelationsmaße: Die Pearsonsche Korrelation (r), die lineare Trends misst, und die Spearmansche (Rang-)Korrelation (s), die steigende und fallende Trends misst, die nicht unbedingt linear sind (Abb. 1b). Wie andere Statistiken haben auch diese Werte Populationswerte, die üblicherweise als ρ bezeichnet werden. Es gibt noch andere Maße der Assoziation, die ebenfalls als Korrelationskoeffizienten bezeichnet werden, aber möglicherweise keine Trends messen.
Wenn „korreliert“ in unveränderter Form verwendet wird, bezieht es sich im Allgemeinen auf die Pearsonsche Korrelation, die durch ρ(X, Y) = cov(X, Y)/σXσY gegeben ist, wobei cov(X, Y) = E((X – μX)(Y – μY)). Die aus der Stichprobe berechnete Korrelation wird mit r bezeichnet. Beide Variablen müssen auf einer Intervall- oder Verhältnisskala liegen; r kann nicht interpretiert werden, wenn eine der beiden Variablen ordinal ist. Für einen linearen Trend ist |r| = 1 bei Abwesenheit von Rauschen und nimmt mit dem Rauschen ab, aber es ist auch möglich, dass |r| < 1 für perfekt assoziierte nichtlineare Trends (Abb. 1b). Darüber hinaus können Datensätze mit sehr unterschiedlichen Assoziationen die gleiche Korrelation aufweisen (Abb. 1c). Wenn eine der beiden Variablen verschoben oder skaliert wird, ändert sich r nicht und r(X, Y) = r(aX + b, Y). Allerdings reagiert r empfindlich auf nichtlineare monotone (zunehmende oder abnehmende) Transformationen. Bei Anwendung der logarithmischen Transformation ist r(X, Y) ≠ r(X, log(Y)). Sie reagiert auch empfindlich auf den Bereich der X- oder Y-Werte und kann abnehmen, wenn die Werte aus einem kleineren Bereich entnommen werden.
Wenn eine zunehmende oder abnehmende, aber nicht lineare Beziehung vermutet wird, ist die Spearman-Korrelation besser geeignet. Es handelt sich um eine nichtparametrische Methode, bei der die Daten in Ränge umgewandelt werden und dann die Formel für die Pearson-Korrelation angewendet wird. Sie kann verwendet werden, wenn X ordinal ist, und ist robuster gegenüber Ausreißern. Sie ist auch unempfindlich gegenüber monoton ansteigenden Transformationen, da diese die Ränge beibehalten – beispielsweise s(X, Y) = s(X, log(Y)). Für beide Koeffizienten gilt, dass ein kleinerer Wert einer zunehmenden Streuung oder einer nicht monotonen Beziehung entspricht.
Es ist möglich, große Korrelationskoeffizienten auch für Zufallsdaten zu sehen (Abb. 2a). Daher sollte r zusammen mit einem P-Wert angegeben werden, der misst, inwieweit die Daten mit der Nullhypothese übereinstimmen, dass es keinen Trend in der Population gibt. Für Pearsons r wird zur Berechnung des P-Wertes die Teststatistik √ verwendet, die t-verteilt ist mit d.f. = n – 2, wenn (X, Y) eine bivariate Normalverteilung hat (P für s erfordert keine Normalität) und die Populationskorrelation 0 ist. Noch informativer ist ein 95%-Konfidenzintervall, das häufig mit der Bootstrap-Methode2 berechnet wird. In Abbildung 2a sehen wir, dass Werte bis zu |r| < 0,63 statistisch nicht signifikant sind – ihr Konfidenzintervall liegt bei Null. Noch wichtiger ist, dass es sehr große Korrelationen gibt, die statistisch signifikant sind (Abb. 2a), obwohl sie aus einer Population stammen, in der die wahre Korrelation ρ = 0 ist. Diese Scheinkorrelationen (Abb. 2b) sind immer dann zu erwarten, wenn eine große Anzahl von Korrelationen berechnet wird – eine Studie mit nur 140 Genen ergibt beispielsweise 9.730 Korrelationen. Umgekehrt könnten bescheidene Korrelationen zwischen einigen wenigen Variablen, die bekanntermaßen verrauscht sind, biologisch interessant sein.
Da P sowohl von r als auch vom Stichprobenumfang abhängt, sollte es niemals als Maß für die Stärke des Zusammenhangs verwendet werden. Es ist möglich, dass ein kleineres r, dessen Größe als geschätzte Effektgröße interpretiert werden kann, nur aufgrund einer großen Stichprobengröße mit einem kleineren P verbunden ist3. Die statistische Signifikanz eines Korrelationskoeffizienten impliziert keine inhaltliche und biologisch relevante Signifikanz.
Der Wert beider Koeffizienten schwankt mit verschiedenen Stichproben, wie in Abbildung 2 zu sehen ist, sowie mit der Menge des Rauschens und/oder der Stichprobengröße. Bei ausreichendem Rauschen kann der Korrelationskoeffizient nicht mehr aussagekräftig genug sein, um einen zugrunde liegenden Trend zu erkennen. Abbildung 3a zeigt eine perfekt korrelierte Beziehung (X, X), wobei X ein Satz von n = 20 gleichmäßig im Bereich verteilten Punkten in Anwesenheit verschiedener Mengen von normalverteiltem Rauschen mit einer Standardabweichung σ ist. Wenn σ von 0,1 über 0,3 auf 0,6 ansteigt, sinkt r(X, X + σ) von 0,95 auf 0,69 auf 0,42. Bei σ = 0,6 ist das Rauschen so stark, dass r = 0,42 (P = 0,063) statistisch nicht signifikant ist – sein Konfidenzintervall umfasst ρ = 0,
Wenn der lineare Trend durch Rauschen überdeckt wird, sind größere Stichproben erforderlich, um die Korrelation sicher zu messen. Abbildung 3b zeigt, wie der Korrelationskoeffizient für Teilstichproben der Größe m variiert, die aus Stichproben mit unterschiedlichen Rauschwerten gezogen wurden: m = 4-20 (σ = 0,1), m = 4-100 (σ = 0,3) und m = 4-200 (σ = 0,6). Bei σ = 0,1 konvergiert der Korrelationskoeffizient auf 0,96, sobald m > 12 ist. Bei starkem Rauschen ist jedoch nicht nur der Wert von r für die gesamte Stichprobe niedriger (z. B. r = 0,59 für σ = 0,3), sondern es werden auch größere Teilstichproben benötigt, um ρ zuverlässig zu schätzen.
Der Pearson-Korrelationskoeffizient kann auch verwendet werden, um zu quantifizieren, wie viel Schwankung in einer Variablen durch ihre Korrelation mit einer anderen Variablen erklärt werden kann. Eine frühere Diskussion über die Varianzanalyse4 hat gezeigt, dass die Wirkung eines Faktors auf die Antwortvariable als Erklärung der Variation in der Antwort beschrieben werden kann; die Antwort variierte, und sobald der Faktor berücksichtigt wurde, nahm die Variation ab. Der quadrierte Pearson-Korrelationskoeffizient r2 hat eine ähnliche Funktion: Er ist der Anteil der Variation von Y, der durch X erklärt wird (und umgekehrt). Zum Beispiel bedeutet r = 0,05, dass nur 0,25 % der Varianz von Y durch X erklärt wird (und umgekehrt), und r = 0,9 bedeutet, dass 81 % der Varianz von Y durch X erklärt werden. Diese Interpretation ist hilfreich bei der Beurteilung der biologischen Bedeutung der Größe von r, wenn sie statistisch signifikant ist.
Neben der Korrelation zwischen den Merkmalen können wir auch über die Korrelation zwischen den zu messenden Items sprechen. Diese wird auch als Anteil der erklärten Varianz ausgedrückt. Insbesondere wenn die Einheiten geclustert sind, ist die Intraklassen-Korrelation (die als quadratische Korrelation zu verstehen ist) die prozentuale Varianz, die durch die Cluster erklärt wird und durch σb2/(σb2 + σw2) gegeben ist, wobei σb2 die Variation zwischen den Clustern und σb2 + σw2 die gesamte Variation zwischen und innerhalb der Cluster ist. Diese Formel wurde bereits bei der Untersuchung des prozentualen Anteils der Gesamtvarianz, der durch biologische Variation erklärt wird, erörtert5 , wobei die Cluster die technischen Replikate für dasselbe biologische Replikat sind. Wie bei der Korrelation zwischen Merkmalen gilt auch hier, je höher die Intraklassen-Korrelation ist, desto geringer ist die Streuung in den Daten – in diesem Fall wird sie nicht anhand der Trendkurve, sondern anhand der Clusterzentren gemessen.
Assoziation ist dasselbe wie Abhängigkeit und kann auf direkte oder indirekte Ursachen zurückzuführen sein. Korrelation impliziert bestimmte Arten von Assoziationen wie monotone Trends oder Clustering, aber keine Kausalität. Wenn zum Beispiel die Anzahl der Merkmale im Vergleich zum Stichprobenumfang groß ist, treten häufig große, aber falsche Korrelationen auf. Umgekehrt können bei einer großen Anzahl von Beobachtungen kleine und inhaltlich unbedeutende Korrelationen statistisch signifikant sein.