SAS-Tutorials

One-Way ANOVA using SAS

PROC ANOVA & PROC GLM

Siehe www.stattutorials.com/SASDATA für die in diesem Tutorial erwähnten Dateien

Diese SAS-Statistik-Tutorials erläutern kurz die Verwendung und Interpretation von statistischen Standardanalyseverfahren für medizinische, pharmazeutische, klinische Studien, Marketing oder wissenschaftliche Forschung. Die Beispiele enthalten Anleitungen für SAS Software.

Verwendung von PROC ANOVA – Einweganalyse

Eine Einwegvarianzanalyse ist eine Erweiterung des t-Tests für unabhängige Gruppen, wenn es mehr als zwei Gruppen gibt.

Annahmen: Es wird angenommen, dass die Probanden nach dem Zufallsprinzip einer von 3 oder mehr Gruppen zugewiesen werden und dass die Daten innerhalb jeder Gruppe normalverteilt sind, wobei die Varianzen zwischen den Gruppen gleich sind. Die Stichprobenumfänge zwischen den Gruppen müssen nicht gleich sein, aber große Unterschiede in den Stichprobenumfängen für die Gruppen können das Ergebnis einiger Mehrfachvergleichstests beeinflussen.

Test: Die Hypothesen für den Vergleich von unabhängigen Gruppen sind: (k ist die Anzahl der Gruppen)

Ho: m1 = m2 … = mk (Mittelwerte aller Gruppen sind gleich)

Ha: mi ¹ mj (Mittelwerte von zwei oder mehr Gruppen sind nicht gleich)

Die angegebene Teststatistik ist ein F-Test mit k-1 und N-k Freiheitsgraden, wobei N die Anzahl der Probanden ist. Ein niedriger p-Wert für den F-Test ist ein Beweis für die Ablehnung der Nullhypothese. Mit anderen Worten, es gibt Hinweise darauf, dass mindestens ein Paar von Mittelwerten nicht gleich ist. Nehmen wir zum Beispiel an, dass Sie daran interessiert sind, GEWICHT (Gewichtszunahme) über die 4 Stufen einer GRUPPEN-Variablen zu vergleichen, um festzustellen, ob die Gewichtszunahme der Individuen in den verschiedenen Gruppen signifikant unterschiedlich ist.

Der folgende SAS-Code kann den Test durchführen:

PROC ANOVA DATA=ANOVA;

CLASS GROUP;

MODEL WEIGHT=GROUP;

TITLE ‚Compare WEIGHT across GROUPS‘;

RUN;

GRUPPE ist die „KLASSE“ oder Gruppierungsvariable (mit vier Stufen), und GEWICHT ist die kontinuierliche Variable, deren Mittelwerte über Gruppen hinweg verglichen werden sollen. Die MODELL-Aussage kann man sich wie folgt vorstellen:

ABHÄNGIGE VARIABLE = UNABHÄNGIGE VARIABLE(n);

wobei die ABHÄNGIGE Variable die „Antwort“-Variable oder die von Ihnen gemessene Variable ist und die unabhängige(n) Variable(n) die beobachteten Daten sind. Die Modellaussage besagt im Allgemeinen, dass man angesichts der Informationen auf der rechten Seite des Gleichheitszeichens etwas über den Wert der Informationen auf der linken Seite des Gleichheitszeichens vorhersagen kann. (Unter der Nullhypothese besteht kein Zusammenhang.)

Da die Ablehnung der Nullhypothese keine konkrete Aussage darüber macht, welche Mittelwerte unterschiedlich sind, wird nach einem signifikanten Ergebnis in der einfaktoriellen ANOVA häufig ein Mehrfachvergleichstest durchgeführt. Um Mehrfachvergleiche in PROC ANOVA anzufordern, fügen Sie eine MEANS-Anweisung mit einer Mehrfachvergleichsoption ein. Die Syntax für diese Anweisung lautet

MEANS SOCIO /testname;

wobei testname ein Mehrfachvergleichstest ist. Einige der in SAS verfügbaren Tests sind:

BON – Führt Bonferroni t-Tests auf Unterschiede durch

DUNCAN – Duncan’s multiple range test

SCHEFFE – Scheffe multiple comparison procedure

SNK – Student Newman Keuls multiple range test

LSD – Fisher’s Least Significant Difference test

TUKEY – Tukey’s studentized range test

DUNNETT (‚x‘) – Dunnett’s test – Vergleich mit einer einzelnen Kontrolle

Sie können auch angeben

ALPHA = p – wählt das Signifikanzniveau für Vergleiche (Standard ist 0.05)

Um zum Beispiel den TUKEY-Test auszuwählen, würden Sie die Anweisung

MEANS GROUP /TUKEY;

Graphischer Vergleich verwenden: Ein grafischer Vergleich ermöglicht es Ihnen, die Verteilung der Gruppen visuell zu sehen. Wenn der p-Wert niedrig ist, ist die Wahrscheinlichkeit groß, dass es kaum Überschneidungen zwischen den beiden oder mehreren Gruppen gibt. Wenn der p-Wert nicht niedrig ist, ist die Wahrscheinlichkeit groß, dass es zwischen allen Gruppen zu Überschneidungen kommt. Ein einfaches Diagramm für diese Analyse kann mit dem Verfahren PROC PLOT oder PROC GPLOT erstellt werden. Beispiel:

PROC GPLOT; PLOT GRUPPE*Gewicht;

erzeugt ein Diagramm, das das Gewicht nach Gruppe darstellt.

Der Code für die vollständige Analyse lautet somit:

PROC ANOVA;

CLASS GROUP;

MODEL WEIGHT=GROUP;

MEANS GROUP /TUKEY;

TITLE ‚Compare WEIGHT across GROUPS‘;

PROC GPLOT; PLOT GROUP*WEIGHT;

RUN;

Das Folgende ist ein SAS-Job, der eine einseitige ANOVA durchführt und ein Diagramm erstellt.


Beispiel einer einseitigen ANOVA

Angenommen, Sie vergleichen die Zeit bis zur Linderung von drei Kopfschmerzmitteln – Marke 1, 2 und 3. Die Daten über die Zeit bis zur Linderung werden in Minuten angegeben. Für dieses Experiment wurden 15 Probanden nach dem Zufallsprinzip auf eines der drei Medikamente gesetzt. Welches Medikament (wenn überhaupt) ist am wirksamsten? Die Daten für dieses Beispiel sind wie folgt:

Marke 1 Marke 2 Marke 3

24.5 28.4 26.1

23.5 34.2 28.3

26.4 29.5 24.3

27.1 32.2 26.2

29.9 30.1 27.8

Beachte, dass SAS erwartet, dass die Daten als zwei Variablen, eine Gruppe und eine Beobachtung, eingegeben werden.

Hier ist der SAS-Code, um diese Daten zu analysieren. (AANOVA EXAMPLE2.SAS)

DATA ACHE;

INPUT BRAND RELIEF;

CARDS;

1 24.5

1 23.5

1 26.4

1 27.1

1 29.9

2 28.4

2 34.2

2 29.5

2 32.2

2 30.1

3 26.1

3 28.3

3 24.3

3 26.2

3 27.8

;

ODS RTF;ODS LISTING CLOSE;

PROC ANOVA DATA=ACHE;

CLASS BRAND;

MODEL RELIEF=BRAND;

MEANS BRAND/TUKEY CLDIFF;

TITLE ‚COMPARE RELIEF ACROSS MEDICINES – ANOVA EXAMPLE‘;

PROC GPLOT;

PLOT RELIEF*BRAND;

PROC BOXPLOT;

PLOT RELIEF*BRAND;

TITLE ‚ANOVA RESULTS‘;

RUN;

QUIT;

ODS RTF close;

ODS LISTING;

Nachfolgend finden Sie die (Teil-)Ausgabe für die Kopfschmerzlinderungsstudie:

ANOVA-Verfahrenu

Abhängige Variable: Linderung

Quelle

DF

Summe der Quadrate

Mittelwert Quadrat

F-Wert

Pr > F

Modell

2

66.7720000

33.3860000

7.14

0.0091

Fehler

12

56.1280000

4.6773333

Korrigiert Gesamt

14

122.9000000

R-Quadrat

Coeff Var

Root MSE

RELIEF Mittelwert

0.543303

7.751664

2.162714

27.90000

Quelle

DF

Anova SS

Mittleres Quadrat

F-Wert

Pr > F

BRAND

2

66.77200000

33.38600000

7.14

0.0091

uDie erste Tabelle in dieser Auflistung ist die Tabelle der Varianzanalyse. Die wichtigste Zeile in dieser Tabelle ist das „Modell“. Rechts von dieser Zeile steht der p-Wert für den gesamten ANOVA-Test. Er ist als „Pr > F“ aufgeführt und beträgt p = 0,0091. Damit wird das Gesamtmodell getestet, um festzustellen, ob es einen Unterschied in den Mittelwerten zwischen den Marken gibt. Da der p-Wert in diesem Fall klein ist, kann man zu dem Schluss kommen, dass ein statistisch signifikanter Unterschied zwischen den Marken besteht.

v Da man nun weiß, dass es Unterschiede zwischen den Marken gibt, muss man feststellen, wo die Unterschiede liegen. In diesem Fall wird dieser Vergleich mit dem Tukey-Studienbereichsvergleich durchgeführt (auf dem Niveau Alpha = 0,05). Siehe die nachstehenden Tabellen.

Die Tukey-Gruppierungstabelle zeigt diese Unterschiede an. Beachten Sie die Gruppierungsbezeichnungen „A“ und „B“ in dieser Tabelle. Es gibt nur einen Mittelwert, der mit der Gruppe „A“ verbunden ist, und das ist die Marke 2. Das bedeutet, dass der Mittelwert für Marke 2 deutlich größer ist als die Mittelwerte aller anderen Gruppen. Es gibt zwei Mittelwerte für die Gruppe „B“ – die Marken 1 und 3. Da diese beiden Mittelwerte gruppiert sind, bedeutet dies, dass sie sich nicht signifikant unterscheiden.

Tukey’s Studentized Range (HSD) Test für RELIEFv

Alpha

0.05

Fehler Freiheitsgrade

12

Fehler Mittleres Quadrat

4.677333

Kritischer Wert des studentischen Bereichs

3.77278

Minimale Signifikante Differenz

3.649

Mittelwerte mit demselben Buchstaben sind nicht signifikant unterschiedlich.

Tukey-Gruppierung

Mittelwert

N

BRAND

A

30.880

5

2

B

26.540

5

3

B

B

26.280

5

1

Der Tukey-Vergleich kommt also zu dem Schluss, dass der Mittelwert für Marke 2 signifikant höher ist als die Mittelwerte von Marke 1 und 3 und dass es keinen signifikanten Unterschied zwischen Marke 1 und 3 gibt. Eine andere Möglichkeit, die Unterschiede auszudrücken, ist die Verwendung der Option CLDIFF mit TUKEY (gleiche Ergebnisse, unterschiedliche Darstellung). Zum Beispiel

MEANS BRAND/TUKEY CLDIFF;

Die Verwendung dieser Option ergibt diese Versionen einer Vergleichstabelle:

Vergleiche, die auf dem 0,05-Niveau signifikant sind, werden mit *** gekennzeichnet.

BRAND
Vergleich

Differenz
zwischen
Mittelwerten

Gleichzeitige 95%-Konfidenzgrenzen

2 – 3

4.340

0.691

7.989

***

2 – 1

4.600

0.951

8.249

***

3 – 2

-4.340

-7.989

-0.691

***

3 – 1

0.260

-3.389

3.909

1 – 2

-4.600

-8.249

-0.951

***

1 – 3

-0.260

-3.909

3.389

Visuelle Vergleiche: Zwei Diagramme von BRAND by RELIEF zeigen Ihnen die Verteilung des Reliefs über die Marken, was die ANOVA-Ergebnisse visuell bestätigt. Die erste ist eine „Punkt“-Darstellung, die mit dem PROC GPLOT-Befehl erstellt wird und jeden Datenpunkt nach Gruppe anzeigt. Das zweite Diagramm ist ein mit PROC BOXPLOT erstelltes Box-and-Whiskers-Diagramm. Beachten Sie, dass die Ergebnisse für das Relief der Marke 2 tendenziell länger sind (höhere Werte) als die Werte für die Marken 1 und 3.

Praktische Übung:

Ändern Sie das PROC ANOVA-Programm, um den Scheffe-, LSD- und Dunnett-Test mit dem folgenden Code durchzuführen und die Ergebnisse zu vergleichen.

BEDEUTET MARKE/SCHEFFE;

BEDEUTET MARKE/LSD;

BEDEUTET MARKE/DUNNETT (‚1‘);

Einweg-ANOVA mit GLM

PROC GLM liefert im Wesentlichen die gleichen Ergebnisse wie PROC ANOVA mit dem Zusatz einiger weiterer Optionen. Zum Beispiel können Sie eine OUTPUT-Anweisung einfügen und Residuen ausgeben, die dann untersucht werden können. (PROCGLM1.SAS)

ODS RTF; ODS GRAPHICS ON;

PROC GLM DATA=ACHE;

CLASS BRAND;

MODEL RELIEF=BRAND;

MEANS BRAND/TUKEY CLDIFF;

OUTPUT OUT=FITDATA P=YHAT R=RESID;

* Plotten Sie nun die Residuen;

PROC GPLOT;

plot resid*BRAND;

plot resid*yhat;

run;

ODS RTF CLOSE;

ODS GRAPHICS OFF;

Beachten Sie auch die Anweisungen ODS GRAPHICS ON und ODS GRAPHIS OFF. Dies führt zu besser aussehenden Diagrammen, als wir sie mit PROC GPLOT in Verbindung mit PROC ANOVA erhalten konnten. Dies führt zu einer detaillierteren Box- und Whisker-Darstellung, wie hier gezeigt:

Es gibt jedoch noch einige andere Darstellungen, die von Interesse sein könnten. Diese werden mit dem Code

PROC GPLOT;

plot resid*BRAND;

plot resid*yhat;

run;

Die sich ergebenden Diagramme (unten) sind eine Analyse der Residuen. Die erste Darstellung zeigt die Residuen nach Marke. Normalerweise sollen die Residuen nach Gruppen zufällig gestreut sein (was in dieser Darstellung gut aussieht)

Die zweite Darstellung zeigt die Residuen nach YHAT (dem geschätzten RELIEF). Es sind drei Schätzungen zu sehen, die sich auf die drei Marken beziehen. Für jede Schätzung sind die Residuen zufällig verteilt.

Ende des Tutorials

Siehe http://www.stattutorials.com/SAS

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht.