SAS tutorials

One-Way ANOVA using SAS

PROC ANOVA & PROC GLM

Se www.stattutorials.com/SASDATA for filer nævnt i denne tutorial

Disse SAS-statistik tutorials forklarer kortfattet brugen og fortolkningen af statistiske standardanalyseteknikker til medicinsk, farmaceutisk, klinisk forsøg, markedsføring eller videnskabelig forskning. Eksemplerne indeholder vejledninger til SAS Software.

Brug af PROC ANOVA – envejsanalyse

En envejsanalyse af varians er en udvidelse af t-testen for uafhængige grupper, hvor der er mere end to grupper.

Ansætninger: Det antages, at forsøgspersoner tildeles tilfældigt til en af 3 eller flere grupper, og at dataene inden for hver gruppe er normalfordelte med samme varians på tværs af grupperne. Prøvestørrelserne mellem grupperne behøver ikke at være lige store, men store forskelle i gruppernes prøvestørrelser kan påvirke resultatet af nogle multiple sammenligningstests.

Test: Hypoteserne for sammenligning af uafhængige grupper er: (k er antallet af grupper)

Ho: m1 = m2 … = mk (middelværdierne for alle grupper er ens)

Ha: mi ¹ mj (middelværdierne for to eller flere grupper er ikke ens)

Den teststatistik, der rapporteres, er en F-test med k-1 og N-k frihedsgrader, hvor N er antallet af forsøgspersoner. En lav p-værdi for F-testen er et bevis for at forkaste nulhypotesen. Med andre ord er der bevis for, at mindst ét gennemsnitspar ikke er lige store. Antag f.eks. at du er interesseret i at sammenligne VÆGT (vægtforøgelse) på tværs af de 4 niveauer af en GROUP-variabel for at afgøre, om vægtforøgelsen for enkeltpersoner på tværs af grupper er signifikant forskellig.

Den følgende SAS-kode kan udføre testen:

PROC ANOVA DATA=ANOVA;

CLASS GROUP;

MODEL WEIGHT=GROUP;

TITLE ‘Compare WEIGHT across GROUPS’;

RUN;

GROUP er “CLASS”- eller grupperingsvariablen (med fire niveauer), og WEIGHT er den kontinuerte variabel, hvis gennemsnit på tværs af grupper skal sammenlignes. MODEL-erklæringen kan opfattes som

DEPENDENT VARIABLE = INDEPENDENT VARIABLE(S);

hvor den DEPENDENT variable er “respons”-variablen, eller den, du har målt, og den/de uafhængige variabel(er) er de observerede data. Modelangivelsen angav generelt, at du, givet oplysningerne på højre side af lighedstegnet, kan forudsige noget om værdien af oplysningerne på venstre side af lighedstegnet. (Under nulhypotesen er der ingen sammenhæng.)

Da forkastelsen af nulhypotesen ikke specifikt fortæller, hvilke middelværdier der er forskellige, udføres der ofte en multipel sammenligningstest efter et signifikant resultat i envejs ANOVA’en. For at anmode om flere sammenligninger i PROC ANOVA skal du inkludere en MEANS-erklæring med en mulighed for flere sammenligninger. Syntaksen for denne erklæring er

MEANS SOCIO /testname;

hvor testname er en test til flere sammenligninger. Nogle af de test, der er tilgængelige i SAS, omfatter: Fisher’s Least Significant Difference test

TUKEY – Tukey’s studentized range test

DUNNETT (‘x’) – Dunnett’s test – sammenlign med en enkelt kontrol

Du kan også angive

ALPHA = p – vælger signifikansniveauet for sammenligninger (standard er 0.05)

For eksempel, for at vælge TUKEY-testen, skal du bruge angivelsen

MEANS GROUP /TUKEY;

Grafisk sammenligning: En grafisk sammenligning giver dig mulighed for visuelt at se fordelingen af grupperne. Hvis p-værdien er lav, er der chancer for, at der kun er lidt overlap mellem de to eller flere grupper. Hvis p-værdien ikke er lav, vil der være et rimeligt stort overlap mellem alle grupperne. Der kan oprettes en simpel graf til denne analyse ved hjælp af PROC PLOT- eller PROC GPLOT-proceduren. For eksempel:

PROC GPLOT; PLOT GROUP*WEIGHT;

vil producere et plot, der viser VÆGTEN efter gruppe.

Koden for den komplette analyse bliver således:

PROC ANOVA;

CLASS GROUP;

MODEL WEIGHT=GROUP;

MEANS GROUP /TUKEY;

TITLE ‘Compare WEIGHT across GROUPS’;

PROC GPLOT; PLOT GROUP*WEIGHT;

RUN;

Det følgende er et SAS-job, der udfører en envejs ANOVA og producerer et plot.


Eksempel på envejs ANOVA

Sæt, at du sammenligner tiden til lindring af tre hovedpinepræparater — mærke 1, 2 og 3. Dataene om tid til lindring angives i minutter. Til dette forsøg blev 15 forsøgspersoner tilfældigt placeret på en af de tre lægemidler. Hvilken medicin (hvis nogen) er den mest effektive? Dataene for dette eksempel er som følger:

Mærke 1 Mærke 2 Mærke 3

24,5 28,4 26,1

23,5 34,2 28,3

26,4 29,5 24.3

27.1 32.2 26.2

29.9 30.1 27.8

Bemærk, at SAS forventer, at dataene indtastes som to variabler, en gruppe og en observation.

Her er SAS-koden til at analysere disse data. (AANOVA EXAMPLE2.SAS)

DATA SMERTER;

INPUT MÆRKE LINDRING;

KORT;

1 24,5

1 23,5

1 26,4

1 27,1

1 29.9

2 28.4

2 34.2

2 29.5

2 32.2

2 30.1

3 26.1

3 28.3

3 24.3

3 26.2

3 27.8

;

ODS RTF;ODS LISTING CLOSE;

PROC ANOVA DATA=ACHE;

CLASS BRAND;

MODEL RELIEF=BRAND;

MEANS BRAND/TUKEY CLDIFF;

TITLE ‘COMPARE RELIEF ACROSS MEDICINES – ANOVA EXAMPLE’;

PROC GPLOT;

PLOT RELIEF*BRAND;

PROC BOXPLOT;

PLOT RELIEF*BRAND;

TITLE ‘ANOVA RESULTS’;

RUN;

QUIT;

ODS RTF close;

ODS LISTING;

Det følgende er det (delvise) output for undersøgelsen af hovedpineaflastning:

ANOVA-procedureu

Dependent variabel:

Relief

Kilde

DF

Sum af kvadrater

Middelværdi Square

F-værdi

Pr > F

Model

2

66.7720000

33.3860000

7.14

0.0091

Fejl

12

56.1280000

4.677333333

Korrigeret i alt

14

122.9000000

R-Square

Coeff Var

Root MSE

RELIEF Mean

0.543303

7.751664

2.162714

27.90000

Kilde

DF

Anova SS

Mean Square

F-værdi

Pr > F

BRAND

2

66.77200000

33.38600000

7.14

0.0091

uDen første tabel i denne liste er tabellen for variansanalyse. Den vigtigste linje i denne tabel er “Model”. Til højre for denne linje er p-værdien for den samlede ANOVA-test. Den er anført som “Pr > F” og er p = 0,0091. Dette tester den overordnede model for at afgøre, om der er en forskel i midlerne mellem BRANDS. I dette tilfælde kan du, da p-værdien er lille, konkludere, at der er tegn på, at der er en statistisk signifikant forskel mellem mærkerne.

v Nu hvor du ved, at der er forskelle i BRAND, skal du afgøre, hvor forskellene ligger. I dette tilfælde udføres denne sammenligning ved hjælp af Tukey Studentized Range-sammenligning (på alpha = 0,05-niveauet). Se tabellerne nedenfor.

Tukey-grupperingstabellen viser disse forskelle. Bemærk grupperingsmærkerne “A” og “B” i denne tabel. Der er kun én middelværdi forbundet med gruppen “A”, og det er mærke 2. Dette indikerer, at middelværdien for mærke 2 er signifikant større end middelværdien for alle andre grupper. Der er to middelværdier tilknyttet gruppen “B” – mærke 1 og 3. Da disse to midler er grupperet, fortæller det, at de ikke er signifikant forskellige.

Tukey’s Studentized Range (HSD) Test for RELIEFv

Alpha

0.05

Fejl Frihedsgrader

12

Fejl Middelkvadrat

4.677333

Kritisk værdi af Studentized Range

3.77278

Mindste signifikante forskel

3.649

Middelværdier med samme bogstav er ikke signifikant forskellige.

Tukey Gruppering

Middelværdi

N

BRAND

A

30.880

5

2

B

26.540

5

3

B

B

26.280

5

1

Dermed konkluderer Tukey-sammenligningen, at middelværdien for mærke 2 er signifikant højere end middelværdien for mærke 1 og 3, og at der ikke er nogen signifikant forskel mellem mærke 1 og 3. En anden måde at udtrykke forskellene på er ved at bruge CLDIFF-indstillingen med TUKEY (samme resultater, præsentation af forskelle). For eksempel

MEANS BRAND/TUKEY CLDIFF;

Anvendelse af denne indstilling giver disse versioner af en sammenligningstabel:

Sammenligninger, der er signifikante på 0,05-niveau, er angivet med ***.

BRAND
Sammenligning

Forskel
Mellem
Middelværdier

Simultane 95% konfidensgrænser

2 – 3

4.340

0.691

7.989

***

2 – 1

4.600

0.951

8.249

***

3 – 2

-4.340

-7.989

-0.691

***

3 – 1

0.260

-3.389

3.909

1 – 2

-4.600

-8.249

-0.951

***

1 – 3

-0.260

-3.909

3.389

Visuelle sammenligninger: To grafer af BRAND by RELIEF viser dig fordelingen af relief på tværs af mærker, hvilket visuelt bekræfter ANOVA-resultaterne. Den første er et “dot”-plot givet af PROC GPLOT-kommandoen og viser hvert datapunkt pr. gruppe. Det andet plot er et “box and whiskers”-plot oprettet med PROC BOXPLOT. Bemærk end Brand 2 reliefresultater har tendens til at være længere (højere værdier) end niveauerne for brand 1 og 3.

Håndgribelig øvelse:

Ændr PROC ANOVA-programmet til at udføre Scheffe, LSD og Dunnett’s test ved hjælp af følgende kode og sammenlign resultaterne.

BETYDER BRAND/SCHEFFE;

BETYDER BRAND/LSD;

BETYDER BRAND/DUNNETT (‘1’);

Envejs ANOVA ved hjælp af GLM

PROC GLM giver stort set de samme resultater som PROC ANOVA med tilføjelse af et par flere muligheder. Du kan f.eks. inkludere en OUTPUT-erklæring og output-residualer, som derefter kan undersøges. (PROCGLM1.SAS)

ODS RTF; ODS GRAPHICS ON;

PROC GLM DATA=ACHE;

CLASS BRAND;

MODEL RELIEF=BRAND;

MEANS BRAND/TUKEY CLDIFF;

OUTPUT OUT=FITDATA P=YHAT R=RESID;

* Plot nu residualerne;

PROC GPLOT;

plot resid*BRAND;

plot resid*yhat;

run;

ODS RTF CLOSE;

ODS GRAPHICS OFF;

Bemærk også angivelserne ODS GRAPHICS ON og ODS GRAPHIS OFF. Dette giver bedre udseende plot, end vi kunne få ved at bruge PROC GPLOT i forbindelse med PROC ANOVA. Dette giver det mere detaljerede box and whiskers plot som vist her:

Der er dog stadig et par andre plots, som kan være af interesse. Disse anmodes ved hjælp af koden

PROC GPLOT;

plot resid*BRAND;

plot resid*yhat;

run;

De resulterende plots (nedenfor) er en analyse af residualerne. Det første plot viser residualer efter mærke. Typisk ønsker man, at residualerne skal være tilfældigt spredt efter gruppe (hvilket ser okay ud i dette plot)

Det andet plot ser på residualer efter YHAT (den estimerede RELIEF). Man kan se tre skøn – relateret til de tre mærker. For hvert estimat er residualerne tilfældigt fordelt.

Slut på vejledning

Se http://www.stattutorials.com/SAS

Skriv et svar

Din e-mailadresse vil ikke blive publiceret.