One-Way ANOVA using SAS
PROC ANOVA & PROC GLM
See www.stattutorials.com/SASDATA for files mentioned in this tutorial
These SAS statistics tutorials briefly explain the use and interpretation of standard statistical analysis techniques for medical, pharmaceutical, clinical trial, marketing or scientific research.The only only SAS statistics tutorials for existing SAS
このチュートリアルの内容は、医療、医薬品、臨床試験、マーケティング、科学研究などにおける標準的な統計解析技術の使用と解釈を簡単に説明しています。
PROC ANOVA – One-Way Analysis
One-way Analysis of varianceは、2つ以上のグループがある場合の独立群t検定の拡張版です。 被験者が3つ以上の群のうちの1つに無作為に割り当てられ、各群内のデータは群間で等しい分散を持つ正規分布であることが仮定されています。 群間のサンプルサイズは等しくなくてもよいが、群のサンプルサイズに大きな差があると、いくつかの多重比較検定の結果に影響することがある
検定。 独立した群の比較のための仮説は次の通りである。 (k is the number of groups)
Ho: m1 = m2 … = mk (means of the all groups are equal)
Ha: mi ¹ mj (means of the two or more groups are not equal)
Reported test statistic is the F test with k-1 and N-k degrees of freedom, where N is the number of subjects.The test statisticは、自由度K-1のF検定です。 F検定の低いp値は、帰無仮説を棄却する証拠となる。 言い換えると、平均の少なくとも1つの対が等しくないという証拠があるのです。 たとえば、あなたが、グループをまたがる個人の体重増加が有意に異なるかどうかを決定するために、 GROUP変数の4つのレベルにわたってWEIGHT(増加)を比較することに興味があるとします。
以下のSASコードで検定を行うことができます。
PROC ANOVA DATA=ANOVA;
CLASS GROUP;
MODEL WEIGHT=GROUP;
TITLE ‘Compare WEIGHT across GROUPS’;
RUN.DATA=ANOVA.DATA=GROUP;
タイトル ‘体重をグループ間で比較’;
実行。
GROUPは「CLASS」またはグループ化変数(4つのレベルを含む)、WEIGHTは連続変数で、グループ間の平均が比較されることになる。 MODEL文は、
DEPENDENT VARIABLE = INDEPENDENT VARIABLE(S);
DEPENDENT変数は「応答」変数、または測定したもの、独立変数は観察されたデータ、と考えることができる。 モデル文は一般的に、等号の右側の情報があれば、等号の左側の情報の値について何かを予測できることを示しました。 (帰無仮説の下では、関係はない)
帰無仮説の棄却は、どの平均が異なるかを明確に示さないので、多重比較検定は、一元配置分散分析での有意な発見に続いて実行されることが多い。 PROC ANOVAで多重比較を行うには、MEANS文に多重比較オプションをつけます。 この文の構文は、
MEANS SOCIO /testname;
testnameは多重比較検定です。 SASで利用できる検定には以下のようなものがあります。
BON – 差のボンフェローニ t 検定を実行
DUNCAN – Duncan の多重範囲検定
SCHEFFE – Scheffe 多重比較手順
SNK – Student Newman Keuls 多重範囲検定
LSD Fisher’s Least Significant Difference test
TUKEY – Tukey’s studentized range test
DUNNETT (‘x’) – Dunnettの検定 – 単一コントロールとの比較
ALPHA = p – 比較のための有意水準(デフォルトは 0.)を指定することができます。05)
たとえば、TUKEY テストを選択するには、
MEANS GROUP /TUKEY;
Graphical comparison を使用することになります。 グラフィカルな比較では、グループの分布を視覚的に確認することができます。 p値が低い場合、2つ以上のグループの間に重複がほとんどない可能性があります。 p値が低くない場合は、すべてのグループ間にかなりの量の重複があることになります。 この分析のための簡単なグラフは、PROC PLOT または PROC GPLOT プロシージャを使用して作成できます。 例えば、
PROC GPLOT; PLOT GROUP*WEIGHT;
は、グループごとのWEIGHTを示すプロットを作成します。
このように、完全解析のコードは次のようになる。
PROC ANOVA;
CLASS GROUP;
MODEL WEIGHT=GROUP;
MEANS GROUP /TUKEY;
TITLE ‘Compare WEIGHT across GROUPS’.WEIGHT はグループ間のWEIGHTを比較する。
PROC GPLOT; PLOT GROUP*WEIGHT;
RUN;
以下は、一元配置分散分析を実行し、プロットを生成するSASのジョブとなります。
One-Way ANOVA Example
3つの頭痛薬(ブランド1、2、3)の緩和までの時間を比較するとします。 緩和までの時間は分単位で報告されます。 この実験では、15人の被験者が無作為に3つの薬のうちの1つに割り当てられました。 どの薬が一番効果的でしょうか? この例のデータは以下の通りです:
ブランド1 ブランド2 ブランド3
24.5 28.4 26.1
23.5 34.2 28.3
26.4 29.5 24.1
24.5 29.5 24.1
24.1 26.4 29.5 24.1
24.4 29.5 24.1
4439 ブランド3 44393
27.1 32.2 26.2
29.9 30.1 27.8
SASはデータがグループと観測値の2変数として入力されることを期待していることに注意してください。
以下は、これらのデータを分析するためのSASコードです。 (aanova example2.sas)
data ache;
input brand relief;
cards;
1 24.5
1 23.5
1 26.4
1 27.1
1 29.1
1 26.5
1 27.1
1 29.5
1 26.5
1 26.5
2 28.4
2 34.2
2 29.5
2 32.2
2 30.1
3 26.1
3 28.3
3 24.3
3 26.2
3 27.8
;
ods rtf;ods listing close;
proc anova data=ache;
class brand;
model relief=brand;
means brand/tukey cldiff;
title ‘compare relief across medicines – anova example’;
proc gplot.DATA;
モデルrelief=brand;
plot relief*brand;
proc boxplot;
plot relief*brand;
title ‘anova results’;
run;
quit;
ODS RTF close;
ODS LISTING;
以下は頭痛緩和試験の(部分)出力です。
ANOVA Procedureu
Dependent Variable.(従属変数)
ODS LISTING;
以下は、頭痛緩和研究の(部分)出力です。 Relief
Source |
DF |
SUM of Squares |
Mean 二乗 |
F値 |
Pr > F |
|
Model |
2 |
66.1
|
33.3860000 |
7.14 |
0.0091 |
|
Error |
12<1771> |
4.6773333 |
|
|
||
修正済み合計 |
14 |
122.9000000 |
|
|
|
R-二乗 |
Coeff Var |
Root MSE |
RELIEF Mean |
0.543303 |
7.751664 |
2.162714 |
27.90000 |
Source |
DF |
Anova SS |
平均二乗 |
F値 |
Pr > F |
||
BRAND |
2 |
66.1
|
|
|
33.38600000 |
7.14 |
0.0091 |
u このリストの最初のテーブルは分散分析テーブルである。 この表で観察すべき最も重要な行は、”モデル “である。 この行の右側は、全体のANOVA 検定のp値です。 それは “Pr > F “と表示され、p = 0.0091です。 これは、BRANDS間の平均に差があるかどうかを決定するために、全体モデルを検定します。 この場合、p値は小さいので、ブランドに統計的に有意な差があるという証拠があると結論づけることができます。
v ブランドに差があることがわかったので、その差がどこにあるのかを決定する必要があります。 この場合、その比較は Tukey Studentized Range comparison (at the alpha = 0.05 level) によって行われます。 以下の表をご覧ください。
Tukey Groupingの表は、これらの差を表示しています。 この表のグループ化ラベル “A “と “B “に注目してください。 A “グループの平均は1つだけで、それはブランド2です。 これは、ブランド2の平均が、他のすべてのグループの平均より有意に大きいことを示しています。 B “グループには2つの平均があり、それはブランド1と3です。 この2つの平均はグループ化されているので、有意な差は見いだせなかったことを物語っています。
RELIEFvのTukey’s Studentized Range (HSD) Test
Alpha |
0.05 |
|
誤差 自由度 |
12 |
|
誤差 平均平方 |
4.677333 |
|
Studentized Rangeの臨界値 |
3.誤差平均平方根 |
3.77278 |
最小有意差 |
3.有意差は1.0未満である。649 |
同じ文字を持つ平均は有意差がない。 |
|||
Tukey Grouping |
Mean |
N |
BRAND |
A |
30.0.0.0.0.1.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.880 |
5 |
2 |
|
|
|
|
B |
26.540 |
5 |
3 |
B |
|
|
|
B |
26.280 |
5 |
1 |
従って、Tukey比較はブランド2の平均がブランド1、3の平均より著しく高く、ブランド1と3に有意差がないことを結論づけることになった。 違いを表現する別の方法として、CLDIFFオプションとTUKEY(同じ結果、差の表現)を併用する方法もあります。 例えば、
MEANS BRAND/TUKEY CLDIFF;
このオプションを使用すると、このバージョンの比較表が作成されます:
0.05 レベルで有意な比較は *** で示されます。 |
||||
ブランド |
差異 |
同時95%信頼限界 |
|
|
2 ・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・ 172 3 |
4.340 |
0.691 |
7.989 |
*** |
2 – 1 |
4.600 |
0.951 |
8.249 |
*** |
3 – 2 |
-4.340 |
-7.989 |
-0.691 |
*** |
3 – 1 |
0.260 |
-3.389 |
3.909 |
|
1 – 2 |
-4.600 |
-8.249 |
-0.951 |
*** |
1 – 3 |
-0.260 |
-3.909 |
3.389 |
|
ビジュアル比較です。 BRAND by RELIEFの2つのグラフは、ブランド間の救済の分布を示し、ANOVAの結果を視覚的に確認することができます。 1つ目はPROC GPLOTコマンドで与えられる「点」プロットで、グループごとに各データ点を表示します。 2つ目のプロットは、PROC BOXPLOTで作成された箱ひげ図です。 ブランド2の救済結果は、ブランド1や3の水準よりも長い(高い値)傾向にあることに注意してください。
実習:
PROC ANOVAプログラムを修正して、次のコードを使用してScheffe、LSD、Dunnettの検定を行い、結果を比較してみてください。
はbrand/scheffe;
はbrand/LSD;
はbrand/dunnett(’1’)という意味である。
GLMによる一元配置分散分析
PROC GLMはPROC ANOVAとほぼ同じ結果が得られ、さらにいくつかのオプションが追加されている。 例えば、OUTPUT文があり、残差を出力し、それを調べることができます。 (PROCGLM1.sas)
ods rtf; ods graphics on;
proc glm data=ache;
class brand;
model relief=brand;
means brand/tukey cldiff;
output out=fitdata p=yhat r=resid.P;
out=fitdata r=resid.P;
output out=fitdata p=yhat r=resid.P;
出力する。
* ここで残差をプロットします;
PROC GPLOT;
plot resid*BRAND;
plot resid*yhat;
run;
ODS RTF CLOSE;
ODS GRAPHICS OFF.で出力します;
残差は、resid.plotで出力します。
ODS GRAPHICS ON と ODS GRAPHIS OFF という記述にも注目してください。 これは、PROC ANOVAと一緒にPROC GPLOTを使用したときよりも見栄えのするプロットを作成します。
しかし、まだ他にも興味を引くプロットがいくつかあります。 これらは、PROC GPLOT;
plot resid*BRAND;
plot resid*yhat;
run;
残差の分析というコードでリクエストされます。 最初のプロットは、ブランド別の残差です。 通常、残差はグループごとにランダムに散らばるようにしたいものです(このプロットでは大丈夫そうです)
2番目のプロットはYHAT(推定RELIEF)で残差を見ています。 3つのブランドに関連する3つの推定値を見ることができます。 各推定値について、残差はランダムに分布しています。
チュートリアル終了
http://www.stattutorials.com/SAS
を参照してください。