One-Way ANOVA using SAS
PROC ANOVA & PROC GLM
Soubory uvedené v tomto tutoriálu naleznete na www.stattutorials.com/SASDATA
Tyto SAS statistické tutoriály stručně vysvětlují použití a interpretaci standardních technik statistické analýzy pro lékařský, farmaceutický, klinický, marketingový nebo vědecký výzkum. Příklady obsahují návod, jak používat software SAS.
Použití PROC ANOVA – jednosměrná analýza
Jednosměrná analýza rozptylu je rozšířením t-testu nezávislých skupin, pokud existují více než dvě skupiny.
Předpoklady: Předpokládá se, že subjekty jsou náhodně přiřazeny do jedné ze 3 nebo více skupin a že data v každé skupině jsou normálně rozdělena s rovnými rozptyly napříč skupinami. Velikosti vzorků mezi skupinami nemusí být stejné, ale velké rozdíly ve velikostech vzorků pro skupiny mohou ovlivnit výsledek některých testů vícenásobného porovnání.
Test: Hypotézy pro porovnání nezávislých skupin jsou následující: (k je počet skupin)
Ho: m1 = m2 … = mk (průměry všech skupin jsou stejné)
Ha: mi ¹ mj (průměry dvou nebo více skupin nejsou stejné)
Uváděná testová statistika je F test s k-1 a N-k stupni volnosti, kde N je počet subjektů. Nízká p-hodnota F-testu je důkazem pro zamítnutí nulové hypotézy. Jinými slovy, existuje důkaz, že alespoň jedna dvojice průměrů se nerovná. Předpokládejme například, že vás zajímá porovnání hmotnosti (přírůstku) ve 4 úrovních proměnné GROUP, abyste zjistili, zda se přírůstek hmotnosti jedinců napříč skupinami významně liší.
Tento test může provést následující kód SAS:
PROC ANOVA DATA=ANOVA;
CLASS GROUP;
MODEL WEIGHT=GROUP;
TITLE ‚Compare WEIGHT across GROUPS‘;
RUN;
GROUP je „CLASS“ neboli skupinová proměnná (obsahující čtyři úrovně) a WEIGHT je spojitá proměnná, jejíž průměry napříč skupinami mají být porovnány. Příkaz MODEL si lze představit jako
ZÁVISLÁ PROMĚNNÁ = NEZÁVISLÁ PROMĚNNÁ(É);
kde ZÁVISLÁ proměnná je proměnná „odezva“ neboli ta, kterou jste měřili, a nezávislá proměnná(é) jsou pozorovaná data. Modelové tvrzení obecně naznačovalo, že vzhledem k informacím na pravé straně rovnítka můžete předpovědět něco o hodnotě informací na levé straně rovnítka. (Při nulové hypotéze neexistuje žádný vztah.)
Protože zamítnutí nulové hypotézy konkrétně neříká, které prostředky se liší, často se po významném zjištění v jednosměrné ANOVĚ provádí test vícenásobného porovnání. Chcete-li si vyžádat vícenásobné srovnání v PROC ANOVA, uveďte příkaz MEANS s možností vícenásobného srovnání. Syntaxe tohoto příkazu je
MEANS SOCIO /testname;
kde testname je test vícenásobného porovnání. Některé z testů dostupných v SAS zahrnují:
BON – Provádí Bonferroniho t-testy rozdílů
DUNCAN – Duncanův test vícenásobného rozsahu
SCHEFFE – Scheffeho procedura vícenásobného porovnávání
SNK – Studentův Newmanův Keulsův test vícenásobného rozsahu
LSD – Test vícenásobného rozsahu
Fisherův test nejmenšího významného rozdílu
TUKEY – Tukeyův studentský rozsahový test
DUNNETT (‚x‘) – Dunnettův test – porovnání s jednou kontrolou
Můžete také zadat
ALPHA = p – volí hladinu významnosti pro porovnání (výchozí je 0.05)
Příklad pro výběr testu TUKEY použijete příkaz
MEANS GROUP /TUKEY;
Grafické srovnání: Grafické porovnání umožňuje vizuálně zobrazit rozložení skupin. Pokud je p-hodnota nízká, je pravděpodobné, že se dvě nebo více skupin budou překrývat jen málo. Pokud p-hodnota není nízká, bude mezi všemi skupinami poměrně velký překryv. Jednoduchý graf pro tuto analýzu lze vytvořit pomocí procedury PROC PLOT nebo PROC GPLOT. Například:
PROC GPLOT; PLOT GROUP*WEIGHT;
vytvoří graf zobrazující hmotnost podle skupin.
Takto vznikne kód pro kompletní analýzu:
PROC ANOVA;
CLASS GROUP;
MODEL WEIGHT=GROUP;
MEANS GROUP /TUKEY;
TITLE ‚Compare WEIGHT across GROUPS‘;
PROC GPLOT; PLOT GROUP*WEIGHT;
RUN;
Následuje úloha SAS, která provede jednocestnou ANOVA a vytvoří graf.
Příklad jednosměrné ANOVY
Předpokládejme, že porovnáváte dobu do úlevy od bolesti hlavy u tří léků — značek 1, 2 a 3. Zjistěte, zda jsou tyto léky účinné. Údaje o době do úlevy se uvádějí v minutách. Pro tento experiment bylo 15 pokusným osobám náhodně nasazeno jedno ze tří léčivých přípravků. Který lék (pokud vůbec nějaký) je nejúčinnější? Údaje pro tento příklad jsou následující:
Značka 1 Značka 2 Značka 3
24,5 28,4 26,1
23,5 34,2 28,3
26,4 29,5 24. Jaké jsou údaje pro tento příklad?3
27,1 32,2 26,2
29,9 30,1 27,8
Upozorňujeme, že SAS očekává, že data budou zadána jako dvě proměnné, skupina a pozorování.
Zde je uveden kód SAS pro analýzu těchto dat. (AANOVA EXAMPLE2.SAS)
DATA ACHE;
INPUT BRAND RELIEF;
CARDS;
1 24.5
1 23.5
1 26.4
1 27.1
1 29. (AANOVA EXAMPLE2.9
2 28.4
2 34.2
2 29.5
2 32.2
2 30.1
3 26.1
3 28.3
3 24.3
3 26.2
3 27.8
;
ODS RTF;ODS LISTING CLOSE;
PROC ANOVA DATA=ACHE;
CLASS BRAND;
MODEL RELIEF=BRAND;
MEANS BRAND/TUKEY CLDIFF;
TITLE ‚COMPARE RELIEF ACROSS MEDICINES – ANOVA EXAMPLE‘;
PROC GPLOT;
PLOT RELIEF*BRAND;
PROC BOXPLOT;
PLOT RELIEF*BRAND;
TITLE ‚ANOVA RESULTS‘;
RUN;
QUIT;
ODS RTF close;
ODS LISTING;
Následuje (částečný) výstup pro studii úlevy od bolesti hlavy:
ProceduraANOVAu
Závislá proměnná: Úleva
Zdroj
DF
Součet čtverců
Prům. Square
F Value
Pr > F
Model
2
66.7720000
33.3860000
7,14
0,0091
Chyba
12
56.1280000
4,6773333
Opraveno Celkem
14
122.9000000
R-Square
Coeff Var
Root MSE
RELIEF Mean
0.543303
7.751664
2.162714
27.90000
Zdroj
DF
Anova SS
.
Mean Square
F Value
Pr > F
BRAND
2
66. Jaký je průměr?77200000
33,38600000
7,14
0,0091
uPočáteční tabulka v tomto výpisu je tabulka analýzy rozptylu. Nejdůležitějším řádkem, který je třeba v této tabulce sledovat, je „Model“. Vpravo od tohoto řádku je uvedena p-hodnota pro celkový test ANOVA. Je uvedena jako „Pr > F“ a činí p = 0,0091. Tím se testuje celkový model, aby se zjistilo, zda existuje rozdíl v průměrech mezi značkami BRANDS. V tomto případě, protože p-hodnota je malá, můžete dojít k závěru, že existuje důkaz, že existuje statisticky významný rozdíl ve značkách.
v Nyní, když víte, že existují rozdíly ve značkách, musíte určit, v čem tyto rozdíly spočívají. V tomto případě se toto porovnání provádí pomocí Tukeyho Studentized Range porovnání (na hladině alfa = 0,05). Podívejte se na následující tabulky:
Tukeyho tabulka seskupení zobrazuje tyto rozdíly. Všimněte si v této tabulce označení skupin „A“ a „B“. Ke skupině „A“ je přiřazen pouze jeden průměr, a to značka 2. To znamená, že průměr pro značku 2 je výrazně větší než průměry všech ostatních skupin. Se skupinou „B“ jsou spojeny dva průměry – značky 1 a 3. Vzhledem k tomu, že tyto dva prostředky jsou seskupeny, říká to, že nebylo zjištěno, že by se významně lišily.
Tukeyův test studovaného rozsahu (HSD) pro RELIEFv
Alfa
0.05
Chyba Stupně volnosti
12
Chyba Střední kvadratura
4.677333
Kritická hodnota studovaného rozsahu
3.77278
Minimální signifikantní rozdíl
3.649
Střední hodnoty se stejným písmenem se významně neliší.
Tukeyho seskupení
Průměr
N
ZNAČKA
A
30. Které z těchto tří skupin jsou nejvýznamnější?880
5
2
B
26.540
5
3
B
B
26.280
5
1
Při Tukeyho srovnání tedy docházíme k závěru, že průměr pro značku 2 je významně vyšší než průměr značek 1 a 3 a že mezi značkami 1 a 3 není významný rozdíl. Jiným způsobem vyjádření rozdílů je použití možnosti CLDIFF s TUKEY (stejné výsledky, prezentace rozdílů). Například
MEANS BRAND/TUKEY CLDIFF;
Při použití této možnosti vznikne tato verze srovnávací tabulky:
Srovnání významná na hladině 0,05 jsou označena ***.
ZNAČKA
SrovnáníRozdíl
Mezi
Prostředky.
Současné 95% meze spolehlivosti
2 – 3
4.340
0.691
7.989
***
2 – 1
4.600
0.951
8.249
***
3 – 2
-4.340
-7.989
-0.691
***
3 – 1
0.260
-3.389
3.909
1 – 2
-4.600
-8.249
-0.951
***
1 – 3
-0.260
-3.909
3,389
Vizuální srovnání: Dva grafy BRAND by RELIEF ukazují rozložení reliéfu napříč značkami, což vizuálně potvrzuje výsledky ANOVA. První je „bodový“ graf daný příkazem PROC GPLOT a zobrazuje jednotlivé datové body podle skupin. Druhý graf je „box and whiskers plot“ vytvořený příkazem PROC BOXPLOT. Všimněte si, než výsledky reliéfu značky 2 mají tendenci být delší (vyšší hodnoty) než hladiny pro značky 1 a 3.
Praktické cvičení:
Upravte program PROC ANOVA tak, aby provedl Scheffeho, LSD a Dunnettův test pomocí následujícího kódu a porovnejte výsledky.
ZNAMENÁ ZNAČKA/CHEFFE;
ZNAMENÁ ZNAČKA/LSD;
ZNAMENÁ ZNAČKA/DUNNETT (‚1‘);
Jednosměrná ANOVA pomocí GLM
PROC GLM poskytne v podstatě stejné výsledky jako PROC ANOVA s přidáním několika dalších možností. Můžete například zahrnout příkaz OUTPUT a vypsat rezidua, která pak můžete zkoumat. (PROCGLM1.SAS)
ODS RTF; ODS GRAPHICS ON;
PROC GLM DATA=ACHE;
CLASS BRAND;
MODEL RELIEF=BRAND;
MEANS BRAND/TUKEY CLDIFF;
OUTPUT OUT=FITDATA P=YHAT R=RESID;
* Nyní vykreslete rezidua;
PROC GPLOT;
plot resid*BRAND;
plot resid*yhat;
run;
ODS RTF CLOSE;
ODS GRAPHICS OFF;
Všimněte si také příkazů ODS GRAPHICS ON a ODS GRAPHIS OFF. Výsledkem jsou lépe vypadající grafy, než jakých jsme byli schopni dosáhnout pomocí PROC GPLOT ve spojení s PROC ANOVA. Vznikne tak podrobnější box a whiskers graf, jak ukazujeme zde:
Existuje však ještě několik dalších grafů, které by mohly být zajímavé. Ty se vyžádají pomocí kódu
PROC GPLOT;
plot resid*BRAND;
plot resid*yhat;
run;
Výsledné grafy (níže) představují analýzu reziduí. První graf zobrazuje rezidua podle značky. Obvykle chcete, aby rezidua byla náhodně rozptýlena podle skupin (což v tomto grafu vypadá v pořádku)
Druhý graf se zabývá rezidui podle YHAT (odhadnutý RELIEF). Můžete vidět tři odhady – vztahující se ke třem značkám. Pro každý odhad jsou rezidua náhodně rozložena.
Konec výukového programu
Viz http://www.stattutorials.com/SAS
.