SAS tutoriály

One-Way ANOVA using SAS

PROC ANOVA & PROC GLM

Soubory uvedené v tomto tutoriálu naleznete na www.stattutorials.com/SASDATA

Tyto SAS statistické tutoriály stručně vysvětlují použití a interpretaci standardních technik statistické analýzy pro lékařský, farmaceutický, klinický, marketingový nebo vědecký výzkum. Příklady obsahují návod, jak používat software SAS.

Použití PROC ANOVA – jednosměrná analýza

Jednosměrná analýza rozptylu je rozšířením t-testu nezávislých skupin, pokud existují více než dvě skupiny.

Předpoklady: Předpokládá se, že subjekty jsou náhodně přiřazeny do jedné ze 3 nebo více skupin a že data v každé skupině jsou normálně rozdělena s rovnými rozptyly napříč skupinami. Velikosti vzorků mezi skupinami nemusí být stejné, ale velké rozdíly ve velikostech vzorků pro skupiny mohou ovlivnit výsledek některých testů vícenásobného porovnání.

Test: Hypotézy pro porovnání nezávislých skupin jsou následující: (k je počet skupin)

Ho: m1 = m2 … = mk (průměry všech skupin jsou stejné)

Ha: mi ¹ mj (průměry dvou nebo více skupin nejsou stejné)

Uváděná testová statistika je F test s k-1 a N-k stupni volnosti, kde N je počet subjektů. Nízká p-hodnota F-testu je důkazem pro zamítnutí nulové hypotézy. Jinými slovy, existuje důkaz, že alespoň jedna dvojice průměrů se nerovná. Předpokládejme například, že vás zajímá porovnání hmotnosti (přírůstku) ve 4 úrovních proměnné GROUP, abyste zjistili, zda se přírůstek hmotnosti jedinců napříč skupinami významně liší.

Tento test může provést následující kód SAS:

PROC ANOVA DATA=ANOVA;

CLASS GROUP;

MODEL WEIGHT=GROUP;

TITLE ‚Compare WEIGHT across GROUPS‘;

RUN;

GROUP je „CLASS“ neboli skupinová proměnná (obsahující čtyři úrovně) a WEIGHT je spojitá proměnná, jejíž průměry napříč skupinami mají být porovnány. Příkaz MODEL si lze představit jako

ZÁVISLÁ PROMĚNNÁ = NEZÁVISLÁ PROMĚNNÁ(É);

kde ZÁVISLÁ proměnná je proměnná „odezva“ neboli ta, kterou jste měřili, a nezávislá proměnná(é) jsou pozorovaná data. Modelové tvrzení obecně naznačovalo, že vzhledem k informacím na pravé straně rovnítka můžete předpovědět něco o hodnotě informací na levé straně rovnítka. (Při nulové hypotéze neexistuje žádný vztah.)

Protože zamítnutí nulové hypotézy konkrétně neříká, které prostředky se liší, často se po významném zjištění v jednosměrné ANOVĚ provádí test vícenásobného porovnání. Chcete-li si vyžádat vícenásobné srovnání v PROC ANOVA, uveďte příkaz MEANS s možností vícenásobného srovnání. Syntaxe tohoto příkazu je

MEANS SOCIO /testname;

kde testname je test vícenásobného porovnání. Některé z testů dostupných v SAS zahrnují:

BON – Provádí Bonferroniho t-testy rozdílů

DUNCAN – Duncanův test vícenásobného rozsahu

SCHEFFE – Scheffeho procedura vícenásobného porovnávání

SNK – Studentův Newmanův Keulsův test vícenásobného rozsahu

LSD – Test vícenásobného rozsahu

Fisherův test nejmenšího významného rozdílu

TUKEY – Tukeyův studentský rozsahový test

DUNNETT (‚x‘) – Dunnettův test – porovnání s jednou kontrolou

Můžete také zadat

ALPHA = p – volí hladinu významnosti pro porovnání (výchozí je 0.05)

Příklad pro výběr testu TUKEY použijete příkaz

MEANS GROUP /TUKEY;

Grafické srovnání: Grafické porovnání umožňuje vizuálně zobrazit rozložení skupin. Pokud je p-hodnota nízká, je pravděpodobné, že se dvě nebo více skupin budou překrývat jen málo. Pokud p-hodnota není nízká, bude mezi všemi skupinami poměrně velký překryv. Jednoduchý graf pro tuto analýzu lze vytvořit pomocí procedury PROC PLOT nebo PROC GPLOT. Například:

PROC GPLOT; PLOT GROUP*WEIGHT;

vytvoří graf zobrazující hmotnost podle skupin.

Takto vznikne kód pro kompletní analýzu:

PROC ANOVA;

CLASS GROUP;

MODEL WEIGHT=GROUP;

MEANS GROUP /TUKEY;

TITLE ‚Compare WEIGHT across GROUPS‘;

PROC GPLOT; PLOT GROUP*WEIGHT;

RUN;

Následuje úloha SAS, která provede jednocestnou ANOVA a vytvoří graf.


Příklad jednosměrné ANOVY

Předpokládejme, že porovnáváte dobu do úlevy od bolesti hlavy u tří léků — značek 1, 2 a 3. Zjistěte, zda jsou tyto léky účinné. Údaje o době do úlevy se uvádějí v minutách. Pro tento experiment bylo 15 pokusným osobám náhodně nasazeno jedno ze tří léčivých přípravků. Který lék (pokud vůbec nějaký) je nejúčinnější? Údaje pro tento příklad jsou následující:

Značka 1 Značka 2 Značka 3

24,5 28,4 26,1

23,5 34,2 28,3

26,4 29,5 24. Jaké jsou údaje pro tento příklad?3

27,1 32,2 26,2

29,9 30,1 27,8

Upozorňujeme, že SAS očekává, že data budou zadána jako dvě proměnné, skupina a pozorování.

Zde je uveden kód SAS pro analýzu těchto dat. (AANOVA EXAMPLE2.SAS)

DATA ACHE;

INPUT BRAND RELIEF;

CARDS;

1 24.5

1 23.5

1 26.4

1 27.1

1 29. (AANOVA EXAMPLE2.9

2 28.4

2 34.2

2 29.5

2 32.2

2 30.1

3 26.1

3 28.3

3 24.3

3 26.2

3 27.8

;

ODS RTF;ODS LISTING CLOSE;

PROC ANOVA DATA=ACHE;

CLASS BRAND;

MODEL RELIEF=BRAND;

MEANS BRAND/TUKEY CLDIFF;

TITLE ‚COMPARE RELIEF ACROSS MEDICINES – ANOVA EXAMPLE‘;

PROC GPLOT;

PLOT RELIEF*BRAND;

PROC BOXPLOT;

PLOT RELIEF*BRAND;

TITLE ‚ANOVA RESULTS‘;

RUN;

QUIT;

ODS RTF close;

ODS LISTING;

Následuje (částečný) výstup pro studii úlevy od bolesti hlavy:

ProceduraANOVAu

Závislá proměnná: Úleva

Zdroj

DF

Součet čtverců

Prům. Square

F Value

Pr > F

Model

2

66.7720000

33.3860000

7,14

0,0091

Chyba

12

56.1280000

4,6773333

Opraveno Celkem

14

122.9000000

R-Square

Coeff Var

Root MSE

RELIEF Mean

0.543303

7.751664

2.162714

27.90000

.

Zdroj

DF

Anova SS

Mean Square

F Value

Pr > F

BRAND

2

66. Jaký je průměr?77200000

33,38600000

7,14

0,0091

uPočáteční tabulka v tomto výpisu je tabulka analýzy rozptylu. Nejdůležitějším řádkem, který je třeba v této tabulce sledovat, je „Model“. Vpravo od tohoto řádku je uvedena p-hodnota pro celkový test ANOVA. Je uvedena jako „Pr > F“ a činí p = 0,0091. Tím se testuje celkový model, aby se zjistilo, zda existuje rozdíl v průměrech mezi značkami BRANDS. V tomto případě, protože p-hodnota je malá, můžete dojít k závěru, že existuje důkaz, že existuje statisticky významný rozdíl ve značkách.

v Nyní, když víte, že existují rozdíly ve značkách, musíte určit, v čem tyto rozdíly spočívají. V tomto případě se toto porovnání provádí pomocí Tukeyho Studentized Range porovnání (na hladině alfa = 0,05). Podívejte se na následující tabulky:

Tukeyho tabulka seskupení zobrazuje tyto rozdíly. Všimněte si v této tabulce označení skupin „A“ a „B“. Ke skupině „A“ je přiřazen pouze jeden průměr, a to značka 2. To znamená, že průměr pro značku 2 je výrazně větší než průměry všech ostatních skupin. Se skupinou „B“ jsou spojeny dva průměry – značky 1 a 3. Vzhledem k tomu, že tyto dva prostředky jsou seskupeny, říká to, že nebylo zjištěno, že by se významně lišily.

Tukeyův test studovaného rozsahu (HSD) pro RELIEFv

Alfa

0.05

Chyba Stupně volnosti

12

Chyba Střední kvadratura

4.677333

Kritická hodnota studovaného rozsahu

3.77278

Minimální signifikantní rozdíl

3.649

Střední hodnoty se stejným písmenem se významně neliší.

Tukeyho seskupení

Průměr

N

ZNAČKA

A

30. Které z těchto tří skupin jsou nejvýznamnější?880

5

2

B

26.540

5

3

B

B

26.280

5

1

Při Tukeyho srovnání tedy docházíme k závěru, že průměr pro značku 2 je významně vyšší než průměr značek 1 a 3 a že mezi značkami 1 a 3 není významný rozdíl. Jiným způsobem vyjádření rozdílů je použití možnosti CLDIFF s TUKEY (stejné výsledky, prezentace rozdílů). Například

MEANS BRAND/TUKEY CLDIFF;

Při použití této možnosti vznikne tato verze srovnávací tabulky:

Srovnání významná na hladině 0,05 jsou označena ***.

ZNAČKA
Srovnání

Rozdíl
Mezi
Prostředky

.

Současné 95% meze spolehlivosti

2 – 3

4.340

0.691

7.989

***

2 – 1

4.600

0.951

8.249

***

3 – 2

-4.340

-7.989

-0.691

***

3 – 1

0.260

-3.389

3.909

1 – 2

-4.600

-8.249

-0.951

***

1 – 3

-0.260

-3.909

3,389

Vizuální srovnání: Dva grafy BRAND by RELIEF ukazují rozložení reliéfu napříč značkami, což vizuálně potvrzuje výsledky ANOVA. První je „bodový“ graf daný příkazem PROC GPLOT a zobrazuje jednotlivé datové body podle skupin. Druhý graf je „box and whiskers plot“ vytvořený příkazem PROC BOXPLOT. Všimněte si, než výsledky reliéfu značky 2 mají tendenci být delší (vyšší hodnoty) než hladiny pro značky 1 a 3.

Praktické cvičení:

Upravte program PROC ANOVA tak, aby provedl Scheffeho, LSD a Dunnettův test pomocí následujícího kódu a porovnejte výsledky.

ZNAMENÁ ZNAČKA/CHEFFE;

ZNAMENÁ ZNAČKA/LSD;

ZNAMENÁ ZNAČKA/DUNNETT (‚1‘);

Jednosměrná ANOVA pomocí GLM

PROC GLM poskytne v podstatě stejné výsledky jako PROC ANOVA s přidáním několika dalších možností. Můžete například zahrnout příkaz OUTPUT a vypsat rezidua, která pak můžete zkoumat. (PROCGLM1.SAS)

ODS RTF; ODS GRAPHICS ON;

PROC GLM DATA=ACHE;

CLASS BRAND;

MODEL RELIEF=BRAND;

MEANS BRAND/TUKEY CLDIFF;

OUTPUT OUT=FITDATA P=YHAT R=RESID;

* Nyní vykreslete rezidua;

PROC GPLOT;

plot resid*BRAND;

plot resid*yhat;

run;

ODS RTF CLOSE;

ODS GRAPHICS OFF;

Všimněte si také příkazů ODS GRAPHICS ON a ODS GRAPHIS OFF. Výsledkem jsou lépe vypadající grafy, než jakých jsme byli schopni dosáhnout pomocí PROC GPLOT ve spojení s PROC ANOVA. Vznikne tak podrobnější box a whiskers graf, jak ukazujeme zde:

Existuje však ještě několik dalších grafů, které by mohly být zajímavé. Ty se vyžádají pomocí kódu

PROC GPLOT;

plot resid*BRAND;

plot resid*yhat;

run;

Výsledné grafy (níže) představují analýzu reziduí. První graf zobrazuje rezidua podle značky. Obvykle chcete, aby rezidua byla náhodně rozptýlena podle skupin (což v tomto grafu vypadá v pořádku)

Druhý graf se zabývá rezidui podle YHAT (odhadnutý RELIEF). Můžete vidět tři odhady – vztahující se ke třem značkám. Pro každý odhad jsou rezidua náhodně rozložena.

Konec výukového programu

Viz http://www.stattutorials.com/SAS

.

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna.