Tutoriale SAS | St. Charles

One-Way ANOVA folosind SAS

PROC ANOVA & PROC GLM

Consultați www.stattutorials.com/SASDATA pentru fișierele menționate în acest tutorial

Aceste tutoriale de statistică SAS explică pe scurt utilizarea și interpretarea tehnicilor standard de analiză statistică pentru cercetări medicale, farmaceutice, studii clinice, de marketing sau științifice. Exemplele includ instrucțiuni de utilizare a software-ului SAS.

Utilizarea PROC ANOVA – Analiză cu o singură cale

O analiză de varianță cu o singură cale este o extensie a testului t pentru grupuri independente în cazul în care există mai mult de două grupuri.

Ipoteze: Se presupune că subiecții sunt repartizați aleatoriu la unul dintre cele 3 sau mai multe grupuri și că datele din cadrul fiecărui grup sunt distribuite în mod normal cu varianțe egale între grupuri. Dimensiunile eșantioanelor între grupuri nu trebuie să fie egale, dar diferențele mari între dimensiunile eșantioanelor pentru grupuri pot afecta rezultatul unor teste de comparații multiple.

Test: Ipotezele pentru compararea grupurilor independente sunt:: (k este numărul de grupuri)

Ho: m1 = m2 … = mk (mediile tuturor grupurilor sunt egale)

Ha: mi ¹ mj (mediile a două sau mai multe grupuri nu sunt egale)

Statistica de test raportată este un test F cu k-1 și N-k grade de libertate, unde N este numărul de subiecți. O valoare p scăzută pentru testul F este o dovadă de respingere a ipotezei nule. Cu alte cuvinte, există dovezi că cel puțin o pereche de medii nu sunt egale. De exemplu, să presupunem că sunteți interesat să comparați GREUTATEA (creșterea) pe cele 4 niveluri ale unei variabile GRUP, pentru a determina dacă creșterea în greutate a indivizilor între grupuri este semnificativ diferită.

Următorul cod SAS poate efectua testul:

PROC ANOVA DATA=ANOVA;

CLASS GROUP;

MODEL WEIGHT=GROUP;

TITLE ‘Compare WEIGHT across GROUPS’;

RUN;

GROUP este „CLASA” sau variabila de grupare (care conține patru niveluri), iar WEIGHT este variabila continuă, ale cărei medii între grupuri urmează să fie comparate. Enunțul MODEL poate fi considerat ca fiind

VARIABILĂ DEPENDENTĂ = VARIABILĂ(S) INDEPENDENTĂ(S);

unde variabila DEPENDENTĂ este variabila „răspuns”, sau cea pe care ați măsurat-o, iar variabila (variabilele) independentă(e) reprezintă datele observate. Enunțul modelului a indicat, în general, că, date fiind informațiile din partea dreaptă a semnului egal, puteți prezice ceva despre valoarea informațiilor din partea stângă a semnului egal. (Sub ipoteza nulă nu există nicio relație.)

Din moment ce respingerea ipotezei nule nu vă spune în mod specific ce medii sunt diferite, se efectuează adesea un test de comparație multiplă în urma unei constatări semnificative în ANOVA cu o singură cale. Pentru a solicita comparații multiple în PROC ANOVA, includeți o declarație MEANS cu o opțiune de comparație multiplă. Sintaxa pentru această instrucțiune este

MEANS SOCIO /testname;

unde testname este un test de comparație multiplă. Unele dintre testele disponibile în SAS includ:

BON – Efectuează testele t Bonferroni ale diferențelor

DUNCAN – Testul cu intervale multiple al lui Duncan

SCHEFFE – Procedura de comparație multiplă Scheffe

SNK – Testul cu intervale multiple Student Newman Keuls

LSD – Fisher’s Least Significant Difference test

TUKEY – Tukey’s studentized range test

DUNNETT (‘x’) – Dunnett’s test – se compară cu un singur martor

De asemenea, puteți specifica

ALPHA = p – selectează nivelul de semnificație pentru comparații (implicit este 0.05)

De exemplu, pentru a selecta testul TUKEY, veți folosi instrucțiunea

MEANS GROUP /TUKEY;

Comparare grafică: O comparație grafică vă permite să vedeți vizual distribuția grupurilor. Dacă valoarea p este scăzută, sunt șanse să existe o suprapunere redusă între cele două sau mai multe grupuri. În cazul în care valoarea p nu este scăzută, va exista o suprapunere destul de mare între toate grupurile. Un grafic simplu pentru această analiză poate fi creat cu ajutorul procedurii PROC PLOT sau PROC GPLOT. De exemplu:

PROC GPLOT; PLOT GROUP*WEIGHT;

va produce un grafic care arată WEIGHT în funcție de grup.

Așa, codul pentru analiza completă devine:

:

PROC ANOVA;

CLASS GROUP;

MODEL WEIGHT=GROUP;

MEANS GROUP /TUKEY;

TITLE ‘Compare WEIGHT across GROUPS’;

PROC GPLOT; PLOT GROUP*WEIGHT;

RUN;

Urmează o sarcină SAS care efectuează o ANOVA cu o singură cale și produce un grafic.

One-Way ANOVA Exemplu

Să presupunem că comparați timpul de ameliorare a trei medicamente pentru dureri de cap – mărcile 1, 2 și 3. Datele privind timpul până la ameliorare sunt raportate în minute. Pentru acest experiment, 15 subiecți au fost plasați aleatoriu pe unul dintre cele trei medicamente. Care medicament (dacă este cazul) este cel mai eficient? Datele pentru acest exemplu sunt următoarele:

Marca 1 Marca 2 Marca 3

24,5 28,4 26,1

23,5 34,2 28,3

26,4 29,5 24.3

27.1 32.2 26.2

29.9 30.1 27.8

Rețineți că SAS se așteaptă ca datele să fie introduse ca două variabile, un grup și o observație.

Iată codul SAS pentru a analiza aceste date. (AANOVA EXAMPLE2.SAS)

DATE DURERE;

INPUT BRAND RELIEF;

CARDURI;

1 24.5

1 23.5

1 26.4

1 27.1

1 29.9

2 28.4

2 34.2

2 29.5

2 32.2

2 30.1

3 26.1

3 28.3

3 24.3

3 26.2

3 27.8

;

ODS RTF;ODS LISTING CLOSE;

PROC ANOVA DATA=ACHE;

CLASS BRAND;

MODEL RELIEF=BRAND;

MEANS BRAND/TUKEY CLDIFF;

TITLE ‘COMPARE RELIEF ACROSS MEDICINES – ANOVA EXAMPLE’;

PROC GPLOT;

PLOT RELIEF*BRAND;

PROC BOXPLOT;

PLOT RELIEF*BRAND;

TITLE ‘ANOVA RESULTS’;

RUN;

QUIT;

ODS RTF close;

ODS LISTING;

În cele ce urmează este rezultatul (parțial) pentru studiul privind ameliorarea durerii de cap:

ProceduraANOVAu

Variabila dependentă: Relief

Sursa

DF

Suma pătratelor

Medie Square

F Value

Pr > F

Model

2

66.7720000

33.3860000

7.14

0.0091

Eroare

12

56.1280000

4.6773333

Total corectat

14

122.9000000

R-Square

Coeff Var

Root MSE

RELIEF Mean

0.543303

7.751664

2.162714

27.90000

.

Sursa

DF

Anova SS

Mean Square

F Value

Pr > F

BRAND

2

66.77200000

33.38600000

7.14

0.0091

uTabelul inițial din această listă este Tabelul de analiză a varianței. Cea mai importantă linie care trebuie observată în acest tabel este „Modelul”. În dreapta acestei linii se află valoarea p pentru testul ANOVA global. Aceasta este listată ca „Pr > F” și este p = 0,0091. Acest lucru testează modelul general pentru a determina dacă există o diferență de medii între BRANDS. În acest caz, din moment ce valoarea p este mică, puteți concluziona că există dovezi că există o diferență semnificativă din punct de vedere statistic între mărci.

v Acum că știți că există diferențe în BRAND, trebuie să determinați unde se află aceste diferențe. În acest caz, această comparație se realizează prin comparația Tukey Studentized Range (la nivelul alfa = 0,05). Consultați tabelele de mai jos.

Tabelul de grupare Tukey prezintă aceste diferențe. Observați etichetele de grupare „A” și „B” din acest tabel. Există o singură medie asociată cu grupul „A”, și aceasta este marca 2. Acest lucru indică faptul că media pentru marca 2 este semnificativ mai mare decât mediile tuturor celorlalte grupuri. Există două medii asociate cu grupul „B” – mărcile 1 și 3. Având în vedere că aceste două medii sunt grupate, acest lucru vă indică faptul că nu au fost găsite ca fiind semnificativ diferite.

Testul Tukey’s Studentized Range (HSD) pentru RELIEFv

Alpha

0.05

Eroare Grade de libertate

12

Eroare medie pătratică

4.677333

Valoarea critică a intervalului studiat

3.77278

Diferența minimă semnificativă

3.649

Mediile cu aceeași literă nu sunt semnificativ diferite.

Tukey Gruparea

Media

N

BRAND

A

30.880

5

2

B

26.540

5

3

B

B

26.280

5

1

Astfel, comparația Tukey concluzionează că media pentru marca 2 este semnificativ mai mare decât mediile mărcilor 1 și 3, și că nu există o diferență semnificativă între mărcile 1 și 3. O altă modalitate de exprimare a diferențelor este utilizarea opțiunii CLDIFF cu TUKEY (aceleași rezultate, prezentarea diferențelor). De exemplu

MEANS BRAND/TUKEY CLDIFF;

Utilizarea acestei opțiuni produce aceste versiuni ale unui tabel comparativ:

Comparațiile semnificative la nivelul 0,05 sunt indicate cu ***.

BRAND
Comparare

Diferență
Între
Mediile

.

Limitele de încredere simultane de 95%

2 – 3

4.340

0.691

7.989

***

2 – 1

4.600

0.951

8.249

***

3 – 2

-4.340

-7.989

-0.691

***

3 – 1

0.260

-3.389

3.909

1 – 2

-4.600

-8.249

-0.951

***

1 – 3

-0.260

-3.909

3.389

Comparații vizuale: Două grafice ale BRAND by RELIEF vă arată distribuția reliefului între mărci, ceea ce confirmă vizual rezultatele ANOVA. Primul este un grafic „dot” dat de comanda PROC GPLOT și arată fiecare punct de date pe grup. Al doilea grafic este un grafic de tip „box and whiskers” creat cu PROC BOXPLOT. Observați că rezultatele reliefului mărcii 2 tind să fie mai lungi (valori mai mari) decât nivelurile pentru mărcile 1 și 3.

Exercițiu practic:

Modificați programul PROC ANOVA pentru a efectua testele Scheffe, LSD și Dunnett folosind următorul cod și comparați rezultatele.

ÎNSEAMNĂ MARCA/SCHEFFE;

ÎNSEAMNĂ MARCA/LSD;

ÎNSEAMNĂ MARCA/DUNNETT (‘1’);

One-Way ANOVA utilizând GLM

PROC GLM va produce în esență aceleași rezultate ca PROC ANOVA, cu adăugarea câtorva opțiuni suplimentare. De exemplu, puteți să includeți o instrucțiune OUTPUT și să scoateți reziduuri care pot fi apoi examinate. (PROCGLM1.SAS)

ODS RTF; ODS GRAPHICS ON;

PROC GLM DATA=ACHE;

CLASS BRAND;

MODEL RELIEF=BRAND;

MEANS BRAND/TUKEY CLDIFF;

OUTPUT OUT=FITDATA P=YHAT R=RESID;

* Acum reprezentați grafic reziduurile;

PROC GPLOT;

plot rezid*BRAND;

plot rezid*yhat;

run;

ODS RTF CLOSE;

ODS GRAPHICS OFF;

Observați, de asemenea, declarațiile ODS GRAPHICS ON și ODS GRAPHIS OFF. Acest lucru produce grafice mai arătoase decât am reușit să obținem folosind PROC GPLOT împreună cu PROC ANOVA. Aceasta produce un grafic mai detaliat de tip box and whiskers, așa cum se arată aici:

Cu toate acestea, există încă alte câteva grafice care ar putea fi de interes. Acestea sunt solicitate folosind codul

PROC GPLOT;

plot resid*BRAND;

plot resid*yhat;

run;

Graficele rezultate (mai jos) sunt o analiză a reziduurilor. Primul trasează reziduurile în funcție de marcă. De obicei, doriți ca reziduurile să fie împrăștiate aleatoriu pe grupe (ceea ce arată bine în acest grafic)

Al doilea grafic analizează reziduurile în funcție de YHAT (RELIEF-ul estimat). Puteți vedea trei estimări – legate de cele trei mărci. Pentru fiecare estimare, reziduurile sunt distribuite în mod aleatoriu.

Sfârșitul tutorialului

Vezi http://www.stattutorials.com/SAS

.

Sursa	DF	Suma pătratelor	Medie Square	F Value	Pr > F
Model	2	66.7720000	33.3860000	7.14	0.0091
Eroare	12	56.1280000	4.6773333
Total corectat	14	122.9000000

R-Square	Coeff Var	Root MSE	RELIEF Mean
0.543303	7.751664	2.162714	27.90000

Sursa	DF	Anova SS	Mean Square	F Value	Pr > F
BRAND	2	66.77200000	33.38600000	7.14	0.0091

Alpha	0.05
Eroare Grade de libertate	12
Eroare medie pătratică	4.677333
Valoarea critică a intervalului studiat	3.77278
Diferența minimă semnificativă	3.649

Mediile cu aceeași literă nu sunt semnificativ diferite.
Tukey Gruparea	Media	N	BRAND
A	30.880	5	2

B	26.540	5	3
B
B	26.280	5	1

Comparațiile semnificative la nivelul 0,05 sunt indicate cu ***.
BRAND Comparare	Diferență Între Mediile .	Limitele de încredere simultane de 95%
2 – 3	4.340	0.691	7.989	***
2 – 1	4.600	0.951	8.249	***
3 – 2	-4.340	-7.989	-0.691	***
3 – 1	0.260	-3.389	3.909
1 – 2	-4.600	-8.249	-0.951	***
1 – 3	-0.260	-3.909	3.389

Utilizarea PROC ANOVA – Analiză cu o singură cale

One-Way ANOVA Exemplu

One-Way ANOVA utilizând GLM

Lasă un răspuns Anulează răspunsul