One-Way ANOVA folosind SAS
PROC ANOVA & PROC GLM
Consultați www.stattutorials.com/SASDATA pentru fișierele menționate în acest tutorial
Aceste tutoriale de statistică SAS explică pe scurt utilizarea și interpretarea tehnicilor standard de analiză statistică pentru cercetări medicale, farmaceutice, studii clinice, de marketing sau științifice. Exemplele includ instrucțiuni de utilizare a software-ului SAS.
Utilizarea PROC ANOVA – Analiză cu o singură cale
O analiză de varianță cu o singură cale este o extensie a testului t pentru grupuri independente în cazul în care există mai mult de două grupuri.
Ipoteze: Se presupune că subiecții sunt repartizați aleatoriu la unul dintre cele 3 sau mai multe grupuri și că datele din cadrul fiecărui grup sunt distribuite în mod normal cu varianțe egale între grupuri. Dimensiunile eșantioanelor între grupuri nu trebuie să fie egale, dar diferențele mari între dimensiunile eșantioanelor pentru grupuri pot afecta rezultatul unor teste de comparații multiple.
Test: Ipotezele pentru compararea grupurilor independente sunt:: (k este numărul de grupuri)
Ho: m1 = m2 … = mk (mediile tuturor grupurilor sunt egale)
Ha: mi ¹ mj (mediile a două sau mai multe grupuri nu sunt egale)
Statistica de test raportată este un test F cu k-1 și N-k grade de libertate, unde N este numărul de subiecți. O valoare p scăzută pentru testul F este o dovadă de respingere a ipotezei nule. Cu alte cuvinte, există dovezi că cel puțin o pereche de medii nu sunt egale. De exemplu, să presupunem că sunteți interesat să comparați GREUTATEA (creșterea) pe cele 4 niveluri ale unei variabile GRUP, pentru a determina dacă creșterea în greutate a indivizilor între grupuri este semnificativ diferită.
Următorul cod SAS poate efectua testul:
PROC ANOVA DATA=ANOVA;
CLASS GROUP;
MODEL WEIGHT=GROUP;
TITLE ‘Compare WEIGHT across GROUPS’;
RUN;
GROUP este „CLASA” sau variabila de grupare (care conține patru niveluri), iar WEIGHT este variabila continuă, ale cărei medii între grupuri urmează să fie comparate. Enunțul MODEL poate fi considerat ca fiind
VARIABILĂ DEPENDENTĂ = VARIABILĂ(S) INDEPENDENTĂ(S);
unde variabila DEPENDENTĂ este variabila „răspuns”, sau cea pe care ați măsurat-o, iar variabila (variabilele) independentă(e) reprezintă datele observate. Enunțul modelului a indicat, în general, că, date fiind informațiile din partea dreaptă a semnului egal, puteți prezice ceva despre valoarea informațiilor din partea stângă a semnului egal. (Sub ipoteza nulă nu există nicio relație.)
Din moment ce respingerea ipotezei nule nu vă spune în mod specific ce medii sunt diferite, se efectuează adesea un test de comparație multiplă în urma unei constatări semnificative în ANOVA cu o singură cale. Pentru a solicita comparații multiple în PROC ANOVA, includeți o declarație MEANS cu o opțiune de comparație multiplă. Sintaxa pentru această instrucțiune este
MEANS SOCIO /testname;
unde testname este un test de comparație multiplă. Unele dintre testele disponibile în SAS includ:
BON – Efectuează testele t Bonferroni ale diferențelor
DUNCAN – Testul cu intervale multiple al lui Duncan
SCHEFFE – Procedura de comparație multiplă Scheffe
SNK – Testul cu intervale multiple Student Newman Keuls
LSD – Fisher’s Least Significant Difference test
TUKEY – Tukey’s studentized range test
DUNNETT (‘x’) – Dunnett’s test – se compară cu un singur martor
De asemenea, puteți specifica
ALPHA = p – selectează nivelul de semnificație pentru comparații (implicit este 0.05)
De exemplu, pentru a selecta testul TUKEY, veți folosi instrucțiunea
MEANS GROUP /TUKEY;
Comparare grafică: O comparație grafică vă permite să vedeți vizual distribuția grupurilor. Dacă valoarea p este scăzută, sunt șanse să existe o suprapunere redusă între cele două sau mai multe grupuri. În cazul în care valoarea p nu este scăzută, va exista o suprapunere destul de mare între toate grupurile. Un grafic simplu pentru această analiză poate fi creat cu ajutorul procedurii PROC PLOT sau PROC GPLOT. De exemplu:
PROC GPLOT; PLOT GROUP*WEIGHT;
va produce un grafic care arată WEIGHT în funcție de grup.
Așa, codul pentru analiza completă devine:
:
PROC ANOVA;
CLASS GROUP;
MODEL WEIGHT=GROUP;
MEANS GROUP /TUKEY;
TITLE ‘Compare WEIGHT across GROUPS’;
PROC GPLOT; PLOT GROUP*WEIGHT;
RUN;
Urmează o sarcină SAS care efectuează o ANOVA cu o singură cale și produce un grafic.
One-Way ANOVA Exemplu
Să presupunem că comparați timpul de ameliorare a trei medicamente pentru dureri de cap – mărcile 1, 2 și 3. Datele privind timpul până la ameliorare sunt raportate în minute. Pentru acest experiment, 15 subiecți au fost plasați aleatoriu pe unul dintre cele trei medicamente. Care medicament (dacă este cazul) este cel mai eficient? Datele pentru acest exemplu sunt următoarele:
Marca 1 Marca 2 Marca 3
24,5 28,4 26,1
23,5 34,2 28,3
26,4 29,5 24.3
27.1 32.2 26.2
29.9 30.1 27.8
Rețineți că SAS se așteaptă ca datele să fie introduse ca două variabile, un grup și o observație.
Iată codul SAS pentru a analiza aceste date. (AANOVA EXAMPLE2.SAS)
DATE DURERE;
INPUT BRAND RELIEF;
CARDURI;
1 24.5
1 23.5
1 26.4
1 27.1
1 29.9
2 28.4
2 34.2
2 29.5
2 32.2
2 30.1
3 26.1
3 28.3
3 24.3
3 26.2
3 27.8
;
ODS RTF;ODS LISTING CLOSE;
PROC ANOVA DATA=ACHE;
CLASS BRAND;
MODEL RELIEF=BRAND;
MEANS BRAND/TUKEY CLDIFF;
TITLE ‘COMPARE RELIEF ACROSS MEDICINES – ANOVA EXAMPLE’;
PROC GPLOT;
PLOT RELIEF*BRAND;
PROC BOXPLOT;
PLOT RELIEF*BRAND;
TITLE ‘ANOVA RESULTS’;
RUN;
QUIT;
ODS RTF close;
ODS LISTING;
În cele ce urmează este rezultatul (parțial) pentru studiul privind ameliorarea durerii de cap:
ProceduraANOVAu
Variabila dependentă: Relief
Sursa
DF
Suma pătratelor
Medie Square
F Value
Pr > F
Model
2
66.7720000
33.3860000
7.14
0.0091
Eroare
12
56.1280000
4.6773333
Total corectat
14
122.9000000
R-Square
Coeff Var
Root MSE
RELIEF Mean
0.543303
7.751664
2.162714
27.90000
Sursa
DF
Anova SS
.
Mean Square
F Value
Pr > F
BRAND
2
66.77200000
33.38600000
7.14
0.0091
uTabelul inițial din această listă este Tabelul de analiză a varianței. Cea mai importantă linie care trebuie observată în acest tabel este „Modelul”. În dreapta acestei linii se află valoarea p pentru testul ANOVA global. Aceasta este listată ca „Pr > F” și este p = 0,0091. Acest lucru testează modelul general pentru a determina dacă există o diferență de medii între BRANDS. În acest caz, din moment ce valoarea p este mică, puteți concluziona că există dovezi că există o diferență semnificativă din punct de vedere statistic între mărci.
v Acum că știți că există diferențe în BRAND, trebuie să determinați unde se află aceste diferențe. În acest caz, această comparație se realizează prin comparația Tukey Studentized Range (la nivelul alfa = 0,05). Consultați tabelele de mai jos.
Tabelul de grupare Tukey prezintă aceste diferențe. Observați etichetele de grupare „A” și „B” din acest tabel. Există o singură medie asociată cu grupul „A”, și aceasta este marca 2. Acest lucru indică faptul că media pentru marca 2 este semnificativ mai mare decât mediile tuturor celorlalte grupuri. Există două medii asociate cu grupul „B” – mărcile 1 și 3. Având în vedere că aceste două medii sunt grupate, acest lucru vă indică faptul că nu au fost găsite ca fiind semnificativ diferite.
Testul Tukey’s Studentized Range (HSD) pentru RELIEFv
Alpha
0.05
Eroare Grade de libertate
12
Eroare medie pătratică
4.677333
Valoarea critică a intervalului studiat
3.77278
Diferența minimă semnificativă
3.649
Mediile cu aceeași literă nu sunt semnificativ diferite.
Tukey Gruparea
Media
N
BRAND
A
30.880
5
2
B
26.540
5
3
B
B
26.280
5
1
Astfel, comparația Tukey concluzionează că media pentru marca 2 este semnificativ mai mare decât mediile mărcilor 1 și 3, și că nu există o diferență semnificativă între mărcile 1 și 3. O altă modalitate de exprimare a diferențelor este utilizarea opțiunii CLDIFF cu TUKEY (aceleași rezultate, prezentarea diferențelor). De exemplu
MEANS BRAND/TUKEY CLDIFF;
Utilizarea acestei opțiuni produce aceste versiuni ale unui tabel comparativ:
Comparațiile semnificative la nivelul 0,05 sunt indicate cu ***.
BRAND
ComparareDiferență
Între
Mediile.
Limitele de încredere simultane de 95%
2 – 3
4.340
0.691
7.989
***
2 – 1
4.600
0.951
8.249
***
3 – 2
-4.340
-7.989
-0.691
***
3 – 1
0.260
-3.389
3.909
1 – 2
-4.600
-8.249
-0.951
***
1 – 3
-0.260
-3.909
3.389
Comparații vizuale: Două grafice ale BRAND by RELIEF vă arată distribuția reliefului între mărci, ceea ce confirmă vizual rezultatele ANOVA. Primul este un grafic „dot” dat de comanda PROC GPLOT și arată fiecare punct de date pe grup. Al doilea grafic este un grafic de tip „box and whiskers” creat cu PROC BOXPLOT. Observați că rezultatele reliefului mărcii 2 tind să fie mai lungi (valori mai mari) decât nivelurile pentru mărcile 1 și 3.
Exercițiu practic:
Modificați programul PROC ANOVA pentru a efectua testele Scheffe, LSD și Dunnett folosind următorul cod și comparați rezultatele.
ÎNSEAMNĂ MARCA/SCHEFFE;
ÎNSEAMNĂ MARCA/LSD;
ÎNSEAMNĂ MARCA/DUNNETT (‘1’);
One-Way ANOVA utilizând GLM
PROC GLM va produce în esență aceleași rezultate ca PROC ANOVA, cu adăugarea câtorva opțiuni suplimentare. De exemplu, puteți să includeți o instrucțiune OUTPUT și să scoateți reziduuri care pot fi apoi examinate. (PROCGLM1.SAS)
ODS RTF; ODS GRAPHICS ON;
PROC GLM DATA=ACHE;
CLASS BRAND;
MODEL RELIEF=BRAND;
MEANS BRAND/TUKEY CLDIFF;
OUTPUT OUT=FITDATA P=YHAT R=RESID;
* Acum reprezentați grafic reziduurile;
PROC GPLOT;
plot rezid*BRAND;
plot rezid*yhat;
run;
ODS RTF CLOSE;
ODS GRAPHICS OFF;
Observați, de asemenea, declarațiile ODS GRAPHICS ON și ODS GRAPHIS OFF. Acest lucru produce grafice mai arătoase decât am reușit să obținem folosind PROC GPLOT împreună cu PROC ANOVA. Aceasta produce un grafic mai detaliat de tip box and whiskers, așa cum se arată aici:
Cu toate acestea, există încă alte câteva grafice care ar putea fi de interes. Acestea sunt solicitate folosind codul
PROC GPLOT;
plot resid*BRAND;
plot resid*yhat;
run;
Graficele rezultate (mai jos) sunt o analiză a reziduurilor. Primul trasează reziduurile în funcție de marcă. De obicei, doriți ca reziduurile să fie împrăștiate aleatoriu pe grupe (ceea ce arată bine în acest grafic)
Al doilea grafic analizează reziduurile în funcție de YHAT (RELIEF-ul estimat). Puteți vedea trei estimări – legate de cele trei mărci. Pentru fiecare estimare, reziduurile sunt distribuite în mod aleatoriu.
Sfârșitul tutorialului
Vezi http://www.stattutorials.com/SAS
.