Tutoriales SAS

ANOVA de una vía usando SAS

PROC ANOVA & PROC GLM

Ver www.stattutorials.com/SASDATA para los archivos mencionados en este tutorial

Estos tutoriales de estadística SAS explican brevemente el uso y la interpretación de las técnicas de análisis estadístico estándar para la investigación médica, farmacéutica, de ensayos clínicos, de marketing o científica. Los ejemplos incluyen instrucciones sobre cómo utilizar el software SAS.

Uso de PROC ANOVA – Análisis de una vía

Un análisis de varianza de una vía es una extensión de la prueba t de grupos independientes cuando hay más de dos grupos.

Supuestos: Se asume que los sujetos son asignados aleatoriamente a uno de 3 o más grupos y que los datos dentro de cada grupo se distribuyen normalmente con varianzas iguales entre los grupos. Los tamaños de las muestras entre los grupos no tienen que ser iguales, pero las grandes diferencias en los tamaños de las muestras de los grupos pueden afectar al resultado de algunas pruebas de comparaciones múltiples.

Test: Las hipótesis para la comparación de grupos independientes son: (k es el número de grupos)

Ho: m1 = m2 … = mk (las medias de los todos los grupos son iguales)

Ha: mi ¹ mj (las medias de los dos o más grupos no son iguales)

El estadístico de prueba reportado es una prueba F con k-1 y N-k grados de libertad, donde N es el número de sujetos. Un valor p bajo para la prueba F es una prueba para rechazar la hipótesis nula. En otras palabras, hay pruebas de que al menos un par de medias no son iguales. Por ejemplo, suponga que está interesado en comparar el PESO (ganancia) a través de los 4 niveles de una variable de GRUPO, para determinar si la ganancia de peso de los individuos a través de los grupos es significativamente diferente.

El siguiente código SAS puede realizar la prueba:

PROC ANOVA DATA=ANOVA;

CLASS GROUP;

MODEL WEIGHT=GROUP;

TITLE ‘Compare WEIGHT across GROUPS’;

RUN;

GROUP es la «CLASE» o variable de agrupación (que contiene cuatro niveles), y PESO es la variable continua, cuyas medias entre grupos se van a comparar. El enunciado del modelo puede considerarse como

VARIABLE DEPENDIENTE = VARIABLE(S) INDEPENDIENTE(S);

donde la variable DEPENDIENTE es la variable «respuesta», o la que se mide, y la(s) variable(s) independiente(s) son los datos observados. El enunciado del modelo generalmente indica que, dada la información del lado derecho del signo de igualdad, se puede predecir algo sobre el valor de la información del lado izquierdo del signo de igualdad. (Bajo la hipótesis nula no hay relación.)

Dado que el rechazo de la hipótesis nula no le dice específicamente qué medias son diferentes, a menudo se realiza una prueba de comparación múltiple después de un hallazgo significativo en el ANOVA de una vía. Para solicitar comparaciones múltiples en PROC ANOVA, incluya una sentencia MEANS con una opción de comparación múltiple. La sintaxis de esta sentencia es

MEANS SOCIO /testname;

donde testname es una prueba de comparación múltiple. Algunas de las pruebas disponibles en SAS son:

BON – Realiza pruebas t de diferencias de Bonferroni

DUNCAN – Prueba de rango múltiple de Duncan

SCHEFFE – Procedimiento de comparación múltiple de Scheffe

SNK – Prueba de rango múltiple de Student Newman Keuls

LSD -. Prueba de la mínima diferencia significativa de Fisher

TUKEY – Prueba de rangos de Tukey

DUNNETT (‘x’) – Prueba de Dunnett – comparar con un único control

También puede especificar

ALPHA = p – selecciona el nivel de significación para las comparaciones (por defecto es 0.05)

Por ejemplo, para seleccionar la prueba TUKEY, utilizaría la sentencia

MEANS GROUP /TUKEY;

Comparación gráfica: Una comparación gráfica permite ver visualmente la distribución de los grupos. Si el valor p es bajo, lo más probable es que haya poco solapamiento entre los dos o más grupos. Si el valor p no es bajo, habrá una buena cantidad de solapamiento entre todos los grupos. Se puede crear un gráfico sencillo para este análisis utilizando el procedimiento PROC PLOT o PROC GPLOT. Por ejemplo:

PROC GPLOT; PLOT GROUP*WEIGHT;

producirá un gráfico que muestra el PESO por grupo.

Así, el código para el análisis completo se convierte en:

PROC ANOVA;

CLASE GRUPO;

MODELO PESO=GRUPO;

MEDIA GRUPO /TUKEY;

TÍTULO ‘Comparar PESO entre GRUPOS’;

PROC GPLOT; PLOT GROUP*WEIGHT;

RUN;

El siguiente es un trabajo de SAS que realiza un ANOVA de una vía y produce un gráfico.


Ejemplo de ANOVA de una vía

Suponga que está comparando el tiempo de alivio de tres medicamentos para el dolor de cabeza – marcas 1, 2 y 3. Los datos del tiempo hasta el alivio se reportan en minutos. Para este experimento, 15 sujetos fueron asignados al azar a uno de los tres medicamentos. ¿Qué medicamento (si es que hay alguno) es el más eficaz? Los datos de este ejemplo son los siguientes:

Marca 1 Marca 2 Marca 3

24,5 28,4 26,1

23,5 34,2 28,3

26,4 29,5 24.3

27,1 32,2 26,2

29,9 30,1 27,8

Nótese que SAS espera que los datos se introduzcan como dos variables, un grupo y una observación.

Aquí está el código SAS para analizar estos datos. (AANOVA EJEMPLO2.SAS)

DATOS DOLOR;

ENTRADA MARCA ALIVIO;

TARJETAS;

1 24,5

1 23,5

1 26,4

1 27,1

1 29.9

2 28.4

2 34.2

2 29.5

2 32.2

2 30.1

3 26.1

3 28.3

3 24.3

3 26.2

3 27.8

;

ODS RTF;ODS LISTING CLOSE;

PROC ANOVA DATA=ACHE;

CLASS BRAND;

MODEL RELIEF=BRAND;

MEANS BRAND/TUKEY CLDIFF;

TITLE ‘COMPARE RELIEF ACROSS MEDICINES – ANOVA EXAMPLE’;

PROC GPLOT;

PLOT RELIEF*BRAND;

PROC BOXPLOT;

PLOT RELIEF*BRAND;

TITLE ‘ANOVA RESULTS’;

RUN;

QUIT;

ODS RTF close;

ODS LISTING;

La siguiente es la salida (parcial) para el estudio de alivio del dolor de cabeza:

Procedimiento ANOVAu

Variable dependiente: Alivio

Fuente

DF

Suma de Cuadrados

Media Cuadrado

Valor F

Pr > F

Modelo

2

66.7720000

33.3860000

7,14

0,0091

Error

12

56.1280000

4,6773333

Total corregido

14

122.9000000

R-Cuadrado

Coeff Var

Raíz MSE

RELIEF Media

0.543303

7.751664

2.162714

27.90000

Fuente

DF

Anova SS

Cuadrado medio

Valor F

Pr > F

MARCA

2

66.77200000

33,38600000

7,14

0,0091

uLa tabla inicial de este listado es la Tabla de Análisis de Varianza. La línea más importante a observar en esta tabla es el «Modelo». A la derecha de esta línea está el valor p para la prueba general de ANOVA. Aparece como «Pr > F» y es p = 0.0091. Esto prueba el modelo global para determinar si hay una diferencia en las medias entre las MARCAS. En este caso, como el valor p es pequeño, se puede concluir que hay pruebas de que existe una diferencia estadísticamente significativa en las marcas.

v Ahora que se sabe que hay diferencias en MARCA, hay que determinar dónde están las diferencias. En este caso, esa comparación se realiza mediante la comparación de rangos estudiados de Tukey (al nivel alfa = 0,05). Vea las tablas siguientes.

La tabla de agrupación de Tukey muestra esas diferencias. Observe las etiquetas de agrupación «A» y «B» en esta tabla. Sólo hay una media asociada al grupo «A», que es la marca 2. Esto indica que la media de la marca 2 es significativamente mayor que las medias de todos los demás grupos. Hay dos medias asociadas al grupo «B»: las marcas 1 y 3. Como estas dos medias están agrupadas, esto indica que no se encontraron diferencias significativas.

Prueba de rango estudiado de Tukey (HSD) para RELIEFv

Alfa

0.05

Error Grados de Libertad

12

Error Cuadrado Medio

4.677333

Valor crítico del rango estudiado

3.77278

Diferencia mínima significativa

3.649

Las medias con la misma letra no son significativamente diferentes.

Agrupación Tukey

Media

N

MARCA

A

30.880

5

2

B

26.540

5

3

B

B

26.280

5

1

Por lo tanto, la comparación de Tukey concluye que la media de la marca 2 es significativamente mayor que las medias de las marcas 1 y 3, y que no hay diferencia significativa entre las marcas 1 y 3. Otra forma de expresar las diferencias es utilizar la opción CLDIFF con TUKEY (mismos resultados, presentación de las diferencias). Por ejemplo

MEANS BRAND/TUKEY CLDIFF;

El uso de esta opción produce estas versiones de una tabla de comparación:

Las comparaciones significativas al nivel 0,05 se indican con ***.

MARCA
Comparación

Diferencia
Entre
Medias

Límites de confianza del 95% simultáneos

2 – 3

4.340

0.691

7.989

***

2 – 1

4.600

0.951

8.249

***

3 – 2

-4.340

-7.989

-0.691

***

3 – 1

0.260

-3.389

3.909

1 – 2

-4.600

-8.249

-0.951

***

1 – 3

-0.260

-3.909

3,389

Comparaciones visuales: Dos gráficos de BRAND by RELIEF le muestran la distribución del relieve entre las marcas, lo que confirma visualmente los resultados del ANOVA. El primero es un gráfico de «puntos» dado por el comando PROC GPLOT y muestra cada punto de datos por grupo. El segundo gráfico es un gráfico de caja y bigotes creado con PROC BOXPLOT. Observe que los resultados del relieve de la marca 2 tienden a ser más largos (valores más altos) que los niveles de las marcas 1 y 3.

Ejercicio práctico:

Modifique el programa PROC ANOVA para realizar las pruebas de Scheffe, LSD y Dunnett utilizando el siguiente código y compare los resultados.

SIGNIFICA MARCA/SCHEFFE;

SIGNIFICA MARCA/LSD;

SIGNIFICA MARCA/DUNNETT (‘1’);

ANOVA de una vía usando GLM

PROC GLM producirá esencialmente los mismos resultados que PROC ANOVA con la adición de algunas opciones más. Por ejemplo, puede incluir una sentencia OUTPUT y dar salida a los residuos que pueden ser examinados. (PROCGLM1.SAS)

ODS RTF; ODS GRAPHICS ON;

PROC GLM DATA=ACHE;

CLASS BRAND;

MODEL RELIEF=BRAND;

MEANS BRAND/TUKEY CLDIFF;

OUTPUT=FITDATA P=YHAT R=RESID;

* Ahora grafique los residuos;

PROC GPLOT;

grafique resid*BRAND;

grafique resid*yhat;

ejecute;

ODS RTF CLOSE;

ODS GRAPHICS OFF;

Observe también las declaraciones ODS GRAPHICS ON y ODS GRAPHIS OFF. Esto produce gráficos de mejor aspecto que los que pudimos obtener utilizando PROC GPLOT junto con PROC ANOVA. Esto produce el gráfico de caja y bigotes más detallado como se muestra aquí:

Sin embargo, todavía hay un par de otros gráficos que podrían ser de interés. Estos se solicitan utilizando el código

PROC GPLOT;

plot resid*BRAND;

plot resid*yhat;

run;

Los gráficos resultantes (abajo) son un análisis de los residuos. El primero traza los residuos por marca. Normalmente, se desea que los residuos estén dispersos al azar por grupo (lo que se ve bien en este gráfico)

El segundo gráfico observa los residuos por YHAT (el RELIEF estimado). Se pueden ver tres estimaciones, relacionadas con las tres marcas. Para cada estimación, los residuos están distribuidos aleatoriamente.

Fin del tutorial

Ver http://www.stattutorials.com/SAS

Deja una respuesta

Tu dirección de correo electrónico no será publicada.