Tutoriais SAS

ANOVA unidirecional usando SAS

ANOVA PROC & PROC GLM

Veja www.stattutorials.com/SASDATA para os arquivos mencionados neste tutorial

Estes tutoriais de estatística SAS explicam brevemente o uso e interpretação de técnicas de análise estatística padrão para Medicina, Farmacêutica, Ensaios Clínicos, Marketing ou Pesquisa Científica. Os exemplos incluem instruções de como fazer para o Software SAS.

Usando PROC ANOVA – Análise Unidirecional

Uma análise de variância unidirecional é uma extensão do teste t do grupo independente onde existem mais de dois grupos.

Premissas: Assume-se que os sujeitos são atribuídos aleatoriamente a um de 3 ou mais grupos e que os dados dentro de cada grupo são normalmente distribuídos com variâncias iguais entre grupos. Os tamanhos das amostras entre grupos não precisam ser iguais, mas grandes diferenças nos tamanhos das amostras para os grupos podem afetar o resultado de alguns testes de comparações múltiplas.

Teste: As hipóteses para a comparação de grupos independentes são: (k é o número de grupos)

Ho: m1 = m2 … = mk (as médias de todos os grupos são iguais)

Ha: mi ¹ mj (as médias dos dois ou mais grupos não são iguais)

A estatística do teste relatada é um teste F com k-1 e N-k graus de liberdade, onde N é o número de sujeitos. Um baixo valor de p para o teste F é a evidência para rejeitar a hipótese nula. Em outras palavras, há evidência de que pelo menos um par de meios não são iguais. Por exemplo, suponha que você esteja interessado em comparar o PESO (ganho) através dos 4 níveis de uma variável de GRUPO, para determinar se o ganho de peso dos indivíduos através dos grupos é significativamente diferente.

O seguinte código SAS pode realizar o teste:

DADOS ANOVA PROC=ANOVA;

GRUPO DE CLASSE;

PESO MODELO= GRUPO;

TÍTULO ‘Comparar PESO entre GRUPOS’;

EXECUÇÃO;

GRUPO é a variável “CLASSE” ou de agrupamento (contendo quatro níveis), e PESO é a variável contínua, cujas médias entre grupos devem ser comparadas. A instrução MODELO pode ser pensada como

VARIÁVEL DEPENDENTE = INDEPENDENTE VARIÁVEL(S);

onde a variável DEPENDENTE é a variável “resposta”, ou uma que você mediu, e a(s) variável(s) independente(s) são os dados observados. A declaração modelo geralmente indica que, dada a informação no lado direito do sinal de igual, você pode prever algo sobre o valor da informação no lado esquerdo do sinal de igual. (Sob a hipótese nula não há relação.)

Desde que a rejeição da hipótese nula não lhe diga especificamente quais os meios que são diferentes, um teste de comparação múltipla é frequentemente realizado após um achado significativo na ANOVA One-Way. Para solicitar comparações múltiplas na ANOVA PROC, inclua uma declaração MEANS com uma opção de comparação múltipla. A sintaxe desta instrução é

MEANS SOCIO /testname;

onde o nome do teste é um teste de comparação múltipla. Alguns dos testes disponíveis na SAS incluem:

BON – Realiza testes t de diferenças de Bonferroni

DUNCAN – Teste de múltiplos intervalos da Duncan

SCHEFFE – Procedimento de comparação múltipla de esquemas

SNK – Teste de múltiplos intervalos do aluno Newman Keuls

LSD – Teste da diferença menos significativa de Fisher

TUKEY – teste do intervalo estudado de Tukey

DUNNETT (‘x’) – teste de Dunnett – compare com um único controle

Você também pode especificar

ALPHA = p – seleciona o nível de significância para comparações (o padrão é 0.05)

Por exemplo, para selecionar o teste TUKEY, você usaria a instrução

MEANS GROUP /TUKEY;

Comparação gráfica: Uma comparação gráfica permite ver visualmente a distribuição dos grupos. Se o valor p for baixo, há pouca probabilidade de haver sobreposição entre os dois ou mais grupos. Se o valor de p não for baixo, haverá uma boa quantidade de sobreposição entre todos os grupos. Um gráfico simples para esta análise pode ser criado usando o procedimento PROC PLOT ou PROC GPLOT. Por exemplo:

PROC GPLOT; PLOT GROUP*WEIGHT;

produzirá um gráfico mostrando o PESO por grupo.

Assim, torna-se o código para a análise completa:

ANOVA PROC;

GRUPO DE CLASSE;

PESO MODELO=GRUPO;

GRUPO DE MEIOS /TUKEY;

TÍTULO ‘Comparar PESO entre GRUPOS’;

>

PROC GPLOT; PLOT GROUP*PESO;

EXECUÇÃO;

>Seguindo é um trabalho SAS que realiza uma ANOVA unidirecional e produz uma parcela.


Exemplo de ANOVA unidirecional

Suponha que você está comparando o tempo com o alívio de três medicamentos para dor de cabeça — marcas 1, 2, e 3. O tempo para o alívio é relatado em minutos. Para este experimento, 15 sujeitos foram colocados aleatoriamente em um dos três remédios. Qual medicamento (se houver) é o mais eficaz? Os dados para este exemplo são os seguintes:

Marca 1 Marca 2 Marca 3

24,5 28,4 26,1

23,5 34,2 28,3

26,4 29,5 24.3

27,1 32,2 26,2

29,9 30,1 27,8

Nota que SAS espera que os dados sejam inseridos como duas variáveis, um grupo e uma observação.

Aqui está o código SAS para analisar estes dados. (AANOVA EXEMPLO2.SAS)

DADOS DOEM;

MARCA DE ENTRADA DE ALÍVIO;

CARTÕES;

1 24.5

1 23.5

1 26.4

1 27.1

1 29.9

2 28.4

2 34.2

2 29.5

2 32.2

2 30.1

3 26.1

3 28.3

3 24.3

3 26.2

3 27.8

;

ODS RTF;ODS LISTANDO PRÓXIMO;

PROC ANOVA DATA=ACHE;

CLASS BRAND;

MODEL RELIEF=BRAND;

SIGNIFICA BRAND/TUKEY CLDIFF;

TITLE ‘COMPARE RELIEF ACROSS MEDICINES – ANOVA EXAMPLE’;

PROC GPLOT;

>

MARCA* RELEVO DE PARCELA;

PROC BOXPLOT;

RELEVO DE PARCELA* MARCA;

TÍTULO ‘RESULTADOS ANOVA’;

CORRER;

DESISTIR;

ODS RTF fechar;

ODS LISTING;

Seguir é a saída (parcial) para o estudo do alívio da dor de cabeça:

ANOVA Procedureu

Variável dependente: Alívio

Fonte

DF

Soma dos quadrados

Média Quadrado

F Valor

Pr > F

Modelo

2

66.7720000

33.3860000

7,14

0,0091

Erro

12

56.1280000

4,6773333

Total corrigido

14

122.9000000

R-Quadrado

Coeff Var

Root MSE

RELIEF Média

0.543303

7.751664

2.162714

27.90000

>

Fonte

DF

Anova SS

Quadrado médio

F Valor

Pr > F

MARCA

2

66.77200000

33.38600000

7.14

0.0091

u A tabela inicial desta listagem é a Tabela de Análise de Variância. A linha mais importante a ser observada nesta tabela é a “Modelo”. À direita desta linha está o p-valor para o teste geral da ANOVA. É listada como “Pr > F” e é p = 0,0091. Este teste testa o modelo global para determinar se existe uma diferença de meios entre as BRANDS. Neste caso, como o valor p é pequeno, você pode concluir que há evidência de que há uma diferença estatisticamente significativa nas marcas.

v Agora que você sabe que há diferenças na MARCA, você precisa determinar onde estão as diferenças. Neste caso, essa comparação é feita pela comparação de Tukey Studentized Range (no nível alfa = 0,05). Veja as tabelas abaixo.

A tabela de agrupamento Tukey mostra essas diferenças. Observe as etiquetas de agrupamento “A” e “B” nesta tabela. Existe apenas uma média associada ao grupo “A”, e que é a marca 2. Isto indica que a média para a marca 2 é significativamente maior do que a média de todos os outros grupos. Há duas médias associadas ao grupo “B” – as marcas 1 e 3. Como esses dois meios estão agrupados, isso indica que eles não foram encontrados significativamente diferentes.

Testes de Tukey’s Studentized Range (HSD) para RELIEFv

Alfa

0.05

Graus de Erro da Liberdade

12

Erro do Quadrado Médio

4.677333

Valor Crítico da Gama Studentized

3.77278

Diferença Mínima Significativa

3.649

Os meios com a mesma letra não são significativamente diferentes.

Agrupamento Tukey

Média

N

MARCA

A

30.880

5

2

B

26.540

5

3

B

B

26.280

5

1

Assim, a comparação de Tukey conclui que a média para a marca 2 é significativamente superior à média das marcas 1 e 3, e que não há diferença significativa entre as marcas 1 e 3. Outra forma de expressar as diferenças é utilizar a opção CLDIFF com TUKEY (mesmos resultados, apresentação das diferenças). Por exemplo

MEANS BRAND/TUKEY CLDIFF;

Utilizando esta opção produz-se esta versão de uma tabela comparativa:

As comparações significativas no nível 0,05 são indicadas por ***.

MARCA
Comparação

Diferença
Entre
Means

Limites de confiança simultânea de 95%

2 – 3

4.340

0.691

7.989

***

2 – 1

4.600

0.951

8.249

***

3 – 2

-4.340

-7.989

-0.691

***

3 – 1

0.260

-3.389

3.909

1 – 2

-4.600

-8.249

-0.951

***

1 – 3

-0.260

-3.909

3.389

Comparações Visuais: Dois gráficos de MARCA por RELIEF mostram a distribuição do relevo entre as marcas, o que confirma visualmente os resultados da ANOVA. O primeiro é um gráfico de “ponto” dado pelo comando PROC GPLOT e mostra cada ponto de dados por grupo. O segundo gráfico é um gráfico caixa e bigodes criados com PROC BOXPLOT. Nota que os resultados em relevo da marca 2 tendem a ser mais longos (valores mais altos) que os níveis para as marcas 1 e 3.

Exercício prático:

Modifique o programa PROC ANOVA para executar o teste de Scheffe, LSD e Dunnett usando o seguinte código e compare os resultados.

SIGNIFICA MARCA/SCHEFFE;

SIGNIFICA MARCA/LSD;

SIGNIFICA MARCA/DUNNETT (‘1’);

ANOVA unidireccional usando GLM

PROC GLM produzirá essencialmente os mesmos resultados que a ANOVA PROC com a adição de mais algumas opções. Por exemplo, você pode incluir uma declaração OUTPUT e resíduos de saída que podem então ser examinados. (PROCGLM1.SAS)

ODS RTF; ODS GRAPHICS ON;

PROC GLM DATA=ACHE;

CLASS BRAND;

MODEL RELIEF=BRAND;

SIGNIFICA BRAND/TUKEY CLDIFF;

OUTPUT OUT=FITDATA P=YHAT R=RESID;

* Agora plotar os resíduos;

PROC GPLOT;

plot resid*BRAND;

plot resid*yhat;

run;

ODS RTF CLOSE;

ODS GRAPHICS OFF;

Observe também as declarações ODS GRAPHICS ON e ODS GRAPHIS OFF. Isto produz parcelas com melhor aspecto do que as que conseguimos obter usando PROC GPLOT em conjunto com PROC ANOVA. Isto produz o gráfico mais detalhado da caixa e dos bigodes como mostrado aqui:

No entanto, ainda há alguns outros gráficos que podem ser de interesse. Estes são solicitados usando o código

PROC GPLOT;

resid*BRAND;

resid*yhat;

run;

Os lotes resultantes (abaixo) são uma análise dos resíduos. Os primeiros lotes de resíduos por marca. Tipicamente, você quer que os resíduos sejam dispersos aleatoriamente por grupo (o que parece ok neste gráfico)

O segundo gráfico olha os resíduos por YHAT (o RELIEF estimado). Você pode ver três estimativas – relacionadas com as três marcas. Para cada estimativa, os resíduos são distribuídos aleatoriamente.

Fim do tutorial

Ver http://www.stattutorials.com/SAS

Deixe uma resposta

O seu endereço de email não será publicado.