SAS tutorials | St. Charles

One-Way ANOVA using SAS

PROC ANOVA & PROC GLM

Vedi www.stattutorials.com/SASDATA per i file menzionati in questo tutorial

Questi tutorial di statistica SAS spiegano brevemente l’uso e l’interpretazione delle tecniche standard di analisi statistica per la ricerca medica, farmaceutica, studi clinici, marketing o scientifica. Gli esempi includono istruzioni su come utilizzare il software SAS.

Utilizzo di PROC ANOVA – Analisi a una via

L’analisi della varianza a una via è un’estensione del test t di gruppo indipendente quando ci sono più di due gruppi.

Assunzioni: Si presume che i soggetti siano assegnati casualmente a uno di 3 o più gruppi e che i dati all’interno di ogni gruppo siano normalmente distribuiti con varianze uguali tra i gruppi. Le dimensioni del campione tra i gruppi non devono essere uguali, ma grandi differenze nelle dimensioni del campione per i gruppi possono influenzare il risultato di alcuni test di confronto multiplo.

Test: Le ipotesi per il confronto di gruppi indipendenti sono: (k è il numero dei gruppi)

Ho: m1 = m2 … = mk (le medie di tutti i gruppi sono uguali)

Ha: mi ¹ mj (le medie di due o più gruppi non sono uguali)

La statistica del test riportata è un test F con k-1 e N-k gradi di libertà, dove N è il numero dei soggetti. Un basso valore di p per il test F è una prova per rifiutare l’ipotesi nulla. In altre parole, c’è la prova che almeno una coppia di mezzi non è uguale. Per esempio, supponiamo che siate interessati a confrontare il PESO (guadagno) attraverso i 4 livelli di una variabile GRUPPO, per determinare se l’aumento di peso degli individui attraverso i gruppi è significativamente diverso.

Il seguente codice SAS può eseguire il test:

PROC ANOVA DATA=ANOVA;

CLASSE GRUPPO;

MODELLO PESO=GRUPPO;

TITLE ‘Compare WEIGHT across GROUPS’;

RUN;

GROUP è la “CLASSE” o variabile di raggruppamento (contenente quattro livelli), e WEIGHT è la variabile continua, le cui medie tra i gruppi devono essere confrontate. La dichiarazione del MODELLO può essere pensata come

VARIABILE DIPENDENTE = VARIABILI INDIPENDENTI;

dove la variabile DIPENDENTE è la variabile “risposta”, o quella che avete misurato, e la variabile indipendente è il dato osservato. L’affermazione del modello indica generalmente che, date le informazioni sul lato destro del segno di uguale, si può prevedere qualcosa sul valore delle informazioni sul lato sinistro del segno di uguale. (Sotto l’ipotesi nulla non c’è alcuna relazione.)

Siccome il rifiuto dell’ipotesi nulla non ti dice specificamente quali mezzi sono diversi, un test di confronto multiplo viene spesso eseguito dopo una scoperta significativa nell’ANOVA a una via. Per richiedere confronti multipli in PROC ANOVA, includi una dichiarazione MEANS con un’opzione di confronto multiplo. La sintassi per questa dichiarazione è

MEANS SOCIO /testname;

dove testname è un test di confronto multiplo. Alcuni dei test disponibili in SAS includono:

BON – Esegue i test t di Bonferroni sulle differenze

DUNCAN – Test di Duncan sulla gamma multipla

SCHEFFE – Procedura di confronto multiplo di Scheffe

SNK – Test di Student Newman Keuls sulla gamma multipla

LSD – Fisher’s Least Significant Difference test

TUKEY – Tukey’s studentized range test

DUNNETT (‘x’) – Dunnett’s test – confronta con un singolo controllo

Puoi anche specificare

ALPHA = p – seleziona il livello di significatività per i confronti (il default è 0.05)

Per esempio, per selezionare il test TUKEY, si usa l’istruzione

MEANS GROUP /TUKEY;

Confronto grafico: Un confronto grafico permette di vedere visivamente la distribuzione dei gruppi. Se il p-value è basso, è probabile che ci sia poca sovrapposizione tra i due o più gruppi. Se il p-value non è basso, ci sarà una discreta sovrapposizione tra tutti i gruppi. Un semplice grafico per questa analisi può essere creato usando la procedura PROC PLOT o PROC GPLOT. Per esempio:

PROC GPLOT; PLOT GROUP*WEIGHT;

produrrà un grafico che mostra WEIGHT per gruppo.

Quindi, il codice per l’analisi completa diventa:

PROC ANOVA;

CLASSE GRUPPO;

MODELLO PESO=GRUPPO;

MEANS GRUPPO /TUKEY;

TITLE ‘Compare WEIGHT across GROUPS’;

PROC GPLOT; PLOT GROUP*WEIGHT;

RUN;

Quello che segue è un lavoro SAS che esegue un’ANOVA a una via e produce un grafico.

Esempio di ANOVA a una via

Supponiamo che tu stia confrontando il tempo di sollievo di tre farmaci per il mal di testa – marche 1, 2 e 3. I dati sul tempo di sollievo sono riportati in minuti. Per questo esperimento, 15 soggetti sono stati messi a caso su una delle tre medicine. Quale medicina (se esiste) è la più efficace? I dati per questo esempio sono i seguenti:

Marca 1 Marca 2 Marca 3

24.5 28.4 26.1

23.5 34.2 28.3

26.4 29.5 24.3

27.1 32.2 26.2

29.9 30.1 27.8

Nota che SAS si aspetta che i dati siano inseriti come due variabili, un gruppo e un’osservazione.

Ecco il codice SAS per analizzare questi dati. (AANOVA EXAMPLE2.SAS)

DATI ACHE;

INPUT BRAND RELIEF;

CARTE;

1 24.5

1 23.5

1 26.4

1 27.1

1 29.9

2 28.4

2 34.2

2 29.5

2 32.2

2 30.1

3 26.1

3 28.3

3 24.3

3 26.2

3 27.8

;

ODS RTF;ODS LISTING CLOSE;

PROC ANOVA DATA=ACHE;

CLASS BRAND;

MODEL RELIEF=BRAND;

MEANS BRAND/TUKEY CLDIFF;

TITLE ‘COMPARISON RELIEF ACROSS MEDICINES – ANOVA EXAMPLE’;

PROC GPLOT;

PLOT RELIEF*BRAND;

PROC BOXPLOT;

PLOT RELIEF*BRAND;

TITLE ‘ANOVA RESULTS’;

RUN;

QUIT;

ODS RTF close;

ODS LISTING;

Quello che segue è l’output (parziale) per lo studio sul mal di testa:

ProceduraANOVA

Variabile dipendente: Sollievo

Fonte

DF

Somma dei quadrati

Media Square

Valore F

Pr > F

Modello

2

66.7720000

33.3860000

7.14

0.0091

Errore

12

56.1280000

4.6773333

Totale corretto

14

122.9000000

R-Square

Coeff Var

Root MSE

RELIEF Mean

0.543303

7.751664

2.162714

27.90000

Fonte

DF

Anova SS

Quadrato medio

Valore F

Pr > F

MARCHIO

2

66.77200000

33.38600000

7.14

0.0091

uLa tabella iniziale in questo elenco è la tabella di analisi della varianza. La linea più importante da osservare in questa tabella è il “Modello”. Alla destra di questa linea c’è il valore p per il test ANOVA complessivo. È elencato come “Pr > F” ed è p = 0,0091. Questo prova il modello generale per determinare se c’è una differenza nei mezzi tra le MARCHE. In questo caso, poiché il valore p è piccolo, si può concludere che ci sono prove che c’è una differenza statisticamente significativa nelle marche.

v Ora che sapete che ci sono differenze nella MARCA, dovete determinare dove si trovano le differenze. In questo caso, tale confronto viene eseguito dal confronto Tukey Studentized Range (al livello alfa = 0,05). Vedere le tabelle qui sotto.

La tabella di raggruppamento Tukey mostra queste differenze. Notate le etichette di raggruppamento “A” e “B” in questa tabella. C’è solo una media associata al gruppo “A”, ed è la marca 2. Questo indica che la media della marca 2 è significativamente più grande delle medie di tutti gli altri gruppi. Ci sono due medie associate al gruppo “B” – marche 1 e 3. Poiché queste due medie sono raggruppate, vi dice che non sono state trovate significativamente diverse.

Test dell’intervallo di Tukey (HSD) per RELIEFv

Alpha

0.05

Errore Gradi di libertà

12

Errore Piazza media

4.677333

Valore critico dell’intervallo studiato

3.77278

Differenza minima significativa

3.649

I mezzi con la stessa lettera non sono significativamente diversi.

Raggruppamento Tukey

Media

N

MARCHIO

A

30.880

5

2

B

26.540

5

3

B

B

26.280

5

1

Quindi, il confronto Tukey conclude che la media della marca 2 è significativamente più alta delle medie delle marche 1 e 3, e che non esiste una differenza significativa tra le marche 1 e 3. Un altro modo per esprimere le differenze è usare l’opzione CLDIFF con TUKEY (stessi risultati, presentazione delle differenze). Per esempio

MEANS BRAND/TUKEY CLDIFF;

Usando questa opzione si ottengono queste versioni di una tabella di confronto:

I confronti significativi al livello 0,05 sono indicati da ***.

MARCHIO
Confronto

Differenza
Tra
Mezzi

Limiti di confidenza simultanei al 95%

2 – 3

4.340

0.691

7.989

***

2 – 1

4.600

0.951

8.249

***

3 – 2

-4.340

-7.989

-0.691

***

3 – 1

0.260

-3.389

3.909

1 – 2

-4.600

-8.249

-0.951

***

1 – 3

-0.260

-3.909

3.389

Confronti visivi: Due grafici di BRAND by RELIEF mostrano la distribuzione del rilievo tra le marche, che conferma visivamente i risultati dell’ANOVA. Il primo è un grafico a punti dato dal comando PROC GPLOT e mostra ogni punto di dati per gruppo. Il secondo grafico è un grafico box and whiskers creato con PROC BOXPLOT. Si noti che i risultati di rilievo della marca 2 tendono ad essere più lunghi (valori più alti) rispetto ai livelli delle marche 1 e 3.

Esercizio pratico:

Modificare il programma PROC ANOVA per eseguire Scheffe, LSD e il test di Dunnett utilizzando il seguente codice e confrontare i risultati.

SIGNIFICA MARCA/SCHEFFE;

SIGNIFICA MARCA/LSD;

SIGNIFICA MARCA/DUNNETT (‘1’);

ANOVA a una via usando GLM

PROC GLM produce essenzialmente gli stessi risultati di PROC ANOVA con l’aggiunta di alcune opzioni in più. Per esempio, è possibile includere una dichiarazione OUTPUT e produrre residui che possono poi essere esaminati. (PROCGLM1.SAS)

ODS RTF; ODS GRAPHICS ON;

PROC GLM DATA=ACHE;

CLASS BRAND;

MODEL RELIEF=BRAND;

MEANS BRAND/TUKEY CLDIFF;

OUTPUT OUT=FITDATA P=YHAT R=RESID;

* Ora traccia i residui;

PROC GPLOT;

traccia resid*BRAND;

traccia resid*yhat;

esegui;

ODS RTF CLOSE;

ODS GRAPHICS OFF;

Notate anche le dichiarazioni ODS GRAPHICS ON e ODS GRAPHIS OFF. Questo produce grafici più belli di quelli che siamo stati in grado di ottenere usando PROC GPLOT insieme a PROC ANOVA. Questo produce il più dettagliato box and whiskers plot come mostrato qui:

Tuttavia, ci sono ancora un paio di altri grafici che potrebbero essere interessanti. Questi sono richiesti usando il codice

PROC GPLOT;

plot resid*BRAND;

plot resid*yhat;

run;

I plot risultanti (sotto) sono un’analisi dei residui. Il primo traccia i residui per marca. Tipicamente, si desidera che i residui siano sparsi in modo casuale per gruppo (che sembra ok in questo grafico)

Il secondo grafico guarda i residui per YHAT (il RELIEF stimato). Si possono vedere tre stime – relative ai tre marchi. Per ogni stima i residui sono distribuiti in modo casuale.

Fine del tutorial

Vedi http://www.stattutorials.com/SAS

Fonte	DF	Somma dei quadrati	Media Square	Valore F	Pr > F
Modello	2	66.7720000	33.3860000	7.14	0.0091
Errore	12	56.1280000	4.6773333
Totale corretto	14	122.9000000

R-Square	Coeff Var	Root MSE	RELIEF Mean
0.543303	7.751664	2.162714	27.90000

Fonte	DF	Anova SS	Quadrato medio	Valore F	Pr > F
MARCHIO	2	66.77200000	33.38600000	7.14	0.0091

Alpha	0.05
Errore Gradi di libertà	12
Errore Piazza media	4.677333
Valore critico dell’intervallo studiato	3.77278
Differenza minima significativa	3.649

I mezzi con la stessa lettera non sono significativamente diversi.
Raggruppamento Tukey	Media	N	MARCHIO
A	30.880	5	2

B	26.540	5	3
B
B	26.280	5	1

I confronti significativi al livello 0,05 sono indicati da ***.
MARCHIO Confronto	Differenza Tra Mezzi	Limiti di confidenza simultanei al 95%
2 – 3	4.340	0.691	7.989	***
2 – 1	4.600	0.951	8.249	***
3 – 2	-4.340	-7.989	-0.691	***
3 – 1	0.260	-3.389	3.909
1 – 2	-4.600	-8.249	-0.951	***
1 – 3	-0.260	-3.909	3.389

Utilizzo di PROC ANOVA – Analisi a una via

Esempio di ANOVA a una via

ANOVA a una via usando GLM

Lascia un commento Annulla risposta