One-Way ANOVA using SAS
PROC ANOVA & PROC GLM
Vedi www.stattutorials.com/SASDATA per i file menzionati in questo tutorial
Questi tutorial di statistica SAS spiegano brevemente l’uso e l’interpretazione delle tecniche standard di analisi statistica per la ricerca medica, farmaceutica, studi clinici, marketing o scientifica. Gli esempi includono istruzioni su come utilizzare il software SAS.
Utilizzo di PROC ANOVA – Analisi a una via
L’analisi della varianza a una via è un’estensione del test t di gruppo indipendente quando ci sono più di due gruppi.
Assunzioni: Si presume che i soggetti siano assegnati casualmente a uno di 3 o più gruppi e che i dati all’interno di ogni gruppo siano normalmente distribuiti con varianze uguali tra i gruppi. Le dimensioni del campione tra i gruppi non devono essere uguali, ma grandi differenze nelle dimensioni del campione per i gruppi possono influenzare il risultato di alcuni test di confronto multiplo.
Test: Le ipotesi per il confronto di gruppi indipendenti sono: (k è il numero dei gruppi)
Ho: m1 = m2 … = mk (le medie di tutti i gruppi sono uguali)
Ha: mi ¹ mj (le medie di due o più gruppi non sono uguali)
La statistica del test riportata è un test F con k-1 e N-k gradi di libertà, dove N è il numero dei soggetti. Un basso valore di p per il test F è una prova per rifiutare l’ipotesi nulla. In altre parole, c’è la prova che almeno una coppia di mezzi non è uguale. Per esempio, supponiamo che siate interessati a confrontare il PESO (guadagno) attraverso i 4 livelli di una variabile GRUPPO, per determinare se l’aumento di peso degli individui attraverso i gruppi è significativamente diverso.
Il seguente codice SAS può eseguire il test:
PROC ANOVA DATA=ANOVA;
CLASSE GRUPPO;
MODELLO PESO=GRUPPO;
TITLE ‘Compare WEIGHT across GROUPS’;
RUN;
GROUP è la “CLASSE” o variabile di raggruppamento (contenente quattro livelli), e WEIGHT è la variabile continua, le cui medie tra i gruppi devono essere confrontate. La dichiarazione del MODELLO può essere pensata come
VARIABILE DIPENDENTE = VARIABILI INDIPENDENTI;
dove la variabile DIPENDENTE è la variabile “risposta”, o quella che avete misurato, e la variabile indipendente è il dato osservato. L’affermazione del modello indica generalmente che, date le informazioni sul lato destro del segno di uguale, si può prevedere qualcosa sul valore delle informazioni sul lato sinistro del segno di uguale. (Sotto l’ipotesi nulla non c’è alcuna relazione.)
Siccome il rifiuto dell’ipotesi nulla non ti dice specificamente quali mezzi sono diversi, un test di confronto multiplo viene spesso eseguito dopo una scoperta significativa nell’ANOVA a una via. Per richiedere confronti multipli in PROC ANOVA, includi una dichiarazione MEANS con un’opzione di confronto multiplo. La sintassi per questa dichiarazione è
MEANS SOCIO /testname;
dove testname è un test di confronto multiplo. Alcuni dei test disponibili in SAS includono:
BON – Esegue i test t di Bonferroni sulle differenze
DUNCAN – Test di Duncan sulla gamma multipla
SCHEFFE – Procedura di confronto multiplo di Scheffe
SNK – Test di Student Newman Keuls sulla gamma multipla
LSD – Fisher’s Least Significant Difference test
TUKEY – Tukey’s studentized range test
DUNNETT (‘x’) – Dunnett’s test – confronta con un singolo controllo
Puoi anche specificare
ALPHA = p – seleziona il livello di significatività per i confronti (il default è 0.05)
Per esempio, per selezionare il test TUKEY, si usa l’istruzione
MEANS GROUP /TUKEY;
Confronto grafico: Un confronto grafico permette di vedere visivamente la distribuzione dei gruppi. Se il p-value è basso, è probabile che ci sia poca sovrapposizione tra i due o più gruppi. Se il p-value non è basso, ci sarà una discreta sovrapposizione tra tutti i gruppi. Un semplice grafico per questa analisi può essere creato usando la procedura PROC PLOT o PROC GPLOT. Per esempio:
PROC GPLOT; PLOT GROUP*WEIGHT;
produrrà un grafico che mostra WEIGHT per gruppo.
Quindi, il codice per l’analisi completa diventa:
PROC ANOVA;
CLASSE GRUPPO;
MODELLO PESO=GRUPPO;
MEANS GRUPPO /TUKEY;
TITLE ‘Compare WEIGHT across GROUPS’;
PROC GPLOT; PLOT GROUP*WEIGHT;
RUN;
Quello che segue è un lavoro SAS che esegue un’ANOVA a una via e produce un grafico.
Esempio di ANOVA a una via
Supponiamo che tu stia confrontando il tempo di sollievo di tre farmaci per il mal di testa – marche 1, 2 e 3. I dati sul tempo di sollievo sono riportati in minuti. Per questo esperimento, 15 soggetti sono stati messi a caso su una delle tre medicine. Quale medicina (se esiste) è la più efficace? I dati per questo esempio sono i seguenti:
Marca 1 Marca 2 Marca 3
24.5 28.4 26.1
23.5 34.2 28.3
26.4 29.5 24.3
27.1 32.2 26.2
29.9 30.1 27.8
Nota che SAS si aspetta che i dati siano inseriti come due variabili, un gruppo e un’osservazione.
Ecco il codice SAS per analizzare questi dati. (AANOVA EXAMPLE2.SAS)
DATI ACHE;
INPUT BRAND RELIEF;
CARTE;
1 24.5
1 23.5
1 26.4
1 27.1
1 29.9
2 28.4
2 34.2
2 29.5
2 32.2
2 30.1
3 26.1
3 28.3
3 24.3
3 26.2
3 27.8
;
ODS RTF;ODS LISTING CLOSE;
PROC ANOVA DATA=ACHE;
CLASS BRAND;
MODEL RELIEF=BRAND;
MEANS BRAND/TUKEY CLDIFF;
TITLE ‘COMPARISON RELIEF ACROSS MEDICINES – ANOVA EXAMPLE’;
PROC GPLOT;
PLOT RELIEF*BRAND;
PROC BOXPLOT;
PLOT RELIEF*BRAND;
TITLE ‘ANOVA RESULTS’;
RUN;
QUIT;
ODS RTF close;
ODS LISTING;
Quello che segue è l’output (parziale) per lo studio sul mal di testa:
ProceduraANOVA
Variabile dipendente: Sollievo
Fonte
DF
Somma dei quadrati
Media Square
Valore F
Pr > F
Modello
2
66.7720000
33.3860000
7.14
0.0091
Errore
12
56.1280000
4.6773333
Totale corretto
14
122.9000000
R-Square
Coeff Var
Root MSE
RELIEF Mean
0.543303
7.751664
2.162714
27.90000
Fonte
DF
Anova SS
Quadrato medio
Valore F
Pr > F
MARCHIO
2
66.77200000
33.38600000
7.14
0.0091
uLa tabella iniziale in questo elenco è la tabella di analisi della varianza. La linea più importante da osservare in questa tabella è il “Modello”. Alla destra di questa linea c’è il valore p per il test ANOVA complessivo. È elencato come “Pr > F” ed è p = 0,0091. Questo prova il modello generale per determinare se c’è una differenza nei mezzi tra le MARCHE. In questo caso, poiché il valore p è piccolo, si può concludere che ci sono prove che c’è una differenza statisticamente significativa nelle marche.
v Ora che sapete che ci sono differenze nella MARCA, dovete determinare dove si trovano le differenze. In questo caso, tale confronto viene eseguito dal confronto Tukey Studentized Range (al livello alfa = 0,05). Vedere le tabelle qui sotto.
La tabella di raggruppamento Tukey mostra queste differenze. Notate le etichette di raggruppamento “A” e “B” in questa tabella. C’è solo una media associata al gruppo “A”, ed è la marca 2. Questo indica che la media della marca 2 è significativamente più grande delle medie di tutti gli altri gruppi. Ci sono due medie associate al gruppo “B” – marche 1 e 3. Poiché queste due medie sono raggruppate, vi dice che non sono state trovate significativamente diverse.
Test dell’intervallo di Tukey (HSD) per RELIEFv
Alpha
0.05
Errore Gradi di libertà
12
Errore Piazza media
4.677333
Valore critico dell’intervallo studiato
3.77278
Differenza minima significativa
3.649
I mezzi con la stessa lettera non sono significativamente diversi.
Raggruppamento Tukey
Media
N
MARCHIO
A
30.880
5
2
B
26.540
5
3
B
B
26.280
5
1
Quindi, il confronto Tukey conclude che la media della marca 2 è significativamente più alta delle medie delle marche 1 e 3, e che non esiste una differenza significativa tra le marche 1 e 3. Un altro modo per esprimere le differenze è usare l’opzione CLDIFF con TUKEY (stessi risultati, presentazione delle differenze). Per esempio
MEANS BRAND/TUKEY CLDIFF;
Usando questa opzione si ottengono queste versioni di una tabella di confronto:
I confronti significativi al livello 0,05 sono indicati da ***.
MARCHIO
ConfrontoDifferenza
Tra
MezziLimiti di confidenza simultanei al 95%
2 – 3
4.340
0.691
7.989
***
2 – 1
4.600
0.951
8.249
***
3 – 2
-4.340
-7.989
-0.691
***
3 – 1
0.260
-3.389
3.909
1 – 2
-4.600
-8.249
-0.951
***
1 – 3
-0.260
-3.909
3.389
Confronti visivi: Due grafici di BRAND by RELIEF mostrano la distribuzione del rilievo tra le marche, che conferma visivamente i risultati dell’ANOVA. Il primo è un grafico a punti dato dal comando PROC GPLOT e mostra ogni punto di dati per gruppo. Il secondo grafico è un grafico box and whiskers creato con PROC BOXPLOT. Si noti che i risultati di rilievo della marca 2 tendono ad essere più lunghi (valori più alti) rispetto ai livelli delle marche 1 e 3.
Esercizio pratico:
Modificare il programma PROC ANOVA per eseguire Scheffe, LSD e il test di Dunnett utilizzando il seguente codice e confrontare i risultati.
SIGNIFICA MARCA/SCHEFFE;
SIGNIFICA MARCA/LSD;
SIGNIFICA MARCA/DUNNETT (‘1’);
ANOVA a una via usando GLM
PROC GLM produce essenzialmente gli stessi risultati di PROC ANOVA con l’aggiunta di alcune opzioni in più. Per esempio, è possibile includere una dichiarazione OUTPUT e produrre residui che possono poi essere esaminati. (PROCGLM1.SAS)
ODS RTF; ODS GRAPHICS ON;
PROC GLM DATA=ACHE;
CLASS BRAND;
MODEL RELIEF=BRAND;
MEANS BRAND/TUKEY CLDIFF;
OUTPUT OUT=FITDATA P=YHAT R=RESID;
* Ora traccia i residui;
PROC GPLOT;
traccia resid*BRAND;
traccia resid*yhat;
esegui;
ODS RTF CLOSE;
ODS GRAPHICS OFF;
Notate anche le dichiarazioni ODS GRAPHICS ON e ODS GRAPHIS OFF. Questo produce grafici più belli di quelli che siamo stati in grado di ottenere usando PROC GPLOT insieme a PROC ANOVA. Questo produce il più dettagliato box and whiskers plot come mostrato qui:
Tuttavia, ci sono ancora un paio di altri grafici che potrebbero essere interessanti. Questi sono richiesti usando il codice
PROC GPLOT;
plot resid*BRAND;
plot resid*yhat;
run;
I plot risultanti (sotto) sono un’analisi dei residui. Il primo traccia i residui per marca. Tipicamente, si desidera che i residui siano sparsi in modo casuale per gruppo (che sembra ok in questo grafico)
Il secondo grafico guarda i residui per YHAT (il RELIEF stimato). Si possono vedere tre stime – relative ai tre marchi. Per ogni stima i residui sono distribuiti in modo casuale.
Fine del tutorial
Vedi http://www.stattutorials.com/SAS