One-Way ANOVA using SAS
PROC ANOVA & PROC GLM
Zie www.stattutorials.com/SASDATA voor bestanden die in deze tutorial worden genoemd
Deze SAS-tutorials over statistiek geven een korte uitleg over het gebruik en de interpretatie van standaard statistische analysetechnieken voor medisch, farmaceutisch, klinisch onderzoek, marketing of wetenschappelijk onderzoek. De voorbeelden bevatten how-to instructies voor SAS Software.
Het gebruik van PROC ANOVA – eenzijdige analyse
Een eenzijdige variantieanalyse is een uitbreiding van de onafhankelijke groepstest t-test wanneer er meer dan twee groepen zijn.
Aannames: Aangenomen wordt dat de proefpersonen willekeurig worden ingedeeld in een van de 3 of meer groepen en dat de gegevens binnen elke groep normaal verdeeld zijn met gelijke varianties tussen de groepen. De steekproefomvang tussen de groepen hoeft niet gelijk te zijn, maar grote verschillen in steekproefomvang voor de groepen kunnen de uitkomst van sommige meervoudige-vergelijkingstoetsen beïnvloeden.
Test: De hypothesen voor de vergelijking van onafhankelijke groepen zijn: (k is het aantal groepen)
Ho: m1 = m2 … = mk (gemiddelden van de alle groepen zijn gelijk)
Ha: mi ¹ mj (gemiddelden van de twee of meer groepen zijn niet gelijk)
De gerapporteerde teststatistiek is een F-test met k-1 en N-k vrijheidsgraden, waarbij N het aantal proefpersonen is. Een lage p-waarde voor de F-test is bewijs om de nulhypothese te verwerpen. Met andere woorden, er is bewijs dat ten minste één paar gemiddelden niet gelijk is. Stel bijvoorbeeld dat u geïnteresseerd bent in het vergelijken van GEWICHT (toename) over de 4 niveaus van een GROEP-variabele, om te bepalen of de gewichtstoename van individuen over de groepen heen significant verschillend is.
De volgende SAS-code kan de test uitvoeren:
PROC ANOVA DATA=ANOVA;
CLASS GROUP;
MODEL WEIGHT=GROUP;
TITLE ‘Compare WEIGHT across GROUPS’;
RUN;
GROUP is de “CLASS”- of groeperingsvariabele (met vier niveaus), en WEIGHT is de continue variabele, waarvan de gemiddelden over de groepen moeten worden vergeleken. De modelverklaring kan worden opgevat als
DEPENDENT VARIABLE = INDEPENDENT VARIABLE(S);
waarbij de DEPENDENT variabele de “respons”-variabele is, of de variabele die u hebt gemeten, en de onafhankelijke variabele(n) de waargenomen gegevens zijn. De modelverklaring geeft in het algemeen aan dat je, gegeven de informatie aan de rechterkant van het gelijkheidsteken, iets kunt voorspellen over de waarde van de informatie aan de linkerkant van het gelijkheidsteken. (Onder de nulhypothese is er geen verband.)
Omdat de verwerping van de nulhypothese u niet specifiek vertelt welke gemiddelden verschillend zijn, wordt vaak een meervoudige vergelijkingstest uitgevoerd na een significante bevinding in de eenzijdige ANOVA. Om meervoudige vergelijkingen in PROC ANOVA aan te vragen, neemt u een MEANS-opgave op met een optie voor meervoudige vergelijking. De syntaxis voor dit statement is
MEANS SOCIO /testname;
waarbij testname een test voor meervoudige vergelijking is. Enkele van de in SAS beschikbare tests zijn:
BON – Voert Bonferroni t-tests van verschillen uit
DUNCAN – Duncan’s multiple range test
SCHEFFE – Scheffe multiple vergelijkingsprocedure
SNK – Student Newman Keuls multiple range test
LSD – Fisher’s Least Significant Difference test
TUKEY – Tukey’s studentized range test
DUNNETT (‘x’) – Dunnett’s test – vergelijk met een enkele controle
U kunt ook
ALPHA = p – selecteert het significantieniveau voor de vergelijkingen (standaard is 0.05)
Om bijvoorbeeld de TUKEY-test te selecteren, zou u het statement
MEANS GROUP /TUKEY;
Grafische vergelijking gebruiken: Met een grafische vergelijking kunt u de verdeling van de groepen visueel zien. Als de p-waarde laag is, is de kans groot dat er weinig overlap is tussen de twee of meer groepen. Als de p-waarde niet laag is, zal er een redelijke mate van overlapping zijn tussen alle groepen. Een eenvoudige grafiek voor deze analyse kan worden gemaakt met de PROC PLOT- of PROC GPLOT-procedure. Bijvoorbeeld:
PROC GPLOT; PLOT GROUP*WEIGHT;
levert een grafiek op met het gewicht per groep.
Dus wordt de code voor de volledige analyse:
PROC ANOVA;
CLASS GROUP;
MODEL WEIGHT=GROUP;
MEANS GROUP /TUKEY;
TITLE ‘Vergelijk WEIGHT across GROUPS’;
PROC GPLOT; PLOT GROUP*WEIGHT;
RUN;
Hieronder volgt een SAS-opdracht die een eenzijdige ANOVA uitvoert en een plot produceert.
One-Way ANOVA Example
Voorstel dat u de tijd tot verlichting van drie geneesmiddelen tegen hoofdpijn vergelijkt — merken 1, 2, en 3. De gegevens over de tijd tot verlichting worden in minuten gerapporteerd. Voor dit experiment werden 15 proefpersonen willekeurig op een van de drie geneesmiddelen geplaatst. Welk medicijn (als er al een is) is het meest effectief? De gegevens voor dit voorbeeld zijn als volgt:
Merk 1 Merk 2 Merk 3
24,5 28,4 26,1
23,5 34,2 28,3
26,4 29,5 24.3
27,1 32,2 26,2
29,9 30,1 27,8
Merk op dat SAS verwacht dat de gegevens worden ingevoerd als twee variabelen, een groep en een waarneming.
Hier volgt de SAS-code om deze gegevens te analyseren. (AANOVA EXAMPLE2.SAS)
DATA ACHE;
INPUT BRAND RELIEF;
CARDS;
1 24,5
1 23,5
1 26,4
1 27,1
1 29.9
2 28.4
2 34.2
2 29.5
2 32.2
2 30.1
3 26.1
3 28.3
3 24.3
3 26.2
3 27.8
;
ODS RTF;ODS LISTING CLOSE;
PROC ANOVA DATA=ACHE;
CLASS BRAND;
MODEL RELIEF=BRAND;
MEANS BRAND/TUKEY CLDIFF;
TITLE ‘COMPARE RELIEF ACROSS MEDICINES – ANOVA EXAMPLE’;
PROC GPLOT;
PLOT RELIEF*BRAND;
PROC BOXPLOT;
PLOT RELIEF*BRAND;
TITLE ‘ANOVA RESULTS’;
RUN;
QUIT;
ODS RTF close;
ODS LISTING;
Volgende is de (gedeeltelijke) uitvoer voor het onderzoek naar hoofdpijnbestrijding:
ANOVA Procedureu
Dependente Variabele: Opluchting
Bron
DF
Som van kwadraten
Gemiddelde Square
F Value
Pr > F
Model
2
66.7720000
33.3860000
7.14
0.0091
Fout
12
56.1280000
4.67733
Gecorrigeerd Totaal
14
122.9000000
R-Vierkant
Coeff Var
Root MSE
RELIEF Mean
0.543303
7.751664
2.162714
27.90000
Bron
DF
Anova SS
Mean Square
F Value
Pr > F
BRAND
2
66.77200000
33.38600000
7.14
0.0091
uDe eerste tabel in deze opsomming is de Analyse van Variantie tabel. De belangrijkste regel in deze tabel is het “Model”. Rechts van deze regel staat de p-waarde voor de totale ANOVA-test. Deze staat vermeld als “Pr > F” en is p = 0,0091. Hiermee wordt het algemene model getest om te bepalen of er een verschil is in de gemiddelden tussen de BRANDS. Aangezien de p-waarde in dit geval klein is, kunt u concluderen dat er aanwijzingen zijn dat er een statistisch significant verschil is tussen de merken.
v Nu u weet dat er verschillen zijn in MERK, moet u bepalen waar de verschillen liggen. In dit geval wordt die vergelijking uitgevoerd door de Tukey Studentized Range-vergelijking (op het niveau alpha = 0,05). Zie de onderstaande tabellen.
De Tukey-groeperingstabel geeft die verschillen weer. Let op de groeperingslabels “A” en “B” in deze tabel. Er is slechts één gemiddelde verbonden met de “A” groep, en dat is merk 2. Dit betekent dat het gemiddelde voor merk 2 significant groter is dan de gemiddelden van alle andere groepen. Er zijn twee gemiddelden verbonden aan de B-groep, namelijk de merken 1 en 3. Aangezien deze twee gemiddelden zijn gegroepeerd, betekent dit dat ze niet significant verschillend zijn.
Tukey’s Studentized Range (HSD) Test voor RELIEFv
Alpha
0.05
Fout Graden van vrijheid
12
Fout Mean Square
4.677333
Kritische waarde van Studentized Range
3.77278
Minimaal Significant Verschil
3.649
Gemiddelden met dezelfde letter zijn niet significant verschillend.
Tukey Groepering
Gemiddelde
N
BRAND
A
30.880
5
2
B
26.540
5
3
B
B
26.280
5
1
De Tukey-vergelijking concludeert dus dat het gemiddelde voor merk 2 significant hoger is dan de gemiddelden van de merken 1 en 3, en dat er geen significant verschil is tussen de merken 1 en 3. Een andere manier om de verschillen uit te drukken is gebruik te maken van de CLDIFF-optie met TUKEY (zelfde resultaten, verschillende presentatie). Bijvoorbeeld
MEANS BRAND/TUKEY CLDIFF;
Gebruik van deze optie levert deze versies van een vergelijkingstabel op:
Vergelijkingen die significant zijn op het 0,05-niveau worden aangegeven met ***.
BRAND
VergelijkingVerschil
Tussen
GemiddeldenGelijktijdige 95%-betrouwbaarheidsgrenzen
2 – 3
4.340
0.691
7.989
***
2 – 1
4.600
0.951
8.249
***
3 – 2
-4.340
-7.989
-0.691
***
3 – 1
0.260
-3.389
3.909
1 – 2
-4.600
-8.249
-0.951
***
1 – 3
-0.260
-3.909
3.389
Visuele vergelijkingen: Twee grafieken van BRAND by RELIEF tonen u de verdeling van reliëf over de merken, hetgeen de ANOVA-resultaten visueel bevestigt. De eerste is een “dot”-plot, gegeven door het PROC GPLOT commando en toont elk gegevenspunt per groep. De tweede plot is een box and whiskers plot, gemaakt met PROC BOXPLOT. Merk op dat de reliëfresultaten voor merk 2 langer zijn (hogere waarden) dan de niveaus voor de merken 1 en 3.
Handvaardigheidsoefening:
Wijzig het PROC ANOVA-programma om de Scheffe-, LSD- en Dunnett-test uit te voeren met behulp van de volgende code en vergelijk de resultaten.
BETEKENT MERK/SCHEFFE;
BETEKENT MERK/LSD;
BETEKENT MERK/DUNNETT (‘1’);
Een-Weg ANOVA met behulp van GLM
PROC GLM zal in wezen dezelfde resultaten opleveren als PROC ANOVA met de toevoeging van een paar extra opties. U kunt bijvoorbeeld een OUTPUT-instructie opnemen en residuen uitvoeren die vervolgens kunnen worden onderzocht. (PROCGLM1.SAS)
ODS RTF; ODS GRAPHICS ON;
PROC GLM DATA=ACHE;
CLASS BRAND;
MODEL RELIEF=BRAND;
MEANS BRAND/TUKEY CLDIFF;
OUTPUT OUT=FITDATA P=YHAT R=RESID;
* Plot nu de residuen;
PROC GPLOT;
plot resid*BRAND;
plot resid*yhat;
run;
ODS RTF CLOSE;
ODS GRAPHICS OFF;
Merk ook de verklaringen ODS GRAPHICS ON en ODS GRAPHIS OFF op. Dit levert beter uitziende plots op dan we konden krijgen met PROC GPLOT in combinatie met PROC ANOVA. Dit levert de meer gedetailleerde box and whiskers-plot op zoals hier te zien is:
Er zijn echter nog een paar andere plots die van belang kunnen zijn. Deze worden opgevraagd met de code
PROC GPLOT;
plot resid*BRAND;
plot resid*yhat;
run;
De resulterende plots (hieronder) zijn een analyse van de residuen. De eerste plot residuen per merk. Normaal gesproken wilt u dat de residuen willekeurig per groep zijn verspreid (wat er in deze plot goed uitziet)
De tweede plot bekijkt de residuen per YHAT (de geschatte RELIEF). U ziet drie schattingen – met betrekking tot de drie merken. Voor elke schatting zijn de residuen willekeurig verdeeld.
Einde van de tutorial
Zie http://www.stattutorials.com/SAS