One-Way ANOVA using SAS
PROC ANOVA & PROC GLM
Se www.stattutorials.com/SASDATA för filer som nämns i denna handledning
Dessa handledningar i SAS-statistik förklarar kortfattat användningen och tolkningen av standardiserade statistiska analystekniker för medicinsk, farmaceutisk, klinisk, marknadsförings- eller vetenskaplig forskning. Exemplen innehåller instruktioner om hur man använder SAS-programvaran.
Användning av PROC ANOVA – envägsanalys
En envägsvariansanalys är en utvidgning av t-testet för oberoende grupper där det finns mer än två grupper.
Antaganden: Det antas att försökspersonerna slumpmässigt tilldelas en av tre eller flera grupper och att data inom varje grupp är normalfördelade med lika varians mellan grupperna. Provstorlekarna mellan grupperna behöver inte vara lika stora, men stora skillnader i provstorlekarna för grupperna kan påverka resultatet av vissa multipla jämförelsetester.
Test: Hypoteserna för jämförelsen av oberoende grupper är: (k är antalet grupper)
Ho: m1 = m2 … = mk (medelvärdena för alla grupper är lika)
Ha: mi ¹ mj (medelvärdena för två eller flera grupper är inte lika)
Teststatistiken som rapporteras är ett F-test med k-1 och N-k frihetsgrader, där N är antalet försökspersoner. Ett lågt p-värde för F-testet är ett bevis för att förkasta nollhypotesen. Med andra ord finns det bevis för att minst ett par medelvärden inte är lika. Antag till exempel att du är intresserad av att jämföra VIKTIGT (viktökning) mellan de fyra nivåerna av en GROUP-variabel för att avgöra om viktökningen hos individer i olika grupper är signifikant annorlunda.
Följande SAS-kod kan utföra testet:
PROC ANOVA DATA=ANOVA;
CLASS GROUP;
MODELL WEIGHT=GROUP;
TITLE ’Compare WEIGHT across GROUPS’;
RUN;
GROUP är ”CLASS” eller grupperingsvariabeln (som innehåller fyra nivåer), och WEIGHT är den kontinuerliga variabeln vars medelvärden i olika grupper ska jämföras. MODELL-angivelsen kan ses som
DEPENDENT VARIABLE = INDEPENDENT VARIABLE(S);
där DEPENDENT-variabeln är ”svarsvariabeln”, eller en variabel som du har mätt, och den oberoende variabeln (de oberoende variablerna) är de observerade uppgifterna. Modellförklaringen angav i allmänhet att du, med tanke på informationen på höger sida av likhetstecknet, kan förutsäga något om värdet av informationen på vänster sida av likhetstecknet. (Enligt nollhypotesen finns det inget samband.)
Då förkastandet av nollhypotesen inte specifikt talar om vilka medelvärden som skiljer sig åt, utförs ofta ett test för multipel jämförelse efter ett signifikant resultat i envägs-ANOVA. För att begära flera jämförelser i PROC ANOVA inkluderar du ett MEANS-uttalande med ett alternativ för flera jämförelser. Syntaxen för detta uttalande är
MEANS SOCIO /testname;
där testname är ett test för multipel jämförelse. Några av de tester som finns tillgängliga i SAS är följande:
BON – utför Bonferroni t-test av skillnader
DUNCAN – Duncan’s multiple range test
SCHEFFE – Scheffe multiple comparison procedure
SNK – Student Newman Keuls multiple range test
LSD –
LSD –
Fisher’s Least Significant Difference test
TUKEY – Tukey’s studentized range test
DUNNETT (’x’) – Dunnett’s test – jämför med en enda kontroll
Du kan också ange
ALPHA = p – väljer signifikansnivå för jämförelser (standardvärdet är 0.05)
För att till exempel välja TUKEY-testet skulle du använda följande instruktion
MEANS GROUP /TUKEY;
Grafisk jämförelse: En grafisk jämförelse gör det möjligt att visuellt se gruppernas fördelning. Om p-värdet är lågt är chansen stor att det finns en liten överlappning mellan de två eller flera grupperna. Om p-värdet inte är lågt kommer det att finnas en ganska stor överlappning mellan alla grupper. Ett enkelt diagram för denna analys kan skapas med hjälp av PROC PLOT- eller PROC GPLOT-proceduren. Till exempel:
PROC GPLOT; PLOT GROUP*WEIGHT;
kommer att skapa en graf som visar VIKTEN per grupp.
Koden för den fullständiga analysen blir alltså:
PROC ANOVA;
CLASS GROUP;
MODELL WEIGHT=GROUP;
MEANS GROUP /TUKEY;
TITLE ’Compare WEIGHT across GROUPS’;
PROC GPLOT; PLOT GROUP*WEIGHT;
RUN;
Följande är ett SAS-jobb som utför en enkelriktad ANOVA och producerar en plott.
Exempel på envägs ANOVA
Antag att du jämför tiden till lindring av tre huvudvärkmediciner – märke 1, 2 och 3. Uppgifterna om tid till lindring rapporteras i minuter. För detta experiment placerades 15 försökspersoner slumpmässigt på ett av de tre läkemedlen. Vilket läkemedel (om något) är det mest effektiva? Uppgifterna för detta exempel är följande:
Varumärke 1 Varumärke 2 Varumärke 3
24,5 28,4 26,1
23,5 34,2 28,3
26,4 29,5 24.3
27.1 32.2 26.2
29.9 30.1 27.8
Notera att SAS förväntar sig att data ska anges som två variabler, en grupp och en observation.
Här är SAS-koden för att analysera dessa data. (AANOVA EXAMPLE2.SAS)
DATA ACHE;
INPUT BRAND RELIEF;
CARDS;
1 24.5
1 23.5
1 26.4
1 27.1
1 29.9
2 28.4
2 34.2
2 29.5
2 32.2
2 30.1
3 26.1
3 28.3
3 24.3
3 26.2
3 27.8
;
ODS RTF;ODS LISTING CLOSE;
PROC ANOVA DATA=ACHE;
CLASS BRAND;
MODEL RELIEF=BRAND;
MEANS BRAND/TUKEY CLDIFF;
TITLE ’COMPARE RELIEF ACROSS MEDICINES – ANOVA EXAMPLE’;
PROC GPLOT;
PLOT RELIEF*BRAND;
PROC BOXPLOT;
PLOT RELIEF*BRAND;
TITLE ’ANOVA RESULTS’;
RUN;
QUIT;
ODS RTF close;
ODS LISTING;
Följande är det (partiella) resultatet för undersökningen om lindring av huvudvärk:
ANOVA-förfarandeu
Dependent variabel: Relief
Källa
DF
Kvadratsumma
Medelvärde Square
F Value
Pr > F
Model
2
66.7720000
33.3860000
7.14
0.0091
Error
12
56.1280000
4.677333333
Korrigerad total
14
122.9000000
R-Square
Coeff Var
Root MSE
RELIEF Mean
0.543303
7.751664
2.162714
27.90000
Källa
DF
Anova SS
Medelvärde
F-värde
Pr > F
BRAND
2
66.77200000
33.38600000
7.14
0.0091
uDen första tabellen i den här förteckningen är tabellen för variansanalys. Den viktigaste raden att observera i denna tabell är ”Model”. Till höger om denna rad finns p-värdet för det övergripande ANOVA-testet. Det anges som ”Pr > F” och är p = 0,0091. Detta testar den övergripande modellen för att avgöra om det finns en skillnad i medelvärden mellan BRANDS. I det här fallet kan du, eftersom p-värdet är litet, dra slutsatsen att det finns bevis för att det finns en statistiskt signifikant skillnad mellan varumärken.
v Nu när du vet att det finns skillnader i BRAND måste du avgöra var skillnaderna ligger. I det här fallet utförs den jämförelsen med hjälp av Tukey Studentized Range-jämförelsen (på nivån alpha = 0,05). Se tabellerna nedan.
Tukey-grupperingstabellen visar dessa skillnader. Lägg märke till grupperingsetiketterna ”A” och ”B” i denna tabell. Det finns bara ett medelvärde förknippat med gruppen ”A”, och det är varumärke 2. Detta tyder på att medelvärdet för märke 2 är betydligt större än medelvärdet för alla andra grupper. Det finns två medelvärden för B-gruppen – märkena 1 och 3. Eftersom dessa två medelvärden är grupperade, säger det dig att de inte visade sig vara signifikant olika.
Tukey’s Studentized Range (HSD) Test for RELIEFv
Alpha
0.05
Fel Frihetsgrader
12
Fel Medelkvadrat
4.677333
Kritiskt värde för Studentized Range
3.77278
Minsta signifikanta skillnad
3.649
Medelvärden med samma bokstav är inte signifikant olika.
Tukey Grouping
Mean
N
BRAND
A
30.880
5
2
B
26.540
5
3
B
B
26.280
5
1
Tukey-jämförelsen drar alltså slutsatsen att medelvärdet för märke 2 är signifikant högre än medelvärdet för märkena 1 och 3, och att det inte finns någon signifikant skillnad mellan märke 1 och 3. Ett annat sätt att uttrycka skillnaderna är att använda alternativet CLDIFF med TUKEY (samma resultat, presentation av skillnader). Till exempel
MEANS BRAND/TUKEY CLDIFF;
Användning av detta alternativ ger dessa versioner av en jämförelsetabell:
Jämförelser som är signifikanta på 0,05-nivån anges med ***.
BRAND
VariationSkillnad
mellan
MåttSimultana 95% konfidensgränser
2 – 3
4.340
0.691
7.989
***
2 – 1
4.600
0.951
8.249
***
3 – 2
-4.340
-7.989
-0.691
***
3 – 1
0.260
-3.389
3.909
1 – 2
-4.600
-8.249
-0.951
***
1 – 3
-0.260
-3.909
3.389
Visuella jämförelser: Två grafer av BRAND by RELIEF visar hur reliefen fördelas mellan varumärkena, vilket visuellt bekräftar ANOVA-resultaten. Den första är en ”punktdiagram” som ges av kommandot PROC GPLOT och visar varje datapunkt per grupp. Den andra plotten är en box- och whiskersplott som skapats med PROC BOXPLOT. Observera än Brand 2 reliefresultaten tenderar att vara längre (högre värden) än nivåerna för varumärkena 1 och 3.
Handlingsövning:
Modifiera PROC ANOVA-programmet så att det utför Scheffe-, LSD- och Dunnett-testet med hjälp av följande kod och jämför resultaten.
BETYDER VARUMÄRKE/SCHEFFE;
BETYDER VARUMÄRKE/LSD;
BETYDER VARUMÄRKE/DUNNETT (’1’);
Envägs ANOVA med hjälp av GLM
PROC GLM ger i princip samma resultat som PROC ANOVA med några fler alternativ. Du kan till exempel inkludera en OUTPUT-angivelse och ge ut residualer som sedan kan undersökas. (PROCGLM1.SAS)
ODS RTF; ODS GRAPHICS ON;
PROC GLM DATA=ACHE;
CLASS BRAND;
MODEL RELIEF=BRAND;
MEANS BRAND/TUKEY CLDIFF;
OUTPUT OUT=FITDATA P=YHAT R=RESID;
* Plotta nu residualerna;
PROC GPLOT;
plot resid*BRAND;
plot resid*yhat;
run;
ODS RTF CLOSE;
ODS GRAPHICS OFF;
Observera även påståendena ODS GRAPHICS ON och ODS GRAPHIS OFF. Detta ger bättre diagram än vad vi kunde få genom att använda PROC GPLOT tillsammans med PROC ANOVA. Detta ger den mer detaljerade box- och whiskersdiagrammet som visas här:
Det finns dock fortfarande ett par andra diagram som kan vara av intresse. Dessa begärs med koden
PROC GPLOT;
plot resid*BRAND;
plot resid*yhat;
run;
De resulterande plottarna (nedan) är en analys av residualerna. Den första visar residualerna per varumärke. Typiskt sett vill man att residualerna ska vara slumpmässigt utspridda per grupp (vilket ser okej ut i den här plotten)
I den andra plotten tittar man på residualer per YHAT (den uppskattade RELIEF). Du kan se tre uppskattningar – relaterade till de tre varumärkena. För varje skattning är residualerna slumpmässigt fördelade.
Slut på handledning
Se http://www.stattutorials.com/SAS