SAS handledning | St. Charles

One-Way ANOVA using SAS

PROC ANOVA & PROC GLM

Se www.stattutorials.com/SASDATA för filer som nämns i denna handledning

Dessa handledningar i SAS-statistik förklarar kortfattat användningen och tolkningen av standardiserade statistiska analystekniker för medicinsk, farmaceutisk, klinisk, marknadsförings- eller vetenskaplig forskning. Exemplen innehåller instruktioner om hur man använder SAS-programvaran.

Användning av PROC ANOVA – envägsanalys

En envägsvariansanalys är en utvidgning av t-testet för oberoende grupper där det finns mer än två grupper.

Antaganden: Det antas att försökspersonerna slumpmässigt tilldelas en av tre eller flera grupper och att data inom varje grupp är normalfördelade med lika varians mellan grupperna. Provstorlekarna mellan grupperna behöver inte vara lika stora, men stora skillnader i provstorlekarna för grupperna kan påverka resultatet av vissa multipla jämförelsetester.

Test: Hypoteserna för jämförelsen av oberoende grupper är: (k är antalet grupper)

Ho: m1 = m2 … = mk (medelvärdena för alla grupper är lika)

Ha: mi ¹ mj (medelvärdena för två eller flera grupper är inte lika)

Teststatistiken som rapporteras är ett F-test med k-1 och N-k frihetsgrader, där N är antalet försökspersoner. Ett lågt p-värde för F-testet är ett bevis för att förkasta nollhypotesen. Med andra ord finns det bevis för att minst ett par medelvärden inte är lika. Antag till exempel att du är intresserad av att jämföra VIKTIGT (viktökning) mellan de fyra nivåerna av en GROUP-variabel för att avgöra om viktökningen hos individer i olika grupper är signifikant annorlunda.

Följande SAS-kod kan utföra testet:

PROC ANOVA DATA=ANOVA;

CLASS GROUP;

MODELL WEIGHT=GROUP;

TITLE ’Compare WEIGHT across GROUPS’;

RUN;

GROUP är ”CLASS” eller grupperingsvariabeln (som innehåller fyra nivåer), och WEIGHT är den kontinuerliga variabeln vars medelvärden i olika grupper ska jämföras. MODELL-angivelsen kan ses som

DEPENDENT VARIABLE = INDEPENDENT VARIABLE(S);

där DEPENDENT-variabeln är ”svarsvariabeln”, eller en variabel som du har mätt, och den oberoende variabeln (de oberoende variablerna) är de observerade uppgifterna. Modellförklaringen angav i allmänhet att du, med tanke på informationen på höger sida av likhetstecknet, kan förutsäga något om värdet av informationen på vänster sida av likhetstecknet. (Enligt nollhypotesen finns det inget samband.)

Då förkastandet av nollhypotesen inte specifikt talar om vilka medelvärden som skiljer sig åt, utförs ofta ett test för multipel jämförelse efter ett signifikant resultat i envägs-ANOVA. För att begära flera jämförelser i PROC ANOVA inkluderar du ett MEANS-uttalande med ett alternativ för flera jämförelser. Syntaxen för detta uttalande är

MEANS SOCIO /testname;

där testname är ett test för multipel jämförelse. Några av de tester som finns tillgängliga i SAS är följande:

BON – utför Bonferroni t-test av skillnader

DUNCAN – Duncan’s multiple range test

SCHEFFE – Scheffe multiple comparison procedure

SNK – Student Newman Keuls multiple range test

LSD –

LSD –

Fisher’s Least Significant Difference test

TUKEY – Tukey’s studentized range test

DUNNETT (’x’) – Dunnett’s test – jämför med en enda kontroll

Du kan också ange

ALPHA = p – väljer signifikansnivå för jämförelser (standardvärdet är 0.05)

För att till exempel välja TUKEY-testet skulle du använda följande instruktion

MEANS GROUP /TUKEY;

Grafisk jämförelse: En grafisk jämförelse gör det möjligt att visuellt se gruppernas fördelning. Om p-värdet är lågt är chansen stor att det finns en liten överlappning mellan de två eller flera grupperna. Om p-värdet inte är lågt kommer det att finnas en ganska stor överlappning mellan alla grupper. Ett enkelt diagram för denna analys kan skapas med hjälp av PROC PLOT- eller PROC GPLOT-proceduren. Till exempel:

PROC GPLOT; PLOT GROUP*WEIGHT;

kommer att skapa en graf som visar VIKTEN per grupp.

Koden för den fullständiga analysen blir alltså:

PROC ANOVA;

CLASS GROUP;

MODELL WEIGHT=GROUP;

MEANS GROUP /TUKEY;

TITLE ’Compare WEIGHT across GROUPS’;

PROC GPLOT; PLOT GROUP*WEIGHT;

RUN;

Följande är ett SAS-jobb som utför en enkelriktad ANOVA och producerar en plott.

Exempel på envägs ANOVA

Antag att du jämför tiden till lindring av tre huvudvärkmediciner – märke 1, 2 och 3. Uppgifterna om tid till lindring rapporteras i minuter. För detta experiment placerades 15 försökspersoner slumpmässigt på ett av de tre läkemedlen. Vilket läkemedel (om något) är det mest effektiva? Uppgifterna för detta exempel är följande:

Varumärke 1 Varumärke 2 Varumärke 3

24,5 28,4 26,1

23,5 34,2 28,3

26,4 29,5 24.3

27.1 32.2 26.2

29.9 30.1 27.8

Notera att SAS förväntar sig att data ska anges som två variabler, en grupp och en observation.

Här är SAS-koden för att analysera dessa data. (AANOVA EXAMPLE2.SAS)

DATA ACHE;

INPUT BRAND RELIEF;

CARDS;

1 24.5

1 23.5

1 26.4

1 27.1

1 29.9

2 28.4

2 34.2

2 29.5

2 32.2

2 30.1

3 26.1

3 28.3

3 24.3

3 26.2

3 27.8

;

ODS RTF;ODS LISTING CLOSE;

PROC ANOVA DATA=ACHE;

CLASS BRAND;

MODEL RELIEF=BRAND;

MEANS BRAND/TUKEY CLDIFF;

TITLE ’COMPARE RELIEF ACROSS MEDICINES – ANOVA EXAMPLE’;

PROC GPLOT;

PLOT RELIEF*BRAND;

PROC BOXPLOT;

PLOT RELIEF*BRAND;

TITLE ’ANOVA RESULTS’;

RUN;

QUIT;

ODS RTF close;

ODS LISTING;

Följande är det (partiella) resultatet för undersökningen om lindring av huvudvärk:

ANOVA-förfarandeu

Dependent variabel: Relief

Källa

DF

Kvadratsumma

Medelvärde Square

F Value

Pr > F

Model

2

66.7720000

33.3860000

7.14

0.0091

Error

12

56.1280000

4.677333333

Korrigerad total

14

122.9000000

R-Square

Coeff Var

Root MSE

RELIEF Mean

0.543303

7.751664

2.162714

27.90000

Källa

DF

Anova SS

Medelvärde

F-värde

Pr > F

BRAND

2

66.77200000

33.38600000

7.14

0.0091

uDen första tabellen i den här förteckningen är tabellen för variansanalys. Den viktigaste raden att observera i denna tabell är ”Model”. Till höger om denna rad finns p-värdet för det övergripande ANOVA-testet. Det anges som ”Pr > F” och är p = 0,0091. Detta testar den övergripande modellen för att avgöra om det finns en skillnad i medelvärden mellan BRANDS. I det här fallet kan du, eftersom p-värdet är litet, dra slutsatsen att det finns bevis för att det finns en statistiskt signifikant skillnad mellan varumärken.

v Nu när du vet att det finns skillnader i BRAND måste du avgöra var skillnaderna ligger. I det här fallet utförs den jämförelsen med hjälp av Tukey Studentized Range-jämförelsen (på nivån alpha = 0,05). Se tabellerna nedan.

Tukey-grupperingstabellen visar dessa skillnader. Lägg märke till grupperingsetiketterna ”A” och ”B” i denna tabell. Det finns bara ett medelvärde förknippat med gruppen ”A”, och det är varumärke 2. Detta tyder på att medelvärdet för märke 2 är betydligt större än medelvärdet för alla andra grupper. Det finns två medelvärden för B-gruppen – märkena 1 och 3. Eftersom dessa två medelvärden är grupperade, säger det dig att de inte visade sig vara signifikant olika.

Tukey’s Studentized Range (HSD) Test for RELIEFv

Alpha

0.05

Fel Frihetsgrader

12

Fel Medelkvadrat

4.677333

Kritiskt värde för Studentized Range

3.77278

Minsta signifikanta skillnad

3.649

Medelvärden med samma bokstav är inte signifikant olika.

Tukey Grouping

Mean

N

BRAND

A

30.880

5

2

B

26.540

5

3

B

B

26.280

5

1

Tukey-jämförelsen drar alltså slutsatsen att medelvärdet för märke 2 är signifikant högre än medelvärdet för märkena 1 och 3, och att det inte finns någon signifikant skillnad mellan märke 1 och 3. Ett annat sätt att uttrycka skillnaderna är att använda alternativet CLDIFF med TUKEY (samma resultat, presentation av skillnader). Till exempel

MEANS BRAND/TUKEY CLDIFF;

Användning av detta alternativ ger dessa versioner av en jämförelsetabell:

Jämförelser som är signifikanta på 0,05-nivån anges med ***.

BRAND
Variation

Skillnad
mellan
Mått

Simultana 95% konfidensgränser

2 – 3

4.340

0.691

7.989

***

2 – 1

4.600

0.951

8.249

***

3 – 2

-4.340

-7.989

-0.691

***

3 – 1

0.260

-3.389

3.909

1 – 2

-4.600

-8.249

-0.951

***

1 – 3

-0.260

-3.909

3.389

Visuella jämförelser: Två grafer av BRAND by RELIEF visar hur reliefen fördelas mellan varumärkena, vilket visuellt bekräftar ANOVA-resultaten. Den första är en ”punktdiagram” som ges av kommandot PROC GPLOT och visar varje datapunkt per grupp. Den andra plotten är en box- och whiskersplott som skapats med PROC BOXPLOT. Observera än Brand 2 reliefresultaten tenderar att vara längre (högre värden) än nivåerna för varumärkena 1 och 3.

Handlingsövning:

Modifiera PROC ANOVA-programmet så att det utför Scheffe-, LSD- och Dunnett-testet med hjälp av följande kod och jämför resultaten.

BETYDER VARUMÄRKE/SCHEFFE;

BETYDER VARUMÄRKE/LSD;

BETYDER VARUMÄRKE/DUNNETT (’1’);

Envägs ANOVA med hjälp av GLM

PROC GLM ger i princip samma resultat som PROC ANOVA med några fler alternativ. Du kan till exempel inkludera en OUTPUT-angivelse och ge ut residualer som sedan kan undersökas. (PROCGLM1.SAS)

ODS RTF; ODS GRAPHICS ON;

PROC GLM DATA=ACHE;

CLASS BRAND;

MODEL RELIEF=BRAND;

MEANS BRAND/TUKEY CLDIFF;

OUTPUT OUT=FITDATA P=YHAT R=RESID;

* Plotta nu residualerna;

PROC GPLOT;

plot resid*BRAND;

plot resid*yhat;

run;

ODS RTF CLOSE;

ODS GRAPHICS OFF;

Observera även påståendena ODS GRAPHICS ON och ODS GRAPHIS OFF. Detta ger bättre diagram än vad vi kunde få genom att använda PROC GPLOT tillsammans med PROC ANOVA. Detta ger den mer detaljerade box- och whiskersdiagrammet som visas här:

Det finns dock fortfarande ett par andra diagram som kan vara av intresse. Dessa begärs med koden

PROC GPLOT;

plot resid*BRAND;

plot resid*yhat;

run;

De resulterande plottarna (nedan) är en analys av residualerna. Den första visar residualerna per varumärke. Typiskt sett vill man att residualerna ska vara slumpmässigt utspridda per grupp (vilket ser okej ut i den här plotten)

I den andra plotten tittar man på residualer per YHAT (den uppskattade RELIEF). Du kan se tre uppskattningar – relaterade till de tre varumärkena. För varje skattning är residualerna slumpmässigt fördelade.

Slut på handledning

Se http://www.stattutorials.com/SAS

Källa	DF	Kvadratsumma	Medelvärde Square	F Value	Pr > F
Model	2	66.7720000	33.3860000	7.14	0.0091
Error	12	56.1280000	4.677333333
Korrigerad total	14	122.9000000

R-Square	Coeff Var	Root MSE	RELIEF Mean
0.543303	7.751664	2.162714	27.90000

Källa	DF	Anova SS	Medelvärde	F-värde	Pr > F
BRAND	2	66.77200000	33.38600000	7.14	0.0091

Alpha	0.05
Fel Frihetsgrader	12
Fel Medelkvadrat	4.677333
Kritiskt värde för Studentized Range	3.77278
Minsta signifikanta skillnad	3.649

Medelvärden med samma bokstav är inte signifikant olika.
Tukey Grouping	Mean	N	BRAND
A	30.880	5	2

B	26.540	5	3
B
B	26.280	5	1

Jämförelser som är signifikanta på 0,05-nivån anges med ***.
BRAND Variation	Skillnad mellan Mått	Simultana 95% konfidensgränser
2 – 3	4.340	0.691	7.989	***
2 – 1	4.600	0.951	8.249	***
3 – 2	-4.340	-7.989	-0.691	***
3 – 1	0.260	-3.389	3.909
1 – 2	-4.600	-8.249	-0.951	***
1 – 3	-0.260	-3.909	3.389

Användning av PROC ANOVA – envägsanalys

Exempel på envägs ANOVA

Envägs ANOVA med hjälp av GLM

Lämna ett svar Avbryt svar