SAS tutorials

One-Way ANOVA using SAS

PROC ANOVA & PROC GLM

Katso www.stattutorials.com/SASDATA tässä tutorialsissa mainitut tiedostot

Näissä SAS:n tilastotieteen tutorialsissa selitetään lyhyesti tavallisten tilastollisten analyysitekniikoiden käyttöä ja tulkintaa lääketieteellisessä, farmaseuttisessa, kliinisissä tutkimuksissa, markkinoinnissa tai tieteellisessä tutkimuksessa. Esimerkit sisältävät SAS-ohjelmiston käyttöohjeet.

PROC ANOVA:n käyttäminen – yksisuuntainen analyysi

Yksisuuntainen varianssianalyysi on riippumattomien ryhmien t-testin laajennus, kun ryhmiä on enemmän kuin kaksi.

Oletukset: Oletetaan, että koehenkilöt on jaettu satunnaisesti johonkin kolmesta tai useammasta ryhmästä ja että kunkin ryhmän tiedot ovat normaalisti jakautuneet siten, että varianssit ovat yhtäläiset eri ryhmissä. Ryhmien välisten otoskokojen ei tarvitse olla yhtä suuria, mutta suuret erot ryhmien otoskokojen välillä voivat vaikuttaa joidenkin monivertailutestien tulokseen.

Testi: Riippumattomien ryhmien vertailun hypoteesit ovat: (k on ryhmien lukumäärä)

Ho: m1 = m2 … = mk (kaikkien ryhmien keskiarvot ovat yhtä suuret)

Ha: mi ¹ mj (kahden tai useamman ryhmän keskiarvot eivät ole yhtä suuret)

Raportoitavana testistatistiikkana on F-koe, jossa on vapausasteet k-1 ja N-k, missä N on koehenkilöiden lukumäärä. F-testin pieni p-arvo on todiste nollahypoteesin hylkäämiselle. Toisin sanoen on näyttöä siitä, että ainakin yksi keskiarvopari ei ole yhtä suuri. Oletetaan esimerkiksi, että olet kiinnostunut vertailemaan RYHMÄ-muuttujan neljän tason painonnousua (painonnousua) sen määrittämiseksi, onko yksilöiden painonnousu eri ryhmissä merkitsevästi erilainen.

Seuraava SAS-koodi voi suorittaa testin:

PROC ANOVA DATA=ANOVA;

CLASS GROUP;

MODEL WEIGHT=GROUP;

TITLE ’Vertaile painonnousua eri ryhmien välillä’;

RUN;

GROUP on ”CLASS” eli ryhmittelymuuttuja (sisältää neljä tasoa), ja WEIGHT on jatkuva muuttuja, jonka ryhmien välisiä keskiarvoja halutaan verrata. MODEL-lause voidaan ajatella muodossa

DEPENDENT VARIABLE = INDEPENDENT VARIABLE(S);

jossa DEPENDENT-muuttuja on ”vastemuuttuja” eli muuttuja, jota olet mitannut, ja riippumaton muuttuja (riippumattomat muuttujat) on havainnoitu data. Mallilausuma osoitti yleensä, että kun annat yhtäläisyysmerkin oikealla puolella olevan tiedon, voit ennustaa jotain yhtäläisyysmerkin vasemmalla puolella olevan tiedon arvosta. (Nollahypoteesin mukaan yhteyttä ei ole.)

Koska nollahypoteesin hylkääminen ei nimenomaisesti kerro, mitkä keskiarvot eroavat toisistaan, moninkertainen vertailutesti tehdään usein yksisuuntaisen ANOVA:n merkitsevän löydöksen jälkeen. Jos haluat pyytää useita vertailuja PROC ANOVA -ohjelmassa, sisällytä MEANS-lause, jossa on multiple comparison -vaihtoehto. Tämän lausekkeen syntaksi on

MEANS SOCIO /testinimi;

jossa testinimi on monivertailutesti. Joitakin SAS:ssa käytettävissä olevia testejä ovat mm:

BON – Suorittaa Bonferronin t-testit eroista

DUNCAN – Duncanin moninkertaisen vaihteluvälin testi

SCHEFFE – Scheffen moninkertaisen vertailun proseduuri

SNK – Studentin Newman-Keulsin moninkertaisen vaihteluvälin testi

LSD – LSD. 05)

Valitsemalla esimerkiksi TUKEY-testin käytät lauseketta

MEANS GROUP /TUKEY;

Grafinen vertailu: Graafisen vertailun avulla näet visuaalisesti ryhmien jakauman. Jos p-arvo on pieni, on todennäköistä, että kahden tai useamman ryhmän välillä on vain vähän päällekkäisyyttä. Jos p-arvo ei ole pieni, kaikkien ryhmien välillä on melko paljon päällekkäisyyttä. Yksinkertainen kuvaaja tätä analyysia varten voidaan luoda PROC PLOT- tai PROC GPLOT-proseduurilla. Esimerkiksi:

PROC GPLOT; PLOT GROUP*WEIGHT;

tuottaa kuvaajan, jossa WEIGHT näkyy ryhmittäin.

Tällöin koko analyysin koodiksi tulee:

PROC ANOVA;

CLASS RYHMÄ;

MODEL WEIGHT=RYHMÄ;

MEANS RYHMÄ /TUKEY;

TITLE ’Vertaile painoa ryhmien välillä’;

PROC GPLOT; PLOT GROUP*WEIGHT;

RUN;

Seuraavana on SAS-tehtävä, joka suorittaa yksisuuntaisen ANOVA-analyysin ja tuottaa kuvaajan.


Yksisuuntainen ANOVA Esimerkki

Oletetaan, että vertaillaan kolmen päänsärkylääkkeen — merkit 1, 2 ja 3 — helpotukseen kuluvaa aikaa. Tiedot helpotukseen kuluneesta ajasta ilmoitetaan minuutteina. Tätä koetta varten 15 koehenkilöä asetettiin satunnaisesti yhdelle kolmesta lääkkeestä. Mikä lääke (jos jokin) on tehokkain? Tämän esimerkin tiedot ovat seuraavat:

Merkki 1 Merkki 2 Merkki 3

24,5 28,4 26,1

23,5 34,2 28,3

26,4 29,5 24.3

27.1 32.2 26.2

29.9 30.1 27.8

Huomaa, että SAS odottaa tietojen syötettävän kahtena muuttujana, ryhmänä ja havaintona.

Tässä on SAS-koodi näiden tietojen analysoimiseksi. (AANOVA EXAMPLE2.SAS)

DATA ACHE;

INPUT BRAND RELIEF;

CARDS;

1 24.5

1 23.5

1 26.4

1 27.1

1 29.8

;

ODS RTF;ODS LISTING CLOSE;

PROC ANOVA DATA=ACHE;

CLASS BRAND;

MODEL RELIEF=BRAND;

MEANS BRAND/TUKEY CLDIFF;

TITLE ’VERTAILE RELIEFINTIÄ ERI LÄÄKKEIDEN VÄLILLÄ – ANOVA ESIMERKKI’;

PROC GPLOT;

PLOT RELIEF*BRAND;

PROC BOXPLOT;

PLOT RELIEF*BRAND;

TITLE ’ANOVA RESULTS’;

RUN;

QUIT;

ODS RTF close;

ODS LISTING;

Seuraavassa on päänsäryn helpotustutkimuksen (osittainen) tuloste:

ANOVA Procedureu

Dependent Variable:

Lähde

DF

Sum of Squares

Keskiarvo. Square

F Value

Pr > F

Model

2

66.7720000

33.3860000

7.14

0.0091

Virhe

12

56.1280000

4.6773333

Korjattu Yhteensä

14

122.9000000

R-Square

Coeff Var

Root MSE

RELIEF Mean

0.543303

7.751664

2.162714

27.90000

Lähde

DF

Anova SS

Mean Square

F Value

Pr > F

BRAND

2

66.77200000

33.38600000

7.14

0.0091

uListauksen alkuosana oleva taulukkoaulukko on varianssin analyysi. Tärkein huomioitava rivi tässä taulukossa on ”Model”. Tämän rivin oikealla puolella on yleisen ANOVA-testin p-arvo. Se on lueteltu nimellä ”Pr > F” ja on p = 0,0091. Tämä testaa kokonaismallia sen määrittämiseksi, onko BRANDSin keskiarvoissa eroa. Tässä tapauksessa, koska p-arvo on pieni, voit päätellä, että on näyttöä siitä, että tuotemerkkien välillä on tilastollisesti merkitsevä ero.

v Nyt kun tiedät, että tuotemerkeissä on eroja, sinun on määritettävä, missä erot ovat. Tässä tapauksessa tämä vertailu suoritetaan Tukey Studentized Range -vertailulla (tasolla alfa = 0,05). Katso alla olevat taulukot.

Tukey-ryhmittelytaulukko näyttää nämä erot. Huomaa ryhmittelymerkinnät ”A” ja ”B” tässä taulukossa. Ryhmään ”A” liittyy vain yksi keskiarvo, ja se on merkki 2. Tämä osoittaa, että tuotemerkin 2 keskiarvo on merkittävästi suurempi kuin kaikkien muiden ryhmien keskiarvot. B-ryhmään liittyy kaksi keskiarvoa – merkit 1 ja 3. Koska nämä kaksi keskiarvoa on ryhmitelty, se kertoo, että niiden ei havaittu eroavan merkittävästi toisistaan.

Tukey’s Studentized Range (HSD) Test for RELIEFv

Alpha

0.05

Virhe Vapausasteet

12

Virhe Keskineliö

4.677333

Kriittinen arvo Studentized Range

3.77278

Pienin merkitsevä ero

3.649

Samalla kirjaimella merkityt keskiarvot eivät eroa toisistaan merkitsevästi.

Tukey ryhmittely

Keskiarvo

N

MERKKI

A

30.880

5

2

B

26.540

5

3

B

B

26.280

5

1

Näin ollen Tukey-vertailu päätyy siihen johtopäätökseen, että tuotemerkin 2 keskiarvot ovat merkitsevästi suuremmat kuin tuotemerkkien 1 ja 3 keskiluvut ja että tuotemerkkien 1 ja 3 välille jää merkitsevä ero. Toinen tapa ilmaista erot on käyttää CLDIFF-vaihtoehtoa TUKEY:n kanssa (samat tulokset, erojen esittäminen). Esimerkiksi

MEANS BRAND/TUKEY CLDIFF;

Tämän vaihtoehdon käyttäminen tuottaa nämä versiot vertailutaulukosta:

Vertailut, jotka ovat merkitseviä 0,05-tasolla, on merkitty merkillä ***.

MERKKI
Vertailu

Ero
Väli
Keskiarvot

.

Samanaikaiset 95% luottamusrajat

2 – – 3

4.340

0.691

7.989

***

2 – 1

4.600

0.951

8.249

***

3 – 2

-4.340

-7.989

-0.691

***

3 – 1

0.260

-3.389

3.909

1 – 2

-4.600

-8.249

-0.951

***

1 – 3

-0.260

-3.909

3.389

Visuaaliset vertailut: Kaksi kuvaajaa BRAND by RELIEF näyttää helpotuksen jakautumisen eri tuotemerkkien välillä, mikä vahvistaa visuaalisesti ANOVA-tulokset. Ensimmäinen on PROC GPLOT-komennon antama ”piste”-diagrammi, joka näyttää jokaisen datapisteen ryhmäkohtaisesti. Toinen kuvaaja on laatikko- ja vispiläkuvaaja, joka on luotu komennolla PROC BOXPLOT. Huomaa, että tuotemerkin 2 reliefitulokset ovat yleensä pidempiä (korkeammat arvot) kuin tuotemerkkien 1 ja 3 tasot.

Käsiharjoitus:

Muokkaa PROC ANOVA-ohjelmaa suorittamaan Scheffe-, LSD- ja Dunnett-testiä seuraavalla ohjelmakoodilla ja vertaa tuloksia.

TARKOITTAA MERKKIÄ/SCHEFFE;

TARKOITTAA MERKKIÄ/LSD;

TARKOITTAA MERKKIÄ/DUNNETT (’1’);

Yksisuuntainen ANOVA käyttäen GLM

PROC GLM tuottaa periaatteessa samat tulokset kuin PROC ANOVA lisäämällä muutamia vaihtoehtoja. Voit esimerkiksi sisällyttää OUTPUT-lauseen ja tulostaa jäännökset, joita voidaan sitten tutkia. (PROCGLM1.SAS)

ODS RTF; ODS GRAPHICS ON;

PROC GLM DATA=ACHE;

CLASS BRAND;

MODEL RELIEF=BRAND;

MEANS BRAND/TUKEY CLDIFF;

OUTPUT OUT=FITDATA P=YHAT R=RESID;

* Nyt piirretään residuaalit;

PROC GPLOT;

plot resid*BRAND;

plot resid*yhat;

run;

ODS RTF CLOSE;

ODS GRAFIIKKA OFF;

Huomaa myös lausekkeet ODS GRAPHICS ON ja ODS GRAPHIS OFF. Tämä tuottaa paremman näköisiä kuvaajia kuin mitä saimme käyttämällä PROC GPLOTia yhdessä PROC ANOVA:n kanssa. Tämä tuottaa yksityiskohtaisemman laatikko- ja vispiläkuvion, joka näkyy tässä:

On kuitenkin vielä pari muutakin kuviota, jotka saattavat olla kiinnostavia. Nämä haetaan koodilla

PROC GPLOT;

plot resid*BRAND;

plot resid*yhat;

run;

Tuloksena saatavat piirrokset (alla) ovat analyysi jäännöksistä. Ensimmäinen kuvaaja esittää residuaalit tuotemerkeittäin. Tyypillisesti residuaalien halutaan olevan satunnaisesti hajallaan ryhmittäin (mikä näyttää tässä kuvaajassa hyvältä)

Toisessa kuvaajassa tarkastellaan residuaaleja YHAT:n (estimoidun RELIEFin) mukaan. Näet kolme estimaattia – jotka liittyvät kolmeen tuotemerkkiin. Kunkin estimaatin osalta residuaalit ovat satunnaisesti jakautuneet.

Ohjeen loppu

Katso http://www.stattutorials.com/SAS

.

Vastaa

Sähköpostiosoitettasi ei julkaista.