SAS oktatóanyagok | St. Charles

One-Way ANOVA a SAS segítségével

PROC ANOVA & PROC GLM

Lásd www.stattutorials.com/SASDATA az ebben az oktatóanyagban említett fájlokért

Ezek a SAS statisztikai oktatóanyagok röviden elmagyarázzák a standard statisztikai elemzési technikák használatát és értelmezését az orvosi, gyógyszerészeti, klinikai vizsgálatok, marketing vagy tudományos kutatás számára. A példák tartalmazzák a SAS szoftverhez tartozó használati utasításokat.

PROC ANOVA használata – egyutas elemzés

Az egyutas varianciaelemzés a független csoportos t-próba kiterjesztése, ahol kettőnél több csoport van.

Feltételek: Feltételezzük, hogy az alanyokat véletlenszerűen osztják be a 3 vagy több csoport egyikébe, és hogy az egyes csoportokon belüli adatok normális eloszlásúak, a csoportok között egyenlő szórással. A csoportok közötti mintaméreteknek nem kell egyenlőnek lenniük, de a csoportok mintaméretei közötti nagy különbségek befolyásolhatják egyes többszörös összehasonlítási tesztek eredményét.

Teszt: A független csoportok összehasonlítására vonatkozó hipotézisek a következők: (k a csoportok száma)

Ho: m1 = m2 … = mk (az összes csoport átlaga egyenlő)

Ha: mi ¹ mj (a két vagy több csoport átlaga nem egyenlő)

A közölt tesztstatisztika egy F teszt k-1 és N-k szabadságfokokkal, ahol N a vizsgálati személyek száma. Az F-próba alacsony p-értéke bizonyíték a nullhipotézis elutasítására. Más szóval, bizonyíték van arra, hogy legalább egy átlagpár nem egyenlő. Tegyük fel például, hogy egy CSOPORT változó 4 szintje között összehasonlítjuk a SÚLY (súlygyarapodás) értékét, hogy megállapítsuk, hogy az egyének súlygyarapodása a csoportok között szignifikánsan különbözik-e egymástól.

A következő SAS kóddal végezheti el a tesztet:

PROC ANOVA DATA=ANOVA;

CLASS GROUP;

MODEL WEIGHT=GROUP;

TITLE ‘Compare WEIGHT across GROUPS’;

RUN;

GROUP a “CLASS” vagy csoportosító változó (négy szintet tartalmaz), a WEIGHT pedig a folytonos változó, amelynek a csoportok közötti átlagait kell összehasonlítani. A MODELL állítást a következőképpen lehet elképzelni:

DEPENDENS VÁLTOZÓ = Független változó(k);

ahol a DEPENDENS változó a “válasz” változó, vagyis az, amit mérünk, és a független változó(k) a megfigyelt adatok. A modell állítás általában azt jelezte, hogy az egyenlőségjel jobb oldalán lévő információ birtokában megjósolhat valamit az egyenlőségjel bal oldalán lévő információ értékéről. (A nullhipotézis szerint nincs kapcsolat.)

Mivel a nullhipotézis elutasítása nem mondja meg konkrétan, hogy mely átlagok különböznek, az egyutas ANOVA szignifikáns eredményét követően gyakran végeznek többszörös összehasonlító tesztet. A többszörös összehasonlítás kéréséhez a PROC ANOVA-ban a többszörös összehasonlítás opcióval ellátott MEANS utasítást kell beilleszteni. Ennek az utasításnak a szintaxisa a következő:

MEANS SOCIO /testnév;

ahol a tesztnév egy többszörös összehasonlító teszt. Néhány a SAS-ban elérhető tesztek közül:

BON – Bonferroni t-tesztek elvégzése a különbségekre

DUNCAN – Duncan’s multiple range test

SCHEFFE – Scheffe többszörös összehasonlító eljárás

SNK – Student Newman Keuls multiple range test

LSD – LSD. Fisher’s Least Significant Difference teszt

TUKEY – Tukey’s studentized range test

DUNNETT (‘x’) – Dunnett teszt – egyetlen kontrollal való összehasonlítás

Megadhatja még

ALPHA = p – kiválasztja az összehasonlítások szignifikancia szintjét (alapértelmezett 0.05)

Például a TUKEY teszt kiválasztásához a

MEANS GROUP /TUKEY;

Grafikus összehasonlítás: A grafikus összehasonlítás lehetővé teszi a csoportok eloszlásának vizuális megtekintését. Ha a p-érték alacsony, akkor jó eséllyel kevés átfedés lesz a két vagy több csoport között. Ha a p-érték nem alacsony, akkor az összes csoport között meglehetősen nagy átfedés lesz. Az elemzéshez egyszerű grafikon készíthető a PROC PLOT vagy a PROC GPLOT eljárás segítségével. Például:

PROC GPLOT; PLOT GROUP*WEIGHT;

egy olyan grafikont fog készíteni, amely a WEIGHT-ot mutatja csoportonként.

Így a teljes elemzés kódja a következő lesz:

PROC ANOVA;

CLASS GROUP;

MODEL WEIGHT=GROUP;

MEANS GROUP /TUKEY;

TITLE ‘Compare WEIGHT across GROUPS’;

PROC GPLOT; PLOT GROUP*WEIGHT;

RUN;

A következő egy SAS feladat, amely egyirányú ANOVA-t végez és egy plotot készít.

Egyutas ANOVA példa

Tegyük fel, hogy összehasonlítjuk három fejfájás elleni gyógyszer – az 1-es, 2-es és 3-as márka – enyhüléséig eltelt időt. Az enyhülésig eltelt idő adatait percben adjuk meg. A kísérlethez 15 alany véletlenszerűen a három gyógyszer egyikét kapta. Melyik gyógyszer (ha van ilyen) a leghatékonyabb? A példa adatai a következők:

1. márka 2. márka 3. márka

24,5 28,4 26,1

23,5 34,2 28,3

26,4 29,5 24.3

27.1 32.2 26.2

29.9 30.1 27.8

Megjegyezzük, hogy a SAS elvárja, hogy az adatokat két változóként, egy csoport és egy megfigyelés formájában adjuk meg.

Itt van a SAS kód ezen adatok elemzéséhez. (AANOVA EXAMPLE2.SAS)

DATA ACHE;

INPUT BRAND RELIEF;

CARDS;

1 24.5

1 23.5

1 26.4

1 27.1

1 29.9

2 28.4

2 34.2

2 29.5

2 32.2

2 30.1

3 26.1

3 28.3

3 24.3

3 26.2

3 27.8

;

ODS RTF;ODS LISTING CLOSE;

PROC ANOVA DATA=ACHE;

CLASS BRAND;

MODEL RELIEF=BRAND;

MEANS BRAND/TUKEY CLDIFF;

TITLE ‘COMPARE RELIEF ACROSS MEDICINES – ANOVA EXAMPLE’;

PROC GPLOT;

PLOT RELIEF*BRAND;

PROC BOXPLOT;

PLOT RELIEF*BRAND;

TITLE ‘ANOVA RESULTS’;

RUN;

QUIT;

ODS RTF close;

ODS LISTING;

A következőkben a fejfájás enyhítése vizsgálat (részleges) kimenete következik:

ANOVA Procedureu

Dependent Variable:

Forrás

DF

Négyzetek összege

Középérték. Négyzet

F érték

Pr > F

Modell

2

66.7720000

33.3860000

7.14

0.0091

Hiba

12

56.1280000

4.6773333

Korrigált összesen

14

122.9000000

R-Négyzet

Coeff Var

Root MSE

RELIEF Mean

0.543303

7.751664

2.162714

27.90000

Forrás

DF

Anova SS

Mean Square

F Value

Pr > F

BRAND

2

66.77200000

33.38600000

7.14

0.0091

uA felsorolás első táblázata a varianciaelemzési táblázat. A legfontosabb sor, amit ebben a táblázatban meg kell figyelni, a “Modell”. Ennek a sornak a jobb oldalán található a teljes ANOVA-teszt p-értéke. Ez “Pr > F” néven szerepel, és p = 0,0091. Ez a teljes modellt teszteli annak megállapítására, hogy van-e különbség a márkák közötti átlagok között. Ebben az esetben, mivel a p-érték kicsi, arra lehet következtetni, hogy bizonyíték van arra, hogy statisztikailag szignifikáns különbség van a márkák között.

v Most, hogy tudja, hogy vannak különbségek a márkák között, meg kell határoznia, hogy hol vannak a különbségek. Ebben az esetben ez az összehasonlítás a Tukey-féle Studentized Range összehasonlítással történik (alfa = 0,05 szinten). Lásd az alábbi táblázatokat:

A Tukey csoportosítási táblázat mutatja ezeket a különbségeket. Figyelje meg az “A” és “B” csoportosítási címkéket ebben a táblázatban. Az “A” csoporthoz csak egy átlag tartozik, és ez a 2. márka. Ez azt jelzi, hogy a 2. márka átlaga szignifikánsan nagyobb, mint az összes többi csoport átlaga. A “B” csoporthoz két átlag tartozik – az 1. és a 3. márka. Mivel ezt a két átlagot csoportosították, ez azt mutatja, hogy nem találtak közöttük szignifikáns különbséget.

Tukey’s Studentized Range (HSD) Test for RELIEFv

Alpha

0.05

Hiba Szabadságfok

12

Hiba középnégyzet

4.677333

Tanulmányozott tartomány kritikus értéke

3.77278

Minimális szignifikáns különbség

3.649

Az azonos betűvel jelölt átlagok nem különböznek jelentősen.

Tukey csoportosítás

Átlag

N

BRAND

A

30.880

5

2

B

26.540

5

3

B

B

26.280

5

1

A Tukey összehasonlítás tehát arra a következtetésre jut, hogy a 2. márka átlaga szignifikánsan magasabb, mint az 1. és 3. márka átlaga, és az 1. és 3. márka között nincs jelentős különbség. A különbségek kifejezésének másik módja a CLDIFF opció használata TUKEY-val (ugyanazok az eredmények, különbség bemutatása). Például

MEANS BRAND/TUKEY CLDIFF;

Az opció használata az összehasonlító táblázatnak ezt a változatát eredményezi:

A 0,05 szinten szignifikáns összehasonlításokat *** jelzi.

BRAND
Összehasonlítás

Különbség
Között
Mérték

.

Egyidejű 95%-os konfidenciahatárok

2 – – 3

4.340

0.691

7.989

***

2 – 1

4.600

0.951

8.249

***

3 – 2

-4.340

-7.989

-0.691

***

3 – 1

0.260

-3.389

3.909

1 – 2

-4.600

-8.249

-0.951

***

1 – 3

-0.260

-3.909

3.389

Vizuális összehasonlítások: A BRAND by RELIEF két grafikonja megmutatja a megkönnyebbülés eloszlását a márkák között, ami vizuálisan megerősíti az ANOVA eredményeket. Az első a PROC GPLOT parancs által adott “pont” grafikon, és minden egyes adatpontot csoportonként mutat. A második ábra egy doboz- és whiskers-diagram, amelyet a PROC BOXPLOT paranccsal hoztunk létre. Vegyük észre, hogy a 2. márka domborzati eredményei általában hosszabbak (magasabb értékek), mint az 1. és 3. márka szintjei.

Kézi gyakorlat:

Módosítsa a PROC ANOVA programot a Scheffe, LSD és Dunnett teszt elvégzésére az alábbi kód segítségével és hasonlítsa össze az eredményeket.

JELENTI A MÁRKA/SCHEFFE;

JELENTI A MÁRKA/LSD;

JELENTI A MÁRKA/DUNNETT (‘1’);

One-Way ANOVA using GLM

PROC GLM lényegében ugyanazokat az eredményeket fogja produkálni, mint a PROC ANOVA, néhány további opcióval kiegészítve. Például felvehet egy OUTPUT utasítást, és kiadhatja a reziduumokat, amelyeket aztán megvizsgálhat. (PROCGLM1.SAS)

ODS RTF; ODS GRAPHICS ON;

PROC GLM DATA=ACHE;

CLASS BRAND;

MODEL RELIEF=BRAND;

MEANS BRAND/TUKEY CLDIFF;

OUTPUT OUT=FITDATA P=YHAT R=RESID;

* Most ábrázoljuk a reziduumokat;

PROC GPLOT;

plot resid*BRAND;

plot resid*yhat;

run;

ODS RTF CLOSE;

ODS GRAPHICS OFF;

Figyelje meg az ODS GRAPHICS ON és ODS GRAPHIS OFF utasításokat is. Ez jobb megjelenésű ábrákat eredményez, mint amilyeneket a PROC GPLOT és a PROC ANOVA együttes használatával kaptunk. Ez a részletesebb box and whiskers plotot eredményezi, ahogy itt látható:

Azonban van még néhány más plot, ami érdekes lehet. Ezeket a

PROC GPLOT;

plot resid*BRAND;

plot resid*yhat;

run;

A kapott ábrák (alább) a reziduumok elemzése. Az első ábrán a maradékok márkánként. Általában azt szeretnénk, ha a reziduumok véletlenszerűen szóródnának csoportonként (ami ezen a diagramon rendben van)

A második diagram a reziduumokat YHAT (a becsült RELIEF) szerint vizsgálja. Három becslést láthat – a három márkához kapcsolódóan. Minden egyes becslés esetében a reziduumok véletlenszerűen oszlanak el.

A bemutató vége

Lásd http://www.stattutorials.com/SAS

Forrás	DF	Négyzetek összege	Középérték. Négyzet	F érték	Pr > F
Modell	2	66.7720000	33.3860000	7.14	0.0091
Hiba	12	56.1280000	4.6773333
Korrigált összesen	14	122.9000000

R-Négyzet	Coeff Var	Root MSE	RELIEF Mean
0.543303	7.751664	2.162714	27.90000

Forrás	DF	Anova SS	Mean Square	F Value	Pr > F
BRAND	2	66.77200000	33.38600000	7.14	0.0091

Alpha	0.05
Hiba Szabadságfok	12
Hiba középnégyzet	4.677333
Tanulmányozott tartomány kritikus értéke	3.77278
Minimális szignifikáns különbség	3.649

Az azonos betűvel jelölt átlagok nem különböznek jelentősen.
Tukey csoportosítás	Átlag	N	BRAND
A	30.880	5	2

B	26.540	5	3
B
B	26.280	5	1

A 0,05 szinten szignifikáns összehasonlításokat *** jelzi.
BRAND Összehasonlítás	Különbség Között Mérték .	Egyidejű 95%-os konfidenciahatárok
2 – – 3	4.340	0.691	7.989	***
2 – 1	4.600	0.951	8.249	***
3 – 2	-4.340	-7.989	-0.691	***
3 – 1	0.260	-3.389	3.909
1 – 2	-4.600	-8.249	-0.951	***
1 – 3	-0.260	-3.909	3.389

PROC ANOVA használata – egyutas elemzés

Egyutas ANOVA példa

One-Way ANOVA using GLM

Vélemény, hozzászólás? Kilépés a válaszból