One-Way ANOVA a SAS segítségével
PROC ANOVA & PROC GLM
Lásd www.stattutorials.com/SASDATA az ebben az oktatóanyagban említett fájlokért
Ezek a SAS statisztikai oktatóanyagok röviden elmagyarázzák a standard statisztikai elemzési technikák használatát és értelmezését az orvosi, gyógyszerészeti, klinikai vizsgálatok, marketing vagy tudományos kutatás számára. A példák tartalmazzák a SAS szoftverhez tartozó használati utasításokat.
PROC ANOVA használata – egyutas elemzés
Az egyutas varianciaelemzés a független csoportos t-próba kiterjesztése, ahol kettőnél több csoport van.
Feltételek: Feltételezzük, hogy az alanyokat véletlenszerűen osztják be a 3 vagy több csoport egyikébe, és hogy az egyes csoportokon belüli adatok normális eloszlásúak, a csoportok között egyenlő szórással. A csoportok közötti mintaméreteknek nem kell egyenlőnek lenniük, de a csoportok mintaméretei közötti nagy különbségek befolyásolhatják egyes többszörös összehasonlítási tesztek eredményét.
Teszt: A független csoportok összehasonlítására vonatkozó hipotézisek a következők: (k a csoportok száma)
Ho: m1 = m2 … = mk (az összes csoport átlaga egyenlő)
Ha: mi ¹ mj (a két vagy több csoport átlaga nem egyenlő)
A közölt tesztstatisztika egy F teszt k-1 és N-k szabadságfokokkal, ahol N a vizsgálati személyek száma. Az F-próba alacsony p-értéke bizonyíték a nullhipotézis elutasítására. Más szóval, bizonyíték van arra, hogy legalább egy átlagpár nem egyenlő. Tegyük fel például, hogy egy CSOPORT változó 4 szintje között összehasonlítjuk a SÚLY (súlygyarapodás) értékét, hogy megállapítsuk, hogy az egyének súlygyarapodása a csoportok között szignifikánsan különbözik-e egymástól.
A következő SAS kóddal végezheti el a tesztet:
PROC ANOVA DATA=ANOVA;
CLASS GROUP;
MODEL WEIGHT=GROUP;
TITLE ‘Compare WEIGHT across GROUPS’;
RUN;
GROUP a “CLASS” vagy csoportosító változó (négy szintet tartalmaz), a WEIGHT pedig a folytonos változó, amelynek a csoportok közötti átlagait kell összehasonlítani. A MODELL állítást a következőképpen lehet elképzelni:
DEPENDENS VÁLTOZÓ = Független változó(k);
ahol a DEPENDENS változó a “válasz” változó, vagyis az, amit mérünk, és a független változó(k) a megfigyelt adatok. A modell állítás általában azt jelezte, hogy az egyenlőségjel jobb oldalán lévő információ birtokában megjósolhat valamit az egyenlőségjel bal oldalán lévő információ értékéről. (A nullhipotézis szerint nincs kapcsolat.)
Mivel a nullhipotézis elutasítása nem mondja meg konkrétan, hogy mely átlagok különböznek, az egyutas ANOVA szignifikáns eredményét követően gyakran végeznek többszörös összehasonlító tesztet. A többszörös összehasonlítás kéréséhez a PROC ANOVA-ban a többszörös összehasonlítás opcióval ellátott MEANS utasítást kell beilleszteni. Ennek az utasításnak a szintaxisa a következő:
MEANS SOCIO /testnév;
ahol a tesztnév egy többszörös összehasonlító teszt. Néhány a SAS-ban elérhető tesztek közül:
BON – Bonferroni t-tesztek elvégzése a különbségekre
DUNCAN – Duncan’s multiple range test
SCHEFFE – Scheffe többszörös összehasonlító eljárás
SNK – Student Newman Keuls multiple range test
LSD – LSD. Fisher’s Least Significant Difference teszt
TUKEY – Tukey’s studentized range test
DUNNETT (‘x’) – Dunnett teszt – egyetlen kontrollal való összehasonlítás
Megadhatja még
ALPHA = p – kiválasztja az összehasonlítások szignifikancia szintjét (alapértelmezett 0.05)
Például a TUKEY teszt kiválasztásához a
MEANS GROUP /TUKEY;
Grafikus összehasonlítás: A grafikus összehasonlítás lehetővé teszi a csoportok eloszlásának vizuális megtekintését. Ha a p-érték alacsony, akkor jó eséllyel kevés átfedés lesz a két vagy több csoport között. Ha a p-érték nem alacsony, akkor az összes csoport között meglehetősen nagy átfedés lesz. Az elemzéshez egyszerű grafikon készíthető a PROC PLOT vagy a PROC GPLOT eljárás segítségével. Például:
PROC GPLOT; PLOT GROUP*WEIGHT;
egy olyan grafikont fog készíteni, amely a WEIGHT-ot mutatja csoportonként.
Így a teljes elemzés kódja a következő lesz:
PROC ANOVA;
CLASS GROUP;
MODEL WEIGHT=GROUP;
MEANS GROUP /TUKEY;
TITLE ‘Compare WEIGHT across GROUPS’;
PROC GPLOT; PLOT GROUP*WEIGHT;
RUN;
A következő egy SAS feladat, amely egyirányú ANOVA-t végez és egy plotot készít.
Egyutas ANOVA példa
Tegyük fel, hogy összehasonlítjuk három fejfájás elleni gyógyszer – az 1-es, 2-es és 3-as márka – enyhüléséig eltelt időt. Az enyhülésig eltelt idő adatait percben adjuk meg. A kísérlethez 15 alany véletlenszerűen a három gyógyszer egyikét kapta. Melyik gyógyszer (ha van ilyen) a leghatékonyabb? A példa adatai a következők:
1. márka 2. márka 3. márka
24,5 28,4 26,1
23,5 34,2 28,3
26,4 29,5 24.3
27.1 32.2 26.2
29.9 30.1 27.8
Megjegyezzük, hogy a SAS elvárja, hogy az adatokat két változóként, egy csoport és egy megfigyelés formájában adjuk meg.
Itt van a SAS kód ezen adatok elemzéséhez. (AANOVA EXAMPLE2.SAS)
DATA ACHE;
INPUT BRAND RELIEF;
CARDS;
1 24.5
1 23.5
1 26.4
1 27.1
1 29.9
2 28.4
2 34.2
2 29.5
2 32.2
2 30.1
3 26.1
3 28.3
3 24.3
3 26.2
3 27.8
;
ODS RTF;ODS LISTING CLOSE;
PROC ANOVA DATA=ACHE;
CLASS BRAND;
MODEL RELIEF=BRAND;
MEANS BRAND/TUKEY CLDIFF;
TITLE ‘COMPARE RELIEF ACROSS MEDICINES – ANOVA EXAMPLE’;
PROC GPLOT;
PLOT RELIEF*BRAND;
PROC BOXPLOT;
PLOT RELIEF*BRAND;
TITLE ‘ANOVA RESULTS’;
RUN;
QUIT;
ODS RTF close;
ODS LISTING;
A következőkben a fejfájás enyhítése vizsgálat (részleges) kimenete következik:
ANOVA Procedureu
Dependent Variable:
Forrás
DF
Négyzetek összege
Középérték. Négyzet
F érték
Pr > F
Modell
2
66.7720000
33.3860000
7.14
0.0091
Hiba
12
56.1280000
4.6773333
Korrigált összesen
14
122.9000000
R-Négyzet
Coeff Var
Root MSE
RELIEF Mean
0.543303
7.751664
2.162714
27.90000
Forrás
DF
Anova SS
Mean Square
F Value
Pr > F
BRAND
2
66.77200000
33.38600000
7.14
0.0091
uA felsorolás első táblázata a varianciaelemzési táblázat. A legfontosabb sor, amit ebben a táblázatban meg kell figyelni, a “Modell”. Ennek a sornak a jobb oldalán található a teljes ANOVA-teszt p-értéke. Ez “Pr > F” néven szerepel, és p = 0,0091. Ez a teljes modellt teszteli annak megállapítására, hogy van-e különbség a márkák közötti átlagok között. Ebben az esetben, mivel a p-érték kicsi, arra lehet következtetni, hogy bizonyíték van arra, hogy statisztikailag szignifikáns különbség van a márkák között.
v Most, hogy tudja, hogy vannak különbségek a márkák között, meg kell határoznia, hogy hol vannak a különbségek. Ebben az esetben ez az összehasonlítás a Tukey-féle Studentized Range összehasonlítással történik (alfa = 0,05 szinten). Lásd az alábbi táblázatokat:
A Tukey csoportosítási táblázat mutatja ezeket a különbségeket. Figyelje meg az “A” és “B” csoportosítási címkéket ebben a táblázatban. Az “A” csoporthoz csak egy átlag tartozik, és ez a 2. márka. Ez azt jelzi, hogy a 2. márka átlaga szignifikánsan nagyobb, mint az összes többi csoport átlaga. A “B” csoporthoz két átlag tartozik – az 1. és a 3. márka. Mivel ezt a két átlagot csoportosították, ez azt mutatja, hogy nem találtak közöttük szignifikáns különbséget.
Tukey’s Studentized Range (HSD) Test for RELIEFv
Alpha
0.05
Hiba Szabadságfok
12
Hiba középnégyzet
4.677333
Tanulmányozott tartomány kritikus értéke
3.77278
Minimális szignifikáns különbség
3.649
Az azonos betűvel jelölt átlagok nem különböznek jelentősen.
Tukey csoportosítás
Átlag
N
BRAND
A
30.880
5
2
B
26.540
5
3
B
B
26.280
5
1
A Tukey összehasonlítás tehát arra a következtetésre jut, hogy a 2. márka átlaga szignifikánsan magasabb, mint az 1. és 3. márka átlaga, és az 1. és 3. márka között nincs jelentős különbség. A különbségek kifejezésének másik módja a CLDIFF opció használata TUKEY-val (ugyanazok az eredmények, különbség bemutatása). Például
MEANS BRAND/TUKEY CLDIFF;
Az opció használata az összehasonlító táblázatnak ezt a változatát eredményezi:
A 0,05 szinten szignifikáns összehasonlításokat *** jelzi.
BRAND
ÖsszehasonlításKülönbség
Között
Mérték.
Egyidejű 95%-os konfidenciahatárok
2 – – 3
4.340
0.691
7.989
***
2 – 1
4.600
0.951
8.249
***
3 – 2
-4.340
-7.989
-0.691
***
3 – 1
0.260
-3.389
3.909
1 – 2
-4.600
-8.249
-0.951
***
1 – 3
-0.260
-3.909
3.389
Vizuális összehasonlítások: A BRAND by RELIEF két grafikonja megmutatja a megkönnyebbülés eloszlását a márkák között, ami vizuálisan megerősíti az ANOVA eredményeket. Az első a PROC GPLOT parancs által adott “pont” grafikon, és minden egyes adatpontot csoportonként mutat. A második ábra egy doboz- és whiskers-diagram, amelyet a PROC BOXPLOT paranccsal hoztunk létre. Vegyük észre, hogy a 2. márka domborzati eredményei általában hosszabbak (magasabb értékek), mint az 1. és 3. márka szintjei.
Kézi gyakorlat:
Módosítsa a PROC ANOVA programot a Scheffe, LSD és Dunnett teszt elvégzésére az alábbi kód segítségével és hasonlítsa össze az eredményeket.
JELENTI A MÁRKA/SCHEFFE;
JELENTI A MÁRKA/LSD;
JELENTI A MÁRKA/DUNNETT (‘1’);
One-Way ANOVA using GLM
PROC GLM lényegében ugyanazokat az eredményeket fogja produkálni, mint a PROC ANOVA, néhány további opcióval kiegészítve. Például felvehet egy OUTPUT utasítást, és kiadhatja a reziduumokat, amelyeket aztán megvizsgálhat. (PROCGLM1.SAS)
ODS RTF; ODS GRAPHICS ON;
PROC GLM DATA=ACHE;
CLASS BRAND;
MODEL RELIEF=BRAND;
MEANS BRAND/TUKEY CLDIFF;
OUTPUT OUT=FITDATA P=YHAT R=RESID;
* Most ábrázoljuk a reziduumokat;
PROC GPLOT;
plot resid*BRAND;
plot resid*yhat;
run;
ODS RTF CLOSE;
ODS GRAPHICS OFF;
Figyelje meg az ODS GRAPHICS ON és ODS GRAPHIS OFF utasításokat is. Ez jobb megjelenésű ábrákat eredményez, mint amilyeneket a PROC GPLOT és a PROC ANOVA együttes használatával kaptunk. Ez a részletesebb box and whiskers plotot eredményezi, ahogy itt látható:
Azonban van még néhány más plot, ami érdekes lehet. Ezeket a
PROC GPLOT;
plot resid*BRAND;
plot resid*yhat;
run;
A kapott ábrák (alább) a reziduumok elemzése. Az első ábrán a maradékok márkánként. Általában azt szeretnénk, ha a reziduumok véletlenszerűen szóródnának csoportonként (ami ezen a diagramon rendben van)
A második diagram a reziduumokat YHAT (a becsült RELIEF) szerint vizsgálja. Három becslést láthat – a három márkához kapcsolódóan. Minden egyes becslés esetében a reziduumok véletlenszerűen oszlanak el.
A bemutató vége
Lásd http://www.stattutorials.com/SAS