SAS-tutorials

One-Way ANOVA using SAS

PROC ANOVA & PROC GLM

Zie www.stattutorials.com/SASDATA voor bestanden die in deze tutorial worden genoemd

Deze SAS-tutorials over statistiek geven een korte uitleg over het gebruik en de interpretatie van standaard statistische analysetechnieken voor medisch, farmaceutisch, klinisch onderzoek, marketing of wetenschappelijk onderzoek. De voorbeelden bevatten how-to instructies voor SAS Software.

Het gebruik van PROC ANOVA – eenzijdige analyse

Een eenzijdige variantieanalyse is een uitbreiding van de onafhankelijke groepstest t-test wanneer er meer dan twee groepen zijn.

Aannames: Aangenomen wordt dat de proefpersonen willekeurig worden ingedeeld in een van de 3 of meer groepen en dat de gegevens binnen elke groep normaal verdeeld zijn met gelijke varianties tussen de groepen. De steekproefomvang tussen de groepen hoeft niet gelijk te zijn, maar grote verschillen in steekproefomvang voor de groepen kunnen de uitkomst van sommige meervoudige-vergelijkingstoetsen beïnvloeden.

Test: De hypothesen voor de vergelijking van onafhankelijke groepen zijn: (k is het aantal groepen)

Ho: m1 = m2 … = mk (gemiddelden van de alle groepen zijn gelijk)

Ha: mi ¹ mj (gemiddelden van de twee of meer groepen zijn niet gelijk)

De gerapporteerde teststatistiek is een F-test met k-1 en N-k vrijheidsgraden, waarbij N het aantal proefpersonen is. Een lage p-waarde voor de F-test is bewijs om de nulhypothese te verwerpen. Met andere woorden, er is bewijs dat ten minste één paar gemiddelden niet gelijk is. Stel bijvoorbeeld dat u geïnteresseerd bent in het vergelijken van GEWICHT (toename) over de 4 niveaus van een GROEP-variabele, om te bepalen of de gewichtstoename van individuen over de groepen heen significant verschillend is.

De volgende SAS-code kan de test uitvoeren:

PROC ANOVA DATA=ANOVA;

CLASS GROUP;

MODEL WEIGHT=GROUP;

TITLE ‘Compare WEIGHT across GROUPS’;

RUN;

GROUP is de “CLASS”- of groeperingsvariabele (met vier niveaus), en WEIGHT is de continue variabele, waarvan de gemiddelden over de groepen moeten worden vergeleken. De modelverklaring kan worden opgevat als

DEPENDENT VARIABLE = INDEPENDENT VARIABLE(S);

waarbij de DEPENDENT variabele de “respons”-variabele is, of de variabele die u hebt gemeten, en de onafhankelijke variabele(n) de waargenomen gegevens zijn. De modelverklaring geeft in het algemeen aan dat je, gegeven de informatie aan de rechterkant van het gelijkheidsteken, iets kunt voorspellen over de waarde van de informatie aan de linkerkant van het gelijkheidsteken. (Onder de nulhypothese is er geen verband.)

Omdat de verwerping van de nulhypothese u niet specifiek vertelt welke gemiddelden verschillend zijn, wordt vaak een meervoudige vergelijkingstest uitgevoerd na een significante bevinding in de eenzijdige ANOVA. Om meervoudige vergelijkingen in PROC ANOVA aan te vragen, neemt u een MEANS-opgave op met een optie voor meervoudige vergelijking. De syntaxis voor dit statement is

MEANS SOCIO /testname;

waarbij testname een test voor meervoudige vergelijking is. Enkele van de in SAS beschikbare tests zijn:

BON – Voert Bonferroni t-tests van verschillen uit

DUNCAN – Duncan’s multiple range test

SCHEFFE – Scheffe multiple vergelijkingsprocedure

SNK – Student Newman Keuls multiple range test

LSD – Fisher’s Least Significant Difference test

TUKEY – Tukey’s studentized range test

DUNNETT (‘x’) – Dunnett’s test – vergelijk met een enkele controle

U kunt ook

ALPHA = p – selecteert het significantieniveau voor de vergelijkingen (standaard is 0.05)

Om bijvoorbeeld de TUKEY-test te selecteren, zou u het statement

MEANS GROUP /TUKEY;

Grafische vergelijking gebruiken: Met een grafische vergelijking kunt u de verdeling van de groepen visueel zien. Als de p-waarde laag is, is de kans groot dat er weinig overlap is tussen de twee of meer groepen. Als de p-waarde niet laag is, zal er een redelijke mate van overlapping zijn tussen alle groepen. Een eenvoudige grafiek voor deze analyse kan worden gemaakt met de PROC PLOT- of PROC GPLOT-procedure. Bijvoorbeeld:

PROC GPLOT; PLOT GROUP*WEIGHT;

levert een grafiek op met het gewicht per groep.

Dus wordt de code voor de volledige analyse:

PROC ANOVA;

CLASS GROUP;

MODEL WEIGHT=GROUP;

MEANS GROUP /TUKEY;

TITLE ‘Vergelijk WEIGHT across GROUPS’;

PROC GPLOT; PLOT GROUP*WEIGHT;

RUN;

Hieronder volgt een SAS-opdracht die een eenzijdige ANOVA uitvoert en een plot produceert.


One-Way ANOVA Example

Voorstel dat u de tijd tot verlichting van drie geneesmiddelen tegen hoofdpijn vergelijkt — merken 1, 2, en 3. De gegevens over de tijd tot verlichting worden in minuten gerapporteerd. Voor dit experiment werden 15 proefpersonen willekeurig op een van de drie geneesmiddelen geplaatst. Welk medicijn (als er al een is) is het meest effectief? De gegevens voor dit voorbeeld zijn als volgt:

Merk 1 Merk 2 Merk 3

24,5 28,4 26,1

23,5 34,2 28,3

26,4 29,5 24.3

27,1 32,2 26,2

29,9 30,1 27,8

Merk op dat SAS verwacht dat de gegevens worden ingevoerd als twee variabelen, een groep en een waarneming.

Hier volgt de SAS-code om deze gegevens te analyseren. (AANOVA EXAMPLE2.SAS)

DATA ACHE;

INPUT BRAND RELIEF;

CARDS;

1 24,5

1 23,5

1 26,4

1 27,1

1 29.9

2 28.4

2 34.2

2 29.5

2 32.2

2 30.1

3 26.1

3 28.3

3 24.3

3 26.2

3 27.8

;

ODS RTF;ODS LISTING CLOSE;

PROC ANOVA DATA=ACHE;

CLASS BRAND;

MODEL RELIEF=BRAND;

MEANS BRAND/TUKEY CLDIFF;

TITLE ‘COMPARE RELIEF ACROSS MEDICINES – ANOVA EXAMPLE’;

PROC GPLOT;

PLOT RELIEF*BRAND;

PROC BOXPLOT;

PLOT RELIEF*BRAND;

TITLE ‘ANOVA RESULTS’;

RUN;

QUIT;

ODS RTF close;

ODS LISTING;

Volgende is de (gedeeltelijke) uitvoer voor het onderzoek naar hoofdpijnbestrijding:

ANOVA Procedureu

Dependente Variabele: Opluchting

Bron

DF

Som van kwadraten

Gemiddelde Square

F Value

Pr > F

Model

2

66.7720000

33.3860000

7.14

0.0091

Fout

12

56.1280000

4.67733

Gecorrigeerd Totaal

14

122.9000000

R-Vierkant

Coeff Var

Root MSE

RELIEF Mean

0.543303

7.751664

2.162714

27.90000

Bron

DF

Anova SS

Mean Square

F Value

Pr > F

BRAND

2

66.77200000

33.38600000

7.14

0.0091

uDe eerste tabel in deze opsomming is de Analyse van Variantie tabel. De belangrijkste regel in deze tabel is het “Model”. Rechts van deze regel staat de p-waarde voor de totale ANOVA-test. Deze staat vermeld als “Pr > F” en is p = 0,0091. Hiermee wordt het algemene model getest om te bepalen of er een verschil is in de gemiddelden tussen de BRANDS. Aangezien de p-waarde in dit geval klein is, kunt u concluderen dat er aanwijzingen zijn dat er een statistisch significant verschil is tussen de merken.

v Nu u weet dat er verschillen zijn in MERK, moet u bepalen waar de verschillen liggen. In dit geval wordt die vergelijking uitgevoerd door de Tukey Studentized Range-vergelijking (op het niveau alpha = 0,05). Zie de onderstaande tabellen.

De Tukey-groeperingstabel geeft die verschillen weer. Let op de groeperingslabels “A” en “B” in deze tabel. Er is slechts één gemiddelde verbonden met de “A” groep, en dat is merk 2. Dit betekent dat het gemiddelde voor merk 2 significant groter is dan de gemiddelden van alle andere groepen. Er zijn twee gemiddelden verbonden aan de B-groep, namelijk de merken 1 en 3. Aangezien deze twee gemiddelden zijn gegroepeerd, betekent dit dat ze niet significant verschillend zijn.

Tukey’s Studentized Range (HSD) Test voor RELIEFv

Alpha

0.05

Fout Graden van vrijheid

12

Fout Mean Square

4.677333

Kritische waarde van Studentized Range

3.77278

Minimaal Significant Verschil

3.649

Gemiddelden met dezelfde letter zijn niet significant verschillend.

Tukey Groepering

Gemiddelde

N

BRAND

A

30.880

5

2

B

26.540

5

3

B

B

26.280

5

1

De Tukey-vergelijking concludeert dus dat het gemiddelde voor merk 2 significant hoger is dan de gemiddelden van de merken 1 en 3, en dat er geen significant verschil is tussen de merken 1 en 3. Een andere manier om de verschillen uit te drukken is gebruik te maken van de CLDIFF-optie met TUKEY (zelfde resultaten, verschillende presentatie). Bijvoorbeeld

MEANS BRAND/TUKEY CLDIFF;

Gebruik van deze optie levert deze versies van een vergelijkingstabel op:

Vergelijkingen die significant zijn op het 0,05-niveau worden aangegeven met ***.

BRAND
Vergelijking

Verschil
Tussen
Gemiddelden

Gelijktijdige 95%-betrouwbaarheidsgrenzen

2 – 3

4.340

0.691

7.989

***

2 – 1

4.600

0.951

8.249

***

3 – 2

-4.340

-7.989

-0.691

***

3 – 1

0.260

-3.389

3.909

1 – 2

-4.600

-8.249

-0.951

***

1 – 3

-0.260

-3.909

3.389

Visuele vergelijkingen: Twee grafieken van BRAND by RELIEF tonen u de verdeling van reliëf over de merken, hetgeen de ANOVA-resultaten visueel bevestigt. De eerste is een “dot”-plot, gegeven door het PROC GPLOT commando en toont elk gegevenspunt per groep. De tweede plot is een box and whiskers plot, gemaakt met PROC BOXPLOT. Merk op dat de reliëfresultaten voor merk 2 langer zijn (hogere waarden) dan de niveaus voor de merken 1 en 3.

Handvaardigheidsoefening:

Wijzig het PROC ANOVA-programma om de Scheffe-, LSD- en Dunnett-test uit te voeren met behulp van de volgende code en vergelijk de resultaten.

BETEKENT MERK/SCHEFFE;

BETEKENT MERK/LSD;

BETEKENT MERK/DUNNETT (‘1’);

Een-Weg ANOVA met behulp van GLM

PROC GLM zal in wezen dezelfde resultaten opleveren als PROC ANOVA met de toevoeging van een paar extra opties. U kunt bijvoorbeeld een OUTPUT-instructie opnemen en residuen uitvoeren die vervolgens kunnen worden onderzocht. (PROCGLM1.SAS)

ODS RTF; ODS GRAPHICS ON;

PROC GLM DATA=ACHE;

CLASS BRAND;

MODEL RELIEF=BRAND;

MEANS BRAND/TUKEY CLDIFF;

OUTPUT OUT=FITDATA P=YHAT R=RESID;

* Plot nu de residuen;

PROC GPLOT;

plot resid*BRAND;

plot resid*yhat;

run;

ODS RTF CLOSE;

ODS GRAPHICS OFF;

Merk ook de verklaringen ODS GRAPHICS ON en ODS GRAPHIS OFF op. Dit levert beter uitziende plots op dan we konden krijgen met PROC GPLOT in combinatie met PROC ANOVA. Dit levert de meer gedetailleerde box and whiskers-plot op zoals hier te zien is:

Er zijn echter nog een paar andere plots die van belang kunnen zijn. Deze worden opgevraagd met de code

PROC GPLOT;

plot resid*BRAND;

plot resid*yhat;

run;

De resulterende plots (hieronder) zijn een analyse van de residuen. De eerste plot residuen per merk. Normaal gesproken wilt u dat de residuen willekeurig per groep zijn verspreid (wat er in deze plot goed uitziet)

De tweede plot bekijkt de residuen per YHAT (de geschatte RELIEF). U ziet drie schattingen – met betrekking tot de drie merken. Voor elke schatting zijn de residuen willekeurig verdeeld.

Einde van de tutorial

Zie http://www.stattutorials.com/SAS

Geef een antwoord

Het e-mailadres wordt niet gepubliceerd.