Samouczki SAS

One-Way ANOVA using SAS

PROC ANOVA & PROC GLM

Zobacz www.stattutorials.com/SASDATA dla plików wspomnianych w tym samouczku

Te samouczki statystyczne SAS krótko wyjaśniają użycie i interpretację standardowych technik analizy statystycznej dla medycyny, farmacji, badań klinicznych, marketingu lub badań naukowych. Przykłady zawierają instrukcje how-to dla oprogramowania SAS.

Użycie PROC ANOVA – analiza jednokierunkowa

Jednokierunkowa analiza wariancji jest rozszerzeniem testu t dla grup niezależnych, gdzie istnieją więcej niż dwie grupy.

Założenia: Zakłada się, że osoby badane są losowo przypisane do jednej z 3 lub więcej grup oraz że dane w obrębie każdej grupy mają rozkład normalny z równymi wariancjami między grupami. Wielkości próbek między grupami nie muszą być równe, ale duże różnice w wielkościach próbek dla grup mogą wpłynąć na wynik niektórych testów porównań wielokrotnych.

Test: Hipotezy dla porównania grup niezależnych to: (k jest liczbą grup)

Ho: m1 = m2 … = mk (średnie wszystkich grup są równe)

Ha: mi ¹ mj (średnie dwóch lub więcej grup nie są równe)

Zgłaszana statystyka testowa jest testem F z k-1 i N-k stopniami swobody, gdzie N jest liczbą badanych. Niska wartość p dla testu F jest dowodem na odrzucenie hipotezy zerowej. Innymi słowy, istnieją dowody na to, że co najmniej jedna para średnich nie jest równa. Na przykład, załóżmy, że jesteś zainteresowany porównaniem WAGI (przyrostu) na 4 poziomach zmiennej GRUPA, aby określić, czy przyrost masy ciała osób w grupach jest znacząco różny.

Poniższy kod SAS może wykonać ten test:

PROC ANOVA DATA=ANOVA;

CLASS GROUP;

MODEL WEIGHT=GROUP;

TITLE 'Compare WEIGHT across GROUPS’;

RUN;

GROUP jest zmienną „CLASS” lub zmienną grupującą (zawierającą cztery poziomy), a WEIGHT jest zmienną ciągłą, której średnie w grupach mają być porównywane. Stwierdzenie MODEL można rozumieć jako

ZMIENNA ZALEŻNA = ZMIENNA NIEZALEŻNA(S);

gdzie zmienna ZALEŻNA jest zmienną „odpowiedzi”, czyli tą, którą zmierzyliśmy, a zmienna(y) niezależna(e) jest(są) obserwowanymi danymi. Stwierdzenie modelu ogólnie wskazało, że biorąc pod uwagę informacje po prawej stronie znaku równości, można przewidzieć coś na temat wartości informacji po lewej stronie znaku równości. (Przy hipotezie zerowej nie ma żadnego związku.)

Ponieważ odrzucenie hipotezy zerowej nie mówi konkretnie, które środki są różne, test porównań wielokrotnych jest często wykonywany po uzyskaniu znaczących wyników w jednokierunkowej analizie wariancji. Aby zażądać wielokrotnych porównań w PROC ANOVA, należy dołączyć instrukcję MEANS z opcją wielokrotnych porównań. Składnia tego polecenia to

MEANS SOCIO /testname;

gdzie testname jest testem porównań wielokrotnych. Niektóre z testów dostępnych w SAS obejmują:

BON – Wykonuje testy t Bonferroniego różnic

DUNCAN – Test wielokrotnych porównań Duncana

SCHEFFE – Procedura wielokrotnych porównań Scheffe

SNK – Test wielokrotnych porównań Studenta Newmana Keulsa

LSD – Test wielokrotnych porównań Fishera

. Fisher’s Least Significant Difference test

TUKEY – Tukey’s studentized range test

DUNNETT (’x’) – test Dunnetta – porównanie z pojedynczą kontrolą

Możesz również określić

ALPHA = p – wybiera poziom istotności dla porównań (domyślnie 0.05)

Na przykład, aby wybrać test TUKEY, użyłbyś instrukcji

GRUPA MEANS /TUKEY;

Porównanie graficzne: Porównanie graficzne pozwala wizualnie zobaczyć rozkład grup. Jeśli wartość p jest niska, istnieje prawdopodobieństwo, że nakładanie się dwóch lub więcej grup będzie niewielkie. Jeśli wartość p nie jest niska, istnieje prawdopodobieństwo, że wszystkie grupy będą się w znacznym stopniu pokrywać. Prosty wykres dla tej analizy można utworzyć za pomocą procedury PROC PLOT lub PROC GPLOT. Na przykład:

PROC GPLOT; PLOT GROUP*WEIGHT;

utworzy wykres przedstawiający WAGĘ według grup.

W ten sposób kod dla pełnej analizy staje się:

PROC ANOVA;

CLASS GROUP;

MODEL WEIGHT=GROUP;

MEANS GROUP /TUKEY;

TITLE 'Compare WEIGHT across GROUPS’;

PROC GPLOT; PLOT GROUP*WEIGHT;

RUN;

Poniżej przedstawiono zadanie SAS, które wykonuje jednokierunkową ANOVĘ i tworzy wykres.


Przykład jednokierunkowej analizy wariancji

Załóżmy, że porównujemy czas do ustąpienia bólu głowy w przypadku trzech leków – marek 1, 2 i 3. Dane dotyczące czasu do uzyskania ulgi podawane są w minutach. W tym eksperymencie 15 uczestników zostało losowo umieszczonych na jednym z trzech leków. Który lek (jeśli w ogóle) jest najskuteczniejszy? Dane dla tego przykładu są następujące:

Marka 1 Marka 2 Marka 3

24,5 28,4 26,1

23,5 34,2 28,3

26,4 29,5 24.3

27.1 32.2 26.2

29.9 30.1 27.8

Zauważ, że SAS oczekuje wprowadzenia danych w postaci dwóch zmiennych, grupy i obserwacji.

Tutaj znajduje się kod SAS do analizy tych danych. (AANOVA EXAMPLE2.SAS)

DATA ACHE;

INPUT BRAND RELIEF;

CARDS;

1 24.5

1 23.5

1 26.4

1 27.1

1 29.9

2 28.4

2 34.2

2 29.5

2 32.2

2 30.1

3 26.1

3 28.3

3 24.3

3 26.2

3 27.8

;

ODS RTF;ODS LISTING CLOSE;

PROC ANOVA DATA=ACHE;

CLASS BRAND;

MODEL RELIEF=BRAND;

MEANS BRAND/TUKEY CLDIFF;

TITLE 'COMPARE RELIEF ACROSS MEDICINES – ANOVA EXAMPLE’;

PROC GPLOT;

PLOT RELIEF*BRAND;

PROC BOXPLOT;

PLOT RELIEF*BRAND;

TITLE 'ANOVA RESULTS’;

RUN;

QUIT;

ODS RTF close;

ODS LISTING;

Poniżej znajdują się (częściowe) dane wyjściowe dla badania ulgi w bólu głowy:

ProceduraANOVAu

Zmienna zależna: Ulga

Źródło

DF

Suma kwadratów

Średnia. Square

F Value

Pr > F

Model

2

66.7720000

33.3860000

7.14

0.0091

Błąd

12

56.1280000

4.6773333

Poprawione Razem

14

122.9000000

R-Square

Coeff Var

Root MSE

RELIEF Mean

0.543303

7.751664

2.162714

27.90000

.

Źródło

DF

Anova SS

Mean Square

F Value

Pr > F

BRAND

2

66.77200000

33.38600000

7.14

0.0091

uPoczątkowa tabela w tym zestawieniu to tabela analizy wariancji. Najważniejszym wierszem, który należy obserwować w tej tabeli, jest „Model”. Po prawej stronie tego wiersza znajduje się wartość p dla ogólnego testu ANOVA. Jest ona podana jako „Pr > F” i wynosi p = 0,0091. Testuje to ogólny model, aby określić, czy istnieje różnica w średnich między markami. W tym przypadku, ponieważ wartość p jest mała, można stwierdzić, że istnieją dowody na to, że istnieje statystycznie istotna różnica między markami.

v Teraz, gdy wiesz, że istnieją różnice w BRAND, musisz określić, gdzie leżą różnice. W tym przypadku, to porównanie jest wykonywane przez porównanie Tukey Studentized Range (na poziomie alfa = 0,05). Zobacz poniższe tabele.

Tabela grupowania Tukey’a wyświetla te różnice. Zwróć uwagę na etykiety grupowania „A” i „B” w tej tabeli. Jest tylko jedna średnia związana z grupą „A”, a jest nią marka 2. Oznacza to, że średnia dla marki 2 jest znacząco większa niż średnie dla wszystkich pozostałych grup. Istnieją dwie średnie związane z grupą „B” – marki 1 i 3. Ponieważ te dwie średnie są zgrupowane, oznacza to, że nie stwierdzono, aby były one znacząco różne.

Test Tukey’a dla RELIEFv

Alfa

0.05

Error Degrees of Freedom

12

Error Mean Square

4.677333

Wartość krytyczna Rozstępu Studenta

3.77278

Minimalna Różnica Istotna

3.649

Środki z tą samą literą nie różnią się istotnie.

Tukey Grouping

Mean

N

BRAND

A

30.880

5

2

B

26.540

5

3

B

B

26.280

5

1

W związku z tym w wyniku porównania Tukeya stwierdza się, że średnia dla marki 2 jest istotnie wyższa od średnich dla marek 1 i 3 oraz że nie ma istotnej różnicy między markami 1 i 3. Innym sposobem wyrażenia różnic jest użycie opcji CLDIFF z TUKEY (te same wyniki, prezentacja różnic). Na przykład

MEANS BRAND/TUKEY CLDIFF;

Użycie tej opcji daje takie wersje tabeli porównawczej:

Porównania istotne na poziomie 0,05 są oznaczone przez ***.

BRAND
Comparison

Difference
Between
Means

.

Symultaniczne 95% Granice Pewności

2 -. 3

4.340

0.691

7.989

***

2 – 1

4.600

0.951

8.249

***

3 – 2

-4.340

-7.989

-0.691

***

3 – 1

0.260

-3.389

3.909

1 – 2

-4.600

-8.249

-0.951

***

1 – 3

-0.260

-3.909

3.389

Porównania wizualne: Dwa wykresy BRAND by RELIEF pokazują rozkład ulgi w poszczególnych markach, co wizualnie potwierdza wyniki ANOVA. Pierwszy z nich to wykres „kropkowy” uzyskany za pomocą polecenia PROC GPLOT, który pokazuje każdy punkt danych według grupy. Drugi wykres to wykres typu box and whiskers utworzony za pomocą PROC BOXPLOT. Zauważ, że wyniki ulgi dla marki 2 są dłuższe (wyższe wartości) niż poziomy dla marek 1 i 3.

Ćwiczenie praktyczne:

Zmodyfikuj program PROC ANOVA, aby wykonać testy Scheffe’a, LSD i Dunnetta za pomocą następującego kodu i porównaj wyniki.

OZNACZA BRAND/SCHEFFE;

OZNACZA BRAND/LSD;

OZNACZA BRAND/DUNNETT (’1′);

One-Way ANOVA przy użyciu GLM

PROC GLM da zasadniczo takie same wyniki jak PROC ANOVA z dodatkiem kilku dodatkowych opcji. Na przykład, można dołączyć instrukcję OUTPUT i wyprowadzić reszty, które można następnie zbadać. (PROCGLM1.SAS)

ODS RTF; ODS GRAPHICS ON;

PROC GLM DATA=ACHE;

CLASS BRAND;

MODEL RELIEF=BRAND;

MEANS BRAND/TUKEY CLDIFF;

OUTPUT OUT=FITDATA P=YHAT R=RESID;

* Teraz wykreśl resztę;

PROC GPLOT;

plot resid*BRAND;

plot resid*yhat;

run;

ODS RTF CLOSE;

ODS GRAPHICS OFF;

Zwróćmy również uwagę na deklaracje ODS GRAPHICS ON i ODS GRAPHIS OFF. Daje to lepiej wyglądające wykresy niż te, które byliśmy w stanie uzyskać używając PROC GPLOT w połączeniu z PROC ANOVA. Daje to bardziej szczegółowy wykres typu box and whiskers, jak pokazano tutaj:

Jednakże, jest jeszcze kilka innych wykresów, które mogą być interesujące. Są one wywoływane za pomocą kodu

PROC GPLOT;

plot resid*BRAND;

plot resid*yhat;

run;

Otrzymane wykresy (poniżej) są analizą reszt. Pierwszy wykres reszt według marki. Zazwyczaj chcesz, aby resztki były losowo rozproszone według grupy (co wygląda dobrze na tym wykresie)

Drugi wykres wygląda na resztki według YHAT (szacowany RELIEF). Widoczne są trzy oszacowania – związane z trzema markami. Dla każdego oszacowania reszty są losowo rozłożone.

Koniec samouczka

Zobacz http://www.stattutorials.com/SAS

.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany.