One-Way ANOVA using SAS
PROC ANOVA & PROC GLM
Zobacz www.stattutorials.com/SASDATA dla plików wspomnianych w tym samouczku
Te samouczki statystyczne SAS krótko wyjaśniają użycie i interpretację standardowych technik analizy statystycznej dla medycyny, farmacji, badań klinicznych, marketingu lub badań naukowych. Przykłady zawierają instrukcje how-to dla oprogramowania SAS.
Użycie PROC ANOVA – analiza jednokierunkowa
Jednokierunkowa analiza wariancji jest rozszerzeniem testu t dla grup niezależnych, gdzie istnieją więcej niż dwie grupy.
Założenia: Zakłada się, że osoby badane są losowo przypisane do jednej z 3 lub więcej grup oraz że dane w obrębie każdej grupy mają rozkład normalny z równymi wariancjami między grupami. Wielkości próbek między grupami nie muszą być równe, ale duże różnice w wielkościach próbek dla grup mogą wpłynąć na wynik niektórych testów porównań wielokrotnych.
Test: Hipotezy dla porównania grup niezależnych to: (k jest liczbą grup)
Ho: m1 = m2 … = mk (średnie wszystkich grup są równe)
Ha: mi ¹ mj (średnie dwóch lub więcej grup nie są równe)
Zgłaszana statystyka testowa jest testem F z k-1 i N-k stopniami swobody, gdzie N jest liczbą badanych. Niska wartość p dla testu F jest dowodem na odrzucenie hipotezy zerowej. Innymi słowy, istnieją dowody na to, że co najmniej jedna para średnich nie jest równa. Na przykład, załóżmy, że jesteś zainteresowany porównaniem WAGI (przyrostu) na 4 poziomach zmiennej GRUPA, aby określić, czy przyrost masy ciała osób w grupach jest znacząco różny.
Poniższy kod SAS może wykonać ten test:
PROC ANOVA DATA=ANOVA;
CLASS GROUP;
MODEL WEIGHT=GROUP;
TITLE 'Compare WEIGHT across GROUPS’;
RUN;
GROUP jest zmienną „CLASS” lub zmienną grupującą (zawierającą cztery poziomy), a WEIGHT jest zmienną ciągłą, której średnie w grupach mają być porównywane. Stwierdzenie MODEL można rozumieć jako
ZMIENNA ZALEŻNA = ZMIENNA NIEZALEŻNA(S);
gdzie zmienna ZALEŻNA jest zmienną „odpowiedzi”, czyli tą, którą zmierzyliśmy, a zmienna(y) niezależna(e) jest(są) obserwowanymi danymi. Stwierdzenie modelu ogólnie wskazało, że biorąc pod uwagę informacje po prawej stronie znaku równości, można przewidzieć coś na temat wartości informacji po lewej stronie znaku równości. (Przy hipotezie zerowej nie ma żadnego związku.)
Ponieważ odrzucenie hipotezy zerowej nie mówi konkretnie, które środki są różne, test porównań wielokrotnych jest często wykonywany po uzyskaniu znaczących wyników w jednokierunkowej analizie wariancji. Aby zażądać wielokrotnych porównań w PROC ANOVA, należy dołączyć instrukcję MEANS z opcją wielokrotnych porównań. Składnia tego polecenia to
MEANS SOCIO /testname;
gdzie testname jest testem porównań wielokrotnych. Niektóre z testów dostępnych w SAS obejmują:
BON – Wykonuje testy t Bonferroniego różnic
DUNCAN – Test wielokrotnych porównań Duncana
SCHEFFE – Procedura wielokrotnych porównań Scheffe
SNK – Test wielokrotnych porównań Studenta Newmana Keulsa
LSD – Test wielokrotnych porównań Fishera
. Fisher’s Least Significant Difference test
TUKEY – Tukey’s studentized range test
DUNNETT (’x’) – test Dunnetta – porównanie z pojedynczą kontrolą
Możesz również określić
ALPHA = p – wybiera poziom istotności dla porównań (domyślnie 0.05)
Na przykład, aby wybrać test TUKEY, użyłbyś instrukcji
GRUPA MEANS /TUKEY;
Porównanie graficzne: Porównanie graficzne pozwala wizualnie zobaczyć rozkład grup. Jeśli wartość p jest niska, istnieje prawdopodobieństwo, że nakładanie się dwóch lub więcej grup będzie niewielkie. Jeśli wartość p nie jest niska, istnieje prawdopodobieństwo, że wszystkie grupy będą się w znacznym stopniu pokrywać. Prosty wykres dla tej analizy można utworzyć za pomocą procedury PROC PLOT lub PROC GPLOT. Na przykład:
PROC GPLOT; PLOT GROUP*WEIGHT;
utworzy wykres przedstawiający WAGĘ według grup.
W ten sposób kod dla pełnej analizy staje się:
PROC ANOVA;
CLASS GROUP;
MODEL WEIGHT=GROUP;
MEANS GROUP /TUKEY;
TITLE 'Compare WEIGHT across GROUPS’;
PROC GPLOT; PLOT GROUP*WEIGHT;
RUN;
Poniżej przedstawiono zadanie SAS, które wykonuje jednokierunkową ANOVĘ i tworzy wykres.
Przykład jednokierunkowej analizy wariancji
Załóżmy, że porównujemy czas do ustąpienia bólu głowy w przypadku trzech leków – marek 1, 2 i 3. Dane dotyczące czasu do uzyskania ulgi podawane są w minutach. W tym eksperymencie 15 uczestników zostało losowo umieszczonych na jednym z trzech leków. Który lek (jeśli w ogóle) jest najskuteczniejszy? Dane dla tego przykładu są następujące:
Marka 1 Marka 2 Marka 3
24,5 28,4 26,1
23,5 34,2 28,3
26,4 29,5 24.3
27.1 32.2 26.2
29.9 30.1 27.8
Zauważ, że SAS oczekuje wprowadzenia danych w postaci dwóch zmiennych, grupy i obserwacji.
Tutaj znajduje się kod SAS do analizy tych danych. (AANOVA EXAMPLE2.SAS)
DATA ACHE;
INPUT BRAND RELIEF;
CARDS;
1 24.5
1 23.5
1 26.4
1 27.1
1 29.9
2 28.4
2 34.2
2 29.5
2 32.2
2 30.1
3 26.1
3 28.3
3 24.3
3 26.2
3 27.8
;
ODS RTF;ODS LISTING CLOSE;
PROC ANOVA DATA=ACHE;
CLASS BRAND;
MODEL RELIEF=BRAND;
MEANS BRAND/TUKEY CLDIFF;
TITLE 'COMPARE RELIEF ACROSS MEDICINES – ANOVA EXAMPLE’;
PROC GPLOT;
PLOT RELIEF*BRAND;
PROC BOXPLOT;
PLOT RELIEF*BRAND;
TITLE 'ANOVA RESULTS’;
RUN;
QUIT;
ODS RTF close;
ODS LISTING;
Poniżej znajdują się (częściowe) dane wyjściowe dla badania ulgi w bólu głowy:
ProceduraANOVAu
Zmienna zależna: Ulga
Źródło
DF
Suma kwadratów
Średnia. Square
F Value
Pr > F
Model
2
66.7720000
33.3860000
7.14
0.0091
Błąd
12
56.1280000
4.6773333
Poprawione Razem
14
122.9000000
R-Square
Coeff Var
Root MSE
RELIEF Mean
0.543303
7.751664
2.162714
27.90000
Źródło
DF
Anova SS
.
Mean Square
F Value
Pr > F
BRAND
2
66.77200000
33.38600000
7.14
0.0091
uPoczątkowa tabela w tym zestawieniu to tabela analizy wariancji. Najważniejszym wierszem, który należy obserwować w tej tabeli, jest „Model”. Po prawej stronie tego wiersza znajduje się wartość p dla ogólnego testu ANOVA. Jest ona podana jako „Pr > F” i wynosi p = 0,0091. Testuje to ogólny model, aby określić, czy istnieje różnica w średnich między markami. W tym przypadku, ponieważ wartość p jest mała, można stwierdzić, że istnieją dowody na to, że istnieje statystycznie istotna różnica między markami.
v Teraz, gdy wiesz, że istnieją różnice w BRAND, musisz określić, gdzie leżą różnice. W tym przypadku, to porównanie jest wykonywane przez porównanie Tukey Studentized Range (na poziomie alfa = 0,05). Zobacz poniższe tabele.
Tabela grupowania Tukey’a wyświetla te różnice. Zwróć uwagę na etykiety grupowania „A” i „B” w tej tabeli. Jest tylko jedna średnia związana z grupą „A”, a jest nią marka 2. Oznacza to, że średnia dla marki 2 jest znacząco większa niż średnie dla wszystkich pozostałych grup. Istnieją dwie średnie związane z grupą „B” – marki 1 i 3. Ponieważ te dwie średnie są zgrupowane, oznacza to, że nie stwierdzono, aby były one znacząco różne.
Test Tukey’a dla RELIEFv
Alfa
0.05
Error Degrees of Freedom
12
Error Mean Square
4.677333
Wartość krytyczna Rozstępu Studenta
3.77278
Minimalna Różnica Istotna
3.649
Środki z tą samą literą nie różnią się istotnie.
Tukey Grouping
Mean
N
BRAND
A
30.880
5
2
B
26.540
5
3
B
B
26.280
5
1
W związku z tym w wyniku porównania Tukeya stwierdza się, że średnia dla marki 2 jest istotnie wyższa od średnich dla marek 1 i 3 oraz że nie ma istotnej różnicy między markami 1 i 3. Innym sposobem wyrażenia różnic jest użycie opcji CLDIFF z TUKEY (te same wyniki, prezentacja różnic). Na przykład
MEANS BRAND/TUKEY CLDIFF;
Użycie tej opcji daje takie wersje tabeli porównawczej:
Porównania istotne na poziomie 0,05 są oznaczone przez ***.
BRAND
ComparisonDifference
Between
Means.
Symultaniczne 95% Granice Pewności
2 -. 3
4.340
0.691
7.989
***
2 – 1
4.600
0.951
8.249
***
3 – 2
-4.340
-7.989
-0.691
***
3 – 1
0.260
-3.389
3.909
1 – 2
-4.600
-8.249
-0.951
***
1 – 3
-0.260
-3.909
3.389
Porównania wizualne: Dwa wykresy BRAND by RELIEF pokazują rozkład ulgi w poszczególnych markach, co wizualnie potwierdza wyniki ANOVA. Pierwszy z nich to wykres „kropkowy” uzyskany za pomocą polecenia PROC GPLOT, który pokazuje każdy punkt danych według grupy. Drugi wykres to wykres typu box and whiskers utworzony za pomocą PROC BOXPLOT. Zauważ, że wyniki ulgi dla marki 2 są dłuższe (wyższe wartości) niż poziomy dla marek 1 i 3.
Ćwiczenie praktyczne:
Zmodyfikuj program PROC ANOVA, aby wykonać testy Scheffe’a, LSD i Dunnetta za pomocą następującego kodu i porównaj wyniki.
OZNACZA BRAND/SCHEFFE;
OZNACZA BRAND/LSD;
OZNACZA BRAND/DUNNETT (’1′);
One-Way ANOVA przy użyciu GLM
PROC GLM da zasadniczo takie same wyniki jak PROC ANOVA z dodatkiem kilku dodatkowych opcji. Na przykład, można dołączyć instrukcję OUTPUT i wyprowadzić reszty, które można następnie zbadać. (PROCGLM1.SAS)
ODS RTF; ODS GRAPHICS ON;
PROC GLM DATA=ACHE;
CLASS BRAND;
MODEL RELIEF=BRAND;
MEANS BRAND/TUKEY CLDIFF;
OUTPUT OUT=FITDATA P=YHAT R=RESID;
* Teraz wykreśl resztę;
PROC GPLOT;
plot resid*BRAND;
plot resid*yhat;
run;
ODS RTF CLOSE;
ODS GRAPHICS OFF;
Zwróćmy również uwagę na deklaracje ODS GRAPHICS ON i ODS GRAPHIS OFF. Daje to lepiej wyglądające wykresy niż te, które byliśmy w stanie uzyskać używając PROC GPLOT w połączeniu z PROC ANOVA. Daje to bardziej szczegółowy wykres typu box and whiskers, jak pokazano tutaj:
Jednakże, jest jeszcze kilka innych wykresów, które mogą być interesujące. Są one wywoływane za pomocą kodu
PROC GPLOT;
plot resid*BRAND;
plot resid*yhat;
run;
Otrzymane wykresy (poniżej) są analizą reszt. Pierwszy wykres reszt według marki. Zazwyczaj chcesz, aby resztki były losowo rozproszone według grupy (co wygląda dobrze na tym wykresie)
Drugi wykres wygląda na resztki według YHAT (szacowany RELIEF). Widoczne są trzy oszacowania – związane z trzema markami. Dla każdego oszacowania reszty są losowo rozłożone.
Koniec samouczka
Zobacz http://www.stattutorials.com/SAS
.