ANOVA à une voie en utilisant SAS
PROC ANOVA & PROC GLM
Voir www.stattutorials.com/SASDATA pour les fichiers mentionnés dans ce tutoriel
Ces tutoriels de statistiques SAS expliquent brièvement l’utilisation et l’interprétation des techniques d’analyse statistique standard pour la recherche médicale, pharmaceutique, les essais cliniques, le marketing ou la recherche scientifique. Les exemples comprennent des instructions de type « comment faire » pour le logiciel SAS.
Utilisation de PROC ANOVA – Analyse à une voie
Une analyse de variance à une voie est une extension du test t de groupe indépendant lorsqu’il y a plus de deux groupes.
Asumptions : On suppose que les sujets sont affectés au hasard à l’un des 3 groupes ou plus et que les données au sein de chaque groupe sont normalement distribuées avec des variances égales entre les groupes. Les tailles des échantillons entre les groupes ne doivent pas nécessairement être égales, mais de grandes différences dans les tailles des échantillons pour les groupes peuvent affecter le résultat de certains tests de comparaisons multiples.
Test : Les hypothèses pour la comparaison de groupes indépendants sont : (k est le nombre de groupes)
Ho : m1 = m2 … = mk (les moyennes de tous les groupes sont égales)
Ha : mi ¹ mj (les moyennes des deux groupes ou plus ne sont pas égales)
La statistique de test rapportée est un test F avec k-1 et N-k degrés de liberté, où N est le nombre de sujets. Une faible valeur p pour le test F est une preuve pour rejeter l’hypothèse nulle. En d’autres termes, il est évident qu’au moins une paire de moyennes n’est pas égale. Par exemple, supposons que vous souhaitiez comparer le POIDS (gain) entre les 4 niveaux d’une variable GROUPE, afin de déterminer si le gain de poids des individus entre les groupes est significativement différent.
Le code SAS suivant peut effectuer le test :
PROC ANOVA DATA=ANOVA;
CLASS GROUP;
MODEL WEIGHT=GROUP;
TITLE ‘Compare WEIGHT across GROUPS’;
RUN ;
GROUPE est la « CLASSE » ou variable de groupement (contenant quatre niveaux), et POIDS est la variable continue, dont les moyennes entre les groupes doivent être comparées. L’énoncé du modèle peut être considéré comme suit
VARIABLE DEPENDANTE = VARIABLE(S) INDEPENDANTE(S);
où la variable DEPENDANTE est la variable « réponse », ou celle que vous avez mesurée, et la ou les variables indépendantes sont les données observées. L’énoncé du modèle indique généralement qu’étant donné l’information du côté droit du signe égal, vous pouvez prédire quelque chose sur la valeur de l’information du côté gauche du signe égal. (Sous l’hypothèse nulle, il n’y a pas de relation.)
Puisque le rejet de l’hypothèse nulle ne vous indique pas spécifiquement quelles moyennes sont différentes, un test de comparaison multiple est souvent effectué après un résultat significatif dans l’ANOVA à une voie. Pour demander des comparaisons multiples dans PROC ANOVA, incluez une instruction MEANS avec une option de comparaison multiple. La syntaxe de cette instruction est la suivante
MEANS SOCIO /testname;
où testname est un test de comparaison multiple. Certains des tests disponibles dans SAS comprennent :
BON – Effectue des tests t de Bonferroni sur les différences
DUNCAN – Test de Duncan à plages multiples
SCHEFFE – Procédure de comparaison multiple de Scheffe
SNK – Test de Student Newman Keuls à plages multiples
LSD – Test de la plus petite différence significative de Fisher
TUKEY – Test de la gamme studentisée de Tukey
DUNNETT (‘x’) – Test de Dunnett – comparer à un seul contrôle
Vous pouvez également spécifier
ALPHA = p – sélectionne le niveau de signification des comparaisons (par défaut, 0.05)
Par exemple, pour sélectionner le test de TUKEY, vous utiliserez l’instruction
Groupe de moyens /TUKEY;
Comparaison graphique : Une comparaison graphique vous permet de voir visuellement la distribution des groupes. Si la p-value est faible, il y a de fortes chances pour qu’il y ait peu de chevauchement entre les deux ou plusieurs groupes. Si la valeur p n’est pas faible, il y aura un chevauchement assez important entre tous les groupes. Un graphique simple pour cette analyse peut être créé en utilisant la procédure PROC PLOT ou PROC GPLOT. Par exemple:
PROC GPLOT ; PLOT GROUP*WEIGHT;
produira un graphique montrant le POIDS par groupe.
Donc, le code pour l’analyse complète devient :
PROC ANOVA;
CLASS GROUP;
MODEL WEIGHT=GROUP;
MEANS GROUP /TUKEY;
TITLE ‘Compare WEIGHT across GROUPS’ ;
PROC GPLOT ; PLOT GROUP*WEIGHT;
RUN;
Ce qui suit est un job SAS qui effectue une ANOVA à une voie et produit un graphique.
Exemple d’ANOVA à une voie
Supposons que vous comparez le temps de soulagement de trois médicaments contre les maux de tête — marques 1, 2 et 3. Les données sur le temps de soulagement sont rapportées en minutes. Pour cette expérience, 15 sujets ont été placés au hasard sous l’un des trois médicaments. Quel médicament (le cas échéant) est le plus efficace ? Les données pour cet exemple sont les suivantes :
Marque 1 Marque 2 Marque 3
24,5 28,4 26,1
23,5 34,2 28,3
26,4 29,5 24.3
27,1 32,2 26,2
29,9 30,1 27,8
Notez que SAS s’attend à ce que les données soient saisies sous forme de deux variables, un groupe et une observation.
Voici le code SAS pour analyser ces données. (AANOVA EXEMPLE2.SAS)
DATA ACHE;
INPUT BRAND RELIEF;
CARDS;
1 24.5
1 23.5
1 26.4
1 27.1
1 29.9
2 28.4
2 34.2
2 29.5
2 32.2
2 30.1
3 26.1
3 28.3
3 24.3
3 26.2
3 27.8
;
ODS RTF;ODS LISTING CLOSE;
PROC ANOVA DATA=ACHE;
CLASS BRAND;
MODEL RELIEF=BRAND;
MEANS BRAND/TUKEY CLDIFF;
TITLE ‘COMPARE RELIEF ACROSS MEDICINES – ANOVA EXAMPLE’;
PROC GPLOT ;
PLOT RELIEF*BRAND;
PROC BOXPLOT;
PLOT RELIEF*BRAND;
TITLE ‘ANOVA RESULTS’;
RUN;
QUIT ;
ODS RTF close;
ODS LISTING;
Voici la sortie (partielle) de l’étude sur le soulagement des maux de tête :
ProcédureANOVAu
Variable dépendante : Soulagement
Source
DF
Somme des carrés
Moyenne. Carré
Valeur F
Pr > F
Modèle
2
66.7720000
33.3860000
7.14
0.0091
Erreur
12
56.1280000
4.6773333
Total corrigé
14
122.9000000
R-Square
Coeff Var
Root MSE
RELIEF Moyenne
0.543303
7.751664
2.162714
27.90000
Source
DF
Anova SS
.
Carré moyen
Valeur F
Pr > F
Marque
2
66.77200000
33,38600000
7,14
0,0091
uLe tableau initial de cette liste est le tableau d’analyse de la variance. La ligne la plus importante à observer dans ce tableau est le « Modèle ». À droite de cette ligne se trouve la valeur p pour le test ANOVA global. Elle est indiquée comme « Pr > F » et est p = 0,0091. Cela teste le modèle global pour déterminer s’il existe une différence de moyennes entre les MARQUES. Dans ce cas, comme la valeur p est faible, vous pouvez conclure qu’il existe des preuves qu’il y a une différence statistiquement significative entre les marques.
v Maintenant que vous savez qu’il existe des différences entre les MARQUES, vous devez déterminer où se situent ces différences. Dans ce cas, cette comparaison est effectuée par la comparaison de la gamme studentisée de Tukey (au niveau alpha = 0,05). Consultez les tableaux ci-dessous.
Le tableau de regroupement de Tukey affiche ces différences. Remarquez les étiquettes de groupement « A » et « B » dans ce tableau. Il n’y a qu’une seule moyenne associée au groupe « A », et c’est la marque 2. Cela indique que la moyenne de la marque 2 est significativement plus grande que les moyennes de tous les autres groupes. Il y a deux moyennes associées au groupe « B » – les marques 1 et 3. Puisque ces deux moyennes sont regroupées, cela vous indique qu’elles n’ont pas été jugées significativement différentes.
Test de la gamme studentisée (HSD) de Tukey pour RELIEFv
Alpha
0.05
Erreur Degrés de liberté
12
Erreur Carré moyen
4.677333
Valeur critique de l’intervalle studentisé
3.77278
Différence significative minimale
3.649
Les moyennes avec la même lettre ne sont pas significativement différentes.
Groupement de Tukey
Moyenne
N
Marque
A
30.880
5
2
B
26.540
5
3
B
B
26.280
5
1
Ainsi, la comparaison de Tukey conclut que la moyenne de la marque 2 est significativement supérieure aux moyennes des marques 1 et 3, et qu’il n’y a pas de différence significative entre les marques 1 et 3. Une autre façon d’exprimer les différences est d’utiliser l’option CLDIFF avec TUKEY (mêmes résultats, présentation des différences). Par exemple
MEANS BRAND/TUKEY CLDIFF;
L’utilisation de cette option produit ces versions d’un tableau de comparaison:
Les comparaisons significatives au niveau de 0,05 sont indiquées par ***.
MARQUE
ComparaisonDifférence
Entre
Moyennes.
Limites de confiance simultanées à 95%
2 – 3
4.340
0.691
7.989
***
2 – 1
4.600
0.951
8.249
***
3 – 2
-4.340
-7.989
-0.691
***
3 – 1
0.260
-3.389
3.909
1 – 2
-4.600
-8.249
-0.951
***
1 – 3
-0.260
-3.909
3,389
Comparaisons visuelles : Deux graphiques de BRAND by RELIEF vous montrent la distribution du relief entre les marques, ce qui confirme visuellement les résultats de l’ANOVA. Le premier est un graphique en « points » donné par la commande PROC GPLOT et montre chaque point de données par groupe. Le deuxième graphique est un graphique en boîte et moustaches créé avec PROC BOXPLOT. Notez que les résultats du relief de la marque 2 ont tendance à être plus longs (valeurs plus élevées) que les niveaux des marques 1 et 3.
Exercice pratique:
Modifiez le programme PROC ANOVA pour effectuer le test de Scheffe, LSD et Dunnett en utilisant le code suivant et comparez les résultats.
SIGNIFIE MARQUE/SCHEFFE;
SIGNIFIE MARQUE/LSD;
SIGNIFIE MARQUE/DUNNETT (‘1’) ;
ANOVA à une voie utilisant GLM
PROC GLM produira essentiellement les mêmes résultats que PROC ANOVA avec l’ajout de quelques options supplémentaires. Par exemple, vous pouvez inclure une instruction OUTPUT et sortir les résidus qui peuvent ensuite être examinés. (PROCGLM1.SAS)
ODS RTF ; ODS GRAPHICS ON;
PROC GLM DATA=ACHE;
CLASS BRAND;
MODEL RELIEF=BRAND;
MEANS BRAND/TUKEY CLDIFF;
OUTPUT OUT=FITDATA P=YHAT R=RESID ;
* Tracez maintenant les résidus;
PROC GPLOT;
plot resid*BRAND;
plot resid*yhat;
run;
ODS RTF CLOSE;
ODS GRAPHICS OFF ;
Remarquez également les instructions ODS GRAPHICS ON et ODS GRAPHIS OFF. Cela produit des graphiques de meilleure qualité que ceux que nous avons pu obtenir en utilisant PROC GPLOT en conjonction avec PROC ANOVA. Cela produit le graphique plus détaillé de la boîte et des moustaches comme montré ici :
Cependant, il y a encore quelques autres graphiques qui pourraient être intéressants. Ceux-ci sont demandés en utilisant le code
PROC GPLOT;
plot resid*BRAND;
plot resid*yhat;
run;
Les graphiques résultants (ci-dessous) sont une analyse des résidus. Les premiers tracent les résidus par marque. Typiquement, vous voulez que les résidus soient dispersés aléatoirement par groupe (ce qui semble correct dans ce tracé)
Le deuxième tracé examine les résidus par YHAT (le RELIEF estimé). Vous pouvez voir trois estimations – liées aux trois marques. Pour chaque estimation, les résidus sont distribués de manière aléatoire.
Fin du tutoriel
Voir http://www.stattutorials.com/SAS
.