- Deux types de modèles décrivant la cinétique enzymatique : Les modèles sQ et tQ
- L’estimation avec le modèle tQ est non biaisée pour toute combinaison de concentrations d’enzyme et de substrat
- L’estimation simultanée de k cat et K M souffre du manque d’identifiabilité
- Les données combinées de différentes expériences permettent une estimation exacte et précise avec le modèle tQ
- Plan d’expériences optimal pour une estimation précise et efficace avec le modèle tQ
Deux types de modèles décrivant la cinétique enzymatique : Les modèles sQ et tQ
Une réaction enzymatique fondamentale consiste en une seule enzyme et un seul substrat, où l’enzyme libre (E) se lie de manière réversible avec le substrat (S) pour former le complexe (C), et le complexe se dissocie de manière irréversible en produit (P) et en enzyme libre :
où la concentration totale de l’enzyme (E T ≡ C + E) et la concentration totale du substrat et du produit (S T ≡ S + C + P) sont conservées. Un modèle populaire décrivant l’accumulation du produit au fil du temps est basé sur l’équation MM, comme suit (voir la méthode supplémentaire pour une dérivation détaillée) :
où K M = (k b + k cat )/k f est la constante de Michaelis-Menten et k cat est la constante catalytique. Ce modèle sQ dérivé avec le QSSA standard a été largement utilisé pour estimer les paramètres cinétiques, K M et k cat à partir de la courbe de progression du produit8,9,10,11,23,25. Un autre modèle décrivant l’accumulation du produit est dérivé avec le QSSA total ; il a été développé plus tard que le modèle sQ et a donc reçu moins d’attention pour l’estimation des paramètres26,27,28,29 :
Bien que ce modèle tQ soit plus compliqué que le modèle sQ, il est précis sur des plages plus larges que le modèle sQ. Plus précisément, le modèle sQ est précis lorsque
ce qui nécessite une faible concentration d’enzyme7,14. Par contre, le modèle tQ est précis lorsque
où K = k b /k f est la constante de dissociation27,28,29. Il est important de noter que cette condition est généralement valable et donc que le modèle tQ, contrairement au modèle sQ, est précis même lorsque l’enzyme est en excès. Voir14,30 pour plus de détails.
Ensuite, nous avons étudié la précision des simulations stochastiques réalisées avec les deux modèles. Plus précisément, nous avons comparé les simulations stochastiques utilisant l’algorithme de Gillespie basé sur les fonctions de propension du modèle complet original (décrit dans le tableau S1), du modèle sQ (tableau S2) ou du modèle tQ (tableau S3) pour 9 conditions différentes31,32,33,34,35,36 : E T est soit inférieur, soit similaire, soit supérieur à K M , et S T est également soit inférieur, soit similaire, soit supérieur à K M (figure 1). Les simulations stochastiques du modèle sQ ne se rapprochent pas de celles du modèle complet original lorsque E T n’est pas faible (c’est-à-dire lorsque E T n’est inférieur ni à S T ni à K M ). En revanche, les simulations stochastiques utilisant le modèle tQ sont précises dans toutes les conditions (Fig. 1), ce qui est cohérent avec une étude récente montrant que les simulations stochastiques avec les modèles sQ et tQ sont précises lorsque leurs conditions de validité déterministe sont réunies (Eqs (3) et (4))37,38. Pris ensemble, le modèle tQ est valide pour une plus grande gamme de conditions que le modèle sQ, tant au sens déterministe que stochastique.
L’estimation avec le modèle tQ est non biaisée pour toute combinaison de concentrations d’enzyme et de substrat
Parce que le modèle tQ est précis pour une plus large gamme de conditions que ne l’est le modèle sQ (Fig. 1), nous avons émis l’hypothèse que l’estimation des paramètres basée sur le modèle tQ est également précise pour des conditions plus générales. Pour étudier cette hypothèse, nous avons d’abord généré 102 courbes de progression bruitées de P à partir des simulations stochastiques du modèle complet original (Fig. S1). Ensuite, nous avons déduit les paramètres (k cat et K M ) de ces ensembles de données simulées en appliquant l’inférence bayésienne avec les fonctions de vraisemblance basées sur le modèle sQ ou tQ, sous des prieurs gamma faiblement informatifs (Fig. S2) (voir Méthodes pour plus de détails). Notez que tout au long de cette étude, nous avons utilisé les courbes de progression du produit simulées (par exemple, la figure S1) parce que nous avons besoin de connaître les vraies valeurs des paramètres pour la comparaison précise des estimations basées sur le modèle sQ et le modèle tQ.
Nous nous sommes d’abord concentrés sur l’estimation du chat k en supposant que la valeur de K M est connue. Lorsque E T est faible, de sorte que les modèles sQ et tQ sont tous deux précis (figure 1 gauche), les échantillons postérieurs obtenus avec les deux modèles sont similaires et capturent avec succès la vraie valeur de k cat (figure 2a gauche). Les échantillons postérieurs obtenus avec les deux modèles sont similaires car, lorsque E T est faible et donc \({E}_{T}\ll {S}_{T}+{K}_{M}\), les deux modèles (Eqs 1 et 2) sont approximativement équivalents comme suit :
où la première approximation provient du développement de Taylor en termes de \({E}_{T}({S}_{T}-P)/({E}_{T}+{K}_{M}+{S}_{T}-P)\ll 1\) (voir27,28,29 pour plus de détails). Par conséquent, lorsque \({E}_{T}\ll {S}_{T}+{K}_{M}\) et donc que le modèle sQ est exact, les estimations avec les modèles sQ et tQ devraient être similaires. En revanche, lorsque E T est élevé, elles présentent de nettes différences (figure 2a droite) : les échantillons postérieurs obtenus avec le modèle sQ présentent de grandes erreurs, tandis que ceux obtenus avec le modèle tQ capturent avec précision la vraie valeur de k cat .
Des résultats similaires sont également observés dans les box plots des moyennes postérieures et des coefficients de variations (CV) postérieurs (Fig. S3a,b). Alors que les moyennes postérieures obtenues avec le modèle sQ sont biaisées lorsque E T est élevé, celles obtenues avec le modèle tQ sont précises pour toutes les conditions (Fig. S3a). En particulier, les distributions étroites des moyennes postérieures indiquent que l’estimation de k cat avec le modèle tQ est robuste contre le bruit dans les données (Fig. S1). De plus, les CV postérieurs sont beaucoup plus petits que les CV antérieurs (Fig. S3b), indiquant une estimation précise de k cat avec le modèle tQ.
Puis, K M a été estimé en supposant que la valeur de k cat est connue (Fig. 2b). Les échantillons postérieurs du K M obtenus avec le modèle sQ montrent à nouveau des erreurs qui croissent avec l’augmentation de E T . Notez que les estimations de K M sont biaisées vers le haut, ce qui implique que l’utilisation des estimations postérieures de K M pour valider l’équation MM (\({K}_{M}\gg {E}_{T}\)) peut être trompeuse. D’autre part, les estimations de K M obtenues avec le modèle tQ sont peu biaisées pour toutes les conditions. Cependant, contrairement aux distributions postérieures étroites de k cat (Fig. 2a), celles de K M obtenues avec le modèle tQ deviennent plus larges ; ainsi la précision diminue lorsque E T ou S T augmente (Fig. 2b). Ces modèles sont également observés dans les diagrammes en boîte des moyennes postérieures et des CV postérieurs (Fig. S3c,d). Le problème d’identifiabilité se pose car, lorsque \({E}_{T}\gg {K}_{M}\) ou \({S}_{T}\gg {K}_{M}\) et donc \({E}_{T}+{S}_{T}\gg {K}_{M}\), le K M est négligeable dans le modèle tQ (Eq. 2), comme suit :
Spécifiquement, lorsque K M est trop faible, la valeur de K M a peu d’effet sur la dynamique du modèle tQ et donc le K M est structurellement non identifiable. Dans l’ensemble, les estimations de K M avec les modèles sQ et tQ ne sont pas satisfaisantes, bien que pour des raisons différentes : les estimations avec le modèle sQ peuvent être biaisées et celles avec le modèle tQ peuvent être structurellement non identifiables (Fig. 2b). Des modèles similaires ont également été observés lorsqu’une antériorité plus informative a été donnée (Fig. S4). En particulier, même avec la priorité informative, les estimations obtenues avec le modèle sQ montrent toujours une erreur considérable lorsque E T augmente.
L’estimation simultanée de k cat et K M souffre du manque d’identifiabilité
Puis, nous avons considéré l’estimation simultanée de deux paramètres, k cat et K M , ce qui est l’objectif typique de la cinétique enzymatique. Pour les mêmes prieurs gamma utilisés dans l’estimation d’un seul paramètre (figure 2), les distributions des échantillons postérieurs obtenus avec les deux modèles sont devenues globalement plus larges (figure 3). Pour trouver la raison de cette estimation imprécise, nous avons analysé les diagrammes de dispersion des échantillons postérieurs k cat et K M (Fig. 4). Lorsque \({S}_{T}\ll {K}_{M}\) (Fig. 4a-c), les échantillons postérieurs de k cat et K M obtenus avec le modèle sQ présentent une forte corrélation, car la dynamique du modèle sQ ne dépend que du rapport k cat /K M , comme on le voit dans l’approximation suivante :
où \({K}_{M}\gg {S}_{T}\ge {S}_{T}-P\\) est utilisé. En revanche, lorsque l’on utilise \({S}_{T}\gg {K}_{M}\) (Fig. 4g-i), le nuage de points du modèle sQ devient horizontal, ce qui indique la non-identifiabilité de la structure de K M . En effet, la valeur de K M n’a presque aucun effet sur la dynamique du modèle sQ, comme on le voit dans l’approximation suivante :
où K M + S T ≈ S T est utilisé comme \({S}_{T}\gg {K}_{M}\). Ce manque d’identifiabilité des paramètres lorsque \({S}_{T}\ll {K}_{M}\) ou \({S}_{T}\gg {K}_{M}\) est conforme aux études précédentes, qui recommandent d’utiliser S T ≈ K M pour une estimation plus précise22,23. Cependant, même lorsque S T ≈ K M , les estimations restent imprécises (figure 3a et b au milieu). De plus, lorsque E T augmente, les estimations obtenues avec le modèle sQ sont biaisées (Fig. 3) comme dans l’estimation à paramètre unique (Fig. 2). Sur la base de cette analyse, il apparaît que l’estimation simultanée de k cat et K M avec le modèle sQ est difficile en raison des problèmes d’identifiabilité et de biais.
Lorsque \({E}_{T}\gg {K}_{M}\) ou \({S}_{T}\gg {K}_{M}\), le K M a un effet négligeable sur la dynamique du modèle tQ (Eq. 6), et donc seul k cat était identifiable dans l’estimation à paramètre unique (Fig. 2a et b droite ou bas). De même, lorsque k cat et K M sont déduits simultanément avec le modèle tQ, l’estimation de k cat seulement est exacte et précise (Fig. 3a et b à droite ou en bas), comme le montrent les diagrammes de dispersion horizontaux le long de la vraie valeur de k cat (Fig. 4c,f,g-i). Dans d’autres cas (lorsque ni \({E}_{T}\gg {K}_{M}\) ni \({S}_{T}\gg {K}_{M}\)), la variance postérieure des deux paramètres augmente considérablement par rapport à l’estimation à paramètre unique (Figs 2 et 3 gauche et haut). Cette estimation imprécise provient de deux sources, selon les diagrammes de dispersion (Fig. 4a,b,d,e). Lorsque k cat et K M diminuent ensemble, le comportement du modèle tQ change peu par rapport au modèle SQ (Eq. 5), ce qui entraîne une forte corrélation entre les échantillons postérieurs de k cat et K M . Comme les estimations de K M continuent de diminuer en même temps que celles de k cat , de sorte qu’elles deviennent beaucoup moins que E T + S T (ligne verticale en pointillés de la figure 4), le modèle tQ ne dépend plus de la valeur de K M , comme le montre l’équation 6, et donc les diagrammes de dispersion deviennent horizontaux.
Les données combinées de différentes expériences permettent une estimation exacte et précise avec le modèle tQ
Comme nous l’avons montré ci-dessus, l’estimation à la fois de k cat et de K M à l’aide d’une seule courbe de progression souffre d’un biais considérable et d’un manque d’identifiabilité (Figs 3 et 4), ce qui est cohérent avec les études précédentes rapportant qu’une courbe de progression obtenue à partir d’une seule expérience ne suffit pas à identifier les deux paramètres simultanément19. Ainsi, ici, nous étudions si l’utilisation de plusieurs ensembles de données de cours de temps obtenus dans des conditions expérimentales différentes peut améliorer l’estimation.
Dans les essais in vitro typiques, les courbes de progression sont mesurées avec soit un S T fixe et un E T varié, soit un E T fixe et un S T varié 8,9,10,11,39. Nous considérons d’abord le cas où les courbes de progression sont mesurées avec une S T fixe et une E T variable. Plus précisément, les courbes de progression de E T faible et élevé sont utilisées pour estimer les paramètres pour un S T fixe à différents niveaux (Fig. S1 haut et bas). Dans ce cas, les échantillons postérieurs obtenus avec le modèle sQ montrent des erreurs considérables lorsque les données de E T élevé sont utilisées (Figs 5a et S5). D’autre part, les échantillons postérieurs obtenus avec le modèle tQ capturent avec précision les vraies valeurs de k cat et K M avec une faible variance (Figs 5a et S5). Une telle amélioration provient du fait que les données obtenues sous un E T faible et élevé fournissent différents types d’informations pour l’estimation des paramètres. Plus précisément, à partir des données obtenues sous un E T élevé, bien que le K M ne soit pas identifiable, le k cat peut être estimé avec précision avec le modèle tQ (Fig. 4c,f,i). Cette estimation précise de k cat à partir des données E T élevées peut empêcher la corrélation entre k cat et K M lorsqu’ils sont estimés à partir des données E T faibles (Fig. 4a,d). En effet, les diagrammes de dispersion étroits du modèle tQ (Fig. 5b à gauche et au milieu) sont l’intersection de deux diagrammes de dispersion, un horizontal obtenu à partir des données de E T élevé (Fig. 4c,f) et un non horizontal obtenu à partir des données de E T faible (Fig. 4a,d). Cependant, lorsque S T est élevé, le nuage de points obtenu à partir des données E T faibles devient également horizontal (Fig. 4c), et donc l’effet synergique de l’utilisation de données combinées diminue (Fig. 5a,b à droite). Dans l’ensemble, le modèle tQ peut estimer avec précision les deux paramètres à partir de la combinaison de données E T faibles et E T élevées lorsque S T n’est pas beaucoup plus grand que K M . Notez que ce faible S T est préféré pour les expériences in vitro24,39,40,41 et c’est le cas pour la plupart des conditions physiologiques24.
Puis, nous considérons le cas où les courbes de progression sont mesurées avec un E T fixe et un S T varié. Plus précisément, la combinaison de deux courbes de progression à partir de S T faible et élevé est utilisée pour déduire les paramètres pour un E T fixe à différents niveaux (Fig. S1 gauche et droite). Lorsque E T est faible, et donc que les modèles sQ et tQ se comportent de manière similaire (Eq. 5), les échantillons postérieurs obtenus avec les deux modèles capturent avec précision les vraies valeurs de k cat et K M (Figs 6a gauche et S6). Encore une fois, le nuage de points étroit (Fig. 6b gauche) est obtenu comme l’intersection d’un nuage de points non horizontal de faible S T (Fig. 4a) et d’un nuage de points horizontal de S T élevé (Fig. 4g). Cependant, comme E T augmente, et donc que le modèle sQ devient moins précis, celles obtenues avec le modèle sQ sont biaisées, comme prévu (Figs 6a droite et S6). Alors que de tels biais ne sont pas observés dans ceux obtenus avec le modèle tQ, la précision des estimations de K M diminue lorsque E T augmente, comme dans l’estimation à paramètre unique (Fig. 2 et Eq. 6).
Plan d’expériences optimal pour une estimation précise et efficace avec le modèle tQ
Lorsqu’une courbe de progression obtenue à partir d’une seule expérience est utilisée, les diagrammes de dispersion postérieurs du modèle tQ peuvent être catégorisés comme un type corrélé (Fig. 4a,b,d,e) et un type horizontal (Fig. 4c,f,g-i). Les intersections de ces deux différents types de diagrammes de dispersion ont tendance à être étroitement distribuées près de la valeur réelle (Figs 5b et 6b). Ainsi, la combinaison de deux ensembles de données de ce type permet une estimation précise de k cat et de K M (Figs 5a et 6a). Plus précisément, une courbe de progression mesurée sous \({E}_{T}\ll {K}_{M}\) et \({S}_{T}\ll {K}_{M}\) (Fig. 4a,b,d,e) et une courbe mesurée sous \({E}_{T}\gg {K}_{M}\) ou \({S}_{T}\gg {K}_{M}\) (Fig. 4c,f,g-i) fournissent différents types d’informations pour l’estimation des paramètres ; l’utilisation des deux ensembles de données permet donc une estimation réussie. Cependant, il est difficile de comparer les valeurs de S T , E T et K M dans la pratique, car la valeur de K M est généralement inconnue a priori. Ce problème peut être facilement résolu en utilisant le diagramme de dispersion. En effet, si le diagramme de dispersion postérieur obtenu à partir de la première expérience est horizontal, alors E T et S T doivent être diminués pour l’expérience suivante, de manière à obtenir un diagramme de dispersion non horizontal (figure 7a). D’autre part, si le diagramme de dispersion de la première expérience montre une forte corrélation entre K M et k cat , alors soit S T soit E T doivent être augmentés dans l’expérience suivante (Fig. 7b). Fondamentalement, sans aucune information préalable sur la valeur de K M et de k cat , la forme des diagrammes de dispersion des estimations actuelles détermine le prochain plan d’expérience optimal, ce qui garantit une estimation exacte et précise. Cependant, cette approche ne peut pas être utilisée avec le modèle sQ, car l’estimation avec le modèle sQ peut être biaisée, selon la relation entre E T ou S T et K M , qui est inconnue a priori. Autrement dit, contrairement au modèle tQ, une estimation précise ne garantit pas toujours une estimation précise avec le modèle sQ, comme on l’a vu ci-dessus (par exemple, la figure 5a à droite).
Nous testons si l’approche proposée avec le modèle tQ peut estimer avec précision k cat et K M pour la catalyse de l’ester éthylique de la N-acétylglycine, du fumarate et de l’urée par les enzymes la chymotrypsine, l’uréase et la fumarase, respectivement (figure 7c). Ces trois enzymes ont été choisies parce qu’elles ont des efficacités catalytiques disparates (k cat /K M )1 : 0,12, 4 – 105, et 1,6 – 108 s -1 M -1, respectivement. Pour chaque enzyme, 102 ensembles de données de parcours temporels bruités ont été générés à l’aide de simulations stochastiques basées sur des paramètres cinétiques enzymatiques connus1. Lorsque les courbes de progression obtenues avec un faible E T et un faible S T sont utilisées, comme prévu, des diagrammes de dispersion non horizontaux des échantillons postérieurs ont été obtenus pour les trois enzymes (Fig. 7c). Cela indique que E T ou S T doit être augmenté dans l’expérience suivante pour obtenir un nuage de points horizontal. En effet, lorsqu’une courbe de progression avec une augmentation de 100 fois de E T a été utilisée, des diagrammes de dispersion horizontaux ont été obtenus pour toutes les enzymes (Fig. 7c). Par conséquent, lorsque ces deux courbes de progression sont utilisées ensemble, k cat et K M peuvent être estimés avec précision (Fig. 7c points rouges). Ces résultats confirment que ce plan expérimental optimisé en deux étapes (Fig. 7a, b) pour obtenir deux types différents de diagrammes de dispersion permet une estimation précise et efficace de la cinétique enzymatique avec le modèle tQ. Le package de calcul réalisant cette estimation est fourni (voir Méthode pour les détails).