- To typer modeller, der beskriver enzymkinetik: nøjagtig og effektiv estimering af enzymkinetiske parametre: De to modeller: sQ- og tQ-modellerne
- Estimation med tQ-modellen er ubiased for enhver kombination af enzym- og substratkoncentrationer
- Simultan estimering af k cat og K M lider under manglende identificerbarhed
- Kombinerede data fra forskellige eksperimenter muliggør en nøjagtig og præcis estimering med tQ-modellen
- Optimal udformning af eksperimenter til nøjagtig og effektiv estimering med tQ-modellen
To typer modeller, der beskriver enzymkinetik: nøjagtig og effektiv estimering af enzymkinetiske parametre: De to modeller: sQ- og tQ-modellerne
En grundlæggende enzymreaktion består af et enkelt enzym og et enkelt substrat, hvor det frie enzym (E) reversibelt binder sig med substratet (S) for at danne komplekset (C), og komplekset dissocieres irreversibelt til produktet (P) og det frie enzym:
hvor den samlede enzymkoncentration (E T ≡ C + E) og den samlede substrat- og produktkoncentration (S T ≡ S + C + P) er bevaret. En populær model, der beskriver akkumuleringen af produktet over tid, er baseret på MM-ligningen som følger (se Supplerende metode for detaljeret udledning):
hvor K M = (k b + k cat )/k f er Michaelis-Menten-konstanten, og k cat er den katalytiske konstant. Denne sQ-model, der er afledt med standard QSSA, er blevet anvendt i vid udstrækning til at estimere de kinetiske parametre, K M og k cat, ud fra produktets fremgangskurve8,9,10,11,23,25. En anden model, der beskriver akkumulationen af produktet, er afledt med den samlede QSSA; den blev udviklet senere end sQ-modellen og har derfor fået mindre opmærksomhed med hensyn til parameterestimation26,27,28,29:
Og selv om denne tQ-model er mere kompliceret end sQ-modellen, er den nøjagtig over større intervaller end sQ-modellen. Specifikt er sQ-modellen nøjagtig, når
hvilket kræver en lav enzymkoncentration7,14. På den anden side er tQ-modellen nøjagtig, når
hvor K = k b /k f er dissociationskonstanten27,28,29. Det er vigtigt, at denne betingelse er generelt gyldig, og således er tQ-modellen, i modsætning til sQ-modellen, nøjagtig, selv når enzymet er i overskud. Se14,30 for flere detaljer.
Dernæst undersøgte vi nøjagtigheden af de stokastiske simuleringer, der blev udført med begge modeller. Specifikt sammenlignede vi de stokastiske simuleringer ved hjælp af Gillespie-algoritmen baseret på propensitetsfunktionerne fra enten den oprindelige fulde model (beskrevet i tabel S1), sQ-modellen (tabel S2) eller tQ-modellen (tabel S3) for 9 forskellige betingelser31,32,33,34,35,36: E T er enten lavere end, svarer til eller er højere end K M , og S T er også enten lavere end, svarer til eller er højere end K M (fig. 1). De stokastiske simuleringer af sQ-modellen kan ikke tilnærme sig den oprindelige fulde models simuleringer, når E T ikke er lav (dvs. når E T ikke er lavere end hverken S T eller K M ). På den anden side er de stokastiske simuleringer med tQ-modellen nøjagtige under alle forhold (fig. 1), hvilket er i overensstemmelse med en nyere undersøgelse, der viser, at stokastiske simuleringer med sQ- og tQ-modellerne er nøjagtige, når deres deterministiske gyldighedsbetingelser er opfyldt (Eks. (3) og (4))37,38. Samlet set er tQ-modellen gyldig for et bredere område af betingelser end sQ-modellen er i både deterministisk og stokastisk forstand.
Estimation med tQ-modellen er ubiased for enhver kombination af enzym- og substratkoncentrationer
Da tQ-modellen er præcis for et bredere område af betingelser end sQ-modellen er (Fig. 1), antog vi, at parameterestimation baseret på tQ-modellen også er præcis for mere generelle betingelser. For at undersøge denne hypotese genererede vi først 102 støjende fremskridtskurver for P fra de stokastiske simuleringer af den oprindelige fulde model (Fig. S1). Derefter udledte vi parametre (k cat og K M ) fra disse simulerede datasæt ved at anvende bayesiansk inferens med sandsynlighedsfunktionerne baseret på enten sQ- eller tQ-modellen under svagt informative gammaprioriteter (Fig. S2) (se Metoder for detaljer). Bemærk, at vi i hele denne undersøgelse har anvendt de simulerede produktforløbskurver (f.eks. Fig. S1), fordi vi har brug for at kende de sande værdier af parametrene for at kunne foretage en nøjagtig sammenligning af estimaterne baseret på sQ-modellen og tQ-modellen.
Vi fokuserede først på estimationen af k kat under den antagelse, at værdien af K M er kendt. Når E T er lav, således at både sQ- og tQ-modellen er nøjagtige (fig. 1 til venstre), er de efterfølgende stikprøver, der opnås med begge modeller, ens og fanger med succes den sande værdi af k cat (fig. 2a til venstre). De efterfølgende stikprøver, der opnås med de to modeller, er ens, fordi når E T er lav og dermed \({E}_{T}\ll {S}_{T}+{K}_{M}\), er begge modeller (Eq. 1 og 2) omtrent ækvivalente på følgende måde:
hvor den første tilnærmelse kommer fra Taylor-ekspansionen i form af \({E}_{T}({S}_{T}-P)/({E}_{T}+{K}_{M}+{S}_{T}-P)\ll 1\) (se27,28,29 for nærmere oplysninger). Når \({E}_{T}\ll {S}_{T}+{K}_{M}\) og dermed sQ-modellen er nøjagtig, bør estimaterne med sQ- og tQ-modellen derfor være ens. På den anden side, når E T er høj, viser de klare forskelle (fig. 2a til højre): de efterfølgende stikprøver, der opnås med sQ-modellen, viser store fejl, mens dem, der opnås med tQ-modellen, nøjagtigt fanger den sande værdi af k cat .
Sammenlignende resultater observeres også i boksplotterne af efterfølgende middelværdier og efterfølgende variationskoefficienter (CV’er) (Fig. S3a,b). Mens de efterfølgende middelværdier, der opnås med sQ-modellen, er biased, når E T er høj, er de midler, der opnås med tQ-modellen, nøjagtige for alle forhold (Fig. S3a). Især de snævre fordelinger af de efterfølgende middelværdier viser, at vurderingen af k cat med tQ-modellen er robust over for støjen i dataene (Fig. S1). Desuden er de efterfølgende CV’er meget mindre end de forudgående CV’er (Fig. S3b), hvilket indikerer en præcis estimering af k cat med tQ-modellen.
Dernæst blev K M estimeret under den antagelse, at værdien af k cat er kendt (Fig. 2b). Posteriorprøver af K M opnået med sQ-modellen viser igen fejl, der vokser med stigende E T . Bemærk, at estimaterne af K M er skævt opadgående, hvilket indebærer, at det kan være misvisende at bruge de efterfølgende estimater af K M til at validere MM-ligningen (\({K}_{M}\gg {E}_{T}\))). På den anden side er de estimater af K M, der opnås med tQ-modellen, kun lidt biased for alle forhold. Men i modsætning til de smalle posteriorfordelinger af k cat (fig. 2a) bliver de for K M, der opnås med tQ-modellen, bredere; så præcisionen falder, når E T eller S T stiger (fig. 2b). Disse mønstre ses også i boksplotterne for de efterfølgende middelværdier og efterfølgende CV’er (fig. S3c,d). Identificeringsproblemet opstår, fordi når \({E}_{T}\gg {K}_{M}\) eller \({S}_{T}\gg {K}_{M}\) og dermed \({E}_{T}+{S}_{T}\gg {K}_{M}\), så er K M ubetydelig i tQ-modellen (Eq. 2), som følger:
Særligt, når K M er for lav, har værdien af K M kun ringe indflydelse på dynamikken i tQ-modellen, og K M er således strukturelt uidentificerbar. Samlet set er estimaterne af K M med både sQ- og tQ-modellen ikke tilfredsstillende, om end af forskellige årsager: estimaterne med sQ-modellen kan være biased, og estimaterne med tQ-modellen kan være strukturelt uidentificerbare (fig. 2b). Lignende mønstre blev også observeret, når der blev givet en mere informativ prior (Fig. S4). Især viser estimater, der er opnået med sQ-modellen, selv med den informative prior, stadig betydelige fejl, når E T stiger.
Simultan estimering af k cat og K M lider under manglende identificerbarhed
Næst overvejede vi samtidig estimering af to parametre, k cat og K M , hvilket er det typiske mål inden for enzymkinetik. For de samme gammaprioriteter, der blev anvendt i estimationen af en enkelt parameter (fig. 2), blev fordelingerne af de efterfølgende stikprøver, der blev opnået med begge modeller, generelt bredere (fig. 3). For at finde årsagen til en så upræcis estimering analyserede vi spredningsdiagrammerne for de efterfølgende k cat- og K M-prøver (fig. 4). Når \({S}_{T}\ll {K}_{M}\) (Fig. 4a-c), udviste de efterfølgende prøver af k cat og K M, der blev opnået med sQ-modellen, en stærk korrelation, fordi dynamikken i sQ-modellen kun afhænger af forholdet k cat /K M , som det ses i følgende tilnærmelse:
hvor \({K}_{M}\gg {S}_{T}\ge {S}_{T}-P\) anvendes. På den anden side, når \({S}_{T}\gg {K}_{M}\) (Fig. 4g-i), bliver spredningsdiagrammet for sQ-modellen vandret, hvilket indikerer, at strukturen ikke kan identificeres med K M . Faktisk har værdien af K M næsten ingen virkning på dynamikken i sQ-modellen, som det fremgår af den følgende tilnærmelse:
hvor K M + S T ≈ S T anvendes som \({S}_{T}\gg {K}_{M}\). En sådan mangel på parameteridentificerbarhed, når \({S}_{T}\ll {K}_{M}\) eller \({S}_{T}\gg {K}_{M}\) er i overensstemmelse med tidligere undersøgelser, som anbefaler at bruge S T ≈ K M til en mere præcis estimering22,23. Selv når S T ≈ K M , er skønnene imidlertid stadig upræcise (fig. 3a og b i midten). Når E T stiger, er de estimater, der opnås med sQ-modellen, desuden biased (fig. 3) ligesom i estimationen med en enkeltparameter (fig. 2). På baggrund af denne analyse ser det ud til, at den samtidige estimering af k cat og K M med sQ-modellen er en udfordring på grund af både identificerbarheds- og bias-problemer.
Ved \({E}_{T}\gg {K}_{M}\) eller \({S}_{T}\gg {K}_{M}\) har K M en ubetydelig virkning på tQ-modellens dynamik (Eq. 6), og derfor kunne kun k cat identificeres i enkeltparameterestimationen (fig. 2a og b til højre eller nederst). På samme måde, når både k cat og K M udledes samtidig med tQ-modellen, er estimationen af kun k cat nøjagtig og præcis (fig. 3a og b til højre eller nederst), som det fremgår af de horisontale scatterplots langs den sande værdi af k cat (fig. 4c,f,g-i). I andre tilfælde (når hverken \({E}_{T}\gg {K}_{M}\) eller \({S}_{T}\gg {K}_{M}\)) stiger den efterfølgende varians af begge parametre dramatisk sammenlignet med estimationen af en enkelt parameter (fig. 2 og 3 til venstre og øverst). En sådan upræcis estimering stammer fra to kilder i henhold til spredningsdiagrammerne (fig. 4a,b,d,e). Når k cat og K M falder sammen, ændrer tQ-modellens adfærd sig kun lidt i forhold til SQ-modellen (Eq. 5), hvilket fører til den stærke korrelation mellem de efterfølgende prøver af k cat og K M . Når estimaterne af K M bliver ved med at falde sammen med estimaterne af k cat , således at de bliver meget mindre end E T + S T (stiplet lodret linje i fig. 4), afhænger tQ-modellen ikke længere af værdien af K M , som vist i Eq. 6, og spredningsdiagrammerne bliver således vandrette.
Kombinerede data fra forskellige eksperimenter muliggør en nøjagtig og præcis estimering med tQ-modellen
Som vist ovenfor lider estimeringen af både k cat og K M ved hjælp af en enkelt forløbskurve under betydelig bias og manglende identificerbarhed (fig. 3 og 4), hvilket er i overensstemmelse med tidligere undersøgelser, der rapporterer, at en forløbskurve opnået fra et enkelt eksperiment ikke er tilstrækkelig til at identificere begge parametre samtidigt19. Derfor undersøger vi her, om brugen af flere tidsforløbsdatasæt, der er opnået under forskellige eksperimentelle betingelser, kan forbedre vurderingen.
I typiske in vitro-assays måles fremgangskurver med enten en fast S T og varieret E T eller en fast E T og varieret S T 8,9,10,11,39. Vi ser først på det tilfælde, hvor fremgangskurverne måles med en fast S T og en varieret E T . Konkret anvendes fremskridtskurver fra både lav og høj E T til at estimere parametre for en fast S T på forskellige niveauer (fig. S1 øverst og nederst). I dette tilfælde viser de efterfølgende stikprøver, der er opnået med sQ-modellen, betydelige fejl, da dataene fra høj E T anvendes (fig. 5a og S5). På den anden side fanger de efterfølgende prøver, der er opnået med tQ-modellen, nøjagtigt de sande værdier af både k cat og K M med lav varians (fig. 5a og S5). En sådan forbedring skyldes, at data, der er opnået under lav og høj E T, giver forskellige typer oplysninger til parameterestimation. Specifikt kan k cat præcist estimeres med tQ-modellen ud fra data med høj E T, selv om K M ikke kan identificeres, selv om k cat kan estimeres nøjagtigt med tQ-modellen (fig. 4c,f,i). En sådan nøjagtig estimering af k cat fra data med høj E T kan forhindre korrelationen mellem k cat og K M, når de estimeres fra data med lav E T (fig. 4a,d). De smalle spredningsdiagrammer for tQ-modellen (fig. 5b til venstre og i midten) er faktisk skæringspunktet mellem to spredningsdiagrammer, et horisontalt, der er opnået med dataene for høj E T (fig. 4c,f), og et ikke-horisontalt, der er opnået med dataene for lav E T (fig. 4a,d). Når S T er høj, bliver spredningsdiagrammet fra den lave E T imidlertid også vandret (fig. 4c), og dermed falder den synergistiske effekt af at anvende kombinerede data (fig. 5a,b til højre). Samlet set kan tQ-modellen nøjagtigt estimere begge parametre ud fra kombinationen af data med lav E T og høj E T , når S T ikke er meget større end K M . Bemærk, at en så lav S T foretrækkes til in vitro-forsøg24,39,40,41 og er tilfældet for de fleste fysiologiske forhold24.
Næst overvejer vi det tilfælde, hvor fremskridtskurverne måles med en fast E T og en varieret S T . Konkret bruges kombinationen af to fremgangskurver fra lav og høj S T til at udlede parametre for en fast E T på forskellige niveauer (fig. S1 venstre og højre). Når E T er lav, og sQ- og tQ-modellerne således opfører sig på samme måde (Eq. 5), fanger de efterfølgende stikprøver, der opnås med begge modeller, nøjagtigt de sande værdier af k cat og K M (Fig. 6a venstre og S6). Igen er det smalle spredningsdiagram (fig. 6b til venstre) opnået som skæringspunktet mellem et ikke-horisontalt spredningsdiagram for lav S T (fig. 4a) og et horisontalt spredningsdiagram for høj S T (fig. 4g). Men efterhånden som E T stiger, og dermed sQ-modellen bliver mindre nøjagtig, er de resultater, der opnås med sQ-modellen, som forventet skævvredet (fig. 6a højre og S6). Mens sådanne skævheder ikke observeres i dem, der er opnået med tQ-modellen, falder præcisionen af K M-estimaterne, når E T stiger, som i estimationen med en enkelt parameter (fig. 2 og ekv. 6).
Optimal udformning af eksperimenter til nøjagtig og effektiv estimering med tQ-modellen
Når en fremgangskurve, der er opnået fra et enkelt eksperiment, anvendes, kan de efterfølgende spredningsdiagrammer for tQ-modellen kategoriseres som en korreleret type (fig. 4a,b,d,e) og en vandret type (fig. 4c,f,g-i). Skæringspunkterne mellem disse to forskellige typer af spredningsdiagrammer har en tendens til at være snævert fordelt nær den sande værdi (fig. 5b og 6b). Ved at kombinere to sådanne datasæt kan man således foretage en nøjagtig vurdering af både k cat og K M (fig. 5a og 6a). Konkret er en fremgangskurve målt under \({E}_{T}\ll {K}_{M}\) og \({S}_{T}\ll {K}_{M}\) (fig. 4a,b,d,e) og en kurve målt under \({E}_{T}\gg {K}_{M}\) eller \({S}_{T}\gg {K}_{M}\) (fig. 4c,f,g-i) giver forskellige typer oplysninger til parameterestimation; derfor fører brugen af begge datasæt til en vellykket estimation. Det er imidlertid vanskeligt at sammenligne værdierne af S T , E T og K M i praksis, fordi værdien af K M normalt er ukendt på forhånd. Dette problem kan let løses ved at anvende et spredningsdiagram. Det vil sige, at hvis det efterfølgende spredningsdiagram, der er opnået ved det første forsøg, er vandret, skal både E T og S T nedsættes ved det næste forsøg, således at der kan opnås et ikke-horisontalt spredningsdiagram (fig. 7a). Hvis spredningsdiagrammet fra det første forsøg derimod viser en stærk korrelation mellem K M og k cat , bør enten S T eller E T øges i det næste forsøg (fig. 7b). Uden nogen forudgående oplysninger om værdien af K M og k cat bestemmer formen af spredningsdiagrammerne for de aktuelle skøn den næste optimale forsøgsplanlægning, hvilket sikrer et nøjagtigt og præcist skøn. Denne fremgangsmåde kan imidlertid ikke anvendes med sQ-modellen, fordi estimationen med sQ-modellen kan være skævvredet, afhængigt af forholdet mellem E T eller S T og K M , som ikke er kendt på forhånd. Det vil sige, at i modsætning til tQ-modellen garanterer præcis estimering ikke altid nøjagtig estimering med sQ-modellen, som det fremgår ovenfor (f.eks. fig. 5a til højre).
Vi tester, om den foreslåede fremgangsmåde med tQ-modellen præcist kan estimere k cat og K M for katalyse af N-acetylglycinethylester, fumarat og urinstof af enzymerne henholdsvis chymotrypsin, urease og fumarase (fig. 7c). Disse tre enzymer blev valgt, fordi de har forskellig katalytisk effektivitet (k cat /K M )1: henholdsvis 0,12, 4 – 105 og 1,6 – 108 s -1 M -1. For hvert enzym blev der genereret 102 støjende tidsforløbsdatasæt ved hjælp af stokastiske simuleringer baseret på kendte enzymkinetiske parametre1. Når der som forventet anvendes forløbskurver, der er opnået med lav E T og lav S T, blev der for alle tre enzymer opnået ikke-horisontale scatterplots af efterfølgende prøver (Fig. 7c). Dette indikerer, at enten E T eller S T bør øges i det næste forsøg for at opnå et horisontalt scatterplot. Da der blev anvendt en forløbskurve med en 100-dobbelt forøgelse af E T, blev der faktisk opnået horisontale scatterplots for alle enzymer (fig. 7c). Når disse to forløbskurver anvendes sammen, kan både k cat og K M derfor vurderes nøjagtigt (fig. 7c, røde prikker). Disse resultater understøtter, at et sådant optimeret forsøgsdesign i to trin (fig. 7a,b) for at få to forskellige typer af scatterplots giver mulighed for nøjagtig og effektiv estimering af enzymkinetik med tQ-modellen. Den beregningspakke, der udfører en sådan estimering, er tilvejebragt (se metode for nærmere oplysninger).