Resultados e Discussão
O evento de autoionização foi investigado usando simulações ab initio RETIS, como descrito em Materiais e Métodos. Para as simulações RETIS, utilizamos um parâmetro de ordem de distância geométrica relativamente simples, λ, como ilustrado na Fig. 1: Quando o sistema consiste apenas de espécies H2O, λ é a maior distância de ligação O-H covalente, e quando o sistema contém espécies OH- e H3O+, λ é tomado como a distância mais curta entre o oxigênio em OH- e os átomos de hidrogênio em H3O+. A seguir, referimo-nos ao átomo de oxigénio utilizado para o parâmetro de encomenda como Oλ. O tipo de espécie (OH-, H2O, ou H3O+) foi identificado atribuindo a cada hidrogênio uma única ligação ligando-o ao oxigênio mais próximo. Note que a definição do parâmetro de ordem não requer um limiar para definir uma ligação química nem restringe o parâmetro de ordem a moléculas de água específicas durante a simulação. Isto significa que calculamos a taxa de dissociação de qualquer molécula de água no sistema em vez de uma única ligação O-H visada ou molécula de água.
Condições de iniciação e variáveis colectivas locais. (A) Distribuições reativas (rλc,λr(ξ)) e não reativas (uλc,λr(ξ)) para ξ={w4,na} e λc=1,16 Å e λr=2,0 Å. Para fins de visualização, as distribuições representadas são normalizadas . Os Insets superior e direito mostram as projeções unidimensionais das distribuições. Uma separação clara das duas distribuições pode ser vista ao longo da coordenada w4, indicando que as trajetórias reativas são mais comprimidas em comparação com as trajetórias não reativas. Além disso, o átomo de oxigênio utilizado no cálculo do parâmetro de ordem (Oλ) aceita em média um maior número de ligações de hidrogênio em trajetórias reativas, em comparação com trajetórias não reativas. (B) Instantâneo ilustrativo de uma trajetória reativa onde Oλ é mostrado em azul. Os quatro átomos de oxigênio ao redor que são usados para o cálculo do parâmetro q de ordem tetraédrica são mostrados em laranja. O fio de água é realçado com uma linha amarela (e esferas cinzentas transparentes) e o parâmetro de ângulo qcos é indicado. Neste instantâneo, o fio de água é comprimido, q exibe o desvio de uma estrutura tetraédrica, qcos indica que três átomos de oxigênio estão alinhados no fio, e Oλ aceita três ligações de hidrogênio e doa uma (mostrado com linhas verdes).
Se considerarmos a coordenada q, observamos que rλc,λr é deslocado para valores q mais baixos em comparação com uλc,λr, o que indica que uma distorção de um arranjo tetraédrico em torno da espécie de água dissociada também pode iniciar o evento. Este achado é um pouco surpreendente, pois em algumas outras reações químicas de fase aquosa foi encontrado o efeito oposto (31). Conclusões semelhantes podem ser tiradas para a distribuição de ξ=(w4,qcos). Aqui, há um pico ao longo da coordenada qcos para a distribuição reactiva mais próxima de uma disposição linear das moléculas de água. Na Fig. 4B mostramos um instantâneo representativo, obtido precocemente (após 3 fs) em uma trajetória reativa. Em geral os resultados mostrados na Fig. 3 relatam que a compressão do fio d’água (medida por w4) e a hipercoordenação (medida por na) ou distorção (medida por q e qcos) são condições de iniciação necessárias para a autoionização. Entretanto, estas não são condições suficientes, como mostram os valores de TAλc,λr na Fig. 3B: Ainda 60% das trajetórias que começam dentro da faixa ideal de parâmetros ξ não conseguem estabelecer um salto de prótons concertado.
Aprendizagem da máquina (ML) aplicada a dados de amostragem de trajetórias (33, 34) é uma abordagem promissora para encontrar variáveis coletivas importantes que podem ser facilmente perdidas pela intuição humana. Para explorar esta possibilidade, construímos modelos ML para prever o resultado das trajetórias dado o estado do sistema de água no início das trajetórias. Concentramo-nos no mesmo intervalo que na análise da potência preditiva e usamos o estado do sistema, quando λ>1,15 Å é atingido pela primeira vez, para prever o resultado. Utilizamos várias técnicas ML nas quais cada conjunto de trajetos ímpares foi incluído na calibração e os conjuntos de trajetos pares foram utilizados para o conjunto de teste. Uma divisão alternativa na qual os dados dentro de cada conjunto de trajetos foram divididos igualmente em dois deu resultados semelhantes. Além disso, como as distribuições fortemente enviesadas são difíceis de tratar com o ML, omitimos ainda a reponderação dos conjuntos de dados com os pesos estatísticos dos conjuntos de trajetos correspondentes. Entretanto, aplicamos as técnicas de ML como uma abordagem qualitativa para encontrar novos parâmetros que pudessem ser testados quantitativamente dentro do método de potência preditiva (19).
Além disso, para evitar um risco potencial de interpretação excessiva, optamos por restringir a complexidade do processo de decisão de ML e impusemos um máximo de quatro parâmetros de ordem ao computar TAλc,λr. Por exemplo, excelentes desempenhos preditivos (>90%) foram obtidos usando as máquinas de gradiente baseadas em conjuntos (35, 36). No entanto, a interpretação do modelo é problemática, uma vez que é utilizado um conjunto de árvores de decisão de 100-150 profundidades (adicionadas numa sequência). Embora o desempenho seja melhorado, a possibilidade de sobreajustamento com correlações acidentais aumenta. Portanto, nós nos restringimos aos modelos de decisão baseados em árvores de decisão de árvore única baseadas em classificação e regressão (CART) (20). A restrição a quatro parâmetros de ordem para a função TAλc,λr é baseada em razões similares. A adição de mais parâmetros dá mais matrizes esparsas representando as distribuições reativas/não reativas e, como resultado, a integração numérica para calcular a sobreposição entre essas distribuições torna-se muito sensível ao tamanho da caixa e poderia subestimar a sobreposição devido ao esvaziamento das caixas por estatísticas insuficientes.
Consideramos 138 variáveis coletivas que consistem em distâncias de oxigênio-oxigênio; distâncias de oxigênio-hidrogênio para moléculas de água inicialmente ligadas; todos os ângulos formados por Oλ e seus quatro vizinhos de oxigênio mais próximos; e os parâmetros de ordem Steinhardt das ordens 3, 4 e 6 (32) (ver Materiais e Métodos para mais detalhes). Além disso, os parâmetros de ordem já considerados foram adicionados. A figura 5A mostra a árvore de decisão resultante. Notavelmente, de todos os parâmetros de entrada, o parâmetro w4 está ambos no topo da árvore de decisão e a variável mais importante medida pela redução do erro de classificação atribuído a cada variável em cada divisão da árvore de decisão (20) (Anexo SI, Fig. S9). Também a ordenação tetraédrica e o número de ligações de hidrogênio aceitas aparecem na árvore de decisão. Para descrever o primeiro efeito, a abordagem ML priorizou o parâmetro de ordem Steinhardt q4 acima do parâmetro q similar usado anteriormente por nós. Algumas distâncias que também aparecem na árvore de decisão como d25, a distância entre Oλ e seu 25º oxigênio mais próximo, são muito provavelmente devido a correlações acidentais causadas pelo tamanho limitado do conjunto de dados. Isto é verificado pela inspeção da importância desta variável: d25 não aparece entre as 20 variáveis mais importantes (Anexo SI, Fig. S9) e, de fato, outras variáveis similares (por exemplo, d24) são classificadas em maior grau, embora com baixa importância. Um parâmetro mais importante e intuitivamente sólido que é sugerido pela abordagem ML é λ2, a distância OH entre o oxigênio mais próximo de Oλ e seu hidrogênio com a maior ligação intramolecular. A recomposição da capacidade de previsão utilizando parâmetros da árvore ML (Fig. 5B) não produziu performances superiores às da combinação w4, q, na, e qcos, mas deve ser concebida como igualmente boa, considerando as incertezas estatísticas.
Resultados da análise máquina-aprendizagem. (A) Árvore de classificação e regressão para prever o resultado das trajetórias iniciadas. Aqui, consideramos várias variáveis coletivas adicionais (descrição em Materiais e Métodos), mas apenas um pequeno subconjunto é eventualmente necessário para a construção da árvore: w4, q4 , λ2 (o comprimento da ligação de hidrogênio estirado na molécula da água mais próxima da espécie Oλ), di (a distância de Oλ até o i mais próximo de oxigênio), e d¯i (a distância média considerando os oxiógenos i mais próximos). A notação dos nós é explicada com o nó autônomo no canto superior esquerdo. Esta árvore prevê trajetórias a serem reativas, ou seja, alcançando um λ≥2, ou não reativas com base nas variáveis coletivas obtidas no quadro nas trajetórias quando λ é o primeiro ≥1.15. Os nós que prevêem trajetórias reativas são coloridos de azul (classe 1) enquanto os nós que prevêem trajetórias não reativas são coloridos de verde (classe 0). Note que as percentagens na parte inferior dos quadrados não reflectem as fracções fisicamente correctas, uma vez que os conjuntos de trajectórias não foram reponderados utilizando os seus pesos estatísticos. As regras são representações textuais de atravessar a árvore; por exemplo, a regra 5 (que prevê trajetórias reativas) pode ser expressa como w4≥7.6 e λ2≥1.1. Estas regras dão diferentes condições de iniciação, e estão listadas no Apêndice SI, Tabela S1, para a linha inferior dos nós. (B) A potência preditiva e a probabilidade de cruzamento em função de λr para λc=1.16 Å e diferentes combinações de variáveis coletivas. Aqui comparamos o poder preditivo usando variáveis coletivas que identificamos com variáveis marcadas como importantes pela análise de aprendizagem da máquina. (C) Distribuições reativas (rλc,λr(ξ)) e não reativas (uλc,λr(ξ)) para ξ={λ2,d¯2} e λc=1,16 Å e λr=2,0 Å. Para fins de visualização, as distribuições representadas são normalizadas. Os Insets superior e direito mostram as projeções unidimensionais das distribuições.