Resultater og diskussion
Autoioniseringsbegivenheden blev undersøgt ved hjælp af ab initio RETIS-simuleringer som beskrevet i Materialer og metoder. Til RETIS-simuleringerne anvendte vi en relativt simpel geometrisk afstandsordensparameter, λ, som illustreret i fig. 1: Når systemet kun består af H2O-arter, er λ den største kovalente O-H-båndsafstand, og når systemet indeholder OH- og H3O+-arter, tages λ som den korteste afstand mellem oxygenet i OH- og hydrogenatomerne i H3O+. I det følgende betegner vi det oxygenatom, der anvendes til ordensparameteren, som Oλ. Arten af art (OH-, H2O eller H3O+) blev identificeret ved at tildele hvert hydrogen en enkelt binding, der forbinder det med det nærmeste oxygenatom. Bemærk, at definitionen af ordensparameteren ikke kræver en tærskel for at definere en kemisk binding og heller ikke begrænser ordensparameteren til specifikke vandmolekyler i hele simuleringens varighed. Det betyder, at vi beregner dissociationshastigheden for ethvert vandmolekyle i systemet i stedet for en enkelt målrettet O-H-binding eller et enkelt vandmolekyle.
Initieringsbetingelser og lokale kollektive variabler. (A) Reaktive (rλc,λr(ξ)) og ikke-reaktive (uλc,λr(ξ)) fordelinger for ξ={w4,na} og λc=1,16 Å og λr=2,0 Å. Til visualiseringsformål er de afbildede fordelinger normaliseret . Øverste og højre indstik viser de endimensionale projektioner af fordelingerne. Der kan ses en klar adskillelse af de to fordelinger langs w4-koordinaten, hvilket indikerer, at reaktive baner er mere komprimerede sammenlignet med ikke-reaktive baner. Desuden accepterer det iltatom, der anvendes i beregningen af ordensparameteren (Oλ), i gennemsnit et større antal hydrogenbindinger i reaktive baner sammenlignet med ikke-reaktive baner. (B) Illustration af et øjebliksbillede fra en reaktiv bane, hvor Oλ er vist med blå farve. De fire omgivende iltatomer, som anvendes til beregning af den tetraedriske ordensparameter q, er vist i orange. Vandtråden er fremhævet med en gul linje (og grå gennemsigtige kugler), og vinkelparameteren qcos er angivet. I dette øjebliksbillede er vandtråden komprimeret, q viser afvigelse fra en tetraedrisk struktur, qcos angiver, at tre oxygenatomer står på række i tråden, og Oλ accepterer tre hydrogenbindinger og afgiver en (vist med grønne linjer).
Hvis vi betragter q-koordinaten, observerer vi, at rλc,λr er forskudt mod lavere q-værdier sammenlignet med uλc,λr, hvilket indikerer, at en forvrængning fra et tetraedrisk arrangement omkring den dissocierende vandart også kan initiere hændelsen. Dette resultat er noget overraskende, da man i nogle andre kemiske reaktioner i vandig fase har fundet den modsatte effekt (31). Lignende konklusioner kan drages for fordelingen af ξ=(w4,qcos). Her er der en top langs qcos-koordinaten for den reaktive fordeling tættere på et lineært arrangement af vandmolekylerne. I fig. 4B viser vi et repræsentativt øjebliksbillede, der er opnået tidligt (efter 3 fs) i en reaktiv bane. Samlet set rapporterer de resultater, der er vist i Fig. 3, at en kompression af vandtråden (målt ved w4) og hyperkoordinering (målt ved na) eller forvrængning (målt ved q og qcos) er nødvendige initieringsbetingelser for autoionisering. Det er imidlertid ikke tilstrækkelige betingelser, som det fremgår af værdierne af TAλc,λr i Fig. 3B: Stadig 60 % af de baner, der starter inden for det ideelle ξ-parameterområde, undlader at etablere et samordnet protonhop.
Maskinlæring (ML) anvendt på sti-sampling-data (33, 34) er en lovende tilgang til at finde vigtige kollektive variabler, som let kan overses af menneskelig intuition. For at undersøge denne mulighed byggede vi ML-modeller til forudsigelse af resultatet af baner givet vandsystemets tilstand tidligt i banerne. Vi fokuserer på det samme område som i analysen af forudsigelseskraft, og vi bruger systemets tilstand, når λ>1,15 Å først nås, til at forudsige resultatet. Vi anvendte flere ML-teknikker, hvor alle ensembler med ulige baner blev inkluderet i kalibreringen, og ensemblerne med lige baner blev anvendt til testsættet. En alternativ opdeling, hvor dataene inden for hvert stiensemble blev jævnt fordelt i to, gav lignende resultater. Da stærkt skæve fordelinger desuden er vanskelige at behandle med ML, undlod vi yderligere at omvægte datasættene med de statistiske vægte for de tilsvarende stiensembler. Vi anvendte imidlertid ML-teknikkerne som en kvalitativ tilgang til at finde nye parametre, der kunne testes kvantitativt inden for metoden til beregning af forudsigelseskraft (19).
For at undgå en potentiel risiko for overfortolkning valgte vi desuden at begrænse kompleksiteten af ML-beslutningsprocessen og pålagde et maksimum på fire ordensparametre ved beregning af TAλc,λr. Der blev f.eks. opnået fremragende prædiktive præstationer (>90%) ved hjælp af ensemblebaserede gradient-boosting-maskiner (35, 36). Fortolkningen af modellen er imidlertid problematisk, da der anvendes et ensemble af 100-150 dybe beslutningstræer (tilføjet i en sekvens). Selv om ydeevnen forbedres, øges risikoen for overpasning med tilfældige korrelationer. Vi har derfor begrænset os til de enkelttræbaserede beslutningsmodeller baseret på klassificerings- og regressionsbeslutningstræer (CART) (20). Begrænsningen til fire ordensparametre for TAλc,λr-funktionen er baseret på lignende årsager. Tilføjelse af flere parametre giver mere sparsomme matricer, der repræsenterer de reaktive/ikke-reaktive fordelinger, og som følge heraf bliver den numeriske integration til beregning af overlapningen mellem disse fordelinger meget følsom over for bin-størrelsen og kan undervurdere overlapningen på grund af bins, der er tomme på grund af utilstrækkelig statistik.
Vi overvejede 138 kollektive variabler bestående af oxygen-oxygenafstande; oxygen-hydrogenafstande for oprindeligt bundne vandmolekyler; alle vinkler dannet af Oλ og dets fire nærmeste oxygennaboer; og Steinhardt-ordensparametrene af orden 3, 4 og 6 (32) (se Materialer og metoder for flere detaljer). Desuden blev de allerede betragtede ordensparametre tilføjet. Fig. 5A viser det resulterende beslutningstræ. Det er bemærkelsesværdigt, at af alle inputparametre er w4-parameteren både øverst i beslutningstræet og den vigtigste variabel, målt ved reduktionen af den klassifikationsfejl, der tilskrives hver variabel ved hver opdeling i beslutningstræet (20) (SI Appendix, Fig. S9). Også den tetraedriske ordening og antallet af accepterede hydrogenbindinger optræder i beslutningstræet. For at beskrive den første effekt prioriterede ML-tilgangen Steinhardt q4-ordensparameteren højere end den tilsvarende q-parameter, som vi tidligere har anvendt. Nogle af de afstande, der også optræder i beslutningstræet, som f.eks. d25, afstanden mellem Oλ og dets 25. nærmeste ilt, skyldes højst sandsynligt tilfældige korrelationer, der skyldes datasættets begrænsede størrelse. Dette bekræftes ved at inspicere vigtigheden af denne variabel: d25 optræder ikke blandt de 20 vigtigste variabler (SI Appendix, Fig. S9), og faktisk er andre lignende variabler (f.eks. d24) rangeret højere, om end med lav vigtighed. En vigtigere og intuitivt sund parameter, der foreslås af ML-tilgangen, er λ2, OH-afstanden mellem den ilt, der er tættest på Oλ, og dens hydrogen med den største intramolekylære binding. Genberegning af den prædiktive evne ved hjælp af parametre fra ML-træet (fig. 5B) gav ikke højere præstationer end kombinationen w4, q, na og qcos, men bør opfattes som lige så god, når man tager statistiske usikkerheder i betragtning.
Resultater fra maskinlæringsanalysen. (A) Klassifikations- og regressionstræ til forudsigelse af resultatet af igangsatte baner. Her overvejede vi flere yderligere kollektive variabler (beskrivelse i Materialer og metoder), men kun en lille delmængde er i sidste ende nødvendig for at konstruere træet: w4, q4 , λ2 (længden af den strakte hydrogenbinding i vandmolekylet tættest på Oλ-arten), di (afstanden fra Oλ til den i nærmeste oxygen) og d¯i (den gennemsnitlige afstand under hensyntagen til de i nærmeste oxygener). Notationen for knuderne er forklaret med den selvstændige knude i øverste venstre hjørne. Dette træ forudsiger, at banerne er reaktive, dvs. at de når en λ≥2, eller ikke-reaktive på grundlag af de kollektive variabler, der opnås ved den ramme i banerne, hvor λ først er ≥1,15. De knuder, der forudsiger reaktive baner, er farvet med blå farve (klasse 1), mens de knuder, der forudsiger ikke-reaktive baner, er farvet med grøn farve (klasse 0). Bemærk, at procenterne nederst i firkanterne ikke afspejler de fysisk korrekte fraktioner, da baneensemblerne ikke blev omvægtet ved hjælp af deres statistiske vægte. Reglerne er tekstlige repræsentationer af træets gennemløb; f.eks. kan regel 5 (som forudsiger reaktive baner) udtrykkes som w4≥7,6 og λ2≥1,1. Disse regler giver forskellige igangsættelsesbetingelser, og de er anført i SI-tillægget, tabel S1, for den nederste række af knuder. (B) Den forudsigende kraft og krydsningssandsynligheden som en funktion af λr for λc=1,16 Å og forskellige kombinationer af kollektive variabler. Her sammenligner vi den prædiktive kraft ved hjælp af kollektive variabler, som vi identificerede, med variabler, der er markeret som vigtige af maskinlæringsanalysen. (C) Reaktive (rλc,λr(ξ)) og ikke-reaktive (uλc,λr(ξ)) fordelinger for ξ={λ2,d¯2} og λc=1,16 Å og λr=2,0 Å. Til visualiseringsformål er de afbildede fordelinger normaliseret. Øverste og højre indstik viser de endimensionale projektioner af fordelingerne.