Resultaten en Discussie
De autoionisatie gebeurtenis werd onderzocht met behulp van ab initio RETIS simulaties zoals beschreven in Materialen en Methoden. Voor de RETIS simulaties, gebruikten we een relatief eenvoudige geometrische afstand orde parameter, λ, zoals geïllustreerd in Fig. 1: Wanneer het systeem bestaat uit alleen H2O soorten, λ is de grootste covalente O-H binding afstand, en wanneer het systeem OH- en H3O + soorten bevat, λ wordt genomen als de kortste afstand tussen de zuurstof in OH- en de waterstofatomen in H3O +. In het hiernavolgende wordt het zuurstofatoom dat voor de ordeparameter wordt gebruikt, aangeduid met Oλ. Het soort species (OH-, H2O, of H3O+) werd geïdentificeerd door aan elk waterstofatoom een enkele binding toe te kennen die het met de dichtstbijzijnde zuurstof verbindt. Merk op dat de definitie van de volgordeparameter geen drempelwaarde vereist voor het definiëren van een chemische binding en de volgordeparameter evenmin beperkt tot specifieke watermoleculen voor de duur van de simulatie. Dit betekent dat we de dissociatiesnelheid van elk watermolecuul in het systeem berekenen in plaats van een enkele gerichte O-H binding of watermolecuul.
Ontstekingsvoorwaarden en lokale collectieve variabelen. (A) Reactieve (rλc,λr(ξ)) en niet-reactieve (uλc,λr(ξ)) verdelingen voor ξ={w4,na} en λc=1,16 Å en λr=2,0 Å. Voor visualisatiedoeleinden zijn de afgebeelde verdelingen genormaliseerd. De insets boven en rechts tonen de eendimensionale projecties van de verdelingen. Een duidelijke scheiding van de twee distributies kan worden gezien langs de w4 coördinaat, wat aangeeft dat reactieve trajecten zijn meer samengeperst in vergelijking met niet-reactieve trajecten. Bovendien accepteert het zuurstofatoom dat in de orderparameterberekening (Oλ) wordt gebruikt, gemiddeld een groter aantal waterstofbruggen in reactieve trajecten, vergeleken met niet-reactieve trajecten. (B) Illustratieve momentopname van een reactieve baan waarbij Oλ in blauw is weergegeven. De vier omringende zuurstofatomen die gebruikt worden voor de berekening van de tetrahedrale ordeparameter q zijn in oranje weergegeven. De waterdraad is gemarkeerd met een gele lijn (en grijze transparante bolletjes) en de hoekparameter qcos is aangegeven. In deze momentopname is de waterdraad samengedrukt, q vertoont afwijking van een tetrahedrale structuur, qcos geeft aan dat drie zuurstofatomen op een rij staan in de draad, en Oλ accepteert drie waterstofbruggen en doneert er één (weergegeven met groene lijnen).
Als we de q-coördinaat beschouwen, zien we dat rλc,λr is verschoven naar lagere q-waarden in vergelijking met uλc,λr, wat aangeeft dat een vervorming van een tetrahedral regeling rond de dissociërende water species ook de gebeurtenis kan initiëren. Deze bevinding is enigszins verrassend aangezien in sommige andere chemische reacties in de waterfase het tegenovergestelde effect werd gevonden (31). Soortgelijke conclusies kunnen worden getrokken voor de verdeling van ξ=(w4,qcos). Hier is er een piek langs de qcos-coördinaat voor de reactieve verdeling die dichter bij een lineaire rangschikking van de watermoleculen ligt. In Fig. 4B tonen we een representatieve momentopname, verkregen vroeg (na 3 fs) in een reactief traject. Over het algemeen melden de resultaten in Fig. 3 dat een compressie van de waterdraad (gemeten door w4) en hypercoördinatie (gemeten door na) of vervorming (gemeten door q en qcos) noodzakelijke initiëringsvoorwaarden zijn voor autoionisatie. Dit zijn echter niet voldoende voorwaarden, zoals blijkt uit de waarden van TAλc,λr in Fig. 3B: Nog 60% van de trajecten die beginnen binnen het ideale ξ parameterbereik falen om een gecoördineerde proton sprong vast te stellen.
Machine learning (ML) toegepast op pad-bemonstering gegevens (33, 34) is een veelbelovende aanpak om belangrijke collectieve variabelen die gemakkelijk kunnen worden gemist door de menselijke intuïtie te vinden. Om deze mogelijkheid te onderzoeken, bouwden we ML-modellen voor het voorspellen van de uitkomst van trajecten gegeven de toestand van het watersysteem vroeg in de trajecten. We richten ons op hetzelfde bereik als in de analyse van het voorspellend vermogen en we gebruiken de toestand van het systeem, wanneer λ>1,15 Å voor het eerst wordt bereikt, om de uitkomst te voorspellen. We hebben verschillende ML-technieken gebruikt waarbij elk oneven pad ensemble in de kalibratie werd opgenomen en de even pad ensembles werden gebruikt voor de testset. Een alternatieve verdeling waarbij de gegevens binnen elk pad-ensemble gelijkmatig in tweeën werden gedeeld gaf vergelijkbare resultaten. Aangezien sterk scheve verdelingen moeilijk met ML te behandelen zijn, hebben wij bovendien de herweging van de datasets met de statistische gewichten van de overeenkomstige padenensembles achterwege gelaten. Wij pasten de ML-technieken echter toe als een kwalitatieve benadering om nieuwe parameters te vinden die kwantitatief konden worden getest binnen de voorspellend-vermogensmethode (19).
Om een potentieel risico van overinterpretatie te vermijden, kozen wij er bovendien voor de complexiteit van het ML-besluitvormingsproces te beperken en legden wij een maximum van vier ordeparameters op bij het berekenen van TAλc,λr. Zo werden uitstekende voorspellende prestaties (>90%) verkregen met de op een ensemble gebaseerde gradiënt-boosting machines (35, 36). De interpretatie van het model is echter problematisch omdat een ensemble van 100-150 diepe beslisbomen (in een opeenvolging toegevoegd) wordt gebruikt. Hoewel de prestaties verbeteren, neemt de kans op overfitting met toevallige correlaties toe. Wij hebben ons daarom beperkt tot de beslissingsmodellen op basis van één boom, gebaseerd op classificatie- en regressiebeslissingsbomen (CART) (20). De beperking tot vier ordeparameters voor de TAλc,λr-functie is op soortgelijke redenen gebaseerd. Toevoeging van meer parameters leidt tot schaarsere matrices die de reactieve/niet-reactieve verdelingen weergeven, en als gevolg daarvan wordt de numerieke integratie voor de berekening van de overlapping tussen deze verdelingen zeer gevoelig voor de bin-grootte en kan de overlapping worden onderschat doordat de bins leeg zijn door onvoldoende statistische gegevens.
We beschouwden 138 collectieve variabelen bestaande uit zuurstof-zuurstof afstanden; zuurstof-waterstof afstanden voor initieel gebonden watermoleculen; alle hoeken gevormd door Oλ en zijn vier dichtstbijzijnde zuurstof buren; en de Steinhardt orde parameters van de orden 3, 4, en 6 (32) (zie Materialen en Methoden voor meer details). Bovendien werden de reeds in aanmerking genomen ordeparameters toegevoegd. Fig. 5A toont de resulterende beslissingsboom. Opmerkelijk is dat van alle invoerparameters de parameter w4 zowel bovenaan de beslissingsboom staat als de belangrijkste variabele is, gemeten aan de hand van de vermindering van de classificatiefout die aan elke variabele bij elke splitsing in de beslissingsboom wordt toegekend (20) (SI Appendix, Fig. S9). Ook de tetrahedrale ordening en het aantal geaccepteerde waterstofbruggen komen in de beslissingsboom voor. Om het eerste effect te beschrijven, gaf de ML benadering prioriteit aan de Steinhardt q4 volgorde parameter boven de vergelijkbare q parameter die eerder door ons werd gebruikt. Sommige afstanden die ook in de beslissingsboom voorkomen, zoals d25, de afstand tussen Oλ en de 25e dichtstbijzijnde zuurstof, zijn hoogstwaarschijnlijk het gevolg van toevallige correlaties die veroorzaakt worden door de beperkte omvang van de dataset. Dit wordt geverifieerd door het belang van deze variabele te onderzoeken: d25 komt niet voor bij de 20 belangrijkste variabelen (SI Appendix, Fig. S9), en in feite staan andere soortgelijke variabelen (bv. d24) hoger gerangschikt, zij het met gering belang. Een belangrijkere en intuïtief gezonde parameter die door de ML-benadering wordt gesuggereerd is λ2, de OH-afstand tussen de zuurstof die zich het dichtst bij Oλ bevindt en de waterstof met de grootste intramoleculaire binding. Herberekening van het voorspellend vermogen met behulp van parameters uit de ML-boom (Fig. 5B) leverde geen hogere prestaties op dan de combinatie w4, q, na, en qcos, maar moet gezien de statistische onzekerheden als even goed worden beschouwd.
Resultaten van de machine-learning analyse. (A) Classificatie- en regressieboom voor het voorspellen van de uitkomst van geïnitieerde trajecten. Hier hebben we verschillende extra collectieve variabelen overwogen (beschrijving in Materialen en methoden), maar slechts een kleine subset is uiteindelijk nodig voor het construeren van de boom: w4, q4 , λ2 (de lengte van de uitgerekte waterstofbrug in het watermolecuul dat het dichtst bij de Oλ-soort ligt), di (de afstand van Oλ tot de i-de dichtstbijzijnde zuurstof), en d¯i (de gemiddelde afstand met inachtneming van de i dichtstbijzijnde oxygenen). De notatie van de knooppunten wordt toegelicht met het op zichzelf staande knooppunt in de linkerbovenhoek. Deze boom voorspelt dat de trajecten reactief zijn, d.w.z. een λ≥2 bereiken, of niet-reactief op basis van de collectieve variabelen die worden verkregen op het frame in de trajecten wanneer λ eerst ≥1,15 is. De knooppunten die reactieve trajecten voorspellen zijn blauw gekleurd (klasse 1), terwijl de knooppunten die niet-reactieve trajecten voorspellen groen gekleurd zijn (klasse 0). Merk op dat de percentages onderaan de vierkanten niet de fysisch correcte fracties weergeven, aangezien pad ensembles niet werden herwogen met behulp van hun statistische gewichten. De regels zijn tekstuele voorstellingen van het doorkruisen van de boom; bijvoorbeeld, regel 5 (die reactieve trajecten voorspelt) kan worden uitgedrukt als w4≥7.6 en λ2≥1.1. Deze regels geven verschillende initiatievoorwaarden, en zij zijn opgenomen in SI Appendix, Tabel S1, voor de onderste rij knooppunten. (B) De voorspellende kracht en de kruisingskans als functie van λr voor λc=1,16 Å en verschillende combinaties van collectieve variabelen. Hier vergelijken we de voorspellende kracht met behulp van collectieve variabelen die we hebben geïdentificeerd met variabelen die door de machinaal-lerende analyse als belangrijk zijn aangemerkt. (C) Reactieve (rλc,λr(ξ)) en niet-reactieve (uλc,λr(ξ)) verdelingen voor ξ={λ2,d¯2} en λc=1,16 Å en λr=2,0 Å. Voor visualisatiedoeleinden zijn de afgebeelde verdelingen genormaliseerd. Top en rechts Insets tonen de een-dimensionale projecties van de distributies.