Resultat och diskussion
Autojoniseringshändelsen undersöktes med hjälp av ab initio RETIS-simuleringar enligt beskrivningen i Material och metoder. För RETIS-simuleringarna använde vi en relativt enkel geometrisk avståndsordningsparameter, λ, som illustreras i figur 1: När systemet består av endast H2O-arter är λ det största kovalenta O-H-bindningsavståndet, och när systemet innehåller OH- och H3O+-arter tas λ som det kortaste avståndet mellan syret i OH- och väteatomerna i H3O+. I det följande hänvisar vi till den syreatom som används för ordningsparametern som Oλ. Typ av art (OH-, H2O eller H3O+) identifierades genom att tilldela varje väte en enkelbindning som förbinder det med det närmaste syret. Observera att definitionen av ordningsparametern inte kräver något tröskelvärde för att definiera en kemisk bindning och inte heller begränsar ordningsparametern till specifika vattenmolekyler under simuleringens varaktighet. Detta innebär att vi beräknar dissocieringshastigheten för alla vattenmolekyler i systemet i stället för en enda riktad O-H-bindning eller vattenmolekyl.
Initieringsvillkor och lokala kollektiva variabler. (A) Reaktiva (rλc,λr(ξ)) och icke-reaktiva (uλc,λr(ξ)) fördelningar för ξ={w4,na} och λc=1,16 Å och λr=2,0 Å. För visualiseringens skull är de avbildade fördelningarna normaliserade . Övre och högra insatserna visar de endimensionella projektionerna av fördelningarna. En tydlig separation av de två fördelningarna kan ses längs w4-koordinaten, vilket indikerar att reaktiva banor är mer komprimerade jämfört med icke-reaktiva banor. Dessutom accepterar den syreatom som används vid beräkningen av ordningsparametern (Oλ) i genomsnitt ett större antal vätebindningar i reaktiva banor jämfört med icke-reaktiva banor. (B) Illustrativ ögonblicksbild från en reaktiv bana där Oλ visas i blått. De fyra omgivande syreatomerna som används för beräkning av den tetraedriska ordningsparametern q visas i orange. Vattentråden är markerad med en gul linje (och grå transparenta sfärer) och vinkelparametern qcos är angiven. I denna ögonblicksbild är vattentråden komprimerad, q uppvisar avvikelse från en tetraedrisk struktur, qcos indikerar att tre syreatomer står på rad i tråden, och Oλ accepterar tre vätebindningar och donerar en (visas med gröna linjer).
Om vi betraktar q-koordinaten observerar vi att rλc,λr är förskjuten mot lägre q-värden jämfört med uλc,λr, vilket tyder på att en förvrängning från ett tetraedriskt arrangemang runt den dissocierande vattenarten också kan initiera händelsen. Detta resultat är något överraskande eftersom man i vissa andra kemiska reaktioner i vattenfas har funnit den motsatta effekten (31). Liknande slutsatser kan dras för fördelningen av ξ=(w4,qcos). Här finns det en topp längs qcos-koordinaten för den reaktiva fördelningen som ligger närmare ett linjärt arrangemang av vattenmolekylerna. I figur 4B visar vi en representativ ögonblicksbild, som erhölls tidigt (efter 3 fs) i en reaktiv bana. Sammantaget rapporterar de resultat som visas i fig. 3 att en komprimering av vattentråden (mätt med w4) och hyperkoordination (mätt med na) eller distorsion (mätt med q och qcos) är nödvändiga initieringsvillkor för autojonisering. Dessa är dock inte tillräckliga villkor, vilket visas av värdena för TAλc,λr i fig. 3B: Fortfarande misslyckas 60 % av de banor som startar inom det ideala ξ-parameterintervallet med att etablera ett samordnat protonhopp.
Maskininlärning (ML) tillämpad på data från stigprovtagning (33, 34) är ett lovande tillvägagångssätt för att hitta viktiga kollektiva variabler som lätt kan missas av mänsklig intuition. För att utforska denna möjlighet byggde vi ML-modeller för att förutsäga utfallet av banor givet vattensystemets tillstånd tidigt i banorna. Vi fokuserar på samma område som i analysen av prediktionsförmågan och vi använder systemets tillstånd, när λ>1,15 Å först uppnås, för att förutsäga utfallet. Vi använde flera ML-tekniker där varje udda banans ensemble ingick i kalibreringen och de jämna banans ensemblerna användes för testuppsättningen. En alternativ uppdelning där data inom varje path ensemble delades jämnt i två gav liknande resultat. Eftersom kraftigt snedfördelade fördelningar är svåra att behandla med ML, utelämnade vi dessutom ytterligare en omviktning av datasetterna med de statistiska vikterna för motsvarande path ensembles. Vi tillämpade dock ML-teknikerna som ett kvalitativt tillvägagångssätt för att hitta nya parametrar som kunde testas kvantitativt inom ramen för metoden för prediktionsförmåga (19).
För att undvika en potentiell risk för övertolkning valde vi dessutom att begränsa komplexiteten i ML-beslutsprocessen och införde maximalt fyra ordningsparametrar vid beräkning av TAλc,λr. Utmärkta prediktiva prestanda (>90 %) har till exempel erhållits med hjälp av ensemblebaserade gradient-boosting-maskiner (35, 36). Tolkningen av modellen är dock problematisk eftersom en ensemble av 100-150 djupa beslutsträd (som läggs till i en sekvens) används. Även om prestandan förbättras ökar risken för överanpassning med oavsiktliga korrelationer. Vi har därför begränsat oss till beslutsmodeller baserade på ett enda träd som bygger på klassificerings- och regressionsbeslutsträd (CART) (20). Begränsningen till fyra ordningsparametrar för TAλc,λr-funktionen bygger på liknande skäl. Om man lägger till fler parametrar får man mer glesa matriser som representerar de reaktiva/icke-reaktiva fördelningarna, och som ett resultat av detta blir den numeriska integrationen för att beräkna överlappningen mellan dessa fördelningar mycket känslig för bin-storleken och kan underskatta överlappningen på grund av att bins är tomma på grund av otillräcklig statistik.
Vi tog hänsyn till 138 kollektiva variabler som består av syre-oxygenavstånd, syre-väteavstånd för initialt bundna vattenmolekyler, alla vinklar som bildas av Oλ och dess fyra närmaste syregrannar samt Steinhardt-ordningsparametrarna för ordning 3, 4 och 6 (32) (se Material och metoder för mer information). Dessutom lades de ordningsparametrar som redan beaktats till. Figur 5A visar det resulterande beslutsträdet. Det är anmärkningsvärt att av alla ingående parametrar är parametern w4 både högst upp i beslutsträdet och den viktigaste variabeln, mätt genom minskningen av det klassificeringsfel som tillskrivs varje variabel vid varje delning i beslutsträdet (20) (SI Appendix, Fig. S9). Även den tetraedriska ordningen och antalet accepterade vätebindningar förekommer i beslutsträdet. För att beskriva den första effekten prioriterade ML-metoden parametern Steinhardts q4-ordning framför den liknande q-parameter som vi tidigare använt. Vissa avstånd som också förekommer i beslutsträdet som d25, avståndet mellan Oλ och dess 25:e närmaste syre, beror sannolikt på oavsiktliga korrelationer som orsakas av datasetets begränsade storlek. Detta verifieras genom att inspektera betydelsen av denna variabel: d25 förekommer inte bland de 20 viktigaste variablerna (SI Appendix, Fig. S9), och i själva verket rankas andra liknande variabler (t.ex. d24) högre, om än med låg betydelse. En viktigare och intuitivt sund parameter som föreslås av ML-metoden är λ2, OH-avståndet mellan syret närmast Oλ och dess väte med den största intramolekylära bindningen. Omräkning av den prediktiva förmågan med hjälp av parametrar från ML-trädet (fig. 5B) gav inte högre prestanda än kombinationen w4, q, na och qcos, men bör uppfattas som lika bra, med tanke på de statistiska osäkerheterna.
Resultat från analysen av maskininlärning. (A) Klassificerings- och regressionsträd för att förutsäga resultatet av initierade banor. Här tog vi hänsyn till flera ytterligare kollektiva variabler (beskrivning i Material och metoder), men endast en liten delmängd behövs i slutändan för att konstruera trädet: w4, q4 , λ2 (längden på den utsträckta vätebindningen i den vattenmolekyl som är närmast Oλ-arten), di (avståndet från Oλ till det i:e närmsta syreet) och d¯i (det genomsnittliga avståndet med hänsyn till de i:e närmsta syreerna). Notationen för noderna förklaras med den fristående noden i det övre vänstra hörnet. Detta träd förutsäger att banorna är reaktiva, dvs. når en λ≥2, eller icke-reaktiva baserat på de kollektiva variabler som erhålls vid ramen i banorna när λ först är ≥1,15. De noder som förutsäger reaktiva banor är färgade i blått (klass 1) medan de noder som förutsäger icke-reaktiva banor är färgade i grönt (klass 0). Observera att procentsatserna längst ner i rutorna inte återspeglar de fysiskt korrekta fraktionerna eftersom banensemblerna inte viktades om med hjälp av sina statistiska vikter. Reglerna är textuella representationer av hur trädet genomkorsas; till exempel kan regel 5 (som förutsäger reaktiva banor) uttryckas som w4≥7,6 och λ2≥1,1. Dessa regler ger olika initieringsvillkor, och de förtecknas i SI Appendix, tabell S1, för den nedersta raden av noder. (B) Förutsägelseförmågan och korsningssannolikheten som funktion av λr för λc=1,16 Å och olika kombinationer av kollektiva variabler. Här jämför vi den prediktiva kraften med hjälp av kollektiva variabler som vi identifierat med variabler som markerats som viktiga av maskininlärningsanalysen. (C) Reaktiva (rλc,λr(ξ)) och icke-reaktiva (uλc,λr(ξ)) fördelningar för ξ={λ2,d¯2} och λc=1,16 Å och λr=2,0 Å. För visualiseringens skull är de avbildade fördelningarna normaliserade. Övre och högra insatserna visar de endimensionella projektionerna av fördelningarna.