Rezultate și discuții
Evenimentul de autoionizare a fost investigat folosind simulări ab initio RETIS, așa cum este descris în Materiale și metode. Pentru simulările RETIS, am folosit un parametru relativ simplu de ordine geometrică a distanțelor, λ, așa cum este ilustrat în Fig. 1: Atunci când sistemul este format doar din specii H2O, λ este cea mai mare distanță covalentă a legăturii O-H, iar atunci când sistemul conține specii OH- și H3O+, λ este considerat ca fiind cea mai scurtă distanță dintre oxigenul din OH- și atomii de hidrogen din H3O+. În cele ce urmează, ne vom referi la atomul de oxigen utilizat pentru parametrul de ordine ca fiind Oλ. Tipul de specie (OH-, H2O sau H3O+) a fost identificat prin alocarea pentru fiecare hidrogen a unei singure legături care îl leagă de cel mai apropiat oxigen. Rețineți că definiția parametrului de ordine nu necesită un prag pentru definirea unei legături chimice și nici nu constrânge parametrul de ordine la anumite molecule de apă pe durata simulării. Acest lucru înseamnă că noi calculăm rata de disociere a oricărei molecule de apă din sistem în loc de o singură legătură O-H sau moleculă de apă vizată.
Condiții de inițiere și variabile colective locale. (A) Distribuțiile reactive (rλc,λr(ξ)) și nereactive (uλc,λr(ξ)) pentru ξ={w4,na} și λc=1,16 Å și λr=2,0 Å. În scopul vizualizării, distribuțiile reprezentate sunt normalizate . Inserțiile de sus și din dreapta arată proiecțiile unidimensionale ale distribuțiilor. Se poate observa o separare clară a celor două distribuții de-a lungul coordonatei w4, ceea ce indică faptul că traiectoriile reactive sunt mai comprimate în comparație cu traiectoriile nereactive. În plus, atomul de oxigen utilizat în calculul parametrului de ordine (Oλ) acceptă în medie un număr mai mare de legături de hidrogen în traiectoriile reactive, în comparație cu traiectoriile nereactive. (B) Instantanee ilustrative dintr-o traiectorie reactivă în care Oλ este indicat în albastru. Cei patru atomi de oxigen din jur care sunt utilizați pentru calcularea parametrului de ordine tetraedrică q sunt reprezentați în portocaliu. Firul de apă este evidențiat cu o linie galbenă (și sfere transparente gri) și este indicat parametrul unghiular qcos. În acest instantaneu, firul de apă este comprimat, q prezintă o deviere de la o structură tetraedrică, qcos indică faptul că trei atomi de oxigen sunt aliniați în fir, iar Oλ acceptă trei legături de hidrogen și donează una (indicat cu linii verzi).
Dacă luăm în considerare coordonata q, observăm că rλc,λr este deplasată spre valori q mai mici în comparație cu uλc,λr, ceea ce indică faptul că o distorsiune de la un aranjament tetraedric în jurul speciei de apă care se disociază poate, de asemenea, să inițieze evenimentul. Această constatare este oarecum surprinzătoare, deoarece în unele alte reacții chimice în fază apoasă s-a constatat efectul opus (31). Concluzii similare pot fi trase pentru distribuția lui ξ=(w4,qcos). Aici, există un vârf de-a lungul coordonatei qcos pentru distribuția reactivă mai apropiată de un aranjament liniar al moleculelor de apă. În Fig. 4B prezentăm un instantaneu reprezentativ, obținut la începutul (după 3 fs) unei traiectorii reactive. În general, rezultatele prezentate în Fig. 3 raportează faptul că o compresie a firului de apă (măsurată prin w4) și o hipercoordonare (măsurată prin na) sau o distorsiune (măsurată prin q și qcos) sunt condiții de inițiere necesare pentru autoionizare. Cu toate acestea, acestea nu sunt condiții suficiente, după cum arată valorile TAλc,λr din Fig. 3B: Încă 60% dintre traiectoriile care pornesc în intervalul ideal al parametrilor ξ nu reușesc să stabilească un salt concertat de protoni.
Învățarea mecanică (ML) aplicată la datele de eșantionare a traiectoriei (33, 34) este o abordare promițătoare pentru a găsi variabile colective importante care pot fi ușor ratate de intuiția umană. Pentru a explora această posibilitate, am construit modele ML pentru a prezice rezultatul traiectoriilor având în vedere starea sistemului de apă la începutul traiectoriilor. Ne concentrăm asupra aceluiași interval ca în analiza puterii de predicție și folosim starea sistemului, atunci când λ>1,15 Å este atins pentru prima dată, pentru a prezice rezultatul. Am utilizat mai multe tehnici ML în care fiecare ansamblu de traiectorii impare a fost inclus în calibrare, iar ansamblurile de traiectorii pare au fost utilizate pentru setul de testare. O împărțire alternativă în care datele din cadrul fiecărui ansamblu de trasee au fost împărțite în mod egal în două a dat rezultate similare. În plus, deoarece distribuțiile puternic înclinate sunt dificil de tratat cu ML, am omis în continuare reponderarea seturilor de date cu ponderile statistice ale ansamblurilor de căi corespunzătoare. Cu toate acestea, am aplicat tehnicile ML ca o abordare calitativă pentru a găsi noi parametri care ar putea fi testați cantitativ în cadrul metodei puterii de predicție (19).
În plus, pentru a evita un potențial risc de suprainterpretare, am optat pentru a restricționa complexitatea procesului de decizie ML și am impus un maxim de patru parametri de ordin la calcularea TAλc,λr. De exemplu, performanțe predictive excelente (>90%) au fost obținute cu ajutorul mașinilor de amplificare a gradientului bazate pe ansamblu (35, 36). Cu toate acestea, interpretarea modelului este problematică, deoarece se utilizează un ansamblu de 100-150 de arbori de decizie profunzi (adăugați într-o secvență). Deși performanța este îmbunătățită, crește șansa de supraadaptare cu corelații accidentale. Prin urmare, ne-am limitat la modelele de decizie bazate pe un singur arbore, bazate pe arbori de decizie de clasificare și regresie (CART) (20). Restricția la patru parametri de ordine pentru funcția TAλc,λr se bazează pe motive similare. Adăugând mai mulți parametri se obțin matrici mai rarefiate care reprezintă distribuțiile reactive/nereactive și, ca urmare, integrarea numerică pentru calcularea suprapunerii dintre aceste distribuții devine foarte sensibilă la dimensiunea binurilor și ar putea subestima suprapunerea din cauza unor bini goi prin statistici insuficiente.
Am luat în considerare 138 de variabile colective care constau în distanțele oxigen-oxigen; distanțele oxigen-hidrogen pentru moleculele de apă legate inițial; toate unghiurile formate de Oλ și cei patru vecini de oxigen cei mai apropiați; și parametrii de ordine Steinhardt de ordinele 3, 4 și 6 (32) (a se vedea Materiale și metode pentru mai multe detalii). În plus, au fost adăugați parametrii de ordine deja luați în considerare. Fig. 5A prezintă arborele de decizie rezultat. În mod remarcabil, dintre toți parametrii de intrare, parametrul w4 se află atât în vârful arborelui de decizie, cât și cea mai importantă variabilă, măsurată prin reducerea erorii de clasificare atribuită fiecărei variabile la fiecare divizare a arborelui de decizie (20) (Anexa SI, Fig. S9). De asemenea, ordinea tetraedrică și numărul de legături de hidrogen acceptate apar în arborele de decizie. Pentru a descrie primul efect, abordarea ML a prioritizat parametrul de ordonare Steinhardt q4 față de parametrul similar q utilizat anterior de noi. Unele distanțe care apar, de asemenea, în arborele de decizie, cum ar fi d25, distanța dintre Oλ și al 25-lea oxigen cel mai apropiat, se datorează cel mai probabil unor corelații accidentale cauzate de dimensiunea limitată a setului de date. Acest lucru este verificat prin inspectarea importanței acestei variabile: d25 nu apare printre cele mai importante 20 de variabile (Anexa SI, Fig. S9) și, de fapt, alte variabile similare (de exemplu, d24) sunt clasate mai sus, deși cu o importanță scăzută. Un parametru mai important și mai intuitiv care este sugerat de abordarea ML este λ2, distanța OH dintre oxigenul cel mai apropiat de Oλ și hidrogenul acestuia cu cea mai mare legătură intramoleculară. Recalcularea capacității de predicție folosind parametrii din arborele ML (Fig. 5B) nu a dat performanțe mai mari decât combinația w4, q, na și qcos, dar ar trebui să fie concepută ca fiind la fel de bună, având în vedere incertitudinile statistice.
Rezultatele analizei de învățare automată. (A) Arbore de clasificare și regresie pentru prezicerea rezultatului traiectoriilor inițiate. Aici, am luat în considerare mai multe variabile colective suplimentare (descriere în Materiale și metode), dar doar un mic subset este în cele din urmă necesar pentru construirea arborelui: w4, q4 , λ2 (lungimea legăturii de hidrogen întinse în molecula de apă cea mai apropiată de specia Oλ), di (distanța de la Oλ la al -lea oxigen cel mai apropiat) și d¯i (distanța medie luând în considerare cei mai apropiați i oxigeni). Notația pentru noduri este explicată cu ajutorul nodului de sine stătător din colțul din stânga sus. Acest arbore prezice traiectoriile ca fiind reactive, adică atingând un λ≥2, sau nereactive pe baza variabilelor colective obținute la momentul din traiectorii când λ este pentru prima dată ≥1,15. Nodurile care prezic traiectorii reactive sunt colorate în albastru (clasa 1), în timp ce nodurile care prezic traiectorii nereactive sunt colorate în verde (clasa 0). Rețineți că procentele din partea de jos a pătratelor nu reflectă fracțiunile corecte din punct de vedere fizic, deoarece ansamblurile de traiectorii nu au fost reponderate folosind ponderile lor statistice. Regulile sunt reprezentări textuale ale parcurgerii arborelui; de exemplu, regula 5 (care prezice traiectorii reactive) poate fi exprimată ca w4≥7,6 și λ2≥1,1. Aceste reguli oferă diferite condiții de inițiere, iar acestea sunt enumerate în apendicele SI, tabelul S1, pentru rândul inferior de noduri. (B) Puterea de predicție și probabilitatea de trecere în funcție de λr pentru λc=1,16 Å și diferite combinații de variabile colective. Aici comparăm puterea de predicție folosind variabilele colective pe care le-am identificat cu variabilele marcate ca fiind importante de către analiza de învățare automată. (C) Distribuțiile reactive (rλc,λr(ξ)) și nereactive (uλc,λr(ξ)) pentru ξ={λ2,d¯2} și λc=1,16 Å și λr=2,0 Å. În scopul vizualizării, distribuțiile reprezentate sunt normalizate. Inserțiile de sus și din dreapta arată proiecțiile unidimensionale ale distribuțiilor.