Eredmények és vita
Az autoionizációs eseményt ab initio RETIS-szimulációkkal vizsgáltuk az Anyagok és módszerek című fejezetben leírtak szerint. A RETIS-szimulációkhoz egy viszonylag egyszerű geometriai távolságrendezési paramétert, λ-t használtunk, amint azt az 1. ábra szemlélteti: Ha a rendszer csak H2O fajokból áll, λ a legnagyobb kovalens O-H kötés távolsága, ha pedig a rendszer OH- és H3O+ fajokat tartalmaz, λ-t az OH- és a H3O+ oxigénatomok közötti legrövidebb távolságnak tekintjük. A továbbiakban a rendezési paraméterhez használt oxigénatomra Oλ-ként hivatkozunk. A faj típusát (OH-, H2O vagy H3O+) úgy azonosítottuk, hogy minden hidrogénhez hozzárendeltünk egy, a legközelebbi oxigénnel összekötő egyetlen kötést. Megjegyezzük, hogy a rendparaméter meghatározása nem igényel küszöbértéket a kémiai kötés meghatározásához, és a rendparamétert sem köti a szimuláció időtartamára meghatározott vízmolekulákhoz. Ez azt jelenti, hogy egyetlen célzott O-H kötés vagy vízmolekula helyett a rendszerben lévő bármely vízmolekula disszociációs sebességét számítjuk.
Iniciációs feltételek és lokális kollektív változók. (A) Reaktív (rλc,λr(ξ)) és nem reaktív (uλc,λr(ξ)) eloszlások ξ={w4,na} és λc=1,16 Å és λr=2,0 Å esetén. A szemléltetés érdekében az ábrázolt eloszlásokat normalizáltuk . A felső és jobb oldali betétek az eloszlások egydimenziós vetületeit mutatják. A két eloszlás egyértelmű szétválása látható a w4 koordináta mentén, ami azt jelzi, hogy a reaktív pályák tömörebbek a nem reaktív pályákhoz képest. Ezenkívül a rendezési paraméterek számításánál használt oxigénatom (Oλ) átlagosan több hidrogénkötést fogad el a reaktív pályákon, mint a nem reaktív pályákon. (B) Illusztratív pillanatkép egy reaktív pályáról, ahol az Oλ kékkel látható. A négy környező oxigénatom, amelyet a q tetraéderes rendezési paraméter kiszámításához használunk, narancssárga színnel látható. A vízszál sárga vonallal (és szürke átlátszó gömbökkel) van kiemelve, és a qcos szögparamétert jelöli. Ezen a pillanatképen a vízhuzal összenyomott, a q a tetraéderes szerkezettől való eltérést mutat, a qcos azt jelzi, hogy három oxigénatom sorakozik a huzalban, és az Oλ három hidrogénkötést fogad el és egyet adományoz (zöld vonalakkal ábrázolva).
Ha a q koordinátát tekintjük, megfigyelhetjük, hogy rλc,λr az uλc,λr-hez képest alacsonyabb q értékek felé tolódik el, ami arra utal, hogy a disszociáló vízfaj körüli tetraéderes elrendeződéstől való eltorzulása is elindíthatja az eseményt. Ez a megállapítás némileg meglepő, mivel néhány más vizes fázisú kémiai reakcióban az ellenkező hatást találták (31). Hasonló következtetések vonhatók le a ξ=(w4,qcos) eloszlására is. Itt a qcos koordináta mentén van egy csúcs a vízmolekulák lineáris elrendeződéséhez közelebb álló reaktív eloszlásra. A 4B. ábrán egy reaktív pálya korai (3 fs után) szakaszában kapott reprezentatív pillanatfelvételt mutatunk be. Összességében a 3. ábrán bemutatott eredmények arról számolnak be, hogy a vízszál tömörülése (w4 által mérve) és a hiperkoordináció (na által mérve) vagy torzulás (q és qcos által mérve) szükséges indítási feltételek az autoionizációhoz. Ezek azonban nem elégséges feltételek, amint azt a 3B. ábrán látható TAλc,λr értékek mutatják: az ideális ξ paramétertartományban induló trajektóriák 60%-a még mindig nem hoz létre összehangolt protonugrást.
A pályamintás adatokra alkalmazott gépi tanulás (ML) (33, 34) ígéretes megközelítés a fontos kollektív változók megtalálására, amelyeket az emberi intuíció könnyen kihagyhat. Ennek a lehetőségnek a feltárására ML modelleket építettünk a pályamérések kimenetelének előrejelzésére a vízrendszer állapota alapján a pályamérések korai szakaszában. Ugyanarra a tartományra összpontosítunk, mint a prediktív teljesítményelemzésben, és a rendszer állapotát, amikor λ>1,15 Å-t először érjük el, használjuk a kimenetel előrejelzésére. Több ML-technikát használtunk, amelyekben minden páratlan pályaegyüttest bevontunk a kalibrálásba, a páros pályaegyütteseket pedig a tesztkészlethez használtuk. Hasonló eredményt adott egy alternatív felosztás is, amelyben az egyes útegyütteseken belüli adatokat egyenletesen osztottuk ketté. Továbbá, mivel az erősen ferde eloszlásokat nehéz kezelni ML segítségével, a továbbiakban kihagytuk az adathalmazok újrasúlyozását a megfelelő ösvényegyüttesek statisztikai súlyaival. Az ML-technikákat azonban kvalitatív megközelítésként alkalmaztuk, hogy új paramétereket találjunk, amelyeket kvantitatív módon tesztelhettünk az előrejelző képesség módszerén belül (19).
Az esetleges túlértelmezés kockázatának elkerülése érdekében úgy döntöttünk, hogy korlátozzuk az ML-döntési folyamat komplexitását, és a TAλc,λr kiszámításakor legfeljebb négy rendezési paramétert írtunk elő. Kiváló prediktív teljesítményt (>90%) értek el például az ensemble-alapú gradiens-boosting gépekkel (35, 36). A modell értelmezése azonban problémás, mivel 100-150 mély döntési fából álló (egymás után hozzáadott) ensemble-t használnak. Bár a teljesítmény javul, megnő a véletlen korrelációkkal való túlillesztés esélye. Ezért mi az osztályozási és regressziós döntési fákon (CART) alapuló, egyetlen fán alapuló döntési modellekre szorítkoztunk (20). A TAλc,λr függvény négy rendezési paraméterre való korlátozása hasonló okokon alapul. Több paraméter hozzáadása ritkább mátrixokat eredményez, amelyek a reaktív/nem reaktív eloszlásokat reprezentálják, és ennek következtében az ezen eloszlások közötti átfedés kiszámítására szolgáló numerikus integráció nagyon érzékennyé válik a tárolók méretére, és alulbecsülheti az átfedést a nem megfelelő statisztikák miatt üres tárolók miatt.
138 kollektív változót vettünk figyelembe, amelyek az oxigén-oxigén távolságokból; a kezdetben kötött vízmolekulák oxigén-hidrogén távolságaiból; az Oλ és a négy legközelebbi oxigénszomszédja által képzett összes szögből; valamint a 3., 4. és 6. rendű Steinhardt-rend paramétereiből álltak (32) (további részletekért lásd: Anyagok és módszerek). Ezen kívül a már figyelembe vett rendparamétereket is hozzáadtuk. Az 5A. ábra az így kapott döntési fát mutatja. Figyelemre méltó, hogy az összes bemeneti paraméter közül a w4 paraméter egyszerre áll a döntési fa tetején és a legfontosabb változó, a döntési fa minden egyes osztásánál az egyes változóknak tulajdonított osztályozási hiba csökkenésével mérve (20) (SI Függelék, S9. ábra). A tetraéderes rendezés és az elfogadott hidrogénkötések száma is megjelenik a döntési fában. Az első hatás leírásához az ML-megközelítés a Steinhardt-féle q4 rendezési paramétert a korábban általunk használt hasonló q paraméter fölé helyezte. Néhány távolság, amely szintén megjelenik a döntési fában, mint például a d25, az Oλ és a 25. legközelebbi oxigén közötti távolság, valószínűleg az adathalmaz korlátozott mérete okozta véletlen korrelációknak köszönhető. Ez ellenőrizhető, ha megvizsgáljuk e változó fontosságát: a d25 nem szerepel a 20 legfontosabb változó között (SI Függelék, S9. ábra), sőt, más hasonló változók (pl. d24) magasabb rangsorban szerepelnek, bár alacsony fontossággal. Az ML-megközelítés által javasolt fontosabb és intuitívan megalapozott paraméter a λ2, az Oλ-hez legközelebbi oxigén és a legnagyobb intramolekuláris kötéssel rendelkező hidrogénje közötti OH-távolság. A prediktív képesség újraszámítása az ML-fa paramétereinek felhasználásával (5B. ábra) nem hozott jobb teljesítményt, mint a w4, q, na és qcos kombináció, de a statisztikai bizonytalanságokat figyelembe véve ugyanolyan jónak kell elképzelni.
A gépi tanulásos elemzés eredményei. (A) Osztályozási és regressziós fa a megkezdett pályák kimenetelének előrejelzésére. Itt több további kollektív változót is figyelembe vettünk (leírás az Anyagok és módszerek fejezetben), de a fa felépítéséhez végül csak egy kis részhalmazra van szükség: w4, q4 , λ2 (az Oλ fajhoz legközelebbi vízmolekulában a megnyújtott hidrogénkötés hossza), di (az Oλ és az i-edik legközelebbi oxigén távolsága) és d¯i (az átlagos távolság az i legközelebbi oxigéneket figyelembe véve). A csomópontok jelölését a bal felső sarokban lévő önálló csomóponttal magyarázzuk. Ez a fa a pályák azon kereteinél kapott kollektív változók alapján, amikor λ először ≥1,15, előre jelzi, hogy a pályák reaktívak, azaz elérik a λ≥2 értéket, vagy nem reaktívak. A reaktív pályákat előrejelző csomópontok kék színűek (1. osztály), míg a nem reaktív pályákat előrejelző csomópontok zöld színűek (0. osztály). Megjegyezzük, hogy a négyzetek alján lévő százalékos arányok nem a fizikailag helyes arányokat tükrözik, mivel a pályaegyütteseket nem súlyoztuk át a statisztikai súlyok alapján. A szabályok a fa végigjárásának szöveges reprezentációi; például az 5. szabály (amely reaktív pályákat jósol) úgy fejezhető ki, hogy w4≥7,6 és λ2≥1,1. Ezek a szabályok különböző indítási feltételeket adnak, és az SI Függelék S1. táblázatában vannak felsorolva a csomópontok alsó sorára vonatkozóan. (B) A prediktív teljesítmény és a keresztezési valószínűség λr függvényében λc=1,16 Å és a kollektív változók különböző kombinációi esetén. Itt összehasonlítjuk a prediktív erőt az általunk azonosított kollektív változók használatával és a gépi tanulásos elemzés által fontosnak jelölt változókkal. (C) Reaktív (rλc,λr(ξ)) és nem reaktív (uλc,λr(ξ)) eloszlások ξ={λ2,d¯2} és λc=1,16 Å és λr=2,0 Å esetén. A szemléltetés érdekében az ábrázolt eloszlásokat normalizáltuk. A felső és jobb oldali betétek az eloszlások egydimenziós vetületeit mutatják.