Ergebnisse und Diskussion
Das Autoionisationsereignis wurde mit Hilfe von ab initio RETIS-Simulationen untersucht, wie in Material und Methoden beschrieben. Für die RETIS-Simulationen wurde ein relativ einfacher geometrischer Abstandsordnungsparameter, λ, verwendet, wie in Abb. 1 dargestellt: Wenn das System nur aus H2O-Spezies besteht, ist λ der größte kovalente O-H-Bindungsabstand, und wenn das System OH- und H3O+-Spezies enthält, wird λ als der kürzeste Abstand zwischen dem Sauerstoff in OH- und den Wasserstoffatomen in H3O+ angenommen. Im Folgenden bezeichnen wir das für den Ordnungsparameter verwendete Sauerstoffatom als Oλ. Die Art der Spezies (OH-, H2O oder H3O+) wurde ermittelt, indem jedem Wasserstoff eine Einfachbindung zugeordnet wurde, die ihn mit dem nächstgelegenen Sauerstoff verbindet. Es ist zu beachten, dass die Definition des Ordnungsparameters weder einen Schwellenwert für die Definition einer chemischen Bindung erfordert noch den Ordnungsparameter für die Dauer der Simulation auf bestimmte Wassermoleküle einschränkt. Das bedeutet, dass wir die Dissoziationsrate eines beliebigen Wassermoleküls im System berechnen und nicht eine einzelne gezielte O-H-Bindung oder ein Wassermolekül.
Initiationsbedingungen und lokale kollektive Variablen. (A) Reaktive (rλc,λr(ξ)) und nicht-reaktive (uλc,λr(ξ)) Verteilungen für ξ={w4,na} und λc=1.16 Å und λr=2.0 Å. Zur Visualisierung sind die dargestellten Verteilungen normiert . Die Einsätze oben und rechts zeigen die eindimensionalen Projektionen der Verteilungen. Entlang der w4-Koordinate ist eine klare Trennung der beiden Verteilungen zu erkennen, was darauf hindeutet, dass reaktive Trajektorien im Vergleich zu nicht reaktiven Trajektorien stärker komprimiert sind. Außerdem nimmt das in der Berechnung der Ordnungsparameter verwendete Sauerstoffatom (Oλ) in reaktiven Trajektorien im Durchschnitt eine größere Anzahl von Wasserstoffbrückenbindungen auf als in nicht reaktiven Trajektorien. (B) Illustrativer Schnappschuss aus einer reaktiven Trajektorie, bei der Oλ blau dargestellt ist. Die vier umgebenden Sauerstoffatome, die für die Berechnung des tetraedrischen Ordnungsparameters q verwendet werden, sind in orange dargestellt. Der Wasserdraht ist durch eine gelbe Linie (und graue, transparente Kugeln) hervorgehoben, und der Winkelparameter qcos ist angegeben. In dieser Momentaufnahme ist der Wasserdraht komprimiert, q zeigt eine Abweichung von einer tetraedrischen Struktur, qcos zeigt an, dass drei Sauerstoffatome im Draht aneinandergereiht sind und Oλ drei Wasserstoffbrückenbindungen annimmt und eine spendet (dargestellt mit grünen Linien).
Betrachten wir die q-Koordinate, so stellen wir fest, dass rλc,λr im Vergleich zu uλc,λr zu niedrigeren q-Werten verschoben ist, was darauf hindeutet, dass auch eine Verzerrung von einer tetraedrischen Anordnung um die dissoziierende Wasserspezies das Ereignis auslösen kann. Dieses Ergebnis ist etwas überraschend, da bei einigen anderen chemischen Reaktionen in wässriger Phase der gegenteilige Effekt festgestellt wurde (31). Ähnliche Schlussfolgerungen lassen sich für die Verteilung von ξ=(w4,qcos) ziehen. Hier gibt es eine Spitze entlang der qcos-Koordinate für die reaktive Verteilung, die einer linearen Anordnung der Wassermoleküle näher kommt. In Abb. 4B ist ein repräsentativer Schnappschuss zu sehen, der zu einem frühen Zeitpunkt (nach 3 fs) in einer reaktiven Trajektorie aufgenommen wurde. Insgesamt zeigen die in Abb. 3 gezeigten Ergebnisse, dass eine Kompression des Wasserdrahtes (gemessen durch w4) und eine Hyperkoordination (gemessen durch na) oder eine Verzerrung (gemessen durch q und qcos) notwendige Initiierungsbedingungen für die Autoionisation sind. Dies sind jedoch keine hinreichenden Bedingungen, wie die Werte von TAλc,λr in Abb. 3B zeigen: Immer noch 60 % der Trajektorien, die innerhalb des idealen ξ-Parameterbereichs beginnen, schaffen es nicht, einen konzertierten Protonensprung auszulösen.
Maschinelles Lernen (ML), angewandt auf Pfadabtastdaten (33, 34), ist ein vielversprechender Ansatz, um wichtige kollektive Variablen zu finden, die von der menschlichen Intuition leicht übersehen werden können. Um diese Möglichkeit zu erforschen, haben wir ML-Modelle zur Vorhersage des Ergebnisses von Trajektorien anhand des Zustands des Wassersystems zu Beginn der Trajektorien entwickelt. Wir konzentrieren uns auf denselben Bereich wie bei der Analyse der Vorhersagekraft und verwenden den Zustand des Systems, wenn λ>1,15 Å zum ersten Mal erreicht wird, um das Ergebnis vorherzusagen. Wir haben mehrere ML-Verfahren verwendet, bei denen jedes Ensemble mit ungeraden Pfaden in die Kalibrierung einbezogen wurde und die Ensembles mit geraden Pfaden für die Testmenge verwendet wurden. Eine alternative Aufteilung, bei der die Daten innerhalb jedes Pfadensembles gleichmäßig in zwei geteilt wurden, führte zu ähnlichen Ergebnissen. Da stark schiefe Verteilungen mit ML schwer zu behandeln sind, haben wir außerdem auf die Neugewichtung der Datensätze mit den statistischen Gewichten der entsprechenden Pfad-Ensembles verzichtet. Wir haben jedoch die ML-Techniken als qualitativen Ansatz angewandt, um neue Parameter zu finden, die im Rahmen der Vorhersagekraft-Methode (19) quantitativ getestet werden können.
Um ein potenzielles Risiko der Überinterpretation zu vermeiden, haben wir uns außerdem dafür entschieden, die Komplexität des ML-Entscheidungsprozesses zu begrenzen, und bei der Berechnung von TAλc,λr maximal vier Ordnungsparameter vorgegeben. Hervorragende Vorhersageleistungen (>90%) wurden beispielsweise mit den ensemble-basierten Gradient-Boosting-Maschinen erzielt (35, 36). Die Interpretation des Modells ist jedoch problematisch, da ein Ensemble von 100-150 tiefen Entscheidungsbäumen (die nacheinander hinzugefügt werden) verwendet wird. Obwohl die Leistung verbessert wird, steigt die Wahrscheinlichkeit einer Überanpassung mit zufälligen Korrelationen. Wir haben uns daher auf die auf Klassifikations- und Regressions-Entscheidungsbäumen (CART) basierenden Entscheidungsmodelle mit einem Baum beschränkt (20). Die Beschränkung auf vier Ordnungsparameter für die TAλc,λr-Funktion beruht auf ähnlichen Gründen. Die Hinzufügung weiterer Parameter führt zu spärlicheren Matrizen, die die reaktiven/nicht reaktiven Verteilungen repräsentieren, und infolgedessen wird die numerische Integration zur Berechnung der Überlappung zwischen diesen Verteilungen sehr empfindlich gegenüber der Bin-Größe und könnte die Überlappung unterschätzen, da die Bins durch unzureichende Statistiken leer sind.
Wir berücksichtigten 138 kollektive Variablen, bestehend aus Sauerstoff-Sauerstoff-Abständen, Sauerstoff-Wasserstoff-Abständen für anfänglich gebundene Wassermoleküle, allen Winkeln, die von Oλ und seinen vier engsten Sauerstoff-Nachbarn gebildet werden, und den Steinhardt-Ordnungsparametern der Ordnungen 3, 4 und 6 (32) (siehe Material und Methoden für weitere Einzelheiten). Darüber hinaus wurden die bereits berücksichtigten Ordnungsparameter hinzugefügt. Abb. 5A zeigt den resultierenden Entscheidungsbaum. Bemerkenswert ist, dass von allen Eingabeparametern der w4-Parameter sowohl an der Spitze des Entscheidungsbaums steht als auch die wichtigste Variable ist, gemessen an der Verringerung des Klassifizierungsfehlers, der jeder Variable bei jedem Split im Entscheidungsbaum zugeschrieben wird (20) (SI-Anhang, Abb. S9). Auch die tetraedrische Anordnung und die Anzahl der akzeptierten Wasserstoffbrückenbindungen erscheinen im Entscheidungsbaum. Um den ersten Effekt zu beschreiben, hat der ML-Ansatz den Steinhardt-Parameter q4 gegenüber dem ähnlichen q-Parameter, den wir zuvor verwendet haben, bevorzugt. Einige Abstände, die ebenfalls im Entscheidungsbaum erscheinen, wie d25, der Abstand zwischen Oλ und dem 25. nächstgelegenen Sauerstoff, sind höchstwahrscheinlich auf zufällige Korrelationen zurückzuführen, die durch die begrenzte Größe des Datensatzes verursacht werden. Dies wird durch eine Untersuchung der Bedeutung dieser Variable bestätigt: d25 erscheint nicht unter den 20 wichtigsten Variablen (SI-Anhang, Abb. S9), und tatsächlich sind andere ähnliche Variablen (z. B. d24) höher eingestuft, wenn auch mit geringer Bedeutung. Ein wichtigerer und intuitiv sinnvoller Parameter, der vom ML-Ansatz vorgeschlagen wird, ist λ2, der OH-Abstand zwischen dem Sauerstoff, der dem Oλ am nächsten liegt, und seinem Wasserstoff mit der größten intramolekularen Bindung. Die Neuberechnung der Vorhersagefähigkeit unter Verwendung von Parametern aus dem ML-Baum (Abb. 5B) ergab keine höhere Leistung als die Kombination w4, q, na und qcos, sollte aber unter Berücksichtigung statistischer Unsicherheiten als gleich gut angesehen werden.
Ergebnisse der Machine-Learning-Analyse. (A) Klassifikations- und Regressionsbaum für die Vorhersage des Ergebnisses der eingeleiteten Trajektorien. Hier haben wir mehrere zusätzliche kollektive Variablen berücksichtigt (Beschreibung in Material und Methoden), aber nur eine kleine Teilmenge wird letztendlich für die Konstruktion des Baums benötigt: w4, q4 , λ2 (die Länge der gestreckten Wasserstoffbrückenbindung in dem Wassermolekül, das der Oλ-Spezies am nächsten ist), di (der Abstand von Oλ zum i-ten nächstgelegenen Sauerstoff) und d¯i (der durchschnittliche Abstand unter Berücksichtigung der i nächstgelegenen Sauerstoffsorten). Die Notation der Knoten wird durch den alleinstehenden Knoten in der oberen linken Ecke erläutert. Dieser Baum sagt voraus, dass die Trajektorien reaktiv sind, d. h. einen λ≥2 erreichen, oder nicht reaktiv sind, und zwar auf der Grundlage der kollektiven Variablen, die an dem Punkt in den Trajektorien erhalten werden, an dem λ zum ersten Mal ≥1,15 ist. Die Knoten, die reaktive Trajektorien vorhersagen, sind blau gefärbt (Klasse 1), während die Knoten, die nicht reaktive Trajektorien vorhersagen, grün gefärbt sind (Klasse 0). Beachten Sie, dass die Prozentsätze am unteren Rand der Quadrate nicht die physikalisch korrekten Anteile widerspiegeln, da die Pfad-Ensembles nicht anhand ihrer statistischen Gewichte neu gewichtet wurden. Die Regeln sind textuelle Darstellungen des Durchlaufens des Baums; beispielsweise kann Regel 5 (die reaktive Trajektorien vorhersagt) als w4≥7,6 und λ2≥1,1 ausgedrückt werden. Diese Regeln ergeben unterschiedliche Einleitungsbedingungen und sind im SI-Anhang, Tabelle S1, für die unterste Knotenreihe aufgeführt. (B) Die Vorhersagekraft und die Kreuzungswahrscheinlichkeit als Funktion von λr für λc=1,16 Å und verschiedene Kombinationen von kollektiven Variablen. Hier vergleichen wir die Vorhersagekraft unter Verwendung von kollektiven Variablen, die wir identifiziert haben, mit Variablen, die von der Machine-Learning-Analyse als wichtig eingestuft wurden. (C) Reaktive (rλc,λr(ξ)) und nicht-reaktive (uλc,λr(ξ)) Verteilungen für ξ={λ2,d¯2} und λc=1,16 Å und λr=2,0 Å. Zur Veranschaulichung sind die dargestellten Verteilungen normalisiert. Die Einsätze oben und rechts zeigen die eindimensionalen Projektionen der Verteilungen.