Está en la página 1de 6

UNIVERSIDAD POLITÉCNICA DE VICTORIA

Ingenierı́a en Tecnologı́as de la Información

REPORTE DE CASO DE ESTUDIO


LENGUAJES AUTÓMATAS

ADAIR ELISEO ROJAS OAXACA

Catálisis Molecular

PROFESOR: SAID POLANCO MARTAGÓN

05 - OCTUBRE - 2021
¿Cuál es el objetivo de la investigación?

En el trabajo actual, el objetivo es utilizar modelos extensibles de aprendizaje automático basados


en gráficos para predecir las energı́as de las especies de superficies. Se seleccionaron intermedios y
estados de transición en la red de reacción de la sı́ntesis de etanol a partir del gas de sı́ntesis en
Rh. En el algoritmo desarrollado a lo largo del estudio, estos intermedios de superficie y estados
de transición se generaron en forma de gráficos moleculares. Tres métodos basados en gráficos
propuestos recientemente, es decir, convoluciones de gráficos, tejido y gráfica la red neuronal, se
aplicaron para entrenar modelos de aprendizaje automático para la predicción de energı́a. Posteri-
ormente, se utilizaron dos modelos de conjunto que combinaban los resultados obtenidos de los tres
métodos antes mencionados para reducir aún más el error de predicción. En el proceso de apren-
dizaje automático, el conjunto de datos de 315 especies se dividió en conjunto de entrenamiento
(80 por ciento) y conjunto de prueba (20 por ciento), seguido de un ajuste de hiper parámetros
utilizando una validación cruzada de 5 veces en el conjunto de entrenamiento.

ii
¿Qué técnicas utilizan?

Se emplearon tres métodos de aprendizaje automático basados en gráficos propuestos a lo largo


del estudio, como son; convoluciones de gráficos, tejido y red neuronal de gráficos, para entrenar
modelos y predecir las energı́as a partir de gráficos moleculares. Además, se construyeron dos
modelos de conjunto que combinan los modelos antes mencionados, con los cuales el mejor RMSE
y MAE alcanza 0.19 y 0.15 eV, respectivamente. Además, se comparó el error de las energı́as de
activación predichas con el gráfico de la red neuronal con el predicho utilizando las relaciones BEP
tradicionales, y se comparó el error de predicción de las energı́as intermedias de superficie y las
energı́as del estado de transición.
Primero que nada, para implementar las convoluciones gráficas y los métodos de tejido, una her-
ramienta de código abierto Deepchem se utilizó para la extracción de caracterı́sticas y la con-
strucción de los correspondientes modelos de redes neuronales. La red neuronal gráfica se im-
plementó utilizando las herramientas desarrolladas por Tsubaki et al. Seguido de esto se utilizó
el método tejido, que al igual que con el método de convoluciones de gráficos, el tamaño de las
caracterı́sticas del átomo implementadas por DeepChem se estableció en 75 y no se agregaron
caracterı́sticas adicionales. El tamaño de las caracterı́sticas del par se estableció en 14, que consta
de 6 tipos de enlaces, 7 estados de la distancia del gráfico y el estado de si los átomos del par están
en el mismo anillo.
Por ultimo, en método de el gráfico de la red neuronal, la huella digital se extrajo utilizando un
radio de 1, lo que significa que cada átomo de centrado forma una huella digital con el vecino más
cercano. Se observó un sobre-ajuste severo usando un radio más alto, porque el tamaño de las
caracterı́sticas es demasiado grande para estas 315 muestras. Al igual que los otros dos métodos,
las épocas de entrenamiento se establecieron en 300, de acuerdo con la pérdida de modelo durante
el proceso de entrenamiento donde el tamaño del lote, el tamaño de las funciones, el tamaño de
las capas ocultas y la tasa de aprendizaje son 16, 64, 16 y 0,001, respectivamente. La tabla de
resultados de búsqueda de cuadrı́cula se muestra en el SI, y el RMSE de validación cruzada basado
en el hiper parámetro óptimo es 0.13 eV. Usando el mejor hiper parámetro ajustado por búsqueda
de cuadrı́cula después de entrenar el modelo en el conjunto de entrenamiento, la predicción final
en el conjunto de prueba mostró un RMSE de 0.23 eV.

iii
¿Cuáles son los resultados obtenidos?

Uno de los resultados más esperados es la Predicción de energı́a con modelos individuales, primero
se genero un conjunto de datos que consta de los gráficos moleculares de C1/C2 intermedios y
estados de transición en la superficie con un nuevo enfoque desarrollado, con el propósito de pre-
decir la energı́a extensible de especies de la superficie con diferentes tamaños. Posteriormente, se
entrenaron tres modelos basados en gráficos, es decir, convoluciones de gráficos, tejido y red neu-
ronal de gráficos, y se ajustaron los hiper parámetros para predecir las energı́as de estas especies,
lo que resultó en un RMSE de 0.22 eV, 0.27 eV y 0,23 eV en el equipo de prueba, respectivamente.
Además, se construyeron dos modelos de conjuntos utilizando la mediana y la media de las predic-
ciones de estos modelos y superan a los tres modelos originales, lo que da como resultado un RMSE
de 0,20 eV y 0,19 eV, respectivamente. Estos modelos basados en gráficos pueden ser bastante
útiles en el campo de la catálisis. Se puede utilizar para predecir energı́as de nuevas especies con
átomos y tipos de enlaces que se muestran en el conjunto de entrenamiento, lo que serı́a muy
útil para los estudios posteriores sobre redes de reacciones complejas con intermedios masivos y
estados de transición. Esto proporcionarı́a una base para, al menos, descartar algunos intermedios
con altas energı́as en la compleja red de reacción. Además, el vector de caracterı́sticas del gráfico
molecular se puede concatenar con caracterı́sticas de la superficie o del sitio para predecir energı́as
de diferentes especies en diferentes superficies o sitios.

iv
¿Cómo es utilizada la teorı́a de grafos en
el artı́culo?

Con la ayuda de estructuras de datos definidas que pueden capturar la caracterı́stica interna de
cada especie de la superficie. Dos estructuras de datos tı́picas que se pueden considerar son las
estructuras 3D y los gráficos moleculares. Las estructuras 3D se utilizan ampliamente en estudios
de quı́mica computacional, incluida la optimización estructural con DFT, donde cada coordenada
(x, y, z) se utiliza para indicar la posición de un átomo. Si bien el gráfico molecular representa
el átomo como un ”nodo” y el enlace como un ”borde” en cada especie siguiendo la teorı́a del
gráfico, ignora el cambio de estructura dentro de una especie. La caracterı́stica clave de diferentes
especies se puede capturar mejor con un gráfico molecular, y la transformación de especies también
es mucho más fácil de implementar. Sistema de entrada de lı́nea de entrada molecular simplifi-
cado, conocido como SMILES,se utiliza ampliamente para representar las especies basándose en
un gráfico molecular. También se requiere la extracción de caracterı́sticas de las estructuras 3D
o los gráficos moleculares para un mayor entrenamiento del modelo de aprendizaje automático.
Función de simetrı́a y superposición uniforme de posiciones atómicas (SOAP) o energı́a de ad-
sorción en diferentes sitios. Para gráficos moleculares o datos SMILES, métodos de extracción de
caracterı́sticas, incluidas huellas dactilares circulares y huellas dactilares de conectividad extendida
(ECFP) [42] El método se puede utilizar con la definición de ”huellas dactilares”, los subgrafos de
un gráfico molecular. Métodos similares, como la aditividad de grupo y bolsa de bonos también
se propusieron para las predicciones de energı́a en estudios de catálisis.

v
Reseña

Una de las cosas más importantes del caso de estudio fue Efectividad del enfoque de representación
del estado de transición, la innovación del uso de un enlace virtual en el gráfico molecular para
estados de transición para indicar la formación o ruptura del enlace en reacciones elementales
fue uno de los aspectos que me parecieron sumamente interesantes, e inclusive Para verificar
este enfoque, la distribución del error en la predicción de intermedios y estados de transición de
diferentes conjuntos de datos y modelos de aprendizaje automático se trazan en el estudio, y
ahı́ podemos notar que el valor medio y la desviación estándar de los resultados predichos para
los estados de transición son casi idénticos a los de los intermedios de superficie, especialmente
para las predicciones basadas en el conjunto de pruebas. Siendo ası́, considero que el enfoque
del ”enlace virtual” es una caracterı́stica eficaz para generar el gráfico molecular de los estados
de transición en las superficies del catalizador. Considero que la estimación de las energı́as de
activación a partir de las energı́as de reacción puede ser similiar, esto quiere decir que el enfoque
del vı́nculo ”virtual” en la representación del estado de transición es eficaz. Además, que el error
de predicción al utilizar una red neuronal gráfica se nota que es mucho menor que el derivado del
método de relaciones de escala lineal existente, como por ejemplo en la relación BEP. Considero
que las aplicaciones futuras de los modelos desarrollados durante la investigación incluirı́an las
predicciones de energı́a de especies de superficie con más átomos en la misma superficie o incluso
diferentes superficies metálicas mediante la adición de las caracterı́sticas de los metales o sitios de
superficie en modelos de aprendizaje automático basados en gráficos. Considero que el cribado
teórico de catalizadores, deberı́a desarrollarse un método para predecir rápidamente las energı́as
de nuevas especies, se han propuesto para predecir la energı́a de los estados intermedios y de
transición. Además, el diseño de ”descriptores” adecuados que utilicen caracterı́sticas de fácil
acceso, como propiedades electrónicas, caracterı́sticas fı́sicas y caracterı́sticas estructurales para
predecir las energı́as de adsorción de especies clave o actividad y selectividad de una determinada
reacción para el cribado de catalizadores, está atrayendo una atención considerable y tal vez en
poco tiempo se vuelva una realidad.

vi

También podría gustarte