Está en la página 1de 13

➔ Slide 1

Buenos días a todos y bienvenidos a la presentación de seguimiento de tesis de mi segundo año.


Me llamo Jaime Pizarroso y estoy realizando el doctorado en modelado de sistemas de ingeniería
centrándome en el tema de Inteligencia Artificial Explicable (XAI por sus siglas en inglés) aplicado
al Mantenimiento Predictivo. Mis directores de tesis son Antonio Muñoz San Roque y José
Portela González.

➔ Slide 2

La principal motivación de esta tesis se encuentra en el rápido crecimiento que está sufriendo
el campo de mantenimiento predictivo. El principal objetivo de este campo es detectar fallos en
equipos o sistemas antes de que ocurran basado en parámetros o factores del propio equipo.
Sin embargo, a medida que la complejidad del equipo crece, el desarrollo de un modelo físico o
parametrizado “a mano” puede no ser factible. Como alternativa, y aprovechando el incremento
de los datos disponibles gracias a tecnologías como el Internet de las Cosas, se utilizan modelos
de Machine Learning para este modelado del sistema. Estos modelos son especialmente útiles
debido a la capacidad que tienen para detectar patrones y relaciones en el comportamiento del
sistema sin necesidad de intervención humana.

➔ Slide 3

Uno de los modelos de Machine Learning más utilizados son las redes neuronales debido a su
versatilidad, que permite detectar y modelar patrones complejos con una precisión notable. Sin
embargo, estas redes neuronales son fundamentalmente no interpretables, por lo que no
pueden operar autónomamente y necesitan de supervisión humana para la toma de decisiones.

➔ Slide 4

¿A qué nos referimos con que estos modelos no sean interpretables? Un modelo o algoritmo de
Machine Learning es interpretable cuando sigue los siguientes principios:
o Explicable: aporta pruebas de por qué está tomando una decisión o realizando
una predicción
o Significativo: la explicación debe ser entendible por los usuarios del modelo
o Preciso: la explicación tiene que reflejar de manera fehaciente el
comportamiento del modelo
o Límites del modelo: se debe identificar los casos en los que el modelo no esté
preparado para operar y, por tanto, sus decisiones no sean confiables.

El campo de estudio que se encarga de que los modelos de Machine Learning sean
interpretables es la Inteligencia Artificial Explicable o XAI.

➔ Slide 5

Centrándonos en redes neuronales, a día de hoy existen una multitud de técnicas que se pueden
usar para obtener información de este tipo de modelos. Sin embargo, estas técnicas no son
perfectas y adolecen de algunos defectos. Por ejemplo, los algoritmos de Garson y Olden
basados en los pesos de la red son muy poco robustos y sus resultados dependen en gran medida
de cómo se entrene la red. El Neural Interpretation Diagram se puede aplicar a muchos tipos de
red pero ofrece poca información entendible para el usuario. Los métodos como el profile
method o los partial dependence plots están basados en perturbar los valores originales del
dataset y pueden llevar a información errónea debido a la creación de escenarios inverosímiles,
además de no proporcionar información cuantitativa que permita utilizar o entender de manera
más sencilla la información extraída. Otros métodos como el Local Surrogate implican crear un
modelo fundamentalmente interpretable, como una regresión lineal o un árbol de decisión, para
explicar la toma de decisiones de la red, perdiendo el modelado de efectos no lineales como
pueden ser las interacciones. Por último, métodos como SHAP o los Shapley Values no tienen
las desventajas que he enumerado anteriormente pero su coste computacional puede llegar a
ser tan alto que no son factibles para modelos de tamaño relativamente reducido.

➔ Slide 6
Aparte de las desventajas que he enumerado, un campo que está relativamente inexplorado es
la detección y análisis de interacciones entre variables. Casi todos, por no decir todos los
algoritmos, están enfocados principalmente en analizar el efecto de una variable sobre la salida,
y obvian el efecto que pueden tener dos variables combinadas. Esto puede llevar a su vez a dar
información errónea sobre el modelo, dando poca importancia a una variable de manera
individual pero que sin embargo en combinación con otra pueda tener un efecto relevante sobre
la salida.

➔ Slide 7

Todos estos defectos son la principal motivación para estudiar y desarrollar el uso de técnicas
de XAI basadas en derivadas parciales para el análisis de sensibilidad de modelos de Machine
Learning, especialmente de redes neuronales.

Este análisis es un método robusto, ya que depende únicamente de lo bien que la red modele
las relaciones entre variables y no de cómo se haya entrenado. Provee de medidas cuantitativas
basadas en métricas de las derivadas parciales calculadas para cada una de las muestras del
dataset, lo que a su vez impide analizar escenarios inverosímiles. El coste de computación es
relativamente bajo comparado con las técnicas del estado del arte, ya que no necesita
reentrenar o entrenar otro modelo para producir las explicaciones. Y el uso de derivadas de
orden dos o más permite la detección de interacciones entre variables.

Por otro lado, hay que hacer notar que esta técnica tiene algunas desventajas:

o el valor de las derivadas depende de la escala de las variables del dataset.


o el coste computacional puede llegar a ser elevado ya que crece
proporcionalmente al número de muestras utilizadas en el análisis o al tamaño
del modelo.
o las derivadas son locales y no globales, por lo que puede llegar a dar información
errónea por ejemplo con ruidos de alta frecuencia en las que la derivada puede
llegar a ser muy alta o utilizando un conjunto de datos no adecuado que no
represente el comportamiento real del modelo.

Sin embargo, estos defectos se pueden paliar o evitar utilizando diferentes técnicas en las que
no voy a entrar por falta de tiempo.

➔ Slide 8

El trabajo que llevo hecho sobre este tema está basado en los perceptrones multicapa que son
estas redes que se ven en la presentación que consisten en capas de neuronas interconectadas,
en las que cada neurona tiene una función de activación no lineal que permite al modelo
detectar patrones o relaciones no lineales.

➔ Slide 9
Las derivadas parciales de la salida con respecto a las entradas de la red se calculan
analíticamente utilizando la regla de la cadena con las derivadas de cada capa respecto a la
anterior.

➔ Slide 10

Para ello, lo único que se necesita son los pesos de cada conexión de la red neuronal y la derivada
de la función de activación de cada una de las neuronas evaluado para la entrada de la neurona
para la muestra del dataset que se esté analizando.

➔ Slide 11
Una vez que se han calculado estas derivadas para un conjunto de muestras se obtiene una
distribución de derivadas parciales para cada una de las entradas. En este ejemplo podemos ver
la distribución de derivadas para cinco variables de entrada en las que solo 3 variables son
relevantes para la predicción de la salida.

➔ Slide 12

De esta distribución de derivadas podemos obtener métricas como la media, la distribución


estándar o la media cuadrática que podemos utilizar para analizar el efecto sobre la salida y la
importancia de las variables de entrada. Para este ejemplo, se puede ver que la variable X1 tiene
un efecto no lineal sobre la salida, ya que la desviación estándar de las derivadas es muy alta
indicando que tenemos distintos valores a lo largo del dataset. También se puede ver que la
variable X2 tiene un efecto lineal sobre la salida, ya que todas las derivadas son muy parecidas
de valor 1. Y el resto de variables parecen no tener ningún efecto sobre la salida, sobre todo la
variable X4 y X5 que tienen una desviación estándar muy baja y una media de 0, es decir que no
tienen efecto sobre la salida para las muestras del dataset. La variable X3 parece que tampoco
tiene efecto, pero si miramos en el gráfico de la derecha podemos ver que tiene importancia
comparándolo con X4 y X5. Esta importancia se le asigna a cada variable en función de la media
cuadrática de sus distribuciones ya que en la literatura se ha investigado el uso de esta métrica
como una medida de importancia. Sin embargo, si nos fijamos en la expresión vemos que X3
tiene un efecto no lineal en la salida ya que se relaciona con una raíz cuadrada y con este método
se le está asignando una importancia bastante menor comparada con X2 por ejemplo.

➔ Slide 13

Esto motivó el siguiente método que se está desarrollando junto a David Alfaya que hemos
denominado el método de las curvas alfa en el que para analizar el efecto de una variable
calculamos a partir de las distribuciones métricas Lp para órdenes mayores que 1 y que 2 que ya
se utilizan en el análisis anterior. Esto viene motivado por el hecho de que al aumentar el orden
de la métrica se está dando mayor importancia a picos que puedan existir en las distribuciones
de las derivadas. Como vemos en la imagen, a partir del momento de orden 6 se puede observar
que X3 empieza a ser más importante que X2, indicándonos que aunque de media X3 tenga una
sensibilidad menor que X2, hay ciertas regiones del dataset en los que la variable X3 tiene una
sensibilidad mayor que la variable X2 y, por tanto, tiene un efecto no lineal sobre la salida.
Además, podemos ver el efecto no lineal sobre X1 o el efecto lineal de la variable X2 o el efecto
nulo de las variables X4 y X5 que concuerda con el análisis anterior.

➔ Slide 14
Todo lo que hemos visto antes se refiere al efecto de una variable sobre la salida utilizando las
derivadas parciales de orden 1. Para detectar interacciones, se pueden calcular las derivadas de
orden superior como las de orden 2, y utilizar las mismas métricas para analizar el
comportamiento del modelo. Estas derivadas de orden 2 permiten detectar interacciones y
analizar si son puramente multiplicativas como es el caso de X3 por X4 en el ejemplo, o si es un
comportamiento cuadrático como es el caso de X2, o si es un efecto de orden superior como es
la variable X4.

➔ Slide 15

Además se pueden utilizar otro tipo de gráficos como puede ser un mapa de calor para analizar
más fácilmente cada una de las métricas.

➔ Slide 16
Sin embargo, un problema de este método de segundas derivadas parciales está en que
alterando la escala de las variables podemos hacer desaparecer estas interacciones.

Para evitar este problema, se está trabajando en el desarrollo de una métrica invariante con la
escala junto a David Alfaya que mide el cambio en las curvas de nivel de una región definida del
espacio de salida que permita detectar de manera fehaciente las interacciones entre dos
variables.

➔ Slide 17

Respecto a las tareas planteadas para el desarrollo de la tesis, se ha empezado por realizar una
review del estado del arte respecto a técnicas de XAI y de aplicaciones de machine learning en
el campo de mantenimiento predictivo. Durante el primer año desarrollé el análisis de modelos
MLP basado en primeras derivadas parciales, y durante este segundo año me he centrado en
desarrollar tanto el método basado en segundas derivadas parciales como el basado en curvas
alfa.

➔ Slide 18

Estos métodos los he ido probando utilizando datasets reales, sobre todo de mantenimiento
predictivo, y para cada uno de los métodos desarrollados se ha hecho o está en proceso un
paper.

➔ Slide 19

Respecto a la planificación aunque es mi segundo año formal de doctorado llevo más años
trabajando junto a José y Antonio en los métodos que hemos desarrollado y lo que espero
terminar este año que viene son los papers de las curvas alfa y el de segundas derivadas
parciales, que incluiría el invariante de las interacciones entre variables. Una vez termine estos
papers me centraría en profundizar la comparación entre los métodos desarrollados y el estado
del arte y la aplicación de estas técnicas en el campo del mantenimiento predictivo para
proceder a redactar la tesis.
➔ Slide 20

Respecto a las actividades de doctorado que he realizado este año me he centrado en la


publicación de resultados. Hemos publicado el artículo sobre el método de las primeras
derivadas parciales en la revista Journal of Statistical Software que se encuentra en el cuartil 1
de JCR para los campos de estadística y probabilidad, y hemos trabajado con otros
colaboradores como David Alfaya, cuyas colaboraciones ya he mencionado, y José Luis Arroyo.
Con este último hemos hecho un paper con el uso del análisis de sensibilidad basado en primeras
derivadas parciales para el análisis de redes neuronales aplicadas en el campo de las ciencias
sociales, con el que se ha detectado relaciones significativas entre variables en un benchmark
de este campo que no se había detectado en la literatura.

➔ Slide 21
Y por otro lado me he centrado en la docencia de asignaturas relacionadas con el campo de
Machine Learning y la robótica. Además, y colaborando con José Luis Arroyo, tanto yo como mis
directores realizamos un seminario para explicar como utilizar el análisis de sensibilidad en el
campo de las ciencias sociales.

También podría gustarte