Está en la página 1de 14

➔ Slide 1

Buenos días a todos y bienvenidos a la presentación de seguimiento de tesis de mi segundo año.


Me llamo Jaime Pizarroso y estoy realizando el doctorado en modelado de sistemas de ingeniería
centrándome en el tema de Inteligencia Artificial Explicable (XAI por sus siglas en inglés) aplicado
al Mantenimiento Predictivo. Mis directores de tesis son Antonio Muñoz San Roque y José
Portela González.

➔ Slide 2

La principal motivación de esta tesis se encuentra en el rápido crecimiento que está sufriendo
el campo de mantenimiento predictivo. El principal objetivo de este campo es detectar fallos en
equipos o sistemas antes de que ocurran basado en parámetros o factores del propio equipo.
Sin embargo, a medida que la complejidad del equipo crece, el desarrollo de un modelo físico o
parametrizado “a mano” puede no ser factible. Como alternativa, y aprovechando el incremento
de los datos disponibles gracias a tecnologías como el Internet de las Cosas, se utilizan modelos
de Machine Learning para este modelado del sistema. Estos modelos son especialmente útiles
debido a la capacidad que tienen para detectar patrones y relaciones en el comportamiento del
sistema sin necesidad de intervención humana.

➔ Slide 3

Uno de los modelos de Machine Learning más utilizados son las redes neuronales debido a su
versatilidad, que permite detectar y modelar patrones complejos con una precisión notable. Sin
embargo, estas redes neuronales son fundamentalmente no interpretables, por lo que no
pueden operar autónomamente y necesitan de supervisión humana para la toma de decisiones.
El campo de estudio que se encarga de que los modelos de Machine Learning sean
interpretables es la Inteligencia Artificial Explicable o XAI.

➔ Slide 4
Centrándonos en redes neuronales, a día de hoy existen una multitud de técnicas que se pueden
usar para obtener información de este tipo de modelos. Estas técnicas son tanto específicas para
redes neuronales como aplicables a cualquier modelo, y pueden explicar muestras individuales
o el comportamiento del modelo para todo el espacio de entrada. Sin embargo, estas técnicas
no son perfectas y adolecen de algunos defectos.

o Por ejemplo, los algoritmos de Garson y Olden basados en los pesos de la red
son muy poco robustos y sus resultados dependen en gran medida de cómo se
entrene la red.
o El Neural Interpretation Diagram se puede aplicar a muchos tipos de red pero
ofrece poca información entendible para el usuario.
o Los métodos como el profile method o los partial dependence plots están
basados en perturbar los valores originales del dataset y pueden llevar a
información errónea debido a la creación de escenarios inverosímiles, además
de no proporcionar información cuantitativa que permita utilizar o entender de
manera más sencilla la información extraída.
o Otros métodos como el Local Surrogate implican crear un modelo
fundamentalmente interpretable, como una regresión lineal o un árbol de
decisión, para explicar la toma de decisiones de la red, perdiendo el modelado
de efectos no lineales como pueden ser las interacciones.
o Por último, métodos como SHAP o los Shapley Values no tienen las desventajas
que he enumerado anteriormente pero su coste computacional puede llegar a
ser tan alto que no son factibles para modelos de tamaño relativamente
reducido.
➔ Slide 5

Aparte de las desventajas que he enumerado, un campo que está relativamente inexplorado es
la detección y análisis de interacciones entre variables. Casi todos, por no decir todos los
algoritmos, están enfocados principalmente en analizar el efecto de una variable sobre la salida,
y obvian el efecto que pueden tener dos variables combinadas. Esto puede llevar a su vez a dar
información errónea sobre el modelo, dando poca importancia a una variable de manera
individual pero que sin embargo en combinación con otra pueda tener un efecto relevante sobre
la salida.
➔ Slide 6

Todos estos defectos son la principal motivación para estudiar y desarrollar el uso de técnicas
de XAI basadas en derivadas parciales para el análisis de sensibilidad de modelos de Machine
Learning, especialmente de redes neuronales.

Este análisis es un método robusto, ya que depende únicamente de lo bien que la red modele
las relaciones entre variables y no de cómo se haya entrenado. Provee de medidas cuantitativas
basadas en métricas de las derivadas parciales calculadas para cada una de las muestras del
dataset, lo que a su vez impide analizar escenarios inverosímiles. El coste de computación es
relativamente bajo comparado con las técnicas del estado del arte, ya que no necesita
reentrenar o entrenar otro modelo para producir las explicaciones. Y el uso de derivadas de
orden dos o más permite la detección de interacciones entre variables.

Por otro lado, hay que hacer notar que esta técnica tiene algunas desventajas:

o el valor de las derivadas depende de la escala de las variables del dataset.


o el coste computacional puede llegar a ser elevado ya que crece
proporcionalmente al número de muestras utilizadas en el análisis o al tamaño
del modelo.
o las derivadas son locales y no globales, por lo que puede llegar a dar información
errónea por ejemplo con ruidos de alta frecuencia en las que la derivada puede
llegar a ser muy alta o utilizando un conjunto de datos no adecuado que no
represente el comportamiento real del modelo.

Sin embargo, estos defectos se pueden paliar o evitar utilizando diferentes técnicas en las que
no voy a entrar por falta de tiempo.
➔ Slide 7

El trabajo que llevo hecho sobre este tema está basado en los perceptrones multicapa que son
estas redes que se ven en la presentación que consisten en capas de neuronas interconectadas,
en las que cada neurona tiene una función de activación no lineal que permite al modelo
detectar patrones o relaciones no lineales.

➔ Slide 8

Las derivadas parciales de la salida con respecto a las entradas de la red se calculan
analíticamente utilizando la regla de la cadena con las derivadas de cada capa respecto a la
anterior.
➔ Slide 9

Para ello, lo único que se necesita son los pesos de cada conexión de la red neuronal y la derivada
de la función de activación de cada una de las neuronas evaluado para la entrada de la neurona
para la muestra del dataset que se esté analizando.

➔ Slide 10

Una vez que se han calculado estas derivadas para un conjunto de muestras se obtiene una
distribución de derivadas parciales para cada una de las entradas. En este ejemplo podemos ver
la distribución de derivadas para cinco variables de entrada en las que solo 3 variables son
relevantes para la predicción de la salida.
➔ Slide 11

De esta distribución de derivadas podemos obtener métricas como la media, la distribución


estándar o la media cuadrática que podemos utilizar para analizar el efecto sobre la salida y la
importancia de las variables de entrada. Para este ejemplo, se puede ver que la variable X1 tiene
un efecto no lineal sobre la salida, ya que la desviación estándar de las derivadas es muy alta
indicando que tenemos distintos valores a lo largo del dataset. También se puede ver que la
variable X2 tiene un efecto lineal sobre la salida, ya que todas las derivadas son muy parecidas
de valor 1. Y el resto de variables parecen no tener ningún efecto sobre la salida, sobre todo la
variable X4 y X5 que tienen una desviación estándar muy baja y una media de 0, es decir que no
tienen efecto sobre la salida para las muestras del dataset. En el gráfico de la derecha podemos
ver la importancia que se le ha asignado a cada variable. Esta importancia viene dada por la
media cuadrática de las sensibilidades, ya que en la literatura existente se ha estudiado el uso
de esta métrica como una medida de importancia.

➔ Slide 12

Sin embargo, estas métricas parecen no ser suficientes en ciertos casos para detectar el efecto
que tiene una variable de entrada sobre la salida. En estos gráficos podemos observar en el eje
X la variable X3, en el eje Y la variable X1 y en el eje Z la sensibilidad de la salida con respecto a
cada una de las variables de entrada. Para las variables X1 y X2 los gráficos de la diapositiva
anterior concuerdan con estos gráficos, en los que la sensibilidad con respecto a X2 es constante
y la sensibilidad con respecto a X1 no es constante (crece con X1). Sin embargo, la sensibilidad
con respecto a X3 presenta un pico cerca de X3 = 0 que se desvanece al utilizar la desviación
estándar para detectar no linealidades.

➔ Slide 13

Durante este año hemos trabajado junto a David Alfaya para desarrollar un método basado en
derivadas parciales que nos permita detectar estas no linealidades. Las métricas que utilizamos
actualmente para analizar el comportamiento del modelo son la media y la media cuadrática
que se corresponden con la primera y segunda norma de los espacios Lp. Estas medidas las
podemos generalizar y calcular lo que denominamos media alfa como la norma p de orden alfa
de las sensibilidades de la salida con respecto a una variable de entrada. Al incrementar alfa, el
valor de la media alfa incrementa notablemente cuando las sensibilidades no son constantes en
el espacio de entrada, es decir, en caso de que haya algún efecto no lineal de la entrada sobre
la salida.

➔ Slide 14
Si calculamos esta media alfa para todas las variables de entrada en un cierto rango, podemos
observar la evolución de esta métrica y detectar no linealidades. En concordancia con el análisis
anterior, vemos que tanto la media como la media cuadrática de X3 es notablemente bajo con
respecto a las variables X2. Además, podemos ver el efecto no lineal sobre X1 o el efecto lineal
de la variable X2 o el efecto nulo de las variables X4 y X5 que concuerda con el análisis anterior.
Sin embargo, a partir del momento de orden 4 se puede observar que X3 empieza a ser más
importante que X2, indicándonos que aunque de media X3 tenga una sensibilidad menor que
X2, hay ciertas regiones del dataset en los que la variable X3 tiene una sensibilidad mayor que
la variable X2 y, por tanto, tiene un efecto no lineal sobre la salida. Si seguimos incrementando
el orden de alfa, observamos que X3 tiene una sensibilidad incluso mayor que X1, demostrando
que para ciertas regiones más pequeñas X3 tiene una sensibilidad mayor.

➔ Slide 14
Todo lo que hemos visto antes se refiere al efecto de una variable sobre la salida utilizando las
derivadas parciales de orden 1. Para detectar interacciones, se pueden calcular las derivadas de
orden superior como las de orden 2, y utilizar las mismas métricas para analizar el
comportamiento del modelo. Estas derivadas de orden 2 permiten detectar interacciones y
analizar si son puramente multiplicativas como es el caso de X3 por X4 en el ejemplo, o si es un
comportamiento cuadrático como es el caso de X2, o si es un efecto de orden superior como es
la variable X4.

➔ Slide 15

Además se pueden utilizar otro tipo de gráficos como puede ser un mapa de calor para analizar
más fácilmente cada una de las métricas.

➔ Slide 16

Sin embargo, un problema de este método de segundas derivadas parciales está en que
alterando la escala de las variables podemos hacer desaparecer estas interacciones.
Para evitar este problema, se está trabajando en el desarrollo de una métrica invariante con la
escala junto a David Alfaya que mide el cambio en las curvas de nivel de una región definida del
espacio de salida que permita detectar de manera fehaciente las interacciones entre dos
variables.

➔ Slide 17

Respecto a las tareas planteadas para el desarrollo de la tesis, se ha empezado por realizar una
review del estado del arte respecto a técnicas de XAI y de aplicaciones de machine learning en
el campo de mantenimiento predictivo. Durante el primer año desarrollé el análisis de modelos
MLP basado en primeras derivadas parciales, y durante este segundo año me he centrado en
desarrollar tanto el método basado en segundas derivadas parciales como el basado en curvas
alfa.

➔ Slide 18
Estos métodos los he ido probando utilizando datasets reales, sobre todo de mantenimiento
predictivo, y para cada uno de los métodos desarrollados se ha hecho o está en proceso un
paper.

➔ Slide 19

Respecto a la planificación aunque es mi segundo año formal de doctorado llevo más años
trabajando junto a José y Antonio en los métodos que hemos desarrollado y lo que espero
terminar este año que viene son los papers de las curvas alfa y el de segundas derivadas
parciales, que incluiría el invariante de las interacciones entre variables. Una vez termine estos
papers me centraría en profundizar la comparación entre los métodos desarrollados y el estado
del arte y la aplicación de estas técnicas en el campo del mantenimiento predictivo para
proceder a redactar la tesis.

➔ Slide 20
Respecto a las actividades de doctorado que he realizado este año me he centrado en la
publicación de resultados. Hemos publicado el artículo sobre el método de las primeras
derivadas parciales en la revista Journal of Statistical Software que se encuentra en el cuartil 1
de JCR para los campos de estadística y probabilidad, y hemos trabajado con otros
colaboradores como David Alfaya, cuyas colaboraciones ya he mencionado, y José Luis Arroyo.
Con este último hemos hecho un paper con el uso del análisis de sensibilidad basado en primeras
derivadas parciales para el análisis de redes neuronales aplicadas en el campo de las ciencias
sociales, con el que se ha detectado relaciones significativas entre variables en un benchmark
de este campo que no se había detectado en la literatura.

➔ Slide 21

Y por otro lado me he centrado en la docencia de asignaturas relacionadas con el campo de


Machine Learning y la robótica. Además, y colaborando con José Luis Arroyo, tanto yo como mis
directores realizamos un seminario para explicar como utilizar el análisis de sensibilidad en el
campo de las ciencias sociales.

----- OBSOLETO

➔ Slide 4

¿A qué nos referimos con que estos modelos no sean interpretables? Un modelo o algoritmo de
Machine Learning es interpretable cuando sigue los siguientes principios:

o Explicable: aporta pruebas de por qué está tomando una decisión o realizando
una predicción
o Significativo: la explicación debe ser entendible por los usuarios del modelo
o Preciso: la explicación tiene que reflejar de manera fehaciente el
comportamiento del modelo
o Límites del modelo: se debe identificar los casos en los que el modelo no esté
preparado para operar y, por tanto, sus decisiones no sean confiables.

También podría gustarte