Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Sophia Aristizabal Vectorial
Sophia Aristizabal Vectorial
Fig 2. Errores de las muestras con referencia a la recta definida por el descenso gradiente.
El descenso gradiente busca esencialmente adecuar una recta por las muestras, al ajustar
los valores o parámetros óptimos, para que el intercepto y la pendiente de esta aseguren obtener
un error mínimo. El ejemplo más básico sería el de regresión lineal de la figura 2.
Teniendo esto en cuenta, la función costo es el promedio de costos o errores (con base a
la curva de ajuste) de todas las muestras que se proporcionaron para el entrenamiento de la red
neuronal. Para comprender el descenso gradiente no es necesario saber cuál es la ecuación de la
función. Solo es importante aclarar que se usa el método de mínimos cuadrados para calcular el
error de cada muestra, ya que es el más fácil de diferenciar (factor importante a tener en mente
para aplicar el gradiente) (Josh Starmer [StatQuest with Josh Starmer], 2019).
3.2. Ecuación del algoritmo: El descenso gradiente se basa en la siguiente ecuación (Gordon &
(𝑘+1) (𝑘) (𝑘)
Tibshirani, 2012) para su ejecución: 𝑥 =𝑥 − 𝑡𝑘 · ▽𝑓(𝑥 ).
Esta se basa en iteraciones hasta hallar la recta que mejor se adecúe a los datos. Esto es
(𝑘) (𝑘+1)
porque 𝑥 es la curva de ajuste anterior que se está evaluando y 𝑥 será la nueva curva de
(𝑘+1) (𝑘) (𝑘)
ajuste; la ecuación seguirá iterando hasta que 𝑥 =𝑥 (significando que − 𝑡𝑘 · ▽𝑓(𝑥 )
=0); es decir, hasta que converjan. Así mismo, también es importante entender qué es lo que
(𝑘)
sucede con − 𝑡𝑘 · ▽𝑓(𝑥 ), para ello es importante definir que:
1. 𝑡𝑘 es la tasa de aprendizaje, la cual es una constante definida por el usuario;
(𝑘) (𝑘)
2. 𝑓(𝑥 ) es la función costo de 𝑥 ;
(𝑘)
3. Y ▽𝑓(𝑥 ) es el gradiente de la función costo.
(𝑘) (𝑘)
Cuando se busca que − 𝑡𝑘 · ▽𝑓(𝑥 )= 0 es porque ▽𝑓(𝑥 ) = 0 , lo que asegura que
(𝑘+1)
se llegó al error mínimo posible y que 𝑥 es la curva que mejor se adecúa. O, en otras
palabras, se encontraron los valores de los parámetros de una función que permite minimizar
tanto como sea posible el valor de la función costo.
(𝑘)
3.3. Procedimiento de uso: Para entender el por qué de − 𝑡𝑘 · ▽𝑓(𝑥 ), se explicará el
procedimiento del uso de la ecuación del descenso gradiente.
1) Se escoge un punto en dónde empezar con el proceso de iteración. Por lo general se escoge
uno donde se cree que desde ese se puede llegar al mínimo absoluto de la función costo.
Normalmente se actúa a ciegas ya que no se sabe si los primeros valores que se provean se
situarán en un punto cerca de un mínimo absoluto, uno relativo o un punto de silla. En la figura 3
se ilustra la situación.