Documentos de Académico
Documentos de Profesional
Documentos de Cultura
El algoritmo es iterativo (es decir que se repite el mismo procedimiento varias veces).
-
En este video veremos qué es el Gradiente Descendente, un algoritmo esencial pues es la base de todos
los algoritmos de entrenamiento de modelos Machine Learning (como las redes neuronales,
convolucionales o recurrentes). El Gradiente Descendente es un algoritmo de optimización, que permite
encontrar de forma automática el mínimo de una función. Para ello hace uso del gradiente (o derivada)
de dicha función, que permite "guiar" al algoritmo para de manera progresiva acercarse al mínimo ideal
de dicha función. Además de comprender cómo funciona el algoritmo, en este video analizaremos el
efecto que tiene la tasa de aprendizaje y el número de iteraciones, parámetros que son definidos por el
usuario y que determinarán la convergencia adecuada del algoritmo, y que además son dos de los
parámetros. de mayor importancia durante el entrenamiento de un modelo de Machine Learning.
En el punto 1 se observa una línea con una inclinación correspondiente a un gradiente positivo,
mientras que en el punto 3 la línea tiene una orientación opuesta y por tanto se dice que tiene una
pendiente negativa. Por su parte, en el punto 2 la línea es totalmente horizontal y carece de
inclinación, por lo que se dice que su pendiente es igual a cero.
Teniendo este concepto claro, veamos ahora en qué consiste el algoritmo del Gradiente
Descendente.
El algoritmo es iterativo (es decir que se repite el mismo procedimiento varias veces) y requiere
que el usuario introduzca dos parámetros:
La tasa de aprendizaje (o learning rate), conocido como el parámetro α. Este definirá la cantidad
de iteraciones requerida para que el algoritmo encuentre el mínimo de la función.
Una vez definidos estos dos parámetros, el algoritmo procede de la siguiente manera:
Se repite el paso (2) hasta completar el número de iteraciones definido por el usuario.
En la figura de abajo vemos una ilustración del funcionamiento del algoritmo. En primer lugar, el
punto inicial “0” es seleccionado aleatoriamente:
El algoritmo del gradiente descendente es uno de los métodos más usados durante el proceso de
entrenamiento de un Modelo de Machine Learning, y es usado prácticamente para implementar
cualquier arquitectura, desde las Redes Neuronales, pasando por las Convolucionales, Recurrentes
y LSTM, hasta las Redes Transformer.
Con este método es posible encontrar de forma automática (iterativamente) el valor mínimo de
una función matemática. Es importante además tener en cuenta las siguientes consideraciones:
La tasa de aprendizaje determina la cantidad de iteraciones que serán requeridas para lograr la
convergencia del algoritmo.
Como regla general se debe siempre garantizar que 0 < α < 1 para que el algoritmo converja (es
decir para que encuentre el valor mínimo de la función).
Vale la pena enfatizar esta distinción porque es lo que hace que este
método resulte útil. Si tuviéramos una fórmula simple como , entonces
podríamos calcular fácilmente para determinar que minimiza . O
podríamos usar el descenso de gradiente para obtener una aproximación
numérica, algo así como . Ambas estrategias llegan a la misma
respuesta.