Está en la página 1de 4

Error de reducción

Nuestro objetivo principal del entrenamiento es reducir el error o la diferencia


entre la predicción y el resultado real . Dado que la salida real es constante,
"no cambia", la única forma de reducir el error es cambiar el valor
de predicción . La pregunta ahora es, ¿cómo cambiar el valor de predicción ?

Al descomponer la predicción en sus elementos básicos, podemos encontrar que


los pesos son los elementos variables que afectan el valor de la predicción . En
otras palabras, para cambiar el valor de predicción , necesitamos cambiar los
valores de ponderación .

retropropagación
Backpropagation , abreviatura de “propagación hacia atrás de errores”, es un
mecanismo utilizado para actualizar los pesos mediante el descenso de
gradiente . Calcula el gradiente de la función de error con respecto a los pesos de
la red neuronal. El cálculo procede hacia atrás a través de la red.

El descenso de gradiente es un algoritmo de optimización iterativo para


encontrar el mínimo de una función; en nuestro caso queremos minimizar la
función de error. Para encontrar un mínimo local de una función mediante el
descenso de gradiente, se toman pasos proporcionales al negativo del gradiente
de la función en el punto actual.
Por ejemplo, para actualizar w6, tomamos la corriente w6y restamos la derivada
parcial de la función de error con respecto a w6. Opcionalmente, multiplicamos la
derivada de la función de error por un número seleccionado para asegurarnos de
que el nuevo peso actualizado minimice la función de error; este número se
llama tasa de aprendizaje .

La derivación de la función de error se evalúa aplicando la regla de la cadena de la siguiente


manera
Así que para actualizar w6podemos aplicar la siguiente fórmula

De manera similar, podemos derivar la fórmula de actualización w5y cualquier


otro peso existente entre la salida y la capa oculta.

Sin embargo, al retroceder para actualizar w1, w2y existente entre la


entrada w3y w4la capa oculta, la derivada parcial de la función de error con
respecto a w1, por ejemplo, será la siguiente.

Podemos encontrar la fórmula de actualización para los pesos


restantes w2, w3y w4de la misma forma.
En resumen, las fórmulas de actualización para todos los pesos serán las
siguientes:

Podemos reescribir las fórmulas de actualización en matrices de la siguiente


manera

 Si la ratio de aprendizaje es demasiado grande, los cambios en


W serán también muy grandes y será difícil encontrar los
coeficientes que minimicen la función de coste. Por otra parte,
si el ratio de aprendizaje es demasiado pequeño, el gradiente
descendiente tardará mucho en encontrar la solución adecuada.

También podría gustarte