TSP-Caso 01

UNIVERSIDAD NACIONAL DE INGENIERÍA
FACULTAD DE INGENIERÍA MECÁNICA
TRABAJO DE SUFICIENCIA PROFESIONAL
“DESARROLLO DEL MODELO NEURONAL PARA LA MEJORA DE

LA EFICIENCIA DE UNA LÍNEA DE CONVERSIÓN DE ROLLOS DE
PAPEL”
PARA OBTENER EL TÍTULO PROFESIONAL DE:

INGENIERO MECATRÓNICO
ELABORADO POR:
XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX
ASESOR
XXXXXXXXXXXXXXXXXXXXXXX
LIMA – PERÚ
2020
RESUMEN
El presente trabajo de investigación tiene como base el estudio de las redes neuronales
recurrentes y su aplicación en la predicción de la producción de una línea de conversión
de rollos de papel de una empresa papelera para la mejora de eficiencia.
Los sistemas biológicos son base de todo tipo de redes neuronales porque poseen
interconexiones entre todas las neuronas de las que forman parte. Esta característica se
evidencia en el comportamiento de las redes neuronales recurrentes; las cuales tienen
la capacidad, debido a su tipo de procesamiento, de predecir valores en base a
información pasada.
El volumen de producción de rollos de papel es la variable a predecir debido a que es el

resultado de variables de control como el tiempo de limpieza, cambio de papel base,
cambio de formato, paradas programadas, rutinarias, defectos de calidad, etc. Estas
variables son los inputs y outputs de la red neuronal. Una vez obtenida la confiabilidad
de la predicción, se ingresan nuevos valores de tiempos de paradas de línea de
producción para predecir el aumento de producción de la línea de conversión de rollos
de papel.
La simulación del sistema predictivo se realiza en KERAS, librería de alto nivel de Python,
y el motor que entrena la red neuronal es la implementación de Google, denominada
TENSORFLOW. Éste brinda el porcentaje de error de las predicciones de producción y
las reales, el cual es mínimo y tiende hacia el valor de cero. Al ser así, además de
corroborar la confiabilidad de la predicción, se incrementa la producción, la eficiencia de
la línea de conversión y se produce un impacto positivo en los ingresos económicos de
la empresa papelera.
ABSTRACT
The present research work is based on the study and application of recurrent neural
networks in predicting the production of a paper roll conversion line in a paper company
to improve efficiency.
Biological systems are the basis of all kinds of neural networks, since they have
interconnections between all the neurons of which they are part. This characteristic is
reflected in the behavior of the recurrent neural networks; which have the ability, due to
their type of processing, to predict values based on past information.
The volume of paper roll production is the variable to predict because it is the result of
control variables such as cleaning time, change of base paper, change of format,
scheduled, routine stops, quality defects, etc. The variables are the inputs and outputs of
the red neuronal. Once the reliability of the prediction is obtained, new values of
production line stop times are entered to predict the increase in production of the paper
roll converting line.
The simulation of the predictive system is carried out in KERAS, a high-level Python
library, and the engine that trains the neural network is the Google implementation, called
TENSORFLOW. This provides the percentage of error of the production predictions and
the real ones, which is minimal and tends towards the value of zero. As this is the case,
in addition to corroborating the reliability of the prediction, production is increased, the
efficiency of the line conversion and there is a positive impact on the economic income of
the paper company.
PRÓLOGO
El presente trabajo de suficiencia profesional tiene como finalidad mejorar la eficiencia

de una línea de conversión de rollos de papel mediante la predicción de producción de
un modelo neuronal basado en redes neuronales recurrentes. Este trabajo abarca los
siguientes capítulos:
El primer capítulo aborda el tema de la introducción, donde se explican las

generalidades, la descripción del problema en el proceso de conversión de rollos de
papel, el objetivo, los antecedentes investigativos nacionales e internacionales del
presente trabajo.
El segundo capítulo tiene como título marco teórico y conceptual, los cuales
describen los fundamentos básicos de definición, clasificación y tipos de aprendizaje de
las redes neuronales artificiales. Asimismo, se detallan las redes neuronales recurrentes
y su tipo especial de red, LSTM, el cual es clave en la predicción de sistemas temporales.
El tercer capítulo contiene la hipótesis y operacionalización de variables

dependiente e independiente con sus respectivos indicadores que se desarrollan en el
trabajo de investigación.
El cuarto capítulo titulado metodología de la investigación, se explica el tipo y diseño

de la investigación, la unidad de análisis (especifica donde se desarrolla la investigación)
y la matriz de consistencia.
El quinto capítulo es el desarrollo del trabajo de investigación y éste abarca el

procesamiento de la información recolectada para el diseño de la red neuronal recurrente
tipo LSTM para mostrar los resultados conseguidos.
El sexto capítulo describe el análisis y discusión de resultados del trabajo

desarrollado en el capítulo anterior. Asimismo, se realiza la contrastación de hipótesis
del trabajo de investigación.
Finalmente, se exponen las conclusiones, recomendaciones, referencias bibliográficas,

anexos y apéndices del trabajo de suficiencia profesional.
ÍNDICE
RESUMEN ...................................................................................................................... 2
ABSTRACT ..................................................................................................................... 3
PRÓLOGO ...................................................................................................................... 4
ÍNDICE DE TABLAS ....................................................................................................... 7
ÍNDICE DE FIGURAS ..................................................................................................... 8
CAPÍTULO I. INTRODUCCIÓN ...................................................................................... 9
1.1 GENERALIDADES............................................................................................. 9
1.2 DESCRIPCIÓN DEL PROBLEMA DE INVESTIGACIÓN ................................ 10
OBJETIVO DEL ................................................................................................... 13
1.3 ESTUDIO ......................................................................................................... 13
1.4 ANTECEDENTES INVESTIGATIVOS ............................................................. 14
1.4.1 INVESTIGACIONES INTERNACIONALES ............................................... 14
1.4.2 INVESTIGACIONES NACIONALES .......................................................... 16
CAPÍTULO II. MARCO TEÓRICO Y CONCEPTUAL .................................................... 19
2.1. MARCO TEÓRICO .......................................................................................... 19
2.1.1. NEURONA BIOLÓGICA ............................................................................ 19
2.1.2. NEURONA ARTIFICIAL ............................................................................ 20
2.1.3. RED NEURONAL ARTIFICIAL .................................................................. 20
2.1.4. ENTRENAMIENTO DE UNA RED NEURONAL ARTIFICIAL ................... 24
2.1.5. CLASIFICACIÓN DE REDES NEURONALES ARTIFICIALES ................. 29
2.1.5.1. SEGÚN APRENDIZAJE ......................................................................... 29
2.1.5.2. SEGÚN TOPOLOGÍA ............................................................................ 29
2.1.6. REDES NEURONALES RECURRENTES ................................................ 30
2.1.6.1. DEPENDENCIA A LARGO PLAZO ........................................................ 32
2.1.6.2. REDES LSTM ........................................................................................ 33
2.1.6.3. CLAVE DE LAS REDES LSTM .............................................................. 35
2.2. MARCO CONCEPTUAL .................................................................................. 39
CAPÍTULO III. HIPÓTESIS Y OPERACIONALIZACIÓN DE VARIABLES .................... 41
3.1 HIPÓTESIS ...................................................................................................... 41
3.2 VARIABLES E INDICADORES ........................................................................ 41
CAPÍTULO IV. METODOLOGÍA DE LA INVESTIGACIÓN ........................................... 42
4.1 TIPO Y DISEÑO DE LA INVESTIGACIÓN ...................................................... 42
4.2 UNIDAD DE ANÁLISIS .................................................................................... 42
4.3 MATRIZ DE CONSISTENCIA .......................................................................... 43
CAPÍTULO V. DESARROLLO DEL TRABAJO DE SUFICIENCIA ............................... 44
5.1 IDENTIFICACIÓN DE VARIABLES ................................................................. 45
5.2 PREPARACIÓN DE BASE DE DATOS ........................................................... 46
5.3 DESARROLO DE PRONÓSTICO MULTIVARIABLE ...................................... 50
5.3.1 PRE PROCESADO DE INFORMACIÓN LSTM ........................................ 50
5.3.2 DEFINICIÓN Y AJUSTE DE MODELO ..................................................... 53
5.4 EVALUACIÓN DEL MODELO.......................................................................... 56
5.5 EVALUACIÓN DEL MODELO CON UNA PREDICCIÓN ................................. 58
CAPÍTULO VI. ANÁLISIS Y DISCUSIÓN DE RESULTADOS ...................................... 63
6.1 EVALUACIÓN DEL MODELO ÓPTIMO .......................................................... 63
6.2 EVALUACIÓN DE EFICIENCIAS Y TONELADAS ........................................... 67
6.3 CONTRASTACIÓN DE HIPÓTESIS ................................................................ 68
CONCLUSIONES.......................................................................................................... 71
RECOMENDACIONES ................................................................................................. 72
REFERENCIAS BIBLIOGRÁFICAS .............................................................................. 73
APÉNDICE .................................................................................................................... 75
ANEXOS ....................................................................................................................... 78
ÍNDICE DE TABLAS
Tabla 1: Estructura productiva de Perú 2017. ............................................................... 10

Tabla 2: Perú: población censada 1940-2017. .............................................................. 11
Tabla 3: Producción (T/Año) por empresa productora para papel. ............................... 11
Tabla 4: Cuadro de control de eficiencias reales y de presupuesto. ............................. 13
Tabla 5: Funciones de activación. ................................................................................. 23
Tabla 6: Simbología de componentes de una RNR. ..................................................... 35
Tabla 7: Relación de variables e indicadores ................................................................ 41
Tabla 8: Variables para la predicción de la red neuronal .............................................. 46
Tabla 9: Valores de parámetros y RMSE de los seis modelos de la red neuronal ........ 63
Tabla 10: Valores de parámetros y RMSE de los modelos 4 y 5 .................................. 65
Tabla 11: Valores de parámetros y RMSE del modelo 6............................................... 65
Tabla 12: Comparación de RMSE de los seis modelos de red neuronal ...................... 67
ÍNDICE DE FIGURAS
Figura 1: Eficiencia global Softys - 2016. ...................................................................... 12

Figura 2: Neurona biológica. ......................................................................................... 19
Figura 3: Neurona artificial. ........................................................................................... 20
Figura 4: Red neuronal Feedforward básica. ................................................................ 21
Figura 5: Ejemplo del método del gradiente descendente. ........................................... 27
Figura 6: Gradiente descendente con mínimos locales................................................. 28
Figura 7: Jerarquía de redes neuronales. ..................................................................... 29
Figura 8: Red neuronal recurrente. ............................................................................... 31
Figura 9: Representación equivalente de una red neuronal recurrente. ....................... 31
Figura 10: Distancia entre salidas y entradas en una red neuronal recurrente. ............ 32
Figura 11: Módulo de repetición de una RNR con una sola capa. ................................ 34
Figura 12: Modelo de repetición de una RNR con cuatro capas. .................................. 34
Figura 13: Estado de la celda. ....................................................................................... 36
Figura 14: Composición de la puerta del flujo de información. ...................................... 36
Figura 15: Componentes de la Capa del Olvido. ........................................................... 37
Figura 16: Componentes de la Capa de Entrada y Capa Tanh. .................................... 38
Figura 17: Actualización de estado anterior. ................................................................. 38
Figura 18: Capa de salida. ............................................................................................ 39
Figura 19: Diagrama de flujo de desarrollo de trabajo de suficiencia. ........................... 44
Figura 20: Base de datos inicial. ................................................................................... 47
Figura 21: Variables base de predicción de toneladas de rollos de papel. .................... 49
Figura 22: Loss a través del número de épocas para train y test. ................................. 55
Figura 23: Valores reales y estimados en la validación de la red neuronal LSTM. ....... 57
Figura 24: Relación de toneladas y minutos de parada en octubre y noviembre 2018. 58
Figura 25: Valores reales y de predicción del último trimestre del 2019. ...................... 60
Figura 26: Valores reales y de predicción de los fines de semana del modelo 2. ......... 64
Figura 27: Valores reales y de predicción de los fines de semana del modelo 3. ......... 64
Figura 28: Loss a través del número de épocas para train y test. ................................. 66
Figura 29: Valores reales y de predicción del modelo 6. ............................................... 66
Figura 30: Valores reales y de predicción del último trimestre (2019) del modelo 6. .... 67
Figura 31: Eficiencia de la línea de conversión L70 en el 2019. ................................... 68
Figura 32: Toneladas de producción de la línea de conversión L70 en el 2019. ........... 68
Figura 33: Minutos de parada durante el último trimestre del 2019. ............................. 69
Figura 34: Valores de predicción de toneladas del último trimestre 2019. .................... 69
CAPÍTULO I. INTRODUCCIÓN
1.1 GENERALIDADES
La predicción de datos en una serie temporal es la atención de científicos y expertos
de diferentes áreas y especialidades. En estos últimos diez años se han desarrollado
diferentes trabajos, investigaciones y proyectos en la predicción de series de tiempo
utilizando redes neuronales artificiales recurrentes (Gonzáles-Avella, J., Tudir J., y Rul-
Ian, G., 2017). Los comportamientos de los datos registrados de distintos procesos
fueron analizados para su posterior interpretación y lograr predecir el comportamiento de
los mismos.
Este análisis fue consecuencia de una mezcla de diferentes aspectos de estudio. Por
ello, se identifican cinco campos de trabajo principales, según lo indicado en el libro
Análisis de Series Temporales (Peña, D., 2005):
• Estudio de series climáticas y astronómicas desarrollados por Kolmogorov, Wiener

y Cramer (primera mitad de Siglo XX) los cuales dieron origen a la teoría de
procesos estocásticos estacionarios.
• Estudio de métodos de alisado para la predicción de producción y ventas
introducidos en los años 60’s y 70’s por investigadores en el desarrollo de procesos
operativos.
• Estudio y teoría para la predicción y control de sistemas lineales desarrollados en
ingeniería de control introducidos en los años 70s y estimulada por el desarrollo de
la ingeniería aeronáutica.
• Estudio de procesos no estacionarios y sistemas no lineales en los últimos años del
siglo XX y desarrollados por Estadísticos, Economistas y Físicos.
• Estudio de métodos multivariantes y de reducción de dimensión en sistemas
dinámicos.
Los métodos multivariantes son métodos estadísticos utilizados para determinar la
contribución de varios factores en un simple evento o resultado. Los mismos que
brindaron las bases necesarias para el uso de las Redes Neuronales Recurrentes (RNN)
como herramienta de predicción en el estudio de series temporales. Por ello, para
almacenar la información se usan las redes neuronales recurrentes de tipo Long Short
Term Memory (LSTM) (Torres, J., 2018).
El presente trabajo de investigación tiene como alcance el desarrollo de un modelo

neuronal basado en redes neuronales recurrentes para la mejora de la eficiencia de una
línea de conversión de rollos de papel.
1.2 DESCRIPCIÓN DEL PROBLEMA DE INVESTIGACIÓN

En el 2017, la industria y producción del papel higiénico en Perú tuvo una
participación productiva de 3.2% equivalente a 2,791 millones de soles (Sociedad
Nacional de Industrias, 2018) tal y como indica la Tabla 1.
Tabla 1: Estructura productiva de Perú 2017.
Fuente: SNI (2018), Análisis e impacto productivo Perú 2017

El impacto de estos valores se debe a que, al ser un producto de primera necesidad, la
demanda es proporcional al crecimiento poblacional. Según lo mostrado en la Tabla 2,
con información censada en el año 2017, la población creció 10.7% respecto al año 2007
(INEI, 2018). Es por ello que se deduce un aumento anual de demanda y por
consecuente, las empresas pertenecientes al rubro papelero deberán producir cada año
más volumen de rollos de papel.
Tabla 2: Población censada 1940-2017.
Fuente: INEI (2018), Perú: población censada, omitida y total 2017
La empresa SOFTYS PERÚ, para simplicidad se le denominará SOFTYS, lideró la

producción papelera con 544´300 toneladas durante los años 2011 y 2017 (Quimtia,
2018), según lo mostrado en la Tabla 3. Es por ello, que debe poseer una capacidad
productiva confiable, desde el área de ventas, gestión, recursos humanos hasta
operación y mantenimiento. Éste último es el que permite dar confiabilidad técnica y
disponibilidad continua a las máquinas de producción.
Tabla 3: Producción (T/Año) por empresa productora para papel .
Fuente: Quimtia (2018), Reporte Anual del área comercial 2018

Sin embargo, al revisar la eficiencia mensual de la empresa en el año 2016, según lo
indicado en la Figura 1, ésta no logró superar el 50% continuamente, a excepción del
mes de noviembre. Las exigencias que solicitaba el área de planeamiento para las ventas
de producto conllevaron a revisar qué acciones se realizarían para poder brindar
confiabilidad a la continuidad operativa y con ello, la mejoría de producción y eficiencia.
Eficiencia SOFTYS
60.0%
50.6%
48.0% 47.6% 47.3%
50.0% 45.8%
43.5% 43.4% 43.7% 45.3%
40.3% 39.1% 38.9%
40.0%
30.0%
20.0%
10.0%
0.0%
Figura 1: Eficiencia global Softys - 2016.
Fuente: Muñoz J. (2017), Área de Control de Producción – SOFTYS PERÚ
Estos indicadores podían ser analizados por diferentes herramientas de mejora. El

detalle era elegir la que brindara una perspectiva general de las variables de control y de
salida que ésta posee. Dado que al identificarlas se visualizaría el impacto de cada una
de ellas en la producción.
SOFTYS está formada por tres áreas de producción, sin embargo, la conversión de rollos
de papel, en comparación de las otras dos, obtuvo la menor eficiencia global de 50.2%
en el año 2017. Este valor es el promedio ponderado de las cuatro líneas de operación
que posee: L60, L70, L90 y L100, por ello se debe identificar cuál impactó más con baja
producción. Al finalizar el 2017, la línea L70 tuvo una eficiencia de 48.9% tal y como
muestra la Tabla 4, siendo la más baja de las cuatro y, a pesar que superó la meta
propuesta de 44%, evidenció la existencia de problemas a identificar, analizar y corregir.
Control de Eficiencias CMPC
Año
2017 Eficiencias TISSUE (%)
Real Ppto
Fabricación 80.0 78.2
Conversión Rollos 50.2 49.0
L60 50.6 46.8
L70 48.9 44.0
L90 54.2 54.0
L100 51.3 47.1
Conversión Doblados 69.7 68.0
Institucionales 69.5 67.0
Eficiencias SANITARIOS (%)

Real Ppto
Sanitarios 80.2 76.5
P20 89.5 83.5
P30 77.4 76.0
P40 76.4 72.0
Toalla Femenina (T10) 74.3 74.5
Tabla 4: Cuadro de control de eficiencias reales y de presupuesto .
Fuente: Muñoz J. (2017), Área de Control de Producción – SOFTYS PERÚ
La investigación corresponde a la línea número 7 de conversión de rollos de papel

instalada en Perú, L70, de la empresa papelera SOFTYS, la cual tuvo una producción de
15’ 201 toneladas durante el año 2017.
Debido a que la eficiencia de la línea en mención fue menor en comparación al resto de

líneas de toda la empresa, y que las líneas afines también estuvieran próximas, fue un
indicador de la existencia de una afectación común. Los motivos fueron la disponibilidad
de los equipos, las velocidades de operación, los productos elaborados, los rechazos por
calidad y otra variante que conllevaban a que casi todas superen por poco el 50%.
Con lo mencionado en los párrafos anteriores, se enuncia la siguiente problemática:

¿Qué variables afectan la eficiencia de una línea de conversión de rollos de papel?
1.3 OBJETIVO DEL ESTUDIO

Desarrollar un modelo neuronal para mejorar la eficiencia de una línea de
conversión de rollos de papel.
1.4 ANTECEDENTES INVESTIGATIVOS
Se han realizado diversos estudios, tanto sobre metodología para la evaluación de
modelos neuronales, como también sobre la aplicación de estas metodologías en
predicciones de series temporales. A continuación, se presentan algunas tesis de pre y
post grado presentadas en diversas universidades internacionales e investigaciones
nacionales realizadas por diferentes autores.
1.4.1 INVESTIGACIONES INTERNACIONALES

• En el trabajo de (Colás, J., 2019) se identificaron los patrones y estimaron
los modelos que permitían obtener predicciones sobre la temperatura
corporal a corto plazo, trabajando sobre las series temporales de
temperatura obtenidas de pacientes ingresados en un hospital de Madrid,
España. En los análisis realizados, los modelos autorregresivos integrados
de promedio móvil (ARIMA) no resultaron adecuados para la predicción de
los estados febriles. No se obtuvieron resultados adecuados en la
predicción de la temperatura con horizontes superiores a la media hora,
más sí para horizontes para los siguientes 15 minutos. Sin una definición
matemática sólida de la fiebre, la aproximación binaria deja fuera picos
anormales de temperatura que empeora el desempeño de los modelos.
Estos modelos fueron una ayuda a la práctica clínica pero supervisada por
personal médico.
• En el trabajo de (Cabezón, M., 2018) se realizó la predicción de la demanda

eléctrica de España desde junio del 2017 hasta mayo del 2018 con un error
absoluto promedio porcentual (MAPE) de 1.29%. El trabajo fue desarrollado
con la empresa Innova-tsn, el cual tenía como objetivo mejorar la predicción
actual desarrollada con un modelo autorregresivo integrado de media móvil
temporal (SARIMA) a uno con mayor confiabilidad. Para llegar a ello, se
implementaron diferentes modelos, primero se utilizó redes neuronales
recurrentes sencillas, para luego usar modelos autorregresivos integrados
de media móvil (ARIMA) y SARIMA. Al final, con un estudio adicional de
variables, que influyen en el consumo de energía eléctrica, se desarrolló un
modelo confiable con backtesting para corroborar la predicción durante un
año.
• En la publicación de (González-Avella, J., Tuduri, J., y Rul-lan, G., 2017) se

predijo el consumo eléctrico de la ciudad de Sóller en España con un grado
de precisión aproximada al 93%. Para el entrenamiento de la red de
memoria de corto y largo plazo (LSTM) se introdujo como parámetros de
entrada a la serie histórica de consumo eléctrico y la serie histórica del valor
de la temperatura, como variable externa para un mismo periodo de tiempo.
La metodología empleada consistió en tres pasos: el análisis de serie
temporal, implementación de redes neuronales para su predicción y la
verificación de su confiabilidad. Ésta se realizó con la librería KERAS de
Python pues facilitó un adecuado manejo de la programación en el
comportamiento de la serie predicha. El análisis proporcionó una
herramienta adicional en la toma de decisión para la contratación de la
demanda de energía eléctrica.
• En la publicación de (Montesdeoca, B., 2016) se demostró la confiabilidad

de las redes Feedforward y las redes LSMT aplicándolas en la predicción
de la potencia eólica instalada en España. En este trabajo se realizó una
serie de pruebas con los dos modelos para analizar su capacidad de
predicción y el proceso de aprendizaje variando los parámetros de las
mismas. Con un tamaño de batch de 200, cantidad de neuronas de 50 y
factor de aprendizaje con un valor de 0.01 se obtuvieron los mejores
resultados. De esta manera, se demostró que, con los parámetros
adecuados, tanto las redes Feedforward y las redes LSTM, presentan un
comportamiento similar pues ambas generan sus salidas en función del
último valor observado y con tasas de error mínimas.
• En el trabajo de (Villa, G., 2016) se elaboró una Red Neuronal Artificial con
la capacidad de realizar predicciones del caudal promedio mensual de un
río de la cuenca incremental de la Central Hidroeléctrica Itaipu. Esto fue
requerido debido a una necesidad real de la División de Estudios
Hidrológicos y Energéticos del estado de Mato Grosso do Sul en Brasil, de
mejorar las predicciones hidrológicas mensuales. Para ello, se presentaron
seis modelos con diferentes entradas que predijeron correctamente los
caudales. La cantidad de neuronas ocultas en cada una de las redes con
los mismos inputs, no presentó un patrón en común por ello, en una de las
redes se predijo con 10 neuronas ocultas y en otros casos con 15, 20 ó 25
neuronas. En todos se obtuvieron resultados con coeficientes de
correlación de 83% a 90% en la fase de verificación con eventos reales.
1.4.2 INVESTIGACIONES NACIONALES

• En la tesis de (Jacinto, R., 2019) se realizó un modelo de pronóstico de
predicción (con múltiples etapas adelantadas) del comportamiento de las
variables de contaminación ambiental de material particulado 𝑃𝑀2.5 en el
distrito de Carabayllo – Lima. El modelo fue entrenado con datos reales de
la estación automatizada de calidad de aire del distrito de Carabayllo en el
intervalo de 2 años, y como variables de entrada se usaron los datos de
concentraciones de contaminantes de material particulado (𝑃𝑀2.5 y 𝑃𝑀10 ) y
químicos (𝐶𝑂, 𝑆𝑂2, 𝑁𝑂) sobre tres diferentes algoritmos de
retropropagación y dos modelos de neuronas en una única capa oculta para
hallar parámetros de un modelo óptimo de predicción. La red neuronal fue
aplicada sobre un grupo de 72 datos de prueba obteniendo resultados con
un error porcentual medio de -0.1089% lo cual indicó un pronóstico preciso
para el caso de estudio.
• En la tesis de (Zamudio, J., 2017) se predijo el volumen de ventas de una

distribuidora de bebidas ante la problemática de sobre almacenamiento en
temporadas de alta demanda. La predicción se realizó para cuatro bebidas
más representativas con algoritmos de entrenamiento Backpropagation
(BP) y ajuste de pesos Levenberg-Marquadt (LM), topología: 4 entradas
(temperatura ambiental, precio, variación poblacional y tiempo), una salida
(predicción de ventas), función de transferencia de entrada la tangente
sigmoidal hiperbólica y la función de transferencia de salida línea (purelin)
en una capa oculta, coeficiente de momento 0.1, meta de error 0,1 t tasa
de aprendizaje 0.001. Para cada bebida se trabajó con 150 neuronas,
escogiendo sólo 3 con el menor error cuadrático medio (mse). Siendo la
bebida D la que presentó un menor % de error absoluto con valor de 8.82.
• En la tesis de (Malaver, M., 2015) se determinó el pronóstico de las ventas

de los servicios de la empresa mencionada con el menor porcentaje de
error al aplicar la metodología Kaastra y Boyd en redes neuronales. Los
parámetros de entrada para la red neuronal fueron las variables que la
empresa requiere para realizar un evento hacia la persona por la cual desea
contratar sus servicios. Dichas variables fueron el tiempo en que se desea
realizar el evento, el tipo de cliente que contrata los servicios a la empresa
y el tipo de servicio por el cual desean realizar su evento social. Se
realizaron tres diferentes configuraciones de red neuronal para hallar el
más mínimo error, siendo la tercera red neuronal planteada, la más
adecuada por presentar el menor porcentaje de error (1%).
• En el trabajo de (Zavaleta, E., & Collas, E., 2010) se brindaron las bases de
una visión precisa de la demanda, planes de producción, inventario,
distribución y compra dentro de las empresas del sector farmacéutico.
Luego se propuso el uso de una red neuronal (Perceptrón multicapa) para
el pronóstico de la demanda de productos farmacéuticos, la cual realizó su
fase de aprendizaje con el algoritmo back propagation que brinda una taza
de error de 3.57% en el mejor caso encontrado; su implementación se
desarrolló, con el software MATLAB para la construcción de la red neuronal,
y del lenguaje JAVA para el diseño de la interfaz gráfica de usuario.
• En la tesis de (Álvarez, E., 2010) se estableció el grado de precisión del
Modelo de Red Recurrente en la predicción del comportamiento futuro de
las variables estratégicas de marketing y ventas de la industria de
panificación y se comparó con los modelos estadísticos de series de tiempo
y regresión lineal. Para ello se realizó los siguientes pasos: primero se inició
con el análisis y selección de las variables críticas de éxito de marketing y
ventas, luego se diseñó el modelo de red neuronal recurrente asociado al
área de marketing y ventas; posteriormente, se validó el modelo de red
neuronal recurrente asociado al área de marketing y ventas. Al finalizar ello,
se realizó el pronóstico del comportamiento de las variables de marketing y
ventas utilizando las técnicas estadísticas, para finalmente comparar la
precisión del pronóstico del modelo de red neuronal recurrente con los
modelos estadísticos.
CAPÍTULO II. MARCO TEÓRICO Y CONCEPTUAL
2.1. MARCO TEÓRICO

El objetivo de una red neuronal artificial es desarrollar un modelo matemático que
ejecute el método de aprendizaje del cerebro humano. Al poseer millones de neuronas,
el cerebro tiene una capacidad de almacenamiento y de obtención de resultados que
sirve como base en el desarrollo de las máquinas inteligentes actuales.
2.1.1. NEURONA BIOLÓGICA

El cerebro es un conjunto de células cerebrales (neuronas) conectadas
entre sí. Una neurona recibe impulsos eléctricos como señales, éstos procesan el
mensaje recibido y lo transfieren a las siguientes neuronas.
Una neurona está compuesta de cuatro partes:
• Las dendritas aceptan los impulsos eléctricos de entrada.

• El soma procesa la información.
• El axón transforma la información de entrada para que sea recibida por la
siguiente neurona.
• La sinápsis es el contacto electroquímico entre neuronas. [12]
Estos componentes se visualizan en Figura 2.
Figura 2: Neurona biológica.
Fuente: Ramón y Cajal (1888), Histología del Sistema Nervioso del Hombre y de los Vertebrados
2.1.2. NEURONA ARTIFICIAL
La neurona artificial tiene relación a la neurona biológica porque posee una
estructura similar, pero es más simplificada.
Cada neurona recibe y combina señales desde otras neuronas. Esta interconexión
con diversas redes ejecuta el aprendizaje de las neuronas artificiales. Mediante la
sinápsis es posible la transmisión de información entre estas neuronas a través de
las dendritas. Si la señal combinada supera un umbral, el nervio libera
neurotransmisores. Según el tipo de neurotransmisor, las neuronas se excitan si
reciben el estímulo o inhibirse si no llega, generando una respuesta u otra según el
caso (Haykin, S., 1998). La representación de una neurona artificial se observa en
la Figura 3.
Figura 3: Neurona artificial.
Fuente: Haykin (1998), Neural Networks: A Comprenhesive Foundation
2.1.3. RED NEURONAL ARTIFICIAL

Una red neuronal está formada por un conjunto de neuronas artificiales y
se organizan en capas. Una red neuronal tiene una capa de entrada, una a más
capas ocultas, una capa de salida y el conjunto de pesos entre las diferentes
capas. Los nodos de la capa de entrada corresponden con el número de variables
que ingresan a la red. El número de nodos de salida depende del número de
variables a predecir. Por último, en la capa intermedia se aplican las
transformaciones no lineales a las variables de entrada (Rodriguez, D., 2018).
La Figura 4 muestra una red neuronal feedforward básica de predicción:
Figura 4: Red neuronal Feedforward básica.
Fuente: Rodriguez D. (2018), Implementación de una red neuronal desde cero
2.1.3.1. TOPOLOGÍA DE UNA RED NEURONAL
La organización y disposición de las neuronas dentro de una red

se denomina topología. Según la posición en la red, una neurona es de
entrada, de salida u oculta. También existe la posibilidad de añadir una
neurona sesgada que actúe de término constante denominada bias.
Respecto al tipo de conexiones, se establecen dos casos: entre dos

neuronas de una misma capa (conexión lateral o intracapa) o entre
neuronas de distintas capas (conexión inter-capa). Según el sentido de
éstas, si todas las conexiones van en un sentido es feedforward o si es en
ambos sentidos es feedback (recurrente).
2.1.3.2. ROL DE UNA NEURONA
La neurona es la pieza clave del proceso de distribución de

información desde la capa de entrada hasta la de salida. En cada uno de
ellos, se ejecuta una función de activación que depende de un resultado
ponderado. Éste es distribuido en las neuronas de la siguiente capa, por lo
que las neuronas se activan a sí mismas con los pesos ponderados. Esto
implica que la fuerza con la que dos neuronas están conectadas depende
del peso de la información que se envía.
2.1.3.3. ELEMENTOS DE UNA RED NEURONAL
En la Figura 3 se visualizan los elementos de una neurona, y por

tanto todos ellos son necesarios para el aprendizaje de la red.
Las entradas a la red son las variables explicativas, las cuales poseen
pesos iniciales que son aleatorios o establecidos. Estos pesos se
denominan sinápticos y representan la fuerza de una conexión sináptica
entre la neurona pre y postsináptica. Por esta razón, se establece que cada
peso proporciona su importancia en la función de entrada.
Estos pesos representan un estado de la memoria porque si un peso es

cercano a 0 se considera que no existe conexión entre esas neuronas.
Estos coeficientes se adaptan dentro de la red y son modificados en
respuesta de los ejemplos de muestreo de acuerdo a las reglas de
entrenamiento.
A continuación, se detallan las funciones de una neurona:
• Función de entrada: La neurona debe recibir una sola entrada global,

por lo tanto, todas las entradas se combinan (𝑥1 , 𝑥2 , 𝑥3 … ) en una sola.
Esto se logra a través de la función de entrada, la cual se calcula a partir
del vector entrada.
La función de entrada se representa por la ecuación 1:
𝑒𝑗 = (𝑥1 . 𝑤1𝑗 ) ∗ (𝑥2 . 𝑤2𝑗 ) ∗ … ∗ (𝑥𝑛 . 𝑤𝑛𝑗 ) (1)
Donde 𝑒𝑗 es la entrada a la neurona j, * representa al operador

apropiado. Éste, según la necesidad, es la suma, el producto, el
máximo, etc, y siendo n el número de entradas a la neurona 𝑁𝑖 , y 𝑤𝑗 al
peso. Los pesos cambian la medida de influencia que tienen los valores
de entrada. Éstos permiten que un gran valor de entrada genere una
pequeña influencia si son lo suficientemente pequeños.
• Función de activación: La función activación 𝜑𝑗 calcula el estado de

actividad de una neurona 𝑎𝑗 (𝑡) en función del potencial resultante ℎ𝑗
representada en la ecuación 2:
𝑎𝑗 (𝑡) = 𝜑𝑗 (ℎ𝑗 (𝑡)) (2)
Las funciones de activación recurrentes se muestran en la Tabla 5: [3]
Tabla 5: Funciones de activación.
Fuente: Cartuche E. (2017), Hardlim y Hardlims en Matlab, aplicado a la detección de obstáculos

por medio de un robot
• Función de salida: El valor resultante de esta función es la salida de la
neurona 𝑗 (out). Por tanto, la función de salida determina qué valor se
transfiere a las neuronas vinculadas. Si la función de activación está por
debajo de un umbral determinado, ninguna salida pasa a la siguiente
neurona. Los valores de salida están comprendidos en el rango [0, 1] o [−1,
1] o también son binarios {0, 1} o {−1, 1}.
2.1.4. ENTRENAMIENTO DE UNA RED NEURONAL ARTIFICIAL

Las redes neuronales procesan dos tipos de información:
• La información volátil, que se refiere a los datos que varían con la

dinámica de la red. Esta información es almacenada en el estado
dinámico de las neuronas.
• La información no volátil, que permanece constante para recordar los
patrones aprendidos y está almacenada en los pesos sinápticos.
El entrenamiento de una red neuronal consiste en determinar la relación entre los

pesos que permiten a la red predecir o clasificar información.
El aprendizaje se basa en el entrenamiento de la red con patrones de muestra o

entrenamiento. El proceso del algoritmo consiste en que la red ejecuta los patrones
iterativamente, cambiando los pesos de las sinapsis, hasta que convergen a un
conjunto de pesos óptimos que representan a los patrones adecuadamente. Los
pesos sinápticos se ajustan para brindar respuestas correctas al conjunto de
patrones de entrenamiento.
Para el entrenamiento de la red, se requieren tres nuevos elementos:
• Función de coste: Indica el error de la relación entre las variables de

entrada 𝑥 y el target 𝑦. El objetivo de la red será minimizar esta función.
Las funciones comunes para variables continuas son mean squared
error (MSE), mean absolute error (MAE), mean absolute percentage
error (MAPE) y para variables binarias son binary cross entropy,
categorical crossentropy, etc.
• Optimizador: Es el mecanismo a través del cual la red se actualiza,
basándose en los datos que posee y en la función de coste. El
optimizador mejor desarrollado es el gradiente descendiente.
• Métrica: Es una medida de puntuación de confiabilidad de un modelo
neuronal. Sirve para comparar distintos modelos y elegir el mejor de
acuerdo a su precisión.
2.1.4.1. ETAPAS DEL APRENDIZAJE
Para minimizar el error se requiere modificar el valor de los pesos

sinápticos en función de las entradas disponibles y con ello optimizar la
respuesta de la red a las salidas deseadas.
Por ello se establece una función de error 𝐸(𝑊 ) que mide el rendimiento
de la red en un instante determinado. Las etapas en este proceso de
aprendizaje son:
1. Inicialización de la red: Cuando 𝑛 = 0 se generan pesos

aleatorios para las conexiones. Con estos pesos se calcula un primer
error de predicción o clasificación, según sea el caso.
2. Hacia delante: La información se transmite desde la entrada hasta
la salida en una única dirección a través de las funciones de
activación y de los pesos. Para cada instante de tiempo 𝑛 se analiza
un nuevo patrón de entrada y se ajustan los pesos para disminuir el
nivel de error de la etapa anterior.
3. Asignación del error: El algoritmo finaliza cuando el error obtenido
es menor que una cota prestablecida, cuando el error no decrece o
cuando se ha alcanzado el número de iteraciones establecidas. En
caso de no finalizar, se procede el paso 4.
4. Propagación del error: El error obtenido en la capa de salida es
propagado hacia las primeras neuronas para modificar los pesos. El
algoritmo más utilizado es el Backpropagation que se explicará más
adelante.
5. Ajuste: Se ajustan los pesos usando el método del gradiente
descendiente con el fin de minimizar el error de predicción.
El algoritmo backpropagation tiene dos etapas:
1. Se calcula la salida de la red con un patrón de entrada.

2. Se calcula el error (entre la salida obtenida y el target) y propaga
este error hacia las primeras neuronas desde la capa de salida,
donde cada neurona precedente recibe un error proporcional a su
contribución sobre el error total de la red.
Este método está basado en el método del gradiente descendente el cual

indica que una función multivariable 𝐹(𝑥) está definida y es diferenciable
en un entorno de a, entonces 𝐹(𝑥) disminuye más rápidamente en la
dirección del gradiente negativo de 𝐹 en 𝑎. De aquí se deriva la ecuación
3:
𝑎𝑛+1 ≤ 𝑎𝑛 − 𝜇∇𝐹(𝑎𝑛 ) (3)
Para µ suficientemente pequeño se debe cumplir la ecuación 4:
𝐹(𝑎𝑛 ) ≥ 𝐹(𝑎𝑛+1 ) (4)
Por ello, se resta el término µ∇𝐹(𝑎𝑛 ) para direccionar en sentido contrario

al gradiente, buscando el mínimo. [4]
Se inicia con un conjunto de pesos 𝑊(0) en el instante inicial y se calcula

la dirección de máximo decrecimiento del error, que es su vector gradiente
𝛻𝐸(𝑊 ). Luego se deben actualizar los pesos siguiendo el sentido contrario
al gradiente y se obtiene la ecuación 5:
𝑊 (𝑛 + 1) ≤ 𝑊 (𝑛) − µ𝛻𝐸(𝑊 (𝑛)) (5)

El objetivo es descender por la superficie del error hasta alcanzar un
mínimo local. El método del gradiente descendente consta de tres pasos
tal y como se observa en la Figura 5.
1. Determinar el valor del paso µ.

2. Calcular el gradiente de la función error para encontrar la dirección
de máximo decrecimiento.
3. Moverse en la dirección correspondiente hasta que el vector
gradiente sea prácticamente nulo.
Figura 5: Ejemplo del método del gradiente descendente.
Fuente: Chiguano B., Ramírez J. y Quilumba F. (2018), Estimación de los Parámetros Eléctricos de
un Generador Sincrónico basada en Mediciones de Laboratorio usando Métodos de Optimización
No Lineal.
Donde µ representa la tasa de aprendizaje (learning rate) e indica el tamaño

del paso. Este parámetro mide la velocidad con que varían los pesos y tiene
bastante importancia debido a que, si µ es pequeño, la velocidad de
aprendizaje es lenta y caería en mínimos locales, como se observa en la
Figura 6, mientras que, si µ es grande, hay una mayor variación de los
pasos en cada iteración y es más rápido, pero no encontraría nunca una
solución si oscila en torno al mínimo.
Figura 6: Gradiente descendente con mínimos locales.
Fuente: Genesis (2018), Gradient Descent – Part 2.
No hay un valor fijo para la tasa de aprendizaje debido a que depende de

la muestra que se use para entrenar la red.
Por último, se describe la aceleración del aprendizaje. El objetivo de esta

variable es reducir el impacto de las oscilaciones para tasas de aprendizaje
altas y atenuar la variación de los pesos sinápticos. Gracias a este término
se genera un cambio en la dirección para que el cambio actual sea más
suave. La aceleración del aprendizaje determina el efecto en el instante 𝑡 +
1 del cambio de los pesos realizados en el instante 𝑡. Este término garantiza
la convergencia de la red en un número menor de iteraciones, aunque son
más lentas. Con aceleración 𝑚, la actualización del peso en tiempo 𝑡 es
representada por la ecuación 6:
𝜕𝐸(𝑡)
∆𝑊𝑖𝑗 (𝑡 + 1) = 𝜇𝑖 𝑥𝑖 (𝑡) + 𝑚∆𝑊𝑖𝑗 (𝑡) (6)
𝜕ℎ𝑗
2.1.5. CLASIFICACIÓN DE REDES NEURONALES ARTIFICIALES
Las redes neuronales se clasifican según su aprendizaje y topología.
2.1.5.1. SEGÚN APRENDIZAJE

En las redes neuronales se distinguen tres tipos de aprendizaje:
• El aprendizaje supervisado: La red dispone de los patrones de

entrada y de salida deseadas. En función de ellos se modifican los
pesos de las sinapsis para ajustar la entrada a esa salida.
• El aprendizaje no supervisado: La red no presenta patrones
objetivos, sólo patrones de entrada, por ello la red clasifica estos
patrones en función de las características comunes.
• El aprendizaje reforzado: Usa una fórmula híbrida pues el supervisor
no enseña patrones objetivos, sino que sólo dice si acierta o falla en
su respuesta ante un patrón de entrada.
2.1.5.2. SEGÚN TOPOLOGÍA

La arquitectura de una red consiste en la organización y
disposición de las neuronas en la red. Las neuronas se agrupan formando
capas que tienen diferentes características y estas capas se organizan
hasta formar una red. En la Figura 7 se detalla la jerarquía: [16]
Figura 7: Jerarquía de redes neuronales.
Fuente: Rumelhart D., McClelland J., y Hinton G. (1986), Parallel distributed processing:
explorations in the microstructure f cognition, vol1: foundations
Las neuronas se agrupan para formar capas y éstas se unen formando
redes neuronales (Cabezón, M., 2018). De este modo usando la topología
de la red se clasifican en:
• Redes Monocapa: Poseen una sola capa que para unirse se crean
conexiones entre las neuronas internas. Entre las redes monocapa
existen neuronas conectadas consigo mismas y se denominan
autorecurrentes.
• Redes Multicapa: Están formadas por varias capas de neuronas.
Estas redes se clasifican según la conexión de sus capas.
o Feedforward: Cuando las conexiones entre las capas siguen
un único sentido (hacia delante), desde los inputs hasta los
outputs. Ejemplos de este tipo de red son el perceptrón,
adaline, etc. También se denominan estáticas.
o Feedback o recurrente: Cuando las conexiones son hacia
delante como hacia atrás y la información vuelve a capas
anteriores en la dinámica de la red. Éstas se denominan
dinámicas, las cuales se usan en el presente trabajo de
investigación.
2.1.6. REDES NEURONALES RECURRENTES

Las redes neuronales recurrentes pertenecen a las redes feedback o
dinámicas. Éstas poseen una gran habilidad y adaptabilidad para aprender
problemas complejos que tratan sobre datos con series temporales. Estas redes
tienen estados ocultos distribuidos en el tiempo que permiten almacenar
información sobre el pasado de forma eficiente.
En la Figura 8 se observa una red neuronal recurrente que posee una entrada 𝑥𝑡
y una salida ℎ𝑡 . El lazo de realimentación permite que la información se transmita
de una red a otra. Estos lazos son característicos y únicos, sin embargo, si se
analiza a mayor detalle no son tan diferentes a una red neuronal tradicional.
Figura 8: Red neuronal recurrente.
Fuente: Olah C. (2015), Understanding LSTM Networks
Una red neuronal recurrente se considera como copias múltiples de la misma red,
donde cada una de ellas transfiere información a la siguiente. La Figura 9 muestra
que una red neuronal recurrente tiene una característica relacionada a secuencias
y sucesiones. En los últimos 10 años se desarrollaron un sinfín de aplicaciones
exitosas de redes neuronales recurrentes a diferentes tipos de problemas:
reconocimiento de voz, traducción, predicción de valores, descripción de
imágenes, etc. Esto es debido al uso de LSTM, un tipo muy especial de red
neuronal recurrente que funciona para diferentes actividades, mejor que su
predecesora.
Figura 9: Representación equivalente de una red neuronal recurrente.

2.1.6.1. DEPENDENCIA A LARGO PLAZO
Las redes neuronales recurrentes son capaces de conectar
información previa a la tarea actual. Sólo se necesita información reciente
para proyectar el presente y futuro. Por ejemplo, considerando un modelo
de lenguaje que intente predecir la siguiente palabra en una oración en
función de las anteriores. La oración es “Las nubes están en el…”, en ella
no se necesita ningún contexto adicional pues se prevé que la siguiente
palabra será cielo. En este tipo de casos, cuando la brecha entre la
información actual y la faltante es pequeña, las redes neuronales
recurrentes son efectivas usando la información pasada.
En otro tipo de situaciones, donde se necesita más contexto, tal y como

predecir la última palabra en la oración “Yo nací en Perú, pero crecí en
Estados Unidos… por ello yo hablo fluidamente…”. Esta información
sugiere que la siguiente palabra será el nombre de un idioma, pero si se
desea precisar el correcto se necesita el contexto de Estados Unidos. Es
posible que exista una brecha muy grande entre la información necesaria y
la palabra a predecir.
Como esta brecha crece, las redes neuronales recurrentes llegan a ser
incapaces de aprender el conectar la información. La Figura 10 muestra la
distancia a recorrer entre la salida ℎ3 y la entrada 𝑥0 la cual indica lo
comentado líneas arriba.
Figura 10: Distancia entre salidas y entradas en una red neuronal recurrente.

En teoría, las Redes Neuronales Recurrentes son absolutamente capaces
de resolver estas “dependencias a largo plazo”. Sin embargo, en la práctica,
las RNR no son capaces de aprenderlas. Esta afirmación fue estudiada y
detallada por (Hochreiter, S., & Schmidhuber, J., 1997) quienes detallaron
razones fundamentales por las cuales resulta ser incompresible.
Afortunadamente, las redes LSTM no tienen ese problema.
2.1.6.2. REDES LSTM

Las redes Long Short Term Memory, en español, Memoria a corto
y largo plazo, conocidas como “LSTMs” son un tipo especial de Redes
Neuronales Recurrentes, capaces de aprender dependencias de largo
plazo. Este tipo de redes fueron introducidas por (Hochreiter, S., &
Schmidhuber, J., 1997) y fueron redefinidos y popularizados por diferentes
personas en publicaciones posteriores. Éstas tienen un adecuado
comportamiento en diferentes tipos de problemas y son ampliamente
usados.
Las LSTMs fueron diseñadas exclusivamente para evitar el problema de la

dependencia a largo plazo. Recordar la información durante largos periodos
de tiempo es prácticamente su comportamiento porque no les cuesta
aprender.
Todas las redes neuronales recurrentes tienen la forma de una cadena de

módulos repetitivos de redes neuronales. Este módulo de repetición tiene
una estructura muy simple, tal y como una capa de tanh (tangente
hiperbólica), la cual es mostrada en la Figura 11.
Figura 11: Módulo de repetición de una RNR con una sola capa.
Si bien las LSTMs tienen una estructura tipo cadena, el módulo de

repetición no necesariamente es como el anterior, pues posee una
estructura diferente. En lugar de tener una sola capa, existen cuatro capas,
las cuales interactúan de una manera muy especial. La Figura 12 muestra
lo indicado anteriormente.
Figura 12: Modelo de repetición de una RNR con cuatro capas.
Los símbolos que forman parte de la red son explicados en la Tabla 6

mostrada a continuación:
Tabla 6: Simbología de componentes de una RNR.
La Figura 12 posee líneas de transferencia de la salida de un nodo a las

entradas de otros. Los círculos rosas representan zonas de operaciones
(como una suma o resta vectorial), mientras que las cajas amarillas son
capas de redes neuronales de aprendizaje. Las líneas emergentes
significan concatenación, mientras que una línea bifurcándose señala que
su contenido está siendo copiado y se dirige a diferentes entradas.
2.1.6.3. CLAVE DE LAS REDES LSTM

La clave de la LSTM es el estado de la celda, el cual es la
información que recorre la línea horizontal dentro de la red mostrado en la
parte superior de la Figura 13.
Figura 13: Estado de la celda.
El estado de la celda recorre toda la red con interacciones lineales

permitiendo el flujo de información sin cambios.
Las LSTM tienen la habilidad de extraer o agregar información al estado de

la celda, cuidadosamente reguladas por estructuras denominadas puertas.
Las puertas son una forma opcional de permitir el flujo de información. Ellos
están formados de una capa de red neuronal sigmoidal y una operación de
multiplicación como indica la Figura 14.
Figura 14: Composición de la puerta del flujo de información.
La capa sigmoidal tiene como salida números entre cero y uno, los cuales
indican cuánto de cada uno de ellos se debe dejar pasar. Un valor de “0”
significa que no se debe dejar pasar nada, mientras que el valor de “1”
significa dejar pasar todo. Es por ello, que una LSTM tiene tres puertas para
proteger y controlar el estado de la celda:
• La capa del olvido: Esta capa sigmoidal decide qué información
pasará y cuál no a través de la celda de estado. La Figura 15 muestra
esta puerta, la cual toma como entradas a ℎ𝑡−1 y a 𝑥𝑡 y la salida
devuelve un número con el valor de 0 y 1 la cual interactúa con la
celda de estado 𝐶𝑡−1 en un producto. Un valor de 1 representa que se
almacena, guarda o mantiene completamente, mientras que un 0
representa que se olvida, borra y deshecha completamente. Se
representa por la ecuación 7:
𝑓𝑡 = 𝜎(𝑊𝑓 . [ℎ𝑡−1 , 𝑥𝑡 ] + 𝑏𝑓 ) (7)
Figura 15: Componentes de la Capa del Olvido.
• Capa de Entrada: Esta capa decide qué nueva información se va a

almacenar en la celda de estado. Según lo observado en la Figura 16,
esta capa posee dos partes, la primera es una capa sigmoidal
denominada capa de entrada, la cual decide qué valores serán
actualizados. La segunda es la capa tangente hiperbólica (tanh), la
cual crea un vector de nuevos valores, 𝐶̃𝑡 el cual tiene posibilidad de
ser agregado al estado. Ambas capas serán combinadas mediante
una operación para crear una actualización al estado. Todo ello se
representa en las ecuaciones 8 y 9:
𝑖𝑡 = 𝜎(𝑊𝑖 . [ℎ𝑡−1 , 𝑥𝑡 ] + 𝑏𝑖 ) (8)
𝐶̃𝑡 = tanh (𝑊𝐶 . [ℎ𝑡−1 , 𝑥𝑡 ] + 𝑏𝐶 ) (9)
Figura 16: Componentes de la Capa de Entrada y Capa Tanh.
El siguiente paso consiste en actualizar la celda de estado anterior,

𝐶𝑡−1 a 𝐶𝑡 . Para que esto se realice se deben ejecutar los pasos
visualizados en la Figura 17, se multiplica el estado anterior por la
salida de la capa del olvido 𝑓𝑡 , el producto olvida las cosas que se
decidieron olvidar en el paso anterior. A este producto se le suma el
otro producto entre las salidas de las capas de entrada y de tanh, 𝑖̃𝑡 ∗
𝐶̃𝑡 . Esta suma posee los nuevos valores ordenados
proporcionalmente por cuanto se decide actualizar cada estado
representado por ecuación 10:
𝐶𝑡 = 𝑓𝑡 ∗ 𝐶𝑡−1 + 𝑖𝑡 ∗ 𝐶̃𝑡 (10)
Figura 17: Actualización de estado anterior.

• Capa de salida: Esta salida se obtiene a través de una capa
sigmoidal, el cual decide que partes del estado de la célula serán las
nuevas salidas. Luego, el estado de la celda pasa a través de un tanh,
el cual establece los valores entre – 1 y 1, para luego multiplicarlos
por la salida de la capa sigmoidal, y todo esto brinda como resultado
las partes que se han escogido. Esto se visualiza en la Figura 18
cuyas ecuaciones 11 y 12 son representadas por:
𝑜𝑡 = 𝜎(𝑊𝑜 . [ℎ𝑡−1 , 𝑥𝑡 ] + 𝑏𝑜 ) (11)

ℎ𝑡 = 𝑜𝑡 ∗ tanh(𝐶𝑡 ) (12)
Figura 18: Capa de salida.
2.2. MARCO CONCEPTUAL

• Peso: Para el presente trabajo representa a los coeficientes que se adaptan
dentro de la red neuronal para determinar la intensidad de la señal de entrada
registrada por la neurona artificial.
• Normalizar: En el presente trabajo de investigación corresponde al proceso que
se encarga de reducir los rangos de los datos de entrada a la red neuronal entre
[0,1] o [-1,1].
• Entrenamiento: Para el presente trabajo consiste en ajustar cada uno de los
pesos de las entradas de todas las neuronas que forman parte de la red neuronal,
para que las respuestas de la capa de salida se ajusten lo más posible a los datos
conocidos.
• Capa: En el presente trabajo de investigación se refiere a un conjunto de neuronas
cuyas entradas provienen de una capa anterior (o de los datos de entrada en el
caso de la primera capa) y cuyas salidas son la entrada de una capa posterior.
• Estado: Para el presente trabajo significa la representación de la memoria de la
red neuronal con diferentes pesos establecidos los cuales indican la conexión
entre las neuronas.
• Celda: Para el presente trabajo representa el elemento principal de la red neuronal
recurrente tipo LSTM, el cual posee todas las capas de funcionamiento para la
predicción de un sistema temporal.
• Ajustar: En el presente trabajo de investigación significa modificar los valores de
los pesos sinápticos usando diferentes métodos con el fin de minimizar el error de
predicción.
CAPÍTULO III. HIPÓTESIS Y OPERACIONALIZACIÓN DE VARIABLES
3.1 HIPÓTESIS
El modelo neuronal incrementará la eficiencia de una línea de conversión de rollos

de papel.
3.2 VARIABLES E INDICADORES
Variable Independiente (VI): Desarrollo de un modelo neuronal.

Variable Dependiente (VD): Mejora de la eficiencia de una línea de conversión de
rollos de papel.
Tabla 7: Relación de variables e indicadores
Fuente: Elaboración propia

CAPÍTULO IV. METODOLOGÍA DE LA INVESTIGACIÓN
4.1 TIPO Y DISEÑO DE LA INVESTIGACIÓN

El presente trabajo tiene un enfoque cuantitativo porque cumple las siguientes
características:
• La percepción de la realidad posee objetividad porque el problema investigado

no ha sido manipulado ni afectado por terceros.
• El razonamiento es deductivo porque se contrasta la hipótesis y los estudios
previos presentados en la teoría.
• La finalidad sigue un patrón predecible y estructurado.
• Tiene una orientación de explicar y predecir el fenómeno estudiado.
• El principio de verdad es de validación, confiabilidad, y las conclusiones son
derivadas de la generación de un nuevo conocimiento.
• La perspectiva del investigador ocurre en la realidad externa del investigador.
El alcance de la investigación es explicativo porque realiza la descripción de conceptos

o fenómenos o del establecimiento de relaciones entre conceptos porque está dirigido a
responder por las causas del fenómeno estudiado.
El diseño de la investigación es experimental porque una vez realizado el modelo de

predicción, se ingresarán nuevos valores de entrada para verificar la confiabilidad de la
predicción con la producción real.
4.2 UNIDAD DE ANÁLISIS

La presente investigación tiene como unidad de análisis la línea de conversión de
rollos de papel con velocidad de producción de 650 m/min equivalente a 1142 rollos/min
de la planta Los Rosales de la empresa papelera SOFTYS ubicada en Santa Anita, Lima,
Perú.
4.3 MATRIZ DE CONSISTENCIA
CAPÍTULO V. DESARROLLO DEL TRABAJO DE SUFICIENCIA
Una vez definidos el significado de una red neuronal, ejemplos de ella y cómo funcionan
por dentro, se procedió con el desarrollo del trabajo de investigación, la cual se concentró
en la implementación de una red neuronal recurrente tipo LSTM con múltiples entradas
y valorar los resultados obtenidos de la predicción. La Figura 19 muestra el flujo a seguir
en el desarrollo del presente trabajo.
INICIO
IDENTIFICACIÓN RECOPILACIÓN DE PREPARACIÓN DE

DE VARIABLES DATOS DATOS
DEFINICIÓN DE
ENTRENAMIENTO AJUSTE DE
CONJUNTO DE PRE PROCESADO
DE RED PARÁMETROS DE
ENTRENAMIENTO DE INFORMACIÓN
NEURONAL RED NEURONAL
Y PRUEBA
EVALUACIÓN DE
EVALUACIÓN DE CONFIABILIDAD AJUSTE DE
CONFIABILIDAD DE PREDICCIÓN PARÁMETROS DE
DE PREDICCIÓN CON NUEVA RED NEURONAL
DATA
¿LA NO
PREDICCIÓN
MEJORÓ?
SÍ
VALIDACIÓN DE
FIN RED NEURONAL
Figura 19: Diagrama de flujo de desarrollo de trabajo de suficiencia.

5.1 IDENTIFICACIÓN DE VARIABLES
Para el desarrollo del presente trabajo de investigación se recopiló la información
de la producción por turno de rollos de papel de la línea de conversión 70 desde el año
2016 hasta fines del 2019 el cual se visualiza en el Anexo 1. Ésta contiene información
como fecha, turno, minutos disponibles de producción, minutos de parada y otras
variables importantes. Para el caso de modelos de predicción, mientras mayor
información y confiabilidad de la base de datos se posea, la predicción será confiable.
Por ello se seleccionaron las variables con mayor influencia en la producción de rollos
de papel incluyendo a la producción misma por turno.
Las variables se describen a continuación:
1. No: Cuantifica la cantidad de datos que el modelo tiene disponible.

2. Año: Son 4 valores del 2016 al 2019. Las toneladas y eficiencias aumentan
anualmente por las diferentes mejoras aplicadas en los sistemas productivos.
3. Mes: Son los meses del año representados numéricamente.
4. Día: Son los días de la semana. De lunes a viernes la producción es continua y
los sábados y domingos, debido a la demanda, no se producen rollos de papel.
Esto cambia los fines de mes, debido a que por cierre de producción no
necesariamente se requieren rollos de papel.
5. Toneladas: Es el valor a predecir de rollos de papel.
6. Rollos: Son los rollos producidos en cada turno por la línea de conversión L70.
7. Minutos Disponibles: Son los minutos que la línea de producción está
programada para producir según la demanda.
8. Minutos de Parada: Son los minutos que la línea deja de producir por motivos
operacionales, de mantenimiento, calidad o afines.
9. Operación Real: Es el tiempo real de producción de la línea de conversión.
10. Turno: Son 3 turnos: A, B y C, representados numéricamente en 1, 2 y 3.
11. OTTO: Es una de las 3 empaquetadoras que posee la línea de conversión. Indica
si está produciendo (1) o está inoperativa (0).
12. PAC: Es una de las 3 empaquetadoras que posee la línea de conversión. Indica
si está produciendo (1) o está inoperativa (0).
13. CMW: Es una de las 3 empaquetadoras que posee la línea de conversión. A
diferencia de las otras, ésta posee mayor capacidad y velocidad de producción.
Indica si está produciendo (1) o está inoperativa (0).
Las primeras muestras de las variables de la base de datos se visualizan en la Tabla 8:
Tabla 8: Variables para la predicción de la red neuronal
Fuente: Bermudez C. (2019), Área de Conversión de Rollos – SOFTYS PERÚ
Estas variables fueron usadas para predecir la producción en toneladas de rollos de

papel del siguiente turno. La base de datos debía estar en formato “.csv” dado que la
librería PANDAS de Python versión 3.6.4 lo requería de esa manera. La característica
de este formato es que los valores están separados por comas y es adecuado para la
programación que requiere la red neuronal tipo LSTM.
5.2 PREPARACIÓN DE BASE DE DATOS

La información del archivo “TESIS_DATA.csv” se visualiza en el Anexo 2, el cual
a diferencia del Anexo 1 sólo posee datos las variables mencionadas líneas arriba
separadas por comas. Sin embargo, ésta no estaba lista para ser usada, porque
presentaba un formato no manejable para Python. Las primeras filas se muestran en la
Figura 20:
Figura 20: Base de datos inicial.
Fuente: Bermudez C. (2019), Área de Conversión de Rollos – SOFTYS PERÚ
Para obtener una base de datos óptima, se consolidó la fecha en un formato adecuado
de “año – mes - día”. Para ello, primero debía realizarse la lectura del archivo
‘TESIS_DATA.csv’ con ‘read_csv’ y extraer los valores de las columnas deseadas con
‘parse_dates’. La codificación es la siguiente:
La primera columna, “No”, se descartó porque las especificaciones correctas fueron

otorgadas por las nuevas fechas establecidas. Esto se realizó con ‘.drop’.
Para las columnas restantes se definieron títulos para una adecuada identificación:
Si una de las columnas de predicción poseía datos erróneos (como NaN o DIV/0), éstos
serían reemplazados con el valor de 0. Para este caso, se codificó a la columna
“toneladas” en caso presentara este problema.
Luego de todas las modificaciones, el nuevo archivo fue guardado como “toneladas.csv”
con ‘.to_csv’. y se encontraba listo para ser usado en la red neuronal.
All ejecutar el código de programación con la nueva base de datos, se visualizaron las
fechas, columnas deseadas y sus valores respectivos:
En la Figura 21, se observan todas las muestras de las nueve variables de la red
neuronal. Éstas son las toneladas de rollos (rojo), número de rollos (azul), minutos -
disponibles (negro), minutos de parada (verde), minutos reales de operación (amarillo),
el turno de operación (naranja) y el funcionamiento de las tres empaquetadoras de la
línea de producción, OTTO (morado), PAC (rosado) y CMW (marrón). Esto será
importante para determinar qué variables tienen mayor impacto en la predicción, sin
embargo, será abordado más adelante, luego de tener confiabilidad en la red neuronal
recurrente tipo LSTM diseñada con la programación en lenguaje python.
Figura 21: Variables base de predicción de toneladas de rollos de papel.

5.3 DESARROLO DE PRONÓSTICO MULTIVARIABLE
5.3.1 PRE PROCESADO DE INFORMACIÓN LSTM
Se procedió con establecer cuántos valores previos se requerían para
predecir el siguiente valor. A esta variable se le definió como ‘PASOS’ y se
consideraron siete valores previos para predecir el octavo.
Para estandarizar la base de datos, se extrajo la información del archivo

“toneladas.csv” y se verificó si los valores eran “float 32”.
Luego se procedió a normalizar los valores con un escalamiento entre 0 y 1 con la

función ‘MinMaxScaler’. La razón para normalizar era que, al estandarizar las
entradas, el entrenamiento se realizaría de manera más rápida y reduciría las
posibilidades de quedarse atascado en los óptimos locales. Además, para la
disminución de peso y conseguir la solidez a desviaciones estándar muy pequeñas
de las variables, se lograría con entradas estandarizadas. La fórmula explícita que
utiliza ‘MinMaxScaler’ para escalar un vector X, siendo los valores min y max los
valores de entrada entre los que se desea escalar se muestra en la ecuación 13:
𝑋−min(𝑋)
𝑋𝑠𝑡𝑑 = max(𝑋)−min(𝑋) (13)
Donde 𝑋𝑠𝑡𝑑 está escalado entre 0 y 1.
Para normalizar la base de datos se requirió a ‘.fit’ y ‘scaler’ del rango 0 a 1, tal y
como indica el siguiente código de programación:
Una vez normalizado, se debía convertir la serie temporal en un problema de
aprendizaje supervisado. Esto con el fin de ingresar valores a la red neuronal y
entrenarla con backpropagation. Para ello se definió la función
‘series_to_supervised’ cuyo código es:
Lo que realizó la función fue separar a las 9 variables de predicción (var1, var2, …,
var9) en dos secciones, una de ingreso y otra de salida. Las variables de entrada
tenían establecidas 9 columnas con tiempo ‘t-1’: var1(t-1), var2(t-1), var3(t-1), …,
var8(t-1), var9(t-1) y las de salida, con tiempo ‘t’: var1(t), var2(t), var3(t), …,
var8(t), var9(t).
Luego, con el número de datos previos, establecidos preliminarmente por “PASOS”

igual a 7, las 9 columnas de ingreso se convirtieron en 7 sub columnas de cada uno
con tiempo ‘t-1’ hasta ‘t-7’, resultando en total 63 sub columnas. Éstas fueron
definidas por var1(t-7), var2(t-7), …, var3(t-4), var4(t-4), ..., var8(t-1), var9(t-1).
Una vez explicado el funcionamiento, se procedió a utilizar la función de aprendizaje
supervisado, el cual tenía como entradas a la base de datos normalizada, los
‘PASOS’ igual a 7 y el tiempo de valores a predecir, en este caso 1. Para visualizar
sólo las 5 primeras filas, se codificó con ‘head(5)’.
Para sólo predecir a la variable de toneladas como única salida y no a las otras 8,
se bloquearon las columnas restantes con ‘drop’.
Al ejecutar la función, se visualizaron las 63 columnas de ingreso y la única

variable de toneladas como salida.
5.3.2 DEFINICIÓN Y AJUSTE DE MODELO
En esta sección, se dividió al conjunto de datos en dos secciones, una de
train (entrenamiento) y otra de test (validación). La proporción recomendada fue de
80 y 20, es decir del total de valores del conjunto de datos, el 80% fue utilizado
como train y el otro 20%, como validación. Por ello se realizó la codificación:
Luego se subdividió en variables de entrada (X) y de salida (Y) para train (train_X,
train_y) y también para test (test_X, test_y).
Finalmente, las entradas train (X) y test (X) se redimensionaron al formato 3D

requerido para el ingreso a las redes LSTM (muestras, pasos de tiempo,
características). Esto se visualiza en la programación:
Al ejecutarlo, se visualizó la entrada como un arreglo matricial (3433,1,63) que

significa “3433 entradas con vectores de 1x63”. Este último obtenido de los 7 días
previos y las 9 variables de predicción.
Luego se definió la red neuronal con el modelo ‘Sequential’, que es una pila lineal
de capas, en el que de forma sencilla se iban añadiendo capas una detrás de otra.
Los valores ingresados fueron:
- Cantidad de neuronas de capa oculta: 32 (se recomienda valores 2𝑛 )
- Cantidad de neuronas de salida: 1.
- Matriz de entrada: 7x9 = 63 características.
- Función de pérdida: MAE (Error absoluto medio) cuya fórmula de cálculo
viene dado por la ecuación 14:
∑𝑁
𝑖=1 ⃓𝑥𝑖 −𝑥̂𝑖 ⃓
𝑀𝐴𝐸 = (14)
𝑁
Donde 𝑥𝑖 es el valor real, 𝑥̂𝑖 es el valor estimado y N es el número de

datos totales.
- Optimizador: Adam, con un ratio de aprendizaje (learning rate) = 0.001

(este valor varía dependiendo del autor)
Con el comando ‘summary’ se observó la estructura de la red de forma resumida y

el número de parámetros utilizados por la red neuronal.
Luego se ajustó con los siguientes parámetros:
- Número de épocas: 100

- Tamaño de lote: PASOS = 7
Estos valores, al ser variables y de acuerdo a la mejor performance, fueron
modificados para obtener la red neuronal óptima. Para poder visualizar la gráfica
de pérdidas para train y test se realizó la siguiente programación:
Se visualiza en la Figura 22, que el valor de LOSS disminuyó a medida que las
épocas aumentaban, indicando que el modelo estaba aprendiendo. A su vez se
observó que no existía overtfitting porque las curvas de train y test eran distintas y
no se superponían uno con otra.
Figura 22: Loss a través del número de épocas para train y test.

5.4 EVALUACIÓN DEL MODELO
Una vez que el modelo estaba ajustado, se procedió a pronosticar el conjunto de
datos de prueba completo. Para ello, se utilizaron los datos de test_X y test_y, los cuales
no habían sido utilizados hasta el momento, para comparar la confiabilidad de la red
neuronal.
Primero se realizó la predicción de test_X y se guardó como results.
Luego se redimensionaron los valores de ingreso a formato de redes recurrentes LSTM.
Después se concatenaron ambos resultados y se invirtió la escala con ‘scaler.inverse’.

Esto está definido por la ecuación 15:
𝑋𝑒𝑠𝑐𝑎𝑙𝑎𝑑𝑜 = 𝑋𝑠𝑡𝑑 . (𝑚𝑎𝑥 − min) + min (15)
Donde 𝑋𝑒𝑠𝑐𝑎𝑙𝑎𝑑𝑜 establece el escalado en el intervalo [mín, máx] deseado, con la

siguiente programación:
Asimismo, se invirtió la escala en el conjunto de datos de prueba con los números de

producción en toneladas esperados, test_y.
Con los pronósticos y los valores reales en su escala original, se calculó una puntuación
de error para el modelo. En este caso, se calculó la raíz del error cuadrático medio
(RMSE) que brindó el error en las mismas unidades que la variable. Este valor fue
determinado por la ecuación 16:
∑𝑁
𝑖=1(𝑥𝑖 −𝑥̂𝑖 )
2
𝑅𝑀𝑆𝐸 = √ (16)
𝑁
Donde 𝑥𝑖 es el valor real, 𝑥̂𝑖 es el valor estimado y N es el número de datos totales.
Cuyo código de programación es:
El resultado fue:
Se graficaron los valores reales con los estimados para visualizar lo próximo que están
el uno al otro en la Figura 23, con la siguiente programación:
Figura 23: Valores reales y estimados en la validación de la red neuronal LSTM.

5.5 EVALUACIÓN DEL MODELO CON UNA PREDICCIÓN
Primero debía evaluarse la relación de las nueve variables de predicción con la
producción en toneladas. Estas relaciones se observan a detalle en la Figura 21, sin
embargo, la que tenía mayor impacto fue la de minutos de parada debido a que era
inversamente proporcional a la producción de rollos de papel. Esta relación se visualiza
en la Figura 24:
70 1000
900
60
800
50 700
40 600
500 Suma de
30 400 TONELADAS
20 300
200 Suma de
10
100 MINUTOS DE
0 0 PARADA
3-Nov
6-Nov
9-Nov
12-Nov
15-Nov
18-Nov
21-Nov
24-Nov
27-Nov
30-Nov
13-Oct
1-Oct
4-Oct
7-Oct
10-Oct
16-Oct
19-Oct
22-Oct
25-Oct
28-Oct
31-Oct
Figura 24: Relación de toneladas y minutos de parada en octubre y noviembre 2018.
Una vez determinada la relación, se enfocó en la disminución de los valores de esta

variable para poder aumentar el tonelaje de producción y con ello la eficiencia de la línea
de conversión. La base de datos de predicción se enfocó en el último trimestre del 2019,
debido a que a partir de octubre se realizaron mejoras a la línea de producción de rollos
tales como:
- Mantenimiento preventivo a los equipos críticos.

- Mantenimiento correctivo programado durante cada parada de línea.
- Capacitación a personal operativo en funcionamiento correcto de equipos
críticos.
- Capacitación a personal de mantenimiento en actualización de backlogs, uso
de herramienta SAP, selección de equipos críticos y pasos de condición
básica de sub sistemas de la línea de conversión.
Este valor, junto con las demás variables fueron ingresados a la red neuronal para
evaluar la predicción.
Los pasos de predicción fueron los mismos que se ejecutaron líneas arriba, por ello el
código es:
El RMSE de la predicción resultó:
Los valores reales y con predicción son visualizados en la Figura 25:

Figura 25: Valores reales y de predicción del último trimestre del 2019.

Las predicciones realizadas resultaron confiables por tener un RSME bajo y tuvieron
tendencia a disminuir a medida que la red estaba aprendiendo, sin embargo, éstas
podían mejorarse modificando los siguientes parámetros iniciales:
• PASOS: 7
• Número de neuronas en la capa oculta: 32
• Número de épocas: 100
• Tamaño de lote: 7
• Ratio de aprendizaje: 0.001
• Optimizador: Adam
No existen valores ideales para cada uno de ellos, por eso se realizaron diferentes
pruebas hasta encontrar el que poseía un error de predicción menor a los demás. Para
el presente trabajo de investigación se presentaron seis modelos (incluyendo el anterior)
con su respectivo error los cuales se muestran a continuación:
➢ Primer Modelo
➢ Segundo Modelo
➢ Tercer Modelo
➢ Cuarto Modelo
➢ Quinto Modelo
➢ Sexto Modelo
CAPÍTULO VI. ANÁLISIS Y DISCUSIÓN DE RESULTADOS
En este capítulo se procede a comparar los seis modelos del capítulo anterior y se
selecciona el óptimo para la predicción del último trimestre del 2019. Con ello, se verifica
si la predicción de las toneladas es confiable y si las mejoras que se realizaron en los
equipos críticos disminuyeron los minutos de parada, aumentaron la producción y con
ello la eficiencia de la línea de conversión, contrastando la hipótesis formulada.
6.1 EVALUACIÓN DEL MODELO ÓPTIMO

Los seis modelos desarrollados poseen diferentes valores de parámetros de
entrenamiento y de error. La Tabla 9 resume cada uno de ellos:
Tabla 9: Valores de parámetros y RMSE de los seis modelos de la red neuronal
El modelo 1, el cual fue desarrollado en el capítulo anterior, posee un RMSE de 4.36

para el modelo de train - test y para el último trimestre del 2019, 4.73.
Para los siguientes modelos, el valor de ‘PASOS’ fue aumentado hasta 21. El motivo es
que, al ser tres turnos por día, se tomará una semana para predecir el siguiente valor.
El modelo 2 ya tiene el valor de ‘PASOS’ actualizado y se aumentan a 64 las neuronas

de la capa oculta pues es la siguiente potencia de 2. Asimismo, el ratio de aprendizaje
aumentó a 0.01 para que pueda entrenarse con mayor velocidad. Al realizar la
predicción, el RSME disminuyó para ambos casos obteniéndose: 4.26 y 4.47. La
predicción de los fines de semana, donde no se requiere producción, tuvo tendencia a 0
tal y como se muestra en la Figura 26:
Figura 26: Valores reales y de predicción de los fines de semana del modelo 2.
El modelo 3 tiene como principal modificación el número de épocas a 200 y la reducción

de neuronas de la capa oculta a 32, sin embargo, los RMSE aumentaron y las
predicciones los fines de semanas también están distantes al real. Esto logra visualizarse
en la Figura 27.
Figura 27: Valores reales y de predicción de los fines de semana del modelo 3.

Los modelos 4 y 5, a pesar que tienen como parámetro 200 épocas, 64 y 128 neuronas
en la capa oculta respectivamente, los RMSE aumentaron a 4.37 y 4.39 en comparación
de los tres primeros modelos, tal y como indica la Tabla 10. Ello indica que no se debe
aumentar las neuronas a más de 64 ni los números de épocas más de 200.
Tabla 10: Valores de parámetros y RMSE de los modelos 4 y 5
Una vez revisados los cinco primeros modelos, se establecen los parámetros del último.
El valor de ‘PASOS’ se mantiene con 21; las neuronas de la capa oculta con 64; el
número de épocas es un punto medio entre 100 y 200, 150; el tamaño de lote con 21 y
el ratio de aprendizaje queda con 0.001. Esto se visualiza en la Tabla 11.
Tabla 11: Valores de parámetros y RMSE del modelo 6

El valor de pérdida disminuye según el avance de épocas y eso indica que la red está
aprendiendo correctamente tal y como se muestra en la Figura 28. También se visualizan
los valores de predicción para el train – test de la red neuronal y para el último trimestre
del año 2019 en las Figuras 29 y 30 respectivamente.
Figura 28: Loss a través del número de épocas para train y test.
Figura 29: Valores reales y de predicción del modelo 6.

Figura 30: Valores reales y de predicción del último trimestre (2019) del modelo 6.
Los RMSE son los valores más bajos de los seis, tal y como indica la Tabla 12:
Tabla 12: Comparación de RMSE de los seis modelos de red neuronal
Es por ello que se escoge al modelo 6 como óptimo para la predicción de rollos de papel
de la línea de conversión L70.
6.2 EVALUACIÓN DE EFICIENCIAS Y TONELADAS

Durante el último trimestre del 2019, la eficiencia de la línea de conversión de rollos
tuvo mejoras significativas e incluso tuvo récords de eficiencia tal y como indica la Figura
31. El anexo 3 muestra todos los valores de eficiencia desde el 2016 para mayor detalle
y revisión.
Eficiencia de activo
80.0%
61.4% 64.6%
57.3% 55.4% 57.4% 55.2% 53.9% 55.9% 56.0% 53.1% 54.5%
60.0% 47.7%
40.0%
20.0%
0.0%
Ene-19 Feb-19 Mar-19 Abr-19 May-19 Jun-19 Jul-19 Ago-19 Set-19 Oct-19 Nov-19 Dic-19
Figura 31: Eficiencia de la línea de conversión L70 en el 2019.
Asimismo, el tonelaje de producción durante el último trimestre tuvo una mejoría, a

excepción del mes de diciembre, esto debido a que no tuvo programación tanto los días
previos, posteriores y feriados del mes respectivo. Sin embargo, los días programados
tuvieron una buena performance generando récords de eficiencia. Las toneladas durante
todo el 2019 se ven en la Figura 32.
Toneladas
1,500 1,352
1,250 1,187 1,263 1,256 1,227
1,173 1,093 1,160 1,122
1,064
918
1,000
500
0
Ene-19 Feb-19 Mar-19 Abr-19 May-19 Jun-19 Jul-19 Ago-19 Set-19 Oct-19 Nov-19 Dic-19
Figura 32: Toneladas de producción de la línea de conversión L70 en el 2019.
6.3 CONTRASTACIÓN DE HIPÓTESIS

El presente trabajo de investigación sustenta la hipótesis que el modelo neuronal
incrementará la eficiencia de una línea de conversión de rollos de papel.
Primero se evaluaron las variables de predicción a utilizar, luego se desarrolló el modelo
neuronal recurrente tipo LSTM. Después se tuvo que seleccionar el mejor modelo de los
seis desarrollados porque tuvo los menores errores RMSE de predicción. Una vez
evaluado ello, se observó el impacto que tienen los minutos de parada en la producción
de toneladas, por ello se realizaron mejoras en diferentes ámbitos de la línea de
producción. Esto se vio reflejado en la disminución de minutos en el último trimestre tal
y como indica la Figura 33, en ella también se observa la línea de tendencia.
Figura 33: Minutos de parada durante el último trimestre del 2019.
Estos nuevos valores fueron ingresados en la red neuronal pronosticando un incremento

de producción de rollos de papel para los últimos meses de 2019. La Figura 34 muestra
ello junto con la línea de tendencia:
Figura 34: Valores de predicción de toneladas del último trimestre 2019.

Al compararlo con los valores reales, se obtuvo un RMSE de 4.41, como indica la Tabla
10, el cual era el menor de todos los modelos. Asimismo, esto se vio reflejado en la
mejora de producción, y, por ende, récords de eficiencia en la línea de producción de
rollos de papel según lo mostrado en la Figura 31.
Con resultados obtenidos en los ítems anteriores se verifica la hipótesis planteada, por
lo tanto para el trabajo de suficiencia la hipótesis es positiva.
CONCLUSIONES
Este trabajo ha servido para ampliar los conocimientos aprendidos en la asignatura

de Inteligencia Artificial, el cual ha asentado las bases de esta investigación en las
técnicas de las redes neuronales para la predicción.
Tras este trabajo se ha estudiado de forma teórica las redes neuronales y cómo
funcionan (en especial las recurrentes tipo LSTM). Además, se ha realizado un análisis
de la producción de rollos de papel y se han comparado diferentes modelos de
predicción. Después de todo el trabajo se llega a las siguientes conclusiones:
1. Se ha logrado desarrollar un modelo neuronal recurrente tipo LSTM que sirvió como
base para mejorar la eficiencia de la línea de conversión de rollos de papel.
Asimismo:
- Se ha estudiado las características de las redes neuronales, entre ellas su
clasificación según su topología o su aprendizaje. Además, se han estudiado
las etapas de aprendizaje y la forma en la que entrenan las redes.
- Se han introducido las redes neuronales recurrentes, estudiando su
funcionamiento en su proceso de memoria y en qué se diferencian respecto a
las tradicionales.
- Se necesitan grandes cantidades de datos, confiabilidad en ellas y valores
normalizados para un correcto entrenamiento de las redes neuronales.
- Se ha estudiado la serie de producción de rollos de papel, seleccionándose
nueve variables de ingreso para la predicción. El impacto que posee los
minutos de parada es inversamente proporcional. Asimismo, se observa que
los fines de semana y de mes, la producción es cero, debido a que la variación
de la demanda no requiere rollos de papel.
- Se ha implementado en el software de Python, seis modelos de redes
neuronales recurrentes con el fin de predecir la producción de rollos de papel.
El que tuvo mejor performance es el de 21 datos previos, 64 (26 ) neuronas en
la capa oculta, 150 épocas y 0.001 de learning rate con un RMSE de 4.41 para
la predicción del último trimestre del 2019.
RECOMENDACIONES
En cuanto a posibles mejoras en los modelos realizados principalmente se podrían

valorar:
• Construir redes más complejas con más capas ocultas y no sólo una.
• Estudiar introducir más variables de predicción, como supervisor encargado, tipo
de producto, rechazos por parte de calidad o afines.
• Modificar los parámetros de las redes construidas. Por ejemplo, se pueden
cambiar:
o PASOS
o Función de pérdida.
o Optimizador.
o Learning rate.
o Número de épocas y tamaño del batch.
o etc.
• Realizar un estudio de los días en los que más se equivoca la red y entender por
qué. Una vez entendido, valorar la inclusión de nuevas variables para que la red
aprenda que esos días son distintos a un día normal.
• Seguir realizando mejoras en la línea de producción para que los minutos de
parada disminuyan y verificar si con ello es suficiente para que la mejora de la
eficiencia aumente.
• Utilizar la data histórica de la empresa para realizar una Inteligencia de Negocios
para realizar análisis profundo de sus ventas en un determinado espacio de
tiempo, de esta manera colabora a realizar una buena toma de decisiones por
parte del área de analistas de la empresa.
REFERENCIAS BIBLIOGRÁFICAS
[1] Álvarez E., “Modelo de red neuronal recurrente en la predicción de las variables
estratégicas de marketing y venta de la industria de panificación”, tesis de maestría,
Universidad Nacional de Ingeniería, Lima, Perú, 2010.
[2] Cabezón M., “Predicción demanda eléctrica española. Implementación de redes

neuronales recurrentes en Python”, trabajo de fin de máster, Universidad Complutense
de Madrid, Madrid, España, 2018.
[3] Cartuche E., “Hardlim y Hardkims en Matlab, aplicado a la detección de obstáculos

por medio de un robot”, Ecuador, 2017.
[4] Chiguano B., Ramírez J., Quilumba F., y Gallardo C., “Estimación de los Parámetros
Eléctricos de un Generador Sincrónico basada en Mediciones de Laboratorio usando
Métodos de Optimización no Lineal”, Ecuardo - USA, 2018.
[5] Colás J., “Aplicación de modelos de redes neuronales a la predicción de la fiebre”,

trabajo de fin de grado, Universidad Politécnica de Madrid, España, 2019.
[6] González-Avella J., Tudurí J., y Rul-lan G., “Análisis de Series Temporales Usando
Redes Neuronales Recurrentes”. Obtenido de www.apsl.net/blog/2017/06/14/analisis-
de-series-temporales-usando-redes-neuronales-recurrentes (2017).
[7] Haykin S., “Neural Networks: A Comprehensive Foundation (2nd Edition)”, Ontario,
Canada, 1998.
[8] Hochreiter S., y Schmidhuber J., “Long Short-term memory. Neural Computation, 9(8):
páginas 1735-1780, 1997.
[9] Jacinto R., “Redes Neuronales para predicción de contaminación del aire en
Carabayllo – Lima”, tesis de maestría, Universidad Nacional Federico Villarreal, Lima,
Perú, 2019.
[10] Malaver M., “Aplicación de redes neuronales para determinar el pronóstico de las
ventas en la empresa catering & buffets MyS ubicada en la ciudad de Piura”, tesis de
titulación, Universidad César Vallejo, Piura, Lima, 2015.
[11] Montesdeoca B., “Estudios de predicción en series temporales de datos

meteorológicos utilizando redes neuronales recurrentes”, trabajo de fin de grado,
Universidad de Las Palmas de Gran Canaria, España, 2016.
[12] Ramón y Cajal Villa S., “Histología del sistema nervioso del hombre y de los
vertebrados - 1era edición”, España, 1888.
[13] Peña D., “Análisis de series temporales - 1era edición”, Madrid, España, 2010.
[14] Rodriguez D., “Implementación de una red neuronal desde cero”. Obtenido de
www.analyticslane.com/2018/05/23/implementacion-de-una-red-neuronal-desde-cero/
(2018).
[15] Torres J., “Deep Learning, Introducción práctica con Keras (Primera Parte),
Cataluña, España, 2018.
[16] Rumelhart D., McClelland J., y Hinton G., “Parallel distributed processing:
explorations in the microstructure f cognition, vol1: foundations”, páginas 45-76, USA,
1986.
[17] Villa G., “Modelo de predicción de aportaciones mensuales utilizando redes

neuronales artificiales. Aplicación a la cuenca del río Amambaí (Brasil)”, trabajo de fin de
máster, Universidad Politécnica de Valencia, España, 2016.
[18] Zamudio J., “Predicción del volumen de ventas de una distribuidora de bebidas
gasificadas y no gasificadas en la ciudad de Chimbote utilizando redes neuronales
artificiales”, tesis de titulación, Universidad Nacional de Trujillo, Lima, 2017
[19] Zavaleta E. y Collas E., “Sistema de pronóstico de la demanda de productos

farmacéuticos basado en redes neuronales”, tesis de titulación, Universidad
Nacional Mayor de San Marcos, Lima, Perú, 2010.
APÉNDICE
CÓDIGO DE PROGRAMACIÓN DEL MODELO 6 CON MEJOR PERFORMANCE DE
PREDICCIÓN EN PYHTON
ANEXOS
ANEXO 1
Formato de base de datos de variables de predicción de producción de rollos de papel

ANEXO 2
Formato CSV de base de datos de variables de predicción de

producción de rollos de papel
ANEXO 3
Eficiencias mensuales de la línea 70 de conversión de rollos de papel

TSP-Caso 01

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

TSP-Caso 01

Cargado por

Copyright:

Formatos disponibles

UNIVERSIDAD NACIONAL DE INGENIERÍA

FACULTAD DE INGENIERÍA MECÁNICA

TRABAJO DE SUFICIENCIA PROFESIONAL

“DESARROLLO DEL MODELO NEURONAL PARA LA MEJORA DE

PARA OBTENER EL TÍTULO PROFESIONAL DE:

El volumen de producción de rollos de papel es la variable a predecir debido a que es el

El presente trabajo de suficiencia profesional tiene como finalidad mejorar la eficiencia

El primer capítulo aborda el tema de la introducción, donde se explican las

El tercer capítulo contiene la hipótesis y operacionalización de variables

El cuarto capítulo titulado metodología de la investigación, se explica el tipo y diseño

El quinto capítulo es el desarrollo del trabajo de investigación y éste abarca el

El sexto capítulo describe el análisis y discusión de resultados del trabajo

Finalmente, se exponen las conclusiones, recomendaciones, referencias bibliográficas,

Tabla 1: Estructura productiva de Perú 2017. ............................................................... 10

Figura 1: Eficiencia global Softys - 2016. ...................................................................... 12

• Estudio de series climáticas y astronómicas desarrollados por Kolmogorov, Wiener

El presente trabajo de investigación tiene como alcance el desarrollo de un modelo

1.2 DESCRIPCIÓN DEL PROBLEMA DE INVESTIGACIÓN

Tabla 1: Estructura productiva de Perú 2017.

Fuente: SNI (2018), Análisis e impacto productivo Perú 2017

Tabla 2: Población censada 1940-2017.

Fuente: INEI (2018), Perú: población censada, omitida y total 2017

La empresa SOFTYS PERÚ, para simplicidad se le denominará SOFTYS, lideró la

Tabla 3: Producción (T/Año) por empresa productora para papel .

Fuente: Quimtia (2018), Reporte Anual del área comercial 2018

Figura 1: Eficiencia global Softys - 2016.

Fuente: Muñoz J. (2017), Área de Control de Producción – SOFTYS PERÚ

Estos indicadores podían ser analizados por diferentes herramientas de mejora. El

Eficiencias SANITARIOS (%)

Tabla 4: Cuadro de control de eficiencias reales y de presupuesto .

Fuente: Muñoz J. (2017), Área de Control de Producción – SOFTYS PERÚ

La investigación corresponde a la línea número 7 de conversión de rollos de papel

Debido a que la eficiencia de la línea en mención fue menor en comparación al resto de

Con lo mencionado en los párrafos anteriores, se enuncia la siguiente problemática:

1.3 OBJETIVO DEL ESTUDIO

1.4.1 INVESTIGACIONES INTERNACIONALES

• En el trabajo de (Cabezón, M., 2018) se realizó la predicción de la demanda

• En la publicación de (González-Avella, J., Tuduri, J., y Rul-lan, G., 2017) se

• En la publicación de (Montesdeoca, B., 2016) se demostró la confiabilidad

1.4.2 INVESTIGACIONES NACIONALES

• En la tesis de (Zamudio, J., 2017) se predijo el volumen de ventas de una

• En la tesis de (Malaver, M., 2015) se determinó el pronóstico de las ventas

2.1. MARCO TEÓRICO

2.1.1. NEURONA BIOLÓGICA

Una neurona está compuesta de cuatro partes:

• Las dendritas aceptan los impulsos eléctricos de entrada.

Estos componentes se visualizan en Figura 2.

Figura 2: Neurona biológica.

Figura 3: Neurona artificial.

Fuente: Haykin (1998), Neural Networks: A Comprenhesive Foundation

2.1.3. RED NEURONAL ARTIFICIAL

La Figura 4 muestra una red neuronal feedforward básica de predicción:

Figura 4: Red neuronal Feedforward básica.

Fuente: Rodriguez D. (2018), Implementación de una red neuronal desde cero

2.1.3.1. TOPOLOGÍA DE UNA RED NEURONAL

La organización y disposición de las neuronas dentro de una red

Respecto al tipo de conexiones, se establecen dos casos: entre dos

La neurona es la pieza clave del proceso de distribución de

2.1.3.3. ELEMENTOS DE UNA RED NEURONAL

En la Figura 3 se visualizan los elementos de una neurona, y por

Estos pesos representan un estado de la memoria porque si un peso es

A continuación, se detallan las funciones de una neurona:

• Función de entrada: La neurona debe recibir una sola entrada global,