Documentos de Académico
Documentos de Profesional
Documentos de Cultura
UNIVERSIDAD …………………..
FACULTAD DE INGENIERÍA DE SISTEMAS
ESCUELA PROFESIONAL DE INGENIERÍA DE
SISTEMAS
PROYECTO DE TESIS
REDES NEURONALES ARTIFICIALES Y EL ALGORITMO
HILL CLIMBING PARA LA PREDICCIÓN MULTI-STEP DE
LA RECAUDACIÓN TRIBUTARIA DEL PERÚ
PRESENTADO POR:
MENDOZA …. CARMEN
PARA OPTAR EL TÍTULO PROFESIONAL DE
INGENIERO DE SISTEMAS
ASESOR:
ING. RODOLFO ARPASI CHURA
JULIACA, PERÚ
2021
2
TABLA DE CONTENIDO
Índice general
Índice de tablas
1.3. ANTECEDENTES.............................................................................................7
1.5. OBJETIVOS....................................................................................................12
1.6. HIPÓTESIS......................................................................................................13
2. BASES TEÓRICAS.................................................................................................14
3. MÉTODO................................................................................................................15
NIVEL DE INVESTIGACIÓN........................................................................................15
DISEÑO DE LA INVESTIGACIÓN...............................................................................15
3.2.1. POBLACIÓN...................................................................................................16
3.4.1. INSTRUMENTOS...........................................................................................18
3.4.2. TÉCNICAS......................................................................................................18
4. ASPECTOS ADMINISTRATIVOS........................................................................21
5. REFERENCIAS BIBLIOGRÁFICAS.....................................................................24
6. ANEXOS.................................................................................................................30
INTRODUCCIÓN
“La proyección de los ingresos tributarios es una de las tareas más importantes
que lleva a cabo una oficina de estimaciones tributarias. Esa importancia
deviene del carácter esencial que tienen esas estimaciones para la
programación de la política fiscal, ya que la obtención de los más habituales
objetivos de la gestión fiscal -los resultados primario y financiero y el nivel de
endeudamiento- están inevitablemente ligados a las previsiones que se
efectúen para los diversos rubros de los ingresos y, en particular, debido a su
magnitud, para los de carácter tributario. El conocimiento del futuro es, por
diversas razones, una preocupación habitual de los seres humanos desde el
inicio de los tiempos. Esta preocupación ha dado lugar al desarrollo de
innumerables técnicas que, con muy diverso grado de sustento científico,
intentan descifrar el porvenir. En el campo económico, al menos, una revisión
de la amplísima literatura existente sobre este tema deja claramente sentado
que nuestra capacidad para conocer el futuro es ciertamente limitada” (Martín,
2009, pp. 29, 30).
2. PROBLEMAS ESPECÍFICOS
1. ¿Con el diseño de un modelo basado en una Red Neuronal
Artificial y el algorítmico Hill Climbing permitirá perfeccionar
los resultados predictivos multi-step de series temporales de
recaudación tributaria?
2. ¿Con la implementación del modelo basado en una Red
Neuronal Artificial y el algorítmico Hill Climbing optimizará
los resultados predictivos multi-step de series temporales de
recaudación tributaria?
3. ¿La evaluación del modelo basado en Red Neuronal Artificial y
el Algoritmo Hill Climbing en contraste con la serie temporal
de la recaudación tributaria del Estado peruano 2019 permitirá
validar el algoritmo de la red?
7
3. ANTECEDENTES
1. Nivel internacional (FORMATO: PREGUNTA, OBJETIVOS,
MÉTODOS, CONCLUSIONES, EN UN PÁRRAFO)
Sisnando (2000), utilizó una “red neuronal del tipo Multilayer Perceptrón
(MLP) de 190 neuronas de entrada, 06 neuronas en la capa oculta y 01
neurona en la capa de salida, para previsión y evaluación de desempeño
de los contribuyentes del ICMS del Estado de Ceará. Su estudio concluye
que el modelo de red neural posibilita resultado bastante superior al
esperado.
Freitas y Souza (2002) utilizaron una red Multilayer Perceptrón (MLP)
con una capa intermedia, cuatro neuronas y una capa de salida con sólo
una neurona, para verificar si el modelo de precios de opciones en el
mercado financiero basado en las técnicas de redes neuronales es capaz de
superar el método de Black y Sholes (1973) en la determinación de los
precios de las opciones. Los pesos iniciales, representativos del proceso
de síntesis, fueron definidos al azar por el propio software. Las tasas de
aprendizaje (η) y el impulso (α) se mantuvieron constantes,
respectivamente a 0,6 y 0,8, parámetros sugeridos por la aplicación,
después de definir la topología de ARN. El error promedio máximo se
estableció en 2%. Para la validación, se usó un porcentaje del 95% del
subconjunto como criterio de detención del ARN, y puede haber una
variación de hasta el 48% de la tasa de error máxima definida, se adoptó
el criterio de validación “por ciclo”, siendo efectivo cada 5 ciclos”.
2. Nivel nacional
8
4. JUSTIFICACIÓN DE LA INVESTIGACIÓN
GESTIÓN GUBERNAMENTAL:
El Planeamiento Estratégico Institucional 2017-2019 de la
Superintendencia Nacional de Aduanas y de Administración Tributaria
(SUNAT) en su Objetivo Estratégico Sectorial (OES3) plantea, “Alcanzar
una mayor recaudación de Ingresos Fiscales” y en su Objetivo
Estratégico Institucional (OE1) plantea “Mejorar el cumplimiento
tributario y aduanero” a través de sus mecanismos de control contribuye
a mejorar el cumplimiento tributario y por ende alcanzar una mayor
recaudación de los ingresos fiscales.
La baja formalidad de la economía peruana es una de las principales
restricciones para el crecimiento económico de largo plazo.
Los ingresos totales recaudados por la SUNAT en el 2017 ascendieron a S/
122 768 millones. Estos ingresos están compuestos por los Ingresos
Tributarios del Gobierno Central, las Contribuciones Sociales y los
Ingresos No Tributarios. Los Ingresos Tributarios del Gobierno Central,
sin descontar devoluciones, ascendieron en el 2017 a S/ 107 915 millones
monto que significó una disminución de 0,7% en términos reales; mientras
que las Contribuciones Sociales ascendieron a S/ 13,713 millones y
experimentaron un crecimiento real de 0,8%. Asimismo, los Ingresos No
Tributarios recaudados por la SUNAT totalizaron S/ 1 140 millones y
registraron un crecimiento real de 33,7%. Cabe señalar que, si se
descuentan las devoluciones de impuestos, los ingresos tributarios
totalizaron S/ 90 706 millones en el 2017, lo cual significó una
disminución de 1,3% en términos reales.
Las proyecciones iniciales de desempeño de la actividad económica en el
2017 contemplaron un crecimiento del PBI mundial de 3,5%, PBI nacional
de 3,0% y una demanda interna de 1,9%. Sin embargo, al cierre 2017 si
bien la economía mundial, según cifras preliminares, creció 3,7%; la
economía nacional lo hizo sólo en 2,5%; mientras que la demanda interna
alcanzó tan solo un 1,2%; ello con un PBI que ha sido sostenido
principalmente por el componente de exportaciones más que por el aporte
10
INVESTIGACIÓN:
Las Redes Neurales representan una línea de investigación muy poco
desarrollado en el país, consecuentemente, es una oportunidad que
presenta la Escuela Universitaria de Posgrado a sus egresados de
desarrollar ésta línea de investigación.
Evaluar la capacidad de las redes neuronales en la predicción de series
temporales es de sumo interés, que pronostique valores futuros de la
recaudación tributaria peruana y que permita mostrar su precisión respecto
a técnicas estadísticas.
TECNOLÓGICA:
Las Redes Neurales tienen múltiples aplicaciones a diversas áreas del
conocimiento: salud, ingeniería, educación, gestión gubernamental,
productos tecnológicos como dispositivos electrónicos: celulares,
12
5. OBJETIVOS
1. OBJETIVO GENERAL
Proyectar una Red Neuronal Artificial y el Algoritmo Hill Climbing
que calcule los mejores resultados en las predicciones multi-step de la
recaudación tributaria del Estado peruano 2019.
2. OBJETIVOS ESPECÍFICOS
1. Diseñar un modelo basado en Red Neuronal Artificial y el
Algoritmo Hill Climbing para la predicción multi-step de la
recaudación tributaria del Estado peruano 2019.
2. Implementar un modelo basado en Red Neuronal Artificial y el
Algoritmo Hill Climbing para la predicción multi-step de la
recaudación tributaria del Estado peruano 2019.
3. Evaluar el modelo basado en Red Neuronal Artificial y el
Algoritmo Hill Climbing con la serie temporal de la
recaudación tributaria del Estado peruano 2019.
13
6. HIPÓTESIS
1. HIPOTESIS GENERAL
Si se implementa el modelo de la Red Neuronal Artificial y el
Algorítmico Hill Climbing entonces posibilita hallar mejores
resultados en la predicción multi-step de la recaudación tributaria del
Estado peruano 2019.
2. HIPÓTESIS SECUNDARIAS
1. Si se diseña el modelo basado en una Red Neuronal Artificial y
el Algoritmo Hill Climbing entonces se perfecciona
notablemente los resultados predictivos multi-step de series
temporales de recaudación tributaria.
2. Si se implementa el modelo de Red Neuronal Artificial y el
Algoritmo Hill Climbing entonces se optimiza
significativamente los resultados predictivos multi-step de
series temporales de recaudación tributaria.
3. Si se evalúa la Red Neuronal Artificial y el Algoritmo Hill
Climbing en relación a la serie temporal de recaudación
tributaria del Estado peruano 2019 entonces se comprueba la
predicción significativa de recaudación.
14
2. BASES TEÓRICAS
1. MARCO TEÓRICO
1. REDES NEURONALES ARTIFICIALES (RNA)
“Las RNA aplicadas están inspiradas en las redes neuronales biológicas,
aunque poseen otras funcionalidades y estructuras de conexión distintas a
las vistas desde la perspectiva biológica. Las características principales de
las RNA son las siguientes: 1. Auto-Organización y Adaptabilidad:
utilizan algoritmos de aprendizaje adaptativo y auto-organización, por lo
que ofrecen mejores posibilidades de procesado robusto y adaptativo. 2.
Procesado no Lineal: aumenta la capacidad de la red para aproximar
funciones, clasificar patrones y aumenta su inmunidad frente al ruido. 3.
Procesado Paralelo: normalmente se usa un gran número de nodos de
procesado, con alto nivel de interconectividad.
3. MÉTODO
1. TIPO DE INVESTIGACIÓN
La investigación es de tipo aplicada de acuerdo a la orientación, ya que
se enfoca en resolver un problema real aplicando un modelo inteligente
predictivo de redes neuronales.
De acuerdo a la técnica de contrastación, la investigación es
explicativa, puesto que se trata de encontrar las causas del problema y
su análisis respectivo.
La investigación será prospectiva de acuerdo a la direccionalidad,
considerando que la investigación estudiará un fenómeno cuya causa
es en el presente y el efecto será en el futuro, describiendo los eventos
que ocurrirán.
De acuerdo con el tipo de fuente de recolección de datos, la
investigación es retrospectiva ya que la información se analizará de los
archivos publicados por la SUNAT desde el año 2000 a 2018 con los
criterios propios y para fines específicos.
La investigación es longitudinal de acuerdo a la evolución del
fenómeno estudiado, puesto que las variables se medirán en varios
estadios y comportamientos al que serán expuestos.
NIVEL DE INVESTIGACIÓN
La investigación es de nivel IV, de tipo predictivo II, en consideración al
modelo matemático aplicado en el diseño de la red neuronal y la
proyección de una estimación probable que puede ser solo de
comportamiento o cambio total, por medio del análisis de la hipótesis y
basado en la estadística.
DISEÑO DE LA INVESTIGACIÓN
El diseño de la investigación es experimental, en la que se tomará en
cuenta la homogeneidad, aleatoriedad y representatividad de los datos de
la muestra.
16
2. POBLACIÓN Y MUESTRA
1. POBLACIÓN
La población está conformada por toda la información reportada por la
SUNAT desde el año 2000 a 2018, respecto de los ingresos recaudados en
millones de soles anual/mensual.
2. TAMAÑO DE LA MUESTRA
El método a usar para el muestreo en la investigación es no probabilístico,
de tipo Intencional o deliberado, los elementos que integrarán la muestra
serán todos los elementos de la población.
3. OPERACIONALIZACIÓN DE VARIABLES
Hacer en un cuadro
1. DESCRIPCIÓN CONCEPTUAL DE VARIABLES
1. VARIABLES DE HIPÓTESIS GENERAL
RED NEURONAL ARTIFICIAL.
“Las Redes Neuronales Artificiales (RNA) son sistemas de
cálculo que se parecen a las redes neuronales biológicas al
utilizar nodos (neuronas) interconectados. Estos nodos
recogen la información, sobre los datos realizan
operaciones y transmiten sus resultados a otros nodos. La
estrategia consiste en entrenar a las RNA para que aprendan
patrones complejos de relaciones entre las variables
predictoras y obtengan resultados capaces de enfrentarse a
nuevos datos dando las respuestas esperadas, también se
especifican como sistemas no lineales, flexibles y con gran
capacidad de generalización, éstas propiedades han hecho
que se difundieran en todos los campos científicos” en
(Trujillano et al., 2003, p. 505).
PREDICCIÓN MULTI-STEP
17
2. TÉCNICAS
Arquitectura Multilayer Perceptrón
Predicción de series temporales
Aprendizaje supervisado
Para revisión de código
o Técnica estática: análisis y chequeo de documentos de
requisitos, diagramas de diseño, código fuente, etc.
o Dinámicas: pruebas sobre implementación real (en código
ejecutable).
5. ANÁLISIS DE DATOS
1. TÉCNICAS DE RECOLECCIÓN DE DATOS
Para recopilar la información se utilizará el proceso de ETL (Extracción,
Transformación, Cargado) que es una parte de la integración de datos.
Extracción: extraer los datos desde los sistemas de origen (SUNAT),
analizar los datos extraídos obteniendo un chequeo (matriz de doble
entrada), interpretación de información para verificar que los datos
extraídos cumplen con los requerimientos de investigación.
Transformación: son datos extraídos para convertirlos en datos que serán
cargados.
Proceso de carga: los datos procedentes de la fase anterior son cargados en
el sistema de destino (RNA).
19
4. DISEÑO ESTADÍSTICO
La prueba estadística para determinar las relaciones entre las variables
serán los estadísticos Chi cuadrado, T Student, para correlacionar validez y
significancia de la prueba de la Hipótesis planteada.
21
4. ASPECTOS ADMINISTRATIVOS
1. CRONOGRAMA DE ACTIVIDADES
2. PRESUPUESTO DE LA INVESTIGACIÓN
Recurso Humano:
Un especialista en estadística.
Un especialista en testeo de código computacional
Especialista en el manejo de Power BI
Recurso Tecnológico
Paquete estadístico SPSS para validar los modelos estadísticos que se
ajustan a los datos de atención
Herramienta de inteligencia de negocios Power BI
Herramienta de testeo de código
Cluster computacional.
Recurso Económico
Autofinanciado, gastos del personal de apoyo, el tratamiento de datos,
análisis y publicación de resultados.
3. FUENTES DE FINANCIAMIENTO
El presupuesto de S/11.215,0 serán asumidas en su integridad por el
investigador.
24
https://www.infor.uva.es/~calonso/IAI/TrabajoAlumnos/iterativos.pdf
http://dx.doi.org/10.2307/249029
University
Editorial Universitario.
214. https://dx.doi.org/10.4067/S0717-554X2012000300002
Recuperado de
http://repositorio.unicamp.br/jspui/handle/REPOSIP/260700
25
118. https://dx.doi.org/10.4067/S0718-50062016000600010
Díaz, M., de Liz Contreras, Y., & Rivero Amador, S. (2009). Características de
script=sci_arttext&pid=S1024-94352009001100006&lng=es&tlng=es.
https://hera.ugr.es/tesisugr/15472620.pdf
tributario/procedimientos-tributarios-regimen-sancionador/la-recaudacion-
tributaria-aspectos-generales
Mamani Ticona, W., Figueiredo Leite, K., & Rebuzzi Vellasco, M. (2017).
Recuperado de
http://halweb.uc3m.es/esp/Personal/personas/jmmarin/esp/Expertos/Curso
NN12.pdf
https://www.cepal.org/ilpes/noticias/paginas/5/39245/manual_62_FM.pdf
http://www.ugr.es/~fmocan/MATERIALES
%20DOCTORADO/Tratamiento%20de%20outliers%20y%20missing.pdf
de http://www.ufjf.br/ppee/files/2008/12/211047.pdf
script=sci_arttext&pid=S1024-94352011000300008&lng=es&tlng=es.
27
Rai, A., Patnayakuni, R., & Seth, N. (2006). Firm performance impacts of
30(2), 225-246.
Ramos, C., Souza, A., Pereira, L., Gastaldello, D., Zago, M. & Papa, J. P. (2009).
UNESP, p. 281-286.
296. https://doi.org/10.1016/j.riai.2011.09.016
Fortaleza, Brasil.
http://www.sunat.gob.pe/cuentassunat/planestrategico/informeGestion/info
rGestion-2017.pdf
<http://www.revistasbolivianas.org.bo/scielo.php?
script=sci_arttext&pid=S1997-40442008000200016&lng=es&nrm=iso>.
ISSN 1997-4044.
28
Trujillano, J., March, J., Badia, M., Rodríguez, A., & Sorribas, A. (2003). Aplicación de las
http://scielo.isciii.es/scielo.php?script=sci_arttext&pid=S0213-
https://www.cepal.org/ilpes/noticias/paginas/5/39245/manual_62_FM.pdf
Trujillano, J., March, J., Badia, M., Rodríguez, A., & Sorribas, A. (2003).
http://scielo.isciii.es/scielo.php?script=sci_arttext&pid=S0213-
91112003000600012
Lima.
script=sci_arttext&pid=S0123-59232000000400002&lng=en&tlng=es.
29
Visintín, V., & Baulies, C. (2001). Inteligencia fiscal a través de perfiles de riesgo
Ynzunza, C., & Izar, J. (2011). Efecto de las estrategias competitivas y los
http://cybertesis.unmsm.edu.pe/bitstream/cybertesis/3222/1/Gil_ze.pdf.
30
6. ANEXOS
1. ANEXO 1 MATRIZ DE CONSISTENCIA
PREGUNTAS DE
OBJETIVOS HIPÓTESIS VARIABLES DIMENSIONES INDICADORES ÍNDICES INSTRUMENTO ESCALA
INVESTIGACIÓN
Arquitectura de Multi-step 12
red neuronal pasos adelante
Numero de
experimentos:
15
Número de
generaciones:
12
Entradas de la red
Número de
neuronal
individuos: 12
Índice de
mutación: 0,05
Si se implementa el
Proyectar una Red Porcentaje de
modelo de la Red
Neuronal Artificial reemplazo:
¿Con el desarrollo de la Neuronal Artificial y el Variable
y el Algoritmo Hill 0,25
Red Neuronal Artificial y el Algorítmico Hill independiente: Diseño
Climbing que Número Múltiples series
Algoritmo Hill Climbing se Climbing entonces Redes
calcule los mejores máximo de temporales
hallará mejores resultados posibilita hallar mejores Neuronales Implementación
resultados en las repeticiones: (MAPE) Cuantitativa
en las predicciones multi- resultados en la Artificiales y
predicciones multi- 100
step de la recaudación predicción multi-step algoritmo Hill Evaluación
step de la Número
tributaria del Estado de la recaudación Climbing .
recaudación Identificación de máximo de
peruano 2019? tributaria del Estado
tributaria del Estado los mejores fallas en el
peruano 2019.
peruano 2019. parámetros de la conjunto de
red neuronal. validación: 25
Función de
activación en
capa oculta –
función
tansing.
Cálculo de
teste: meses
Calculo de
Teste – Multi-step
error relativo:
%
31
Si se implementa el Regresión de
Implementar un
¿Con la implementación del modelo de Red Neuronal tendencia lineal
modelo basado en Red Variable
modelo basado en una Red Artificial y el Algoritmo Suavizamiento
Neuronal Artificial y dependiente:
Neuronal Artificial y el Hill Climbing entonces se exponencial lineal
el Algoritmo Hill Predicción multi-
algorítmico Hill Climbing optimiza
Climbing para la step de series Proyección de Validación de
optimizará los resultados significativamente los % Cuantitativa
predicción multi-step temporales de tendencia Modelos de
predictivos multi-step de resultados predictivos
de la recaudación recaudación Regresión de Pronósticos
series temporales de multi-step de series
tributaria del Estado tributaria. tendencia no lineal
recaudación tributaria? temporales de
peruano 2019.
recaudación tributaria.
2. ANEXO 2: CUESTIONARIO