Está en la página 1de 4

EVALUACIÓN PARCIAL - MINERÍA DE DATOS

“Comparación de modelos de clasificación”


(Arboles de Decisión-Naive Bayes-Redes
Neuronales)
Chiroque Carnero, Juliñho, Paucas Navarro, Michael C.
Estudiante de Ingeniería de Sistemas
Universidad Autónoma del Perú
Jueves 25 de junio del 2020

Summary. In data mining or data mining Dentro de la política financiera que se


techniques and technologies allow to exploit asocia a cualquier negocio debemos
data sets. By having a variety of algorithms, situar aquella que tiende a la
they allow the data to be categorized while recuperación financiera de las
the data is being studied, some of which are inversiones en el ciclo corto. Esta
applied are: Decision Trees, Neural política debe ser acertada tratando,
Networks and Naive Bayes. This work entre otras cosas, de evitar los impagos
demonstrates the classification techniques o retrasos exagerados que pudieran
to identify and verify if they fit the stated poner en riesgo la continuidad financiera
objectives. del negocio.
Resumen. En minería de datos o data Comprensión del negocio
mining las técnicas y tecnologías permiten
explorar conjuntos de datos. Al contar cona. Descripción y comprensión comercial de
variedad de algoritmos, permiten la entidad
categorizar los datos mientras es estudiada
la data, algunas de las aplicadas son: BBVA Continental, que continúa su ruta de
Arboles de decisiones, Redes Neuronales y cambio en Perú. El banco inició hace unos años
Naive Bayes. En el presente trabajo se una transformación que le ha permitido
demuestran las técnicas de clasificación desarrollar productos y servicios enfocados en
para identificar y verificar si se ajustan a los las personas, logrando un impacto positivo en la
objetivos planteados. sociedad. Al mismo tiempo, la organización ha
iniciado un cambio de su cultura corporativa
Introducción. Las empresas son unidades abrazando nuevas formas de trabajo y ganando
económicas que desarrollan sus actividades velocidad para satisfacer de manera más rápida
con el objetivo de alcanzar sus objetivos
las necesidades de sus clientes. Ahora el banco
estratégicos previamente planificados.
está próximo a dar un salto transcendental para
Estas actividades deben realizarse en un
marco de equilibrio tanto económico como convertirse en una marca global. Un banco
financiero. El primero de ellos tiene como peruano con personas de distintas
punto de referencia los márgenes, el nacionalidades que piensan en grande como un
resultado y la rentabilidad. El segundo debe solo equipo.
procurar que los flujos de tesorería
➢ Misión y Visión
generados por las operaciones sean
positivos, con lo que se conseguiría una Empresa del rubro financiero, asume
expansión autofinanciada. como compromisos principales satisfacer
EVALUACIÓN PARCIAL - MINERÍA DE DATOS

oportunamente las necesidades de los


clientes y aportar valor al patrimonio de los
accionistas, sin dejar de pensar en el
progreso en las sociedades en las que está
presente.
➢ Objetivos Principal Se puede apreciar en la nueva data los cambios
realizados, ahora se cuenta con 5 variables y
El principal objetivo es el de mantener la todas numéricas, la razón por la cual se realizo
estabilidad de precios a través del control en este paso es por que como se puede apreciar en
el tipo de inflación. En los países la siguiente imagen, se observa que si existe
desarrollados el objetivo de inflación es correlación entre las variables.
mantenerlo entre el 2% y el 3 %. Un objetivo
del 0% no es habitual ya que aumenta el
riesgo de deflación que puede ser perjudicial
para la economía.

➢ Otros objetivos secundarios son:

• La estabilidad en el tipo de cambio con


respecto a otras divisas.
• Conseguir el pleno empleo.
• Lograr un crecimiento económico positivo y
sostenible.
• Moderar los tipos de interés en el Largo plazo.

Comprensión de los datos

Datos

Train y Test
La partición de la dateframe se realizó en test y
train en relación de 7:3 respectivamente.

En la imagen se puede observar que la data


cuenta con 8458 datos; entre las variables se
aprecia los tipos de datos numéricos, enteros
y de caracter.

Por parte del dataframe tomaremos como


variables principales para el análisis de
nuestro target a los MES_0_Atraso,
MES_1_Atraso, MES_2_Atraso, La
Deuda_Total y nuestro target Mora con el que
trabajaremos.
EVALUACIÓN PARCIAL - MINERÍA DE DATOS

Modelos de Clasificación

Árbol de Decisión:

En la imagen posterior se aprecia el árbol de


decisiones en el cual en cada uno de los Naive Bayes:
nodos apreciamos las variables, teniendo
como nodo principal el mes de atraso 0 y Teniendo en cuenta que es un algoritmo
luego conjuga con cada una de las variables de aprendizaje, no necesita esquemas y
para mostrarnos los nodos finales en cual es considerado como una de los
predice las personas que caen en mora y las algoritmos mas influyentes por su
que si caen en mora. eficiencia y efectividad a la hora de
clasificar.(Arriega,2018)
1.- Matriz de Confusión
1.- Matriz de Confusión

Si bien en la matriz obtenemos


verdaderos positivos y falsos positivos
muy bien acertados de 1852 y 397
respectivamente.

Ahora según lo planteado en las medidas


de rendimiento se obtienen buenos
resultados con:
Ahora según lo planteado en las medidas
- ACCURACY del 89.3% de rendimiento se obtienen los siguientes
- SENSITIVITY del 94.3% resultados con:
- SPECIFICITY del 73.3%
- ACCURACY del 65.9%
Como bien se muestra en la imagen - SENSITIVITY del 89.9%
siguiente. - SPECIFICITY del 7.9%

Redes Neuronales

En esencia, se aplica un conjunto de


entradas a la neurona, cada una de las
EVALUACIÓN PARCIAL - MINERÍA DE DATOS

cuales representa una salida de otra Ahora según lo planteado en las medidas
neurona. Cada entrada se multiplica de rendimiento se obtienen los siguientes
por su peso o ponderación resultados con:
correspondiente análoga al grado de
conexión de la sinapsis. - ACCURACY del 89.9%
- SENSITIVITY del 94.7%
La implementación de la red neuronal - SPECIFICITY del 74.7%
artificial se realizará integrando el uso
del paquete nnet, el cual es una librería
para realizar el análisis predictivo el CONCLUSIONES DE LOS MODELOS
cual contiene funciones para crear
redes neuronales A: Accuracy, SEN: Sensitibity,SPE:
artificiales.(Velez,2018) Specificity

MODELOS A SEN SPE


ARBOL DE
89.3 94.3 73.3
DESICIONES
NAIVE BAYES 65.9 89.9 7.9
REDES
NEURONALES 89.9 94.7 74.7
ARTIFICIALES

Considerando los modelos de clasificación


estudiados en el caso de morosidad, según los
datos obtenidos en la tabla anterior se puede
concluir que el modelo de clasificación de las
Como bien se aprecia en la imagen las redes neuronales es la mejor puntuada y mas
redes neuronales tomaron un total de acertada con altos valores predictivos, por lo
100 iteraciones, usando una sola cual obtuvo un buen desempeño, como punto a
neurona. aclarar también se da a considerar que para
futuras predicciones es necesaria que no se
1.- Matriz de Confusión tengan datos o valores con NA´s, y hacer una
resumen y análisis de cada una de las variables
para conocer cuanto puede afectar al target,
para una mejor predicción.

Referencias

Arriaga, P. K. G., Avilés, V. A. F., Avilés, K. P. R.,


Arcentales, A. M. A., & Gómez, G. C. (2018).
Aplicación de Técnicas de Minería de Datos para el
Análisis de la Eficiencia Académica. Revista
Científica Hallazgos21, 3.
https://revistas.pucese.edu.ec/hallazgos21/article/vi
ew/222
Vélez, G. A. G. (s. f.). APLICACIÓN DE LA
METODOLOGÍA CRISP-DM® A LA RECOLECCIÓN
Y ANÁLISIS DE DATOS GEORREFERENCIADOS
DESDE TWITTER®. 23.

También podría gustarte