Está en la página 1de 7

Universidad Santo Toribio de Mogrovejo

Escuela de Ingeniería de Sistemas y Computación

MINERÍA DE DATOS Y BIG DATA

“Informe de Caso de Análisis Colaborativo”

Autores
Baldárrago Gastulo, Andrés
Castro Fernández, Paola Patricia
Cieza Bances, Paola Elizabeth
Torres Jimenez, Luis Alonso

Docente
Chavarry Chancay, Mariana

Curso
Minería de Datos y Big Data

Ciclo Académico
8° Ciclo

Fecha
Chiclayo 06 de octubre del 2020
Universidad Santo Toribio de Mogrovejo
Escuela de Ingeniería de Sistemas y Computación

Índice

Índice 2

Introducción 3

Desarrollo del tema de investigación 3


Capítulo 1: Comprensión del negocio 3
Determinar los objetivos del negocio 3
Evaluación de la situación 3
Determinación de los objetivos de DM 4
Producción del plan de proyecto 4
Capítulo 2: Comprensión de los datos 5
Recolectar los datos iniciales 5
Descripción de los datos 5
Exploración de los datos 6
Verificar la calidad de los datos 6
Capítulo 3: Preparación de los datos 6
Selección de los datos 6
Limpieza de los datos 6
Estructuración de los datos 6
Integración de los datos 6
Formateo de los datos 6
Capítulo 4: Modelamiento 6
Selección de la técnica de modelado 6
Generación del plan de prueba 6
Construcción del modelo 6
Evaluación del modelo 7
Capítulo 5: Evaluación 7
Evaluación de los resultados 7
Proceso de revisión 7
Determinación de futuras fases 7
Capítulo 6: Despliegue 7
Conclusiones 7

Bibliografía 7

Anexos 7
Universidad Santo Toribio de Mogrovejo
Escuela de Ingeniería de Sistemas y Computación

1. Introducción
El sector financiero está constituido por dos mecanismos para la
administración de los recursos financieros (dinero): las finanzas directas e indirectas.
Las finanzas indirectas se reconocen porque requieren la existencia de un
intermediario, es decir, una entidad bancaria, mientras que las directas se realizan
en los mismos mercados financieros de bonos, acciones y otros instrumentos
financieros.

Nuestras necesidades financieras varían mucho dependiendo de nuestras


edad, condiciones de vida, necesidades, hábitos, etc.; es por ello que las entidades
financieras, como los bancos y cooperativas, ofrecen muchas posibilidades para
manejar nuestra economía, tales como préstamos, tarjetas de débito y crédito, entre
otros. Sin embargo, es sabido que existen clientes de estas entidades que no
cumplen con los términos acordados, en especial con los préstamos, créditos e
hipotecas, y por este motivo los bancos se vieron obligados a recurrir a soluciones
tecnológicas para poder predecir a quiénes le deben otorgar un préstamo, crédito o
hipoteca para evitar pérdidas financieras.

El objetivo de este proyecto es el de diseñar una solución informática basada


en minería de datos haciendo uso de la metodología CRISP-DM para apoyar a la
predicción de clientes potencialmente deudores en una entidad financiera. Además,
se dispone de un conjunto de datos específicos que ayudará a encontrar la solución
adecuada para el problema planteado.

2. Desarrollo del tema de investigación


A continuación, se describe el desarrollo de la propuesta de solución.

2.1. Capítulo 1: Comprensión del negocio


En esta fase de la metodología CRISP-DM se logran comprender
tanto los objetivos del negocio como los objetivos del DM, así como la
especificación de los requerimientos propios del negocio. Es importante
definir correctamente cada punto de esta fase para poder crear una solución
efectiva.

2.1.1. Determinar los objetivos del negocio


Identificar a los clientes potencialmente deudores para la
entidad financiera.

2.1.2. Evaluación de la situación


El giro del negocio de la empresa se encuentra en el sector
financiero, teniendo como uno de sus productos más solicitados los
préstamos, las hipotecas, los créditos, entre otros. El riesgo que
traen estos productos es muy elevado, ya que no todos los clientes
cumplen con los contratos establecidos, por lo cual la empresa desea
Universidad Santo Toribio de Mogrovejo
Escuela de Ingeniería de Sistemas y Computación

una solución tecnológica empleando Minería de Datos. Para ello se


dispuso de información prestada por la empresa en la que se
analizarán 12 variables, incluyendo a la variable objetivo o target. El
total de registros es de 150 000, donde se hace referencia a los
prestamistas que desean adquirir algún producto crediticio de la
empresa, por lo que se considera suficiente para realizar la solución.

2.1.3. Determinación de los objetivos de DM


Predecir cuales son los clientes potencialmente deudores para
la entidad financiera.

2.1.4. Producción del plan de proyecto


Para el desarrollo del plan del proyecto se utilizará la
metodología CRISP-DM como ya se ha mencionado anteriormente,
además de ello se tomarán en cuenta los siguientes puntos:
● Tipología de tareas:
Se utilizará una tipología de tareas predictiva de clasificación,
ya que esta se acopla correctamente a los requerimientos del
negocio.
● Cronograma de actividades:
Cronograma del Proyecto
Fecha Inicio 10/10/2020
Fecha Fin 06/11/2020
Duración Total 27 días
Fases

Comprensión del negocio 3 días (10/10/2020 - 13/10/2020)

Comprensión de los datos 2 día (13/10/2020 - 14/10/2020)

Preparación de los datos 2 días (14/10/2020 - 16/10/2020)

Modelamiento 9 días (16/10/2020 - 02/10/2020)

Evaluación 3 días (02/10/2020 - 05/11/2020)

Despliegue 1 día (06/11/2020)

2.2. Capítulo 2: Comprensión de los datos


Esta fase comprende el primer contacto con el problema, al
establecer relaciones más evidentes mediante la recolección de los datos,
permitiendo tener en claro el funcionamiento del negocio.

2.2.1. Recolectar los datos iniciales


Los datos a utilizar fueron dispuestos por la empresa, la data
CreditScoring.csv, en la cual hay 12 variables, incluyendo a la
variable objetivo o target con un total de 150 000 registros
Universidad Santo Toribio de Mogrovejo
Escuela de Ingeniería de Sistemas y Computación

2.2.2. Descripción de los datos


Variable Traducción Descripción Tipo
Identificador único del Categórica
ID Indentificador
prestatario nominal
Representa si el prestatario
Númerica
SeriousDlqin2yrs Variable Objetivo experimentó 90 días o más
discreta
de morosidad
Utilización
Saldo total en tarjetas de
RevolvingUtilizationOfUnse rotatoria de Númerica
crédito y líneas de crédito
curedLines líneas no Continua
del cliente
aseguradas
Edad del prestatario en Númerica
age Edad
años discreta
Número de veces en la que
Número de veces el prestatario se ha estado
NumberOfTime30-59DaysPa Númerica
30-59 días de atrasado entre los 30 y 59
stDueNotWorse Continua
atraso días, sin sobrepasar ese
rango de días
Pagos mensuales de Númerica
DebtRatio Ratio de deuda
deudas Continua
Númerica
MonthlyIncome Ingreso mensual Ingreso mensual
Continua
Número de
Cantidad de prestámos
NumberOfOpenCreditLines préstamos y Númerica
AndLoans abiertos de cualquier tipo
líneas de crédito discreta
del prestatario
abiertas
Número de veces en la cual
el prestatario se ha
Número de veces Númerica
NumberOfTimes90DaysLate sobrapasado 90 días de la
90 días tarde discreta
fecha de pago de un
crédito
Número de
Número de líneas o
NumberRealEstateLoansOr líneas o Númerica
préstamos inmobiliarios
Lines préstamos discreta
del prestatario
inmobiliarios
Número de veces en la que
Número de veces el prestatario se ha estado
NumberOfTime60-89DaysPa Númerica
stDueNotWorse 60-89 días atrasado entre los 60 y 89
discreta
vencidos días, sin sobrepasar ese
rango de días
Número de familiares los
cuales dependen del
Número de Númerica
NumberOfDependents ingreso del prestatario
dependencias discreta
(hijo, esposo/a , entre
otros)

2.2.3. Exploración de los datos


Aquí va la exploración de los datos.
Universidad Santo Toribio de Mogrovejo
Escuela de Ingeniería de Sistemas y Computación

2.2.4. Verificar la calidad de los datos


Aquí va la verificación de la calidad.

2.3. Capítulo 3: Preparación de los datos


Descripción del capítulo 3

2.3.1. Selección de los datos


Aquí va la selección de los datos.

2.3.2. Limpieza de los datos


Aquí va la limpieza de los datos.

2.3.3. Estructuración de los datos


Aquí va la estructuración de los datos.

2.3.4. Integración de los datos


Aquí va la integración de los datos.

2.3.5. Formateo de los datos


Aquí va el formato de los datos.

2.4. Capítulo 4: Modelamiento


Descripción del capítulo 4

2.4.1. Selección de la técnica de modelado


Aquí va la selección de la técnica de modelado.

2.4.2. Generación del plan de prueba


Aquí va la generación del plan de prueba.

2.4.3. Construcción del modelo


Aquí va la construcción del modelo.

2.4.4. Evaluación del modelo


Aquí va la evaluación del modelo.

2.5. Capítulo 5: Evaluación


Descripción del capítulo 5
Universidad Santo Toribio de Mogrovejo
Escuela de Ingeniería de Sistemas y Computación

2.5.1. Evaluación de los resultados


Aquí va la evaluación de los resultados.

2.5.2. Proceso de revisión


Aquí va el proceso de revisión.

2.5.3. Determinación de futuras fases


Aquí va la determinación de futuras fases.

2.6. Capítulo 6: Despliegue


Aquí va el despliegue

3. Conclusiones
Aquí va la conclusión

4. Bibliografía
https://www.bbva.com/es/como-administrar-mejor-el-dinero/
https://www.ipe.org.pe/portal/sistema-financiero/
https://gestion.pe/blog/economiaparatodos/2020/02/que-es-un-sistema-financiero-2.h
tml/

5. Anexos
Aquí van los anexos

También podría gustarte