Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Minería de Datos Aplicada - Ejemplo
Minería de Datos Aplicada - Ejemplo
Bases de Datos II
Cdigo: 3084
Proyecto Final
Minera de Datos
I CUATRIMESTRE, AO 2015
TABLA DE CONTENIDO
TABLA DE ILUSTRACIONES ........................................................................................ 4
INTRODUCCIN............................................................................................................. 5
DESARROLLO ................................................................................................................ 6
Entendimiento del negocio ........................................................................................... 6
Objetivos del negocio ............................................................................................... 6
Evaluacin de la situacin ........................................................................................ 6
Objetivos de Minera de Datos ................................................................................. 8
Plan del proyecto ...................................................................................................... 8
Comprensin de los Datos ........................................................................................... 9
Recoleccin de datos iniciales ................................................................................. 9
Descripcin de los datos .......................................................................................... 9
Exploracin de los datos ........................................................................................ 10
Verificacin de la calidad de los datos.................................................................... 10
Preparacin de los Datos ........................................................................................... 10
Seleccin de los datos............................................................................................ 11
Limpieza de los datos ............................................................................................. 11
Construccin de nuevos datos ............................................................................... 11
Integracin de los datos ......................................................................................... 12
Formato de los datos .............................................................................................. 12
Modelado ................................................................................................................... 13
Seleccin de tcnica de modelado ......................................................................... 13
Generacin de los modelos .................................................................................... 13
Evaluacin ................................................................................................................. 14
TABLA DE ILUSTRACIONES
Ilustracin 1 rbol de decisin Modelo para autorizar cliente a recibir crdito .............. 13
Ilustracin 2 rbol de decisin Modelo para determinar monto por incobrables............ 14
INTRODUCCIN
El presente trabajo corresponde al proyecto final del curso Bases de Datos II, el cual
forma parte del plan de estudio de la carrera Licenciatura en Ingeniera Informtica y
Desarrollo de Aplicaciones Web de la Universidad Estatal a Distancia, Costa Rica. El
propsito del mismo es desarrollar un proyecto de implementacin de minera de datos,
haciendo uso de la metodologa CRISP-DM, sus distintas fases y actividades requeridas
para obtener los resultados deseados.
El proyecto seleccionado y aprobado de manera previa se fundamenta en la obtencin o
estimacin del monto por incobrables para una empresa determinada en un periodo
determinado, utilizando datos relacionados con cada uno de los clientes mediante
tcnicas de minera de datos como por ejemplo arboles de decisin. Esto puesto que est
comprobado que los mtodos para existentes en la actualidad para el clculo de
incobrables no son lo deseablemente acertados.
Una estimacin bastante apegada a la realidad de dicho monto ayuda a llevar finanzas
sanas en la empresa y a evitar problemas y prdidas con montos de dinero muy grandes
que luego no se pueden recuperar. Por ello este proyecto se basa en la idea de que todas
las ventas a crdito no se pueden tratar de igual manera sino que es importante primero
analizar los antecedentes de cada uno de los clientes para determinar si se le puede
habilitar un crdito para luego determinar qu porcentaje de dicho crdito se puede
establecer como probablemente incobrable para por ultimo realizar una estimacin total
de dicho monto.
DESARROLLO
Entendimiento del negocio
Es importante tener una perspectiva amplia del problema que se desea resolver, que nos
permita satisfacer los objetivos del proceso de proceso de minera de datos y con ellos
los del negocio. A continuacin se desarrolla cada una de las actividades
correspondientes a esta etapa.
Evaluacin de la situacin
Para el desarrollo del proyecto se cuenta con distinto personal que se ver involucrado
en el mismo, entre ellos se encuentran:
Algunos de los posibles riesgos asociados con la realizacin del proyecto son:
Econmico.
Perdida de datos.
Los costos asociados con el proyecto son bsicamente todo lo relacionado con el tiempo
invertido por los distintos miembros de la empresa y personal externo que pudiese ser
requerido, as como algn equipo tcnico necesario para su desarrollo. Por otro lado los
beneficios estn relacionados con una reduccin de tiempo en el clculo de incobrables
de la empresa, una mayor aproximacin a dicho monto y un mejor anlisis de sus clientes.
De manera estimada, un resumen de costos es el siguiente:
Elemento
Costo
Hardware
$ 1.500
Software
$0
Personal Humano
$ 1.800
$3.550
Preparacin de los
datos.
Tiempo
1 semana
Recursos
Analistas
Riesgos
Econmico
Analistas, datos
3 semanas
contables de la
Econmico
empresa.
4 semanas
Analistas,
Econmico,
Departamento de
duracin del
Contabilidad
proyecto
8
Modelado.
3 semanas
Analistas
Evaluacin.
2 semanas
Analistas
Transferencia.
1 semana
Econmico,
tecnolgico
Econmico,
tecnolgico
Departamento de
Econmico, perdida
TI
de datos
Fuente: propia
compras realizadas entre el nmero de meses que han pasado desde la primera compra
realizada.
Cambio de administracin en una empresa cliente: esto puede llevar a que los
incobrables aumenten considerablemente con respecto a lo estimado.
Solucin Posible
Fijar un valor predeterminado en caso de que no
se asigne uno a dicho atributo.
Cambios en el responsable de Ligar una empresa cliente con una persona fsica
una empresa cliente.
responsable.
Fuente: propia
Monto total de compras realizadas = Sumatoria del monto las compras realizadas.
11
Filas generadas: como fusin de los datos de las ventas con los de los clientes asociadas
a ellas, se genera un nuevo registro, el cual contiene los detalles de las ventas a crdito
realizadas, contiene lo siguiente: monto de la venta, identificador del cliente, fecha de
vencimiento y porcentaje estimado como incobrable. Con ello los incobrables no van a
ser un porcentaje fijo para todos los clientes de la empresa, sino que variable de cliente
en cliente.
Adicin de los datos de las ventas a crdito con los datos de los clientes: para
completar el registro de una venta a crdito se debe saber de manera preliminar
si dicho cliente tiene la autorizacin para recibir crdito. As como cul es la
cantidad mxima que se le puede asignar y el plazo correspondiente.
Adicin de los detalles de las ventas con los detalles de las ventas a crdito: se
debe tener claro antes de autorizar un crdito en un cliente detalles relacionados
con las compras realizadas por l.
Clientes
o Identificacin: numero de 10 dgitos
o Fecha de primera compra: formato dd/mm/aaaa
o Crdito Habilitado : S = Si y N = No
Ventas
o Ordenarlas de mayor a menor monto.
o Monto: en colones y con dos decimales diferenciados con coma.
12
Modelado
En esta seccin se detalla la tcnica de minera de datos utilizada
Seleccin de tcnica de modelado
Para este proyecto la tcnica de minera de datos ms apropiada y adems ms sencilla
de aplicar son los arboles de decisin. Esto debido a que el problema se fundamenta
en la toma de decisiones sobre la asignacin o no de un crdito a un determinado cliente.
13
Evaluacin
En esta fase se lleva a cabo la evaluacin de los modelos, teniendo en cuenta distintos
factores. Las actividades que correspondientes se desarrollan a continuacin.
Implementacin
Esta es la ltima fase del modelo CRISPDM, en ella se realizan las actividades
necesarias para la implementacin de las mejoras necesarias en la organizacin. Dichas
actividades son:
15
Planificacin de la implementacin
El nuevo mtodo para la estimacin de incobrables ser implementado como parte de un
esfuerzo conjunto de todos los miembros de la organizacin, especialmente haciendo
nfasis en el personal de soporte, quienes se encargaran de instruir al personal de
contabilidad acerca del nuevo mtodo. Para ello probablemente existir una actualizacin
del software de contabilidad que utiliza la empresa actualmente, la cual incoropore el
nuevo mtodo.
Informe Final
Luego de un periodo de seis meses de implementado el nuevo mtodo de estimacin de
incobrables y de haber obtenido la retroalimentacin necesaria, se elaborara el informe
final, el cual contiene aspectos como los siguientes:
Mejoras realizadas.
16
CONCLUSIONES
Del anlisis de los distintos contenidos necesarios para la realizacin de este proyecto y
de la aplicacin de los mismos para el desarrollo del mismo se han obtenido importantes
conclusiones las cuales se listan a continuacin:
17
RECOMENDACIONES
Este como primer proyecto de minera de datos, provee grandes conocimientos, que de
manera segura podrn ser utilizados en futuros proyectos ya sea en el mbito formativo
o laboral. Dentro de las principales recomendaciones que podrn ser utilizadas en el
futuro destacan:
Se recomienda utilizar siempre un modelo de proceso como por ejemplo CRISPDM ya que aunque posiblemente demore ms tiempo el desarrollo del proyecto,
tenemos garanta de que se cumplen todas las etapas, se generan entregables de
calidad y existe ms garanta de xito en nuestro proyecto.
Se deben planificar muy bien cada uno de los recursos necesarios para el
desarrollo del proyecto, de tal forma que haya seguridad de que esos recursos
sean necesarios para una correcta implementacin y que no se d el caso de que
se tenga que abandonar a medio camino por motivos de falta de recursos para
continuar.
18
BIBLIOGRAFA
Chapman, P., Clinton, J., & Kerber, R. (2000). CRISP-DM 1.0. IBM.
DELL. (s.f.). What is Data Mining (Predictive Analytics, Big Data). Obtenido de DELL
Software: http://www.statsoft.com/Textbook/Data-Mining-Techniques
Gmez Jimnez, E. (2015). Orientaciones Acadmicas de la Asignatura Bases de Datos
II. San Jos: EUNED.
Hastie, T., Tibshirani, R., & Friedman, J. (2011). The Elements of Statistical Learning:
Data Mining, Inference, and Prediction (Segunda ed.). New York: Springer.
Hernndez Orallo, J., Ramrez Quintana, M. J., & Ferri Ramrez, C. (2004). Introduccin
a la Minera de Datos. Madrid: PEARSON Educacin.
IBM. (2012). Manual CRISP-DM de IBM SPSS Modeler. Estados Unidos: IBM
Corporation.
Virseda, F., & Romn , J. (s.f.). Minera de datos y aplicaciones. Madrid: Universidad
Carlos III.
19