Está en la página 1de 19

UNIVERSIDAD ESTATAL A DISTANCIA

ESCUELA CIENCIAS EXACTAS Y NATURALES


Ctedra de Desarrollo de Software

Bases de Datos II
Cdigo: 3084
Proyecto Final
Minera de Datos

Alumno: Michael Arroyo valos


Carnet: 1 1548 0472

Centro Universitario: San Isidro (13)


Fecha Entrega: 25 de Abril

I CUATRIMESTRE, AO 2015

TABLA DE CONTENIDO
TABLA DE ILUSTRACIONES ........................................................................................ 4
INTRODUCCIN............................................................................................................. 5
DESARROLLO ................................................................................................................ 6
Entendimiento del negocio ........................................................................................... 6
Objetivos del negocio ............................................................................................... 6
Evaluacin de la situacin ........................................................................................ 6
Objetivos de Minera de Datos ................................................................................. 8
Plan del proyecto ...................................................................................................... 8
Comprensin de los Datos ........................................................................................... 9
Recoleccin de datos iniciales ................................................................................. 9
Descripcin de los datos .......................................................................................... 9
Exploracin de los datos ........................................................................................ 10
Verificacin de la calidad de los datos.................................................................... 10
Preparacin de los Datos ........................................................................................... 10
Seleccin de los datos............................................................................................ 11
Limpieza de los datos ............................................................................................. 11
Construccin de nuevos datos ............................................................................... 11
Integracin de los datos ......................................................................................... 12
Formato de los datos .............................................................................................. 12
Modelado ................................................................................................................... 13
Seleccin de tcnica de modelado ......................................................................... 13
Generacin de los modelos .................................................................................... 13
Evaluacin ................................................................................................................. 14

Evaluacin de los resultados .................................................................................. 14


Revisin del proceso .............................................................................................. 15
Determinar prximos pasos.................................................................................... 15
Implementacin.......................................................................................................... 15
Planificacin de la implementacin ........................................................................ 16
Planificacin del control y mantenimiento............................................................... 16
Informe Final .......................................................................................................... 16
CONCLUSIONES .......................................................................................................... 17
RECOMENDACIONES ................................................................................................. 18
Bibliografa..................................................................................................................... 19

TABLA DE ILUSTRACIONES

Ilustracin 1 rbol de decisin Modelo para autorizar cliente a recibir crdito .............. 13
Ilustracin 2 rbol de decisin Modelo para determinar monto por incobrables............ 14

INTRODUCCIN

El presente trabajo corresponde al proyecto final del curso Bases de Datos II, el cual
forma parte del plan de estudio de la carrera Licenciatura en Ingeniera Informtica y
Desarrollo de Aplicaciones Web de la Universidad Estatal a Distancia, Costa Rica. El
propsito del mismo es desarrollar un proyecto de implementacin de minera de datos,
haciendo uso de la metodologa CRISP-DM, sus distintas fases y actividades requeridas
para obtener los resultados deseados.
El proyecto seleccionado y aprobado de manera previa se fundamenta en la obtencin o
estimacin del monto por incobrables para una empresa determinada en un periodo
determinado, utilizando datos relacionados con cada uno de los clientes mediante
tcnicas de minera de datos como por ejemplo arboles de decisin. Esto puesto que est
comprobado que los mtodos para existentes en la actualidad para el clculo de
incobrables no son lo deseablemente acertados.
Una estimacin bastante apegada a la realidad de dicho monto ayuda a llevar finanzas
sanas en la empresa y a evitar problemas y prdidas con montos de dinero muy grandes
que luego no se pueden recuperar. Por ello este proyecto se basa en la idea de que todas
las ventas a crdito no se pueden tratar de igual manera sino que es importante primero
analizar los antecedentes de cada uno de los clientes para determinar si se le puede
habilitar un crdito para luego determinar qu porcentaje de dicho crdito se puede
establecer como probablemente incobrable para por ultimo realizar una estimacin total
de dicho monto.

DESARROLLO
Entendimiento del negocio
Es importante tener una perspectiva amplia del problema que se desea resolver, que nos
permita satisfacer los objetivos del proceso de proceso de minera de datos y con ellos
los del negocio. A continuacin se desarrolla cada una de las actividades
correspondientes a esta etapa.

Objetivos del negocio


Pese a existir varios mtodos contables para estimar el monto por incobrables para un
periodo determinado, ninguno es lo deseablemente exacto. Por medio de la minera de
datos, es posible determinar caractersticas, comportamientos o patrones en los usuarios
que permitan determinar el monto por estimables para un periodo futuro, as como a
cuales clientes no es conveniente permitirles cierta cantidad de crdito. La inexactitud de
dichos mtodos existentes en la actualidad, provoca en las empresas no poder realizar
una sana contabilidad, as como adems grandes prdidas de dinero por cuentas que no
son canceladas en el periodo establecido y por cederles crdito a personas a las cuales
no se debera.
El objetivo primordial es poder determinar de manera ms segura el monto por
incobrables para un determinado periodo, para que as el personal de la empresa pueda
tomar decisiones referentes a ello sin luego verse sorprendidos por malos clculos o
predicciones.
El criterio de xito utilizado para medir el proyecto ser la reduccin de la imprecisin en
la prediccin en el clculo por incobrables a un mximo de un 3% con respecto a la cifra
real obtenida.

Evaluacin de la situacin
Para el desarrollo del proyecto se cuenta con distinto personal que se ver involucrado
en el mismo, entre ellos se encuentran:

Personal Administrativo: encargado de aprobar y comunicar distintas normativas


relacionadas con el proyecto.

Departamento de Tecnologas de la Informacin: encargado de llevar a cabo el


proyecto.

Departamento de Contabilidad: responsables de suministrar los datos contables


de la empresa y de aclarar cualquier informacin que probablemente no este clara.

Departamento de Soporte Tcnico: personal responsable de capacitar al resto de


personal de la empresa sobre el uso del nuevo mtodo de clculo de incobrables.

Adems se requieren algunos recursos indispensables, entre los que destacan


principalmente los datos contables de la empresa, que son obtenidos de las bases de
datos del software contable de la empresa o en su defecto los libros mayores de la
empresa. Adems se requiere equipo de cmputo con aproximadamente 4GB de
memoria RAM, procesador INTEL CORE i3, 1TB disco duro. En cuanto al software se
necesita que los equipos tengan instalados Windows 7 o Windows 8, as como alguna
herramienta de minera de datos, se recomienda RapidMiner o WEKA, los cuales son
programas gratuitos y de fcil uso.
Es importante recalcar que como parte del desarrollo del proyecto, se toman como
hechos algunas situaciones, entre ellas.

Toda la informacin se encuentra digitalizada dentro de las bases de datos del


sistema contable utilizado por la empresa.

La empresa realiza ventas a crdito.

La empresa utiliza algn mtodo de clculo de incobrables.

Algunos de los posibles riesgos asociados con la realizacin del proyecto son:

Econmico.

Duracin del proyecto ms de lo esperado.

Perdida de datos.

Proyecto no logra el impacto deseado.

Tecnolgicos, no se cuenta con las herramientas o procedimientos requeridos


para llevar a cabo determinada tarea.
7

Los costos asociados con el proyecto son bsicamente todo lo relacionado con el tiempo
invertido por los distintos miembros de la empresa y personal externo que pudiese ser
requerido, as como algn equipo tcnico necesario para su desarrollo. Por otro lado los
beneficios estn relacionados con una reduccin de tiempo en el clculo de incobrables
de la empresa, una mayor aproximacin a dicho monto y un mejor anlisis de sus clientes.
De manera estimada, un resumen de costos es el siguiente:
Elemento

Costo

Hardware

$ 1.500

Software

$0

Personal Humano

$ 1.800

Servicios Asociados $ 250


TOTAL

$3.550

Objetivos de Minera de Datos


El objetivo de minera de datos para este proyecto es determinar a partir de conductas
identificadas en los clientes de la empresa cules de ellos son aptos para optar por ventas
a crdito. Con ello nos aseguramos de que nicamente de aquellos clientes de los cuales
hay cierta certeza de que pagaran obtendrn un crdito, simplificando as el clculo del
monto por incobrables, el cual adems es reducido sustancialmente.
Plan del proyecto
Fase
Entendimiento del
negocio.
Entendimiento de
los datos.

Preparacin de los
datos.

Tiempo
1 semana

Recursos
Analistas

Riesgos
Econmico

Analistas, datos
3 semanas

contables de la

Econmico

empresa.

4 semanas

Analistas,

Econmico,

Departamento de

duracin del

Contabilidad

proyecto
8

Modelado.

3 semanas

Analistas

Evaluacin.

2 semanas

Analistas

Transferencia.

1 semana

Econmico,
tecnolgico
Econmico,
tecnolgico

Departamento de

Econmico, perdida

TI

de datos

Fuente: propia

Comprensin de los Datos


En esta seccin se muestra de manera cercana los distintos datos disponibles para la
realizacin del proyecto, permitindonos as determinar la calidad de dicha informacin.
La descripcin de cada una de sus fases para nuestro proyecto de prediccin de cuentas
incobrables.
Recoleccin de datos iniciales
Las principales fuentes de datos que se utilizaran en este proyecto son las siguientes:

Base de datos de ventas: en ellas se puede observar en detalle las compras


realizadas por distintos clientes en distintos momentos y bajo distintas
condiciones.

Base de datos de clientes: en la cual podamos encontrar todos los detalles


relacionados con los clientes de la empresa.

Libros mayores de la empresa.

Descripcin de los datos


Los datos son tomados de las ventas a crdito realizadas por la empresa, para ello se
toman los montos de dichas ventas para un aproximado de 1000 clientes. Dichos datos
son de tipo numrico. Sumado a ello se toman datos relacionados con los clientes
asociados a dichas ventas, dichos datos son el nombre (cadena de texto), edad (entero),
sexo (representado como F o M), es una empresa ( si o no), fecha de la primera
compra realizada (fecha), promedio de compras por mes (decimal), monto promedio de
compras por mes (decimal). Este ltimo valor es tomado como el monto total de las
9

compras realizadas entre el nmero de meses que han pasado desde la primera compra
realizada.

Exploracin de los datos


Algunas de las hiptesis formuladas de manera inicial corresponden a la idea de que
entre ms tiempo tenga la relacin entre el cliente y la empresa, as como entre mayor
sea la cantidad promedio mensual de compras del cliente, mayor confianza existe en
dicho cliente para cederle un crdito. Por ello los atributos que ms importancia presentan
para la formulacin de criterios de minera de datos serian la fecha de la primera compra
realizada, el promedio de compras realizadas mensualmente y el total de compras
realizadas.
Para un uso posterior podemos usar la totalidad de las ventas a crdito cedidas y estimar
el monto por incobrables como un porcentaje promedio mensual de las ventas a crdito
mensual que no se pagaron.

Verificacin de la calidad de los datos


En el proceso de tratamiento de los datos se pueden presentar una serie de problemas
que pueden influir de manera negativa en nuestro proyecto, ellos son:

Perdida de datos: se pueden extraviar datos referentes a ventas realizadas o a


detalles de los clientes de la empresa.

Cambio de administracin en una empresa cliente: esto puede llevar a que los
incobrables aumenten considerablemente con respecto a lo estimado.

Error en el registro de la informacin.

Preparacin de los Datos


Esta es una de las fases ms importantes de cualquier proyecto de minera de datos,
debido a que comprende las actividades que ms tiempo demandan. En este proyecto
dichas actividades son las siguientes:
10

Seleccin de los datos


Elementos: para el proyecto se toman 1000 ventas a crdito registradas en la base de
datos del sistema utilizado en la empresa, sea empresas o personas fsicas.
Atributos: los atributos de dichas ventas sern la fecha de realizacin, el monto y todos
los datos relacionados con el cliente.
Limpieza de los datos
A los diferentes problemas encontrados en la fase anterior se propone la siguiente
alternativa.
Problema encontrado
Perdida de datos.

Solucin Posible
Fijar un valor predeterminado en caso de que no
se asigne uno a dicho atributo.

Errores en el ingreso de datos.

Utilizar validaciones. Excluir ese atributo del


proyecto.

Cambios en el responsable de Ligar una empresa cliente con una persona fsica
una empresa cliente.

responsable.

Fuente: propia

Construccin de nuevos datos


Los nuevos datos generados en este proyecto de minera de datos son bsicamente de
dos tipos:
Atributos generados: en este proyecto algunos atributos de este tipo son:

Meses siendo cliente = Fecha Actual Fecha primera compra.

Monto total de compras realizadas = Sumatoria del monto las compras realizadas.

Promedio de compras realizadas por mes = Numero de compras realizadas /


meses siendo cliente.

Monto promedio de compras realizadas por mes = Monto total de compras


realizadas / Meses siendo cliente.

11

Filas generadas: como fusin de los datos de las ventas con los de los clientes asociadas
a ellas, se genera un nuevo registro, el cual contiene los detalles de las ventas a crdito
realizadas, contiene lo siguiente: monto de la venta, identificador del cliente, fecha de
vencimiento y porcentaje estimado como incobrable. Con ello los incobrables no van a
ser un porcentaje fijo para todos los clientes de la empresa, sino que variable de cliente
en cliente.

Integracin de los datos


Los datos con distintos orgenes en este proyecto se integran de la siguiente forma:

Adicin de los datos de las ventas a crdito con los datos de los clientes: para
completar el registro de una venta a crdito se debe saber de manera preliminar
si dicho cliente tiene la autorizacin para recibir crdito. As como cul es la
cantidad mxima que se le puede asignar y el plazo correspondiente.

Adicin de los detalles de las ventas con los detalles de las ventas a crdito: se
debe tener claro antes de autorizar un crdito en un cliente detalles relacionados
con las compras realizadas por l.

Formato de los datos


Los datos deben contar con el siguiente formato:

Clientes
o Identificacin: numero de 10 dgitos
o Fecha de primera compra: formato dd/mm/aaaa
o Crdito Habilitado : S = Si y N = No

Ventas
o Ordenarlas de mayor a menor monto.
o Monto: en colones y con dos decimales diferenciados con coma.

12

Modelado
En esta seccin se detalla la tcnica de minera de datos utilizada
Seleccin de tcnica de modelado
Para este proyecto la tcnica de minera de datos ms apropiada y adems ms sencilla
de aplicar son los arboles de decisin. Esto debido a que el problema se fundamenta
en la toma de decisiones sobre la asignacin o no de un crdito a un determinado cliente.

Generacin de los modelos


Modelo para determinar si un cliente es apto para darle crdito

Ilustracin 1 rbol de decisin Modelo para autorizar cliente a recibir crdito

Modelo para el clculo del monto por incobrables

13

Ilustracin 2 rbol de decisin Modelo para determinar monto por incobrables

Evaluacin
En esta fase se lleva a cabo la evaluacin de los modelos, teniendo en cuenta distintos
factores. Las actividades que correspondientes se desarrollan a continuacin.

Evaluacin de los resultados


El objetivo planteado por la empresa de manera inicial fue poder determinar de manera
ms acertada el monto por incobrables para un periodo determinado. Para ello los
resultados obtenidos con el modelo expresan de manera cuantificable cual va a ser dicho
monto. Quiz un punto en contra del modelo es que no realiza un descubrimiento especial
o tremendamente novedoso ms que permitirnos observar que se puede obtener dicho
monto tomando en cuenta el comportamiento y caractersticas de cada cliente por
separado y no como una norma para todos los clientes de la empresa.
El modelo y el proyecto en s es evaluable fcilmente con la simple comparacin del
monto estimado contra el monto real por lo que se adapta muy bien a los objetivos
14

comerciales de cualquier empresa. Ambos modelos son aprobados dada su necesidad


para la obtencin del monto esperado, ya que no podemos estimar el monto total sin
antes realizar una sumatoria de cada una de las cantidades.

Revisin del proceso


En este proyecto de minera de datos existen aspectos que se podran mejorar, los cuales
estn principalmente relacionados con la seleccin de clientes para establecer el monto
correspondiente a la estimacin por incobrables. Ya que por ejemplo no existe criterio
para establecer el porcentaje por incobrables que se debe estimar para clientes nuevos,
por lo que se asume que no se le debe brindar crdito a clientes nuevos, que sera
bastante negativo para cualquier negocio.
Es importante contemplar todos esos casos as como realizar las mejoras que sean
necesarias para convertir el modelo en lo ms eficiente posibles, de modo que el monto
estimado sea ms acertado que cualquiera de los mtodos existentes, llmese porcentaje
sobre ventas a crdito o porcentaje sobre la utilidad bruta, etctera.
Determinar prximos pasos
Antes de continuar con la fase de distribucin o implementacin es importante iterar sobre
las mejoras y refinar lo ms posible hasta encontrar resultados ptimos. Esto puede
reducir costos econmicos dado que el modelo an no ha sido implementado, en el caso
opuesto el estancamiento en las operaciones para resolver un problema puede ser
bastante costoso para la empresa.

Implementacin
Esta es la ltima fase del modelo CRISPDM, en ella se realizan las actividades
necesarias para la implementacin de las mejoras necesarias en la organizacin. Dichas
actividades son:

15

Planificacin de la implementacin
El nuevo mtodo para la estimacin de incobrables ser implementado como parte de un
esfuerzo conjunto de todos los miembros de la organizacin, especialmente haciendo
nfasis en el personal de soporte, quienes se encargaran de instruir al personal de
contabilidad acerca del nuevo mtodo. Para ello probablemente existir una actualizacin
del software de contabilidad que utiliza la empresa actualmente, la cual incoropore el
nuevo mtodo.

Planificacin del control y mantenimiento


Ac tambin juega un papel importante el personal de soporte, quienes estarn a
disposicin del resto de personal para aclarar dudas sobre cualquier aspecto relacionado
con el modelo implementado. Adems se realizaran revisiones mensuales al modelo y
entrevistas al personal que lo implementa, sobre su rendimiento y su efectivo
acercamiento a la realidad.

Informe Final
Luego de un periodo de seis meses de implementado el nuevo mtodo de estimacin de
incobrables y de haber obtenido la retroalimentacin necesaria, se elaborara el informe
final, el cual contiene aspectos como los siguientes:

Problema resuelto con la realizacin del proyecto.

Mejoras realizadas.

Costo final del proyecto.

Efectividad en los resultados obtenidos luego de su implementacin.

16

CONCLUSIONES

Del anlisis de los distintos contenidos necesarios para la realizacin de este proyecto y
de la aplicacin de los mismos para el desarrollo del mismo se han obtenido importantes
conclusiones las cuales se listan a continuacin:

La minera de datos es una herramienta muy importante que podemos utilizar en


una variedad enorme de reas para solucionar muchos de los problemas que
actualmente existen. reas como la estadstica o la contabilidad se veran
sumamente beneficiadas y simplificadas si aplicamos modelos de minera de
datos. En nuestro proyecto por ejemplo, un tema complejo para la contabilidad
como el clculo del monto que no pagaran los clientes de la empresa puede ser
bastante sencillo si utilizamos la minera de datos.

El uso de un modelo de proceso de minera de datos como es el caso de CRoss


Industry Process for Data Mining (CRISP-DM) facilita en gran manera la labor de
desarrollo de un proyecto de minera de datos, esto ya que te guan acerca de
todas las fases necesarias y las actividades que se deben desarrollar en cada una
de ellas. Adems de que dirigen el rumbo del mismo, definiendo los entregables
para cada una de ellas. Por ello, una vez se define el modelo y la temtica del
proyecto es solo seguir todas las instrucciones brindadas para cumplir con xito el
proyecto.

En la fase de evaluacin del proyecto se debe ser bastante cuidadoso de no


apresurarse y no continuar con la fase de implementacin hasta que
verdaderamente el proyecto est bien depurado. Aprobar el proyecto cuando no
est listo puede generar gastos econmicos muy altos en el momento de la
correccin de dichos errores.

17

RECOMENDACIONES
Este como primer proyecto de minera de datos, provee grandes conocimientos, que de
manera segura podrn ser utilizados en futuros proyectos ya sea en el mbito formativo
o laboral. Dentro de las principales recomendaciones que podrn ser utilizadas en el
futuro destacan:

Es un hecho que la minera de datos podra simplificar enormemente muchas


actividades realizadas en muchas reas de trabajo, pero tambin se deben
contemplar aspectos muy importantes relacionados con los datos. Es
recomendable verificar que los datos que van a ser utilizados como base del
proyecto sean bastante confiables, de modo que permitan obtener resultados
confiables.

Se recomienda utilizar siempre un modelo de proceso como por ejemplo CRISPDM ya que aunque posiblemente demore ms tiempo el desarrollo del proyecto,
tenemos garanta de que se cumplen todas las etapas, se generan entregables de
calidad y existe ms garanta de xito en nuestro proyecto.

Se deben planificar muy bien cada uno de los recursos necesarios para el
desarrollo del proyecto, de tal forma que haya seguridad de que esos recursos
sean necesarios para una correcta implementacin y que no se d el caso de que
se tenga que abandonar a medio camino por motivos de falta de recursos para
continuar.

18

BIBLIOGRAFA

Chapman, P., Clinton, J., & Kerber, R. (2000). CRISP-DM 1.0. IBM.
DELL. (s.f.). What is Data Mining (Predictive Analytics, Big Data). Obtenido de DELL
Software: http://www.statsoft.com/Textbook/Data-Mining-Techniques
Gmez Jimnez, E. (2015). Orientaciones Acadmicas de la Asignatura Bases de Datos
II. San Jos: EUNED.
Hastie, T., Tibshirani, R., & Friedman, J. (2011). The Elements of Statistical Learning:
Data Mining, Inference, and Prediction (Segunda ed.). New York: Springer.
Hernndez Orallo, J., Ramrez Quintana, M. J., & Ferri Ramrez, C. (2004). Introduccin
a la Minera de Datos. Madrid: PEARSON Educacin.
IBM. (2012). Manual CRISP-DM de IBM SPSS Modeler. Estados Unidos: IBM
Corporation.
Virseda, F., & Romn , J. (s.f.). Minera de datos y aplicaciones. Madrid: Universidad
Carlos III.

19

También podría gustarte