Documentos de Académico
Documentos de Profesional
Documentos de Cultura
ARBOLES DE DECISIN
INTRODUCCION
Se propone y desarrolla una aproximacin de lo que son los Arboles de Decisin, para ello se emplea una
metodologa que propone la construccin del repositorio de datos (extraccin, transformacin y
transportacin de los datos) para posteriormente implementar un algoritmo Decisin_Trees que es un
algoritmo para la clasificacin y la regresin que se incluye con Microsoft SQL Server Analysis Services para
el modelado predictivo de ambos atributos discretos y continuos.
Para los atributos discretos, el algoritmo hace predicciones basadas en las relaciones entre las columnas
de entrada en un conjunto de datos. Los valores, conocidos como estados, estas columnas se utilizan para
estimar los estados de una columna designada como de confianza. En particular, el algoritmo identifica las
columnas de entrada relacionadas con la columna de prediccin.
DESARROLLO
Creando un Proyecto de Analysis Services
Se crear un nuevo proyecto de Analysis Services para utilizar los algoritmos de Minera de Datos de SQL
Server 2012, para ello utilizamos Microsoft Visual Studio y creamos un nuevo proyecto desde el men
Archivo, en tipos de proyecto seleccione Business Intelligence Projects y escogemos la plantilla Proyecto
multidimensional y de minera de datos.
Generar un escenario
El departamento de Tecnologas de informacin del CNT desea identificar las caractersticas de los clientes
anteriores que podran indicar si es probable que estos clientes adquirieran servicios adicionales en sus
paquetes de telefona en el futuro. En las bases de datos existe informacin demogrfica que describe los
clientes anteriores. Mediante el anlisis de esta informacin a travs del algoritmo de rboles de decisin
de Microsoft, el departamento de marketing puede generar un modelo que predice si un cliente va a
adquirir servicios especficos, con base en los estados de las columnas de notas sobre ese cliente, tales
como las relativas a la informacin la demografa o las tendencias de compra anteriores.
El algoritmo de rboles de decisin de Microsoft utiliza la funcin de seleccin de atributos como una gua
para la seleccin de los atributos ms tiles. El atributo de la seleccin de caractersticas es utilizado por
todos los algoritmos de minera de datos de Analysis Services para mejorar el rendimiento y la calidad del
anlisis. La funcin de seleccin de atributos es importante para evitar que los atributos no importantes
para utilizar el procesador. Si utiliza un nmero excesivo de entrada o atributos de prediccin en el diseo
de un modelo de minera de datos, el desarrollo del modelo puede llevar mucho tiempo o de la memoria
puede ser insuficiente. Los mtodos utilizados para determinar si desea dividir el rbol incluyen las mtricas
estndar de la industria para la entropa y redes bayesianas.
Se muestra la ventana Explorador de soluciones de Visual Studio y en la ficha Estructura de minera del
modelo de minera de datos que se cre en los pasos anteriores.
En este nos podemos dar cuenta que los casos para la prediccin de s, es que deben tener contratado
paquete de internet y correo ya que estos fueron los datos de dependencia que ms influenciaron en este
caso.
En cuanto al grfico de elevacin nos dio que nuestro modelo se encuentra en un alto grado de probabilidad
ya que se encuentra bastante cerca del modelo ideal y sobre el modelo sin una estructura.
En el grfico de beneficios se observa que hay que hacer nfasis en campaas de llamadas a los clientes
para proponerles un plan de redes sociales que no supere el 80 % de la poblacin de estudio a la que vamos
a realizar esta campaa, y que su valor de prediccin este sobre el 4,74 % de probabilidad de prediccin.
La matriz de clasificacin:
La primera celda de resultados, que contiene el valor 651, indica el nmero de verdaderos positivos para el
valor si. Dado que si indica que el cliente adquiri servicios de redes sociales en su telfono, esta estadstica
indica que el modelo predijo el valor correcto para quienes adquirieron este servicio en 362 casos.
La celda situada al lado de esa, que contiene el valor 55, indica el nmero de falsos positivos, o nmero de
veces que el modelo predijo que alguien adquirira el servicio cuando en realidad no lo hizo.
La celda que contiene el valor 10 indica el nmero de falsos positivos para el si. Dado que si significa que
el cliente adquiri el servicio, esta estadstica indica que, en 10 casos, el modelo predijo que alguien no
comprara una bicicleta cuando s lo hizo.
Finalmente, la celda que contiene el valor 189 indica el nmero de verdaderos positivos para el valor de
destino si. En otras palabras, en 189 casos el modelo predijo correctamente que alguien adquiriera el
servicio.
Sumando los valores de las celdas contiguas diagonalmente, se puede determinar la exactitud total del
modelo. Una diagonal indica el nmero total de predicciones exactas y la otra indica el nmero total de
predicciones errneas.
Para tener un mayor enfoque realizamos una comparacin con el modelo de bayes en el cual nos dimos
cuenta que toma ms atributos de dependencia para realizar el anlisis.
Es decir este modelo de Bayes nos da ms atributos que permiten analizar qu es lo que adems del
paquete de internet y correo influyen en la adquisicin de un paquete de redes sociales.
Aqu nos damos cuenta que los atributos que influyen para que un cliente adquiera el servicio de redes
sociales en su telfono son: Tiene que tener contratado internet y correo, es de la regin costa, del litoral,
y un nivel de instruccin universitaria.