Está en la página 1de 11

2013

Minera de Datos con


Visual Studio

ARBOLES DE DECISIN

CRISTIAN ALMEIDA - DANILO ANATOA - DAMIAN CAMINO


TOSHIBA

ARBOLES DE DECISIN - VISUAL STUDIO


ANTECEDENTES
El crecimiento explosivo de Internet y particularmente de la World Wide Web
(WWW), ha hecho cada vez ms necesario para las instituciones y empresas utilizar herramientas
automatizadas para encontrar, extraer, predecir, filtrar y evaluar los recursos de informacin disponibles.
La minera de datos (data mining) ha sido definida como una metodologa para la identificacin de patrones
no triviales vlidos, nuevos, comprensibles y potencialmente tiles posibles de extraer de un conjunto
enorme de datos.

INTRODUCCION
Se propone y desarrolla una aproximacin de lo que son los Arboles de Decisin, para ello se emplea una
metodologa que propone la construccin del repositorio de datos (extraccin, transformacin y
transportacin de los datos) para posteriormente implementar un algoritmo Decisin_Trees que es un
algoritmo para la clasificacin y la regresin que se incluye con Microsoft SQL Server Analysis Services para
el modelado predictivo de ambos atributos discretos y continuos.
Para los atributos discretos, el algoritmo hace predicciones basadas en las relaciones entre las columnas
de entrada en un conjunto de datos. Los valores, conocidos como estados, estas columnas se utilizan para
estimar los estados de una columna designada como de confianza. En particular, el algoritmo identifica las
columnas de entrada relacionadas con la columna de prediccin.

DESARROLLO
Creando un Proyecto de Analysis Services
Se crear un nuevo proyecto de Analysis Services para utilizar los algoritmos de Minera de Datos de SQL
Server 2012, para ello utilizamos Microsoft Visual Studio y creamos un nuevo proyecto desde el men
Archivo, en tipos de proyecto seleccione Business Intelligence Projects y escogemos la plantilla Proyecto
multidimensional y de minera de datos.

Explorador de soluciones de Analysis Services


El explorador de soluciones, que se encuentra a la derecha del diseo, proporciona un mecanismo para
navegar entre el diseo y administrar los elementos de un proyecto.
Existen 3 objetos bsicos para aplicar modelos de Minera:
Orgenes de datos. Con este objeto, se crea la conexin hacia nuestra fuente de datos en SQL
Server.
Vistas del origen de datos. Permite seleccionar cules sern las tablas de datos para el modelo
de Minera a partir del Origen de dato creado previamente.
Estructuras de minera de datos. Una vez creada las vistas del origen de datos se procede a
utilizar un Wizard (Asistente) para aplicar un modelo de Minera a los datos de las tablas.

Definiendo los Orgenes de los datos


El primer paso para aplicar un modelo de minera es definir la conexin hacia la Base de Datos de
Microsoft SQL Server donde se tienen los datos, para ello da clic derecho en el objeto Orgenes de Datos
del Proyecto.
Damos clic en nuevo origen de datos para crear una nueva conexin.
El asistente nos orienta paso a paso en el proceso que define la conexin hacia la Base de Datos. Damos
clic en el botn siguiente para continuar.
Luego definir la conexin a los datos, por defecto el sistema selecciona la opcin crear un origen de datos
basado en una conexin nueva, seleccionamos la opcin nuevo origen de datos
El proveedor predeterminado para una conexin nueva es el proveedor OLE DB nativo o SQL Server Native
Client

En la pgina Informacin de suplantacin, ponemos nombre de usuario y la contrasea, clic en Siguiente.

Definiendo una vista del origen de datos


Una vez que se define el Origen de datos, se seleccionan las tablas con los datos a los que se les va a aplicar
el modelo de Minera con el objeto Vista del origen de datos.
Para crear una vista de origen de datos
Seleccionar la fuente de datos (Orgenes de Datos) donde estn las tablas o las vistas que se quieren
usar. Se selecciona el Origen de Datos previamente creado que apunta hacia la Base de Datos Master y
que tiene las tablas que se quieren usar en el modelo de Minera.
Seleccionar las tablas que van a estar disponibles en las vistas de orgenes de datos para ser usadas en el
mtodo de Minera.

Agregando una Estructura de Minera de Datos al Proyecto


Mediante el anlisis de los atributos se espera detectar los patrones que posteriormente se aplicarn
dependiendo el negocio.
Se utilizar el Asistente para minera de datos con el fin de crear la estructura de minera de datos con un
modelo sencillo.

Las estructuras de Minera de datos se pueden basar en orgenes de datos relacionales o de


procesamiento analtico en lnea (OLAP). Las estructuras de Minera de datos relacionales describen los
datos que estn almacenados en sistemas de bases de datos relacionales. Las estructuras de Minera
de datos OLAP se generan utilizando un cubo OLAP que existe en la misma base de datos que la estructura
de Minera de datos.
En la pgina Crear la estructura de minera de datos, en Qu tcnica de minera de datos desea utilizar?,
seleccione rboles de Decisin Microsoft.

Generar un escenario
El departamento de Tecnologas de informacin del CNT desea identificar las caractersticas de los clientes
anteriores que podran indicar si es probable que estos clientes adquirieran servicios adicionales en sus
paquetes de telefona en el futuro. En las bases de datos existe informacin demogrfica que describe los
clientes anteriores. Mediante el anlisis de esta informacin a travs del algoritmo de rboles de decisin
de Microsoft, el departamento de marketing puede generar un modelo que predice si un cliente va a
adquirir servicios especficos, con base en los estados de las columnas de notas sobre ese cliente, tales
como las relativas a la informacin la demografa o las tendencias de compra anteriores.

El algoritmo de rboles de decisin de Microsoft utiliza la funcin de seleccin de atributos como una gua
para la seleccin de los atributos ms tiles. El atributo de la seleccin de caractersticas es utilizado por
todos los algoritmos de minera de datos de Analysis Services para mejorar el rendimiento y la calidad del
anlisis. La funcin de seleccin de atributos es importante para evitar que los atributos no importantes
para utilizar el procesador. Si utiliza un nmero excesivo de entrada o atributos de prediccin en el diseo
de un modelo de minera de datos, el desarrollo del modelo puede llevar mucho tiempo o de la memoria
puede ser insuficiente. Los mtodos utilizados para determinar si desea dividir el rbol incluyen las mtricas
estndar de la industria para la entropa y redes bayesianas.

Se muestra la ventana Explorador de soluciones de Visual Studio y en la ficha Estructura de minera del
modelo de minera de datos que se cre en los pasos anteriores.

Implementacin del algoritmo de rboles de Decisin de Microsoft


Para crear la estructura de minera y el modelo respectivo usamos los atributos: si el telfono usa internet,
si usa el telfono para correo, la instruccin de educacin, edad, regin, sector, estado civil, rea y como
dato de prediccin fue si la persona usa redes sociales en su telfono. El rbol que nos dio fue el siguiente:

En este nos podemos dar cuenta que los casos para la prediccin de s, es que deben tener contratado
paquete de internet y correo ya que estos fueron los datos de dependencia que ms influenciaron en este
caso.

En cuanto al grfico de elevacin nos dio que nuestro modelo se encuentra en un alto grado de probabilidad
ya que se encuentra bastante cerca del modelo ideal y sobre el modelo sin una estructura.

En el grfico de beneficios se observa que hay que hacer nfasis en campaas de llamadas a los clientes
para proponerles un plan de redes sociales que no supere el 80 % de la poblacin de estudio a la que vamos
a realizar esta campaa, y que su valor de prediccin este sobre el 4,74 % de probabilidad de prediccin.

La matriz de clasificacin:
La primera celda de resultados, que contiene el valor 651, indica el nmero de verdaderos positivos para el
valor si. Dado que si indica que el cliente adquiri servicios de redes sociales en su telfono, esta estadstica
indica que el modelo predijo el valor correcto para quienes adquirieron este servicio en 362 casos.
La celda situada al lado de esa, que contiene el valor 55, indica el nmero de falsos positivos, o nmero de
veces que el modelo predijo que alguien adquirira el servicio cuando en realidad no lo hizo.
La celda que contiene el valor 10 indica el nmero de falsos positivos para el si. Dado que si significa que
el cliente adquiri el servicio, esta estadstica indica que, en 10 casos, el modelo predijo que alguien no
comprara una bicicleta cuando s lo hizo.
Finalmente, la celda que contiene el valor 189 indica el nmero de verdaderos positivos para el valor de
destino si. En otras palabras, en 189 casos el modelo predijo correctamente que alguien adquiriera el
servicio.
Sumando los valores de las celdas contiguas diagonalmente, se puede determinar la exactitud total del
modelo. Una diagonal indica el nmero total de predicciones exactas y la otra indica el nmero total de
predicciones errneas.

Para tener un mayor enfoque realizamos una comparacin con el modelo de bayes en el cual nos dimos
cuenta que toma ms atributos de dependencia para realizar el anlisis.

Es decir este modelo de Bayes nos da ms atributos que permiten analizar qu es lo que adems del
paquete de internet y correo influyen en la adquisicin de un paquete de redes sociales.

Aqu nos damos cuenta que los atributos que influyen para que un cliente adquiera el servicio de redes
sociales en su telfono son: Tiene que tener contratado internet y correo, es de la regin costa, del litoral,
y un nivel de instruccin universitaria.

En esta grfica lo que hacemos es comparar ambos modelos.

También podría gustarte