Está en la página 1de 57

SAAD

Segmentacin Automtica por rbol de Decisin


versin 2.0

Manual de usuario

Segmentacin Automtica por rbol de Decisin

Manual de usuario SAAD versin 2.0

SAAD versin 2.0 Segmentacin Automtica por rbol de Decisin Toms Aluja, Eduard Nafria Copyright: Toms Aluja, Eduard Nafria, 1999

El sistema informtico SAAD descrito en este manual se difunde segn un contrato de licencia de utilizacin y de no divulgacin. Slo puede ser utilizado o copiado de acuerdo con las condiciones estipuladas en el contrato. Toda otra copia del programa esta prohibida per la ley.

Segmentacin Automtica por rbol de Decisin

INDICE

1. INTRODUCCIN A SAAD ................................................................................... 1 2. - EL MEN PRINCIPAL ....................................................................................... 1 2.1 - INTRODUCCIN .................................................................................................... 1 2.2 - LAS OPCIONES..................................................................................................... 3 2.2.1 Archivo ........................................................................................................ 3 2.2.2 Datos........................................................................................................... 3 2.2.3 rboles ........................................................................................................ 3 2.2.4 Ver............................................................................................................... 4 2.2.5 Opciones ..................................................................................................... 4 2.2.6 Ayuda .......................................................................................................... 4 3. EMPEZANDO A TRABAJAR CON SAAD .......................................................... 5 3.1 ABRIR EL FICHERO DE METADATOS ......................................................................... 5 3.1.1 Recuperar y salvar los metadatos .............................................................. 5 3.1.2 Importar metadatos de versiones anteriores .............................................. 6 3.1.3 Impresin .................................................................................................... 6 3.2 GESTIN DE LOS METADATOS ................................................................................. 6 3.2.1 Definicin de variables y categoras ........................................................... 7 3.2.2 Recodificacin de variables ...................................................................... 10 3.2.3 Definicin del archivo de datos................................................................. 11 3.2.4 Importacin de ficheros con los campos separados por delimitadores ... 12 3.2.5 Generacin de muestras de aprendizaje y test ........................................ 14 4. DEFINICIN Y GENERACIN DE RBOLES.................................................. 15 4.1 - DEFINICIN DE LOS RBOLES ............................................................................. 16 4.2 - GENERACIN DE UN RBOL ................................................................................ 18 4.2.1 - Generacin automtica de un rbol ....................................................... 20 4.3 OBTENCIN DE INFORMACIN SOBRE UN NODO ..................................................... 23 4.3.1 Caso de tener una variable de respuesta categrica............................... 24 4.3.2 Caso de tener una variable de respuesta continua .................................. 25 4.4 VISUALIZACIN EXPANDIDA................................................................................... 26 4.5 PONDERACIN DE LOS RBOLES DE CLASIFICACIN ............................................... 27 5. - EDICIN DE RESULTADOS ........................................................................... 29 5.1 VER TODO EL RBOL ............................................................................................ 29 5.2 MOSTRAR LA LEYENDA DE LOS NODOS .................................................................. 30 5.3 VISUALIZAR EL RBOL HASTA UN CIERTO NIVEL ...................................................... 30 5.4 DESCRIPCIN DE LOS SEGMENTOS ....................................................................... 31 5.4.1 Caso de tener una variable de respuesta binaria..................................... 31 5.4.2 Caso de tener una variable de respuesta categrica de ms de dos modalidades ................................................................................................................. 32 5.4.3 Caso de tener una variable de respuesta continua .................................. 34 5.5 CURVA DE CONCENTRACIN ................................................................................. 35 5.6 PSEUDOCDIGO DE LAS REGLAS........................................................................... 36

Manual de usuario SAAD versin 2.0

6. - GENERACIN PASO A PASO ....................................................................... 37 6.1 - GENERACIN DE UNA PARTICIN ........................................................................ 38 6.1.1 Caso en que la variable de respuesta es categrica ............................... 38 6.1.2 Caso en que la variable de respuesta es continua .................................. 42 6.2 OBTENCIN DE ESTADSTICOS EN UN NODO .......................................................... 47 6.2.1 Caso de que la variable seleccionada sea categrica ............................. 47 6.2.2 Caso de que la variable seleccionada sea continua ................................ 48 6.3 OBTENCIN DE INFORMACIN SOBRE UNA VARIABLE.............................................. 49 6.4 CONSTRUYENDO EL RBOL A SU GUSTO ................................................................ 49 6.4.1 Volver a empezar. Poda del rbol ............................................................ 49 6.4.2 Modificacin de una particin ................................................................... 50

Manual de usuario SAAD versin 2.0

1. Introduccin a SAAD
SAAD, Segmentacin Automtica por rbol de Decisin, es un programa estadstico que sirve para definir y construir de forma automtica rboles de decisin respecto de una variable de inters (cifra de ventas, compra de un producto, etc.). SAAD es un programa especialmente concebido para la toma de decisiones en el entorno de las aplicaciones comerciales, para encontrar las reglas bajo las que operan los consumidores y as poder maximizar la rentabilidad de los productos empresariales. SAAD permite generar rboles de decisin de forma visual a partir de grandes bases de datos. Los rboles se pueden obtener de forma automtica, o bien, paso a paso, permitiendo al usuario intervenir en el proceso de creacin del rbol. Para asegurar la calidad de las reglas detectadas, los rboles construidos se validan mediante la tcnica de la muestra test. Los rboles de decisin permiten detectar aquellos grupos (segmentos) de la poblacin que mejor sirven para explicar una cierta variable de inters, que denominaremos de respuesta y, respecto de la cual queremos efectuar predicciones. Esta variable de respuesta puede ser continua, binaria o nominal.

2. - El men principal
2.1 - Introduccin
El men principal est dividido en seis grandes bloques, ordenados segn el orden lgico de utilizacin del programa. La Figura 1 muestra este men principal.

Figura 1.- Men principal de la aplicacin

Segmentacin Automtica por rbol de Decisin

En primer lugar tenemos el men Archivo que sirve para crear, abrir y guardar el fichero de metadatos de la aplicacin. El fichero de metadatos es donde el programa guarda tota la informacin respeto de las variables, su codificacin, el nombre del fichero de datos, los rboles definidos y otros parmetros definidos por la aplicacin. SAAD trabaja con proyectos. Cada proyecto viene identificado por un fichero de metadatos y su correspondiente fichero de datos. El men Datos sirve para manipular las variables y toda la informacin que sobre ellas SAAD precisa (nombre, tipo, categorias, ). En Archivo de datos indicamos el nombre del fichero que contiene los valores de las variables para cada individuo. Este fichero ser del tipo texto, pudiendo ser en formato fijo, o bien en formato delimitado por algunos de los separadores habituales: espacio en blanco, tabulador o punto y coma, lo cual permite leer ficheros procedentes de hojas de clculo Excel, Lotus o Dbase; en este caso, la primera lnea puede contener el nombre de las variables (en caso contrario, SAAD generara nombres automticos para las variables). Tambin es posible efectuar una recodificacin en tramos de las variables continuas. A continuacin SAAD divide el fichero de datos en dos partes, la primera, denominada muestra de aprendizaje, la utiliza para construir los rboles, mientras que la restante, denominada muestra test, la utiliza para validar el rbol previamente construido. Por defecto, SAAD selecciona al azar 2/3 partes del fichero original como muestra de aprendizaje y le asigna el mismo nombre que el fichero original, pero con la extensin *.LRN. El men rboles sirve para definir los rboles de decisin, generarlos y ponderarlos, a fin que los resultados sean vlidos a nivel poblacional. En este men se encuentran las opciones ms genuinas del programa. El rbol generado se visualiza en la ventana de la aplicacin. El men Ver sirve para escoger diferentes visualizaciones del rbol generado, cmo visualizar el rbol completo dentro de la ventana, as como resultados derivados del rbol, o bien sirve para visualizar informacin sobre los segmentos obtenidos, la curva de concentracin o las reglas de definicin de los segmentos en pseudocdigo. El men Opciones permite una serie de posibilidades del programa de cara a facilitar el trabajo al usuario, como recuperar de forma automtica el ltimo fichero de metadatos con el que se vena trabajando. El men Ayuda permite acceder a la ayuda del programa.

Manual de usuario SAAD versin 2.0

2.2 - Las opciones


2.2.1 Archivo
Aqu encontramos las funciones bsicas para la manipulacin de los metadatos. Nuevo: Borra los metadatos actuales y crea un fichero nuevo de metadatos sin ninguna informacin. Abrir: Borra los metadatos actuales y abre un fichero de metadatos ya existente. Guardar: Guarda los metadatos actuales en el disco. Guardar Como: Guarda los metadatos actuales con otro nombre. Importar metadatos: Importa los metadatos de la versin 1.0 de SAAD. Imprimir. Imprime la ventana activa. Visin preliminar: Visualiza la ventana activa antes de la impresin. Configurar impresora: Define qu impresora utilizaremos. Salir: Sale del sistema SAAD

2.2.2 Datos
En primer lugar debemos definir los metadatos con los que trabajaremos. Esto es, definir las variables y eventualmente sus categoras con las que trabajaremos e informar a SAAD cmo se llama y dnde se encuentra el fichero que contiene los valores de las variables especificadas. Variables: Edita el diccionario (su nombre, tipo, ) de las variables. Archivo de datos: Especifica el fichero de datos, as como el fichero de aprendizaje que se generar y servir para la construccin de los rboles de decisin.

2.2.3 rboles
Sirve para definir y generar los rboles deseados. Posteriormente, si la variable de respuesta es categrica, podremos ponderar los rboles generados para hacerlos representativos de la poblacin estudiada. Definir: Definicin de las variables y los parmetros que intervendrn en la generacin de un rbol.
3

Segmentacin Automtica por rbol de Decisin

Generar: Generacin del rbol especificado. Nodos expandidos: Ver la informacin de los nodos separando la muestra de aprendizaje de la muestra test, o bien agregando ambas muestras. Ponderar los individuos del rbol: Traslacin de los resultados muestrales para ser representativos de toda la poblacin.

2.2.4 Ver
Por ltimo ser interesante extraer de forma automtica algunos resultados tiles de los rboles generados. Todo el rbol: Visualiza todo el rbol generado en pantalla. Mostrar leyenda de los nodos: Recuerda qu estadsticos se muestran en los nodos. Niveles de rbol: Visualiza el rbol generado hasta un cierto nivel, definiendo el rbol a retener. Descripcin de los segmentos: Visualiza informacin sobre los segmentos del rbol retenido. Curva de concentracin: Visualiza la curva de concentracin obtenida con los segmentos del rbol retenido. Pseudocdigo de las reglas: Obtencin de las condiciones lgicas que definen las reglas en pseudocdigo.

2.2.5 Opciones
Ver el men de iconos Ver la barra de estado Abrir automticamente: Recuperacin automtica de metadatos utilizados por el sistema en la ltima ejecucin. los

2.2.6 Ayuda
Contenido: Ayuda de la aplicacin. Buscar: Buscar un concepto en la ayuda. Cmo funciona la ayuda. Acerca la aplicacin: Copyright de la aplicacin.

Manual de usuario SAAD versin 2.0

3. Empezando a trabajar con SAAD


3.1 Abrir el fichero de metadatos
Para empezar a trabajar con SAAD la primera cosa que debemos hacer es definir los metadatos con los que trabajar el programa. Cada proyecto viene definido por un fichero de metadatos. Por metadatos entendemos todo el conjunto de informacin que disponemos sobre el significado de las variables, su codificacin fsica en el fichero de datos y todas las informaciones necesarias para construir los rboles. Estos metadatos son definidos por el usuario a medida que avanza en la realizacin de un rbol y archivadas por el sistema haciendo uso de la opcin <Guardar> o <Guardar como>. Cada conjunto de metadatos se guarda en un fichero, al cual es normal asignarle la extensin *.MTD (sta es la extensin por defecto). Este fichero contiene toda la informacin relativa a un proyecto.

3.1.1 Recuperar y salvar los metadatos


Si es la primera vez que trabajamos con SAAD escogeremos la opcin Nuevo dentro del men Archivo y el programa nos mostrar la cabecera de SAAD: Nuevo. Ahora bien, si queremos trabajar con unos metadatos ya existentes escogeremos la opcin Abrir. Entonces el usuario seleccionar el fichero de metadatos que contiene la informacin relativa al proyecto en curso (Figura 3) y SAAD mostrar en su cabecera el fichero de metadatos activo.

Figura 2.- Abrir un fichero de metadatos

Segmentacin Automtica por rbol de Decisin

Si queremos guardar los metadatos actuales escogeremos la opcin Guardar o Guardar Como, del men Archivo. La Figura 3 muestra la ventana correspondiente. El usuario debe especificar el directorio y con que nombre quiere que se guarden los metadatos actuales en curso.

Figura 3.- Guardar los metadatos

3.1.2 Importar metadatos de versiones anteriores


Esta posibilidad se consigue de forma automtica activando esta opcin. Recordemos que los ficheros de metadatos deben estar todos en un nico subdirectorio. SAAD los leer y emitir un mensaje en caso de importacin satisfactoria. A continuacin, el usuario podr trabajar con ellos y guardarlos en un fichero .MTD, haciendo uso de la opcin <Guardar como>.

3.1.3 Impresin
Las facilidades para la impresin de resultados son los habituales en las aplicaciones Windows y comprenden la configuracin de la impresora, la visualizacin preliminar del rbol generado, la cual permitir ver el nmero de pginas que ocupa el rbol generado, y la impresin propiamente dicha.

3.2 Gestin de los metadatos


En este apartado explicaremos cmo crear los metadatos de un proyecto. Supondremos que tenemos en un fichero en formato ASCII los valores de cada uno de los individuos (en filas) respecto de una serie de campos o variables pertinentes respecto el problema que deseamos estudiar. Utilizaremos como ejemplo el fichero car.dat, proporcionado
6

Manual de usuario SAAD versin 2.0

conjuntamente con el programa. Este fichero contiene informacin sobre 490 modelos de turismos y 33 variables. A continuacin veremos cmo definir los metadatos concernientes a este fichero de datos.

3.2.1 Definicin de variables y categoras


En primer lugar iremos al men Datos, y escogeremos la opcin Variables. Si previamente hemos escogido la opcin Nuevo del men Archivo, observaremos que en la cabecera del men principal aparece el ttulo SAAD - Nuevo y el dilogo diccionario aparecer vacio. Si por el contrario hemos escogido la opcin Abrir y hemos abierto un fichero de metadatos previamente definido, por ejemplo car.mtd, en la cabecera del men principal aparecer el ttulo SAAD - car.mtd, y el dilogo del diccionario estar lleno, tal como se observa en la Figura 4. Este dilogo nos muestra todas las variables activas en el sistema, presentes en el fichero de datos original y ledas por el programa.

Figura 4.- Edicin del diccionario de variables En la ventana Lista de variables aparece el cdigo de la variable, de 4 dgitos, que servir como identificador de la variable, el tipo de la variable y seguidamente el nombre de la variable en un texto de 40 caracteres. Recordemos que este nombre tambin es identificador. A continuacin y para cada variable, se da su valor mximo, mnimo y si la variable es continua, su media. Esta informacin sirve para verificar la lectura de datos efectuada. En esta ventana podemos borrar toda la lista de variables activas, definir nuevas variables activas, o bien borrar o modificar la variable
7

Segmentacin Automtica por rbol de Decisin

seleccionada, mediante las opciones <Borrar>, <Borrar todo>, <Modificar> y <Nuevo>. Adems, para las variables continuas, podemos efectuar una recodificacin en intervalos mediante la opcin <Codificar>. Si queremos ver la informacin que contiene una variable, por ejemplo la V006 que en proyecto car.mtd corresponde a la longitud del vehculo, nos situamos sobre la variable en cuestin y vamos a la opcin <Modificar>. Aparece entonces el dilogo de la Figura 5. Estos son los campos a rellenar para efectuar la lectura de un fichero en formato fijo y para que SAAD funcione correctamente cuando haya que generar los rboles de decisin. Es por ello que describiremos cada uno de los campos a rellenar Nombre: Es el nombre de la variable. Como mximo ha de tener 40 caracteres, y no se puede repetir. Es un campo identificador de la variable, aunque puede ser modificado. Cdigo: Es el cdigo de la variable. Ha de tener obligatoriamente 4 caracteres. Es identificador y no puede ser modificado. Inicio: Indica la primera columna dnde empieza la variable en el fichero de datos ASCII en formato fijo. La primera posicin es la nmero 1. Si el fichero de datos viene con los valores de las variables separados por delimitadores no es necesario rellenar este campo.

Figura 5. Edicin de una variable Longitud: Indica la longitud en caracteres de la variable en el fichero de datos ASCII en formato fijo. Si el fichero de datos viene con los valores de las variables separados por delimitadores no es necesario rellenar este campo.
8

Manual de usuario SAAD versin 2.0

Tipo: Indicamos el tipo de la variable entre los cuatro siguientes: Continua: Cuando una variable puede tomar cualquier valor de la recta real. Obviamente este tipo implica que existe una relacin de orden y que es posible cuantificar la diferencia entre dos valores. Si existen valores faltantes, estos debern ser previamente estimados, sin embargo, si la lectura se hace a partir de un fichero separado por delimitadores, se les asigna el valor medio de la variable concernida. Binaria: Es una variable categrica con slo dos posibilidades. Si existen valores faltantes se deber definir como Nominal de tres categoras. Ordinal: Es una variable categrica de ms de dos categoras y con una relacin de orden entre las categoras. Los valores faltantes se incluyen en una nueva categora, que se sita al principio o final de la lista de categoras de la variable. Nominal: Es una variable categrica con ms de dos categoras y sin relacin de orden entre ellas. Los valores faltantes son tratados como una categoria ms. Categoras: Si la variable es categrica (esto es, es Binaria, Ordinal o Nominal) tendremos que definir sus categoras, haciendo uso de las opciones <Borrar>, <Modificar> y <Nueva>. Por ejemplo, supongamos que queremos modificar alguna de las categoras de la variable longitud del vehculo. Si seleccionamos la categora valor faltante y escogemos la opcin <Modificar> aparecer un dilogo como el de la Figura 6.

Figura 6 Editar una categora de una variable Este dilogo sirve para crear o redefinir categoras. La informacin que provee es la siguiente: Nombre: Es un identificador de 20 caracteres como mximo. Valor: Es la codificacin numrica de la categora; el valor que encontramos en el fichero de datos y que referencia la categora. Tambin es identificador.

Segmentacin Automtica por rbol de Decisin

3.2.2 Recodificacin de variables


Mediante la opcin <Codificar> de la Figura 4 es posible efectuar una recodificacin en intervalos de cualquier variable. Esta opcin es sobretodo til para discretizar las variables continuas. Para ello basta seleccionar en la lista de variables activas de la Figura 4 la variable a codificar y activando esta opcin se despliega un dilogo como el de la Figura 7.

Figura 7 Recodificacin automtica de una variable continua En este dilogo se proponen tres posibles maneras de recodificar una variable: 1. Por defecto se recodifica una variable continua en 10 intervalos (deciles) con un nmero de observaciones igual (o casi) por intervalo. El usuario puede modificar a voluntad el nmero de intervalos que desee. 2. En caso de que la variable sea en realidad de tipo mixto, esto es, si una variable refleja un cierto depsito bancario, es muy posible que un nmero importante de clientes tengan valor 0 en este depsito particular mientras que otros tendrn el valor del depsito efectuado. En este caso ser interesante mantener los clientes sin depsito como una categoria aparte en la nueva variable recodificada. Conseguiremos esto activando la opcin sobre valor particular y especificando 0 en el campo reservado a tal efecto. Los valores restantes se recodificarn segn el nmero de intervalos previamente especificados. 3. La recodificacin puede tambin efectuarse en intervalos especificados por el usuario. Para ello el usuario deber entrar los lmites superiores de cada intervalo activando la opcin <Definir
10

Manual de usuario SAAD versin 2.0

los intervalos> y <Nuevo>. El primer intervalo viene definido por el valor mnimo de la variable en cuestin y el primer lmite entrado, mientras el ltimo intervalo vendr definido por el ltimo lmite y el valor superior de la variable, luego para recodificar una variable en k intervalos, basta entrar k-1 lmites.

Figura 8 Entrada de los lmites de los intervalos para la recodificacin de una variable La nueva variable recodificada se aade al final de la lista de variables activas con la opcin COD. A continuacin se deben actualizar los ficheros internos de SAAD (de datos y aprendizaje), para lo cual basta salir del dilogo con la opcin <Aceptar>. Tendremos tambin cuidado de actualizar el fichero de metadatos para que concuerde con los ficheros internos generados.

3.2.3 Definicin del archivo de datos


Una vez que tenemos especificadas las variables con sus categoras asociadas, tenemos que indicar al programa cmo se llama y dnde se encuentra el archivo de datos que queremos utilizar, de acuerdo con los metadatos definidos. Escogiendo la opcin Archivo de Datos del men Datos veremos el dilogo de la Figura 9. Este dilogo permite especificar el Nombre del archivo de datos en formato ASCII que vamos a utilizar. SAAD permite leer ficheros ASCII en: 1. formato fijo, esto es, con las variables ocupando siempre las mismas posiciones especificadas en el diccionario de las variables (vase la Figura 6). 2. o bien, ficheros con los valores de las variables separados por delimitadores. Los delimitadores previstos son los ms habituales: el espacio, el tabulador o el punto y coma. Adems, en este caso, es posible tener en la primera fila del fichero el nombre de las variables (separados por el correspondiente delimitador).

11

Segmentacin Automtica por rbol de Decisin

Figura 9 Especificacin del fichero de datos La forma normal de trabajar es la lectura de un fichero en formato fijo, ello implica que previamente se habr definido el diccionario de las variables, su posicin en el fichero de datos, etc. tal como se ha explicado en el apartado anterior. Para grandes ficheros esta es una tarea larga, por lo que se ha provisto a SAAD de la posibilidad de crear el fichero en formato fijo con sus metadatos asociados a partir de la importacin de un fichero con los campos separados por delimitadores.

3.2.4 Importacin de ficheros con los campos separados por delimitadores


Esta opcin de lectura es particularmente til para importar ficheros provenientes de hojas de clculo (Excel o Lotus) o Dbase, siendo el diccionario de las variables creado de forma automtica, lo cual, no es bice para posteriormente completarlo o modificarlo a voluntad. Sealemos que bajo esta modalidad de lectura el fichero importado puede contener valores faltantes (blancos) para las variables continuas, as como variables alfanumricas. El nombre del fichero a importar debe especificarse en el campo reservado a tal efecto en el dilogo de la Figura 9. Se indicar el tipo de delimitador utilizado y si la primera fila contiene el identificador de las variables, los cuales deben venir separados por el mismo delimitador. A continuacin se proceder a la lectura de dicho fichero por medio de la opcin <Importar>. Las variables se considerarn continuas o categricas en funcin del nmero de valores distintos que posean. Las variables con ms de 20 valores distintos se considerarn continuas. El usuario pero, podr escoger el tipo preciso de estas variables al desplegarse el dilogo de la
12

Manual de usuario SAAD versin 2.0

Figura 10. Para estas variables el usuario escoger el tipo de la variable: continua o nominal, o bien si la desea ignorar en el fichero interno. Por defecto todas las variables con ms de 20 valores distintos o variables con posiciones decimales se considerarn continuas, mientras que las variables alfanumricas se considerarn nominales. Para tomar siempre la opcin por defecto, el usuario podr activar la casilla <Aplicar a todas las variables>. La posicin decimal puede indicarse indistintamente mediante un punto o una coma.

Figura 10 Importacin directa de un fichero con delimitadores En caso de hallarse valores faltantes (en blanco) en las variables continuas, estos se sustituirn por la media de la variable correspondiente, mientras que para las variables nominales, los valores faltantes darn lugar a una categoria ms. Las variables nominales se codificarn con los valores enteros, 1, 2, 3, hasta llegar al nmero de modalidades de la variable nominal, conservandose en la etiqueta de la modalidad correspondiente el valor original en el fichero importado. La importacin se realiza en dos fases, primero se crea un fichero intermedio en formato fijo con el mismo nombre pero cambiando la extensin (*.DAT o *.DA2, segn que el fichero de datos original tuviese ya la extensin *.DAT) apto para trabajar con SAAD, y sus metadatos asociados (nombre de las variables, posicin, etc.). Este es el objeto de la importacin, a continuacin estamos igual que en la lectura de un fichero en formato fijo descrito en el apartado anterior. Basta entonces activar la opcin <Aceptar>, mediante la cual se generarn los ficheros internos de SAAD, de aprendizaje y validacin. Y mediante la opcin Guardar como salvaremos los metadatos creados, los cuales podrn ser modificados a voluntad. En particular podremos recodificar las variables continuas haciendo uso de la opcin <Codificar> del dilogo de la Figura 4. Entonces se desplegar un dilogo como el de la Figura 7, donde el usuario especificar como desea recodificar la variable.

13

Segmentacin Automtica por rbol de Decisin

3.2.5 Generacin de muestras de aprendizaje y test


Para generar un rbol de decisin estable, tal que pueda ser utilizado profesionalmente como un instrumento de prediccin respecto de nuevos individuos que no hayan intervenido en su creacin, necesitamos dividir el fichero de datos en dos partes, una para hacerlo crecer y que llamaremos muestra de aprendizaje y otra para validarlo y que llamaremos muestra test. Cada vez que leemos un fichero de datos mediante la opcin <Aceptar>, SAAD genera de forma automtica sendos ficheros de aprendizaje y validacin, siempre que tengamos activado la <construccin automtica> del dilogo de la Figura 9. La generacin de ambas muestras se realiza tomando al azar 2/3 partes del fichero original como muestra de aprendizaje y 1/3 parte como muestra test. Cualquiera que sea la importacin realizada, y una vez generados los ficheros internos de SAAD, podremos ver el nmero de filas (individuos) y de columnas (variables) ledas y almacenadas internamente por el sistema, el nombre del fichero de aprendizaje y a qu fichero de datos va asociado, as como la composicin de las muestras de aprendizaje y validacin. Para ello basta pulsar el botn de <Informacin>, entonces obtenemos esta informacin en la ventana mostrada en la.Figura 11:

Figura 11 Informacin sobre los ficheros internos de SAAD Sin embargo, en cualquier momento podemos generar nuevas muestras de aprendizaje y validacin del fichero de datos importado, activando <construir ahora> del mismo dilogo anterior. La opcin <Informacin> nos indicar cual es el fichero de aprendizaje creado y a qu fichero de datos est asociado y su composicin. Normalmente, la generacin automtica de la muestra de aprendizaje realizada por SAAD convendr a nuestros propsitos. Pero existen situaciones en las que nos interesar cambiar los parmetros de generacin de dicha muestra. Este es el caso cuando, por ejemplo,
14

Manual de usuario SAAD versin 2.0

disponer de individuos no es ningn problema, entonces podremos ser ms equitativos y repartir al 50% las proporciones entre ambas muestras. O bien, cuando nos interese aprender a partir de los datos de un ao, pero interesa validar las reglas de prediccin con los nuevos casos del ao siguiente. Conseguimos esto activando la opcin <Parmetros> del dilogo de la Figura 8. El dilogo que gestiona esta opcin aparece en la Figura 12.

Figura 12 Definicin de los parmetros para la generacin de las muestras de aprendizaje y test En este dilogo se especifica cmo se generar la muestra de aprendizaje Generacin al azar: En este caso basta especificar qu porcentaje de los individuos del fichero de datos original queremos que vayan a parar a la muestra de aprendizaje, los restantes individuos irn directamente a la muestra test. Generacin preestablecida segn una variable binaria: Esta variable ha de tomar obligatoriamente los valores 1 2. Todos aquellos individuos con valor igual a 1 formarn parte de la muestra de aprendizaje y todos aquellos con valor 2 formarn la muestra test.

4. Definicin y generacin de rboles


En este apartado presentamos la parte central del sistema SAAD, esto es, la definicin y generacin de rboles de decisin. Un rbol de decisin consiste simplemente en explicar el comportamiento de una cierta variable de respuesta que se pretende estudiar, a partir de los valores tomados por los individuos en una serie de variables, que adoptan el rol de explicativas, mediante una estructura jerrquica de rbol. Para definir un rbol, bastar especificar la variable de respuesta que queremos estudiar, especificar qu variables consideramos explicativas de la variable de respuesta y cules se utilizarn para generar
15

Segmentacin Automtica por rbol de Decisin

el rbol, as como algunos parmetros para controlar el tamao del rbol a construir. A continuacin podemos pasar a generar los rboles que tengamos definidos. Estos rboles los podemos haber definido en la sesin actual o en alguna sesin anterior del programa, siempre que los hubisemos guardado convenientemente en el disco, activando la opcin <Guardar> del men de Archivo. Por otro lado, los rboles los podremos generar de forma totalmente automtica, o bien paso a paso, controlados por el usuario.

4.1 - Definicin de los rboles


Para definir un rbol iremos primero al men Arbol y escogeremos la opcin Definir. La Figura 13, muestra el dilogo que despliega esta opcin.

Figura 13 Lista de los rboles definidos Este dilogo muestra la lista de rboles activos, es decir, aquellos que hemos definido previamente y/o guardado en nuestro fichero de metadatos. Cada rbol se identifica por su Nombre. Las operaciones que podemos realizar son: crear un rbol nuevo, modificar uno preexistente, copiar un rbol, borrar un rbol de la lista o bien borrar la lista entera, mediante las opciones: <Nuevo>, <Copiar>, <Modificar>, <Borrar> y <Borrar todo>. Explicaremos cmo se define un rbol modificando un rbol previamente definido. Seleccionando por ejemplo el primer rbol de la lista y activando la opcin <Modificar>, se despliega el dilogo de la Figura 14.
16

Manual de usuario SAAD versin 2.0

Figura 14 Edicin de un rbol Esta ventana es importante en el conjunto de la aplicacin. Vamos pues a explicar con detalle su contenido. Nombre del rbol: Identificamos cada rbol por su nombre. Puede ser un nombre cualquiera, de 40 caracteres como mximo. Variable de respuesta: Es la variable de inters de la que queremos predecir su comportamiento en nuevos individuos. Por ejemplo, la compra o no de un producto, la rentabilidad de cada cliente, etc. Seleccionaremos dicha variable desplegando la lista de variables activas disponibles. Segn el tipo de la variable seleccionada, as ser el rbol definido: Si la variable de respuesta es de tipo continuo, entonces estaremos en presencia de un rbol de regresin, mientras que si la variable de respuesta es categrica hablaremos de un rbol de clasificacin. SAAD admite variables categricas de respuesta de hasta 5 modalidades. Un caso particularmente til, son las variables de respuesta categricas de dos modalidades, esto es, binarias, expresando un s/no a una cierta pregunta, por ejemplo la contratacin de un cierto producto o no. En este caso tendremos cuidado en tener codificada la variable binaria con los valores 1 y 2, indicando respectivamente: 1=no y el 2=s. Variables en el diccionario: Es la lista de variables del diccionario, que pueden ser utilizadas para explicar el comportamiento de la variable de respuesta. En la lista aparece el cdigo, su tipo y el nombre de la variable. Variables Explicativas: Es la lista de las variables explicativas que hemos escogido. Para aadir una variable a la lista de variables explicativas, seleccionamos sta en la lista de variables del diccionario y pulsamos el botn >.
17

Segmentacin Automtica por rbol de Decisin

Para eliminar una variable de la lista de variables explicativas, seleccionamos sta en la lista de variables explicativas y seguidamente pulsamos el botn <. Si deseamos incluir todas las variables de la lista como variables explicativas, activamos el botn >>. Y si deseamos eliminar todas las variables explicativas y volver a definirlas desde el principio, activamos el botn <<. Por ltimo, si deseamos tener informacin sobre alguna variable, activamos el icono variables. de informacin de las

4.2 - Generacin de un rbol


En este momento estamos en condiciones de generar el rbol definido. Esto lo podemos realizar directamente desde la misma pantalla de la Figura 11 seleccionando la opcin Generar. O bien yendo al men Arboles y seleccionando la opcin Generar. En ambos casos aparecer un dilogo como el de la Figura 15. Este dilogo muestra la lista de rboles definidos, listos para ser generados.

Figura 15 Lista de rboles para generar La generacin de un rbol puede realizarse de dos formas distintas: Completa: significa que la generacin se realizar de forma automtica, sin ninguna intervencin por parte del usuario. Paso a Paso: en la que es el usuario quien decidir en cada iteracin la particin que se debe efectuar.

18

Manual de usuario SAAD versin 2.0

El rbol se deja crecer hasta que se verifiquen unos ciertos criterios de parada. Los criterios de parada que SAAD utiliza hacen referencia al tamao de los nodos y a la profundidad del rbol. El tamao de un nodo indica el nmero de individuos que el nodo contiene, por ejemplo, el nodo raz (el primer nodo) contiene todos los individuos de la muestra de aprendizaje. A medida que se avanza en el proceso de formacin del rbol, los nodos contienen cada vez menos individuos. SAAD deja crecer el rbol mientras el nodo en cuestin tenga un tamao superior a un cierto umbral prefijado. La profundidad de un rbol indica el nmero mximo de niveles que el rbol puede tener. Dicho de otra forma, la profundidad es el nmero de particiones ms una, que se han efectuado para llegar al nodo en cuestin. La profundidad del nodo raz es 1, la de los hijos del nodo raiz es 2 y as sucesivamente hasta llegar a los nodos finales, tambin llamados hojas. Los criterio de parada por defecto que SAAD utiliza son: el 2% del total de individuos como umbral a partir del cual un nodo es considerado final y una profundidad mxima de 6 (lo cual implica obtener reglas de hasta 5 condiciones como mximo). Podemos sin embargo, cambiar estos valores por defecto activando la opcin <Opciones> del dilogo anterior, desplegando una ventana como la de la Figura 16.

Figura 16 Definicin de los criterios de parada de un rbol En este dilogo podemos cambiar los siguientes parmetros. El tamao a partir del cual un nodo no se divide ms y es considerado como final. Esto lo podemos hacer en valor absoluto, indicando un nmero de individuos umbral o en procentaje. La profundidad mxima admisible.
19

Segmentacin Automtica por rbol de Decisin

Tambin podemos utilizar este dilogo para cambiar la muestra de aprendizaje con la que generar el rbol, en caso de que previamente hubisemos generado varias.1

4.2.1 - Generacin automtica de un rbol


Para generar de forma automtica un rbol, basta seleccionarlo en el dilogo de la Figura 15 y activar la opcin <Completa>. Cuando acabe la ejecucin aparecer un dilogo como el de la Figura 17, que presenta una secuencia de rboles en funcin del nmero de nodos terminales. Esta secuencia se obtiene por poda eliminando las ramas no informativas, produciendo una secuencia de subrboles desde el rbol mximo generado de acuerdo con los criterios de parada especificados, hasta el rbol mnimo formado por el nodo raz.

Figura 17 Lista de subrboles generados Obsrvese que no se trata de rboles distintos, sino que en realidad es el mismo rbol, pero podado a diferentes niveles. Para cada subrbol se da la siguiente informacin: El nmero de hojas del rbol, lo cual define su tamao y sirve para identificarlo. Una medida de la calidad del rbol calculada con la muestra de aprendizaje. Esta medida es creciente conforme tomemos rboles mayores.

Esta es una opcin prudente de cara a verificar la estabilidad del rbol generado en distintas muestras de aprendizaje.
20

Manual de usuario SAAD versin 2.0

Una medida de la calidad del rbol calculada con la muestra test. Esta medida acostumbra a aumentar al principio, para llegar a un mximo y estabilizarse o incluso decrecer conforme aumentamos el tamao del rbol. En general el tamao ideal del rbol ser cuando la calidad de la muestra test llegue a su mximo. Seleccionando un cierto nivel del rbol y activando la opcin <Ver>, visualizamos el rbol hasta el nivel escogido. La Figura 18 muestra la visualizacin de un rbol generado.

Figura 18 Ventana principal del rbol generado Los nodos se representan por crculos, empezando siempre por el nodo raiz. En el interior de cada crculo se muestra, primero el nmero de individuos de la muestra de aprendizaje contenidos en el nodo y debajo de este valor, los estadsticos calculados en este nodo, primero con la muestra de aprendizaje y debajo con la muestra test. Segn cual sea el tipo de la variable de respuesta as sern los estadsticos calculados: Si la variable de respuesta es continua, se calcula la media de la variable de respuesta en la muestra de aprendizaje y en la muestra test.

21

Segmentacin Automtica por rbol de Decisin

En este ejemplo, 275 es el efectivo del nodo, 3230 es la media de la variable de respuesta de estos individuos (que constituyen la muestra de aprendizaje) y 3199 es la media de la variable de respuesta en los individuos de la muestra test en este nodo (para saber cuntos individuos constituyen la muestra test, vase el apartado 4.3). Si la variable de respuesta es categrica, se muestran los porcentajes de cada clase de la variable de respuesta tambin en ambas muestras.

En este caso el nodo contiene 13221 individuos, los cuales estn repartidos en un 21% en la primera modalidad de la variable de respuesta, un 39% en la segunda modalidad, un 40% en la tercera modalidad y el 0% en la cuarta modalidad. La siguiente fila, da los porcentajes correspondientes a los individuos de la muestra test contenidos en este nodo. Como caso especial est el caso en que la variable de respuesta es binaria, donde slo se muestra el porcentaje de la clase 2, por supuesto, tanto en la muestra de aprendizaje como en la muestra test (obviamente, el porcentaje de la clase 1 es el complemento a 100). Es por esta razn que se recomienda que sea la clase 2 la que represente la compra o verificacin del hecho que se est estudiando.

En este caso el nodo contiene 167 individuos provenientes de la muestra de aprendizaje, de los cuales un 43,7% resultan ser

22

Manual de usuario SAAD versin 2.0

compradores de un producto, mientras que en los individuos de la muestra test el porcentaje de compradores asciende al 42,7%. Debajo de cada nodo aparece el nombre de la variable que ha servido para partir este nodo en sus dos descendientes. Todos los individuos del nodo con valor de la variable de particin igual a los representados en la rama derecha van a parar al hijo de la derecha y analogamente con la rama izquierda y as sucesivamente en cada nodo.

En los dos nodos anteriores partimos el primero segn la variable peso, la cual es continua, enviando todos los individuos de este nodo con peso menor o igual a 1258 al nodo de la izquierda, mientras que todos los individuos con peso estrictamente superior a 1258 al nodo de la derecha. El segundo nodo se parte por la variable cilindrada, que es categrica, enviando todos los individuos de este nodo con cilindrada igual a 4, 6 y 5 al nodo de la izquierda y todos los individuos con cilindrada igual a 7 al nodo de la derecha. Los nodos terminales u hojas, se representan en un trazo ms grueso de color verde. La similitud de los estadsticos calculados en la muestra de aprendizaje y en la muestra test, es prueba de la estabilidad de la particin efectuada, puesto que los individuos de la muestra test no han participado en la definicin de la particin efectuada y sin embargo dan un valor del estadstico similar. Esta es la informacin que se representa grficamente en un rbol cualquiera y que, con un simple vistazo, permite detectar cules son los segmentos ms interesantes as como las variables ms importantes.

4.3 Obtencin de informacin sobre un nodo


Ahora bien, si precisamos tener ms informacin sobre un nodo concreto o no nos acordamos del significado de las modalidades de la variable que ha servido para partir el nodo, podemos situar el cursor sobre
23

Segmentacin Automtica por rbol de Decisin

el nodo y hacer doble click con el mouse. La informacin que entonces obtenemos depende de la variable de respuesta con la que estemos trabajando.

4.3.1 Caso de tener una variable de respuesta categrica


Si la variable de respuesta es categrica, se despliega una ventana como la de la Figura 19:

Figura 19 Informacin de un nodo en un rbol con variable de respuesta categrica de dos modalidades. La informacin que se muestra en esta pantalla permite observar los siguientes campos: Nmero: Nmero interno de identificacin del nodo. Profundidad: Nivel de profundidad del nodo en el rbol. Aprendizaje: Estadsticos suficientes de la variable de respuesta calculados a partir de la muestra de aprendizaje. Se indica el total de individuos por cada modalidad de respuesta y el tanto por ciento que representan. Test: Se muestra lo mismo que en Aprendizaje pero con los estadsticos calculados a partir de la muestra test. Split: la variable per la cual se ha efectuado la particin del nodo.

24

Manual de usuario SAAD versin 2.0

Ji-Cuadrado: Un test estadstico sobre la igualdad de la distribucin de la variable de respuesta en la muestra de aprendizaje y en la muestra test. Para ello se realiza una prueba de Ji-cuadrado en la tabla de contingencia cruzando la variable de respuesta con las dos muestras. Si la variable de respuesta es binaria, la tabla formada es de 2x2 como la siguiente:
Aprendizaje Clase 1 Clase 2 103 84 Test 48 43

Tabla 1.- Ejemplo de tabla de contingencia El hecho de tener igual distribucin en ambas muestras es indicacin de la estabilidad de la particin que ha generado el nodo en cuestin. Nodo Izquierdo: Condicin que cumplen los individuos que van a parar al nodo izquierdo. Nodo Derecho: Condicin que cumplen los individuos que van a parar al nodo derecho.

4.3.2 Caso de tener una variable de respuesta continua


Si la variable de respuesta es continua aparece una ventana como la de la Figura 20. Esta pantalla es bsicamente la misma que la de la Figura 19, con los siguientes cambios en los campos:

25

Segmentacin Automtica por rbol de Decisin

Figura 20 Informacin de un nodo en un rbol con variable de respuesta continua. Aprendizaje: Se dan el total de individuos, la media y la desviacin tipo de la variable de respuesta. Test: Se muestra lo mismo que en Aprendizaje pero con los estadsticos calculados a partir de la muestra test. F de Fisher: Se realiza una prueba de Fisher sobre la igualdad de la medias en ambas muestras.

4.4 Visualizacin expandida


Permite modificar la visualizacin del rbol. Podemos seleccionar tener una visualizacin expandida (opcin activada por defecto). En este caso se da la informacin de la muestra de aprendizaje y de la muestra test por separado. El efectivo hace referencia al efectivo de la muestra de aprendizaje y los estadsticos se dan calculados para ambas muestras. Esta presentacin es particularmente til para detectar particiones poco estables, pues stas darn estadsticos sensiblemente distintos en ambas muestras. Por el contrario, una vez que tengamos el rbol deseado, ser interesante tener la visualizacin no expandida (opcin desactivada). En este caso se tendr una visualizacin del rbol en que hemos agregado la muestra de aprendizaje con la muestra test. En la Figura 21 mostramos un ejemplo de visualizacin expandida y en la Figura 22 la correspondiente visualizacin no expandida para un caso de variable de respuesta binaria (para los otros tipos de variable de respuesta, la traslacin de la misma idea de agregacin es inmediata).

Figura 21 Visualizacin expandida


26

Manual de usuario SAAD versin 2.0

Figura 22 Visualizacin no expandida En la visualizacin no expandida de la Figura 22, la informacin representada da el total de individuos en cada nodo (suma de los individuos de la muestra de aprendizaje ms los de la muestra test) y el valor del estadstico correspondiente calculado sobre este total de individuos.

4.5 Ponderacin de los rboles de clasificacin


Para el caso de rboles de clasificacin (variable de respuesta categrica), a menudo los datos analizados no constituyen una muestra representativa de la poblacin, sino que, por ejemplo, se han tomado muestras equilibradas para cada modalidad de respuesta, es decir, hemos tomado sendas muestras aleatorias de igual tamao tanto para los compradores de un producto como para los no compradores (a pesar de que estos ltimos son mucho ms numerosos que los primeros). En esta situacin el rbol puede aprender mejor qu variables sirven para diferenciar a los compradores de los no compradores, crecer por las dos bandas y dar rboles ms estables. Sin embargo, los efectivos y las proporciones mostradas por el rbol distan mucho de ser reales. Por esta razn SAAD permite modificar las probabilidades iniciales de las clases para reproducir en los nodos la situacin real sobre toda la poblacin que se est estudiando. Para ello vamos al men Arboles y escogemos la opcin Ponderacin. Aparece entonces el dilogo de la Figura 23.

27

Segmentacin Automtica por rbol de Decisin

Figura 23 Modificacin de las probabilidades iniciales de las modalidades en un rbol de clasificacin. En este dilogo se permiten varios tipos de reponderacin. Segn la Muestra: Se toman como probabilidades de las clases las obtenidas en la muestra y no se efecta ninguna ponderacin. Probabilidades iguales: Se pondera cada clase con la misma probabilidad (situacin de equiprobabilidad). Definir las probabilidades: Este campo permite especificar las probabilidades a priori de las clases (en tanto por ciento). Para ello basta seleccionar la clase de respuesta que se desea entrar su probabilidad a priori y activar la opcin <Modificar> (obviamente, no es necesario entrar la probabilidad a priori de la ltima clase, puesto que stas vienen ligadas por su suma igual a 100). Definir los pesos: En este campo especificamos por cada clase, el nmero de individuos de la poblacin que representa cada individuo muestral. Como antes, entramos los pesos seleccionando la clase de respuesta que se desea entrar su peso y activando la opcin <Modificar>. El peso para cada clase se obtiene dividiendo el nmero de individuos en la poblacin por el nmero de individuos en la muestra, tal como ilustra la siguiente Tabla.

28

Manual de usuario SAAD versin 2.0

Poblacin SI NO Total 2300 97700 100000

Muestra 1000 1000 2000

Peso 2.3 97.7

Tabla 2.- Clculo de los pesos para la reponderacin El peso para la primera clase sera 2,3 y para la segunda 97,7 (utilizando el punto para indicar la posicin decimal). Una vez efectuada la reponderacin los valores que aparecen en los nodos del rbol pueden interpretarse directamente como aproximaciones al total de individuos en el nodo en toda la poblacin y el porcentaje de xito que en ellos podemos esperar. La Figura 24 ilustra un resultado de la operacin de reponderacin.

Figura 24 rbol reponderado.

5. - Edicin de resultados
Una vez que tenemos el rbol de decisin deseado y ponderado convenientemente, tiene sentido obtener una serie de resultados derivados que nos sern de gran utilidad en el proceso de toma de decisiones. Hemos agrupado todas estas opciones en el men Ver. La lista de opciones disponibles son las siguientes.

5.1 Ver todo el rbol


Para el caso frecuente en que el rbol desborda la ventana de visualizacin es til disponer de una opcin que redibuje todo el rbol

29

Segmentacin Automtica por rbol de Decisin

dentro de los lmites de la pantalla para as hacerse una idea de la complejidad del rbol, tal como muestra la Figura 25.

Figura 25 Visualizacin completa.

5.2 Mostrar la leyenda de los nodos


Puede ser til, sobretodo cuando se empieza a utilizar esta aplicacin, tener un recordatorio de la informacin mostrada en los nodos, tal como se ha explicado en el apartado 4.2.1. Entonces se dibuja en la pantalla de visualizacin del rbol una figura como la siguiente:

Figura 26 Leyenda de la informacin de los nodos Esta informacin es obviamente sensible al tipo de rbol que se est realizando.

5.3 Visualizar el rbol hasta un cierto nivel


Esta opcin nos permite cambiar en cualquier momento el nivel de visualizacin del rbol generado. Recordemos que ste se genera de acuerdo con los criterios de parada especificados en la pantalla de la Figura 16 y se guarda entero en memoria. Mediante esta opcin siempre
30

Manual de usuario SAAD versin 2.0

podemos optar por visualizarlo hasta un cierto nivel. La visualizacin viene gobernada por el mismo dilogo que apareca en el momento de generacin el rbol (vase la Figura 17).

5.4 Descripcin de los segmentos


Los segmentos son grupos de individuos que tienen un comportamiento homogneo respecto de la variable de respuesta. Se corresponden con las hojas del rbol escogido y vienen definidos por una rama del rbol (la cual da la lista de condiciones respecto las variables explicativas que definen el segmento). En funcin de cual sea la variable de respuesta, tiene sentido presentar una cierta descripcin de los segmentos producidos

5.4.1 Caso de tener una variable de respuesta binaria


Se muestra una tabla con los segmentos en que hemos dividido los datos bajo estudio, ordenados por su probabilidad. Vase la Figura 27. La informacin dada en la tabla es la siguiente: N: Identifica el nmero de la hoja en el rbol retenido.. Prob: Probabilidad para este segmento del evento codificado como 2 en la variable de.respuesta. Identificamos este suceso como xito. Individuos: Nmero de individuos del segmento. %Acum: Nmero de individuos acumulados en porcentaje. xitos: Nmero de xitos en el segmento (por ejemplo, nmero de compradores). %Acum xitos: Porcentaje acumulado de xitos. %Exito: Resultado de dividir el nmero de xitos acumulado por el total de individuos acumulado. Indica el porcentaje de xito hasta un cierto nivel de la tabla.

31

Segmentacin Automtica por rbol de Decisin

Figura 27 Tabla de los segmentos de un rbol con variable de respuesta binaria. Adems, podemos ver la lista de condiciones de cada segmento. Para ello, basta seleccionarlo: en la parte inferior de la ventana se mostrarn las condiciones lgicas definidas por su rama en el rbol. Esta secuencia lgica puede obtenerse identificando las variables por sus cdigos o por sus nombres (que siempre son ms agradables de leer). Respecto esta informacin es posible efectuar una serie de operaciones, en particular podemos imprimirla, pulsando el botn <Imprimir>, o bien, podemos exportar a un fichero, mediante la opcin <Exportar>, el cual posteriormente podr ser importado en una hoja de clculo, para tratamientos posteriores, como anlisis de costes, etc. En esta pantalla tenemos siempre disponible el acceso al significado de las variables, con la opcin <Variables> y a la <Curva de concentracin> y a las reglas en <Pseudocdigo>.

5.4.2 Caso de tener una variable de respuesta categrica de ms de dos modalidades


En este caso se muestra una tabla dando la lista de segmentos y las diferentes probabilidades de cada modalidad de respuesta (vase la Figura 28):

32

Manual de usuario SAAD versin 2.0

Figura 28 Tabla de los segmentos de un rbol con variable de respuesta nominal de ms de 2 categoras. La informacin dada por la tabla es la siguiente: N: Identifica el nmero de la hoja en el rbol retenido. Individuos: Nmero de individuos del segmento Prob Cat1: Probabilidad para este segmento de la primera modalidad de respuesta. Prob Catk: Probabilidad para este segmento de la modalidad ksima de respuesta (hasta 5 modalidades). Adems, podemos ver la lista de condiciones de cada segmento. Para ello, basta seleccionarlo: en la parte inferior de la ventana se mostrarn las condiciones lgicas definidas por su rama en el rbol. Esta secuencia lgica puede obtenerse identificando las variables por sus cdigos o por sus nombres (que siempre son ms agradables de leer). Respecto esta informacin es posible efectuar una serie de operaciones, en particular podemos imprimirla, pulsando el botn <Imprimir>, o bien, podemos exportar a un fichero, el cual posteriormente podr ser importado en una hoja de clculo, para tratamientos posteriores, como anlisis de costes, etc.. En esta pantalla tenemos siempre disponible el acceso al significado de las variables, con la opcin <Variables> y a las reglas en
33

Segmentacin Automtica por rbol de Decisin

<Pseudocdigo>. Si bien, ahora, no es posible obtener una curva de concentracin de forma automtica.

5.4.3 Caso de tener una variable de respuesta continua

Figura 29 Tabla de los segmentos de un rbol con variable de respuesta continua. Se muestra una tabla con los segmentos en que hemos dividido los datos bajo estudio, ordenados por su media de la variable de respuesta. Vase la Figura 29. La informacin dada por la tabla es la siguiente: N: Identifica el nmero de la hoja en el rbol retenido.. Media: Media de la variable de respuesta para este segmento. Individuos: Nmero de individuos del segmento %Acum: Nmero de individuos acumulados en porcentaje %Acum med*ind.: Porcentaje acumulado del producto entre el nmero de individuos del segmento y su media de la variable de respuesta. Media Exito: Resultado de dividir el producto del nmero de individuos por la media acumulado por segmento por el total de
34

Manual de usuario SAAD versin 2.0

individuos acumulado. Indica la media de la variable de respuesta que se obtendra hasta un cierto nivel de la tabla. Adems, podemos ver la lista de condiciones de cada segmento. Para ello, basta seleccionarlo: en la parte inferior de la ventana se mostrarn las condiciones lgicas definidas por su rama en el rbol. Esta secuencia lgica puede obtenerse identificando las variables por sus cdigos o por sus nombres (que siempre son ms agradables de leer). Respecto esta informacin es posible efectuar una serie de operaciones, en particular podemos imprimirla, pulsando el botn <Imprimir>, o bien, podemos exportar a un fichero, el cual posteriormente podr ser importado en una hoja de clculo, para tratamientos posteriores, como anlisis de costes, etc. En esta pantalla tenemos siempre una serie de opciones disponibles, como son el significado de las variables, con la opcin <Variables>, la <Curva de concentracin> y las reglas en <Pseudocdigo>.

5.5 Curva de concentracin


La curva de concentracin es una forma de ver grficamente los resultados de una segmentacin. Puesto que el objetivo de una segmentacin es concentrar al mximo la variable de respuesta en unos pocos segmentos de la poblacin, tiene sentido mostrar la concentracin obtenida de forma visual. (Figura 30)

Figura 30 Curva de concentracin.


35

Segmentacin Automtica por rbol de Decisin

La curva de concentracin se define a partir del diagrama de las dos columnas de porcentajes acumulados de la tabla mostrada en la descripcin de segmentos. Por ejemplo, para el caso de una variable de respuesta binaria, da para cada porcentaje de la poblacin qu porcentaje de respuesta se obtendra. Si todos los segmentos se comportasen igual (esto es, si tuviesen la misma probabilidad de respuesta) entonces la curva definida sera la diagonal del cuadrado mostrado (al 25% de la poblacin le corresponderia el 25% de respuesta). Cuanto ms se aleje la curva obtenida de la diagonal es seal que ms concentrada est la respuesta en unos pocos segmentos. Respecto esta informacin es posible efectuar una serie de operaciones, en particular podemos imprimirla, pulsando el botn <Imprimir>, o bien, podemos exportar a un fichero, pulsando el botn <Exportar>, etc.

5.6 Pseudocdigo de las reglas


Se facilita la definicin de los segmentos en forma de pseudocdigo informtico (IF.. THEN.. ELSE). La variable nombrada SEGM toma consecutivamente el nmero del segmento al cual pertenece el individuo. Vase la Figura 31.

Figura 31 Pseudocdigo de las reglas. Respecto esta informacin es posible efectuar una serie de operaciones, en particular la podemos imprimir, pulsando el botn
36

Manual de usuario SAAD versin 2.0

<Imprimir>, o bien, podemos exportarla a un fichero, pulsando el botn <Exportar>, para ser incluido en una aplicacin informtica.

6. - Generacin paso a paso


La generacin automtica de rboles presentada en el apartado 4.2.1, es una herramienta til que permite construir el rbol deseado muy rpidamente. Para ello, el programa toma unas opciones, de particin de un nodo y de crecimiento del rbol, siguiendo criterios estadsticos predefinidos. Pero no cabe duda que utilizando los conocimientos de un experto sobre los datos y otros aspectos relevantes del problema, la generacin del rbol sera ms inteligente y efectiva. SAAD incorpora una generacin Paso a paso del rbol, de forma que en cualquier momento de la generacin, el usuario puede intervenir para modificar la decisin del programa respecto la variable de particin de un nodo. La generacin Paso a paso tambin permite volver a atrs y deshacer (podar) particiones ya realizadas, o bien modificar el punto de corte por el que se definen las particiones y, tambin, obtener estadsticos sumarios por nodo para verificar las propiedades de stos. Esto se puede hacer gracias a que el programa proporciona informacin ordenada, numrica y grfica, sobre la calidad de todas las posibles particiones que se pueden efectuar en un nodo. Para realizar una generacin Paso a paso, iremos al men Arboles y escogeremos la opcin Generar. Entonces nos aparecer la pantalla de la Figura 15. Seleccionaremos un rbol de la lista de rboles definida y en vez de optar por una generacin automtica, pulsaremos la opcin <Paso a paso>. El proceso de generacin se inicia situando todos los individuos de la muestra de aprendizaje en el nodo raz. Al lado veremos aparecer una pequea pantalla informando del hecho de que la generacin paso a paso est activa y dando informacin tcnica del nodo actual: su nmero, profundidad, nmero de individuos que contiene y variable de particin.

37

Segmentacin Automtica por rbol de Decisin

Figura 32 Generacin paso a paso A partir de ah, incumbe al usuario construir su rbol.

6.1 - Generacin de una particin


Para generar una particin de un nodo, basta hacer doble click con el mouse sobre el nodo en cuestin. Entonces aparecer una pantalla con toda la informacin disponible y que servir para decidir la particin a efectuar. La informacin representada depender de la variable de respuesta que tengamos.

6.1.1 Caso en que la variable de respuesta es categrica


Para el caso en que la variable de respuesta es categrica, ya sea de dos o ms modalidades, aparece una pantalla como la de la Figura 33. Los campos que aparecen son los siguientes: Variable: Indica el cdigo y el nombre la variable seleccionada para efectuar la particin. Lista de variables: Esta es una ventana donde se muestra la mejor particin posible del nodo que se obtendra con cada variable explicativa, ordenadas en funcin de un ndice de calidad de la particin, llamado impureza. Impureza: Da, para cada particin de la lista, el valor de su impureza. sta mide la calidad de la particin, cuanto menor sea este ndice mejor ser la particin. Cdigo: Cdigo de la variable explicativa. Nombre: Nombre de la variable explicativa

38

Manual de usuario SAAD versin 2.0

Figura 33 Lista de todas las particiones posibles con variable de respuesta categrica. Tabla: Presenta la tabla que se obtendra de realizar la particin seleccionada. Se da para el nodo actual y los dos presuntos nodos hijos, el de la derecha y el de la izquierda, la reparticin de las modalidades de respuesta. De esta forma podemos ver cmo la particin propuesta sirve para separar en los nodos hijos las distintas modalidades de la variable de respuesta. Ji-quadrado: En este caso el estadstico que se calcula es el de Jicuadrado. Este estadstico sirve para contrastar la hiptesis de igual reparticin de las modalidades de respuesta en los dos nodos hijos. Cuanto mayor sea el valor de este estadstico y por tanto menor sea su nivel de significacin, mas relevante ser la particin efectuada. Se calcula a partir de la tabla de contingencia siguiente:
Izquierda Clase 1 Clase k nkl nkr n1l Derecha n1r

Tabla 3- Ejemplo de tabla de contingencia Punto de corte: Punto de corte de la variable explicativa por el que se define la particin del nodo actual en dos clases. Este valor puede ser modificado por el usuario, mediante los botones de
39

Segmentacin Automtica por rbol de Decisin

desplazamiento. Este valor slo tiene sentido para el caso de que la variable explicativa sea continua u ordinal. Max Puntos: Indica la precisin con que ser dibujado el grfico en el caso de variable explicativa continua, que al poder tener sta una gran cantidad de valores diferentes, hara su dibujo un poco lento. Con este parmetro limitamos el nmero de puntos que se dibujarn. El usuario puede modificar este parmetro a voluntad. Grfico: En este grfico se representa informacin sobre la particin. Dependiendo del tipo de variable explicativa la informacin representada es diferente. a) Variables explicativas ordinales o binarias (vase la Figura 34).

Figura 34 Grfico de una variable explicativa ordinal En este caso la informacin es la siguiente: Eje inferior de las X: Estn representados todos los posibles valores del punto de corte de la variable ordinal o binaria, con el consiguiente histograma para esta variable obtenido con la muestra de aprendizaje. Funcin de impureza: Indica la reduccin de impureza que se conseguiria para cada punto de corte de la variable, que en este caso define una particin enviando al nodo izquierdo todos los individuos con valor de la variable explicativa menor o igual que el punto de corte, y al nodo derecho, los individuos con un valor estrictamente mayor que el punto de corte. Su grfica se representa en doble trazo y su valor se lee en el eje de la izquierda.

40

Manual de usuario SAAD versin 2.0

Eje izquierdo de las Y: Indica la mnima y mxima reduccin de impureza que se consigue con la serie de particiones definidas por la variable explicativa. Funciones de distribucin: Son las funciones de distribucin (esto es, el acumulado del nmero de individuos en la muestra de aprendizaje, segn los valores crecientes de X) para cada una de las modalidades de la variable de respuesta (en colores) y tambin la funcin de distribucin total (esto es, de todas las modalidades juntas) de la variable de respuesta (en negro). Estas funciones las representamos con trazo fino y su valor debe leerse en el eje de la derecha. Eje derecho de las X: Eje que marca los valores de las funciones de distribucin. b) Variables explicativas continuas (Figura 35) .

Figura 35.- Grfico de una variable explicativa continua En este caso la informacin es igual que para las variables explicativas ordinales, excepto: Eje inferior de las X: Se representan los valores de la variable explicativa comprendidos entre el mximo y el mnimo. Debajo del eje se dibuja en un marco, la funcin de densidad de la variable explicativa. Cuando el valor de esta funcin de densidad supera el margen inferior del marco, es ignorado. c) Variables explicativas nominales (Figura 36). Para las variables nominales debido a que no existe una relacin de orden entre sus modalidades, no tiene sentido representar la funcin de reduccin de impureza. Por este motivo la informacin que se representa es la siguiente:
41

Segmentacin Automtica por rbol de Decisin

Figura 36.- Grfico de una variable nominal Eje inferior de las X: Se representan todos los posibles valores de la variable explicativa nominal con su correspondiente diagrama de barras obtenido con la muestra de aprendizaje. En el caso de variable de respuesta binaria, estas modalidades se presentan ordenadas segn el porcentaje de respuesta que hubiesen obtenido en la muestra de aprendizaje (por ejemplo de la modalidad ms compradora a la menos compradora), anlogamente, si la variable de respuesta es continua, las modalidades tambin se ordenan segn valores crecientes de la media de la variable de respuesta. Diagramas de barras: Se dibuja la funcin de probabilidad de cada modalidad de respuesta. Su comparacin permite identificar qu modalidades de la variable explicativa estn ms asociadas a una modalidad de respuesta.

6.1.2 Caso en que la variable de respuesta es continua


En este caso aparece una pantalla como la de la Figura 37, que incluye toda la informacin disponible y que servir para decidir qu particin escoger. Las diferencias ms importantes con la pantalla de la Figura 33 estriban en los estadsticos calculados y en el grfico. Los campos que aparecen son los siguientes: Variable: Indica el cdigo y el nombre de la variable seleccionada para efectuar la particin.

42

Manual de usuario SAAD versin 2.0

Figura 37 Lista de particiones posibles en un rbol con variable de respuesta continua Lista de variables: Esta es una ventana donde se muestra la mejor particin posible del nodo que se obtendra con cada variable explicativa, ordenadas en funcin de un ndice de calidad de la particin, llamado impureza. Impureza: Da, para cada particin de la lista, el valor de su impureza que no es capaz de explicar la particin. Cuanto menor sea este ndice mejor ser la particin. Cdigo: Cdigo de la variable explicativa. Nombre: Nombre de la variable explicativa. Tabla: Presenta la tabla que se obtendra de realizar la particin seleccionada. Se da para el nodo actual y los dos presuntos nodos hijos, el de la derecha y el de la izquierda, la siguiente informacin: Individuos: Nmero de individuos de la muestra de aprendizaje en el nodo actual y su reparticin entre sus dos hijos. Media: Media de la variable de respuesta en el nodo actual y en los dos nodos descendientes. Desv. tipo: Desviacin tipo de la variable de respuesta en el nodo actual y en sus dos descendientes. F: Valor del estadstico de Fisher en la prueba de hiptesis de comparacin de las dos medias de la variable de respuesta en los dos nodos hijos. Se calcula tambin el nivel de significacin asociado al valor de F. La prueba de hiptesis contrastada es la igualdad de las medias en ambos nodos hijos. (Cuanto mayor sea
43

Segmentacin Automtica por rbol de Decisin

el valor de F, y por tanto, menor sea el nivel de significacin, ms significativa es la diferencia entre ambas medias). Punto de corte: Punto de corte de la variable explicativa por el que se define la particin del nodo actual en dos clases. Este valor puede ser modificado por el usuario, mediante los botones de desplazamiento. Este valor slo tiene sentido para el caso de que la variable explicativa sea continua u ordinal. Max Puntos: Indica la precisin con que ser dibujado el grfico en el caso de variable explicativa continua, que al poder tener sta una gran cantidad de valores diferentes, hara su dibujo un poco lento. Con este parmetro limitamos el nmero de puntos que se dibujarn. El usuario puede modificar este parmetro a voluntad. Grfico: En este grfico se representa informacin sobre la particin. Segn el tipo de variable explicativa, la grfica dibujada es diferente. a) Variables explicativas ordinales o binarias (Figura 38).

Figura 38 Grfico de una variable explicativa ordinal En este caso la informacin es la siguiente: Eje inferior de las X: Estn representados todos los posibles valores del punto de corte de las variables ordinales o binarias, con su diagrama de barras correspondiente calculado con todos los individuos de la muestra de aprendizaje. Funcin de impureza: Indica la reduccin conseguida por la particin que enva al nodo izquierdo todos los individuos con valor de la variable explicativa menor o igual que el punto de corte, y al nodo derecho todos los individuos con valor de la variable explicativa estrictamente mayor que el punto de corte. La

44

Manual de usuario SAAD versin 2.0

funcin se representa con trazo grueso y su valor debe leerse en el eje de la izquierda. Eje izquierdo de las Y: Sirve para indicar la reduccin de impureza que se conseguira con cada una de las particiones realizadas con la variable explicativa. Medias: Se representa mediante un diagrama de barras la media de la variable de respuesta para cada modalidad de la variable explicativa. Este grfico se dibuja con trazo simple y su valor debe siempre leerse en el eje de la derecha. Eje derecho de las X: Indica los valores de la media de la variable de respuesta para cada valor de la variable explicativa. b) Variables explicativas continuas (Figura 39) .

Figura 39.- Grfico de una variable explicativa continua En este caso la informacin es igual que para el caso de variable explicativa ordinal, excepto: Eje inferior de las X: Estn representados el punto de corte mximo y mnimo de la variable explicativa con algunos puntos intermedios (opcin gobernada por el parmetro <Max puntos>). En la parte inferior del eje se dibuja en un marco, la funcin de densidad de la variable explicativa. Cuando el valor de esta funcin de densidad supera el margen inferior del marco, se ignora. Funcin de impureza: Indica la reduccin conseguida por la particin que enva al nodo izquierdo todos los individuos con valor de la variable explicativa menor o igual que el punto de corte, y al nodo derecho todos los individuos con valor de la variable explicativa estrictamente mayor que el punto de corte. La

45

Segmentacin Automtica por rbol de Decisin

funcin se representa con trazo grueso y su valor debe leerse en el eje de la izquierda. Eje izquierdo de las Y: Indica la reduccin de impureza que se conseguira con cada una de las particiones realizadas con la variable explicativa. Medias: Son las medias de la variable de respuesta en el nodo derecho e izquierdo, cuando al nodo de la derecha van a parar todos los individuos con valor de la variable explicativa ms grande que el punto de corte y al nodo de la izquierda van a parar los individos con valor de la variable explicativa ms pequeo o igual que el punto de corte. Estos grficos se representan con trazo fino y su valor debe leerse en el eje de la derecha. Eje derecho de las X: Indica los valores de las medias de la variable de respuesta en los dos nodos descendientes. c) Variables explicativas nominales. Para las variables nominales la informacin que se presenta es un poco distinta, puesto que pierde sentido la funcin de reduccin de impureza (Figura 40)

Figura 40 Grfico de una variable explicativa nominal La informacin que se representa es la siguiente: Eje inferior de las X: Estn representados todos los posibles valores de la variable explicativa nominal, con su diagrama de barras realizado con los individuos de la muestra de aprendizaje. Medias: Se representa mediante un diagrama de barras la media de la variable de respuesta para cada una de las modalidades de la variable explicativa, la cual debe leerse en el eje de la derecha (dichas modalidades aparecen ordenadas por esta media). Eje derecho de las X: Indica los valores de la media de la variable de respuesta para cada modalidad de la variable explicativa.

46

Manual de usuario SAAD versin 2.0

6.2 Obtencin de estadsticos en un nodo


En el curso de una generacin Paso a paso, siempre podemos calcular los estadsticos sumarios para los individuos contenidos en un nodo. Esto es particularmente til cuando, por ejemplo, se obtiene una particin poco lgica desde el punto de vista del experto y se desea profundizar en el por qu. Para ello basta pulsar el botn de <Estadsticas> de la pantalla de generacin de una particin (vase la Figura 33 o la Figura 37). Entonces SAAD mostrar una pantalla como la de la Figura 41.

Figura 41 Obtencin de estadsticos en un nodo para una variable nominal La informacin mostrada es la siguiente: Variables categricas: Lista de las categricas disponibles en este nodo. variables explicativas

Variables continuas: Lista de variables explicativas continuas disponibles en este nodo. Variable explicativa: Se refiere a la variable explicativa seleccionada. En funcin del tipo de la variable seleccionada aparece una u otra informacin en pantalla.

6.2.1 Caso de que la variable seleccionada sea categrica


Si sta es categrica aparece la siguiente informacin:

47

Segmentacin Automtica por rbol de Decisin

Tabla: Tabla de frecuencias de cada modalidad de la variable seleccionada en el nodo activo, calculada con los individuos de la muestra de aprendizaje. Grfico: Diagrama de barras en porcentaje (estimacin de la funcin de probabilidad de la variable explicativa en este nodo, vase la Figura 41).

6.2.2 Caso de que la variable seleccionada sea continua


Si la variable explicativa seleccionada es continua entonces aparece una pantalla como la de la Figura 42, dando la siguiente informacin:

Figura 42 Obtencin de estadsticos en un nodo para una variable continua Estadsticos sumarios: Estadsticos sumarios de la variable continua seleccionada (efectivo, media, variancia, mximo, mnimo, mediana, cuartiles y centiles) calculados con los individuos de la muestra de aprendizaje. Grfico: Histograma de la variable continua seleccionada, su funcin de distribucin en trazo grueso, as como la posicin de la media, mediana y cuartil inferior y superior, que permiten esbozar un box-plot.

48

Manual de usuario SAAD versin 2.0

6.3 Obtencin de informacin sobre una variable


En la generacin paso a paso pulsando el botn <Variables> de las pantallas representadas en la Figura 33 y en la Figura 37 podemos disponer de la informacin contenida en el diccionario de la variable, en caso de necesitarlo.

6.4 Construyendo el rbol a su gusto


Haciendo doble click con el mouse situado sobre un nodo no terminal, podemos obtener informacin sobre este nodo (si fuera un nodo terminal, desencadenaramos el proceso de particin del nodo). La informacin que se provee es la misma que en la generacin automtica (vase el apartado 4.3), esto es, el efectivo, la media y la desviacin tipo en la muestra de aprendizaje y la muestra test, si la variable de respuesta es continua o la distribucin de las modalidades de respuesta en ambas muestras si la variable de respuesta es categrica. Sin embargo ahora podemos activar las siguientes opciones de modificacin de una particin:

6.4.1 Volver a empezar. Poda del rbol


Esta es una de las opciones ms interesantes de SAAD, la posibilidad de poder volver atrs y la de modular las particiones propuestas por el programa. Si en un nodo hemos efectuado una particin que no deseamos, podemos situamos sobre el nodo en cuestin y haciendo doble click con el mouse, aparece la pantalla de la Figura 43.

Figura 43 Informacin sobre un nodo no terminal y posibilidad de poda del mismo


49

Segmentacin Automtica por rbol de Decisin

Entonces basta activar la opcin de <Poda> para deshacer la particin efectuada y todas las ulteriores efectuadas por debajo del nodo y, a continuacin, volver a lanzar el proceso de particin del nodo. Anlogamente se haria en el caso de estar trabajando con una variable de respuesta categrica. Poda: Poda el rbol por el nodo que hemos seleccionado Todas las particiones efectuadas por debajo del nodo en cuestin sern borradas.

6.4.2 Modificacin de una particin


Tambin podemos modificar una particin propuesta de la siguiente manera. Si la variable explicativa por la que se efecta la particin es continua u ordinal, en el momento de la generacin podemos cambiar el punto de corte propuesto por el deseado. Pero si la variable explicativa es nominal, en la misma pantalla de la Figura 41 podemos pasar las modalidades del nodo derecho al izquierdo haciendo uso de los botones >> o <<. Esta posibilidad slo es vlida para los nodos antecesores de los terminales. Una vez efectuada el cambio de modalidades entre los nodos descendientes, es necesario activar la opcin <Recalcular>.

Figura 44 Modificacin de un nodo con variable de particin categrica Las opciones disponibles son: Recalcular: Permite modificar una particin cuando el nodo que hemos seleccionado es antecesor de dos terminales y la variable
50

Manual de usuario SAAD versin 2.0

de particin es nominal. Entonces, podemos pasar una modilidad de un nodo hijo a otro, seleccionndola y activando el botn >> o << correspondiente. Una vez situadas las modalidades de la variable explicativa en el nodo hijo que se desee debemos pulsar esta opcin para entrar estas modificaciones en el rbol. Estadsticas: Permite obtener informacin sobre las variables disponibles en el nodo seleccionado, tal como se explica en el Apartado 6.2.

51