Está en la página 1de 141

SPSS Classification Trees 13.

Si desea obtener ms informacin sobre los productos de software de SPSS, visite nuestra pgina Web en http://www.spss.com o pngase en contacto con SPSS Inc. 233 South Wacker Drive, 11th Floor Chicago, IL 60606-6412 EE.UU. Tel: (312) 651-3000 Fax: (312) 651-3668 SPSS es una marca registrada; los dems nombres de productos son marcas comerciales de SPSS Inc. para los programas de software de su propiedad. El material descrito en este software no puede ser reproducido ni distribuido sin la autorizacin expresa por escrito por parte de los propietarios de la marca registrada y de los derechos de la licencia en el software y en los copyrights de los materiales publicados. El SOFTWARE y la documentacin se proporcionan con DERECHOS LIMITADOS. Su uso, duplicacin o revelacin por parte del Gobierno estn sujetos a las restricciones establecidas en la subdivisin (c)(1)(ii) de la clusula Rights in Technical Data and Computer Software en 52.227-7013. El fabricante es SPSS Inc., 233 South Wacker Drive, 11th Floor, Chicago, IL 60606-6412, EE.UU. Aviso general: El resto de los nombres de productos mencionados en este documento se utilizan slo con fines identificativos y pueden ser marcas comerciales de sus respectivas empresas. TableLook es una marca comercial de SPSS Inc. Windows es una marca comercial registrada de Microsoft Corporation. DataDirect, DataDirect Connect, INTERSOLV y SequeLink son marcas comerciales registradas de DataDirect Technologies. Algunas partes de este producto se han creado utilizando LEADTOOLS 19912000, LEAD Technologies, Inc. TODOS LOS DERECHOS RESERVADOS. LEAD, LEADTOOLS y LEADVIEW son marcas comerciales registradas de LEAD Technologies, Inc. Sax Basic es una marca comercial de Sax Software Corporation. Copyright 19932004 de Polar Engineering and Consulting. Todos los derechos reservados. Algunas partes de este producto estn basadas en el trabajo de FreeType Team (http://www.freetype.org). Una parte del software de SPSS contiene tecnologa zlib. Copyright 19952002 de Jean-loup Gailly y Mark Adler. El software zlib se proporciona tal cual, sin ningn tipo de garanta implcita o explcita. Una parte del software de SPSS contiene bibliotecas de Sun Java Runtime. Copyright 2003 de Sun Microsystems, Inc. Reservados todos los derechos. Las bibliotecas de Sun Java Runtime incluyen cdigo con licencia de RSA Security, Inc. Algunas partes de las bibliotecas tienen licencia de IBM y estn disponibles en http://oss.software.ibm.com/icu4j/. SPSS Classification Tree 13.0 Copyright 2004 de SPSS Inc. Todos los derechos reservados. Impreso en Irlanda. Queda prohibida la reproduccin, el almacenamiento en sistemas de recuperacin o la transmisin de cualquier parte de esta publicacin en cualquier forma y por cualquier medio (electrnico o mecnico, fotocopia, grabacin o cualquier otro) sin previa autorizacin expresa y por escrito de parte del editor. 1234567890 ISBN 1-56827-999-X 07 06 05 04

Prefacio

SPSS 13.0 es un sistema global para el anlisis de datos. El mdulo adicional opcional Classification Tree proporciona las tcnicas de anlisis adicionales que se describen en este manual. El mdulo adicional Classification Tree se debe utilizar con el sistema Base de SPSS 13.0 y est completamente integrado en dicho sistema.
Instalacin

Para instalar Classification Tree, ejecute el Asistente para autorizacin de licencia utilizando el cdigo de autorizacin que le envi SPSS Inc. Para obtener ms informacin, consulte las instrucciones de instalacin proporcionadas con el sistema Base de SPSS .
Compatibilidad

SPSS est diseado para ejecutarse en gran cantidad de sistemas de ordenadores. Consulte las instrucciones de instalacin entregadas con su sistema para obtener informacin especfica acerca de los requisitos mnimos y los recomendados.
Nmeros de serie

El nmero de serie es su nmero de identificacin con SPSS Inc. Necesitar este nmero cuando se ponga en contacto con SPSS Inc. para recibir informacin sobre asistencia, formas de pago o actualizacin del sistema. El nmero de serie se incluye en el sistema Base de SPSS.

iii

Servicio al cliente

Si tiene cualquier duda referente a la forma de envo o pago, pngase en contacto con su oficina local, que encontrar en la pgina Web de SPSS en http://www.spss.com/worldwide. Tenga preparado su nmero de serie para identificarse.
Cursos de preparacin

SPSS Inc. ofrece cursos de preparacin, tanto pblicos como in situ. En todos los cursos habr talleres prcticos. Estos cursos tendrn lugar peridicamente en las principales capitales. Si desea obtener ms informacin sobre estos cursos, pngase en contacto con su oficina local que encontrar en la pgina Web de SPSS en http://www.spss.com/worldwide.
Asistencia tcnica

El servicio de asistencia tcnica de SPSS est a disposicin de todos los clientes registrados. Los clientes podrn ponerse en contacto con este servicio de asistencia tcnica si desean recibir ayuda sobre la utilizacin de SPSS o sobre la instalacin en alguno de los entornos de hardware admitidos. Para ponerse en contacto con el servicio de asistencia tcnica, consulte la pgina Web de SPSS en http://www.spss.com, o pngase en contacto con la oficina ms cercana, que encontrar en la pgina Web de SPSS en http://www.spss.com/worldwide. Tenga preparada la informacin necesaria para identificarse personalmente, a su organizacin y el nmero de serie de su sistema.
Publicaciones adicionales

Puede adquirir copias adicionales de los manuales de los productos de SPSS directamente de SPSS Inc. Visite la seccin Store de la pgina Web de SPSS en http://www.spss.com/estore o pngase en contacto con su oficina de SPSS local que encontrar en la pgina Web de SPSS en http://www.spss.com/worldwide. Para pedidos telefnicos en Estados Unidos y Canad, llame a SPSS Inc. al 800-543-2185. Para pedidos telefnicos desde otros pases, pngase en contacto con la oficina ms cercana que encontrar en la pgina Web de SPSS.

iv

El libro SPSS Statistical Procedures Companion, de Marija Norusis, ha sido publicado por Prentice Hall. Se prev una nueva versin de este libro, actualizado para SPSS 13.0. El libro SPSS Advanced Statistical Procedures Companion, que tambin se basa en SPSS 13.0, se publicar muy pronto. El libro SPSS Guide to Data Analysis para SPSS 13.0 tambin se est elaborando. Las publicaciones anunciadas de forma exclusiva por Prentice Hall estarn disponibles en la pgina Web de SPSS en http://www.spss.com/estore (seleccione su pas de origen y pulse en Books).
Dganos su opinin

Sus comentarios son importantes. Hganos saber su experiencia con los productos SPSS. Nos interesa especialmente recibir noticias sobre aplicaciones nuevas e interesantes para el sistema SPSS. Envenos un correo electrnico a suggest@spss.com o escriba a SPSS Inc., Attn.: Director of Product Planning, 233 South Wacker Drive, 11th Floor, Chicago, IL 60606-6412, EE.UU.
Acerca de este manual

Este manual es la documentacin de la interfaz grfica del usuario para los procedimientos incluidos en Classification Tree. Las ilustraciones de los cuadros de dilogo estn tomadas de SPSS para Windows. Los cuadros de dilogo de los dems sistemas operativos son similares. La sintaxis de comandos completa se documenta de forma detallada en la referencia de sintaxis de comandos de SPSS (SPSS Command Syntax Reference), disponible en el men Ayuda.
Cmo ponerse en contacto con SPSS

Si desea pertenecer a nuestra lista de correo, pngase en contacto con nuestras oficinas que encontrar en la pgina Web en http://www.spss.com/worldwide.

Contenido
1 Creacin de rboles de clasificacin 1

Seleccin de categoras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 Validacin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 Criterios de crecimiento del rbol . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 Lmites de crecimiento. . . Criterios para CHAID . . . . Criterios para CRT . . . . . . Criterios para QUEST . . . . Poda de rboles. . . . . . . . Sustitutos . . . . . . . . . . . . Opciones . . . . . . . . . . . . . . . . ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... . . . . . . . . . . . . . . . . . 12 13 16 18 19 20 20 21 23 24 26 28 30 32 34 39 45

Costes de clasificacin errnea. . . . . . . . Beneficios . . . . . . . . . . . . . . . . . . . . . . . . Probabilidades previas . . . . . . . . . . . . . . Puntuaciones . . . . . . . . . . . . . . . . . . . . . Valores perdidos . . . . . . . . . . . . . . . . . . . Almacenamiento de informacin del modelo. . Presentacin del rbol. . . . . . . . . Estadsticos . . . . . . . . . . . . . . . . . Grficos. . . . . . . . . . . . . . . . . . . . Reglas de seleccin y puntuacin ... ... ... ... ... ... ... ...

Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

Editor del rbol

49

Trabajo con rboles grandes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51 Mapa del rbol . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52

vii

Escalamiento de la presentacin del rbol . . . . . . . . . . . . . . . . . . . . . . 53 Ventana de resumen de nodos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54 Control de la informacin que se muestra en el rbol . . . . . . . . . . . . . . . . . 55 Modificacin de las fuentes de texto y los colores del rbol . . . . . . . . . . . . 56 Reglas de seleccin de casos y puntuacin . . . . . . . . . . . . . . . . . . . . . . . . 59 Filtrado de casos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60 Almacenamiento de las reglas de seleccin y puntuacin . . . . . . . . . . 60

Requisitos y supuestos de los datos

63

Efectos del nivel de medida en los modelos de rbol. . . . . . . . . . . . . . . . . . 63 Asignacin permanente del nivel de medida . . . . . . . . . . . . . . . . . . . . 68 Efectos de las etiquetas de valor en los modelos de rbol . . . . . . . . . . . . . . 68 Asignacin de etiquetas de valor a todos los valores . . . . . . . . . . . . . . 70

Utilizacin de rboles de clasificacin para evaluar riesgos de crdito


Creacin del modelo de rbol CHAID . . . . . . . . . . . . . . . . Seleccin de categoras objetivo . . . . . . . . . . . . . . . . . . . Especificacin de los criterios de crecimiento del rbol. . Seleccin de resultados adicionales . . . . . . . . . . . . . . . . Almacenamiento de los valores pronosticados . . . . . . . . Evaluacin del modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Tabla de resumen del modelo Diagrama del rbol . . . . . . . . Tabla del rbol . . . . . . . . . . . . Ganancias para nodos . . . . . . ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... . . . . . . . . . .

73
74 75 76 76 79 80 80 82 83 85

Creacin del modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73

viii

Grfico de ganancias. . . . . . . . . . . . . Grfico de ndice . . . . . . . . . . . . . . . . Estimacin de riesgo y clasificacin . Valores pronosticados . . . . . . . . . . . . Ajuste del modelo . . . . . . . . . . . . . . . . . . . Seleccin de casos en nodos . . . . . . Examen de los casos seleccionados . Asignacin de costes a resultados . . Resumen . . . . . . . . . . . . . . . . . . . . . . . . .

... ... ... ... ... ... ... ... ...

... ... ... ... ... ... ... ... ...

... ... ... ... ... ... ... ... ...

... ... ... ... ... ... ... ... ...

... ... ... ... ... ... ... ... ...

... ... ... ... ... ... ... ... ...

... ... ... ... ... ... ... ... ...

... ... ... ... ... ... ... ... ...

. . . . .

86 87 88 89 90

. 90 . 92 . 96 101

Creacin de un modelo de puntuacin

103

Creacin del modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103 Evaluacin del modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106 Resumen del modelo . . . . . . . . . . . . . . . . Diagrama del modelo de rbol . . . . . . . . . Estimacin de riesgo . . . . . . . . . . . . . . . . Aplicacin del modelo a otro archivo de datos ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... 106 107 109 110

Resumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114

Valores perdidos en modelos de rbol

115

Valores perdidos con CHAID. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116 Resultados de CHAID. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119 Valores perdidos con CRT. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120 Resultados de CRT. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123 Resumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126

ix

Glosario ndice

127 129

Captulo

Creacin de rboles de clasificacin


Figura 1-1 rbol de clasificacin

2 Captulo 1

El procedimiento rbol de clasificacin crea un modelo de clasificacin basado en rboles, y clasifica casos en grupos o pronostica valores de una variable (criterio) dependiente basada en valores de variables independientes (predictores). El procedimiento proporciona herramientas de validacin para anlisis de clasificacin exploratorios y confirmatorios. El procedimiento se puede utilizar para:
Segmentacin. Identifica las personas que pueden ser miembros de un grupo

especfico.
Estratificacin. Asigna los casos a una categora de entre varias, por ejemplo, grupos de alto riesgo, bajo riesgo y riesgo intermedio. Prediccin. Crea reglas y las utiliza para predecir eventos futuros, como la

verosimilitud de que una persona cause mora en un crdito o el valor de reventa potencial de un vehculo o una casa.
Reduccin de datos y clasificacin de variables. Selecciona un subconjunto til de predictores a partir de un gran conjunto de variables para utilizarlo en la creacin de un modelo paramtrico formal. Identificacin de interaccin. Identifica las relaciones que pertenecen slo a subgrupos especficos y las especifica en un modelo paramtrico formal. Fusin de categoras y discretizacin de variables continuas. Recodifica las categoras de grupo de los predictores y las variables continuas, con una prdida mnima de informacin. Ejemplo. Un banco desea categorizar a los solicitantes de crditos en funcin de si representan o no un riesgo crediticio razonable. Basndose en varios factores, incluyendo las valoraciones del crdito conocidas de clientes anteriores, se puede generar un modelo para pronosticar si es probable que los clientes futuros causen mora en sus crditos.

Un anlisis basado en rboles ofrece algunas caractersticas atractivas:


! !

Permite identificar grupos homogneos con alto o bajo riesgo. Facilita la construccin de reglas para realizar pronsticos sobre casos individuales.

3 Creacin de rboles de clasificacin

Consideraciones sobre los datos Datos. Las variables dependientes e independientes pueden ser:
!

nominal. Una variable puede ser tratada como nominal cuando sus valores

representan categoras que no obedecen a una ordenacin intrnseca. Por ejemplo, el departamento de la compaa en el que trabaja un empleado. Son ejemplos de variables nominales: la regin, el cdigo postal o la confesin religiosa.
!

ordinal. Una variable puede ser tratada como ordinal cuando sus valores

representan categoras con alguna ordenacin intrnseca. Por ejemplo los niveles de satisfaccin con un servicio, que vayan desde muy insatisfecho hasta muy satisfecho. Son ejemplos de variables ordinales: las puntuaciones de actitud que representan el nivel de satisfaccin o confianza y las puntuaciones de evaluacin de la preferencia.
!

escala. Una variable puede ser tratada como de escala cuando sus valores

representan categoras ordenadas con una mtrica con significado, por lo que son adecuadas las comparaciones de distancia entre valores. Son ejemplos de variables de escala: la edad en aos y los ingresos en dlares.
Ponderaciones de frecuencia Si se encuentra activada la ponderacin, las

ponderaciones fraccionarias se redondearn al nmero entero ms cercano; de esta manera, a los casos con un valor de ponderacin menor que 0,5 se les asignar una ponderacin de 0 y, por consiguiente, se vern excluidos del anlisis.
Supuestos. Este procedimiento supone que se ha asignado el nivel de medida

adecuado a todas las variables del anlisis; adems, algunas funciones suponen que todos los valores de la variable dependiente incluidos en el anlisis tienen etiquetas de valor definidas.
!

Nivel de medida. El nivel de medida afecta a los del rbol clculos; por lo

tanto, todas las variables deben tener asignado el nivel de medida adecuado. Por defecto, SPSS supone que las variables numricas son de escala y que las variables de cadena son nominales, lo cual podra no reflejar con exactitud el verdadero nivel de medida. Un icono situado junto a cada variable de la lista de variables identifica el tipo de variable.

4 Captulo 1

Escala

Nominal

Ordinal

Puede cambiar de forma temporal el nivel de medida de una variable; para ello, pulse con el botn derecho del ratn en la variable en la lista de variables de origen y seleccione un nivel de medida del men contextual.
!

Etiquetas de valor. La interfaz del cuadro de dilogo para este procedimiento

supone que o todos los valores no perdidos de una variable dependiente categrica (nominal, ordinal) tienen etiquetas de valor definidas o ninguno de ellos las tiene. Algunas funciones no estarn disponibles a menos que haya como mnimo dos valores no perdidos de la variable dependiente categrica que tengan etiquetas de valor. Si al menos dos valores no perdidos tienen etiquetas de valor definidas, todos los dems casos con otros valores que no tengan etiquetas de valor se excluirn del anlisis.
Para obtener rboles de clasificacin
E Elija en los mens: Analizar Clasificar rbol...

5 Creacin de rboles de clasificacin Figura 1-2 Cuadro de dilogo rbol de clasificacin

E Seleccione una variable dependiente. E Seleccione una o ms variables independientes. E Seleccione un mtodo de crecimiento.

Si lo desea, tiene la posibilidad de:


! ! !

Cambiar el nivel de medida para cualquier variable de la lista de origen. Forzar que la primera variable en la lista de variables independientes en el modelo sea la primera variable de divisin. Seleccionar una variable de influencia que defina cunta influencia tiene un caso en el proceso de crecimiento de un rbol. Los casos con valores de influencia inferiores tendrn menos influencia, mientras que los casos con valores superiores tendrn ms. Los valores de la variable de influencia deben ser valores positivos. Validar el rbol. Personalizar los criterios de crecimiento del rbol.

! !

6 Captulo 1 ! !

Guardar los nmeros de nodos terminales, valores pronosticados y probabilidades pronosticadas como variables. Guardar el modelo en formato XML (PMML).

Cambio del nivel de medida


E En la lista de origen, pulse con el botn derecho del ratn en la variable. E Seleccione un nivel de medida del men contextual emergente.

Esto modifica de forma temporal el nivel de medida para su uso en el procedimiento rbol de clasificacin.
Mtodos de crecimiento

Los mtodos de crecimiento disponibles son:


CHAID. Deteccin automtica de interacciones mediante chi-cuadrado (CHi-square

Automatic Interaction Detection). En cada paso, CHAID elige la variable independiente (predictora) que presenta la interaccin ms fuerte con la variable dependiente. Las categoras de cada predictor se funden si no son significativamente distintas respecto a la variable dependiente.
CHAID exhaustivo. Una modificacin del CHAID que examina todas las divisiones

posibles de cada predictor.


CRT. rboles de clasificacin y regresin (Classification and Regression Trees). CRT

divide los datos en segmentos para que sean lo ms homogneos que sea posible respecto a la variable dependiente. Un nodo terminal en el que todos los casos toman el mismo valor en la variable dependiente es un nodo homogneo y puro.
QUEST. rbol estadstico rpido, insesgado y eficiente (Quick, Unbiased, Efficient

Statistical Tree). Un mtodo que es rpido y que evita el sesgo que presentan otros mtodos al favorecer los predictores con muchas categoras. Slo puede especificarse QUEST si la variable dependiente es nominal.

7 Creacin de rboles de clasificacin

Cada mtodo presenta ventajas y limitaciones, entre las que se incluyen:


CHAID* Basado en chi-cuadrado** Variables (predictoras) independientes sustitutas Poda de rboles Divisin multicategrica de los nodos Divisin binaria de los nodos Variables de influencia Probabilidades previas Costes de clasificacin errnea Clculo rpido X X X X X X X X X X X X X X X X X CRT QUEST

*Incluye CHAID exhaustivo. **QUEST tambin utiliza una medida de chi-cuadrado para variables independientes nominales.

8 Captulo 1

Seleccin de categoras
Figura 1-3 Cuadro de dilogo Categoras

Para variables dependientes categricas (nominales, ordinales), puede:


! !

Controlar qu categoras se incluirn en el anlisis. Identificar las categoras objetivo de inters.

Inclusin y exclusin de categoras

Puede limitar el anlisis a categoras especficas de la variable dependiente.


! !

Aquellos casos que tengan valores de la variable dependiente en la lista de exclusin no se incluirn en el anlisis. Para variables dependientes nominales, tambin puede incluir en el anlisis categoras definidas como perdidas por el usuario. (Por defecto, las categoras definidas como perdidas por el usuario se muestran en la lista de exclusin.)

9 Creacin de rboles de clasificacin

Categoras objetivo

Las categoras seleccionadas (marcadas) se tratarn durante el anlisis como las categoras de inters fundamental. Por ejemplo, si persigue identificar a las personas que es ms probable que causen mora en un crdito, podra seleccionar como categora objetivo la categora negativa de valoracin del crdito.
!

No hay ninguna categora objetivo por defecto. Si no se selecciona ninguna categora, algunas opciones de las reglas de clasificacin y algunos resultados relacionados con las ganancias no estarn disponibles. Si hay varias categoras seleccionadas, se generarn grficos y tablas de ganancias independientes para cada una de las categoras objetivo. La designacin de una o ms categoras como categoras objetivo no tiene ningn efecto sobre los resultados de clasificacin errnea, modelo de rbol o estimacin del riesgo.

! !

Categoras y etiquetas de valor

Este cuadro de dilogo requiere etiquetas de valor definidas para la variable dependiente. No estar disponible a menos que dos valores como mnimo de la variable dependiente categrica tengan etiquetas de valor definidas.
Para incluir/excluir categoras y seleccionar categoras objetivo
E En el cuadro de dilogo principal rbol de clasificacin, seleccione una variable

dependiente categrica (nominal, ordinal) con dos o ms etiquetas de valor definidas.


E Pulse Categoras.

10 Captulo 1

Validacin
Figura 1-4 Cuadro de dilogo Validacin

La validacin permite evaluar la bondad de la estructura de rbol cuando se generaliza para una mayor poblacin. Hay dos mtodos de validacin disponibles: validacin cruzada y validacin por divisin muestral.
Validacin cruzada

La validacin cruzada divide la muestra en un nmero de submuestras. A continuacin, se generan los modelos de rbol, que no incluyen los datos de cada submuestra. El primer rbol se basa en todos los casos excepto los correspondientes al primer pliegue de la muestra; el segundo rbol se basa en todos los casos excepto los del segundo pliegue de la muestra y as sucesivamente. Para cada rbol se calcula

11 Creacin de rboles de clasificacin

el riesgo de clasificacin errnea aplicando el rbol a la submuestra que se excluy al generarse ste.
! !

Se puede especificar un mximo de 25 pliegues de la muestra. Cuanto mayor sea el valor, menor ser el nmero de casos excluidos de cada modelo de rbol. La validacin cruzada genera un modelo de rbol nico y final. La estimacin de riesgo mediante validacin cruzada para el rbol final se calcula como promedio de los riesgos de todos los rboles.

Validacin por divisin muestral

Con la validacin por divisin muestral, el modelo se genera utilizando una muestra de entrenamiento y despus pone a prueba ese modelo con una muestra de reserva.
!

Puede especificar un tamao de la muestra de entrenamiento, expresado como un porcentaje del tamao muestral total, o una variable que divida la muestra en muestras de entrenamiento y de comprobacin. Si utiliza una variable para definir las muestras de entrenamiento y de comprobacin, los casos con un valor igual a 1 para la variable se asignarn a la muestra de entrenamiento y todos los dems casos se asignarn a la muestra de comprobacin. Dicha variable no puede ser ni la variable dependiente, ni la de ponderacin, ni la de influencia, ni una variable independiente forzada. Los resultados se pueden mostrar tanto para la muestra de entrenamiento como para la de comprobacin, o slo para esta ltima. La validacin por divisin muestral se debe utilizar con precaucin en archivos de datos pequeos (archivos de datos con un nmero pequeo de casos). Si se utilizan muestras de entrenamiento de pequeo tamao, pueden generarse modelos que no sean significativos, ya que es posible que no haya suficientes casos en algunas categoras para lograr un adecuado crecimiento del rbol.

! !

Criterios de crecimiento del rbol


Los criterios de crecimiento disponibles pueden depender del mtodo de crecimiento, del nivel de medida de la variable dependiente o de una combinacin de ambos.

12 Captulo 1

Lmites de crecimiento
Figura 1-5 Cuadro de dilogo Criterios, pestaa Lmites de crecimiento

La pestaa Lmites de crecimiento permite limitar el nmero de niveles del rbol y controlar el nmero de casos mnimo para nodos parentales y filiales.
Mxima profundidad de rbol. Controla el nmero mximo de niveles de crecimiento

por debajo del nodo raz. El ajuste Automtica limita el rbol a tres niveles por debajo del nodo raz para los mtodos CHAID y CHAID exhaustivo y a cinco niveles para los mtodos CRT y QUEST.
Nmero de casos mnimo. Controla el nmero de casos mnimo para los nodos. Los

nodos que no cumplen estos criterios no se dividen.


! !

El aumento de los valores mnimos tiende a generar rboles con menos nodos. La disminucin de dichos valores mnimos generar rboles con ms nodos.

Para archivos de datos con un nmero pequeo de casos, es posible que, en ocasiones, los valores por defecto de 100 casos para nodos parentales y de 50 casos para nodos filiales den como resultado rboles sin ningn nodo por debajo del nodo raz; en este caso, la disminucin de los valores mnimos podra generar resultados ms tiles.

13 Creacin de rboles de clasificacin

Criterios para CHAID


Figura 1-6 Cuadro de dilogo Criterios, pestaa CHAID

Para los mtodos CHAID y CHAID exhaustivo, puede controlar:


Nivel de significacin. Puede controlar el valor de significacin para la divisin de

nodos y la fusin de categoras. Para ambos criterios, el nivel de significacin por defecto es igual a 0,05.
! !

La divisin de nodos requiere un valor mayor que 0 y menor que 1. Los valores inferiores tienden a generar rboles con menos nodos. La fusin de categoras requiere que el valor sea mayor que 0 y menor o igual que 1. Si desea impedir la fusin de categoras, especifique un valor igual a 1. Para una variable independiente de escala, esto significa que el nmero de categoras para la variable en el rbol final ser el nmero especificado de intervalos (el valor por defecto es 10). Si desea obtener ms informacin, consulte Intervalos de escala para el anlisis CHAID en p. 15.

14 Captulo 1

Estadstico de Chi-cuadrado. Para variables dependientes ordinales, el valor de

chi-cuadrado para determinar la divisin de nodos y la fusin de categoras se calcula mediante el mtodo de la razn de verosimilitud. Para variables dependientes nominales, puede seleccionar el mtodo:
! !

Pearson. Este mtodo proporciona clculos ms rpidos pero se debe utilizar con

precaucin en muestras pequeas. Este es el mtodo por defecto.


Razn de verosimilitud. Este mtodo es ms robusto que el de Pearson pero tarda

ms en realizar los clculos. Es el mtodo preferido para muestras pequeas.


Estimacin del modelo. Para variables dependientes ordinales y nominales, puede

especificar:
!

Nmero mximo de iteraciones. El valor por defecto es 100. Si el rbol detiene

su crecimiento porque se ha alcanzado el nmero mximo de iteraciones, puede que desee aumentar el nmero mximo o modificar alguno de los dems criterios que controlan el crecimiento del rbol.
!

Cambio mnimo en las frecuencias esperadas de las casillas. El valor debe ser

mayor que 0 y menor que 1. El valor por defecto es 0,05. Los valores inferiores tienden a generar rboles con menos nodos.
Corregir los valores de significacin mediante el mtodo de Bonferroni. Para comparaciones mltiples, los valores de significacin para los criterios de divisin y fusin se corrigen utilizando el mtodo de Bonferroni. Este es el mtodo por defecto. Permitir nueva divisin de las categoras fusionadas dentro de un nodo. A menos que se impida de forma explcita la fusin de categoras, el procedimiento intentar la fusin de las categoras de variables (predictoras) independientes entre s para generar el rbol ms simple que describa el modelo. Esta opcin permite al procedimiento volver a dividir las categoras fusionadas si con ello se puede obtener una solucin mejor.

15 Creacin de rboles de clasificacin

Intervalos de escala para el anlisis CHAID


Figura 1-7 Cuadro de dilogo Criterios, pestaa Intervalos

En el anlisis CHAID, las variables (predictoras) independientes de escala siempre se categorizan en grupos discretos (por ejemplo, 010, 1120, 2130, etc.) antes del anlisis. Puede controlar el nmero inicial/mximo de grupos (aunque el procedimiento puede fundir grupos contiguos despus de la divisin inicial):
! !

Nmero fijo. Todas las variables independientes de escala se categorizan

inicialmente en el mismo nmero de grupos. El valor por defecto es 10.


Personalizado. Todas las variables independientes de escala se categorizan

inicialmente en el nmero de grupos especificado para esta variable.


Para especificar intervalos para variables independientes de escala
E En el cuadro de dilogo principal rbol de clasificacin, seleccione una o ms

variables independientes de escala.


E Para el mtodo de crecimiento, seleccione CHAID o CHAID exhaustivo. E Pulse en Criterios.

16 Captulo 1 E Pulse en la pestaa Intervalos.

En los anlisis CRT y QUEST, todas las divisiones son binarias y las variables independientes de escala y ordinales se tratan de la misma manera; por lo tanto, no se puede especificar un nmero de intervalos para variables independientes de escala.

Criterios para CRT


Figura 1-8 Cuadro de dilogo Criterios, pestaa CRT

El mtodo de crecimiento CRT procura maximizar la homogeneidad interna de los nodos. El grado en el que un nodo no representa un subconjunto homogneo de casos es una indicacin de impureza. Por ejemplo, un nodo terminal en el que todos los casos tienen el mismo valor para la variable dependiente es un nodo homogneo que no requiere ninguna divisin ms ya que es puro. Puede seleccionar el mtodo utilizado para medir la impureza as como la reduccin mnima de la impureza necesaria para dividir nodos.

17 Creacin de rboles de clasificacin

Medida de la impureza. Para variables dependientes de escala, se utilizar la medida

de impureza de desviacin cuadrtica mnima (LSD). Este valor se calcula como la varianza dentro del nodo, corregida respecto a todas las ponderaciones de frecuencia o valores de influencia. Para variables dependientes categricas (nominales, ordinales), puede seleccionar la medida de la impureza:
!

Gini. Se obtienen divisiones que maximizan la homogeneidad de los nodos filiales

con respecto al valor de la variable dependiente. Gini se basa en el cuadrado de las probabilidades de pertenencia de cada categora de la variable dependiente. El valor mnimo (cero) se alcanza cuando todos los casos de un nodo corresponden a una sola categora. Esta es la medida por defecto.
! !

Binaria. Las categoras de la variable dependiente se agrupan en dos subclases. Se

obtienen las divisiones que mejor separan los dos grupos.


Binaria ordinal. Similar a la regla binaria con la nica diferencia de que slo

se pueden agrupar las categoras adyacentes. Esta medida slo se encuentra disponible para variables dependientes ordinales.
Cambio mnimo en la mejora. Esta es la reduccin mnima de la impureza necesaria para dividir un nodo. El valor por defecto es 0,0001. Los valores superiores tienden a generar rboles con menos nodos.

18 Captulo 1

Criterios para QUEST


Figura 1-9 Cuadro de dilogo Criterios, pestaa QUEST

Para el mtodo QUEST, puede especificar el nivel de significacin para la divisin de nodos. No se puede utilizar una variable independiente para dividir nodos a menos que el nivel de significacin sea menor o igual que el valor especificado. El valor debe ser mayor que 0 y menor que 1. El valor por defecto es 0,05. Los valores ms pequeos tendern a excluir ms variables independientes del modelo final.
Para especificar criterios para QUEST
E En el cuadro de dilogo principal rbol de clasificacin, seleccione una variable

dependiente nominal.
E Para el mtodo de crecimiento, seleccione QUEST. E Pulse en Criterios. E Pulse en la pestaa QUEST.

19 Creacin de rboles de clasificacin

Poda de rboles
Figura 1-10 Cuadro de dilogo Criterios, pestaa Poda del rbol

Con los mtodos CRT y QUEST, puede evitar el sobreajuste del modelo mediante la poda del rbol: el rbol crece hasta que se cumplen los criterios de parada y, a continuacin, se recorta de forma automtica hasta obtener el subrbol ms pequeo basado en la mxima diferencia en el riesgo especificada. El valor del riesgo se expresa en errores tpicos. El valor por defecto es 1. El valor debe ser no negativo. Para obtener el subrbol con el mnimo riesgo, especifique 0.
La poda del rbol frente a la ocultacin de nodos

Cuando se crea un rbol podado, ninguno de los nodos podados del rbol estarn disponibles en el rbol final. Es posible ocultar y mostrar de forma interactiva los nodos filiales en el rbol final, pero no se pueden mostrar los nodos podados durante el proceso de creacin del rbol. Si desea obtener ms informacin, consulte Editor del rbol en Captulo 2 en p. 49.

20 Captulo 1

Sustitutos
Figura 1-11 Cuadro de dilogo Criterios, pestaa Sustitutos

CRT y QUEST pueden utilizar sustitutos para variables (predictoras) independientes. Para los casos en que el valor de esa variable falte, se utilizarn otras variables independientes con asociaciones muy cercanas a la variable original para la clasificacin. A estas variables predictoras alternativas se les denomina sustitutos. Se puede especificar el nmero mximo de sustitutos que utilizar en el modelo.
!

Por defecto, el nmero mximo de sustitutos es igual al nmero de variables independientes menos uno. Es decir, para cada variable independiente, se pueden utilizar todas las dems variables independientes como sustitutos. Si no desea que el modelo utilice sustitutos, especifique 0 para el nmero de sustitutos.

Opciones
Las opciones disponibles pueden depender del mtodo de crecimiento, del nivel de medida de la variable dependiente y de la existencia de etiquetas de valor definidas para los valores de la variable dependiente.

21 Creacin de rboles de clasificacin

Costes de clasificacin errnea


Figura 1-12 Cuadro de dilogo Opciones, pestaa Costes de clasificacin errnea

Para las variables dependientes categricas (nominales, ordinales), los costes de clasificacin errnea permiten incluir informacin referente a las penalizaciones relativas asociadas a una clasificacin incorrecta. Por ejemplo:
! !

El coste de negar crdito a un cliente solvente ser diferente al coste de otorgar crdito a un cliente que posteriormente incurra en un incumplimiento. El coste de clasificacin errnea de una persona con un alto riesgo de dolencias cardacas como de bajo riesgo es, probablemente, mucho mayor que el coste de clasificar errneamente a una persona de bajo riesgo como de alto riesgo. El coste de realizar un mailing a alguien con poca propensin a responder es probablemente muy bajo, mientras que el coste de no enviar dicho mailing a personas con propensin a responder es relativamente ms alto (en trminos de prdida de beneficios).

22 Captulo 1

Costes de clasificacin errnea y etiquetas de valor

Este cuadro de dilogo no estar disponible a menos que dos valores como mnimo de la variable dependiente categrica tengan etiquetas de valor definidas.
Para especificar los costes de clasificacin errnea
E En el cuadro de dilogo principal rbol de clasificacin, seleccione una variable

dependiente categrica (nominal, ordinal) con dos o ms etiquetas de valor definidas.


E Pulse en Opciones. E Pulse en la pestaa Costes de clasificacin errnea. E Pulse en Personalizados. E Introduzca uno o ms costes de clasificacin errnea en la cuadrcula. Los valores

deben ser no negativos. (Las clasificaciones correctas, representadas en la diagonal, son siempre 0.)
Rellenar matriz. Es posible que en muchos casos se desee que los costes sean simtricos, es decir, que el coste de clasificar errneamente A como B sea el mismo que el coste de clasificar errneamente B como A. Las siguientes opciones le ayudarn a especificar una matriz de costes simtrica:
! ! !

Duplicar tringulo inferior. Copia los valores del tringulo inferior de la matriz

(bajo la diagonal) en las casillas correspondientes del tringulo superior.


Duplicar tringulo superior. Copia los valores del tringulo superior de la matriz

(sobre la diagonal) en las casillas correspondientes del tringulo inferior.


Usar valores promedio de casillas. Para cada casilla de cada mitad de la matriz,

se calcula el promedio de los dos valores (tringulo superior e inferior) y dicho promedio reemplaza ambos valores. Por ejemplo, si el coste de clasificacin errnea de A como B es 1, y el coste de clasificacin errnea de B como A es 3, esta opcin reemplaza ambos valores por el promedio obtenido: (1+3)/2 = 2.

23 Creacin de rboles de clasificacin

Beneficios
Figura 1-13 Cuadro de dilogo Opciones, pestaa Beneficios

Para las variables dependientes categricas, puede asignar valores de ingresos y gastos a los niveles de la variable dependiente.
! !

El beneficio se calcula como la diferencia entre ingresos y gastos. Los valores de beneficio afectan a los valores del beneficio promedio y ROI (retorno de la inversin) en las tablas de ganancias. No afectan, sin embargo, a la estructura bsica del modelo del rbol. Los valores de ingresos y gastos deben ser numricos y deben estar especificados para todas las categoras de la variable dependiente que aparezcan en la cuadrcula.

Beneficios y etiquetas de valor

Este cuadro de dilogo requiere etiquetas de valor definidas para la variable dependiente. No estar disponible a menos que dos valores como mnimo de la variable dependiente categrica tengan etiquetas de valor definidas.

24 Captulo 1

Para especificar los beneficios


E En el cuadro de dilogo principal rbol de clasificacin, seleccione una variable

dependiente categrica (nominal, ordinal) con dos o ms etiquetas de valor definidas.


E Pulse en Opciones. E Pulse en la pestaa Beneficios. E Pulse en Personalizados. E Introduzca los valores de ingresos y gastos para todas las categoras de la variable

dependiente que aparecen en la cuadrcula.

Probabilidades previas
Figura 1-14 Cuadro de dilogo Opciones, pestaa Probabilidades previas

25 Creacin de rboles de clasificacin

Para los rboles CRT y QUEST con variables dependientes categricas, puede especificar probabilidades previas de pertenencia al grupo. Las probabilidades previas son estimaciones de la frecuencia relativa global de cada categora de la variable dependiente, previas a cualquier conocimiento sobre los valores de las variables (predictoras) independientes. La utilizacin de las probabilidades previas ayuda a corregir cualquier crecimiento del rbol causado por datos de la muestra que no sean representativos de la totalidad de la poblacin.
Obtener de la muestra de entrenamiento (previas empricas). Utilice este ajuste si la distribucin de los valores de la variable dependiente en el archivo de datos es representativa de la distribucin de poblacin. Si se usa validacin por divisin muestral, se utilizar la distribucin de los casos en la muestra de entrenamiento.

Nota: como en la validacin por divisin muestral se asignan los casos de forma aleatoria a la muestra de entrenamiento, no podr conocer de antemano la distribucin real de los casos en la muestra de entrenamiento. Si desea obtener ms informacin, consulte Validacin en p. 10.
Iguales para todas las categoras. Utilice este ajuste si las categoras de la variable

dependiente tienen la misma representacin dentro de la poblacin. Por ejemplo, si hay cuatro categoras con aproximadamente el 25% de los casos en cada una de ellas.
Personalizado. Introduzca un valor no negativo para cada categora de la variable

dependiente que aparezca en la cuadrcula. Los valores pueden ser proporciones, porcentajes, frecuencias o cualquier otro valor que represente la distribucin de valores entre categoras.
Corregir las previas mediante los costes de clasificacin errnea. Si define costes

de clasificacin errnea personalizados, podr corregir las probabilidades previas basndose en dichos costes. Si desea obtener ms informacin, consulte Costes de clasificacin errnea en p. 21.
Probabilidades previas y etiquetas de valor

Este cuadro de dilogo requiere etiquetas de valor definidas para la variable dependiente. No estar disponible a menos que dos valores como mnimo de la variable dependiente categrica tengan etiquetas de valor definidas.

26 Captulo 1

Para especificar probabilidades previas


E En el cuadro de dilogo principal rbol de clasificacin, seleccione una variable

dependiente categrica (nominal, ordinal) con dos o ms etiquetas de valor definidas.


E Para el mtodo de crecimiento, seleccione CRT o QUEST. E Pulse en Opciones. E Pulse en la pestaa Probabilidades previas.

Puntuaciones
Figura 1-15 Cuadro de dilogo Opciones, pestaa Puntuaciones

Para CHAID y CHAID exhaustivo con una variable dependiente ordinal, puede asignar puntuaciones personalizadas a cada categora de la variable dependiente. Las puntuaciones definen el orden y la distancia entre las categoras de la variable dependiente. Puede utilizar las puntuaciones para aumentar o disminuir la distancia relativa entre valores ordinales o para cambiar el orden de los valores.

27 Creacin de rboles de clasificacin !

Utilizar para cada categora su rango ordinal. A la categora inferior de la variable

dependiente se le asigna una puntuacin de 1, a la siguiente categora superior se le asigna una puntuacin de 2, etc. Este es el mtodo por defecto.
!

Personalizado. Introduzca una puntuacin numrica para cada categora de la

variable dependiente que aparezca en la cuadrcula.


Ejemplo
Etiqueta de valor No especializado Obrero especializado Administrativo Profesional Directivo
!

Valor original 1 2 3 4 5

Puntuacin 1 4 4.5 7 6

Las puntuaciones aumentan la distancia relativa entre No especializado y Obrero especializado y disminuyen la distancia relativa entre Obrero especializado y Administrativo. Las puntuaciones invierten el orden entre Directivo y Profesional.

Puntuaciones y etiquetas de valor

Este cuadro de dilogo requiere etiquetas de valor definidas para la variable dependiente. No estar disponible a menos que dos valores como mnimo de la variable dependiente categrica tengan etiquetas de valor definidas.
Para especificar puntuaciones
E En el cuadro de dilogo principal rbol de clasificacin, seleccione una variable

dependiente ordinal con dos o ms etiquetas de valor definidas.


E Para el mtodo de crecimiento, seleccione CHAID o CHAID exhaustivo. E Pulse en Opciones. E Pulse en la pestaa Puntuaciones.

28 Captulo 1

Valores perdidos
Figura 1-16 Cuadro de dilogo Opciones, pestaa Valores perdidos

La pestaa Valores perdidos controla el tratamiento de los valores definidos como perdidos por el usuario de las variables (predictoras) independientes nominales.
!

El tratamiento de los valores definidos como perdidos por el usuario de las variables independientes ordinales y de escala vara en funcin del mtodo de crecimiento. En el cuadro de dilogo Categoras, se especifica el tratamiento de las variables dependientes nominales. Si desea obtener ms informacin, consulte Seleccin de categoras en p. 8. Para las variables dependientes ordinales y de escala, siempre se excluyen los casos con valores en la variable dependiente perdidos del sistema o definidos como tales por el usuario.

Tratar como valores perdidos. Los valores definidos como perdidos por el usuario

reciben el mismo tratamiento que los valores perdidos del sistema. El tratamiento de stos vara en funcin del mtodo de crecimiento.

29 Creacin de rboles de clasificacin

Tratar como valores vlidos. Los valores definidos como perdidos por el usuario de las variables independientes nominales se tratan como valores ordinarios en la clasificacin y crecimiento del rbol. Reglas dependientes del mtodo

Si algunos, pero no todos, los valores de las variables independientes son valores perdidos del sistema o definidos como tales por el usuario:
!

Para CHAID y CHAID exhaustivo, los valores de las variables independientes perdidos del sistema o definidos como perdidos por el usuario se incluyen en el anlisis como una nica categora combinada. Para las variables independientes ordinales y de escala, los algoritmos primero generan categoras utilizando valores vlidos y, a continuacin, deciden si fundir la categora de valores perdidos con la categora (vlida) que ms se le parece o se mantiene como una categora separada. Para CRT y QUEST, los casos con valores perdidos en las variables independientes se excluyen del proceso de crecimiento del rbol pero se clasifican utilizando sustitutos si estos estn incluidos en el mtodo. Si los valores definidos como perdidos por el usuario nominales se tratan como perdidos, tambin se procesarn de la misma manera. Si desea obtener ms informacin, consulte Sustitutos en p. 20.

Para especificar el tratamiento de los valores definidos como perdidos por el usuario de variables independientes nominales
E En el cuadro de dilogo principal rbol de clasificacin, seleccione al menos una

variable independiente nominal.


E Pulse en Opciones. E Pulse en la pestaa Valores perdidos.

30 Captulo 1

Almacenamiento de informacin del modelo


Figura 1-17 Cuadro de dilogo Guardar

Puede guardar la informacin sobre el modelo como variables en el archivo de datos de trabajo y, asimismo, puede guardar todo el modelo en formato XML (PMML) en un archivo externo.
Variables guardadas Nmero del nodo terminal. Identifica el nodo terminal al que se asigna cada caso. El

valor es el nmero de nodo del rbol.


Valor pronosticado. La clase (grupo) o valor de la variable dependiente pronosticada

por el modelo.
Probabilidades pronosticadas. La probabilidad asociada con la prediccin del modelo. Se guarda una variable por cada categora de la variable dependiente. No disponible para variables dependientes de escala. Asignacin muestral (entrenamiento/comprobacin). Para la validacin por divisin

muestral, esta variable indica si se ha utilizado un caso en la muestra de entrenamiento o de comprobacin. El valor es 1 si la muestra es de entrenamiento y 0 si es de

31 Creacin de rboles de clasificacin

comprobacin. No disponible a menos que se haya seleccionado la validacin por divisin muestral. Si desea obtener ms informacin, consulte Validacin en p. 10.
Exportar modelo de rbol como XML

Puede guardar todo el modelo del rbol en formato XML (PMML). SmartScore y la versin de servidor de SPSS (un producto independiente) pueden utilizar este archivo del modelo para aplicar la informacin del modelo en otros archivos de datos con fines de puntuacin.
Muestra de entrenamiento. Escribe el modelo en el archivo especificado. Para rboles

validados por divisin muestral, este es el modelo para la muestra de entrenamiento.


Muestra de comprobacin. Escribe el modelo para la muestra de comprobacin en el

archivo especificado. No disponible a menos que se haya seleccionado la validacin por divisin muestral.

Resultados
Las opciones de resultados disponibles dependen del mtodo de crecimiento, del nivel de medida de la variable dependiente y de otros valores de configuracin.

32 Captulo 1

Presentacin del rbol


Figura 1-18 Cuadro de dilogo Resultados, pestaa rbol

Permite controlar el aspecto inicial del rbol o suprimir completamente la presentacin del rbol.
rbol. Por defecto, el diagrama del rbol se incluye en los resultados que se muestran en el Visor. Desactive la seleccin (quite la marca) de esta opcin para excluir el diagrama de rbol de los resultados. Mostrar. Estas opciones controlan el aspecto inicial del diagrama de rbol en el Visor. Todos estos atributos tambin se pueden modificar editando el rbol generado.
!

Orientacin. El rbol se puede mostrar de arriba a abajo con el nodo raz situado

en la parte superior, de izquierda a derecha, o de derecha a izquierda.

33 Creacin de rboles de clasificacin !

Contenidos de los nodos. Los nodos pueden mostrar tablas, grficos o ambos. Para

variables dependientes categricas, las tablas muestran frecuencias y porcentajes, y los grficos son diagramas de barras. Para variables dependientes de escala, las tablas muestran medias, desviaciones tpicas, nmero de casos y valores pronosticados, y los grficos son histogramas.
!

Escala. Por defecto, los rboles grandes se reducen de forma automtica para

intentar ajustar el rbol a la pgina. Puede especificar un porcentaje de escala personalizado de hasta el 200%.
!

Estadsticos de las variables independientes. Para CHAID y CHAID exhaustivo,

los estadsticos incluyen el valor F (para variables dependientes de escala) o el valor chi-cuadrado (para variables dependientes categricas) as como el valor de significacin y los grados de libertad. Para CRT, se muestra el valor de mejora. Para QUEST, se muestra el valor F, el valor de significacin y los grados de libertad para las variables independientes ordinales y de escala; para las variables independientes nominales, se muestra el valor chi-cuadrado, el valor de significacin y los grados de libertad.
!

Definiciones de los nodos. Las definiciones de nodos muestran el valor o valores

de la variable independiente utilizados en cada divisin de nodos.


rbol en formato de tabla. Informacin de resumen para cada nodo del rbol,

incluyendo el nmero del nodo parental, los estadsticos de las variables independientes, el valor o valores de las variables independientes para el nodo, la media y la desviacin tpica para variables dependientes de escala, o las frecuencias y porcentajes para variables dependientes categricas.
Figura 1-19 rbol en formato de tabla

34 Captulo 1

Estadsticos
Figura 1-20 Cuadro de dilogo Resultados, pestaa Estadsticos

Las tablas de estadsticos disponibles dependen del nivel de medida de la variable dependiente, del mtodo de crecimiento y de otros valores de configuracin.
Modelo Resumen. El resumen incluye el mtodo utilizado, las variables incluidas en el modelo y las variables especificadas pero no incluidas en el modelo.

35 Creacin de rboles de clasificacin Figura 1-21 Tabla de resumen del modelo

Riesgo. Estimacin del riesgo y su error tpico. Una medida de la precisin predictiva

del rbol.
!

Para variables dependientes categricas, la estimacin de riesgo es la proporcin de casos clasificados incorrectamente despus de corregidos respecto a las probabilidades previas y los costes de clasificacin errnea. Para variables dependientes de escala, la estimacin de riesgo corresponde a la varianza dentro del nodo.

Tabla de clasificacin. Para variables dependientes categricas (nominales, ordinales), esta tabla muestra el nmero de casos clasificados correcta e incorrectamente para cada categora de la variable dependiente. No disponible para variables dependientes de escala.

36 Captulo 1 Figura 1-22 Tablas de riesgos y de clasificacin

Valores de costes, probabilidades previas, puntuaciones y beneficios. Para variables

dependientes categricas, esta tabla muestra los valores de costes, probabilidades previas, puntuaciones y beneficios utilizados en el anlisis. No disponible para variables dependientes de escala.
Variables independientes Importancia en el modelo. Para el mtodo de crecimiento CRT, esta opcin asigna

rangos a cada variable (predictora) independiente de acuerdo con su importancia para el modelo. No disponible para los mtodos QUEST o CHAID.
Sustitutos por divisin. Para los mtodos de crecimiento CRT y QUEST, si el modelo incluye sustitutos, se enumeran estos para cada divisin en el rbol. No disponible para los mtodos CHAID. Si desea obtener ms informacin, consulte Sustitutos en p. 20. Comportamiento del nodo Resumen. En el caso de variables dependientes de escala, la tabla incluye el nmero

de nodo, el nmero de casos y el valor de la media de la variable dependiente. En el caso de variables dependientes categricas con beneficios definidos, la tabla incluye el nmero de nodo, el nmero de casos, el beneficio promedio y los valores de ROI

37 Creacin de rboles de clasificacin

(retorno de la inversin). No disponible para variables dependientes categricas para las que no se hayan definido beneficios. Si desea obtener ms informacin, consulte Beneficios en p. 23.
Figura 1-23 Tablas de resumen de ganancias para nodos y percentiles

Por categora objetivo. Para variables dependientes categricas con categoras objetivo

definidas, la tabla incluye el porcentaje de ganancia, el porcentaje de respuestas y el ndice porcentual (elevacin) por nodo o grupo de percentiles. Se genera una tabla separada para cada categora objetivo. No disponible para variables dependientes de escala o categricas para las que no se hayan definido categoras objetivo. Si desea obtener ms informacin, consulte Seleccin de categoras en p. 8.

38 Captulo 1 Figura 1-24 Ganancias de categoras objetivo para nodos y percentiles

Filas. Las tablas de comportamiento de los nodos pueden mostrar resultados por

nodos terminales, por percentiles o por ambos. Si selecciona ambos, se generan dos tablas por cada categora objetivo. Las tablas de percentiles muestran valores acumulados para cada percentil, basados en el orden.
Incremento del percentil. Para las tablas de percentiles, puede seleccionar el incremento del percentil: 1, 2, 5, 10, 20 o 25. Mostrar estadsticos acumulados. Para las tablas de nodos terminales, muestra columnas adicionales en cada tabla con resultados acumulados.

39 Creacin de rboles de clasificacin

Grficos
Figura 1-25 Cuadro de dilogo Resultados, pestaa Grficos

Los grficos disponibles dependen del nivel de medida de la variable dependiente, del mtodo de crecimiento y de otros valores de configuracin.
Importancia en el modelo. Diagrama de barras de la importancia del modelo por variable (predictora) independiente. Disponible slo con el mtodo de crecimiento CRT. Comportamiento del nodo Ganancia. La ganancia es el porcentaje de los casos totales en la categora objetivo en cada nodo, calculada como: (n criterio de nodo/n total de criterios) x 100. El grfico de ganancias es un grfico de lneas de las ganancias por percentiles acumulados,

40 Captulo 1

calculadas como: (n de criterios acumulados en el percentil / n total de criterios) x 100. Se generar un grfico de lneas distinto para cada categora objetivo. Disponible slo para variables dependientes categricas con categoras objetivo definidas. Si desea obtener ms informacin, consulte Seleccin de categoras en p. 8. El grfico de ganancias representa los mismos valores que se muestran en la columna Porcentaje de ganancia en la tabla de ganancias para los percentiles, que tambin informa de los valores acumulados.
Figura 1-26 Tabla de ganancias para los percentiles y grfico de ganancias

Respuestas. El porcentaje de casos pertenecientes al nodo que pertenecen a la

categora objetivo especificada. El grfico de respuestas es un grfico de lneas de las respuestas por percentiles acumulados, calculado como: (n de criterios acumulados en el percentil / n total acumulado en el percentil) x 100. Disponible slo para variables dependientes categricas con categoras objetivo definidas.

41 Creacin de rboles de clasificacin

El grfico de respuestas representa los mismos valores que se muestran en la columna Responde en la tabla de ganancias para los percentiles.
Figura 1-27 Tabla de ganancias para los percentiles y grfico de respuestas

ndice. El ndice es la razn del porcentaje de respuestas en la categora criterio del nodo comparado con el porcentaje global de respuestas en la categora criterio para toda la muestra. El grfico de ndices es un grfico de lneas que representa los valores de los ndices de percentiles acumulados. Disponible slo para variables dependientes categricas. El ndice de percentiles acumulados se calcula como: (porcentaje de respuestas acumuladas en el percentil / porcentaje respestas totales) x 100. Se genera un grfico separado para cada categora objetivo, y las categoras objetivo deben estar definidas.

El grfico de ndices representa los mismos valores que se muestran en la columna ndice en la tabla de ganancias para los percentiles.

42 Captulo 1 Figura 1-28 Tabla de ganancias para los percentiles y grfico de ndices

Media. Grfico de lneas de los valores de las medias en los percentiles acumulados

para la variable dependiente. Disponible slo para variables dependientes de escala.


Beneficio promedio. Grfico de lneas del beneficio promedio acumulado. Disponible slo para variables dependientes categricas con beneficios definidos. Si desea obtener ms informacin, consulte Beneficios en p. 23.

El grfico de los beneficios promedios representa los mismos valores que se muestran en la columna Beneficio en la tabla de resumen de ganancias para los percentiles.

43 Creacin de rboles de clasificacin Figura 1-29 Tabla de resumen de ganancias para los percentiles y grfico de beneficio medio

Retorno de la inversin (ROI). Grfico de lneas de ROI (retorno de la inversin)

acumulado. ROI se calcula como la relacin entre los beneficios y los gastos. Disponible slo para variables dependientes categricas con beneficios definidos. El grfico de ROI representa los mismos valores que se muestran en la columna ROI en la tabla de resumen de ganancias para los percentiles.

44 Captulo 1 Figura 1-30 Tabla de resumen de ganancias para los percentiles y grfico de ROI

Incremento del percentil. Para todos los grficos de percentiles, este ajuste controla los

incrementos de los percentiles que se muestran en el grfico: 1, 2, 5, 10, 20 o 25.

45 Creacin de rboles de clasificacin

Reglas de seleccin y puntuacin


Figura 1-31 Cuadro de dilogo Resultados, pestaa Reglas

La pestaa Reglas ofrece la capacidad de generar reglas de seleccin o clasificacin/prediccin en forma de sintaxis de comandos de SPSS, SQL o slo texto (ingls sin formato). Estas reglas se pueden visualizar en el Visor y/o guardar en un archivo externo.
Sintaxis. Controla la forma de las reglas de seleccin en los resultados que se

muestran en el Visor y de las reglas de seleccin almacenadas en un archivo externo.


!

SPSS. Lenguaje de comandos de SPSS. Las reglas se expresan como un conjunto

de comandos que definen una condicin de filtrado que permite la seleccin de subconjuntos de casos o como instrucciones COMPUTE que se pueden utilizar para asignar puntuaciones a los casos.

46 Captulo 1 !

SQL. Las reglas SQL estndar se generan para seleccionar o extraer registros de

una base de datos, o para asignar valores a dichos registros. Las reglas SQL generadas no incluyen nombres de tablas ni ninguna otra informacin sobre fuentes de datos.
!

Slo texto. Pseudocdigo en ingls sin formato. Las reglas se expresan como un

conjunto de instrucciones lgicas if...then que describen las clasificaciones o predicciones del modelo para cada nodo. Las reglas expresadas en esta forma pueden utilizar etiquetas de variable y de valor definidas o nombres de variables y valores de datos.
Tipo. Para las reglas de SPSS y SQL, controla el tipo de reglas generadas: reglas de seleccin o puntuacin.
!

Seleccionar casos. Las reglas se pueden utilizar para seleccionar aquellos casos

que cumplan los criterios de pertenencia al nodo. Para las reglas de SPSS y SQL, se genera una nica regla para seleccionar todos los casos que cumplan los criterios de seleccin.
!

Asignar valores a los casos. Las reglas se pueden utilizar para asignar las

predicciones del modelo a los casos que cumplan los criterios de pertenencia al nodo. Se genera una regla independiente para cada nodo que cumple los criterios de pertenencia.
Incluir sustitutos en las reglas de SPSS y SQL. Para CRT y QUEST, puede incluir predictores sustitutos del modelo en las reglas. Es conveniente tener en cuenta que las reglas que incluyen sustitutos pueden ser bastante complejas. En general, si slo desea derivar informacin conceptual sobre el rbol, excluya a los sustitutos. Si algunos casos tienen datos de variables (predictoras) independientes incompletas y desea reglas que imiten a su rbol, entonces deber incluir a los sustitutos. Si desea obtener ms informacin, consulte Sustitutos en p. 20. Nodos. Controla el mbito de las reglas generadas. Se genera una regla distinta para cada nodo incluido en el mbito.
! !

Todos los nodos terminales. Genera reglas para cada nodo terminal. Mejores nodos terminales. Genera reglas para los n nodos terminales superiores

segn los valores de ndice. Si la cifra supera el nmero de nodos terminales del rbol, se generan reglas para todos los nodos terminales. (Consulte la siguiente nota.)

47 Creacin de rboles de clasificacin !

Mejores nodos terminales hasta un porcentaje de casos especificado. Genera reglas

para nodos terminales para el porcentaje n de casos superiores segn los valores de ndice. (Consulte la siguiente nota.)
!

Nodos terminales cuyo valor del ndice alcanza o excede un valor de corte. Genera

reglas para todos los nodos terminales con un valor de ndice mayor o igual que el valor especificado. Un valor de ndice mayor que 100 significa que el porcentaje de casos en la categora objetivo en dicho nodo supera el porcentaje del nodo raz. (Consulte la siguiente nota.)
!

Todos los nodos. Genera reglas para todos los nodos.

Nota 1: La seleccin de nodos basada en los valores de ndice slo est disponible para las variables dependientes categricas con categoras objetivo definidas. Si ha especificado varias categoras objetivo, se generar un conjunto separado de reglas para cada una de las categoras objetivo. Nota 2: En el caso de reglas de SPSS y SQL para la seleccin de casos (no reglas para la asignacin de valores), Todos los nodos y Todos los nodos terminales generarn de forma eficaz una regla que seleccione todos los casos utilizados en el anlisis.
Exportar reglas a un archivo. Guarda las reglas en un archivo de texto externo.

Tambin se pueden generar y guardar, de forma interactiva, reglas de seleccin o puntuacin, basadas en los nodos seleccionados en el modelo del rbol final. Si desea obtener ms informacin, consulte Reglas de seleccin de casos y puntuacin en Captulo 2 en p. 59. Nota: si aplica reglas con el formato de sintaxis de comandos de SPSS a otro archivo de datos, dicho archivo deber contener variables con los mismos nombres que las variables independientes incluidas en el modelo final, medidas con la misma mtrica y con los mismos valores definidos como perdidos por el usuario (si hubiera).

Captulo

Editor del rbol

Con el Editor del rbol es posible:


! ! ! ! ! ! !

Ocultar y mostrar ramas seleccionadas del rbol. Controlar la presentacin del contenido de los nodos, los estadsticos que se muestran en las divisiones de los nodos y otra informacin. Cambiar los colores de los nodos, fondos, bordes, grficos y fuentes. Cambiar el estilo y el tamao de la fuente. Cambiar la alineacin de los rboles. Seleccionar subconjuntos de casos para realizar anlisis ms detallados basados en los nodos seleccionados. Crear y guardar reglas para la seleccin y puntuacin de casos basadas en los nodos seleccionados.

Para editar un modelo de rbol:


E Pulse dos veces en el modelo del rbol en la ventana del Visor.

o
E En la ventana del Visor, pulse con el botn derecho del ratn en el modelo del rbol y,

en el men contextual, seleccione:


Objeto de rbol de SPSS Abrir

49

50 Captulo 2

Ocultacin y presentacin de nodos

Para ocultar, contraer, todos los nodos filiales en una rama por debajo de un nodo parental:
E Pulse en el signo menos () de la pequea casilla situada debajo de la esquina derecha

inferior del nodo parental. Se ocultarn todos los nodos de esa rama situados por debajo del nodo parental. Para mostrar, expandir, los nodos filiales en una rama por debajo de un nodo parental:
E Pulse en el signo ms (+) de la pequea casilla situada debajo de la esquina derecha

inferior del nodo parental. Nota: ocultar los nodos filiales que hay en una rama no es lo mismo que podar un rbol. Si desea un rbol podado, deber solicitar la poda antes de crear el rbol y las ramas podadas no se incluirn en el rbol final. Si desea obtener ms informacin, consulte Poda de rboles en Captulo 1 en p. 19.
Figura 2-1 rbol expandido y contrado

51 Editor del rbol

Seleccin de varios nodos

Utilizando como base los nodos seleccionados actualmente, es posible seleccionar casos, generar reglas de puntuacin y de seleccin, as como realizar otras acciones. Para seleccionar varios nodos:
E Pulse en un nodo que desee seleccionar. E Mientras mantiene pulsada Ctrl pulse con el ratn en los dems nodos que desee

aadir a la seleccin. Puede realizar una seleccin mltiple de nodos hermanos y/o de nodos parentales en una rama, y de nodos filiales en otra rama. Sin embargo, no podr utilizar la seleccin mltiple en un nodo parental y en un nodo filial/descendiente de la misma rama del nodo.

Trabajo con rboles grandes


En ocasiones, los modelos de rbol pueden contener tantos nodos y ramas que resulta difcil o imposible ver todo el rbol a tamao completo. Para ello existen ciertas funciones que le sern de utilidad a la hora de trabajar con rboles grandes:
!

Mapa del rbol. Puede utilizar el mapa del rbol, que es una versin ms pequea

y simplificada del rbol, para desplazarse por l y seleccionar nodos. Si desea obtener ms informacin, consulte Mapa del rbol en p. 52.
!

Escalamiento. Puede acercarse o alejarse cambiando el porcentaje de escala

para la presentacin del rbol. Si desea obtener ms informacin, consulte Escalamiento de la presentacin del rbol en p. 53.
!

Presentacin de nodos y ramas. Puede hacer que la presentacin de un rbol sea

ms compacta mostrando slo tablas o slo grficos en los nodos, o desactivando la visualizacin de las etiquetas de los nodos o la informacin de las variables independientes. Si desea obtener ms informacin, consulte Control de la informacin que se muestra en el rbol en p. 55.

52 Captulo 2

Mapa del rbol


El mapa del rbol proporciona una vista compacta y simplificada del rbol que puede utilizar para desplazarse por el rbol y seleccionar nodos. Para utilizar la ventana del mapa del rbol:
E En los mens del Editor del rbol, seleccione: Ver Mapa del rbol Figura 2-2 Ventana del mapa del rbol

! !

El nodo seleccionado actualmente aparece resaltado tanto en el Editor del modelo del rbol como en la ventana del mapa del rbol. La parte del rbol que se ve actualmente en el rea de presentacin del Editor del modelo del rbol aparece indicada con un rectngulo rojo en el mapa del rbol. Pulse con el botn derecho en el rectngulo y arrstrelo para cambiar la seccin del rbol que se muestra en el rea de presentacin. Si selecciona un nodo en el mapa del rbol que no aparece actualmente en el rea de presentacin del Editor del rbol, la vista cambiar para incluir el nodo seleccionado. La seleccin de varios nodos en el mapa del rbol funciona de la misma manera que en el Editor del rbol: Mantenga pulsada la tecla Ctrl al mismo tiempo que pulsa el botn del ratn para seleccionar varios nodos. No podr utilizar la seleccin mltiple en un nodo parental y en un nodo filial/descendiente de la misma rama del nodo.

53 Editor del rbol

Escalamiento de la presentacin del rbol


Por defecto, los rboles se escalan de forma automtica para ajustarse a la ventana del Visor, lo que puede dar como resultado que, inicialmente, algunos rboles sean difciles de leer. Puede seleccionar un ajuste de escala predefinida o introducir su propio valor de escala entre el 5% y el 200%. Para cambiar la escala del rbol:
E Seleccione un porcentaje de escala de la lista desplegable situada en la barra de

herramientas o introduzca un valor de porcentaje personalizado. o


E En los mens del Editor del rbol, seleccione: Ver Escala... Figura 2-3 Cuadro de dilogo Escala

Tambin puede especificar un valor de escala antes de crear el modelo del rbol. Si desea obtener ms informacin, consulte Resultados en Captulo 1 en p. 31.

54 Captulo 2

Ventana de resumen de nodos


La ventana de resumen de nodos proporciona una vista de mayor tamao de los nodos seleccionados. Tambin puede utilizar la ventana de resumen para ver, aplicar o guardar las reglas de seleccin o de puntuacin basadas en los nodos seleccionados.
! !

Utilice el men Ver de la ventana de resumen de nodos para cambiar entre las vistas de tabla, grfico o reglas de resumen. Utilice el men Reglas de la ventana de resumen de nodos para seleccionar el tipo de reglas que desea ver. Si desea obtener ms informacin, consulte Reglas de seleccin de casos y puntuacin en p. 59. Todas las vistas de la ventana de resumen de nodos reflejan un resumen combinado para todos los nodos seleccionados.

Para utilizar la ventana de resumen de nodos:


E Seleccione los nodos en el Editor del rbol. Mantenga pulsada la tecla Ctrl al mismo

tiempo que pulsa el botn del ratn para seleccionar varios nodos.
E Elija en los mens: Ver Resumen

55 Editor del rbol Figura 2-4 rbol con grficos en nodos y tabla para nodo seleccionado en la ventana de resumen

Control de la informacin que se muestra en el rbol


El men Opciones del Editor del rbol le permite controlar la presentacin del contenido de los nodos, estadsticos y nombres de las variables (predictoras) independientes, definiciones de nodos y otros valores de configuracin. Muchos de estos ajustes tambin se pueden controlar desde la barra de herramientas.
Configuracin Resaltar categora pronosticada (variable dependiente categrica) Tablas y/o grficos en el nodo Seleccin en el men Opciones Resaltar pronosticada Contenidos de los nodos

56 Captulo 2

Configuracin Valores de la prueba de significacin y valores p Nombres de las variables (predictoras) independientes Valor(es) independientes (predictores) para nodos Alineacin (arriba-abajo, izquierda-derecha, derecha-izquierda) Leyenda del grfico
Figura 2-5 Elementos del rbol

Seleccin en el men Opciones Estadsticos de las variables independientes Variables independientes Definiciones de los nodos Orientacin Leyenda

Modificacin de las fuentes de texto y los colores del rbol


En los rboles, se pueden modificar los siguientes colores:
! ! ! ! !

Color del borde, del fondo y del texto de los nodos Color de las ramas y del texto de las ramas Color del fondo del rbol Color de resalte de las categoras pronosticadas (variables dependientes categricas) Colores de los grficos de los nodos

57 Editor del rbol

Asimismo, se puede modificar el tipo, estilo y tamao de las fuentes de todo el texto del rbol. Nota: no se puede cambiar el color o los atributos de fuente para nodos o ramas individuales. Los cambios de color se aplican a todos los elementos del mismo tipo, y los cambios de fuente (que no sean el cambio de color) se aplican a todos los elementos del grfico. Para modificar los colores y los atributos de la fuente de texto
E Utilice la barra de herramientas para cambiar los atributos de fuente para todo el

rbol o los colores para los distintos elementos de dicho rbol. (Las pistas para las herramientas describen todos los controles de la barra de herramientas cuando se sita el puntero del ratn sobre ellos.) o
E Pulse dos veces en cualquier lugar del Editor del rbol para abrir la ventana

Propiedades, o, en los mens, seleccione:


Ver Propiedades E Para el borde, rama, fondo de los nodos, categora pronosticada, y fondo del rbol, pulse en la pestaa Color. E Para los colores y atributos de fuente, pulse en la pestaa Texto. E Para los colores de los grficos de los nodos, pulse en la pestaa Grficos de nodos.

58 Captulo 2 Figura 2-6 Ventana Propiedades, pestaa Color

Figura 2-7 Ventana Propiedades, pestaa Texto

59 Editor del rbol Figura 2-8 Ventana Propiedades, pestaa Grficos de nodos

Reglas de seleccin de casos y puntuacin


Puede utilizar el Editor del rbol para:
! !

Seleccionar subconjuntos de casos basados en los nodos seleccionados. Si desea obtener ms informacin, consulte Filtrado de casos en p. 60. Generar reglas de seleccin de casos o reglas de puntuacin en formato de SPSS o SQL. Si desea obtener ms informacin, consulte Almacenamiento de las reglas de seleccin y puntuacin en p. 60.

Tambin puede guardar de forma automtica reglas basadas en distintos criterios cuando ejecute el procedimiento rbol de clasificacin para crear el modelo del rbol. Si desea obtener ms informacin, consulte Reglas de seleccin y puntuacin en Captulo 1 en p. 45.

60 Captulo 2

Filtrado de casos
Si desea obtener ms informacin sobre los casos de un determinado nodo o de un grupo de nodos, puede seleccionar un subconjunto de casos para realizar un anlisis ms detallado en los nodos seleccionados.
E Seleccione los nodos en el Editor del rbol. Mantenga pulsada la tecla Ctrl al mismo

tiempo que pulsa el botn del ratn para seleccionar varios nodos.
E Elija en los mens: Reglas Filtrar casos... E Introduzca un nombre de variable de filtro. Los casos de los nodos seleccionados

recibirn un valor igual a 1 para esta variable. Todos los dems casos recibirn un valor igual a 0 y se excluirn del anlisis subsiguiente hasta que se modifique el estado del filtro.
E Pulse en Aceptar. Figura 2-9 Cuadro de dilogo Filtrar casos

Almacenamiento de las reglas de seleccin y puntuacin


Puede guardar las reglas de seleccin de casos y puntuacin en un archivo externo y, a continuacin, aplicar dichas reglas a otra fuente de datos. Las reglas estn basadas en los nodos seleccionados en el Editor del rbol.
Sintaxis. Controla la forma de las reglas de seleccin en los resultados que se

muestran en el Visor y en las reglas de seleccin almacenadas en un archivo externo.

61 Editor del rbol !

SPSS. Lenguaje de comandos de SPSS. Las reglas se expresan como un conjunto

de comandos que definen una condicin de filtrado que permite la seleccin de subconjuntos de casos o como instrucciones COMPUTE que se pueden utilizar para asignar puntuaciones a los casos.
!

SQL. Las reglas SQL estndar se generan para seleccionar o extraer registros de

una base de datos, o para asignar valores a dichos registros. Las reglas SQL generadas no incluyen nombres de tablas ni ninguna otra informacin sobre fuentes de datos.
Tipo. Puede crear reglas de seleccin o de puntuacin.
!

Seleccionar casos. Las reglas se pueden utilizar para seleccionar aquellos casos

que cumplan los criterios de pertenencia al nodo. Para las reglas de SPSS y SQL, se genera una nica regla para seleccionar todos los casos que cumplan los criterios de seleccin.
!

Asignar valores a los casos. Las reglas se pueden utilizar para asignar las

predicciones del modelo a los casos que cumplan los criterios de pertenencia al nodo. Se genera una regla independiente para cada nodo que cumple los criterios de pertenencia.
Incluir sustitutos. Para CRT y QUEST, puede incluir predictores sustitutos del modelo

en las reglas. Es conveniente tener en cuenta que las reglas que incluyen sustitutos pueden ser bastante complejas. En general, si slo desea derivar informacin conceptual sobre el rbol, excluya a los sustitutos. Si algunos casos tienen datos de variables (predictoras) independientes incompletas y desea reglas que imiten a su rbol, entonces deber incluir a los sustitutos. Si desea obtener ms informacin, consulte Sustitutos en Captulo 1 en p. 20. Para guardar reglas de seleccin de casos o puntuacin:
E Seleccione los nodos en el Editor del rbol. Mantenga pulsada la tecla Ctrl al mismo

tiempo que pulsa el botn del ratn para seleccionar varios nodos.
E Elija en los mens: Reglas Exportar... E Seleccione el tipo de reglas que desea e introduzca un nombre de archivo.

62 Captulo 2 Figura 2-10 Cuadro de dilogo Exportar reglas

Nota: si aplica reglas con el formato de sintaxis de comandos de SPSS a otro archivo de datos, dicho archivo deber contener variables con los mismos nombres que las variables independientes incluidas en el modelo final, medidas con la misma mtrica y con los mismos valores definidos como perdidos por el usuario (si hubiera).

Captulo

Requisitos y supuestos de los datos

El procedimiento rbol de clasificacin supone que:


! !

Se ha asignado el nivel de medida adecuado a todas las variables del anlisis. En el caso de variables dependientes categricas (nominales, ordinales), se han definido etiquetas de valor para todas las categoras que se deben incluir en el anlisis.

Utilizaremos el archivo tree_textdata.sav para ilustrar la importancia de estos dos requisitos. Este archivo de datos refleja el estado por defecto de los datos ledos o introducidos en SPSS antes de definir ningn atributo, como el nivel de medida o las etiquetas de valor.

Efectos del nivel de medida en los modelos de rbol


Las dos variables de este archivo de datos son numricas. Por defecto, se supone que las variables numricas tienen un nivel de medida de escala. Pero, como veremos ms adelante, ambas variables son en realidad variables categricas que utilizan cdigos numricos para indicar valores de categora.
E Para ejecutar un anlisis de rbol de clasificacin, elija en los mens: Analizar Clasificar rbol...

63

64 Captulo 3

Los iconos situados junto a las dos variables en la lista de variables de origen indican que se ambas se tratarn como variables de escala.
Figura 3-1 Cuadro de dilogo principal rbol de clasificacin con dos variables de escala

E Seleccione dependiente como la variable dependiente. E Seleccione independiente como la variable independiente. E Pulse en Aceptar para ejecutar el procedimiento. E Vuelva a abrir el cuadro de dilogo rbol de clasificacin y pulse en Restablecer. E Pulse con el botn derecho en dependiente en la lista de origen y, en el men contextual, seleccione Nominal. E Realice los mismos pasos para la variable independiente en la lista de origen.

65 Requisitos y supuestos de los datos

Ahora los iconos situados junto a cada variable indican que sern tratadas como variables nominales.
Figura 3-2 Iconos nominales en la lista de origen

E Seleccione dependiente como variable dependiente e independiente como variable independiente y pulse en Aceptar para ejecutar el procedimiento.

66 Captulo 3

Comparemos los dos rboles. Primero estudiaremos el rbol en el que las dos variables numricas se han tratado como variables de escala.
Figura 3-3 rbol con las dos variables tratadas como variables de escala

Cada nodo del rbol muestra el valor pronosticado, que es el valor de la media de la variable dependiente en dicho nodo. Para una variable que es en realidad categrica, puede que la media no sea un estadstico significativo. El rbol tiene cuatro nodos filiales, uno para cada valor de la variable independiente.

Los modelos de rbol fundirn a menudo nodos similares, pero para una variable de escala, slo se pueden fundir valores contiguos. En este ejemplo, no hay valores contiguos que se hayan considerado lo suficientemente similares como para fundir nodos entre s.

67 Requisitos y supuestos de los datos

El rbol en el que se ha tratado a las dos variables como nominales es algo distinto en varios aspectos.
Figura 3-4 rbol con las dos variables tratadas como nominales

En lugar de un valor pronosticado, cada nodo contiene una tabla de frecuencias que muestra el nmero de casos (frecuencia y porcentaje) para cada categora de la variable dependiente. La categora pronosticada, que es la categora con el mayor valor de frecuencia en cada nodo, aparece resaltada. Por ejemplo, la categora pronosticada para el nodo 2 es la categora 3. En lugar de cuatro nodos filiales, slo hay tres, con dos valores de la variable independiente fundidos en un nico nodo.

Los dos valores independientes fundidos en el mismo nodo son el 1 y el 4. Ya que, por definicin, no hay ningn orden inherente a los valores nominales, se permite la fusin de valores aunque estos no sean contiguos.

68 Captulo 3

Asignacin permanente del nivel de medida


Cuando se modifica el nivel de medida para una variable en el cuadro de dilogo rbol de clasificacin, el cambio es slo temporal; y no se almacenar con el archivo de datos. Es ms, es posible que no siempre sepa cul es el nivel de medida correcto para todas las variables. La opcin Definir propiedades de variables puede ayudarle a determinar el nivel de medida correcto para cada variable y modificar, de forma permanente, el nivel de medida asignado. Para utilizar la opcin Definir propiedades de variables:
E Elija en los mens: Datos Definir propiedades de variables...

Efectos de las etiquetas de valor en los modelos de rbol


La interfaz del cuadro de dilogo rbol de clasificacin supone que o todos los valores no perdidos de una variable dependiente categrica (nominal, ordinal) tienen etiquetas de valor definidas o ninguno de ellos las tienen. Algunas caractersticas no estarn disponibles a menos que dos valores como mnimo de la variable dependiente categrica tengan etiquetas de valor. Si al menos dos valores no perdidos tienen etiquetas de valor definidas, todos los dems casos con otros valores que no tengan etiquetas de valor se excluirn del anlisis. El archivo de datos original de este ejemplo no contiene ninguna etiqueta de valor definida y, cuando la variable dependiente se trata como nominal, el modelo de rbol utiliza todos los valores no perdidos en el anlisis. En este ejemplo, dichos valores son 1, 2 y 3. Pero, qu sucede si definimos etiquetas de valor para algunos, aunque no todos, valores de la variable dependiente?
E En la ventana del Editor de datos, pulse en la pestaa Vista de variables. E Pulse en la casilla Valores para la variable dependiente.

69 Requisitos y supuestos de los datos Figura 3-5 Definicin de etiquetas de valor para la variable dependiente

E Primero, introduzca 1 para Valor y S para Etiqueta de valor y, a continuacin, pulse en Aadir. E A continuacin, introduzca 2 para Valor y No para Etiqueta de valor y, a continuacin, vuelva a pulsar en Aadir. E A continuacin, pulse en Aceptar. E Vuelva a abrir el cuadro de dilogo rbol de clasificacin. En el cuadro de dilogo

an debe aparecer seleccionada dependiente como la variable dependiente, con un nivel de medida nominal.
E Pulse en Aceptar para volver a ejecutar el procedimiento.

70 Captulo 3 Figura 3-6 rbol para la variable dependiente nominal con etiquetas de valor parciales

Ahora slo se incluirn en el modelo de rbol los dos valores de la variable dependiente con etiquetas de valor definidas. Se han excluido todos los casos con un valor igual a 3 para la variable dependiente, lo que podra no apreciarse con facilidad si no se est familiarizado con los datos.

Asignacin de etiquetas de valor a todos los valores


Para evitar la omisin accidental del anlisis de valores categricos vlidos, utilice la opcin Definir propiedades de variables para asignar etiquetas de valor a todos los valores de la variable dependiente encontrados en los datos.

71 Requisitos y supuestos de los datos

Cuando aparezca la informacin del diccionario de datos para la variable nombre en el cuadro de dilogo Definir propiedades de variables, se observa que aunque hay unos 300 casos con valor igual a 3 para dicha variable, no se ha definido ninguna etiqueta de valor para dicho valor.
Figura 3-7 Variable con etiquetas de valor parciales en el cuadro de dilogo Definir propiedades de variables

Captulo

Utilizacin de rboles de clasificacin para evaluar riesgos de crdito

Los bancos mantienen una base de datos con informacin histrica sobre los clientes a los que el banco ha concedido prstamos, incluido si han o no reintegrado o causado mora en el pago de dichos prstamos. La utilizacin de rboles de clasificacin permite analizar las caractersticas de los dos grupos de clientes y generar modelos para pronosticar la verosimilitud de que los solicitantes de prstamos causen mora en el pago de los mismos. Los datos de los crditos se almacenan en tree_credit.sav.

Creacin del modelo


El procedimiento rbol de clasificacin ofrece varios mtodos diferentes para crear modelos de rboles. Para este ejemplo, utilizaremos el mtodo por defecto:
CHAID. Deteccin automtica de interacciones mediante chi-cuadrado (CHi-square

Automatic Interaction Detection). En cada paso, CHAID elige la variable independiente (predictora) que presenta la interaccin ms fuerte con la variable dependiente. Las categoras de cada predictor se funden si no son significativamente distintas respecto a la variable dependiente.

73

74 Captulo 4

Creacin del modelo de rbol CHAID


E Para ejecutar un anlisis de rbol de clasificacin, elija en los mens: Analizar Clasificar rbol... Figura 4-1 Cuadro de dilogo rbol de clasificacin

E Seleccione Valoracin de crdito como la variable dependiente. E Seleccione las restantes variables como variables independientes. (El procedimiento

excluir de forma automtica cualquier variable cuya contribucin al modelo final no sea significativa.) En este momento ya se puede ejecutar el procedimiento y generar un modelo de rbol bsico, pero vamos a seleccionar algunos resultados adicionales y realizar algunos pequeos ajustes a los criterios utilizados para generar el modelo.

75 Utilizacin de rboles de clasificacin para evaluar riesgos de crdito

Seleccin de categoras objetivo


E Pulse en el botn Categoras situado debajo de la variable dependiente seleccionada.

Se abrir el cuadro de dilogo Categoras, en el que se pueden especificar las categoras objetivo de inters de la variable dependiente. Hay que tener en cuenta que si bien las categoras objetivo no afectan al modelo del rbol propiamente dicho, algunos resultados y opciones slo estarn disponibles si se han seleccionado categoras objetivo.
Figura 4-2 Cuadro de dilogo Categoras

E Seleccione (marque) las casillas de verificacin Objetivo para la categora Negativa.

Los clientes con una valoracin del crdito negativa (que han causado mora en un prstamo) se tratarn como la categora objetivo de inters.
E Pulse en Continuar.

76 Captulo 4

Especificacin de los criterios de crecimiento del rbol


Para este ejemplo, deseamos que el rbol sea lo ms sencillo posible, as que limitaremos el crecimiento del rbol elevando el nmero de casos mnimo para nodos parentales y filiales.
E En el cuadro de dilogo rbol de clasificacin, pulse en Criterios. Figura 4-3 Cuadro de dilogo Criterios, pestaa Lmites de crecimiento

E En el grupo Nmero de casos mnimo, escriba 400 para Nodo parental y 200 para

Nodo filial.
E Pulse en Continuar.

Seleccin de resultados adicionales


E En el cuadro de dilogo rbol de clasificacin, pulse en Resultados.

77 Utilizacin de rboles de clasificacin para evaluar riesgos de crdito

Se abrir un cuadro de dilogo con pestaas, en el que podr seleccionar distintos tipos de resultados adicionales.
Figura 4-4 Cuadro de dilogo Resultados, pestaa rbol

E En la pestaa rbol, seleccione (marque) rbol en formato de tabla. E A continuacin, pulse en la pestaa Grficos.

78 Captulo 4 Figura 4-5 Cuadro de dilogo Resultados, pestaa Grficos

E Seleccione (marque) Ganancia e ndice.

Nota: estos grficos requieren una categora objetivo para la variable dependiente. En este ejemplo slo se podr acceder a la pestaa Grficos cuando se hayan seleccionado una o ms categoras objetivo.
E Pulse en Continuar.

79 Utilizacin de rboles de clasificacin para evaluar riesgos de crdito

Almacenamiento de los valores pronosticados


Es posible guardar las variables que contienen informacin sobre los pronsticos del modelo. Por ejemplo, puede guardar la valoracin de crdito pronosticada para cada caso y, a continuacin, comparar dichos pronsticos con las valoraciones de crdito reales.
E En el cuadro de dilogo principal rbol de clasificacin, pulse en Guardar. Figura 4-6 Cuadro de dilogo Guardar

E Seleccione (marque) Nmero del nodo terminal, Valor pronosticado y Probabilidades pronosticadas. E Pulse en Continuar. E En el cuadro de dilogo principal rbol de clasificacin, pulse en Aceptar para

ejecutar el procedimiento.

80 Captulo 4

Evaluacin del modelo


Para este ejemplo, los resultados del modelo incluyen:
! ! ! !

Tablas que proporcionan informacin acerca del modelo. Diagrama del rbol. Grficos que ofrecen una indicacin sobre el rendimiento del modelo. Las variables de prediccin del modelo aadidas al archivo de datos de trabajo.

Tabla de resumen del modelo


Figura 4-7 Resumen del modelo

La tabla de resumen del modelo proporciona cierta informacin muy general sobre las especificaciones utilizadas para crear el modelo y sobre el modelo resultante.
!

La seccin Especificaciones ofrece informacin sobre los valores de configuracin utilizados para generar el modelo de rbol, incluidas las variables utilizadas en el anlisis. La seccin Resultados muestra informacin sobre el nmero de nodos totales y terminales, la profundidad del rbol (nmero de niveles por debajo del nodo raz) y las variables independientes incluidas en el modelo final.

81 Utilizacin de rboles de clasificacin para evaluar riesgos de crdito

Se han especificado cinco variables independientes, pero slo se han incluido tres en el modelo final. Las variables para estudios y nmero actual de prstamos para coches no contribuyen de forma significativa al modelo, por lo que se eliminarn automticamente del modelo final.

82 Captulo 4

Diagrama del rbol


Figura 4-8 Diagrama del rbol para el modelo de valoracin de crditos

El diagrama del rbol es una representacin grfica del modelo del rbol. Este diagrama del rbol muestra que:
!

Si se utiliza el mtodo CHAID, nivel de ingresos es el mejor predictor para valoracin de crdito.

83 Utilizacin de rboles de clasificacin para evaluar riesgos de crdito !

Para la categora de ingresos bajos, nivel de ingresos es el nico predictor significativo para valoracin de crdito. De todos los clientes del banco que pertenecen a esta categora, el 82% ha causado mora en los crditos. Como no hay ningn nodo filial por debajo de l, se considera un nodo terminal. Para las categoras de ingresos medios y altos, el siguiente mejor predictor es nmero de tarjetas de crdito. Para clientes con ingresos medios con cinco o ms tarjetas de crdito, el modelo incluye un predictor ms: edad. Cerca del 80% de dichos clientes con 28 o menos aos tienen una valoracin de crdito negativa, mientras que poco menos de la mitad de los clientes con ms de 28 aos tienen ese tipo de valoracin.

! !

Se puede utilizar el Editor del rbol para ocultar o mostrar ramas seleccionadas, cambiar el color y las fuentes, y seleccionar subconjuntos de casos basados en nodos seleccionados. Si desea obtener ms informacin, consulte Seleccin de casos en nodos en p. 90.

Tabla del rbol


Figura 4-9 Tabla del rbol para la valoracin de crditos

84 Captulo 4

La tabla del rbol, como su nombre indica, proporciona la mayor parte de la informacin esencial sobre el diagrama del rbol en forma de tabla. Para cada nodo, la tabla muestra:
! !

El nmero y porcentaje de casos dentro de cada categora de la variable dependiente. La categora pronosticada para la variable dependiente. En este ejemplo, la categora pronosticada es la categora valoracin del crdito, con ms del 50% de los casos en ese nodo, ya que slo hay dos valoraciones de crdito posibles. El nodo parental para cada nodo del rbol. Observe que el nodo 1, el nodo de nivel de ingresos bajos, no es el nodo parental de ningn nodo. Como es un nodo terminal, no tiene ningn nodo filial.

Figura 4-10 Tabla del rbol para la valoracin de crditos (continuacin)

! !

Variable independiente utilizada para dividir el nodo. El valor de chi-cuadrado (ya que el rbol se gener utilizando el mtodo CHAID), grados de libertad (gl) y nivel de significacin (Sig. ) para la divisin. Para propsitos ms prcticos, es probable que slo est interesado en el nivel de significacin, que es de menos de 0,0001 para todas las divisiones de este modelo. El valor o valores de la variable independiente para dicho nodo.

Nota: para variables independientes ordinales y de escala, puede que vea rangos en el rbol y en la tabla del rbol expresados con el formato general (valor1, valor2], que bsicamente significa mayor que valor1 y menor o igual que valor2. En este ejemplo, el nivel de ingresos slo tiene tres valores posibles, Bajos, Medios y Altos,

85 Utilizacin de rboles de clasificacin para evaluar riesgos de crdito

y (Bajos, Medios] simplemente significa Medios. De manera similar, >Medios significa Altos.

Ganancias para nodos


Figura 4-11 Ganancias para nodos

La tabla de ganancias para nodos ofrece un resumen de informacin sobre los nodos terminales del modelo.
!

En esta tabla slo se muestran los nodos terminales, aquellos en los que se detiene el crecimiento del rbol. Con frecuencia, el nico inters lo suscitan los nodos terminales, ya que representan los mejores pronsticos de clasificacin para el modelo. Como los valores de ganancia proporcionan informacin sobre las categoras objetivo, esta tabla slo estar disponible si se especifican una o ms categoras objetivo. En este ejemplo, slo hay una categora objetivo, por lo que slo habr una tabla de ganancias para nodos. N del Nodo indica el nmero de casos en cada nodo terminal y Porcentaje del Nodo indica el porcentaje del nmero total de casos en cada nodo. N de Ganancia indica el nmero de casos en cada nodo terminal en la categora objetivo y Porcentaje de la Ganancia indica el porcentaje de casos en la categora objetivo con respecto al nmero global de casos en la categora objetivo; en este ejemplo, muestran el nmero y el porcentaje de casos con una valoracin de crdito negativa.

! !

86 Captulo 4 !

En el caso de variables dependientes categricas, Responde indica el porcentaje de casos en el nodo en la categora objetivo especificada. En este ejemplo, son los mismos porcentajes que se muestran en la categora Negativa en el diagrama del rbol. En el caso de variables dependientes categricas, ndice indica la razn del porcentaje de respuestas para la categora objetivo en comparacin con el porcentaje de respuestas de toda la muestra.

Valores de ndice

El valor del ndice es bsicamente una indicacin de cunto difiere el porcentaje observado de la categora objetivo para dicho nodo del porcentaje esperado para dicha categora objetivo. El porcentaje de la categora objetivo en el nodo raz representa el porcentaje esperado antes de considerar los efectos de cualquiera de las variables independientes. Un valor de ndice superior al 100% significa que hay ms casos en la categora objetivo que el porcentaje global de dicha categora objetivo. Por el contrario, un valor de ndice inferior al 100% significa que hay menos casos en la categora objetivo que el porcentaje global.

Grfico de ganancias
Figura 4-12 Grfico de ganancias para una categora objetivo de valoracin de crdito negativa

87 Utilizacin de rboles de clasificacin para evaluar riesgos de crdito

Este grfico de ganancias indica que el modelo es bastante bueno. Los grficos de ganancias acumuladas siempre comienzan en el 0% y finalizan en el 100% al ir de un extremo a otro. Si el modelo es bueno, el grfico de ganancias ir subiendo vertiginosamente hacia el 100% y, a continuacin, se estabilizar. Un modelo que no proporciona ninguna informacin seguir la lnea diagonal de referencia.

Grfico de ndice
Figura 4-13 Grfico de ndice para una categora objetivo de valoracin de crdito negativa

Este grfico de ndice indica que el modelo es bueno. Los grficos de ndices acumulados suelen comenzar por encima del 100% y descienden gradualmente hasta que alcanzan el 100%. En un buen modelo, el valor de ndice debe comenzar muy por encima del 100%, permanecer en una meseta elevada a medida que se avanza y, a continuacin, descender bruscamente hasta el 100%. Un modelo que no proporciona ninguna informacin la lnea rondar el 100% durante todo el grfico.

88 Captulo 4

Estimacin de riesgo y clasificacin


Figura 4-14 Tablas de riesgos y de clasificacin

Las tablas de riesgos y de clasificacin proporcionan una rpida evaluacin de la bondad del funcionamiento del modelo.
!

Una estimacin de riesgo de 0,205 indica que la categora pronosticada por el modelo (valoracin de crdito positiva o negativa) es errnea para el 20,5% de los casos. Por lo tanto, el riesgo de clasificar errneamente a un cliente es de aproximadamente el 21%. Los resultados en la tabla de clasificacin son coherentes con la estimacin de riesgo. La tabla muestra que el modelo clasifica de forma correcta, aproximadamente, al 79,5% de los clientes.

No obstante, la tabla de clasificacin revela un problema potencial con este modelo: Para aquellos clientes con una valoracin de crdito negativa, pronostica una valoracin negativa para slo el 65% de ellos, lo que significa que el 35% de los clientes con una valoracin de crdito negativa aparecen inapropiadamente clasificados como clientes buenos.

89 Utilizacin de rboles de clasificacin para evaluar riesgos de crdito

Valores pronosticados
Figura 4-15 Variables nuevas para valores pronosticados y probabilidades

Se han creado cuatro nuevas variables en el archivo de datos de trabajo:


IDNodo. Nmero del nodo terminal para cada caso. ValorPronosticado. Valor pronosticado de la variable dependiente para cada caso. Como la variable dependiente est codificada como 0 = Negativa y 1 = Positiva, un valor pronosticado igual a 0 significa que el pronstico del caso es una valoracin de crdito negativa. ProbabilidadPronosticada. Probabilidad de que el caso pertenezca a cada categora de la variable dependiente. Como slo hay dos valores posibles para la variable dependiente, se crean dos variables:
! !

ProbabilidadPronosticada_1. Probabilidad de que el caso pertenezca a la categora

de valoracin de crdito negativa.


ProbabilidadPronosticada_2. Probabilidad de que el caso pertenezca a la categora

de valoracin de crdito positiva. La probabilidad pronosticada es simplemente la proporcin de casos en cada categora de la variable dependiente para el nodo terminal que contiene cada caso. Por ejemplo, en el nodo 1, el 82% de los casos estn en la categora negativa y el 18% estn en

90 Captulo 4

la categora positiva, dando como resultado probabilidades pronosticadas de 0,82 y 0,18, respectivamente. En caso de una variable dependiente categrica, el valor pronosticado es la categora con la mayor proporcin de casos en el nodo terminal para cada caso. Por ejemplo, para el primer caso, el valor pronosticado es 1 (valoracin de crdito positiva) porque aproximadamente el 56% de los casos contenidos en su nodo terminal tienen una valoracin de crdito positiva. Por el contrario, para el segundo caso, el valor pronosticado es 0 (valoracin de crdito negativa) porque aproximadamente el 81% de los casos contenidos en su nodo terminal tienen una valoracin de crdito negativa. No obstante, si hay costes definidos, la relacin entre la categora pronosticada y las probabilidades pronosticadas puede que no sea tan directa. Si desea obtener ms informacin, consulte Asignacin de costes a resultados en p. 96.

Ajuste del modelo


En general, el modelo tiene una tasa de clasificacin correcta situada justo por debajo del 80%. Esto se ve reflejado en la mayora de los nodos terminales, en los que la categora pronosticada, que aparece resaltada en el nodo, es la misma que la categora real para el 80% o ms de los casos. No obstante, hay un nodo terminal en el que los casos estn uniformemente divididos entre valoraciones de crdito positivas y negativas. En el nodo 9, la valoracin del crdito pronosticada es positiva, pero slo el 56% de los casos del nodo tienen realmente una valoracin positiva. Esto significa que casi la mitad de los casos del nodo (44%) tendrn la categora pronosticada errnea. Y considerando que el principal objetivo es la identificacin de riesgos crediticios negativos, este nodo no realiza su funcin correctamente.

Seleccin de casos en nodos


Estudiemos los casos del nodo 9 para ver si los datos revelan alguna informacin adicional de utilidad.
E Pulse dos veces en el rbol en la ventana del Visor para abrir el Editor del rbol.

91 Utilizacin de rboles de clasificacin para evaluar riesgos de crdito E Pulse en el nodo 9 para seleccionarlo. (Si desea seleccionar varios nodos, mantenga

pulsada la tecla Ctrl al mismo tiempo que pulsa el botn del ratn).
E En los mens del Editor del rbol, seleccione: Reglas Filtrar casos... Figura 4-16 Cuadro de dilogo Filtrar casos

El cuadro de dilogo Filtrar casos crear una variable de filtro y aplicar un ajuste de filtrado basado en los valores de dicha variable. El nombre por defecto de una variable de filtro es filter_$.
! !

Los casos de los nodos seleccionados recibirn un valor igual a 1 para esta variable. Todos los dems casos recibirn un valor igual a 0 y se excluirn del anlisis subsiguiente hasta que se modifique el estado del filtro.

En este ejemplo, esto significa que se filtrarn (pero no se eliminarn) los casos que no estn en el nodo 9.
E Pulse en Aceptar para crear la variable de filtro y aplicar la condicin de filtrado.

92 Captulo 4 Figura 4-17 Casos filtrados en el Editor de datos

En el Editor de datos, los casos que se han filtrado se indican con una barra transversal sobre el nmero de fila. Se filtrarn todos los casos que no estn en el nodo 9. Y viceversa, no se filtrarn aquellos casos que estn en el nodo 9; por consiguiente los subsiguientes anlisis incluirn slo los casos del nodo 9.

Examen de los casos seleccionados


Como primer paso para el examen de los casos del nodo 9, podra ser interesante observar las variables que no se utilizan en este modelo. En este ejemplo, todas las variables del archivo de datos se han incluido en el anlisis, pero dos de ellas no se han incluido en el modelo final: estudios y prstamos para coches. Como seguramente existe un buen motivo para que el procedimiento las haya excluido del modelo final, es probable que no nos ofrezcan mucha informacin. A pesar de ello, vamos a observarlas.
E Elija en los mens: Analizar Estadsticos descriptivos Tablas de contingencia...

93 Utilizacin de rboles de clasificacin para evaluar riesgos de crdito Figura 4-18 Cuadro de dilogo Tablas de contingencia

E Seleccione Valoracin de crdito como la variable de fila. E Seleccione Estudios y Prstamos para coches como las variables de columna. E Pulse en Casillas.

94 Captulo 4 Figura 4-19 Cuadro de dilogo Tablas de contingencia: Mostrar en las casillas

E Seleccione (marque) Fila en el grupo Porcentajes. E A continuacin, pulse en Continuar y, en el cuadro de dilogo principal Tablas de contingencia, pulse en Aceptar para ejecutar el procedimiento.

95 Utilizacin de rboles de clasificacin para evaluar riesgos de crdito

Al examinar las tablas de contingencia, se observa que no existe una gran diferencia entre casos en las categoras de valoracin de crdito positiva y negativa para las dos variables que no se han incluido en el modelo.
Figura 4-20 Tablas de contingencia para los casos del nodo seleccionado

Para la variable estudios, un poco ms de la mitad de los casos con una valoracin de crdito negativa slo tienen estudios secundarios, mientras que un poco ms de la mitad de los casos con una valoracin de crdito positiva tienen estudios universitarios; si bien esta diferencia no es estadsticamente significativa. Para la variable prstamos para coches, el porcentaje de casos de crditos positivos con slo uno o ningn prstamo para coche es superior al porcentaje correspondiente a los casos de crditos negativos, pero la amplia mayora de casos en ambos grupos tiene uno o ms prstamos para coches.

96 Captulo 4

Por lo tanto, aunque ahora ya est claro por qu no se incluyeron estas variables en el modelo final, desafortunadamente no hemos obtenido ninguna informacin sobre cmo mejorar la prediccin para el nodo 9. Si hubiera otras variables no especificadas para el anlisis, puede que desee examinar algunas antes de continuar.

Asignacin de costes a resultados


Tal y como se ha comentado anteriormente, aparte del hecho de que casi la mitad de los casos del nodo 9 pertenecen a cada una de las categoras de valoracin de crdito, la cuestin de que la categora pronosticada sea positiva es problemtica si el objetivo principal es generar un modelo que identifique correctamente los riesgos de crdito negativos. Pese a que es posible que no se pueda mejorar el rendimiento del nodo 9, an se puede ajustar el modelo para mejorar la tasa de clasificacin correcta de los casos de valoracin de crdito negativa; aunque esto dar como resultado una mayor tasa de clasificacin errnea para los casos de valoracin de crdito positiva. Primero es necesario desactivar el filtrado de casos de manera que todos los casos se vuelvan a utilizar en el anlisis.
E Elija en los mens: Datos Seleccionar casos...

97 Utilizacin de rboles de clasificacin para evaluar riesgos de crdito E En el cuadro de dilogo Seleccionar casos, seleccione Todos los casos y, a continuacin, pulse en Aceptar. Figura 4-21 Cuadro de dilogo Seleccionar casos

E Abra el cuadro de dilogo rbol de clasificacin y pulse en Opciones.

98 Captulo 4 E Pulse en la pestaa Costes de clasificacin errnea. Figura 4-22 Cuadro de dilogo Opciones, pestaa Costes de clasificacin errnea

E Seleccione Personalizar y, para la Categora real Negativa, Categora pronosticada

Positiva, introduzca un valor de 2. Esto indica al procedimiento que el coste de clasificar errneamente un riesgo de crdito negativo como positivo es el doble de alto que el coste de clasificar errneamente un riesgo de crdito positivo como negativo.
E Pulse en Continuar y, a continuacin, pulse en Aceptar en el cuadro de dilogo

principal para ejecutar el procedimiento.

99 Utilizacin de rboles de clasificacin para evaluar riesgos de crdito Figura 4-23 Modelo del rbol con los valores de costes corregidos

A primera vista, el rbol generado por el procedimiento parece esencialmente el mismo que el rbol original. Sin embargo, una inspeccin ms detallada revela que si bien la distribucin de los casos en cada nodo no ha variado, algunas categoras pronosticadas s lo han hecho.

100 Captulo 4

En el caso de los nodos terminales, la categora pronosticada sigue siendo la misma en todos los nodos excepto en uno: el nodo 9. La categora pronosticada es ahora Negativa incluso aunque ms de la mitad de los casos estn en la categora Positiva. Como hemos indicado al procedimiento que la clasificacin errnea de los riesgos de crdito negativos como positivos tena un coste superior a la clasificacin errnea de los riesgos de crdito positivos como negativos, cualquier nodo en el que los casos estn distribuidos de una forma bastante uniforme entre las dos categoras, ahora tendr una categora pronosticada Negativa, incluso aunque una ligera mayora de casos est en la categora Positiva. Este cambio en la categora pronosticada se refleja en la tabla de clasificacin.
Figura 4-24 Tablas de riesgos y de clasificacin basadas en costes corregidos

! !

Casi el 86% de los riesgos de crdito negativos aparecen ahora correctamente clasificados, comparado con el anterior 65%. Por otra parte, la correcta clasificacin de los riesgos de crdito positivos ha disminuido del 90% al 71% y la clasificacin correcta global ha descendido del 79,5% al 77,1%.

Se observa tambin que la estimacin de riesgo y la tasa de clasificacin correcta global ya no son coherentes la una con la otra. Si la tasa de clasificacin correcta global es del 77,1%, se esperara una estimacin de riesgo de 0,229. En este ejemplo,

101 Utilizacin de rboles de clasificacin para evaluar riesgos de crdito

al aumentar el coste de clasificacin errnea para los casos de crditos negativos, se ha inflado el valor de riesgo, haciendo que su interpretacin sea ms compleja.

Resumen
Se pueden utilizar los modelos de rbol para clasificar casos en grupos identificados por ciertas caractersticas, como son las caractersticas asociadas con los clientes de los bancos con registros de crditos positivos y negativos. Si un determinado resultado pronosticado es ms importante que los dems posibles resultados, se puede ajustar el modelo para asociar un mayor coste de clasificacin errnea a dicho resultado; sin embargo, la reduccin de las tasas de clasificacin errnea para un resultado aumentar las tasas de clasificacin errnea para otros resultados.

Captulo

Creacin de un modelo de puntuacin

Una de las caractersticas ms potentes y tiles del procedimiento rbol de clasificacin es la capacidad de crear modelos que despus se pueden aplicar a otros archivos de datos para pronosticar resultados. Por ejemplo, basndonos en un archivo de datos que contenga tanto informacin demogrfica como informacin sobre precios de compra de vehculos, podemos generar un modelo que se pueda utilizar para pronosticar cunto se gastaran en la compra de un nuevo coche personas con caractersticas demogrficas similares; y, a continuacin, aplicar dicho modelo a otros archivos de datos que contengan informacin demogrfica pero no dispongan de informacin sobre adquisiciones previas de vehculos. Para este ejemplo, utilizaremos el archivo de datos rbol_coche.sav.

Creacin del modelo


E Para ejecutar un anlisis de rbol de clasificacin, elija en los mens: Analizar Clasificar rbol...

103

104 Captulo 5 Figura 5-1 Cuadro de dilogo rbol de clasificacin

E Seleccione Precio del vehculo principal como la variable dependiente. E Seleccione las restantes variables como variables independientes. (El procedimiento

excluir de forma automtica cualquier variable cuya contribucin al modelo final no sea significativa.)
E Para el mtodo de desarrollo, seleccione CRT. E Pulse en Resultados.

105 Creacin de un modelo de puntuacin Figura 5-2 Cuadro de dilogo Resultados, pestaa Reglas

E Pulse en la pestaa Reglas. E Seleccione (marque) Generar reglas de clasificacin. E Para Sintaxis, seleccione SPSS. E Para Tipo, seleccione Asignar valores a los casos. E Seleccione (marque) Exportar reglas a un archivo e introduzca un nombre de archivo y

la ubicacin del directorio. Recuerde el nombre de archivo y la ubicacin o antelos porque necesitar esta informacin ms adelante. Si no incluye una ruta de directorio, puede que no sepa dnde se ha guardado el archivo. Puede utilizar el botn Examinar para desplazarse hasta una ubicacin de directorio especfica (y vlida).

106 Captulo 5 E Pulse en Continuar y, a continuacin, pulse en Aceptar para ejecutar el procedimiento

y crear el modelo de rbol.

Evaluacin del modelo


Antes de aplicar el modelo a otros archivos de datos, probablemente desear asegurarse de que el modelo funciona razonablemente bien con los datos originales utilizados para crearlo.

Resumen del modelo


Figura 5-3 Tabla de resumen del modelo

La tabla de resumen del modelo indica que slo tres de las variables independientes seleccionadas han tenido una contribucin lo suficientemente significativa como para ser incluidas en el modelo final: ingresos, edad y estudios. Esta informacin es importante si desea aplicar este modelo a otros archivos de datos, ya que las variables independientes utilizadas en la creacin del modelo debern estar presentes en todos los archivos de datos a los que se desee aplicar el modelo. La tabla de resumen tambin indica que el propio modelo de rbol no es en particular un modelo simple ya que lo forman 29 nodos y 15 nodos terminales. Puede que este hecho no sea un problema si se desea un modelo fiable y que se pueda aplicar

107 Creacin de un modelo de puntuacin

en la prctica en lugar de un modelo sencillo que sea fcil de describir o explicar. Por supuesto, para efectos prcticos, probablemente tambin desee un modelo que no dependa de demasiadas variables (predictoras) independientes. En este caso esto no es un problema ya que slo se han incluido tres variables independientes en el modelo final.

Diagrama del modelo de rbol


Figura 5-4 Diagrama del modelo de rbol en el Editor del rbol

108 Captulo 5

El diagrama de modelo de rbol tiene tantos nodos que puede ser difcil ver el modelo en toda su extensin con un tamao en el que la informacin contenida en el nodo an sea legible. Puede utilizar el mapa del rbol para verlo completo:
E Pulse dos veces en el rbol en la ventana del Visor para abrir el Editor del rbol. E En los mens del Editor del rbol, seleccione: Ver Mapa del rbol Figura 5-5 Mapa del rbol

El mapa del rbol muestra todo el rbol. Se puede modificar el tamao de la ventana del mapa del rbol, y se ampliar o reducir la presentacin del mapa del rbol para que se ajuste al tamao de la ventana. El rea resaltada en el mapa del rbol es el rea del rbol que se muestra actualmente en el Editor del rbol. El mapa del rbol se puede utilizar para desplazarse por el rbol y seleccionar nodos.

! !

Si desea obtener ms informacin, consulte Mapa del rbol en Captulo 2 en p. 52. En el caso de variables dependientes de escala, cada nodo muestra la media y la desviacin tpica de la variable dependiente. El nodo 0 muestra una media global del precio de compra de los vehculos de cerca de 29,9 (en miles), con una desviacin tpica de cerca de 21,6.

109 Creacin de un modelo de puntuacin ! !

El nodo 1, que representa los casos con unos ingresos por debajo de los 75 (tambin en miles), tiene una media del precio de los vehculos de slo 18,7. En contraste, el nodo 2, que representa los casos con unos ingresos de 75 o ms, tiene una media del precio de los vehculos de 60,9.

Un estudio en detalle del rbol mostrara que la edad y los estudios tambin presentan una relacin con el precio de compra de los vehculos, pero en este momento estamos ms interesados en la aplicacin prctica del modelo que en un examen detallado de sus componentes.

Estimacin de riesgo
Figura 5-6 Tabla de riesgo

Ninguno de los resultados examinados hasta ahora nos indica si este es un modelo particularmente bueno. Un indicador del rendimiento del modelo es la estimacin de riesgo. En el caso de una variable dependiente de escala, la estimacin de riesgo es una medida de la varianza dentro del nodo, que por s misma no aporta mucha informacin. Una menor varianza indica un mejor modelo, pero la varianza est relacionada con la unidad de medida. Si, por ejemplo, se hubiera registrado el precio en unidades en vez de en miles, la estimacin de riesgo sera miles de veces ms grande. Para obtener una interpretacin significativa de la estimacin de riesgo con una variable dependiente de escala, es necesario realizar algunos pasos adicionales:
! !

La varianza total es igual a la varianza dentro del nodo (error) ms la varianza entre los nodos (explicada). La varianza dentro del nodo es el valor de la estimacin de riesgo: 68,485.

110 Captulo 5 !

La varianza total es la varianza para las variables dependientes antes de tener en consideracin a las variables independientes o, lo que es lo mismo, la varianza en el nodo raz. La desviacin tpica que se muestra en el nodo raz es de 21,576; por lo que la varianza total es ese valor al cuadrado: 465,524. La proporcin de la varianza debida al error (varianza no explicada) es 68,485/465,524 = 0,147. La proporcin de la varianza explicada por el modelo es 10,147 = 0,853 85,3%, lo que indica que es un modelo bastante bueno. (La interpretacin de estos valores es similar a la de la tasa de clasificacin correcta global para una variable dependiente categrica.)

! ! !

Aplicacin del modelo a otro archivo de datos


Una vez que se ha determinado que el modelo es razonablemente bueno, se puede aplicar dicho modelo a otros archivos de datos que contengan variables de edad, ingresos y estudios similares y generar una variable nueva que represente el precio de compra de vehculos pronosticado para cada caso del archivo. A menudo, se hace referencia a este proceso como puntuacin. En el momento de generar el modelo, se especific que las reglas para la asignacin de valores a los casos se guardaran en un archivo de texto, con el formato de sintaxis de comandos de SPSS. A continuacin, se utilizarn los comandos almacenados en dicho archivo para generar puntuaciones en otro archivo de datos.
E Abra el archivo de datos rbol_puntuacin_coche.sav, ubicado en la carpeta

tutorial\sample_files de la carpeta de instalacin de SPSS.


E A continuacin, en los mens de SPSS, elija: Archivo Nuevo Sintaxis E En la ventana de sintaxis de comandos, escriba: INSERT FILE= 'c:\temp\car_scores.sps'.

111 Creacin de un modelo de puntuacin

Si utiliz otro nombre de archivo o ubicacin, realice las oportunas modificaciones.


Figura 5-7 Ventana de sintaxis con el comando INSERT para ejecutar un archivo de comandos

El comando INSERT ejecutar los comandos almacenados en el archivo especificado, que es el archivo de reglas generado durante la creacin del modelo.
E En los mens de la ventana de sintaxis de comandos, seleccione: Ejecutar Todos

112 Captulo 5 Figura 5-8 Valores pronosticados aadidos al archivo de datos

Este proceso aade dos nuevas variables al archivo de datos:


! !

nod_001 contiene el nmero del nodo terminal pronosticado por el modelo para cada caso. pre_001 contiene el valor pronosticado para el precio de compra de vehculos para cada caso.

Como hemos solicitado reglas para la asignacin de valores para nodos terminales, el nmero de valores pronosticados posibles ser el mismo que el nmero de nodos terminales, que en este caso es de 15. Por ejemplo, cada caso con un nmero de nodo pronosticado de 10 tendr el mismo precio de compra de vehculos pronosticado: 30,56. Este es, y no por casualidad, el valor de la media indicado para el nodo terminal 10 en el modelo original. Aunque normalmente el modelo se aplica a datos para los que no se conoce el valor de la variable dependiente, en este ejemplo, el archivo de datos al que se aplica el modelo contiene realmente dicha informacin; por lo que se pueden comparar las predicciones del modelo con los valores reales.

113 Creacin de un modelo de puntuacin E Elija en los mens: Analizar Correlaciones Bivariadas... E Seleccione Precio del vehculo principal y pre_001. Figura 5-9 Cuadro de dilogo Correlaciones bivariadas

E Pulse en Aceptar para ejecutar el procedimiento.

114 Captulo 5 Figura 5-10 Correlacin entre el precio de los vehculos real y el precio pronosticado

La correlacin de 0,92 indica una correlacin positiva muy alta entre el precio de los vehculos real y el precio pronosticado, lo que indica que el modelo funciona correctamente.

Resumen
Se puede utilizar el procedimiento rbol de clasificacin para crear modelos que despus se pueden aplicar a otros archivos de datos para pronosticar resultados. El archivo de datos de destino deber contener variables con los mismos nombres que las variables independientes incluidas en el modelo final, medidas con la misma mtrica y con los mismos valores definidos como perdidos por el usuario (si hubiera). No obstante, no ser necesario que en el archivo de datos de destino estn presentes ni la variable dependiente ni las variables independientes excluidas del modelo final.

Captulo

Valores perdidos en modelos de rbol

Los diferentes mtodos de crecimiento tratan los valores perdidos para variables (predictoras) independientes de distintas maneras:
!

CHAID y CHAID exhaustivo tratan los valores perdidos del sistema o definidos como perdidos por el usuario para cada variable independiente como una nica categora. En el caso de variables independientes ordinales y de escala, se podr fundir dicha categora a continuacin con otras categoras de la variable independiente, dependiendo de los criterios de crecimiento. CRT y QUEST pueden utilizar sustitutos para variables (predictoras) independientes. Para los casos en que el valor de esa variable falte, se utilizarn otras variables independientes con asociaciones muy cercanas a la variable original para la clasificacin. A estas variables predictoras alternativas se les denomina sustitutos.

Este ejemplo muestra la diferencia entre CHAID y CRT cuando hay valores perdidos para variables independientes utilizadas en el modelo. Para este ejemplo, utilizaremos el archivo de datos tree_missing_data.sav. Nota: en el caso de variables independientes nominales y de variables dependientes nominales, se puede elegir tratar los valores definidos como perdidos por el usuario como valores vlidos, en cuyo caso dichos valores se tratarn como cualquier otro valor no perdido. Si desea obtener ms informacin, consulte Valores perdidos en Captulo 1 en p. 28.

115

116 Captulo 6

Valores perdidos con CHAID


Figura 6-1 Datos de crdito con valores perdidos

De la misma manera que en el ejemplo del riesgo de crdito (para obtener ms informacin, consulte Captulo 4), en este ejemplo se intentar generar un modelo para clasificar los riesgos de crdito positivos y negativos. La principal diferencia es que este archivo de datos contiene valores perdidos para algunas variables independientes utilizadas en el modelo.
E Para ejecutar un anlisis de rbol de clasificacin, elija en los mens: Analizar Clasificar rbol...

117 Valores perdidos en modelos de rbol Figura 6-2 Cuadro de dilogo rbol de clasificacin

E Seleccione Valoracin de crdito como la variable dependiente. E Seleccione todas las dems variables como variables independientes. (El

procedimiento excluir de forma automtica cualquier variable cuya contribucin al modelo final no sea significativa.)
E Para el mtodo de crecimiento, seleccione CHAID.

Para este ejemplo, deseamos que el rbol sea lo ms sencillo posible, as que limitaremos el crecimiento del rbol elevando el nmero de casos mnimo para nodos parentales y filiales.
E En el cuadro de dilogo principal rbol de clasificacin, pulse en Criterios.

118 Captulo 6 Figura 6-3 Cuadro de dilogo Criterios, pestaa Lmites de crecimiento

E En el grupo Nmero de casos mnimo, escriba 400 para Nodo parental y 200 para

Nodo filial.
E Pulse en Continuar y, a continuacin, pulse en Aceptar para ejecutar el procedimiento.

119 Valores perdidos en modelos de rbol

Resultados de CHAID
Figura 6-4 rbol CHAID con valores de variables independientes perdidos

Para el nodo 3, el valor de nivel de ingresos aparece como >Medio;<perdido>. Esto significa que el nodo contiene casos en la categora de ingresos altos adems de todos los casos con valores perdidos para nivel de ingresos. El nodo terminal 10 contiene casos con valores perdidos para nmero de tarjetas de crdito. Si est interesado en identificar riesgos de crdito positivos, ste es en realidad el segundo mejor nodo terminal, lo que puede ser problemtico si se desea utilizar este modelo para pronosticar riesgos de crdito positivos. Probablemente, no es lo ms deseable generar un modelo que pronostica una valoracin de crdito positiva sencillamente porque no se tiene ninguna informacin sobre el nmero de tarjetas de crdito que tienen los casos y, adems, es posible que alguno de dichos casos tengan informacin perdida sobre los niveles de ingresos.

120 Captulo 6 Figura 6-5 Tablas de riesgos y de clasificacin para el modelo CHAID

Las tablas de riesgos y de clasificacin indican que el modelo CHAID clasifica correctamente cerca del 75% de los casos. No es un mal porcentaje, pero tampoco es fantstico. Adems, tenemos razones para sospechar que la tasa de clasificacin correcta para los casos con valoracin de crdito positiva sea excesivamente optimista, ya que se basa en parte en el supuesto de que la falta de informacin sobre dos variables independientes (nivel de ingresos y nmero de tarjetas de crdito) es una indicacin de una valoracin de crdito positiva.

Valores perdidos con CRT


A continuacin probaremos los mismos anlisis bsicos, excepto que en esta ocasin utilizaremos CRT como mtodo de crecimiento.
E En el cuadro de dilogo principal rbol de clasificacin, para el mtodo de crecimiento, seleccione CRT. E Pulse en Criterios. E Asegrese de que el nmero de casos mnimo sigue establecido en 400 para los nodos

parentales y en 200 para los nodos filiales.

121 Valores perdidos en modelos de rbol E Pulse en la pestaa Sustitutos.

Nota: la pestaa Sustitutos no ser visible a menos que haya seleccionado CRT o QUEST como mtodo de crecimiento.
Figura 6-6 Cuadro de dilogo Criterios, pestaa Sustitutos

Para cada una de las divisiones de los nodos de las variables independientes, el ajuste Automtico considerar todas las dems variables independientes del modelo como posibles sustitutos. Como en este ejemplo no hay muchas variables independientes, el ajuste Automtico es adecuado.
E Pulse en Continuar. E En el cuadro de dilogo rbol de clasificacin, pulse en Resultados.

122 Captulo 6 Figura 6-7 Cuadro de dilogo Resultados, pestaa Estadsticos

E Pulse en la pestaa Estadsticos. E Seleccione Sustitutos por divisin. E Pulse en Continuar y, a continuacin, pulse en Aceptar para ejecutar el procedimiento.

123 Valores perdidos en modelos de rbol

Resultados de CRT
Figura 6-8 rbol CRT con valores de variables independientes perdidos

A primera vista ya se observa que este rbol no se parece mucho al rbol CHAID. De por s, este hecho no tiene necesariamente que ser significativo. En un modelo de rbol CRT, todas las divisiones son binarias; es decir, cada nodo parental se divide nicamente en dos nodos filiales. En un modelo CHAID, los nodos parentales se

124 Captulo 6

pueden dividir en muchos nodos filiales. Por lo tanto, los rboles tienen un aspecto distinto aunque ambos representen el mismo modelo subyacente. Sin embargo, existen varias diferencias importantes:
!

La variable (predictora) independiente ms importante del modelo CRT es nmero de tarjetas de crdito, mientras que en el modelo CHAID, el predictor ms importante era nivel de ingresos. Para los casos con menos de cinco tarjetas de crdito, nmero de tarjetas de crdito es el nico predictor significativo de la valoracin de crdito y el nodo 2 es un nodo terminal. Igual que con el modelo CHAID, nivel de ingresos y edad tambin estn incluidas en el modelo, aunque nivel de ingresos es ahora el segundo predictor en lugar del primero. No hay nodos que contengan una categora <perdido>, porque CRT utiliza en el modelo predictores sustitutos en vez de valores perdidos.

Figura 6-9 Tablas de riesgos y de clasificacin para el modelo CRT

Las tablas de riesgos y de clasificacin muestran una tasa de clasificacin correcta de casi un 78%, un ligero aumento frente al modelo CHAID (75%).

125 Valores perdidos en modelos de rbol !

La tasa de clasificacin correcta para los casos con valoracin de crdito negativa es mucho mayor para el modelo CRT: 81,6% frente a slo un 64,3% del modelo CHAID. Sin embargo, la tasa de clasificacin correcta para los casos con valoracin de crdito positiva ha descendido del 82,8% del modelo CHAID al 74,8% del modelo CRT.

Sustitutos
Las diferencias entre los modelos CHAID y CRT se deben, en parte, a la utilizacin de sustitutos en el modelo CRT. La tabla de sustitutos indica cmo se utilizaron los sustitutos en el modelo.
Figura 6-10 Tabla Sustitutos

! !

En el nodo raz (nodo 0), la mejor variable (predictora) independiente es nmero de tarjetas de crdito. En todos los casos con valores perdidos para nmero de tarjetas de crdito, se utiliza prstamos para coches como el predictor sustituto, ya que esta variable tiene una asociacin bastante alta (0,643) con nmero de tarjetas de crdito. Si un caso tambin tiene un valor perdido para prstamos para coches, entonces se utiliza edad como el sustituto (aunque tenga un valor de asociacin bastante bajo de slo 0,004). Tambin se utiliza edad como sustituto para nivel de ingresos en los nodos 1 y 5.

126 Captulo 6

Resumen
Los distintos mtodos de crecimiento tratan los datos perdidos de diferentes maneras. Si los datos que se han utilizado para crear el modelo contienen muchos valores perdidos (o si se desea aplicar un modelo a otros archivos de datos que contienen muchos valores perdidos), debe evaluar el efecto de los valores perdidos en los distintos modelos. Si desea utilizar sustitutos en el modelo para compensar el impacto los valores perdidos, utilice los mtodos CRT o QUEST.

Glosario

CHAID. Deteccin automtica de interacciones mediante chi-cuadrado (CHi-square

Automatic Interaction Detection). En cada paso, CHAID elige la variable independiente (predictora) que presenta la interaccin ms fuerte con la variable dependiente. Las categoras de cada predictor se funden si no son significativamente distintas respecto a la variable dependiente.
CHAID exhaustivo. Una modificacin del CHAID que examina todas las divisiones

posibles de cada predictor.


CRT. rboles de clasificacin y regresin (Classification and Regression Trees). CRT

divide los datos en segmentos para que sean lo ms homogneos que sea posible respecto a la variable dependiente. Un nodo terminal en el que todos los casos toman el mismo valor en la variable dependiente es un nodo homogneo y puro.
escala. Una variable puede ser tratada como de escala cuando sus valores representan categoras ordenadas con una mtrica con significado, por lo que son adecuadas las comparaciones de distancia entre valores. Son ejemplos de variables de escala: la edad en aos y los ingresos en dlares. ndice. El ndice es la razn del porcentaje de respuestas en la categora criterio del nodo comparado con el porcentaje global de respuestas en la categora criterio para toda la muestra. nominal. Una variable puede ser tratada como nominal cuando sus valores representan categoras que no obedecen a una ordenacin intrnseca. Por ejemplo, el departamento de la compaa en el que trabaja un empleado. Son ejemplos de variables nominales: la regin, el cdigo postal o la confesin religiosa. ordinal. Una variable puede ser tratada como ordinal cuando sus valores representan categoras con alguna ordenacin intrnseca. Por ejemplo los niveles de satisfaccin con un servicio, que vayan desde muy insatisfecho hasta muy satisfecho. Son ejemplos de variables ordinales: las puntuaciones de actitud que representan el nivel de satisfaccin o confianza y las puntuaciones de evaluacin de la preferencia. QUEST. rbol estadstico rpido, insesgado y eficiente (Quick, Unbiased, Efficient

Statistical Tree). Un mtodo que es rpido y que evita el sesgo que presentan otros mtodos al favorecer los predictores con muchas categoras. Slo puede especificarse QUEST si la variable dependiente es nominal.

127

128 Glosario

Respuestas. El porcentaje de casos pertenecientes al nodo que pertenecen a la

categora objetivo especificada.


Valor definido como perdido por el usuario. Valores que el usuario ha definido como perdidos, utilizando el comando Definir variables del men Datos. Puede especificar valores perdidos individuales para las variables numricas o de cadena, o un rango de valores perdidos para las variables numricas. Vase tambin valor perdido por el sistema.

ndice

rboles, 1 almacenamiento de valores pronosticados, 89 almacenamiento de variables del modelo, 30 aplicacin de modelos, 103 rbol en formato de tabla, 83 atributos de texto, 56 beneficios, 23 colores, 56 colores de los grficos de los nodos, 56 contenido del rbol en una tabla, 32 control de la presentacin del rbol, 32, 55 control del tamao de los nodos, 12 costes de clasificacin errnea, 21 costes personalizados, 96 criterios de crecimiento para CHAID, 13 edicin, 49 efectos de las etiquetas de valor en el procedimiento rbol de clasificacin, 68 efectos del nivel de medida, 63 escalamiento de la presentacin del rbol, 53 estadsticos de nodo terminal, 34 estimacin de riesgo para variables dependientes de escala, 109 estimaciones de riesgo, 34 fuentes, 56 generacin de reglas, 45, 59 grficos, 39 importancia del predictor, 34 intervalos para variables independientes de escala, 15 limitacin del nmero de niveles, 12 mapa del rbol, 52 mtodo CRT, 16 ocultacin de ramas y nodos, 49 orientacin del rbol, 32 podar, 19 presentacin y ocultacin de los estadsticos de rama, 32 probabilidades previas, 24 puntuacin, 103

puntuaciones, 26 requisito para el procedimiento rbol de clasificacin, 63 seleccin de casos en nodos, 90 seleccin de varios nodos, 49 supuestos para el procedimiento rbol de clasificacin, 63 sustitutos, 115, 123 tabla de clasificacin errnea, 34 tabla de ganancias para nodos, 85 tabla de resumen del modelo, 80 trabajo con rboles grandes, 51 validacin cruzada, 10 validacin por divisin muestral, 10 valores de ndice, 34 valores perdidos, 28, 115 variables dependientes de escala, 103 rboles de clasificacin forzar la primera variable en el modelo, 1 mtodo CHAID, 1 mtodo CHAID exhaustivo, 1 mtodo CRT, 1 mtodo QUEST, 1, 18 nivel de medida, 1 rboles de decisin, 1

beneficios rboles, 23, 34 probabilidades previas, 24 binaria, 16 binaria ordinal, 16

CHAID, 1 correccin de Bonferroni, 13 criterios de divisin y fusin, 13

129

130 ndice

intervalos para variables independientes de escala, 15 mximo de iteraciones, 13 volver a dividir categoras fusionadas, 13 clasificacin errnea rboles, 34 costes, 21 valoraciones, 88 contraccin de ramas del rbol, 49 costes clasificacin errnea, 21 modelos de rbol, 96 CRT , 1 medidas de impureza, 16 podar, 19

modelos de rbol, 85

nivel de medida rboles de clasificacin, 1 en modelos de rbol, 63 nivel de significacin para la divisin de nodos, 18 nodos seleccin de varios nodos del rbol, 49 nmero de nodo almacenamiento como variable de rboles de clasificacin, 30

estimaciones de riesgo rboles, 34 para variables dependientes categricas, 88 para variables dependientes de escala en el procedimiento rbol de clasificacin, 109 etiquetas de valor procedimiento rbol de clasificacin, 68

ocultacin de nodos frente a la poda, 19 ocultacin de ramas del rbol, 49

ganancia, 85 Gini, 16 grfico de ganancias, 86 grfico de ndice, 87

poda de rboles de clasificacin frente a la ocultacin de nodos, 19 ponderacin de casos ponderaciones fraccionarias en rboles de clasificacin, 1 probabilidad pronosticada almacenamiento como variable de rboles de clasificacin, 30 puntuacin modelos de rbol, 103 puntuaciones rboles, 26

impureza rboles CRT, 16 QUEST, 1, 18 podar, 19 ndice modelos de rbol, 85

131 ndice

reglas creacin de sintaxis de seleccin y puntuacin para rboles de clasificacin, 45, 59 respuesta modelos de rbol, 85

tabla de resumen del modelo modelos de rbol, 80

seleccin de varios nodos del rbol, 49 semilla de aleatorizacin validacin del rbol de clasificacin, 10 sintaxis creacin de sintaxis de seleccin y puntuacin para rboles de clasificacin, 45, 59 sintaxis de comandos creacin de sintaxis de seleccin y puntuacin para rboles de clasificacin, 45, 59 SQL creacin de sintaxis SQL para seleccin y puntuacin, 45, 59 sustitutos en modelos de rbol, 115, 123

validacin rboles, 10 validacin cruzada rboles, 10 validacin por divisin muestral rboles, 10 valores de ndice rboles, 34 valores perdidos rboles, 28 en modelos de rbol, 115 valores pronosticados almacenamiento para modelos de rboles, 89 valor pronosticado almacenamiento como variable de rboles de clasificacin, 30 variables de escala variables dependientes en el procedimiento rbol de clasificacin, 103

tabla de clasificacin, 88

También podría gustarte