Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Si desea obtener ms informacin sobre los productos de software de SPSS, visite nuestra pgina Web en http://www.spss.com o pngase en contacto con SPSS Inc. 233 South Wacker Drive, 11th Floor Chicago, IL 60606-6412 EE.UU. Tel: (312) 651-3000 Fax: (312) 651-3668 SPSS es una marca registrada; los dems nombres de productos son marcas comerciales de SPSS Inc. para los programas de software de su propiedad. El material descrito en este software no puede ser reproducido ni distribuido sin la autorizacin expresa por escrito por parte de los propietarios de la marca registrada y de los derechos de la licencia en el software y en los copyrights de los materiales publicados. El SOFTWARE y la documentacin se proporcionan con DERECHOS LIMITADOS. Su uso, duplicacin o revelacin por parte del Gobierno estn sujetos a las restricciones establecidas en la subdivisin (c)(1)(ii) de la clusula Rights in Technical Data and Computer Software en 52.227-7013. El fabricante es SPSS Inc., 233 South Wacker Drive, 11th Floor, Chicago, IL 60606-6412, EE.UU. Aviso general: El resto de los nombres de productos mencionados en este documento se utilizan slo con fines identificativos y pueden ser marcas comerciales de sus respectivas empresas. TableLook es una marca comercial de SPSS Inc. Windows es una marca comercial registrada de Microsoft Corporation. DataDirect, DataDirect Connect, INTERSOLV y SequeLink son marcas comerciales registradas de DataDirect Technologies. Algunas partes de este producto se han creado utilizando LEADTOOLS 19912000, LEAD Technologies, Inc. TODOS LOS DERECHOS RESERVADOS. LEAD, LEADTOOLS y LEADVIEW son marcas comerciales registradas de LEAD Technologies, Inc. Sax Basic es una marca comercial de Sax Software Corporation. Copyright 19932004 de Polar Engineering and Consulting. Todos los derechos reservados. Algunas partes de este producto estn basadas en el trabajo de FreeType Team (http://www.freetype.org). Una parte del software de SPSS contiene tecnologa zlib. Copyright 19952002 de Jean-loup Gailly y Mark Adler. El software zlib se proporciona tal cual, sin ningn tipo de garanta implcita o explcita. Una parte del software de SPSS contiene bibliotecas de Sun Java Runtime. Copyright 2003 de Sun Microsystems, Inc. Reservados todos los derechos. Las bibliotecas de Sun Java Runtime incluyen cdigo con licencia de RSA Security, Inc. Algunas partes de las bibliotecas tienen licencia de IBM y estn disponibles en http://oss.software.ibm.com/icu4j/. SPSS Classification Tree 13.0 Copyright 2004 de SPSS Inc. Todos los derechos reservados. Impreso en Irlanda. Queda prohibida la reproduccin, el almacenamiento en sistemas de recuperacin o la transmisin de cualquier parte de esta publicacin en cualquier forma y por cualquier medio (electrnico o mecnico, fotocopia, grabacin o cualquier otro) sin previa autorizacin expresa y por escrito de parte del editor. 1234567890 ISBN 1-56827-999-X 07 06 05 04
Prefacio
SPSS 13.0 es un sistema global para el anlisis de datos. El mdulo adicional opcional Classification Tree proporciona las tcnicas de anlisis adicionales que se describen en este manual. El mdulo adicional Classification Tree se debe utilizar con el sistema Base de SPSS 13.0 y est completamente integrado en dicho sistema.
Instalacin
Para instalar Classification Tree, ejecute el Asistente para autorizacin de licencia utilizando el cdigo de autorizacin que le envi SPSS Inc. Para obtener ms informacin, consulte las instrucciones de instalacin proporcionadas con el sistema Base de SPSS .
Compatibilidad
SPSS est diseado para ejecutarse en gran cantidad de sistemas de ordenadores. Consulte las instrucciones de instalacin entregadas con su sistema para obtener informacin especfica acerca de los requisitos mnimos y los recomendados.
Nmeros de serie
El nmero de serie es su nmero de identificacin con SPSS Inc. Necesitar este nmero cuando se ponga en contacto con SPSS Inc. para recibir informacin sobre asistencia, formas de pago o actualizacin del sistema. El nmero de serie se incluye en el sistema Base de SPSS.
iii
Servicio al cliente
Si tiene cualquier duda referente a la forma de envo o pago, pngase en contacto con su oficina local, que encontrar en la pgina Web de SPSS en http://www.spss.com/worldwide. Tenga preparado su nmero de serie para identificarse.
Cursos de preparacin
SPSS Inc. ofrece cursos de preparacin, tanto pblicos como in situ. En todos los cursos habr talleres prcticos. Estos cursos tendrn lugar peridicamente en las principales capitales. Si desea obtener ms informacin sobre estos cursos, pngase en contacto con su oficina local que encontrar en la pgina Web de SPSS en http://www.spss.com/worldwide.
Asistencia tcnica
El servicio de asistencia tcnica de SPSS est a disposicin de todos los clientes registrados. Los clientes podrn ponerse en contacto con este servicio de asistencia tcnica si desean recibir ayuda sobre la utilizacin de SPSS o sobre la instalacin en alguno de los entornos de hardware admitidos. Para ponerse en contacto con el servicio de asistencia tcnica, consulte la pgina Web de SPSS en http://www.spss.com, o pngase en contacto con la oficina ms cercana, que encontrar en la pgina Web de SPSS en http://www.spss.com/worldwide. Tenga preparada la informacin necesaria para identificarse personalmente, a su organizacin y el nmero de serie de su sistema.
Publicaciones adicionales
Puede adquirir copias adicionales de los manuales de los productos de SPSS directamente de SPSS Inc. Visite la seccin Store de la pgina Web de SPSS en http://www.spss.com/estore o pngase en contacto con su oficina de SPSS local que encontrar en la pgina Web de SPSS en http://www.spss.com/worldwide. Para pedidos telefnicos en Estados Unidos y Canad, llame a SPSS Inc. al 800-543-2185. Para pedidos telefnicos desde otros pases, pngase en contacto con la oficina ms cercana que encontrar en la pgina Web de SPSS.
iv
El libro SPSS Statistical Procedures Companion, de Marija Norusis, ha sido publicado por Prentice Hall. Se prev una nueva versin de este libro, actualizado para SPSS 13.0. El libro SPSS Advanced Statistical Procedures Companion, que tambin se basa en SPSS 13.0, se publicar muy pronto. El libro SPSS Guide to Data Analysis para SPSS 13.0 tambin se est elaborando. Las publicaciones anunciadas de forma exclusiva por Prentice Hall estarn disponibles en la pgina Web de SPSS en http://www.spss.com/estore (seleccione su pas de origen y pulse en Books).
Dganos su opinin
Sus comentarios son importantes. Hganos saber su experiencia con los productos SPSS. Nos interesa especialmente recibir noticias sobre aplicaciones nuevas e interesantes para el sistema SPSS. Envenos un correo electrnico a suggest@spss.com o escriba a SPSS Inc., Attn.: Director of Product Planning, 233 South Wacker Drive, 11th Floor, Chicago, IL 60606-6412, EE.UU.
Acerca de este manual
Este manual es la documentacin de la interfaz grfica del usuario para los procedimientos incluidos en Classification Tree. Las ilustraciones de los cuadros de dilogo estn tomadas de SPSS para Windows. Los cuadros de dilogo de los dems sistemas operativos son similares. La sintaxis de comandos completa se documenta de forma detallada en la referencia de sintaxis de comandos de SPSS (SPSS Command Syntax Reference), disponible en el men Ayuda.
Cmo ponerse en contacto con SPSS
Si desea pertenecer a nuestra lista de correo, pngase en contacto con nuestras oficinas que encontrar en la pgina Web en http://www.spss.com/worldwide.
Contenido
1 Creacin de rboles de clasificacin 1
Seleccin de categoras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 Validacin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 Criterios de crecimiento del rbol . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 Lmites de crecimiento. . . Criterios para CHAID . . . . Criterios para CRT . . . . . . Criterios para QUEST . . . . Poda de rboles. . . . . . . . Sustitutos . . . . . . . . . . . . Opciones . . . . . . . . . . . . . . . . ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... . . . . . . . . . . . . . . . . . 12 13 16 18 19 20 20 21 23 24 26 28 30 32 34 39 45
Costes de clasificacin errnea. . . . . . . . Beneficios . . . . . . . . . . . . . . . . . . . . . . . . Probabilidades previas . . . . . . . . . . . . . . Puntuaciones . . . . . . . . . . . . . . . . . . . . . Valores perdidos . . . . . . . . . . . . . . . . . . . Almacenamiento de informacin del modelo. . Presentacin del rbol. . . . . . . . . Estadsticos . . . . . . . . . . . . . . . . . Grficos. . . . . . . . . . . . . . . . . . . . Reglas de seleccin y puntuacin ... ... ... ... ... ... ... ...
Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
49
vii
Escalamiento de la presentacin del rbol . . . . . . . . . . . . . . . . . . . . . . 53 Ventana de resumen de nodos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54 Control de la informacin que se muestra en el rbol . . . . . . . . . . . . . . . . . 55 Modificacin de las fuentes de texto y los colores del rbol . . . . . . . . . . . . 56 Reglas de seleccin de casos y puntuacin . . . . . . . . . . . . . . . . . . . . . . . . 59 Filtrado de casos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60 Almacenamiento de las reglas de seleccin y puntuacin . . . . . . . . . . 60
63
Efectos del nivel de medida en los modelos de rbol. . . . . . . . . . . . . . . . . . 63 Asignacin permanente del nivel de medida . . . . . . . . . . . . . . . . . . . . 68 Efectos de las etiquetas de valor en los modelos de rbol . . . . . . . . . . . . . . 68 Asignacin de etiquetas de valor a todos los valores . . . . . . . . . . . . . . 70
73
74 75 76 76 79 80 80 82 83 85
viii
Grfico de ganancias. . . . . . . . . . . . . Grfico de ndice . . . . . . . . . . . . . . . . Estimacin de riesgo y clasificacin . Valores pronosticados . . . . . . . . . . . . Ajuste del modelo . . . . . . . . . . . . . . . . . . . Seleccin de casos en nodos . . . . . . Examen de los casos seleccionados . Asignacin de costes a resultados . . Resumen . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . .
86 87 88 89 90
. 90 . 92 . 96 101
103
Creacin del modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103 Evaluacin del modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106 Resumen del modelo . . . . . . . . . . . . . . . . Diagrama del modelo de rbol . . . . . . . . . Estimacin de riesgo . . . . . . . . . . . . . . . . Aplicacin del modelo a otro archivo de datos ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... 106 107 109 110
Resumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114
115
Valores perdidos con CHAID. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116 Resultados de CHAID. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119 Valores perdidos con CRT. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120 Resultados de CRT. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123 Resumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126
ix
Glosario ndice
127 129
Captulo
2 Captulo 1
El procedimiento rbol de clasificacin crea un modelo de clasificacin basado en rboles, y clasifica casos en grupos o pronostica valores de una variable (criterio) dependiente basada en valores de variables independientes (predictores). El procedimiento proporciona herramientas de validacin para anlisis de clasificacin exploratorios y confirmatorios. El procedimiento se puede utilizar para:
Segmentacin. Identifica las personas que pueden ser miembros de un grupo
especfico.
Estratificacin. Asigna los casos a una categora de entre varias, por ejemplo, grupos de alto riesgo, bajo riesgo y riesgo intermedio. Prediccin. Crea reglas y las utiliza para predecir eventos futuros, como la
verosimilitud de que una persona cause mora en un crdito o el valor de reventa potencial de un vehculo o una casa.
Reduccin de datos y clasificacin de variables. Selecciona un subconjunto til de predictores a partir de un gran conjunto de variables para utilizarlo en la creacin de un modelo paramtrico formal. Identificacin de interaccin. Identifica las relaciones que pertenecen slo a subgrupos especficos y las especifica en un modelo paramtrico formal. Fusin de categoras y discretizacin de variables continuas. Recodifica las categoras de grupo de los predictores y las variables continuas, con una prdida mnima de informacin. Ejemplo. Un banco desea categorizar a los solicitantes de crditos en funcin de si representan o no un riesgo crediticio razonable. Basndose en varios factores, incluyendo las valoraciones del crdito conocidas de clientes anteriores, se puede generar un modelo para pronosticar si es probable que los clientes futuros causen mora en sus crditos.
Permite identificar grupos homogneos con alto o bajo riesgo. Facilita la construccin de reglas para realizar pronsticos sobre casos individuales.
Consideraciones sobre los datos Datos. Las variables dependientes e independientes pueden ser:
!
nominal. Una variable puede ser tratada como nominal cuando sus valores
representan categoras que no obedecen a una ordenacin intrnseca. Por ejemplo, el departamento de la compaa en el que trabaja un empleado. Son ejemplos de variables nominales: la regin, el cdigo postal o la confesin religiosa.
!
ordinal. Una variable puede ser tratada como ordinal cuando sus valores
representan categoras con alguna ordenacin intrnseca. Por ejemplo los niveles de satisfaccin con un servicio, que vayan desde muy insatisfecho hasta muy satisfecho. Son ejemplos de variables ordinales: las puntuaciones de actitud que representan el nivel de satisfaccin o confianza y las puntuaciones de evaluacin de la preferencia.
!
escala. Una variable puede ser tratada como de escala cuando sus valores
representan categoras ordenadas con una mtrica con significado, por lo que son adecuadas las comparaciones de distancia entre valores. Son ejemplos de variables de escala: la edad en aos y los ingresos en dlares.
Ponderaciones de frecuencia Si se encuentra activada la ponderacin, las
ponderaciones fraccionarias se redondearn al nmero entero ms cercano; de esta manera, a los casos con un valor de ponderacin menor que 0,5 se les asignar una ponderacin de 0 y, por consiguiente, se vern excluidos del anlisis.
Supuestos. Este procedimiento supone que se ha asignado el nivel de medida
adecuado a todas las variables del anlisis; adems, algunas funciones suponen que todos los valores de la variable dependiente incluidos en el anlisis tienen etiquetas de valor definidas.
!
Nivel de medida. El nivel de medida afecta a los del rbol clculos; por lo
tanto, todas las variables deben tener asignado el nivel de medida adecuado. Por defecto, SPSS supone que las variables numricas son de escala y que las variables de cadena son nominales, lo cual podra no reflejar con exactitud el verdadero nivel de medida. Un icono situado junto a cada variable de la lista de variables identifica el tipo de variable.
4 Captulo 1
Escala
Nominal
Ordinal
Puede cambiar de forma temporal el nivel de medida de una variable; para ello, pulse con el botn derecho del ratn en la variable en la lista de variables de origen y seleccione un nivel de medida del men contextual.
!
supone que o todos los valores no perdidos de una variable dependiente categrica (nominal, ordinal) tienen etiquetas de valor definidas o ninguno de ellos las tiene. Algunas funciones no estarn disponibles a menos que haya como mnimo dos valores no perdidos de la variable dependiente categrica que tengan etiquetas de valor. Si al menos dos valores no perdidos tienen etiquetas de valor definidas, todos los dems casos con otros valores que no tengan etiquetas de valor se excluirn del anlisis.
Para obtener rboles de clasificacin
E Elija en los mens: Analizar Clasificar rbol...
E Seleccione una variable dependiente. E Seleccione una o ms variables independientes. E Seleccione un mtodo de crecimiento.
Cambiar el nivel de medida para cualquier variable de la lista de origen. Forzar que la primera variable en la lista de variables independientes en el modelo sea la primera variable de divisin. Seleccionar una variable de influencia que defina cunta influencia tiene un caso en el proceso de crecimiento de un rbol. Los casos con valores de influencia inferiores tendrn menos influencia, mientras que los casos con valores superiores tendrn ms. Los valores de la variable de influencia deben ser valores positivos. Validar el rbol. Personalizar los criterios de crecimiento del rbol.
! !
6 Captulo 1 ! !
Guardar los nmeros de nodos terminales, valores pronosticados y probabilidades pronosticadas como variables. Guardar el modelo en formato XML (PMML).
Esto modifica de forma temporal el nivel de medida para su uso en el procedimiento rbol de clasificacin.
Mtodos de crecimiento
Automatic Interaction Detection). En cada paso, CHAID elige la variable independiente (predictora) que presenta la interaccin ms fuerte con la variable dependiente. Las categoras de cada predictor se funden si no son significativamente distintas respecto a la variable dependiente.
CHAID exhaustivo. Una modificacin del CHAID que examina todas las divisiones
divide los datos en segmentos para que sean lo ms homogneos que sea posible respecto a la variable dependiente. Un nodo terminal en el que todos los casos toman el mismo valor en la variable dependiente es un nodo homogneo y puro.
QUEST. rbol estadstico rpido, insesgado y eficiente (Quick, Unbiased, Efficient
Statistical Tree). Un mtodo que es rpido y que evita el sesgo que presentan otros mtodos al favorecer los predictores con muchas categoras. Slo puede especificarse QUEST si la variable dependiente es nominal.
*Incluye CHAID exhaustivo. **QUEST tambin utiliza una medida de chi-cuadrado para variables independientes nominales.
8 Captulo 1
Seleccin de categoras
Figura 1-3 Cuadro de dilogo Categoras
Aquellos casos que tengan valores de la variable dependiente en la lista de exclusin no se incluirn en el anlisis. Para variables dependientes nominales, tambin puede incluir en el anlisis categoras definidas como perdidas por el usuario. (Por defecto, las categoras definidas como perdidas por el usuario se muestran en la lista de exclusin.)
Categoras objetivo
Las categoras seleccionadas (marcadas) se tratarn durante el anlisis como las categoras de inters fundamental. Por ejemplo, si persigue identificar a las personas que es ms probable que causen mora en un crdito, podra seleccionar como categora objetivo la categora negativa de valoracin del crdito.
!
No hay ninguna categora objetivo por defecto. Si no se selecciona ninguna categora, algunas opciones de las reglas de clasificacin y algunos resultados relacionados con las ganancias no estarn disponibles. Si hay varias categoras seleccionadas, se generarn grficos y tablas de ganancias independientes para cada una de las categoras objetivo. La designacin de una o ms categoras como categoras objetivo no tiene ningn efecto sobre los resultados de clasificacin errnea, modelo de rbol o estimacin del riesgo.
! !
Este cuadro de dilogo requiere etiquetas de valor definidas para la variable dependiente. No estar disponible a menos que dos valores como mnimo de la variable dependiente categrica tengan etiquetas de valor definidas.
Para incluir/excluir categoras y seleccionar categoras objetivo
E En el cuadro de dilogo principal rbol de clasificacin, seleccione una variable
10 Captulo 1
Validacin
Figura 1-4 Cuadro de dilogo Validacin
La validacin permite evaluar la bondad de la estructura de rbol cuando se generaliza para una mayor poblacin. Hay dos mtodos de validacin disponibles: validacin cruzada y validacin por divisin muestral.
Validacin cruzada
La validacin cruzada divide la muestra en un nmero de submuestras. A continuacin, se generan los modelos de rbol, que no incluyen los datos de cada submuestra. El primer rbol se basa en todos los casos excepto los correspondientes al primer pliegue de la muestra; el segundo rbol se basa en todos los casos excepto los del segundo pliegue de la muestra y as sucesivamente. Para cada rbol se calcula
el riesgo de clasificacin errnea aplicando el rbol a la submuestra que se excluy al generarse ste.
! !
Se puede especificar un mximo de 25 pliegues de la muestra. Cuanto mayor sea el valor, menor ser el nmero de casos excluidos de cada modelo de rbol. La validacin cruzada genera un modelo de rbol nico y final. La estimacin de riesgo mediante validacin cruzada para el rbol final se calcula como promedio de los riesgos de todos los rboles.
Con la validacin por divisin muestral, el modelo se genera utilizando una muestra de entrenamiento y despus pone a prueba ese modelo con una muestra de reserva.
!
Puede especificar un tamao de la muestra de entrenamiento, expresado como un porcentaje del tamao muestral total, o una variable que divida la muestra en muestras de entrenamiento y de comprobacin. Si utiliza una variable para definir las muestras de entrenamiento y de comprobacin, los casos con un valor igual a 1 para la variable se asignarn a la muestra de entrenamiento y todos los dems casos se asignarn a la muestra de comprobacin. Dicha variable no puede ser ni la variable dependiente, ni la de ponderacin, ni la de influencia, ni una variable independiente forzada. Los resultados se pueden mostrar tanto para la muestra de entrenamiento como para la de comprobacin, o slo para esta ltima. La validacin por divisin muestral se debe utilizar con precaucin en archivos de datos pequeos (archivos de datos con un nmero pequeo de casos). Si se utilizan muestras de entrenamiento de pequeo tamao, pueden generarse modelos que no sean significativos, ya que es posible que no haya suficientes casos en algunas categoras para lograr un adecuado crecimiento del rbol.
! !
12 Captulo 1
Lmites de crecimiento
Figura 1-5 Cuadro de dilogo Criterios, pestaa Lmites de crecimiento
La pestaa Lmites de crecimiento permite limitar el nmero de niveles del rbol y controlar el nmero de casos mnimo para nodos parentales y filiales.
Mxima profundidad de rbol. Controla el nmero mximo de niveles de crecimiento
por debajo del nodo raz. El ajuste Automtica limita el rbol a tres niveles por debajo del nodo raz para los mtodos CHAID y CHAID exhaustivo y a cinco niveles para los mtodos CRT y QUEST.
Nmero de casos mnimo. Controla el nmero de casos mnimo para los nodos. Los
El aumento de los valores mnimos tiende a generar rboles con menos nodos. La disminucin de dichos valores mnimos generar rboles con ms nodos.
Para archivos de datos con un nmero pequeo de casos, es posible que, en ocasiones, los valores por defecto de 100 casos para nodos parentales y de 50 casos para nodos filiales den como resultado rboles sin ningn nodo por debajo del nodo raz; en este caso, la disminucin de los valores mnimos podra generar resultados ms tiles.
nodos y la fusin de categoras. Para ambos criterios, el nivel de significacin por defecto es igual a 0,05.
! !
La divisin de nodos requiere un valor mayor que 0 y menor que 1. Los valores inferiores tienden a generar rboles con menos nodos. La fusin de categoras requiere que el valor sea mayor que 0 y menor o igual que 1. Si desea impedir la fusin de categoras, especifique un valor igual a 1. Para una variable independiente de escala, esto significa que el nmero de categoras para la variable en el rbol final ser el nmero especificado de intervalos (el valor por defecto es 10). Si desea obtener ms informacin, consulte Intervalos de escala para el anlisis CHAID en p. 15.
14 Captulo 1
chi-cuadrado para determinar la divisin de nodos y la fusin de categoras se calcula mediante el mtodo de la razn de verosimilitud. Para variables dependientes nominales, puede seleccionar el mtodo:
! !
Pearson. Este mtodo proporciona clculos ms rpidos pero se debe utilizar con
especificar:
!
su crecimiento porque se ha alcanzado el nmero mximo de iteraciones, puede que desee aumentar el nmero mximo o modificar alguno de los dems criterios que controlan el crecimiento del rbol.
!
Cambio mnimo en las frecuencias esperadas de las casillas. El valor debe ser
mayor que 0 y menor que 1. El valor por defecto es 0,05. Los valores inferiores tienden a generar rboles con menos nodos.
Corregir los valores de significacin mediante el mtodo de Bonferroni. Para comparaciones mltiples, los valores de significacin para los criterios de divisin y fusin se corrigen utilizando el mtodo de Bonferroni. Este es el mtodo por defecto. Permitir nueva divisin de las categoras fusionadas dentro de un nodo. A menos que se impida de forma explcita la fusin de categoras, el procedimiento intentar la fusin de las categoras de variables (predictoras) independientes entre s para generar el rbol ms simple que describa el modelo. Esta opcin permite al procedimiento volver a dividir las categoras fusionadas si con ello se puede obtener una solucin mejor.
En el anlisis CHAID, las variables (predictoras) independientes de escala siempre se categorizan en grupos discretos (por ejemplo, 010, 1120, 2130, etc.) antes del anlisis. Puede controlar el nmero inicial/mximo de grupos (aunque el procedimiento puede fundir grupos contiguos despus de la divisin inicial):
! !
En los anlisis CRT y QUEST, todas las divisiones son binarias y las variables independientes de escala y ordinales se tratan de la misma manera; por lo tanto, no se puede especificar un nmero de intervalos para variables independientes de escala.
El mtodo de crecimiento CRT procura maximizar la homogeneidad interna de los nodos. El grado en el que un nodo no representa un subconjunto homogneo de casos es una indicacin de impureza. Por ejemplo, un nodo terminal en el que todos los casos tienen el mismo valor para la variable dependiente es un nodo homogneo que no requiere ninguna divisin ms ya que es puro. Puede seleccionar el mtodo utilizado para medir la impureza as como la reduccin mnima de la impureza necesaria para dividir nodos.
de impureza de desviacin cuadrtica mnima (LSD). Este valor se calcula como la varianza dentro del nodo, corregida respecto a todas las ponderaciones de frecuencia o valores de influencia. Para variables dependientes categricas (nominales, ordinales), puede seleccionar la medida de la impureza:
!
con respecto al valor de la variable dependiente. Gini se basa en el cuadrado de las probabilidades de pertenencia de cada categora de la variable dependiente. El valor mnimo (cero) se alcanza cuando todos los casos de un nodo corresponden a una sola categora. Esta es la medida por defecto.
! !
se pueden agrupar las categoras adyacentes. Esta medida slo se encuentra disponible para variables dependientes ordinales.
Cambio mnimo en la mejora. Esta es la reduccin mnima de la impureza necesaria para dividir un nodo. El valor por defecto es 0,0001. Los valores superiores tienden a generar rboles con menos nodos.
18 Captulo 1
Para el mtodo QUEST, puede especificar el nivel de significacin para la divisin de nodos. No se puede utilizar una variable independiente para dividir nodos a menos que el nivel de significacin sea menor o igual que el valor especificado. El valor debe ser mayor que 0 y menor que 1. El valor por defecto es 0,05. Los valores ms pequeos tendern a excluir ms variables independientes del modelo final.
Para especificar criterios para QUEST
E En el cuadro de dilogo principal rbol de clasificacin, seleccione una variable
dependiente nominal.
E Para el mtodo de crecimiento, seleccione QUEST. E Pulse en Criterios. E Pulse en la pestaa QUEST.
Poda de rboles
Figura 1-10 Cuadro de dilogo Criterios, pestaa Poda del rbol
Con los mtodos CRT y QUEST, puede evitar el sobreajuste del modelo mediante la poda del rbol: el rbol crece hasta que se cumplen los criterios de parada y, a continuacin, se recorta de forma automtica hasta obtener el subrbol ms pequeo basado en la mxima diferencia en el riesgo especificada. El valor del riesgo se expresa en errores tpicos. El valor por defecto es 1. El valor debe ser no negativo. Para obtener el subrbol con el mnimo riesgo, especifique 0.
La poda del rbol frente a la ocultacin de nodos
Cuando se crea un rbol podado, ninguno de los nodos podados del rbol estarn disponibles en el rbol final. Es posible ocultar y mostrar de forma interactiva los nodos filiales en el rbol final, pero no se pueden mostrar los nodos podados durante el proceso de creacin del rbol. Si desea obtener ms informacin, consulte Editor del rbol en Captulo 2 en p. 49.
20 Captulo 1
Sustitutos
Figura 1-11 Cuadro de dilogo Criterios, pestaa Sustitutos
CRT y QUEST pueden utilizar sustitutos para variables (predictoras) independientes. Para los casos en que el valor de esa variable falte, se utilizarn otras variables independientes con asociaciones muy cercanas a la variable original para la clasificacin. A estas variables predictoras alternativas se les denomina sustitutos. Se puede especificar el nmero mximo de sustitutos que utilizar en el modelo.
!
Por defecto, el nmero mximo de sustitutos es igual al nmero de variables independientes menos uno. Es decir, para cada variable independiente, se pueden utilizar todas las dems variables independientes como sustitutos. Si no desea que el modelo utilice sustitutos, especifique 0 para el nmero de sustitutos.
Opciones
Las opciones disponibles pueden depender del mtodo de crecimiento, del nivel de medida de la variable dependiente y de la existencia de etiquetas de valor definidas para los valores de la variable dependiente.
Para las variables dependientes categricas (nominales, ordinales), los costes de clasificacin errnea permiten incluir informacin referente a las penalizaciones relativas asociadas a una clasificacin incorrecta. Por ejemplo:
! !
El coste de negar crdito a un cliente solvente ser diferente al coste de otorgar crdito a un cliente que posteriormente incurra en un incumplimiento. El coste de clasificacin errnea de una persona con un alto riesgo de dolencias cardacas como de bajo riesgo es, probablemente, mucho mayor que el coste de clasificar errneamente a una persona de bajo riesgo como de alto riesgo. El coste de realizar un mailing a alguien con poca propensin a responder es probablemente muy bajo, mientras que el coste de no enviar dicho mailing a personas con propensin a responder es relativamente ms alto (en trminos de prdida de beneficios).
22 Captulo 1
Este cuadro de dilogo no estar disponible a menos que dos valores como mnimo de la variable dependiente categrica tengan etiquetas de valor definidas.
Para especificar los costes de clasificacin errnea
E En el cuadro de dilogo principal rbol de clasificacin, seleccione una variable
deben ser no negativos. (Las clasificaciones correctas, representadas en la diagonal, son siempre 0.)
Rellenar matriz. Es posible que en muchos casos se desee que los costes sean simtricos, es decir, que el coste de clasificar errneamente A como B sea el mismo que el coste de clasificar errneamente B como A. Las siguientes opciones le ayudarn a especificar una matriz de costes simtrica:
! ! !
Duplicar tringulo inferior. Copia los valores del tringulo inferior de la matriz
se calcula el promedio de los dos valores (tringulo superior e inferior) y dicho promedio reemplaza ambos valores. Por ejemplo, si el coste de clasificacin errnea de A como B es 1, y el coste de clasificacin errnea de B como A es 3, esta opcin reemplaza ambos valores por el promedio obtenido: (1+3)/2 = 2.
Beneficios
Figura 1-13 Cuadro de dilogo Opciones, pestaa Beneficios
Para las variables dependientes categricas, puede asignar valores de ingresos y gastos a los niveles de la variable dependiente.
! !
El beneficio se calcula como la diferencia entre ingresos y gastos. Los valores de beneficio afectan a los valores del beneficio promedio y ROI (retorno de la inversin) en las tablas de ganancias. No afectan, sin embargo, a la estructura bsica del modelo del rbol. Los valores de ingresos y gastos deben ser numricos y deben estar especificados para todas las categoras de la variable dependiente que aparezcan en la cuadrcula.
Este cuadro de dilogo requiere etiquetas de valor definidas para la variable dependiente. No estar disponible a menos que dos valores como mnimo de la variable dependiente categrica tengan etiquetas de valor definidas.
24 Captulo 1
Probabilidades previas
Figura 1-14 Cuadro de dilogo Opciones, pestaa Probabilidades previas
Para los rboles CRT y QUEST con variables dependientes categricas, puede especificar probabilidades previas de pertenencia al grupo. Las probabilidades previas son estimaciones de la frecuencia relativa global de cada categora de la variable dependiente, previas a cualquier conocimiento sobre los valores de las variables (predictoras) independientes. La utilizacin de las probabilidades previas ayuda a corregir cualquier crecimiento del rbol causado por datos de la muestra que no sean representativos de la totalidad de la poblacin.
Obtener de la muestra de entrenamiento (previas empricas). Utilice este ajuste si la distribucin de los valores de la variable dependiente en el archivo de datos es representativa de la distribucin de poblacin. Si se usa validacin por divisin muestral, se utilizar la distribucin de los casos en la muestra de entrenamiento.
Nota: como en la validacin por divisin muestral se asignan los casos de forma aleatoria a la muestra de entrenamiento, no podr conocer de antemano la distribucin real de los casos en la muestra de entrenamiento. Si desea obtener ms informacin, consulte Validacin en p. 10.
Iguales para todas las categoras. Utilice este ajuste si las categoras de la variable
dependiente tienen la misma representacin dentro de la poblacin. Por ejemplo, si hay cuatro categoras con aproximadamente el 25% de los casos en cada una de ellas.
Personalizado. Introduzca un valor no negativo para cada categora de la variable
dependiente que aparezca en la cuadrcula. Los valores pueden ser proporciones, porcentajes, frecuencias o cualquier otro valor que represente la distribucin de valores entre categoras.
Corregir las previas mediante los costes de clasificacin errnea. Si define costes
de clasificacin errnea personalizados, podr corregir las probabilidades previas basndose en dichos costes. Si desea obtener ms informacin, consulte Costes de clasificacin errnea en p. 21.
Probabilidades previas y etiquetas de valor
Este cuadro de dilogo requiere etiquetas de valor definidas para la variable dependiente. No estar disponible a menos que dos valores como mnimo de la variable dependiente categrica tengan etiquetas de valor definidas.
26 Captulo 1
Puntuaciones
Figura 1-15 Cuadro de dilogo Opciones, pestaa Puntuaciones
Para CHAID y CHAID exhaustivo con una variable dependiente ordinal, puede asignar puntuaciones personalizadas a cada categora de la variable dependiente. Las puntuaciones definen el orden y la distancia entre las categoras de la variable dependiente. Puede utilizar las puntuaciones para aumentar o disminuir la distancia relativa entre valores ordinales o para cambiar el orden de los valores.
dependiente se le asigna una puntuacin de 1, a la siguiente categora superior se le asigna una puntuacin de 2, etc. Este es el mtodo por defecto.
!
Valor original 1 2 3 4 5
Puntuacin 1 4 4.5 7 6
Las puntuaciones aumentan la distancia relativa entre No especializado y Obrero especializado y disminuyen la distancia relativa entre Obrero especializado y Administrativo. Las puntuaciones invierten el orden entre Directivo y Profesional.
Este cuadro de dilogo requiere etiquetas de valor definidas para la variable dependiente. No estar disponible a menos que dos valores como mnimo de la variable dependiente categrica tengan etiquetas de valor definidas.
Para especificar puntuaciones
E En el cuadro de dilogo principal rbol de clasificacin, seleccione una variable
28 Captulo 1
Valores perdidos
Figura 1-16 Cuadro de dilogo Opciones, pestaa Valores perdidos
La pestaa Valores perdidos controla el tratamiento de los valores definidos como perdidos por el usuario de las variables (predictoras) independientes nominales.
!
El tratamiento de los valores definidos como perdidos por el usuario de las variables independientes ordinales y de escala vara en funcin del mtodo de crecimiento. En el cuadro de dilogo Categoras, se especifica el tratamiento de las variables dependientes nominales. Si desea obtener ms informacin, consulte Seleccin de categoras en p. 8. Para las variables dependientes ordinales y de escala, siempre se excluyen los casos con valores en la variable dependiente perdidos del sistema o definidos como tales por el usuario.
Tratar como valores perdidos. Los valores definidos como perdidos por el usuario
reciben el mismo tratamiento que los valores perdidos del sistema. El tratamiento de stos vara en funcin del mtodo de crecimiento.
Tratar como valores vlidos. Los valores definidos como perdidos por el usuario de las variables independientes nominales se tratan como valores ordinarios en la clasificacin y crecimiento del rbol. Reglas dependientes del mtodo
Si algunos, pero no todos, los valores de las variables independientes son valores perdidos del sistema o definidos como tales por el usuario:
!
Para CHAID y CHAID exhaustivo, los valores de las variables independientes perdidos del sistema o definidos como perdidos por el usuario se incluyen en el anlisis como una nica categora combinada. Para las variables independientes ordinales y de escala, los algoritmos primero generan categoras utilizando valores vlidos y, a continuacin, deciden si fundir la categora de valores perdidos con la categora (vlida) que ms se le parece o se mantiene como una categora separada. Para CRT y QUEST, los casos con valores perdidos en las variables independientes se excluyen del proceso de crecimiento del rbol pero se clasifican utilizando sustitutos si estos estn incluidos en el mtodo. Si los valores definidos como perdidos por el usuario nominales se tratan como perdidos, tambin se procesarn de la misma manera. Si desea obtener ms informacin, consulte Sustitutos en p. 20.
Para especificar el tratamiento de los valores definidos como perdidos por el usuario de variables independientes nominales
E En el cuadro de dilogo principal rbol de clasificacin, seleccione al menos una
30 Captulo 1
Puede guardar la informacin sobre el modelo como variables en el archivo de datos de trabajo y, asimismo, puede guardar todo el modelo en formato XML (PMML) en un archivo externo.
Variables guardadas Nmero del nodo terminal. Identifica el nodo terminal al que se asigna cada caso. El
por el modelo.
Probabilidades pronosticadas. La probabilidad asociada con la prediccin del modelo. Se guarda una variable por cada categora de la variable dependiente. No disponible para variables dependientes de escala. Asignacin muestral (entrenamiento/comprobacin). Para la validacin por divisin
muestral, esta variable indica si se ha utilizado un caso en la muestra de entrenamiento o de comprobacin. El valor es 1 si la muestra es de entrenamiento y 0 si es de
comprobacin. No disponible a menos que se haya seleccionado la validacin por divisin muestral. Si desea obtener ms informacin, consulte Validacin en p. 10.
Exportar modelo de rbol como XML
Puede guardar todo el modelo del rbol en formato XML (PMML). SmartScore y la versin de servidor de SPSS (un producto independiente) pueden utilizar este archivo del modelo para aplicar la informacin del modelo en otros archivos de datos con fines de puntuacin.
Muestra de entrenamiento. Escribe el modelo en el archivo especificado. Para rboles
archivo especificado. No disponible a menos que se haya seleccionado la validacin por divisin muestral.
Resultados
Las opciones de resultados disponibles dependen del mtodo de crecimiento, del nivel de medida de la variable dependiente y de otros valores de configuracin.
32 Captulo 1
Permite controlar el aspecto inicial del rbol o suprimir completamente la presentacin del rbol.
rbol. Por defecto, el diagrama del rbol se incluye en los resultados que se muestran en el Visor. Desactive la seleccin (quite la marca) de esta opcin para excluir el diagrama de rbol de los resultados. Mostrar. Estas opciones controlan el aspecto inicial del diagrama de rbol en el Visor. Todos estos atributos tambin se pueden modificar editando el rbol generado.
!
Orientacin. El rbol se puede mostrar de arriba a abajo con el nodo raz situado
Contenidos de los nodos. Los nodos pueden mostrar tablas, grficos o ambos. Para
variables dependientes categricas, las tablas muestran frecuencias y porcentajes, y los grficos son diagramas de barras. Para variables dependientes de escala, las tablas muestran medias, desviaciones tpicas, nmero de casos y valores pronosticados, y los grficos son histogramas.
!
Escala. Por defecto, los rboles grandes se reducen de forma automtica para
intentar ajustar el rbol a la pgina. Puede especificar un porcentaje de escala personalizado de hasta el 200%.
!
los estadsticos incluyen el valor F (para variables dependientes de escala) o el valor chi-cuadrado (para variables dependientes categricas) as como el valor de significacin y los grados de libertad. Para CRT, se muestra el valor de mejora. Para QUEST, se muestra el valor F, el valor de significacin y los grados de libertad para las variables independientes ordinales y de escala; para las variables independientes nominales, se muestra el valor chi-cuadrado, el valor de significacin y los grados de libertad.
!
incluyendo el nmero del nodo parental, los estadsticos de las variables independientes, el valor o valores de las variables independientes para el nodo, la media y la desviacin tpica para variables dependientes de escala, o las frecuencias y porcentajes para variables dependientes categricas.
Figura 1-19 rbol en formato de tabla
34 Captulo 1
Estadsticos
Figura 1-20 Cuadro de dilogo Resultados, pestaa Estadsticos
Las tablas de estadsticos disponibles dependen del nivel de medida de la variable dependiente, del mtodo de crecimiento y de otros valores de configuracin.
Modelo Resumen. El resumen incluye el mtodo utilizado, las variables incluidas en el modelo y las variables especificadas pero no incluidas en el modelo.
Riesgo. Estimacin del riesgo y su error tpico. Una medida de la precisin predictiva
del rbol.
!
Para variables dependientes categricas, la estimacin de riesgo es la proporcin de casos clasificados incorrectamente despus de corregidos respecto a las probabilidades previas y los costes de clasificacin errnea. Para variables dependientes de escala, la estimacin de riesgo corresponde a la varianza dentro del nodo.
Tabla de clasificacin. Para variables dependientes categricas (nominales, ordinales), esta tabla muestra el nmero de casos clasificados correcta e incorrectamente para cada categora de la variable dependiente. No disponible para variables dependientes de escala.
dependientes categricas, esta tabla muestra los valores de costes, probabilidades previas, puntuaciones y beneficios utilizados en el anlisis. No disponible para variables dependientes de escala.
Variables independientes Importancia en el modelo. Para el mtodo de crecimiento CRT, esta opcin asigna
rangos a cada variable (predictora) independiente de acuerdo con su importancia para el modelo. No disponible para los mtodos QUEST o CHAID.
Sustitutos por divisin. Para los mtodos de crecimiento CRT y QUEST, si el modelo incluye sustitutos, se enumeran estos para cada divisin en el rbol. No disponible para los mtodos CHAID. Si desea obtener ms informacin, consulte Sustitutos en p. 20. Comportamiento del nodo Resumen. En el caso de variables dependientes de escala, la tabla incluye el nmero
de nodo, el nmero de casos y el valor de la media de la variable dependiente. En el caso de variables dependientes categricas con beneficios definidos, la tabla incluye el nmero de nodo, el nmero de casos, el beneficio promedio y los valores de ROI
(retorno de la inversin). No disponible para variables dependientes categricas para las que no se hayan definido beneficios. Si desea obtener ms informacin, consulte Beneficios en p. 23.
Figura 1-23 Tablas de resumen de ganancias para nodos y percentiles
Por categora objetivo. Para variables dependientes categricas con categoras objetivo
definidas, la tabla incluye el porcentaje de ganancia, el porcentaje de respuestas y el ndice porcentual (elevacin) por nodo o grupo de percentiles. Se genera una tabla separada para cada categora objetivo. No disponible para variables dependientes de escala o categricas para las que no se hayan definido categoras objetivo. Si desea obtener ms informacin, consulte Seleccin de categoras en p. 8.
Filas. Las tablas de comportamiento de los nodos pueden mostrar resultados por
nodos terminales, por percentiles o por ambos. Si selecciona ambos, se generan dos tablas por cada categora objetivo. Las tablas de percentiles muestran valores acumulados para cada percentil, basados en el orden.
Incremento del percentil. Para las tablas de percentiles, puede seleccionar el incremento del percentil: 1, 2, 5, 10, 20 o 25. Mostrar estadsticos acumulados. Para las tablas de nodos terminales, muestra columnas adicionales en cada tabla con resultados acumulados.
Grficos
Figura 1-25 Cuadro de dilogo Resultados, pestaa Grficos
Los grficos disponibles dependen del nivel de medida de la variable dependiente, del mtodo de crecimiento y de otros valores de configuracin.
Importancia en el modelo. Diagrama de barras de la importancia del modelo por variable (predictora) independiente. Disponible slo con el mtodo de crecimiento CRT. Comportamiento del nodo Ganancia. La ganancia es el porcentaje de los casos totales en la categora objetivo en cada nodo, calculada como: (n criterio de nodo/n total de criterios) x 100. El grfico de ganancias es un grfico de lneas de las ganancias por percentiles acumulados,
40 Captulo 1
calculadas como: (n de criterios acumulados en el percentil / n total de criterios) x 100. Se generar un grfico de lneas distinto para cada categora objetivo. Disponible slo para variables dependientes categricas con categoras objetivo definidas. Si desea obtener ms informacin, consulte Seleccin de categoras en p. 8. El grfico de ganancias representa los mismos valores que se muestran en la columna Porcentaje de ganancia en la tabla de ganancias para los percentiles, que tambin informa de los valores acumulados.
Figura 1-26 Tabla de ganancias para los percentiles y grfico de ganancias
categora objetivo especificada. El grfico de respuestas es un grfico de lneas de las respuestas por percentiles acumulados, calculado como: (n de criterios acumulados en el percentil / n total acumulado en el percentil) x 100. Disponible slo para variables dependientes categricas con categoras objetivo definidas.
El grfico de respuestas representa los mismos valores que se muestran en la columna Responde en la tabla de ganancias para los percentiles.
Figura 1-27 Tabla de ganancias para los percentiles y grfico de respuestas
ndice. El ndice es la razn del porcentaje de respuestas en la categora criterio del nodo comparado con el porcentaje global de respuestas en la categora criterio para toda la muestra. El grfico de ndices es un grfico de lneas que representa los valores de los ndices de percentiles acumulados. Disponible slo para variables dependientes categricas. El ndice de percentiles acumulados se calcula como: (porcentaje de respuestas acumuladas en el percentil / porcentaje respestas totales) x 100. Se genera un grfico separado para cada categora objetivo, y las categoras objetivo deben estar definidas.
El grfico de ndices representa los mismos valores que se muestran en la columna ndice en la tabla de ganancias para los percentiles.
42 Captulo 1 Figura 1-28 Tabla de ganancias para los percentiles y grfico de ndices
Media. Grfico de lneas de los valores de las medias en los percentiles acumulados
El grfico de los beneficios promedios representa los mismos valores que se muestran en la columna Beneficio en la tabla de resumen de ganancias para los percentiles.
43 Creacin de rboles de clasificacin Figura 1-29 Tabla de resumen de ganancias para los percentiles y grfico de beneficio medio
acumulado. ROI se calcula como la relacin entre los beneficios y los gastos. Disponible slo para variables dependientes categricas con beneficios definidos. El grfico de ROI representa los mismos valores que se muestran en la columna ROI en la tabla de resumen de ganancias para los percentiles.
44 Captulo 1 Figura 1-30 Tabla de resumen de ganancias para los percentiles y grfico de ROI
Incremento del percentil. Para todos los grficos de percentiles, este ajuste controla los
La pestaa Reglas ofrece la capacidad de generar reglas de seleccin o clasificacin/prediccin en forma de sintaxis de comandos de SPSS, SQL o slo texto (ingls sin formato). Estas reglas se pueden visualizar en el Visor y/o guardar en un archivo externo.
Sintaxis. Controla la forma de las reglas de seleccin en los resultados que se
de comandos que definen una condicin de filtrado que permite la seleccin de subconjuntos de casos o como instrucciones COMPUTE que se pueden utilizar para asignar puntuaciones a los casos.
46 Captulo 1 !
SQL. Las reglas SQL estndar se generan para seleccionar o extraer registros de
una base de datos, o para asignar valores a dichos registros. Las reglas SQL generadas no incluyen nombres de tablas ni ninguna otra informacin sobre fuentes de datos.
!
Slo texto. Pseudocdigo en ingls sin formato. Las reglas se expresan como un
conjunto de instrucciones lgicas if...then que describen las clasificaciones o predicciones del modelo para cada nodo. Las reglas expresadas en esta forma pueden utilizar etiquetas de variable y de valor definidas o nombres de variables y valores de datos.
Tipo. Para las reglas de SPSS y SQL, controla el tipo de reglas generadas: reglas de seleccin o puntuacin.
!
Seleccionar casos. Las reglas se pueden utilizar para seleccionar aquellos casos
que cumplan los criterios de pertenencia al nodo. Para las reglas de SPSS y SQL, se genera una nica regla para seleccionar todos los casos que cumplan los criterios de seleccin.
!
Asignar valores a los casos. Las reglas se pueden utilizar para asignar las
predicciones del modelo a los casos que cumplan los criterios de pertenencia al nodo. Se genera una regla independiente para cada nodo que cumple los criterios de pertenencia.
Incluir sustitutos en las reglas de SPSS y SQL. Para CRT y QUEST, puede incluir predictores sustitutos del modelo en las reglas. Es conveniente tener en cuenta que las reglas que incluyen sustitutos pueden ser bastante complejas. En general, si slo desea derivar informacin conceptual sobre el rbol, excluya a los sustitutos. Si algunos casos tienen datos de variables (predictoras) independientes incompletas y desea reglas que imiten a su rbol, entonces deber incluir a los sustitutos. Si desea obtener ms informacin, consulte Sustitutos en p. 20. Nodos. Controla el mbito de las reglas generadas. Se genera una regla distinta para cada nodo incluido en el mbito.
! !
Todos los nodos terminales. Genera reglas para cada nodo terminal. Mejores nodos terminales. Genera reglas para los n nodos terminales superiores
segn los valores de ndice. Si la cifra supera el nmero de nodos terminales del rbol, se generan reglas para todos los nodos terminales. (Consulte la siguiente nota.)
para nodos terminales para el porcentaje n de casos superiores segn los valores de ndice. (Consulte la siguiente nota.)
!
Nodos terminales cuyo valor del ndice alcanza o excede un valor de corte. Genera
reglas para todos los nodos terminales con un valor de ndice mayor o igual que el valor especificado. Un valor de ndice mayor que 100 significa que el porcentaje de casos en la categora objetivo en dicho nodo supera el porcentaje del nodo raz. (Consulte la siguiente nota.)
!
Nota 1: La seleccin de nodos basada en los valores de ndice slo est disponible para las variables dependientes categricas con categoras objetivo definidas. Si ha especificado varias categoras objetivo, se generar un conjunto separado de reglas para cada una de las categoras objetivo. Nota 2: En el caso de reglas de SPSS y SQL para la seleccin de casos (no reglas para la asignacin de valores), Todos los nodos y Todos los nodos terminales generarn de forma eficaz una regla que seleccione todos los casos utilizados en el anlisis.
Exportar reglas a un archivo. Guarda las reglas en un archivo de texto externo.
Tambin se pueden generar y guardar, de forma interactiva, reglas de seleccin o puntuacin, basadas en los nodos seleccionados en el modelo del rbol final. Si desea obtener ms informacin, consulte Reglas de seleccin de casos y puntuacin en Captulo 2 en p. 59. Nota: si aplica reglas con el formato de sintaxis de comandos de SPSS a otro archivo de datos, dicho archivo deber contener variables con los mismos nombres que las variables independientes incluidas en el modelo final, medidas con la misma mtrica y con los mismos valores definidos como perdidos por el usuario (si hubiera).
Captulo
Ocultar y mostrar ramas seleccionadas del rbol. Controlar la presentacin del contenido de los nodos, los estadsticos que se muestran en las divisiones de los nodos y otra informacin. Cambiar los colores de los nodos, fondos, bordes, grficos y fuentes. Cambiar el estilo y el tamao de la fuente. Cambiar la alineacin de los rboles. Seleccionar subconjuntos de casos para realizar anlisis ms detallados basados en los nodos seleccionados. Crear y guardar reglas para la seleccin y puntuacin de casos basadas en los nodos seleccionados.
o
E En la ventana del Visor, pulse con el botn derecho del ratn en el modelo del rbol y,
49
50 Captulo 2
Para ocultar, contraer, todos los nodos filiales en una rama por debajo de un nodo parental:
E Pulse en el signo menos () de la pequea casilla situada debajo de la esquina derecha
inferior del nodo parental. Se ocultarn todos los nodos de esa rama situados por debajo del nodo parental. Para mostrar, expandir, los nodos filiales en una rama por debajo de un nodo parental:
E Pulse en el signo ms (+) de la pequea casilla situada debajo de la esquina derecha
inferior del nodo parental. Nota: ocultar los nodos filiales que hay en una rama no es lo mismo que podar un rbol. Si desea un rbol podado, deber solicitar la poda antes de crear el rbol y las ramas podadas no se incluirn en el rbol final. Si desea obtener ms informacin, consulte Poda de rboles en Captulo 1 en p. 19.
Figura 2-1 rbol expandido y contrado
Utilizando como base los nodos seleccionados actualmente, es posible seleccionar casos, generar reglas de puntuacin y de seleccin, as como realizar otras acciones. Para seleccionar varios nodos:
E Pulse en un nodo que desee seleccionar. E Mientras mantiene pulsada Ctrl pulse con el ratn en los dems nodos que desee
aadir a la seleccin. Puede realizar una seleccin mltiple de nodos hermanos y/o de nodos parentales en una rama, y de nodos filiales en otra rama. Sin embargo, no podr utilizar la seleccin mltiple en un nodo parental y en un nodo filial/descendiente de la misma rama del nodo.
Mapa del rbol. Puede utilizar el mapa del rbol, que es una versin ms pequea
y simplificada del rbol, para desplazarse por l y seleccionar nodos. Si desea obtener ms informacin, consulte Mapa del rbol en p. 52.
!
para la presentacin del rbol. Si desea obtener ms informacin, consulte Escalamiento de la presentacin del rbol en p. 53.
!
ms compacta mostrando slo tablas o slo grficos en los nodos, o desactivando la visualizacin de las etiquetas de los nodos o la informacin de las variables independientes. Si desea obtener ms informacin, consulte Control de la informacin que se muestra en el rbol en p. 55.
52 Captulo 2
! !
El nodo seleccionado actualmente aparece resaltado tanto en el Editor del modelo del rbol como en la ventana del mapa del rbol. La parte del rbol que se ve actualmente en el rea de presentacin del Editor del modelo del rbol aparece indicada con un rectngulo rojo en el mapa del rbol. Pulse con el botn derecho en el rectngulo y arrstrelo para cambiar la seccin del rbol que se muestra en el rea de presentacin. Si selecciona un nodo en el mapa del rbol que no aparece actualmente en el rea de presentacin del Editor del rbol, la vista cambiar para incluir el nodo seleccionado. La seleccin de varios nodos en el mapa del rbol funciona de la misma manera que en el Editor del rbol: Mantenga pulsada la tecla Ctrl al mismo tiempo que pulsa el botn del ratn para seleccionar varios nodos. No podr utilizar la seleccin mltiple en un nodo parental y en un nodo filial/descendiente de la misma rama del nodo.
Tambin puede especificar un valor de escala antes de crear el modelo del rbol. Si desea obtener ms informacin, consulte Resultados en Captulo 1 en p. 31.
54 Captulo 2
Utilice el men Ver de la ventana de resumen de nodos para cambiar entre las vistas de tabla, grfico o reglas de resumen. Utilice el men Reglas de la ventana de resumen de nodos para seleccionar el tipo de reglas que desea ver. Si desea obtener ms informacin, consulte Reglas de seleccin de casos y puntuacin en p. 59. Todas las vistas de la ventana de resumen de nodos reflejan un resumen combinado para todos los nodos seleccionados.
tiempo que pulsa el botn del ratn para seleccionar varios nodos.
E Elija en los mens: Ver Resumen
55 Editor del rbol Figura 2-4 rbol con grficos en nodos y tabla para nodo seleccionado en la ventana de resumen
56 Captulo 2
Configuracin Valores de la prueba de significacin y valores p Nombres de las variables (predictoras) independientes Valor(es) independientes (predictores) para nodos Alineacin (arriba-abajo, izquierda-derecha, derecha-izquierda) Leyenda del grfico
Figura 2-5 Elementos del rbol
Seleccin en el men Opciones Estadsticos de las variables independientes Variables independientes Definiciones de los nodos Orientacin Leyenda
Color del borde, del fondo y del texto de los nodos Color de las ramas y del texto de las ramas Color del fondo del rbol Color de resalte de las categoras pronosticadas (variables dependientes categricas) Colores de los grficos de los nodos
Asimismo, se puede modificar el tipo, estilo y tamao de las fuentes de todo el texto del rbol. Nota: no se puede cambiar el color o los atributos de fuente para nodos o ramas individuales. Los cambios de color se aplican a todos los elementos del mismo tipo, y los cambios de fuente (que no sean el cambio de color) se aplican a todos los elementos del grfico. Para modificar los colores y los atributos de la fuente de texto
E Utilice la barra de herramientas para cambiar los atributos de fuente para todo el
rbol o los colores para los distintos elementos de dicho rbol. (Las pistas para las herramientas describen todos los controles de la barra de herramientas cuando se sita el puntero del ratn sobre ellos.) o
E Pulse dos veces en cualquier lugar del Editor del rbol para abrir la ventana
59 Editor del rbol Figura 2-8 Ventana Propiedades, pestaa Grficos de nodos
Seleccionar subconjuntos de casos basados en los nodos seleccionados. Si desea obtener ms informacin, consulte Filtrado de casos en p. 60. Generar reglas de seleccin de casos o reglas de puntuacin en formato de SPSS o SQL. Si desea obtener ms informacin, consulte Almacenamiento de las reglas de seleccin y puntuacin en p. 60.
Tambin puede guardar de forma automtica reglas basadas en distintos criterios cuando ejecute el procedimiento rbol de clasificacin para crear el modelo del rbol. Si desea obtener ms informacin, consulte Reglas de seleccin y puntuacin en Captulo 1 en p. 45.
60 Captulo 2
Filtrado de casos
Si desea obtener ms informacin sobre los casos de un determinado nodo o de un grupo de nodos, puede seleccionar un subconjunto de casos para realizar un anlisis ms detallado en los nodos seleccionados.
E Seleccione los nodos en el Editor del rbol. Mantenga pulsada la tecla Ctrl al mismo
tiempo que pulsa el botn del ratn para seleccionar varios nodos.
E Elija en los mens: Reglas Filtrar casos... E Introduzca un nombre de variable de filtro. Los casos de los nodos seleccionados
recibirn un valor igual a 1 para esta variable. Todos los dems casos recibirn un valor igual a 0 y se excluirn del anlisis subsiguiente hasta que se modifique el estado del filtro.
E Pulse en Aceptar. Figura 2-9 Cuadro de dilogo Filtrar casos
de comandos que definen una condicin de filtrado que permite la seleccin de subconjuntos de casos o como instrucciones COMPUTE que se pueden utilizar para asignar puntuaciones a los casos.
!
SQL. Las reglas SQL estndar se generan para seleccionar o extraer registros de
una base de datos, o para asignar valores a dichos registros. Las reglas SQL generadas no incluyen nombres de tablas ni ninguna otra informacin sobre fuentes de datos.
Tipo. Puede crear reglas de seleccin o de puntuacin.
!
Seleccionar casos. Las reglas se pueden utilizar para seleccionar aquellos casos
que cumplan los criterios de pertenencia al nodo. Para las reglas de SPSS y SQL, se genera una nica regla para seleccionar todos los casos que cumplan los criterios de seleccin.
!
Asignar valores a los casos. Las reglas se pueden utilizar para asignar las
predicciones del modelo a los casos que cumplan los criterios de pertenencia al nodo. Se genera una regla independiente para cada nodo que cumple los criterios de pertenencia.
Incluir sustitutos. Para CRT y QUEST, puede incluir predictores sustitutos del modelo
en las reglas. Es conveniente tener en cuenta que las reglas que incluyen sustitutos pueden ser bastante complejas. En general, si slo desea derivar informacin conceptual sobre el rbol, excluya a los sustitutos. Si algunos casos tienen datos de variables (predictoras) independientes incompletas y desea reglas que imiten a su rbol, entonces deber incluir a los sustitutos. Si desea obtener ms informacin, consulte Sustitutos en Captulo 1 en p. 20. Para guardar reglas de seleccin de casos o puntuacin:
E Seleccione los nodos en el Editor del rbol. Mantenga pulsada la tecla Ctrl al mismo
tiempo que pulsa el botn del ratn para seleccionar varios nodos.
E Elija en los mens: Reglas Exportar... E Seleccione el tipo de reglas que desea e introduzca un nombre de archivo.
Nota: si aplica reglas con el formato de sintaxis de comandos de SPSS a otro archivo de datos, dicho archivo deber contener variables con los mismos nombres que las variables independientes incluidas en el modelo final, medidas con la misma mtrica y con los mismos valores definidos como perdidos por el usuario (si hubiera).
Captulo
Se ha asignado el nivel de medida adecuado a todas las variables del anlisis. En el caso de variables dependientes categricas (nominales, ordinales), se han definido etiquetas de valor para todas las categoras que se deben incluir en el anlisis.
Utilizaremos el archivo tree_textdata.sav para ilustrar la importancia de estos dos requisitos. Este archivo de datos refleja el estado por defecto de los datos ledos o introducidos en SPSS antes de definir ningn atributo, como el nivel de medida o las etiquetas de valor.
63
64 Captulo 3
Los iconos situados junto a las dos variables en la lista de variables de origen indican que se ambas se tratarn como variables de escala.
Figura 3-1 Cuadro de dilogo principal rbol de clasificacin con dos variables de escala
E Seleccione dependiente como la variable dependiente. E Seleccione independiente como la variable independiente. E Pulse en Aceptar para ejecutar el procedimiento. E Vuelva a abrir el cuadro de dilogo rbol de clasificacin y pulse en Restablecer. E Pulse con el botn derecho en dependiente en la lista de origen y, en el men contextual, seleccione Nominal. E Realice los mismos pasos para la variable independiente en la lista de origen.
Ahora los iconos situados junto a cada variable indican que sern tratadas como variables nominales.
Figura 3-2 Iconos nominales en la lista de origen
E Seleccione dependiente como variable dependiente e independiente como variable independiente y pulse en Aceptar para ejecutar el procedimiento.
66 Captulo 3
Comparemos los dos rboles. Primero estudiaremos el rbol en el que las dos variables numricas se han tratado como variables de escala.
Figura 3-3 rbol con las dos variables tratadas como variables de escala
Cada nodo del rbol muestra el valor pronosticado, que es el valor de la media de la variable dependiente en dicho nodo. Para una variable que es en realidad categrica, puede que la media no sea un estadstico significativo. El rbol tiene cuatro nodos filiales, uno para cada valor de la variable independiente.
Los modelos de rbol fundirn a menudo nodos similares, pero para una variable de escala, slo se pueden fundir valores contiguos. En este ejemplo, no hay valores contiguos que se hayan considerado lo suficientemente similares como para fundir nodos entre s.
El rbol en el que se ha tratado a las dos variables como nominales es algo distinto en varios aspectos.
Figura 3-4 rbol con las dos variables tratadas como nominales
En lugar de un valor pronosticado, cada nodo contiene una tabla de frecuencias que muestra el nmero de casos (frecuencia y porcentaje) para cada categora de la variable dependiente. La categora pronosticada, que es la categora con el mayor valor de frecuencia en cada nodo, aparece resaltada. Por ejemplo, la categora pronosticada para el nodo 2 es la categora 3. En lugar de cuatro nodos filiales, slo hay tres, con dos valores de la variable independiente fundidos en un nico nodo.
Los dos valores independientes fundidos en el mismo nodo son el 1 y el 4. Ya que, por definicin, no hay ningn orden inherente a los valores nominales, se permite la fusin de valores aunque estos no sean contiguos.
68 Captulo 3
69 Requisitos y supuestos de los datos Figura 3-5 Definicin de etiquetas de valor para la variable dependiente
E Primero, introduzca 1 para Valor y S para Etiqueta de valor y, a continuacin, pulse en Aadir. E A continuacin, introduzca 2 para Valor y No para Etiqueta de valor y, a continuacin, vuelva a pulsar en Aadir. E A continuacin, pulse en Aceptar. E Vuelva a abrir el cuadro de dilogo rbol de clasificacin. En el cuadro de dilogo
an debe aparecer seleccionada dependiente como la variable dependiente, con un nivel de medida nominal.
E Pulse en Aceptar para volver a ejecutar el procedimiento.
70 Captulo 3 Figura 3-6 rbol para la variable dependiente nominal con etiquetas de valor parciales
Ahora slo se incluirn en el modelo de rbol los dos valores de la variable dependiente con etiquetas de valor definidas. Se han excluido todos los casos con un valor igual a 3 para la variable dependiente, lo que podra no apreciarse con facilidad si no se est familiarizado con los datos.
Cuando aparezca la informacin del diccionario de datos para la variable nombre en el cuadro de dilogo Definir propiedades de variables, se observa que aunque hay unos 300 casos con valor igual a 3 para dicha variable, no se ha definido ninguna etiqueta de valor para dicho valor.
Figura 3-7 Variable con etiquetas de valor parciales en el cuadro de dilogo Definir propiedades de variables
Captulo
Los bancos mantienen una base de datos con informacin histrica sobre los clientes a los que el banco ha concedido prstamos, incluido si han o no reintegrado o causado mora en el pago de dichos prstamos. La utilizacin de rboles de clasificacin permite analizar las caractersticas de los dos grupos de clientes y generar modelos para pronosticar la verosimilitud de que los solicitantes de prstamos causen mora en el pago de los mismos. Los datos de los crditos se almacenan en tree_credit.sav.
Automatic Interaction Detection). En cada paso, CHAID elige la variable independiente (predictora) que presenta la interaccin ms fuerte con la variable dependiente. Las categoras de cada predictor se funden si no son significativamente distintas respecto a la variable dependiente.
73
74 Captulo 4
E Seleccione Valoracin de crdito como la variable dependiente. E Seleccione las restantes variables como variables independientes. (El procedimiento
excluir de forma automtica cualquier variable cuya contribucin al modelo final no sea significativa.) En este momento ya se puede ejecutar el procedimiento y generar un modelo de rbol bsico, pero vamos a seleccionar algunos resultados adicionales y realizar algunos pequeos ajustes a los criterios utilizados para generar el modelo.
Se abrir el cuadro de dilogo Categoras, en el que se pueden especificar las categoras objetivo de inters de la variable dependiente. Hay que tener en cuenta que si bien las categoras objetivo no afectan al modelo del rbol propiamente dicho, algunos resultados y opciones slo estarn disponibles si se han seleccionado categoras objetivo.
Figura 4-2 Cuadro de dilogo Categoras
Los clientes con una valoracin del crdito negativa (que han causado mora en un prstamo) se tratarn como la categora objetivo de inters.
E Pulse en Continuar.
76 Captulo 4
E En el grupo Nmero de casos mnimo, escriba 400 para Nodo parental y 200 para
Nodo filial.
E Pulse en Continuar.
Se abrir un cuadro de dilogo con pestaas, en el que podr seleccionar distintos tipos de resultados adicionales.
Figura 4-4 Cuadro de dilogo Resultados, pestaa rbol
E En la pestaa rbol, seleccione (marque) rbol en formato de tabla. E A continuacin, pulse en la pestaa Grficos.
Nota: estos grficos requieren una categora objetivo para la variable dependiente. En este ejemplo slo se podr acceder a la pestaa Grficos cuando se hayan seleccionado una o ms categoras objetivo.
E Pulse en Continuar.
E Seleccione (marque) Nmero del nodo terminal, Valor pronosticado y Probabilidades pronosticadas. E Pulse en Continuar. E En el cuadro de dilogo principal rbol de clasificacin, pulse en Aceptar para
ejecutar el procedimiento.
80 Captulo 4
Tablas que proporcionan informacin acerca del modelo. Diagrama del rbol. Grficos que ofrecen una indicacin sobre el rendimiento del modelo. Las variables de prediccin del modelo aadidas al archivo de datos de trabajo.
La tabla de resumen del modelo proporciona cierta informacin muy general sobre las especificaciones utilizadas para crear el modelo y sobre el modelo resultante.
!
La seccin Especificaciones ofrece informacin sobre los valores de configuracin utilizados para generar el modelo de rbol, incluidas las variables utilizadas en el anlisis. La seccin Resultados muestra informacin sobre el nmero de nodos totales y terminales, la profundidad del rbol (nmero de niveles por debajo del nodo raz) y las variables independientes incluidas en el modelo final.
Se han especificado cinco variables independientes, pero slo se han incluido tres en el modelo final. Las variables para estudios y nmero actual de prstamos para coches no contribuyen de forma significativa al modelo, por lo que se eliminarn automticamente del modelo final.
82 Captulo 4
El diagrama del rbol es una representacin grfica del modelo del rbol. Este diagrama del rbol muestra que:
!
Si se utiliza el mtodo CHAID, nivel de ingresos es el mejor predictor para valoracin de crdito.
Para la categora de ingresos bajos, nivel de ingresos es el nico predictor significativo para valoracin de crdito. De todos los clientes del banco que pertenecen a esta categora, el 82% ha causado mora en los crditos. Como no hay ningn nodo filial por debajo de l, se considera un nodo terminal. Para las categoras de ingresos medios y altos, el siguiente mejor predictor es nmero de tarjetas de crdito. Para clientes con ingresos medios con cinco o ms tarjetas de crdito, el modelo incluye un predictor ms: edad. Cerca del 80% de dichos clientes con 28 o menos aos tienen una valoracin de crdito negativa, mientras que poco menos de la mitad de los clientes con ms de 28 aos tienen ese tipo de valoracin.
! !
Se puede utilizar el Editor del rbol para ocultar o mostrar ramas seleccionadas, cambiar el color y las fuentes, y seleccionar subconjuntos de casos basados en nodos seleccionados. Si desea obtener ms informacin, consulte Seleccin de casos en nodos en p. 90.
84 Captulo 4
La tabla del rbol, como su nombre indica, proporciona la mayor parte de la informacin esencial sobre el diagrama del rbol en forma de tabla. Para cada nodo, la tabla muestra:
! !
El nmero y porcentaje de casos dentro de cada categora de la variable dependiente. La categora pronosticada para la variable dependiente. En este ejemplo, la categora pronosticada es la categora valoracin del crdito, con ms del 50% de los casos en ese nodo, ya que slo hay dos valoraciones de crdito posibles. El nodo parental para cada nodo del rbol. Observe que el nodo 1, el nodo de nivel de ingresos bajos, no es el nodo parental de ningn nodo. Como es un nodo terminal, no tiene ningn nodo filial.
! !
Variable independiente utilizada para dividir el nodo. El valor de chi-cuadrado (ya que el rbol se gener utilizando el mtodo CHAID), grados de libertad (gl) y nivel de significacin (Sig. ) para la divisin. Para propsitos ms prcticos, es probable que slo est interesado en el nivel de significacin, que es de menos de 0,0001 para todas las divisiones de este modelo. El valor o valores de la variable independiente para dicho nodo.
Nota: para variables independientes ordinales y de escala, puede que vea rangos en el rbol y en la tabla del rbol expresados con el formato general (valor1, valor2], que bsicamente significa mayor que valor1 y menor o igual que valor2. En este ejemplo, el nivel de ingresos slo tiene tres valores posibles, Bajos, Medios y Altos,
y (Bajos, Medios] simplemente significa Medios. De manera similar, >Medios significa Altos.
La tabla de ganancias para nodos ofrece un resumen de informacin sobre los nodos terminales del modelo.
!
En esta tabla slo se muestran los nodos terminales, aquellos en los que se detiene el crecimiento del rbol. Con frecuencia, el nico inters lo suscitan los nodos terminales, ya que representan los mejores pronsticos de clasificacin para el modelo. Como los valores de ganancia proporcionan informacin sobre las categoras objetivo, esta tabla slo estar disponible si se especifican una o ms categoras objetivo. En este ejemplo, slo hay una categora objetivo, por lo que slo habr una tabla de ganancias para nodos. N del Nodo indica el nmero de casos en cada nodo terminal y Porcentaje del Nodo indica el porcentaje del nmero total de casos en cada nodo. N de Ganancia indica el nmero de casos en cada nodo terminal en la categora objetivo y Porcentaje de la Ganancia indica el porcentaje de casos en la categora objetivo con respecto al nmero global de casos en la categora objetivo; en este ejemplo, muestran el nmero y el porcentaje de casos con una valoracin de crdito negativa.
! !
86 Captulo 4 !
En el caso de variables dependientes categricas, Responde indica el porcentaje de casos en el nodo en la categora objetivo especificada. En este ejemplo, son los mismos porcentajes que se muestran en la categora Negativa en el diagrama del rbol. En el caso de variables dependientes categricas, ndice indica la razn del porcentaje de respuestas para la categora objetivo en comparacin con el porcentaje de respuestas de toda la muestra.
Valores de ndice
El valor del ndice es bsicamente una indicacin de cunto difiere el porcentaje observado de la categora objetivo para dicho nodo del porcentaje esperado para dicha categora objetivo. El porcentaje de la categora objetivo en el nodo raz representa el porcentaje esperado antes de considerar los efectos de cualquiera de las variables independientes. Un valor de ndice superior al 100% significa que hay ms casos en la categora objetivo que el porcentaje global de dicha categora objetivo. Por el contrario, un valor de ndice inferior al 100% significa que hay menos casos en la categora objetivo que el porcentaje global.
Grfico de ganancias
Figura 4-12 Grfico de ganancias para una categora objetivo de valoracin de crdito negativa
Este grfico de ganancias indica que el modelo es bastante bueno. Los grficos de ganancias acumuladas siempre comienzan en el 0% y finalizan en el 100% al ir de un extremo a otro. Si el modelo es bueno, el grfico de ganancias ir subiendo vertiginosamente hacia el 100% y, a continuacin, se estabilizar. Un modelo que no proporciona ninguna informacin seguir la lnea diagonal de referencia.
Grfico de ndice
Figura 4-13 Grfico de ndice para una categora objetivo de valoracin de crdito negativa
Este grfico de ndice indica que el modelo es bueno. Los grficos de ndices acumulados suelen comenzar por encima del 100% y descienden gradualmente hasta que alcanzan el 100%. En un buen modelo, el valor de ndice debe comenzar muy por encima del 100%, permanecer en una meseta elevada a medida que se avanza y, a continuacin, descender bruscamente hasta el 100%. Un modelo que no proporciona ninguna informacin la lnea rondar el 100% durante todo el grfico.
88 Captulo 4
Las tablas de riesgos y de clasificacin proporcionan una rpida evaluacin de la bondad del funcionamiento del modelo.
!
Una estimacin de riesgo de 0,205 indica que la categora pronosticada por el modelo (valoracin de crdito positiva o negativa) es errnea para el 20,5% de los casos. Por lo tanto, el riesgo de clasificar errneamente a un cliente es de aproximadamente el 21%. Los resultados en la tabla de clasificacin son coherentes con la estimacin de riesgo. La tabla muestra que el modelo clasifica de forma correcta, aproximadamente, al 79,5% de los clientes.
No obstante, la tabla de clasificacin revela un problema potencial con este modelo: Para aquellos clientes con una valoracin de crdito negativa, pronostica una valoracin negativa para slo el 65% de ellos, lo que significa que el 35% de los clientes con una valoracin de crdito negativa aparecen inapropiadamente clasificados como clientes buenos.
Valores pronosticados
Figura 4-15 Variables nuevas para valores pronosticados y probabilidades
de valoracin de crdito positiva. La probabilidad pronosticada es simplemente la proporcin de casos en cada categora de la variable dependiente para el nodo terminal que contiene cada caso. Por ejemplo, en el nodo 1, el 82% de los casos estn en la categora negativa y el 18% estn en
90 Captulo 4
la categora positiva, dando como resultado probabilidades pronosticadas de 0,82 y 0,18, respectivamente. En caso de una variable dependiente categrica, el valor pronosticado es la categora con la mayor proporcin de casos en el nodo terminal para cada caso. Por ejemplo, para el primer caso, el valor pronosticado es 1 (valoracin de crdito positiva) porque aproximadamente el 56% de los casos contenidos en su nodo terminal tienen una valoracin de crdito positiva. Por el contrario, para el segundo caso, el valor pronosticado es 0 (valoracin de crdito negativa) porque aproximadamente el 81% de los casos contenidos en su nodo terminal tienen una valoracin de crdito negativa. No obstante, si hay costes definidos, la relacin entre la categora pronosticada y las probabilidades pronosticadas puede que no sea tan directa. Si desea obtener ms informacin, consulte Asignacin de costes a resultados en p. 96.
91 Utilizacin de rboles de clasificacin para evaluar riesgos de crdito E Pulse en el nodo 9 para seleccionarlo. (Si desea seleccionar varios nodos, mantenga
pulsada la tecla Ctrl al mismo tiempo que pulsa el botn del ratn).
E En los mens del Editor del rbol, seleccione: Reglas Filtrar casos... Figura 4-16 Cuadro de dilogo Filtrar casos
El cuadro de dilogo Filtrar casos crear una variable de filtro y aplicar un ajuste de filtrado basado en los valores de dicha variable. El nombre por defecto de una variable de filtro es filter_$.
! !
Los casos de los nodos seleccionados recibirn un valor igual a 1 para esta variable. Todos los dems casos recibirn un valor igual a 0 y se excluirn del anlisis subsiguiente hasta que se modifique el estado del filtro.
En este ejemplo, esto significa que se filtrarn (pero no se eliminarn) los casos que no estn en el nodo 9.
E Pulse en Aceptar para crear la variable de filtro y aplicar la condicin de filtrado.
En el Editor de datos, los casos que se han filtrado se indican con una barra transversal sobre el nmero de fila. Se filtrarn todos los casos que no estn en el nodo 9. Y viceversa, no se filtrarn aquellos casos que estn en el nodo 9; por consiguiente los subsiguientes anlisis incluirn slo los casos del nodo 9.
93 Utilizacin de rboles de clasificacin para evaluar riesgos de crdito Figura 4-18 Cuadro de dilogo Tablas de contingencia
E Seleccione Valoracin de crdito como la variable de fila. E Seleccione Estudios y Prstamos para coches como las variables de columna. E Pulse en Casillas.
94 Captulo 4 Figura 4-19 Cuadro de dilogo Tablas de contingencia: Mostrar en las casillas
E Seleccione (marque) Fila en el grupo Porcentajes. E A continuacin, pulse en Continuar y, en el cuadro de dilogo principal Tablas de contingencia, pulse en Aceptar para ejecutar el procedimiento.
Al examinar las tablas de contingencia, se observa que no existe una gran diferencia entre casos en las categoras de valoracin de crdito positiva y negativa para las dos variables que no se han incluido en el modelo.
Figura 4-20 Tablas de contingencia para los casos del nodo seleccionado
Para la variable estudios, un poco ms de la mitad de los casos con una valoracin de crdito negativa slo tienen estudios secundarios, mientras que un poco ms de la mitad de los casos con una valoracin de crdito positiva tienen estudios universitarios; si bien esta diferencia no es estadsticamente significativa. Para la variable prstamos para coches, el porcentaje de casos de crditos positivos con slo uno o ningn prstamo para coche es superior al porcentaje correspondiente a los casos de crditos negativos, pero la amplia mayora de casos en ambos grupos tiene uno o ms prstamos para coches.
96 Captulo 4
Por lo tanto, aunque ahora ya est claro por qu no se incluyeron estas variables en el modelo final, desafortunadamente no hemos obtenido ninguna informacin sobre cmo mejorar la prediccin para el nodo 9. Si hubiera otras variables no especificadas para el anlisis, puede que desee examinar algunas antes de continuar.
97 Utilizacin de rboles de clasificacin para evaluar riesgos de crdito E En el cuadro de dilogo Seleccionar casos, seleccione Todos los casos y, a continuacin, pulse en Aceptar. Figura 4-21 Cuadro de dilogo Seleccionar casos
98 Captulo 4 E Pulse en la pestaa Costes de clasificacin errnea. Figura 4-22 Cuadro de dilogo Opciones, pestaa Costes de clasificacin errnea
Positiva, introduzca un valor de 2. Esto indica al procedimiento que el coste de clasificar errneamente un riesgo de crdito negativo como positivo es el doble de alto que el coste de clasificar errneamente un riesgo de crdito positivo como negativo.
E Pulse en Continuar y, a continuacin, pulse en Aceptar en el cuadro de dilogo
99 Utilizacin de rboles de clasificacin para evaluar riesgos de crdito Figura 4-23 Modelo del rbol con los valores de costes corregidos
A primera vista, el rbol generado por el procedimiento parece esencialmente el mismo que el rbol original. Sin embargo, una inspeccin ms detallada revela que si bien la distribucin de los casos en cada nodo no ha variado, algunas categoras pronosticadas s lo han hecho.
100 Captulo 4
En el caso de los nodos terminales, la categora pronosticada sigue siendo la misma en todos los nodos excepto en uno: el nodo 9. La categora pronosticada es ahora Negativa incluso aunque ms de la mitad de los casos estn en la categora Positiva. Como hemos indicado al procedimiento que la clasificacin errnea de los riesgos de crdito negativos como positivos tena un coste superior a la clasificacin errnea de los riesgos de crdito positivos como negativos, cualquier nodo en el que los casos estn distribuidos de una forma bastante uniforme entre las dos categoras, ahora tendr una categora pronosticada Negativa, incluso aunque una ligera mayora de casos est en la categora Positiva. Este cambio en la categora pronosticada se refleja en la tabla de clasificacin.
Figura 4-24 Tablas de riesgos y de clasificacin basadas en costes corregidos
! !
Casi el 86% de los riesgos de crdito negativos aparecen ahora correctamente clasificados, comparado con el anterior 65%. Por otra parte, la correcta clasificacin de los riesgos de crdito positivos ha disminuido del 90% al 71% y la clasificacin correcta global ha descendido del 79,5% al 77,1%.
Se observa tambin que la estimacin de riesgo y la tasa de clasificacin correcta global ya no son coherentes la una con la otra. Si la tasa de clasificacin correcta global es del 77,1%, se esperara una estimacin de riesgo de 0,229. En este ejemplo,
al aumentar el coste de clasificacin errnea para los casos de crditos negativos, se ha inflado el valor de riesgo, haciendo que su interpretacin sea ms compleja.
Resumen
Se pueden utilizar los modelos de rbol para clasificar casos en grupos identificados por ciertas caractersticas, como son las caractersticas asociadas con los clientes de los bancos con registros de crditos positivos y negativos. Si un determinado resultado pronosticado es ms importante que los dems posibles resultados, se puede ajustar el modelo para asociar un mayor coste de clasificacin errnea a dicho resultado; sin embargo, la reduccin de las tasas de clasificacin errnea para un resultado aumentar las tasas de clasificacin errnea para otros resultados.
Captulo
Una de las caractersticas ms potentes y tiles del procedimiento rbol de clasificacin es la capacidad de crear modelos que despus se pueden aplicar a otros archivos de datos para pronosticar resultados. Por ejemplo, basndonos en un archivo de datos que contenga tanto informacin demogrfica como informacin sobre precios de compra de vehculos, podemos generar un modelo que se pueda utilizar para pronosticar cunto se gastaran en la compra de un nuevo coche personas con caractersticas demogrficas similares; y, a continuacin, aplicar dicho modelo a otros archivos de datos que contengan informacin demogrfica pero no dispongan de informacin sobre adquisiciones previas de vehculos. Para este ejemplo, utilizaremos el archivo de datos rbol_coche.sav.
103
E Seleccione Precio del vehculo principal como la variable dependiente. E Seleccione las restantes variables como variables independientes. (El procedimiento
excluir de forma automtica cualquier variable cuya contribucin al modelo final no sea significativa.)
E Para el mtodo de desarrollo, seleccione CRT. E Pulse en Resultados.
105 Creacin de un modelo de puntuacin Figura 5-2 Cuadro de dilogo Resultados, pestaa Reglas
E Pulse en la pestaa Reglas. E Seleccione (marque) Generar reglas de clasificacin. E Para Sintaxis, seleccione SPSS. E Para Tipo, seleccione Asignar valores a los casos. E Seleccione (marque) Exportar reglas a un archivo e introduzca un nombre de archivo y
la ubicacin del directorio. Recuerde el nombre de archivo y la ubicacin o antelos porque necesitar esta informacin ms adelante. Si no incluye una ruta de directorio, puede que no sepa dnde se ha guardado el archivo. Puede utilizar el botn Examinar para desplazarse hasta una ubicacin de directorio especfica (y vlida).
106 Captulo 5 E Pulse en Continuar y, a continuacin, pulse en Aceptar para ejecutar el procedimiento
La tabla de resumen del modelo indica que slo tres de las variables independientes seleccionadas han tenido una contribucin lo suficientemente significativa como para ser incluidas en el modelo final: ingresos, edad y estudios. Esta informacin es importante si desea aplicar este modelo a otros archivos de datos, ya que las variables independientes utilizadas en la creacin del modelo debern estar presentes en todos los archivos de datos a los que se desee aplicar el modelo. La tabla de resumen tambin indica que el propio modelo de rbol no es en particular un modelo simple ya que lo forman 29 nodos y 15 nodos terminales. Puede que este hecho no sea un problema si se desea un modelo fiable y que se pueda aplicar
en la prctica en lugar de un modelo sencillo que sea fcil de describir o explicar. Por supuesto, para efectos prcticos, probablemente tambin desee un modelo que no dependa de demasiadas variables (predictoras) independientes. En este caso esto no es un problema ya que slo se han incluido tres variables independientes en el modelo final.
108 Captulo 5
El diagrama de modelo de rbol tiene tantos nodos que puede ser difcil ver el modelo en toda su extensin con un tamao en el que la informacin contenida en el nodo an sea legible. Puede utilizar el mapa del rbol para verlo completo:
E Pulse dos veces en el rbol en la ventana del Visor para abrir el Editor del rbol. E En los mens del Editor del rbol, seleccione: Ver Mapa del rbol Figura 5-5 Mapa del rbol
El mapa del rbol muestra todo el rbol. Se puede modificar el tamao de la ventana del mapa del rbol, y se ampliar o reducir la presentacin del mapa del rbol para que se ajuste al tamao de la ventana. El rea resaltada en el mapa del rbol es el rea del rbol que se muestra actualmente en el Editor del rbol. El mapa del rbol se puede utilizar para desplazarse por el rbol y seleccionar nodos.
! !
Si desea obtener ms informacin, consulte Mapa del rbol en Captulo 2 en p. 52. En el caso de variables dependientes de escala, cada nodo muestra la media y la desviacin tpica de la variable dependiente. El nodo 0 muestra una media global del precio de compra de los vehculos de cerca de 29,9 (en miles), con una desviacin tpica de cerca de 21,6.
El nodo 1, que representa los casos con unos ingresos por debajo de los 75 (tambin en miles), tiene una media del precio de los vehculos de slo 18,7. En contraste, el nodo 2, que representa los casos con unos ingresos de 75 o ms, tiene una media del precio de los vehculos de 60,9.
Un estudio en detalle del rbol mostrara que la edad y los estudios tambin presentan una relacin con el precio de compra de los vehculos, pero en este momento estamos ms interesados en la aplicacin prctica del modelo que en un examen detallado de sus componentes.
Estimacin de riesgo
Figura 5-6 Tabla de riesgo
Ninguno de los resultados examinados hasta ahora nos indica si este es un modelo particularmente bueno. Un indicador del rendimiento del modelo es la estimacin de riesgo. En el caso de una variable dependiente de escala, la estimacin de riesgo es una medida de la varianza dentro del nodo, que por s misma no aporta mucha informacin. Una menor varianza indica un mejor modelo, pero la varianza est relacionada con la unidad de medida. Si, por ejemplo, se hubiera registrado el precio en unidades en vez de en miles, la estimacin de riesgo sera miles de veces ms grande. Para obtener una interpretacin significativa de la estimacin de riesgo con una variable dependiente de escala, es necesario realizar algunos pasos adicionales:
! !
La varianza total es igual a la varianza dentro del nodo (error) ms la varianza entre los nodos (explicada). La varianza dentro del nodo es el valor de la estimacin de riesgo: 68,485.
110 Captulo 5 !
La varianza total es la varianza para las variables dependientes antes de tener en consideracin a las variables independientes o, lo que es lo mismo, la varianza en el nodo raz. La desviacin tpica que se muestra en el nodo raz es de 21,576; por lo que la varianza total es ese valor al cuadrado: 465,524. La proporcin de la varianza debida al error (varianza no explicada) es 68,485/465,524 = 0,147. La proporcin de la varianza explicada por el modelo es 10,147 = 0,853 85,3%, lo que indica que es un modelo bastante bueno. (La interpretacin de estos valores es similar a la de la tasa de clasificacin correcta global para una variable dependiente categrica.)
! ! !
El comando INSERT ejecutar los comandos almacenados en el archivo especificado, que es el archivo de reglas generado durante la creacin del modelo.
E En los mens de la ventana de sintaxis de comandos, seleccione: Ejecutar Todos
nod_001 contiene el nmero del nodo terminal pronosticado por el modelo para cada caso. pre_001 contiene el valor pronosticado para el precio de compra de vehculos para cada caso.
Como hemos solicitado reglas para la asignacin de valores para nodos terminales, el nmero de valores pronosticados posibles ser el mismo que el nmero de nodos terminales, que en este caso es de 15. Por ejemplo, cada caso con un nmero de nodo pronosticado de 10 tendr el mismo precio de compra de vehculos pronosticado: 30,56. Este es, y no por casualidad, el valor de la media indicado para el nodo terminal 10 en el modelo original. Aunque normalmente el modelo se aplica a datos para los que no se conoce el valor de la variable dependiente, en este ejemplo, el archivo de datos al que se aplica el modelo contiene realmente dicha informacin; por lo que se pueden comparar las predicciones del modelo con los valores reales.
113 Creacin de un modelo de puntuacin E Elija en los mens: Analizar Correlaciones Bivariadas... E Seleccione Precio del vehculo principal y pre_001. Figura 5-9 Cuadro de dilogo Correlaciones bivariadas
114 Captulo 5 Figura 5-10 Correlacin entre el precio de los vehculos real y el precio pronosticado
La correlacin de 0,92 indica una correlacin positiva muy alta entre el precio de los vehculos real y el precio pronosticado, lo que indica que el modelo funciona correctamente.
Resumen
Se puede utilizar el procedimiento rbol de clasificacin para crear modelos que despus se pueden aplicar a otros archivos de datos para pronosticar resultados. El archivo de datos de destino deber contener variables con los mismos nombres que las variables independientes incluidas en el modelo final, medidas con la misma mtrica y con los mismos valores definidos como perdidos por el usuario (si hubiera). No obstante, no ser necesario que en el archivo de datos de destino estn presentes ni la variable dependiente ni las variables independientes excluidas del modelo final.
Captulo
Los diferentes mtodos de crecimiento tratan los valores perdidos para variables (predictoras) independientes de distintas maneras:
!
CHAID y CHAID exhaustivo tratan los valores perdidos del sistema o definidos como perdidos por el usuario para cada variable independiente como una nica categora. En el caso de variables independientes ordinales y de escala, se podr fundir dicha categora a continuacin con otras categoras de la variable independiente, dependiendo de los criterios de crecimiento. CRT y QUEST pueden utilizar sustitutos para variables (predictoras) independientes. Para los casos en que el valor de esa variable falte, se utilizarn otras variables independientes con asociaciones muy cercanas a la variable original para la clasificacin. A estas variables predictoras alternativas se les denomina sustitutos.
Este ejemplo muestra la diferencia entre CHAID y CRT cuando hay valores perdidos para variables independientes utilizadas en el modelo. Para este ejemplo, utilizaremos el archivo de datos tree_missing_data.sav. Nota: en el caso de variables independientes nominales y de variables dependientes nominales, se puede elegir tratar los valores definidos como perdidos por el usuario como valores vlidos, en cuyo caso dichos valores se tratarn como cualquier otro valor no perdido. Si desea obtener ms informacin, consulte Valores perdidos en Captulo 1 en p. 28.
115
116 Captulo 6
De la misma manera que en el ejemplo del riesgo de crdito (para obtener ms informacin, consulte Captulo 4), en este ejemplo se intentar generar un modelo para clasificar los riesgos de crdito positivos y negativos. La principal diferencia es que este archivo de datos contiene valores perdidos para algunas variables independientes utilizadas en el modelo.
E Para ejecutar un anlisis de rbol de clasificacin, elija en los mens: Analizar Clasificar rbol...
117 Valores perdidos en modelos de rbol Figura 6-2 Cuadro de dilogo rbol de clasificacin
E Seleccione Valoracin de crdito como la variable dependiente. E Seleccione todas las dems variables como variables independientes. (El
procedimiento excluir de forma automtica cualquier variable cuya contribucin al modelo final no sea significativa.)
E Para el mtodo de crecimiento, seleccione CHAID.
Para este ejemplo, deseamos que el rbol sea lo ms sencillo posible, as que limitaremos el crecimiento del rbol elevando el nmero de casos mnimo para nodos parentales y filiales.
E En el cuadro de dilogo principal rbol de clasificacin, pulse en Criterios.
118 Captulo 6 Figura 6-3 Cuadro de dilogo Criterios, pestaa Lmites de crecimiento
E En el grupo Nmero de casos mnimo, escriba 400 para Nodo parental y 200 para
Nodo filial.
E Pulse en Continuar y, a continuacin, pulse en Aceptar para ejecutar el procedimiento.
Resultados de CHAID
Figura 6-4 rbol CHAID con valores de variables independientes perdidos
Para el nodo 3, el valor de nivel de ingresos aparece como >Medio;<perdido>. Esto significa que el nodo contiene casos en la categora de ingresos altos adems de todos los casos con valores perdidos para nivel de ingresos. El nodo terminal 10 contiene casos con valores perdidos para nmero de tarjetas de crdito. Si est interesado en identificar riesgos de crdito positivos, ste es en realidad el segundo mejor nodo terminal, lo que puede ser problemtico si se desea utilizar este modelo para pronosticar riesgos de crdito positivos. Probablemente, no es lo ms deseable generar un modelo que pronostica una valoracin de crdito positiva sencillamente porque no se tiene ninguna informacin sobre el nmero de tarjetas de crdito que tienen los casos y, adems, es posible que alguno de dichos casos tengan informacin perdida sobre los niveles de ingresos.
120 Captulo 6 Figura 6-5 Tablas de riesgos y de clasificacin para el modelo CHAID
Las tablas de riesgos y de clasificacin indican que el modelo CHAID clasifica correctamente cerca del 75% de los casos. No es un mal porcentaje, pero tampoco es fantstico. Adems, tenemos razones para sospechar que la tasa de clasificacin correcta para los casos con valoracin de crdito positiva sea excesivamente optimista, ya que se basa en parte en el supuesto de que la falta de informacin sobre dos variables independientes (nivel de ingresos y nmero de tarjetas de crdito) es una indicacin de una valoracin de crdito positiva.
Nota: la pestaa Sustitutos no ser visible a menos que haya seleccionado CRT o QUEST como mtodo de crecimiento.
Figura 6-6 Cuadro de dilogo Criterios, pestaa Sustitutos
Para cada una de las divisiones de los nodos de las variables independientes, el ajuste Automtico considerar todas las dems variables independientes del modelo como posibles sustitutos. Como en este ejemplo no hay muchas variables independientes, el ajuste Automtico es adecuado.
E Pulse en Continuar. E En el cuadro de dilogo rbol de clasificacin, pulse en Resultados.
E Pulse en la pestaa Estadsticos. E Seleccione Sustitutos por divisin. E Pulse en Continuar y, a continuacin, pulse en Aceptar para ejecutar el procedimiento.
Resultados de CRT
Figura 6-8 rbol CRT con valores de variables independientes perdidos
A primera vista ya se observa que este rbol no se parece mucho al rbol CHAID. De por s, este hecho no tiene necesariamente que ser significativo. En un modelo de rbol CRT, todas las divisiones son binarias; es decir, cada nodo parental se divide nicamente en dos nodos filiales. En un modelo CHAID, los nodos parentales se
124 Captulo 6
pueden dividir en muchos nodos filiales. Por lo tanto, los rboles tienen un aspecto distinto aunque ambos representen el mismo modelo subyacente. Sin embargo, existen varias diferencias importantes:
!
La variable (predictora) independiente ms importante del modelo CRT es nmero de tarjetas de crdito, mientras que en el modelo CHAID, el predictor ms importante era nivel de ingresos. Para los casos con menos de cinco tarjetas de crdito, nmero de tarjetas de crdito es el nico predictor significativo de la valoracin de crdito y el nodo 2 es un nodo terminal. Igual que con el modelo CHAID, nivel de ingresos y edad tambin estn incluidas en el modelo, aunque nivel de ingresos es ahora el segundo predictor en lugar del primero. No hay nodos que contengan una categora <perdido>, porque CRT utiliza en el modelo predictores sustitutos en vez de valores perdidos.
Las tablas de riesgos y de clasificacin muestran una tasa de clasificacin correcta de casi un 78%, un ligero aumento frente al modelo CHAID (75%).
La tasa de clasificacin correcta para los casos con valoracin de crdito negativa es mucho mayor para el modelo CRT: 81,6% frente a slo un 64,3% del modelo CHAID. Sin embargo, la tasa de clasificacin correcta para los casos con valoracin de crdito positiva ha descendido del 82,8% del modelo CHAID al 74,8% del modelo CRT.
Sustitutos
Las diferencias entre los modelos CHAID y CRT se deben, en parte, a la utilizacin de sustitutos en el modelo CRT. La tabla de sustitutos indica cmo se utilizaron los sustitutos en el modelo.
Figura 6-10 Tabla Sustitutos
! !
En el nodo raz (nodo 0), la mejor variable (predictora) independiente es nmero de tarjetas de crdito. En todos los casos con valores perdidos para nmero de tarjetas de crdito, se utiliza prstamos para coches como el predictor sustituto, ya que esta variable tiene una asociacin bastante alta (0,643) con nmero de tarjetas de crdito. Si un caso tambin tiene un valor perdido para prstamos para coches, entonces se utiliza edad como el sustituto (aunque tenga un valor de asociacin bastante bajo de slo 0,004). Tambin se utiliza edad como sustituto para nivel de ingresos en los nodos 1 y 5.
126 Captulo 6
Resumen
Los distintos mtodos de crecimiento tratan los datos perdidos de diferentes maneras. Si los datos que se han utilizado para crear el modelo contienen muchos valores perdidos (o si se desea aplicar un modelo a otros archivos de datos que contienen muchos valores perdidos), debe evaluar el efecto de los valores perdidos en los distintos modelos. Si desea utilizar sustitutos en el modelo para compensar el impacto los valores perdidos, utilice los mtodos CRT o QUEST.
Glosario
Automatic Interaction Detection). En cada paso, CHAID elige la variable independiente (predictora) que presenta la interaccin ms fuerte con la variable dependiente. Las categoras de cada predictor se funden si no son significativamente distintas respecto a la variable dependiente.
CHAID exhaustivo. Una modificacin del CHAID que examina todas las divisiones
divide los datos en segmentos para que sean lo ms homogneos que sea posible respecto a la variable dependiente. Un nodo terminal en el que todos los casos toman el mismo valor en la variable dependiente es un nodo homogneo y puro.
escala. Una variable puede ser tratada como de escala cuando sus valores representan categoras ordenadas con una mtrica con significado, por lo que son adecuadas las comparaciones de distancia entre valores. Son ejemplos de variables de escala: la edad en aos y los ingresos en dlares. ndice. El ndice es la razn del porcentaje de respuestas en la categora criterio del nodo comparado con el porcentaje global de respuestas en la categora criterio para toda la muestra. nominal. Una variable puede ser tratada como nominal cuando sus valores representan categoras que no obedecen a una ordenacin intrnseca. Por ejemplo, el departamento de la compaa en el que trabaja un empleado. Son ejemplos de variables nominales: la regin, el cdigo postal o la confesin religiosa. ordinal. Una variable puede ser tratada como ordinal cuando sus valores representan categoras con alguna ordenacin intrnseca. Por ejemplo los niveles de satisfaccin con un servicio, que vayan desde muy insatisfecho hasta muy satisfecho. Son ejemplos de variables ordinales: las puntuaciones de actitud que representan el nivel de satisfaccin o confianza y las puntuaciones de evaluacin de la preferencia. QUEST. rbol estadstico rpido, insesgado y eficiente (Quick, Unbiased, Efficient
Statistical Tree). Un mtodo que es rpido y que evita el sesgo que presentan otros mtodos al favorecer los predictores con muchas categoras. Slo puede especificarse QUEST si la variable dependiente es nominal.
127
128 Glosario
ndice
rboles, 1 almacenamiento de valores pronosticados, 89 almacenamiento de variables del modelo, 30 aplicacin de modelos, 103 rbol en formato de tabla, 83 atributos de texto, 56 beneficios, 23 colores, 56 colores de los grficos de los nodos, 56 contenido del rbol en una tabla, 32 control de la presentacin del rbol, 32, 55 control del tamao de los nodos, 12 costes de clasificacin errnea, 21 costes personalizados, 96 criterios de crecimiento para CHAID, 13 edicin, 49 efectos de las etiquetas de valor en el procedimiento rbol de clasificacin, 68 efectos del nivel de medida, 63 escalamiento de la presentacin del rbol, 53 estadsticos de nodo terminal, 34 estimacin de riesgo para variables dependientes de escala, 109 estimaciones de riesgo, 34 fuentes, 56 generacin de reglas, 45, 59 grficos, 39 importancia del predictor, 34 intervalos para variables independientes de escala, 15 limitacin del nmero de niveles, 12 mapa del rbol, 52 mtodo CRT, 16 ocultacin de ramas y nodos, 49 orientacin del rbol, 32 podar, 19 presentacin y ocultacin de los estadsticos de rama, 32 probabilidades previas, 24 puntuacin, 103
puntuaciones, 26 requisito para el procedimiento rbol de clasificacin, 63 seleccin de casos en nodos, 90 seleccin de varios nodos, 49 supuestos para el procedimiento rbol de clasificacin, 63 sustitutos, 115, 123 tabla de clasificacin errnea, 34 tabla de ganancias para nodos, 85 tabla de resumen del modelo, 80 trabajo con rboles grandes, 51 validacin cruzada, 10 validacin por divisin muestral, 10 valores de ndice, 34 valores perdidos, 28, 115 variables dependientes de escala, 103 rboles de clasificacin forzar la primera variable en el modelo, 1 mtodo CHAID, 1 mtodo CHAID exhaustivo, 1 mtodo CRT, 1 mtodo QUEST, 1, 18 nivel de medida, 1 rboles de decisin, 1
129
130 ndice
intervalos para variables independientes de escala, 15 mximo de iteraciones, 13 volver a dividir categoras fusionadas, 13 clasificacin errnea rboles, 34 costes, 21 valoraciones, 88 contraccin de ramas del rbol, 49 costes clasificacin errnea, 21 modelos de rbol, 96 CRT , 1 medidas de impureza, 16 podar, 19
modelos de rbol, 85
nivel de medida rboles de clasificacin, 1 en modelos de rbol, 63 nivel de significacin para la divisin de nodos, 18 nodos seleccin de varios nodos del rbol, 49 nmero de nodo almacenamiento como variable de rboles de clasificacin, 30
estimaciones de riesgo rboles, 34 para variables dependientes categricas, 88 para variables dependientes de escala en el procedimiento rbol de clasificacin, 109 etiquetas de valor procedimiento rbol de clasificacin, 68
poda de rboles de clasificacin frente a la ocultacin de nodos, 19 ponderacin de casos ponderaciones fraccionarias en rboles de clasificacin, 1 probabilidad pronosticada almacenamiento como variable de rboles de clasificacin, 30 puntuacin modelos de rbol, 103 puntuaciones rboles, 26
131 ndice
reglas creacin de sintaxis de seleccin y puntuacin para rboles de clasificacin, 45, 59 respuesta modelos de rbol, 85
seleccin de varios nodos del rbol, 49 semilla de aleatorizacin validacin del rbol de clasificacin, 10 sintaxis creacin de sintaxis de seleccin y puntuacin para rboles de clasificacin, 45, 59 sintaxis de comandos creacin de sintaxis de seleccin y puntuacin para rboles de clasificacin, 45, 59 SQL creacin de sintaxis SQL para seleccin y puntuacin, 45, 59 sustitutos en modelos de rbol, 115, 123
validacin rboles, 10 validacin cruzada rboles, 10 validacin por divisin muestral rboles, 10 valores de ndice rboles, 34 valores perdidos rboles, 28 en modelos de rbol, 115 valores pronosticados almacenamiento para modelos de rboles, 89 valor pronosticado almacenamiento como variable de rboles de clasificacin, 30 variables de escala variables dependientes en el procedimiento rbol de clasificacin, 103
tabla de clasificacin, 88