Está en la página 1de 22

Aplicación del Método CHAID en SPSS

Base de datos para el ejemplo: credit.sav


Y: credit rank; X1: social class; X2: paid; X3:Age; X4:Has amex card

INGRESAMOS LAS VARIABLES: DEPENDIENTE E INDEPENDIENTES

OJO: LAS VARIABLES DEBEN TENER LA MEDIDA CORRESPONDIENTE

PRIMERA VARIABLE FORZADA, LA PRIMERA VARIABLE QUE SE VA A TOMAR EN CUENTA ES LA QUE


TIENE MAS ASOCIACION CON LA VARIABLE DEPENDIENTE Y LUEGO BUSCA LA SEGUNDA MAS
IMPORTANTE Y ASI SUCESIVAMENTE,

DAMOS CLICK EN “PRIMERA VARIABLE FORZADA” TOMA LA PRIMERA QUE APARECE EN LA LISTA
DE INDEPENDIENTES.

VARIABLE DE INFLUENCIA: VARIABLE GENERADA QUE TIENE UNA ESPECIE DE PESOS (0-1) DE
ACUERDO A ALGUN CRITERIO QUE QUERRAMOS.

METODO DE CRECIMIENTO: CHAID, CHAID EXHAUSTIVO, CART, QUEST

1
SOLO USAREMOS UN CHAID.

Resumen del modelo

Especificaciones Método de crecimiento CHAID

Variable dependiente Credit Rank

Variables independientes Social Class, Paid Weekly/Monthly, Age


Categorical, Has Amex card

Validación Ninguna

Máxima profundidad de 3
árbol (*)

Mínimo de casos en un 100


nodo filial (**)

Mínimo de casos en un 50
nodo parental (**)
Resultados Variables independientes Paid Weekly/Monthly, Age Categorical, Social
incluidas Class

Número de nodos 8

Número de nodos 5
terminales

Profundidad 2
(*) SE VA A OBTENER COMO MAXIMO UN ARBOL DE 3 NIVELES DE PROFUNDIDAD
(**) PARA QUE UN NODO SE PUEDA DIVIDIR DEBE TENER UN MINIMO DE 100 CASOS (NODO
FILIAL),
PERO ADEMAS PARA QUE SE PUEDA DIVIDIR EL NODO PARENTAL O HIJO DEBE TENER COMO
MINIMO 50 CASOS
200 -------------- NODO FILIAL
120 80 ------------ NODOS PARENTALES

VEAMOS RESULTADOS: VARIABLES INDEPENDIENTES INCLUIDAS:


LAS CUATRO SIRVEN? , LAS QUE SIRVEN SON: SI LES PAGAN SEMANAL OMENSUALMENTE,
EDAD Y LA CLASE SOCIAL, ESTA OBVIANDO SI TIENE O NO AMERICAN EXPRESS.
LA PROFUNDIDAD A LA QUE LLEGO EL ARBOL ES 2
SE TIENE EN TOTAL 8 NODOS Y 5 NODOS TERMINALES.
LOS NODOS TERMINALES TAMBIEN SE LLAMAN PERFILES.

2
ANALIZAREMOS LOS NODOS:

NODO 0: LA VARIABLE RANGO DE CREDITO: EL 52% (336 PERSONAS) DE RIESGO MALO, ESTE NODO
SE DIVIDE EN DOS CATEGORIAS RESPECTO AL PAGO (MENSUAL O SEMANAL) ESCOGE ESA VARIABLE
POR LA PRUEBA DE CHI-CUADRADO, PRUEBA DE CONTINGENCIA (MAYOR COEFICIENTE DE
CONTINGENCIA, MAYOR ASOCIACION ENTRE LAS VARIABLES)
SI SE DIVIDEN EN MENSUAL Y SEMANAL ES PORQUE TIENEN COMPORTAMIENTO DIFERENTES. AQUÍ SE PUEDE
HACER UNA PRUEBA DE HOMOGENEIDAD.

H0: LAS POBLACIONES QUE SE LES PAGA MENSUAL Y SEMANAL SON HOMOGENEAS CON RESPECTO AL
RIESGO
H1: LAS POBLACIONES QUE SE LES PAGA MENSUAL Y SEMANAL NO SON HOMOGENEAS CON RESPECTO AL
RIESGO.
LOS QUE SE LES PAGA MENSUALMENTE, SE CARACTERIZAN PORQUE TIENEN EN MAYOR PROPORCION UN
RIESGO BUENO (84.2%)
ESTE NODO SE PUEDE DIVIDIR PORQUE TIENE MAS DE 100 Y LOS DOS NODOS EN LOS CUALES SE DIVIDE
TIENEN MAS DE 50

PARA LAS PERSONAS QUE LES PAGAN MENSUALMENTE LA VARIABLE MAS IMPORTANTE
ASOCIADA ES LA EDAD, PARA LAS QUE LES PAGAN SEMANALMENTE LA VAR MAS
IMPORTANTE ES CLASE SOCIAL

3
VEAMOS LOS DE PAGO MENSUAL.
LAS EDADES SON 1: <25; 2:25-35; 3 >35 , PERO AQUÍ VEMOS QUE SE DIVIDE EN: MUY
JOVENES (<25) Y JOVENES MAYORES (>25) (COMO ESTA COMO ORDINAL SE JUNTA LAS
CATEGORIAS CONTINUAS, SI ESTUVIERA COMO NOMINAL SE JUNTAN INDISTINTAMENTE)
VEAMOS LOS MENORES A 25 AÑOS: ESTE ES UN NODO QUE NO SE PUEDE DIVIDIR (TIENE MENOS DE
100 CASOS) SE LE LLAMA UNPERFIL: SON JOVENES MENORES A 25 AÑOS, SE LES PAGA
MENSUALMENTE, SE CARACTERIZAN POR TENER UNRIESGO BUENO EN 51%. REPRESENTAN EL
15.2%.
EN RESUMEN, PARA DARLE EL PRESTAMO SE CONSIDERA A LOS JOVENES MAYORES DE 25 AÑOS
QUE SE LES PAGA MENSUALMENTE, SERAN DE RIESGO BUENO
EL 14.6% DE RIESGO DE MALA CLASIFICACION
Riesgo

Estimación Típ. Error

,146 ,014
Métodos de crecimiento: CHAID
Variable dependiente: Credit
Rank
BUENA CLASIFICACION EN EL 85.4%
Clasificación

Pronosticado

Porcentaje
Observado Bad Good correcto

Bad 286 50 85,1%

Good 44 266 85,8%


Porcentaje global 51,1% 48,9% 85,4%

Métodos de crecimiento: CHAID


Variable dependiente: Credit Rank

EN EL CASO DE LAS VARIABLES INDEPENDIENTES CUANTITATIVAS, LAS DISCRETIZA, DIVIENDOLAS EN


GRUPOS DE DECILES Y CONVIRTIENDOLA EN CUALITATIVA ORDINAL

4
Ejercicio: Aplicar al archivo iris.sav (contiene X´s cuantitativas; Y nominal)

Resumen del modelo

Especificaciones Método de crecimiento CHAID

Variable dependiente species

Variables independientes sepal length, sepal width, petal length, petal


width

Validación Ninguna

Máxima profundidad de 3
árbol

Mínimo de casos en un 100


nodo filial

Mínimo de casos en un 50
nodo parental
Resultados Variables independientes petal width, sepal width
incluidas

Número de nodos 9

Número de nodos 7
terminales

Profundidad 2

PRIMERO CONSIDERA ANCHO DE PETALO, LA CATEGORIA MAS IMPORTANTE ES DE 1300 A 1700

5
ANCHO DE SEPALO TIENE IMPORTANCIA SOLO CUANDO EL ANCHO DE PETALO ES DE 1300 A 1700

EN EL CASO DE LAS VARIABLES INDEPENDIENTES CUANTITATIVAS, LAS DISCRETIZA, DIVIENDOLAS EN


GRUPOS DE DECILES Y CONVIRTIENDOLA EN CUALITATIVA ORDINAL,

USAREMOS EL ARCHIVO newcashcard.sav

Ingreso la variable dependiente y las independientes.

Ahora especifico la categoría que me interesa (sí)

Y vamos a resultados para especificar si queremos resultados por graficos o tablas, luego nos vamos
a estadísticos, graficos, reglas (en reglas se especifica si podemos exportar la información y generar
una bd que permita ir exportando y clasificar)

6
Árbol de clasificación

Advertencia

No se muestran las tablas de resúmenes de ganancias ya que no se han definido los beneficios.

Resumen del modelo

Especificaciones Método de crecimiento CHAID

Variable dependiente Accept the new cash card?

Variables independientes Have a mortgage?, Have a life insurance?, Have a


credit card?, Have a debit card?, Use mobile bank
service?, Has a current account?, Has internet
access to the account?, Has a personal loan?, Has
savings?, Has used a Cash Point in th last week?,
Has hit the overdraft limit during last year?, Has an
ISA account?, Age in years, How long as a
customer?

Validación Ninguna

Máxima profundidad de árbol 3

Mínimo de casos en un nodo 100


filial

7
Mínimo de casos en un nodo 50
parental
Resultados Variables independientes How long as a customer?, Has used a Cash Point in
incluidas th last week?, Age in years, Has a current account?,
Have a credit card?, Have a life insurance?, Use
mobile bank service?, Has savings?

Número de nodos 40

Número de nodos terminales 25

Profundidad 3

El árbol tiene 25 nodos terminales o 25 perfiles

Categoría objetivo: sí

Ganancias para los nodos

Nodo Ganancia

Nodo N Porcentaje N Porcentaje Respuesta Índice

16 1011 2,3% 995 5,3% 98,4% 227,5%


17 1668 3,9% 1619 8,7% 97,1% 224,4%
18 1445 3,3% 1356 7,3% 93,8% 217,0%
20 1249 2,9% 1166 6,2% 93,4% 215,8%
19 1103 2,6% 1001 5,4% 90,8% 209,8%

8
22 3620 8,4% 3029 16,2% 83,7% 193,5%
21 1831 4,2% 1266 6,8% 69,1% 159,9%
24 2637 6,1% 1821 9,8% 69,1% 159,7%
26 1461 3,4% 795 4,3% 54,4% 125,8%
30 102 ,2% 53 ,3% 52,0% 120,1%
28 1432 3,3% 727 3,9% 50,8% 117,4%
23 3650 8,5% 1761 9,4% 48,2% 111,6%
25 2311 5,4% 865 4,6% 37,4% 86,5%
29 3563 8,3% 1112 6,0% 31,2% 72,2%
27 1401 3,2% 429 2,3% 30,6% 70,8%
31 1326 3,1% 318 1,7% 24,0% 55,4%
32 80 ,2% 13 ,1% 16,2% 37,6%
11 563 1,3% 74 ,4% 13,1% 30,4%
35 96 ,2% 10 ,1% 10,4% 24,1%
33 923 2,1% 76 ,4% 8,2% 19,0%
34 2185 5,1% 84 ,4% 3,8% 8,9%
38 187 ,4% 7 ,0% 3,7% 8,7%
37 980 2,3% 36 ,2% 3,7% 8,5%
36 1672 3,9% 23 ,1% 1,4% 3,2%
39 6666 15,4% 32 ,2% ,5% 1,1%

Métodos de crecimiento: CHAID


Variable dependiente: Accept the new cash card?

Riesgo

Estimación Típ. Error

,199 ,002

Métodos de crecimiento:
CHAID
Variable dependiente: Accept
the new cash card?

Clasificación

Pronosticado

Porcentaje
Observado NO YES correcto

NO 20763 3731 84,8%


YES 4840 13828 74,1%
Porcentaje global 59,3% 40,7% 80,1%

9
Clasificación

Pronosticado

Porcentaje
Observado NO YES correcto

NO 20763 3731 84,8%


YES 4840 13828 74,1%
Porcentaje global 59,3% 40,7% 80,1%

Métodos de crecimiento: CHAID


Variable dependiente: Accept the new cash card?

ARBOLES-ARBOLES DE DECISIONES-CRITERIOS- LINEAS DE CRECIMIENTO

SI QUIERO QUE SE REDUZCA O SUBA EL NUMERO DE RAMIFICACIONES SU ALTERA ESTO:

LA VARIABLE INDEPENDIENTE EDAD ERA DISCRETIZADA Y LUEGO RECIEN ENTRABA EN EL MODELO,


Y LUEGO SE FORMABAN DECILES, ESTO SE PUEDE MODIFICAR AQUÍ

10
RESULTADO, VEAMOS ALGUNOS RESULTADOS:

NODO 16, 1011 (2.3% DE TODA LA BD) PERSONAS QUE CUMPLEN CON ESE PERFIL, DE ELLOS 995
ACEPTARON LA TARJETA DE CREDITO. DE TODAS ELLAS DE TODOS LOS QUE TIENEN ESE PERFIL EL
98.4 ACEPTARON LA TARJETA DE CREDITO

LE DARIA LA TARJETA DE CREDITO A LAS PERSONAS DEL 16,17, 18, 20 (MAYOR RESPUESTA)

EL INDICE DICE SI EL nodo ES BUENO O MALO , DEBE SE MAYOR AL 100%, PODRIA TOMAR COMO
DECISION HASTA EL NODO 23, DESPUES ES MENOR AL 100% (a mayor índice mejores nodos)

Ganancias para los nodos

Nodo Ganancia

Nodo N Porcentaje N Porcentaje Respuesta Índice

16 1011 2,3% 995 5,3% 98,4% 227,5%


17 1668 3,9% 1619 8,7% 97,1% 224,4%
18 1445 3,3% 1356 7,3% 93,8% 217,0%
20 1249 2,9% 1166 6,2% 93,4% 215,8%
19 1103 2,6% 1001 5,4% 90,8% 209,8%
22 3620 8,4% 3029 16,2% 83,7% 193,5%
21 1831 4,2% 1266 6,8% 69,1% 159,9%
24 2637 6,1% 1821 9,8% 69,1% 159,7%
26 1461 3,4% 795 4,3% 54,4% 125,8%
30 102 ,2% 53 ,3% 52,0% 120,1%
28 1432 3,3% 727 3,9% 50,8% 117,4%
23 3650 8,5% 1761 9,4% 48,2% 111,6%
25 2311 5,4% 865 4,6% 37,4% 86,5%
29 3563 8,3% 1112 6,0% 31,2% 72,2%
27 1401 3,2% 429 2,3% 30,6% 70,8%
31 1326 3,1% 318 1,7% 24,0% 55,4%

11
32 80 ,2% 13 ,1% 16,2% 37,6%
11 563 1,3% 74 ,4% 13,1% 30,4%
35 96 ,2% 10 ,1% 10,4% 24,1%
33 923 2,1% 76 ,4% 8,2% 19,0%
34 2185 5,1% 84 ,4% 3,8% 8,9%
38 187 ,4% 7 ,0% 3,7% 8,7%
37 980 2,3% 36 ,2% 3,7% 8,5%
36 1672 3,9% 23 ,1% 1,4% 3,2%
39 6666 15,4% 32 ,2% ,5% 1,1%

Métodos de crecimiento: CHAID


Variable dependiente: Accept the new cash card?

También podemos hallar grupo de pertenencia

Vamos a guardar elmodelo

12
Se tinen todos los notdos y todas sus probabilidades

13
14
15
16
17
Para determinar que clientes son los seleccionados:

Datos-seleccionar casos-si satisface la condición:

18
19
20
Ahora se genera un nuevo archivo en el cual estarán los clientes solo de los nodos 16 y 17 con las
características de selección

Ejercicio: risk.sav

HACIENDO VALIDACION CRUZADA:

SE SIGUE:ARBOLES-VALIDACION-VALIDACION CRUZADA

Y SI AMBOS VALORES SON SIMILARES, ENTONCES PODEMOS USARLO PARA VALIDAR ELMODELO.

Riesgo

Método Estimación Típ. Error

Resustitución ,134 ,005


Validación cruzada ,134 ,005

Métodos de crecimiento: CHAID


Variable dependiente: Good Risk Customer

OTRA FORMA:

21
CUANDO USAMOS MUESTRA DE ENTRENAMIENTO Y OTRA MUESTRA DE PRUEBA O DE
COMPARACION,

22

También podría gustarte