Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Arbol Chaid - Aplic
Arbol Chaid - Aplic
DAMOS CLICK EN “PRIMERA VARIABLE FORZADA” TOMA LA PRIMERA QUE APARECE EN LA LISTA
DE INDEPENDIENTES.
VARIABLE DE INFLUENCIA: VARIABLE GENERADA QUE TIENE UNA ESPECIE DE PESOS (0-1) DE
ACUERDO A ALGUN CRITERIO QUE QUERRAMOS.
1
SOLO USAREMOS UN CHAID.
Validación Ninguna
Máxima profundidad de 3
árbol (*)
Mínimo de casos en un 50
nodo parental (**)
Resultados Variables independientes Paid Weekly/Monthly, Age Categorical, Social
incluidas Class
Número de nodos 8
Número de nodos 5
terminales
Profundidad 2
(*) SE VA A OBTENER COMO MAXIMO UN ARBOL DE 3 NIVELES DE PROFUNDIDAD
(**) PARA QUE UN NODO SE PUEDA DIVIDIR DEBE TENER UN MINIMO DE 100 CASOS (NODO
FILIAL),
PERO ADEMAS PARA QUE SE PUEDA DIVIDIR EL NODO PARENTAL O HIJO DEBE TENER COMO
MINIMO 50 CASOS
200 -------------- NODO FILIAL
120 80 ------------ NODOS PARENTALES
2
ANALIZAREMOS LOS NODOS:
NODO 0: LA VARIABLE RANGO DE CREDITO: EL 52% (336 PERSONAS) DE RIESGO MALO, ESTE NODO
SE DIVIDE EN DOS CATEGORIAS RESPECTO AL PAGO (MENSUAL O SEMANAL) ESCOGE ESA VARIABLE
POR LA PRUEBA DE CHI-CUADRADO, PRUEBA DE CONTINGENCIA (MAYOR COEFICIENTE DE
CONTINGENCIA, MAYOR ASOCIACION ENTRE LAS VARIABLES)
SI SE DIVIDEN EN MENSUAL Y SEMANAL ES PORQUE TIENEN COMPORTAMIENTO DIFERENTES. AQUÍ SE PUEDE
HACER UNA PRUEBA DE HOMOGENEIDAD.
H0: LAS POBLACIONES QUE SE LES PAGA MENSUAL Y SEMANAL SON HOMOGENEAS CON RESPECTO AL
RIESGO
H1: LAS POBLACIONES QUE SE LES PAGA MENSUAL Y SEMANAL NO SON HOMOGENEAS CON RESPECTO AL
RIESGO.
LOS QUE SE LES PAGA MENSUALMENTE, SE CARACTERIZAN PORQUE TIENEN EN MAYOR PROPORCION UN
RIESGO BUENO (84.2%)
ESTE NODO SE PUEDE DIVIDIR PORQUE TIENE MAS DE 100 Y LOS DOS NODOS EN LOS CUALES SE DIVIDE
TIENEN MAS DE 50
PARA LAS PERSONAS QUE LES PAGAN MENSUALMENTE LA VARIABLE MAS IMPORTANTE
ASOCIADA ES LA EDAD, PARA LAS QUE LES PAGAN SEMANALMENTE LA VAR MAS
IMPORTANTE ES CLASE SOCIAL
3
VEAMOS LOS DE PAGO MENSUAL.
LAS EDADES SON 1: <25; 2:25-35; 3 >35 , PERO AQUÍ VEMOS QUE SE DIVIDE EN: MUY
JOVENES (<25) Y JOVENES MAYORES (>25) (COMO ESTA COMO ORDINAL SE JUNTA LAS
CATEGORIAS CONTINUAS, SI ESTUVIERA COMO NOMINAL SE JUNTAN INDISTINTAMENTE)
VEAMOS LOS MENORES A 25 AÑOS: ESTE ES UN NODO QUE NO SE PUEDE DIVIDIR (TIENE MENOS DE
100 CASOS) SE LE LLAMA UNPERFIL: SON JOVENES MENORES A 25 AÑOS, SE LES PAGA
MENSUALMENTE, SE CARACTERIZAN POR TENER UNRIESGO BUENO EN 51%. REPRESENTAN EL
15.2%.
EN RESUMEN, PARA DARLE EL PRESTAMO SE CONSIDERA A LOS JOVENES MAYORES DE 25 AÑOS
QUE SE LES PAGA MENSUALMENTE, SERAN DE RIESGO BUENO
EL 14.6% DE RIESGO DE MALA CLASIFICACION
Riesgo
,146 ,014
Métodos de crecimiento: CHAID
Variable dependiente: Credit
Rank
BUENA CLASIFICACION EN EL 85.4%
Clasificación
Pronosticado
Porcentaje
Observado Bad Good correcto
4
Ejercicio: Aplicar al archivo iris.sav (contiene X´s cuantitativas; Y nominal)
Validación Ninguna
Máxima profundidad de 3
árbol
Mínimo de casos en un 50
nodo parental
Resultados Variables independientes petal width, sepal width
incluidas
Número de nodos 9
Número de nodos 7
terminales
Profundidad 2
5
ANCHO DE SEPALO TIENE IMPORTANCIA SOLO CUANDO EL ANCHO DE PETALO ES DE 1300 A 1700
Y vamos a resultados para especificar si queremos resultados por graficos o tablas, luego nos vamos
a estadísticos, graficos, reglas (en reglas se especifica si podemos exportar la información y generar
una bd que permita ir exportando y clasificar)
6
Árbol de clasificación
Advertencia
No se muestran las tablas de resúmenes de ganancias ya que no se han definido los beneficios.
Validación Ninguna
7
Mínimo de casos en un nodo 50
parental
Resultados Variables independientes How long as a customer?, Has used a Cash Point in
incluidas th last week?, Age in years, Has a current account?,
Have a credit card?, Have a life insurance?, Use
mobile bank service?, Has savings?
Número de nodos 40
Profundidad 3
Categoría objetivo: sí
Nodo Ganancia
8
22 3620 8,4% 3029 16,2% 83,7% 193,5%
21 1831 4,2% 1266 6,8% 69,1% 159,9%
24 2637 6,1% 1821 9,8% 69,1% 159,7%
26 1461 3,4% 795 4,3% 54,4% 125,8%
30 102 ,2% 53 ,3% 52,0% 120,1%
28 1432 3,3% 727 3,9% 50,8% 117,4%
23 3650 8,5% 1761 9,4% 48,2% 111,6%
25 2311 5,4% 865 4,6% 37,4% 86,5%
29 3563 8,3% 1112 6,0% 31,2% 72,2%
27 1401 3,2% 429 2,3% 30,6% 70,8%
31 1326 3,1% 318 1,7% 24,0% 55,4%
32 80 ,2% 13 ,1% 16,2% 37,6%
11 563 1,3% 74 ,4% 13,1% 30,4%
35 96 ,2% 10 ,1% 10,4% 24,1%
33 923 2,1% 76 ,4% 8,2% 19,0%
34 2185 5,1% 84 ,4% 3,8% 8,9%
38 187 ,4% 7 ,0% 3,7% 8,7%
37 980 2,3% 36 ,2% 3,7% 8,5%
36 1672 3,9% 23 ,1% 1,4% 3,2%
39 6666 15,4% 32 ,2% ,5% 1,1%
Riesgo
,199 ,002
Métodos de crecimiento:
CHAID
Variable dependiente: Accept
the new cash card?
Clasificación
Pronosticado
Porcentaje
Observado NO YES correcto
9
Clasificación
Pronosticado
Porcentaje
Observado NO YES correcto
10
RESULTADO, VEAMOS ALGUNOS RESULTADOS:
NODO 16, 1011 (2.3% DE TODA LA BD) PERSONAS QUE CUMPLEN CON ESE PERFIL, DE ELLOS 995
ACEPTARON LA TARJETA DE CREDITO. DE TODAS ELLAS DE TODOS LOS QUE TIENEN ESE PERFIL EL
98.4 ACEPTARON LA TARJETA DE CREDITO
LE DARIA LA TARJETA DE CREDITO A LAS PERSONAS DEL 16,17, 18, 20 (MAYOR RESPUESTA)
EL INDICE DICE SI EL nodo ES BUENO O MALO , DEBE SE MAYOR AL 100%, PODRIA TOMAR COMO
DECISION HASTA EL NODO 23, DESPUES ES MENOR AL 100% (a mayor índice mejores nodos)
Nodo Ganancia
11
32 80 ,2% 13 ,1% 16,2% 37,6%
11 563 1,3% 74 ,4% 13,1% 30,4%
35 96 ,2% 10 ,1% 10,4% 24,1%
33 923 2,1% 76 ,4% 8,2% 19,0%
34 2185 5,1% 84 ,4% 3,8% 8,9%
38 187 ,4% 7 ,0% 3,7% 8,7%
37 980 2,3% 36 ,2% 3,7% 8,5%
36 1672 3,9% 23 ,1% 1,4% 3,2%
39 6666 15,4% 32 ,2% ,5% 1,1%
12
Se tinen todos los notdos y todas sus probabilidades
13
14
15
16
17
Para determinar que clientes son los seleccionados:
18
19
20
Ahora se genera un nuevo archivo en el cual estarán los clientes solo de los nodos 16 y 17 con las
características de selección
Ejercicio: risk.sav
SE SIGUE:ARBOLES-VALIDACION-VALIDACION CRUZADA
Y SI AMBOS VALORES SON SIMILARES, ENTONCES PODEMOS USARLO PARA VALIDAR ELMODELO.
Riesgo
OTRA FORMA:
21
CUANDO USAMOS MUESTRA DE ENTRENAMIENTO Y OTRA MUESTRA DE PRUEBA O DE
COMPARACION,
22