Técnicas de Arboles de Clasificación

Introduccin a SPSS rboles de
Clasificacin
Jorge Del Ro L.
Consultor Estadstico
Introduccin
Es un mdulo que contiene diferentes procedimientos

para resolver problemas de prediccin y clasificacin
utilizando anlisis de rboles de decisin.
Es capaz de combinar a travs de un conjunto de

variables
independientes
y
sucesivamente
particionando la data en subgrupos de mejorar la
prediccin o clasificacin de una variable objetivo.
Es una tcnica valiosa cuando deseamos construir

modelos
con
gran
cantidad
de
variables
independientes o con poca teora previa que sirva de
gua.
Anlisis basado en rboles
Los procedimientos tradicionales implican el ajuste

de un modelo (regresin por ejemplo) segn el
comportamiento de los datos.
Los rboles de decisin dividen los datos

sucesivamente con base a algn criterio que
implique relaciones entre las variables predictoras y
la variable objetivo.
Anlisis basado en rboles
Cuando se tiene xito, el rbol que resulta

indica qu variables predictoras estn
relacionadas con mayor fuerza con la
variable objetivo.
Los nodos terminales muestran los grupos

que pueden tener una mayor concentracin
de casos con la caracterstica deseada.
Usos Generales de los rboles de Decisin
Segmentacin. Identificar personas son

probablemente miembros de un grupo.
Estratificacin. Asignacin de casos a categoras.
Prediccin. Creacin de reglas para predecir eventos

futuros.
Reduccin de datos y filtro de variables.

Seleccionar un subconjunto de variables para contruir
un modelo paramtrico.
Identificacin de interacciones. Identificar

relaciones que pertenezcan a subgrupos especficos.
Fusin de categoras. Colapsar variables contnuas

en categoras discretas.
Aplicaciones de los rboles de Decisin
Correo directo. Determinar grupos

demogrficos con alta tasa de respuesta.
Credit Scoring. Usar historial crediticio para

tomar decisiones de crdito.
Recursos Humanos. Entender las reglas de

pasadas de contratacin para afinar el
proceso.
Anlisis de mercado. Determinacin de

variables geogrficas, precios, caractersticas
del consumidor y otras
Aplicaciones de los rboles de Decisin
Control de calidad. Determinacin de

productos defectuosos.
Estudio de polticas. Generar reglas de

decisin en las polticas de contratacin.
Salud. Descubrir variables que contribuyan a

mejores resultados de salud.
Ventajas y desventajas sobre modelos

tradicionales
Diseados para trabajar con un nmero

elevado de variables (CHAID vs loglineal)
Como mtodos no paramtricos capturan

relaciones que los modelos lineales no
pueden capturar (relaciones no lineales e
interacciones complejas).
No genera una ecuacin general que

exprese el modelo.
Por qu cuatro mtodos?
Diferentes
mtodos
pueden
manejar
diferentes tipos medida en las variables.
Uso o no de criterios estadsticos al momento

de escoger y partir variables.
Si se incorporan o no costos de clasificacin

errnea y probabilidades a priori.
Esfuerzo computacional de la mquina.
Comparacin
Caracterstica
CHAID
CHAID
Exahustivo
C&RT
QUEST
Tipo de Particin
Mltiple
Mltiple
Binaria
Binaria
Dependiente Continua
No
Predictoras Continuas
Si (*)
Si (*)
Coste de Mala
Clasificacin
(Crecimiento del Arbol)
No
No
Pruebas Estadsticas
(Seleccin del
Predictor)
No
Pruebas Estadsticas
(Particionar)
No
No
Moderada
Moderada
Lento
Moderada/Lento
No
No
Si, como una

categora
Si, como una

categora
No, Sustitutos
usados para
particin
No, Sustitutos
usados para
particin
Velocidad
Utiliza A priori?
Valores Faltantes para
los Predictores
Usados?
Recomendaciones
El anlisis de datos requiere de una participacin

humana atenta.
Siempre mire los datos en bruto.
Conozca las caractersticas en sus datos antes de

emprender un proyecto grande.
Limpie los datos o est conciente de cualquier

irregularidad en ellos.
Valide sus resultados con nuevos datos o con una

muestra de prueba.
Si es posible utilice modelos estadsticos

tradicionales para extender y verificar lo aprendido.
Tabla de Ganancia de Nodos
Nodo. Nmero del nodo.
Nodo N. Nmero de casos dentro de un nodo.
Nodo Porcentaje. Porcentaje de personas en el nodo contra la

muestra completa.
Ganancia N. N de casos en el nodo que caen dentro de la

categora objetivo.
Ganancia Porcentaje. Porcentaje de personas en la categora

objetivo contra el N total de la categora objetivo.
Respuesta. Tasa de respuesta en el nodo para la categora

objetivo.
ndice. Radio del nodo de respuesta versus la respuesta de la

muestra total.
CHAID y CHAID Exhaustivo
Qu es CHAID?
Chi-square Automatic Interaction Detector (Detector

Automtico de Interaccin Chi-cuadrado).
El modelo CHAID es un mtodo exploratorio del

anlisis de datos usado para estudiar las relaciones
entre una variable dependiente y una serie grande de
variables predictoras.
CHAID selecciona un sistema de predictores y de sus

interacciones que predicen ptimamente la medida
de la variable dependiente.
Qu es CHAID?
El modelo desarrolla un rbol de clasificacin con los

perfiles ms importantes formados por las variables
independientes diferenciado los criterios de una
variable dependiente.
CHAIS es puede proveer informacin relevante sobre

una variable dependiente, donde modelos formales
tienen dificultades (como muchas variables
categricas o un limitado tamao de muestra).
Principios y Consideraciones
CHAID tiende a crear rboles amplios ms que los mtodos

binarios.
Funciona con todo tipo de variables (cualitativas y cuantitativas)
CHAID comienza su anlisis seleccionando

independiente ms significativa (menor p-value).
Si la variable independiente tiene ms de 2 categoras, CHAID

las compara y une las categoras que no muestren diferencias en
el resultado.
Para variables nominales, cualquier categora puede ser unida,

mientras que para ordinales solo categoras contiguas.
Por lo tanto, CHAID divide la data sistemticamente en

subgrupos que muestren diferencias significativas.
la
variable
Lectura de un Diagrama CHAID
Los diagramas CHAID se deben

pensar como el "tronco de un rbol"
con particiones progresivas en
"ramas ms pequeas.
El "tronco inicial del rbol" son todos

los participantes en el estudio.
Las variables predictoras conducen

a una discriminacin
estadsticamente significativa.
El "ms significativo" define la

primera particin de la muestra, o la
primera ramificacin del rbol.
Lectura de un Diagrama CHAID
Entonces, cada uno de los nuevos grupos formados,

son particionados por otra de las variables
predictoras, etc.
El resultado al final del proceso es un rbol que

presenta una serie de grupos con diferencias
mximas sobre la variable dependiente.
En cada paso, las pruebas estadsticas se hacen

para determinar si una particin es significativa y
puede ser hecha.
Ventajas
El nivel de medida para la variable dependiente y las

variables predictoras pueden ser nominal, ordinal o
intervalo.
No todas las variables predictoras necesitan ser

medidas en el mismo nivel.
Los valores faltantes se pueden tratar como una

"categora flotante" para poder utilizar los datos
parciales, siempre que sea posible dentro del rbol.
Un sistema apropiadamente conservador de criterios

estadsticos se utiliza, y los modelos que resultan
acentan los resultados ms fuertes.
Opciones Tcnicas
Ajuste del .05 de Bonferroni sobre las probabilidades
Un tamao mnimo del nodo padre de 10
Un tamao mnimo del nodo hijo de 5.
La capacidad de partir o combinar continuamente las

categoras de las variables predictoras.
En algunos casos, estas opciones tcnicas se
ajustan segn el tamao de muestra o se basan en
conocimiento anterior sobre las variables.
Notas sobre CHAID
Es un mtodo til para resumir datos, y puede

mostrar divisiones naturales importantes sobre los
clientes.
Los modelos presentados se deben considerar como

sugestivos, pero no absolutamente definitivos, se
pueden complementar con modelos estadsticos
tradicionales.
CHAID y Regresin Logstica
CHAID: diseado para detectar interacciones
Reg. Logstica: Deteccin puede ser dirigida a incluir

interacciones.
R. Logstica acepta variables continuas mientras que

CHAID necesita discretizarlas.
Si tiene muchas variables continuas cuya interaccin

se sospecha no esta relacionada con salida. R.
Logstica
Si tiene muchas variables categricas cuyas

interacciones se relacionan con la v. objetivo. CHAID
Extensin CHAID y
Caractersticas Adicionales
Introduccin
Se estudiar la importancia de la validacin del

modelo.
Dificultad del procedimiento: Es ms probable

que el modelo se ajuste a la data.
Se recomienda evaluar el modelo aplicado a

otra data.
El Statistics maneja 2 tipos de validacin:
Particin.
Validacin cruzada.
Introduccin
Adicionalmente se analizarn la incorporacin

de beneficios y perdidas.
Por defecto CHAID asume que la clasificacin

errnea es igualmente costosa aunque esto no
siempre es as.
Podemos proveer valores para el costo de una

mala clasificacin.
Validacin
Los modelos tienden a modelar bien la data

con la que fueron realizados pero no en otras
muestras.
Dividir los datos en 2 muestras, una para

entrenamiento y otra para prueba es la
solucin ms sugerida por los estadsticos.
El investigador define la cantidad de casos que

incluir cada muestra.
No hay regla para la cantidad de datos
50% a 90% de data para entrenamiento
Validacin
Cuando no se tiene el tamao de muestra necesario

para realizar una particin de los datos, se recurre a la
Validacin Cruzada.
Muestra pequea: Validacin Cruzada
Divide la muestra en subgrupos iguales

Promedio de los errores: Tabla de riesgo
Los rboles son generados, excluyendo data de cada
subgrupo
A tener en cuenta:
Procesamiento
Muestras relacionadas
Se recomienda utilizar la validacin cruzada para

muestras menores a 1000 casos. De lo contrario
utilizar la particin de la muestra.
Incorporando Ganancias
Incorpora valores de rentabilidad para la

categora de respuesta
Direct mail o Marketing de Base de Datos
No afectan al crecimiento del rbol
Ejemplo: Aceptar o rechazar una nueva tarjeta
Estimar la ganancia por tarjeta aceptada
Costo de Clasificacin Errnea
Diferente del concepto de rentabilidad, esta no

proviene de errores.
Pueden influir en el crecimiento del rbol y asignacin

de casos (CRT)
Permite asignar a una categora especfica un costo de

clasificacin errnea.
CHAID incorpora estos costos una vez que es rbol ha

sido elaborado.
En resumen, la incorporacin de costos, afecta la de

designacin de nodos para evitar el error ms costoso.
rboles de Clasificacin y
Regresin
(C&RT) Classification and Regression Trees
El Mtodo C&RT
Breiman, Friedman, Olshen y Stone (1984)
C&RT hace separaciones binarias sucesivas en los

datos guindose por un criterio, no una prueba
estadstica como lo hace CHAID.
En cada nodo, la variable predictora que mejore ms el

criterio, se usa para hacer la siguiente particin.
Los rboles creados con este criterio se dejan crecer

ampliamente y despus son podados: podar
minimizando el costo complejo.
Impureza
Es el nombre del criterio para crecer el rbol con una variable

objetivo nominal.
Captura el grado en el que los casos dentro de un nodo estn

concentrados en una sola categora.
Un nodo puro es aquel en que todos los casos estn en una

sola categora.
El mayor grado de impureza se da cuando todas las

categoras de una variable predictora contienen la misma
cantidad de casos, es decir todas las categoras o clases
aparecen en igual proporcin, siendo este nodo nada util.
Impureza
Medidas de Impureza
Gini:
Si P(t)i es la proporcin de casos en el nodo t de la categora i, la medida de

dispersin es:
pi2
g (t ) 1
i
La impureza no solo se mide para un slo nodo: El promedio ponderado de los

valores de impureza de cada nodo, es la medida de impureza de toda la rama.
C&RT parte el rbol con el predictor que ms disminuye la impureza. En el
diagrama del rbol se muestra la MEJORA.
Costo Complejo
Crecer un rbol indefinidamente, casi siempre reduce la impureza.
La medida de costo complejo aumenta en la medida en que el rbol es

ms grande.
CostoComplex
R(T ) a * T
R(T): medida de riesgo de clasificacion erronea del rbol o rama

a: coeficiente de penalidad
|T|: nmero de nodos terminales del rbol o rama.
Para mejorar la medida de costos complejo, el componente de

sustitucin de riesgo debe disminuir ms que la penalidad.
Costo complejo y poda
La medida de costo complejo funciona bien si se

deja crecer el rbol bastante, y luego se poda
utilizando este criterio.
El mtodo consiste en podar ramas de manera

sucesiva con base a la mxima reduccin de la
medida de costo complejo.
De los rboles, se escoge el rbol ms pequeo,

cuyo riesgo (probabilidad de clasificar errneamente)
est dentro de un rango de un error estndar del
menor riesgo encontrado durante el crecimiento del
rbol.
Cmo se hacen las particiones?

Para predictoras continuos u ordinales:
Se ordenan los datos dentro de los

nodos por los valores de las
categoras de la variable predictora.
Se calcula la disminucin en
impureza para todos los posibles
puntos de corte.
Se determina la mejor particin.
Cmo se hacen las particiones?
Para predictoras nominales
Todas las posibles combinaciones de sus

categoras son evaluadas, y la particin se hace
cuando se encuentra la mayor reduccin en
impureza.
Esto hace que un misma variable predictora

pueda aparecer muchas veces dentro de
una rama.
Valores perdidos y Sustitutos
En CHAID los valores perdidos se tratan como

una categora diferente.
En C&RT estos casos se utilizan en el anlisis

reemplazndolos con una estimacin que
depende de la clasificacin segn la mejor
variable predictora disponible.
C&RT, CHAID y Regresin Logstica
CHAID y regresin logstica son ms rpidas y

estn basadas en pruebas estadsticas.
CHAID junta categoras de las variables

predictoras continuas en categoras ordinales
antes del anlisis.C&RT crea particiones
durante el anlisis.
rboles de Regresin
La parte RT de C&RT es la que nos permite

predecir variables objetivo que sean continuas.
Es una alternativa atractiva puesto que puede

capturar, de manera nativa, relaciones no
lineales entre variables, adems de efectos de
interaccin.
Una opcin ptima es correr un RT que

identifique variables relevantes y posibles
interacciones y relaciones no lineales para
luego correr la regresin
El mtodo de regresin
Puesto que la variable objetivo es

continua, el criterio es minimizar la
varianza dentro de cada nodo,
obteniendo as los nodos ms
homogneos sobre la variable objetivo.
De la misma manera de CT, el

crecimiento del rbol seguido de la
poda es la base de RT
C&RT, CHAID y Regresin Logstica
Si existen relaciones cuasi lineales entre una

predictora y la proporcin de la variable
objetivo, C&RT tratar de capturar esta
relacin con particiones binarias sucesivas,
CHAID con una particin multicategrica y
ninguna ser tan eficiente como RL.
Sin embargo CHAID y C&RT pueden capturar

relaciones no lineales e interacciones
complejas.
Impureza
El criterio de impureza se mantiene pero se

mide de acuerdo a la varianza al interior del
nodo.
Captura el grado en el que las respuestas

dentro de un nodo estn concentradas
alrededor de un solo valor.
La impureza de una rama es el promedio

ponderado de las varianzas de los nodos
terminales.
Costos y probabilidades a priori
Para una variable objetivo continua, no hay

categoras a las cuales asignarle beneficios o
probabilidades.
Si los costos se consideran relevantes,

estaran asociados a la distancia entre el valor
pronosticado y el verdadero, que est implcito
en la varianza.
QUEST Analysis
Quick Unbiased Efficient Statistical Tree
Dos razones para desarrollar QUEST
Reducir el tiempo de procesamiento que tena

C&RT.
Reducir la tendencia de CHAID de favorecer

variables continuas o aquellas con muchas
categoras (correccin de Bonferroni)
Complejidad computacional.
Una variable ordinal con n
valores en un nodo conlleva (n-1) divisiones, por lo que el
numero de clculos en cada nota aumenta de forma proporcional
al numero de valores.
Sesgos en la seleccin de variables. Pero un problema mas serio

desde el punto de vista interpretativo y de generalizacin, de
resultados es que los mtodos exhaustivo tienen a seleccionar
aquellas variables que cuentan con un mayor numero de
categoras.
El proceso se repite de forma recursiva hasta que salta alguna de

las reglas de Parada, gracias a este procedimiento de clculo,
Quest:
*Apenas
muestra
sesgos
de
respuesta
*Muestra
una
mayor
simplicidad
de
calculo
*Permite incluir mtodos de validacin mediante poda
*Permite incorporar combinaciones lineales de variables
Comparando Quest con mtodos exhaustivos se han
comprobado que cuando se utilizan divisiones univariadas, no
existe un ganador claro.
El mtodo Quest
Sea X
Se calcula niv. Sig:

Chi-cuadrado o
ANOVA se selecciona
al menor
SI
Se selecciona
Para divisin
Es menor
que alfa
preestablecido
?
SI
Seleccionar la
variable para dividir
NO
Se usa
Levene
Su niv.sig es
menor a
alfa?
NO
Seleccionar la var con

el menor niv.sig para
dividir el nodo
Como lo hace?
Es X
ordinal
o
continua
?
SI
SI
Tiene Y
dos
categoras
?
Aplicar el Anlisis
Discriminante Cuadrtico para
determinar el punto de divisin
NO
NO
Transfomar X en dummys y
calcular la mayor coordenada
discriminante de Z
Calcular la media de X
para cada categora de
Y y aplicar un cluster de
2 medias a esas medias
Otras caractersticas equivalentes a

C&RT
Costo Complejo
Poda del rbol
Valores perdidos reemplazados

otras variables predictoras
utilizando
Recomendaciones
A pesar de ser una herramienta para minera

de datos, es importante sacar variables que
sean simples medidas alternativas a la variable
objetivo, y aquellas que no tengan porque
tener relacin con ella (cdula)
Para muestras menores a 1000, reduzca el

tamao mnimo de nodo padre y filial, para
muestras mayores a 10000, aumntelo (a
menos que est corriendo C&RT o QUEST)
Trucos
Tenga en consideracin si hace falta tener

todas la categoras de la variable objetivo.
Reducirlo a las relevantes arrojar un mejor
resultado.
Si necesita definir sus propias particiones

dentro de una variable predictora, hgalo.
Eficiencia
Si hay variables nominales con muchas

categoras, el esfuerzo computacional es
considerable:
10
categoras:
511
combinaciones; 30 categoras : 536,870,911!!!
Tenga en cuenta esto para decidir en que

computador va a correr su anlisis.
Tiempos
N Datos
Mtodo
10 Predictores
CHAID
0:00:01
CHAID Exhaustivo
0:00:01
1000 C&RT
0:00:02
QUEST
0:00:04
C&RT (Variable Continua)
0:00:03
CHAID
0:00:04
CHAID Exhaustivo
0:00:06
10000 C&RT
0:08:45
QUEST
0:08:04
C&RT (Variable Continua)
6:05:00
CHAID
0:00:10
CHAID Exhaustivo
0:00:15
50000 C&RT
0:07:50
QUEST
0:14:45
C&RT (Variable Continua) ---
50 Predictores
0:00:02
0:00:02
0:00:09
0:00:16
0:00:14
0:00:08
0:00:19
0:50:00
A
--0:00:30
0:00:40
1:13:00
A
---

Técnicas de Arboles de Clasificación

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Técnicas de Arboles de Clasificación

Cargado por

Copyright:

Formatos disponibles

Introduccin a SPSS rboles de

Es un mdulo que contiene diferentes procedimientos

Es capaz de combinar a travs de un conjunto de

Es una tcnica valiosa cuando deseamos construir

Anlisis basado en rboles

Los procedimientos tradicionales implican el ajuste

Los rboles de decisin dividen los datos

Anlisis basado en rboles

Cuando se tiene xito, el rbol que resulta

Los nodos terminales muestran los grupos

Usos Generales de los rboles de Decisin

Segmentacin. Identificar personas son

Estratificacin. Asignacin de casos a categoras.

Prediccin. Creacin de reglas para predecir eventos

Reduccin de datos y filtro de variables.

Identificacin de interacciones. Identificar

Fusin de categoras. Colapsar variables contnuas

Aplicaciones de los rboles de Decisin

Correo directo. Determinar grupos

Credit Scoring. Usar historial crediticio para

Recursos Humanos. Entender las reglas de

Anlisis de mercado. Determinacin de

Aplicaciones de los rboles de Decisin

Control de calidad. Determinacin de

Estudio de polticas. Generar reglas de

Salud. Descubrir variables que contribuyan a

Ventajas y desventajas sobre modelos

Diseados para trabajar con un nmero

Como mtodos no paramtricos capturan

No genera una ecuacin general que

Por qu cuatro mtodos?

Uso o no de criterios estadsticos al momento

Si se incorporan o no costos de clasificacin

Esfuerzo computacional de la mquina.

Si, como una

Si, como una

El anlisis de datos requiere de una participacin

Siempre mire los datos en bruto.

Conozca las caractersticas en sus datos antes de

Limpie los datos o est conciente de cualquier

Valide sus resultados con nuevos datos o con una

Si es posible utilice modelos estadsticos

Tabla de Ganancia de Nodos

Nodo. Nmero del nodo.

Nodo N. Nmero de casos dentro de un nodo.

Nodo Porcentaje. Porcentaje de personas en el nodo contra la

Ganancia N. N de casos en el nodo que caen dentro de la

Ganancia Porcentaje. Porcentaje de personas en la categora

Respuesta. Tasa de respuesta en el nodo para la categora

ndice. Radio del nodo de respuesta versus la respuesta de la

CHAID y CHAID Exhaustivo

Chi-square Automatic Interaction Detector (Detector

El modelo CHAID es un mtodo exploratorio del

CHAID selecciona un sistema de predictores y de sus

El modelo desarrolla un rbol de clasificacin con los

CHAIS es puede proveer informacin relevante sobre

CHAID tiende a crear rboles amplios ms que los mtodos

Funciona con todo tipo de variables (cualitativas y cuantitativas)

CHAID comienza su anlisis seleccionando

Si la variable independiente tiene ms de 2 categoras, CHAID

Para variables nominales, cualquier categora puede ser unida,

Por lo tanto, CHAID divide la data sistemticamente en

Lectura de un Diagrama CHAID

Los diagramas CHAID se deben