Está en la página 1de 54

Introduccin a SPSS rboles de

Clasificacin
Jorge Del Ro L.
Consultor Estadstico

Introduccin

Es un mdulo que contiene diferentes procedimientos


para resolver problemas de prediccin y clasificacin
utilizando anlisis de rboles de decisin.

Es capaz de combinar a travs de un conjunto de


variables
independientes
y
sucesivamente
particionando la data en subgrupos de mejorar la
prediccin o clasificacin de una variable objetivo.

Es una tcnica valiosa cuando deseamos construir


modelos
con
gran
cantidad
de
variables
independientes o con poca teora previa que sirva de
gua.

Anlisis basado en rboles

Los procedimientos tradicionales implican el ajuste


de un modelo (regresin por ejemplo) segn el
comportamiento de los datos.

Los rboles de decisin dividen los datos


sucesivamente con base a algn criterio que
implique relaciones entre las variables predictoras y
la variable objetivo.

Anlisis basado en rboles

Cuando se tiene xito, el rbol que resulta


indica qu variables predictoras estn
relacionadas con mayor fuerza con la
variable objetivo.

Los nodos terminales muestran los grupos


que pueden tener una mayor concentracin
de casos con la caracterstica deseada.

Usos Generales de los rboles de Decisin

Segmentacin. Identificar personas son


probablemente miembros de un grupo.

Estratificacin. Asignacin de casos a categoras.

Prediccin. Creacin de reglas para predecir eventos


futuros.

Reduccin de datos y filtro de variables.


Seleccionar un subconjunto de variables para contruir
un modelo paramtrico.

Identificacin de interacciones. Identificar


relaciones que pertenezcan a subgrupos especficos.

Fusin de categoras. Colapsar variables contnuas


en categoras discretas.

Aplicaciones de los rboles de Decisin

Correo directo. Determinar grupos


demogrficos con alta tasa de respuesta.

Credit Scoring. Usar historial crediticio para


tomar decisiones de crdito.

Recursos Humanos. Entender las reglas de


pasadas de contratacin para afinar el
proceso.

Anlisis de mercado. Determinacin de


variables geogrficas, precios, caractersticas
del consumidor y otras

Aplicaciones de los rboles de Decisin

Control de calidad. Determinacin de


productos defectuosos.

Estudio de polticas. Generar reglas de


decisin en las polticas de contratacin.

Salud. Descubrir variables que contribuyan a


mejores resultados de salud.

Ventajas y desventajas sobre modelos


tradicionales

Diseados para trabajar con un nmero


elevado de variables (CHAID vs loglineal)

Como mtodos no paramtricos capturan


relaciones que los modelos lineales no
pueden capturar (relaciones no lineales e
interacciones complejas).

No genera una ecuacin general que


exprese el modelo.

Por qu cuatro mtodos?

Diferentes
mtodos
pueden
manejar
diferentes tipos medida en las variables.

Uso o no de criterios estadsticos al momento


de escoger y partir variables.

Si se incorporan o no costos de clasificacin


errnea y probabilidades a priori.

Esfuerzo computacional de la mquina.

Comparacin
Caracterstica

CHAID

CHAID
Exahustivo

C&RT

QUEST

Tipo de Particin

Mltiple

Mltiple

Binaria

Binaria

Dependiente Continua

No

Predictoras Continuas

Si (*)

Si (*)

Coste de Mala
Clasificacin
(Crecimiento del Arbol)

No

No

Pruebas Estadsticas
(Seleccin del
Predictor)

No

Pruebas Estadsticas
(Particionar)

No

No

Moderada

Moderada

Lento

Moderada/Lento

No

No

Si, como una


categora

Si, como una


categora

No, Sustitutos
usados para
particin

No, Sustitutos
usados para
particin

Velocidad
Utiliza A priori?
Valores Faltantes para
los Predictores
Usados?

Recomendaciones

El anlisis de datos requiere de una participacin


humana atenta.

Siempre mire los datos en bruto.

Conozca las caractersticas en sus datos antes de


emprender un proyecto grande.

Limpie los datos o est conciente de cualquier


irregularidad en ellos.

Valide sus resultados con nuevos datos o con una


muestra de prueba.

Si es posible utilice modelos estadsticos


tradicionales para extender y verificar lo aprendido.

Tabla de Ganancia de Nodos

Nodo. Nmero del nodo.

Nodo N. Nmero de casos dentro de un nodo.

Nodo Porcentaje. Porcentaje de personas en el nodo contra la


muestra completa.

Ganancia N. N de casos en el nodo que caen dentro de la


categora objetivo.

Ganancia Porcentaje. Porcentaje de personas en la categora


objetivo contra el N total de la categora objetivo.

Respuesta. Tasa de respuesta en el nodo para la categora


objetivo.

ndice. Radio del nodo de respuesta versus la respuesta de la


muestra total.

CHAID y CHAID Exhaustivo

Qu es CHAID?

Chi-square Automatic Interaction Detector (Detector


Automtico de Interaccin Chi-cuadrado).

El modelo CHAID es un mtodo exploratorio del


anlisis de datos usado para estudiar las relaciones
entre una variable dependiente y una serie grande de
variables predictoras.

CHAID selecciona un sistema de predictores y de sus


interacciones que predicen ptimamente la medida
de la variable dependiente.

Qu es CHAID?

El modelo desarrolla un rbol de clasificacin con los


perfiles ms importantes formados por las variables
independientes diferenciado los criterios de una
variable dependiente.

CHAIS es puede proveer informacin relevante sobre


una variable dependiente, donde modelos formales
tienen dificultades (como muchas variables
categricas o un limitado tamao de muestra).

Principios y Consideraciones

CHAID tiende a crear rboles amplios ms que los mtodos


binarios.

Funciona con todo tipo de variables (cualitativas y cuantitativas)

CHAID comienza su anlisis seleccionando


independiente ms significativa (menor p-value).

Si la variable independiente tiene ms de 2 categoras, CHAID


las compara y une las categoras que no muestren diferencias en
el resultado.

Para variables nominales, cualquier categora puede ser unida,


mientras que para ordinales solo categoras contiguas.

Por lo tanto, CHAID divide la data sistemticamente en


subgrupos que muestren diferencias significativas.

la

variable

Lectura de un Diagrama CHAID

Los diagramas CHAID se deben


pensar como el "tronco de un rbol"
con particiones progresivas en
"ramas ms pequeas.

El "tronco inicial del rbol" son todos


los participantes en el estudio.

Las variables predictoras conducen


a una discriminacin
estadsticamente significativa.

El "ms significativo" define la


primera particin de la muestra, o la
primera ramificacin del rbol.

Lectura de un Diagrama CHAID

Entonces, cada uno de los nuevos grupos formados,


son particionados por otra de las variables
predictoras, etc.

El resultado al final del proceso es un rbol que


presenta una serie de grupos con diferencias
mximas sobre la variable dependiente.

En cada paso, las pruebas estadsticas se hacen


para determinar si una particin es significativa y
puede ser hecha.

Ventajas

El nivel de medida para la variable dependiente y las


variables predictoras pueden ser nominal, ordinal o
intervalo.

No todas las variables predictoras necesitan ser


medidas en el mismo nivel.

Los valores faltantes se pueden tratar como una


"categora flotante" para poder utilizar los datos
parciales, siempre que sea posible dentro del rbol.

Un sistema apropiadamente conservador de criterios


estadsticos se utiliza, y los modelos que resultan
acentan los resultados ms fuertes.

Opciones Tcnicas

Ajuste del .05 de Bonferroni sobre las probabilidades

Un tamao mnimo del nodo padre de 10

Un tamao mnimo del nodo hijo de 5.

La capacidad de partir o combinar continuamente las


categoras de las variables predictoras.
En algunos casos, estas opciones tcnicas se
ajustan segn el tamao de muestra o se basan en
conocimiento anterior sobre las variables.

Notas sobre CHAID

Es un mtodo til para resumir datos, y puede


mostrar divisiones naturales importantes sobre los
clientes.

Los modelos presentados se deben considerar como


sugestivos, pero no absolutamente definitivos, se
pueden complementar con modelos estadsticos
tradicionales.

CHAID y Regresin Logstica

CHAID: diseado para detectar interacciones

Reg. Logstica: Deteccin puede ser dirigida a incluir


interacciones.

R. Logstica acepta variables continuas mientras que


CHAID necesita discretizarlas.

Si tiene muchas variables continuas cuya interaccin


se sospecha no esta relacionada con salida. R.
Logstica

Si tiene muchas variables categricas cuyas


interacciones se relacionan con la v. objetivo. CHAID

Extensin CHAID y
Caractersticas Adicionales

Introduccin

Se estudiar la importancia de la validacin del


modelo.

Dificultad del procedimiento: Es ms probable


que el modelo se ajuste a la data.

Se recomienda evaluar el modelo aplicado a


otra data.

El Statistics maneja 2 tipos de validacin:

Particin.
Validacin cruzada.

Introduccin

Adicionalmente se analizarn la incorporacin


de beneficios y perdidas.

Por defecto CHAID asume que la clasificacin


errnea es igualmente costosa aunque esto no
siempre es as.

Podemos proveer valores para el costo de una


mala clasificacin.

Validacin

Los modelos tienden a modelar bien la data


con la que fueron realizados pero no en otras
muestras.

Dividir los datos en 2 muestras, una para


entrenamiento y otra para prueba es la
solucin ms sugerida por los estadsticos.

El investigador define la cantidad de casos que


incluir cada muestra.

No hay regla para la cantidad de datos

50% a 90% de data para entrenamiento

Validacin

Cuando no se tiene el tamao de muestra necesario


para realizar una particin de los datos, se recurre a la
Validacin Cruzada.

Muestra pequea: Validacin Cruzada

Divide la muestra en subgrupos iguales


Promedio de los errores: Tabla de riesgo
Los rboles son generados, excluyendo data de cada
subgrupo
A tener en cuenta:

Procesamiento
Muestras relacionadas

Se recomienda utilizar la validacin cruzada para


muestras menores a 1000 casos. De lo contrario
utilizar la particin de la muestra.

Incorporando Ganancias

Incorpora valores de rentabilidad para la


categora de respuesta

Direct mail o Marketing de Base de Datos

No afectan al crecimiento del rbol

Ejemplo: Aceptar o rechazar una nueva tarjeta

Estimar la ganancia por tarjeta aceptada

Costo de Clasificacin Errnea

Diferente del concepto de rentabilidad, esta no


proviene de errores.

Pueden influir en el crecimiento del rbol y asignacin


de casos (CRT)

Permite asignar a una categora especfica un costo de


clasificacin errnea.

CHAID incorpora estos costos una vez que es rbol ha


sido elaborado.

En resumen, la incorporacin de costos, afecta la de


designacin de nodos para evitar el error ms costoso.

rboles de Clasificacin y
Regresin

(C&RT) Classification and Regression Trees

El Mtodo C&RT

Breiman, Friedman, Olshen y Stone (1984)

C&RT hace separaciones binarias sucesivas en los


datos guindose por un criterio, no una prueba
estadstica como lo hace CHAID.

En cada nodo, la variable predictora que mejore ms el


criterio, se usa para hacer la siguiente particin.

Los rboles creados con este criterio se dejan crecer


ampliamente y despus son podados: podar
minimizando el costo complejo.

Impureza

Es el nombre del criterio para crecer el rbol con una variable


objetivo nominal.

Captura el grado en el que los casos dentro de un nodo estn


concentrados en una sola categora.

Un nodo puro es aquel en que todos los casos estn en una


sola categora.

El mayor grado de impureza se da cuando todas las


categoras de una variable predictora contienen la misma
cantidad de casos, es decir todas las categoras o clases
aparecen en igual proporcin, siendo este nodo nada util.

Impureza

Medidas de Impureza

Gini:

Si P(t)i es la proporcin de casos en el nodo t de la categora i, la medida de


dispersin es:

pi2

g (t ) 1
i

La impureza no solo se mide para un slo nodo: El promedio ponderado de los


valores de impureza de cada nodo, es la medida de impureza de toda la rama.
C&RT parte el rbol con el predictor que ms disminuye la impureza. En el
diagrama del rbol se muestra la MEJORA.

Costo Complejo

Crecer un rbol indefinidamente, casi siempre reduce la impureza.

La medida de costo complejo aumenta en la medida en que el rbol es


ms grande.

CostoComplex

R(T ) a * T

R(T): medida de riesgo de clasificacion erronea del rbol o rama


a: coeficiente de penalidad
|T|: nmero de nodos terminales del rbol o rama.

Para mejorar la medida de costos complejo, el componente de


sustitucin de riesgo debe disminuir ms que la penalidad.

Costo complejo y poda

La medida de costo complejo funciona bien si se


deja crecer el rbol bastante, y luego se poda
utilizando este criterio.

El mtodo consiste en podar ramas de manera


sucesiva con base a la mxima reduccin de la
medida de costo complejo.

De los rboles, se escoge el rbol ms pequeo,


cuyo riesgo (probabilidad de clasificar errneamente)
est dentro de un rango de un error estndar del
menor riesgo encontrado durante el crecimiento del
rbol.

Cmo se hacen las particiones?


Para predictoras continuos u ordinales:

Se ordenan los datos dentro de los


nodos por los valores de las
categoras de la variable predictora.

Se calcula la disminucin en
impureza para todos los posibles
puntos de corte.

Se determina la mejor particin.

Cmo se hacen las particiones?

Para predictoras nominales

Todas las posibles combinaciones de sus


categoras son evaluadas, y la particin se hace
cuando se encuentra la mayor reduccin en
impureza.

Esto hace que un misma variable predictora


pueda aparecer muchas veces dentro de
una rama.

Valores perdidos y Sustitutos

En CHAID los valores perdidos se tratan como


una categora diferente.

En C&RT estos casos se utilizan en el anlisis


reemplazndolos con una estimacin que
depende de la clasificacin segn la mejor
variable predictora disponible.

C&RT, CHAID y Regresin Logstica

CHAID y regresin logstica son ms rpidas y


estn basadas en pruebas estadsticas.

CHAID junta categoras de las variables


predictoras continuas en categoras ordinales
antes del anlisis.C&RT crea particiones
durante el anlisis.

rboles de Regresin

La parte RT de C&RT es la que nos permite


predecir variables objetivo que sean continuas.

Es una alternativa atractiva puesto que puede


capturar, de manera nativa, relaciones no
lineales entre variables, adems de efectos de
interaccin.

Una opcin ptima es correr un RT que


identifique variables relevantes y posibles
interacciones y relaciones no lineales para
luego correr la regresin

El mtodo de regresin

Puesto que la variable objetivo es


continua, el criterio es minimizar la
varianza dentro de cada nodo,
obteniendo as los nodos ms
homogneos sobre la variable objetivo.

De la misma manera de CT, el


crecimiento del rbol seguido de la
poda es la base de RT

C&RT, CHAID y Regresin Logstica

Si existen relaciones cuasi lineales entre una


predictora y la proporcin de la variable
objetivo, C&RT tratar de capturar esta
relacin con particiones binarias sucesivas,
CHAID con una particin multicategrica y
ninguna ser tan eficiente como RL.

Sin embargo CHAID y C&RT pueden capturar


relaciones no lineales e interacciones
complejas.

Impureza

El criterio de impureza se mantiene pero se


mide de acuerdo a la varianza al interior del
nodo.

Captura el grado en el que las respuestas


dentro de un nodo estn concentradas
alrededor de un solo valor.

La impureza de una rama es el promedio


ponderado de las varianzas de los nodos
terminales.

Costos y probabilidades a priori

Para una variable objetivo continua, no hay


categoras a las cuales asignarle beneficios o
probabilidades.

Si los costos se consideran relevantes,


estaran asociados a la distancia entre el valor
pronosticado y el verdadero, que est implcito
en la varianza.

QUEST Analysis

Quick Unbiased Efficient Statistical Tree

Dos razones para desarrollar QUEST

Reducir el tiempo de procesamiento que tena


C&RT.

Reducir la tendencia de CHAID de favorecer


variables continuas o aquellas con muchas
categoras (correccin de Bonferroni)

Complejidad computacional.
Una variable ordinal con n
valores en un nodo conlleva (n-1) divisiones, por lo que el
numero de clculos en cada nota aumenta de forma proporcional
al numero de valores.

Sesgos en la seleccin de variables. Pero un problema mas serio


desde el punto de vista interpretativo y de generalizacin, de
resultados es que los mtodos exhaustivo tienen a seleccionar
aquellas variables que cuentan con un mayor numero de
categoras.

El proceso se repite de forma recursiva hasta que salta alguna de


las reglas de Parada, gracias a este procedimiento de clculo,
Quest:
*Apenas
muestra
sesgos
de
respuesta
*Muestra
una
mayor
simplicidad
de
calculo
*Permite incluir mtodos de validacin mediante poda
*Permite incorporar combinaciones lineales de variables
Comparando Quest con mtodos exhaustivos se han
comprobado que cuando se utilizan divisiones univariadas, no
existe un ganador claro.

El mtodo Quest
Sea X

Se calcula niv. Sig:


Chi-cuadrado o
ANOVA se selecciona
al menor

SI

Se selecciona
Para divisin

Es menor
que alfa
preestablecido
?

SI

Seleccionar la
variable para dividir

NO

Se usa
Levene
Su niv.sig es
menor a
alfa?

NO

Seleccionar la var con


el menor niv.sig para
dividir el nodo

Como lo hace?
Es X
ordinal
o
continua
?

SI

SI

Tiene Y
dos
categoras
?

Aplicar el Anlisis
Discriminante Cuadrtico para
determinar el punto de divisin

NO

NO
Transfomar X en dummys y
calcular la mayor coordenada
discriminante de Z

Calcular la media de X
para cada categora de
Y y aplicar un cluster de
2 medias a esas medias

Otras caractersticas equivalentes a


C&RT

Costo Complejo

Poda del rbol

Valores perdidos reemplazados


otras variables predictoras

utilizando

Recomendaciones

A pesar de ser una herramienta para minera


de datos, es importante sacar variables que
sean simples medidas alternativas a la variable
objetivo, y aquellas que no tengan porque
tener relacin con ella (cdula)

Para muestras menores a 1000, reduzca el


tamao mnimo de nodo padre y filial, para
muestras mayores a 10000, aumntelo (a
menos que est corriendo C&RT o QUEST)

Trucos

Tenga en consideracin si hace falta tener


todas la categoras de la variable objetivo.
Reducirlo a las relevantes arrojar un mejor
resultado.

Si necesita definir sus propias particiones


dentro de una variable predictora, hgalo.

Eficiencia

Si hay variables nominales con muchas


categoras, el esfuerzo computacional es
considerable:
10
categoras:
511
combinaciones; 30 categoras : 536,870,911!!!

Tenga en cuenta esto para decidir en que


computador va a correr su anlisis.

Tiempos

N Datos

Mtodo

10 Predictores
CHAID
0:00:01
CHAID Exhaustivo
0:00:01
1000 C&RT
0:00:02
QUEST
0:00:04
C&RT (Variable Continua)
0:00:03
CHAID
0:00:04
CHAID Exhaustivo
0:00:06
10000 C&RT
0:08:45
QUEST
0:08:04
C&RT (Variable Continua)
6:05:00
CHAID
0:00:10
CHAID Exhaustivo
0:00:15
50000 C&RT
0:07:50
QUEST
0:14:45
C&RT (Variable Continua) ---

50 Predictores
0:00:02
0:00:02
0:00:09
0:00:16
0:00:14
0:00:08
0:00:19
0:50:00
A
--0:00:30
0:00:40
1:13:00
A
---

También podría gustarte