Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Técnicas de Arboles de Clasificación
Técnicas de Arboles de Clasificación
Clasificacin
Jorge Del Ro L.
Consultor Estadstico
Introduccin
Diferentes
mtodos
pueden
manejar
diferentes tipos medida en las variables.
Comparacin
Caracterstica
CHAID
CHAID
Exahustivo
C&RT
QUEST
Tipo de Particin
Mltiple
Mltiple
Binaria
Binaria
Dependiente Continua
No
Predictoras Continuas
Si (*)
Si (*)
Coste de Mala
Clasificacin
(Crecimiento del Arbol)
No
No
Pruebas Estadsticas
(Seleccin del
Predictor)
No
Pruebas Estadsticas
(Particionar)
No
No
Moderada
Moderada
Lento
Moderada/Lento
No
No
No, Sustitutos
usados para
particin
No, Sustitutos
usados para
particin
Velocidad
Utiliza A priori?
Valores Faltantes para
los Predictores
Usados?
Recomendaciones
Qu es CHAID?
Qu es CHAID?
Principios y Consideraciones
la
variable
Ventajas
Opciones Tcnicas
Extensin CHAID y
Caractersticas Adicionales
Introduccin
Particin.
Validacin cruzada.
Introduccin
Validacin
Validacin
Procesamiento
Muestras relacionadas
Incorporando Ganancias
rboles de Clasificacin y
Regresin
El Mtodo C&RT
Impureza
Impureza
Medidas de Impureza
Gini:
pi2
g (t ) 1
i
Costo Complejo
CostoComplex
R(T ) a * T
Se calcula la disminucin en
impureza para todos los posibles
puntos de corte.
rboles de Regresin
El mtodo de regresin
Impureza
QUEST Analysis
Complejidad computacional.
Una variable ordinal con n
valores en un nodo conlleva (n-1) divisiones, por lo que el
numero de clculos en cada nota aumenta de forma proporcional
al numero de valores.
El mtodo Quest
Sea X
SI
Se selecciona
Para divisin
Es menor
que alfa
preestablecido
?
SI
Seleccionar la
variable para dividir
NO
Se usa
Levene
Su niv.sig es
menor a
alfa?
NO
Como lo hace?
Es X
ordinal
o
continua
?
SI
SI
Tiene Y
dos
categoras
?
Aplicar el Anlisis
Discriminante Cuadrtico para
determinar el punto de divisin
NO
NO
Transfomar X en dummys y
calcular la mayor coordenada
discriminante de Z
Calcular la media de X
para cada categora de
Y y aplicar un cluster de
2 medias a esas medias
Costo Complejo
utilizando
Recomendaciones
Trucos
Eficiencia
Tiempos
N Datos
Mtodo
10 Predictores
CHAID
0:00:01
CHAID Exhaustivo
0:00:01
1000 C&RT
0:00:02
QUEST
0:00:04
C&RT (Variable Continua)
0:00:03
CHAID
0:00:04
CHAID Exhaustivo
0:00:06
10000 C&RT
0:08:45
QUEST
0:08:04
C&RT (Variable Continua)
6:05:00
CHAID
0:00:10
CHAID Exhaustivo
0:00:15
50000 C&RT
0:07:50
QUEST
0:14:45
C&RT (Variable Continua) ---
50 Predictores
0:00:02
0:00:02
0:00:09
0:00:16
0:00:14
0:00:08
0:00:19
0:50:00
A
--0:00:30
0:00:40
1:13:00
A
---