Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Como Aplicar Arboles de Decision en SPSS
Como Aplicar Arboles de Decision en SPSS
de Barcelona.
Barcelona. Institut
Institut de
de Cincies
Cincies de
de lEducaci
lEducaci
Universitat
Vanesa Berlanga Silvente, Mara Jos Rubio Hurtado, Ruth Vil Baos, Cmo aplicar rboles de decisin en SPSS
<Artculo>
Cmo aplicar rboles de decisin en SPSS.
Vanesa Berlanga Silvente, Mara Jos Rubio Hurtado, Ruth Vil Baos
Fecha de presentacin: 11/10/2012
Fecha de aceptacin: 19/10/2012
Fecha de publicacin: 08/01/2013
//Resumen
Un rbol de decisin es una forma grfica y analtica de representar todos los eventos (sucesos)
que pueden surgir a partir de una decisin asumida en cierto momento. Nos ayudan a tomar la
decisin ms acertada, desde un punto de vista probabilstico, ante un abanico de posibles
decisiones. Estos rboles permiten examinar los resultados y determinar visualmente cmo fluye
el modelo. Los resultados visuales ayudan a buscar subgrupos especficos y relaciones que tal vez
no encontraramos con estadsticos ms tradicionales.
Los rboles de decisin son una tcnica estadstica para la segmentacin, la estratificacin, la
prediccin, la reduccin de datos y el filtrado de variables, la identificacin de interacciones, la
fusin de categoras y la discretizacin de variables continuas.
La funcin rboles de decisin (Tree) en SPSS crea rboles de clasificacin y de decisin para
identificar grupos, descubrir las relaciones entre grupos y predecir eventos futuros. Existen
diferentes tipos de rbol: CHAID, CHAID exhaustivo, CRT y QUEST, segn el que mejor se ajuste
a nuestros datos.
//Palabras clave
rbol de decisin, CHAID, clasificacin, minera de datos.
// Referencia recomendada
Berlanga Silvente, V., Rubio Hurtado, M. J., Vil Baos, R. (2013). Cmo aplicar rboles de
decisin en SPSS. [En lnea] REIRE, Revista dInnovaci i Recerca en Educaci, 6 (1), 65-79.
Accesible en: http://www.ub.edu/ice/reire.htm
// Datos de las autoras
Vanesa Berlanga Silvente. Profesora. Universidad de Barcelona. Departamento de
Mtodos de Investigacin y Diagnstico en Educacin (MIDE). berlanga.silvente@ub.edu
Mara Jos Rubio Hurtado. Profesora. Universidad de Barcelona. Departamento de
Mtodos de Investigacin y Diagnstico en Educacin (MIDE). mjrubio@ub.edu
Ruth Vil Baos. Profesora. Universidad de Barcelona. Departamento de Mtodos de
Investigacin y Diagnstico en Educacin (MIDE). ruth_vila@ub.edu
- 65 -
Vanesa Berlanga Silvente, Mara Jos Rubio Hurtado, Ruth Vil Baos, Cmo aplicar rboles de decisin en SPSS
- 66 -
Vanesa Berlanga Silvente, Mara Jos Rubio Hurtado, Ruth Vil Baos, Cmo aplicar rboles de decisin en SPSS
Suspenden 55%
Suspenden 25%
Aprueban 40%
Suspenden 60%
Suspenden 7%
Figura 2. rbol de clasificacin del rendimiento acadmico de estudiantes de primer curso de Ingeniera
Electrnica (datos ficticios para uso didctico).
- 67 -
Vanesa Berlanga Silvente, Mara Jos Rubio Hurtado, Ruth Vil Baos, Cmo aplicar rboles de decisin en SPSS
Nodo de decisin: Nodo que indica que una decisin necesita tomarse en ese punto del
proceso. Est representado por un cuadrado.
Nodo de probabilidad: Nodo que indica que en ese punto del proceso ocurre un evento
aleatorio. Probabilidades de que ocurran los eventos posibles como resultado de las
decisiones. Est representado por un crculo.
Nodo terminal: Nodo en el que todos los casos tienen el mismo valor para la variable
dependiente. Es un nodo homogneo que no requiere ninguna divisin adicional, ya que
es puro.
Rama: Nos muestra los distintos caminos que se pueden emprender cuando tomamos
una decisin o bien ocurre algn evento aleatorio. Resultados de las posibles
interacciones entre las alternativas de decisin y los eventos.
Existen cuatro mtodos de divisin para los rboles cuyas caractersticas resumimos a
continuacin:
CHAID exhaustivo: Supone una modificacin de CHAID que examina todas las divisiones
posibles para cada predictor y trata todas las variables por igual, independientemente del
tipo y el nmero de categoras.
- 68 -
Vanesa Berlanga Silvente, Mara Jos Rubio Hurtado, Ruth Vil Baos, Cmo aplicar rboles de decisin en SPSS
El paquete estadstico de SPSS permite las siguientes posibilidades en relacin con la tcnica de
los rboles de decisin:
3.
Seleccionar entre diferentes tipos de rbol: CHAID, CHAID exhaustivo, CRT y QUEST,
segn el que mejor se ajuste a nuestros datos.
Presentar resultados de forma intuitiva, lo que facilita la interpretacin para pblicos sin
demasiados conocimientos de estadstica.
Guardar informacin de los rboles como nuevas variables en los datos. Informacin
como el nmero de nodo de terminal, el valor pronosticado y las probabilidades
pronosticadas.
Las escalas de medida asignadas a la matriz de datos del SPSS, ya que pueden afectar a la
creacin del rbol, si no estn bien definidas.
La muestra: se aconseja que sea suficientemente cuantiosa (evitar muestras con menos de
1.000 casos).
- 69 -
Vanesa Berlanga Silvente, Mara Jos Rubio Hurtado, Ruth Vil Baos, Cmo aplicar rboles de decisin en SPSS
a
b
c
- 70 -
Vanesa Berlanga Silvente, Mara Jos Rubio Hurtado, Ruth Vil Baos, Cmo aplicar rboles de decisin en SPSS
- 71 -
Vanesa Berlanga Silvente, Mara Jos Rubio Hurtado, Ruth Vil Baos, Cmo aplicar rboles de decisin en SPSS
La pestaa rbol permite controlar el aspecto inicial del rbol o suprimir completamente su
presentacin. Por defecto aparecen ya marcadas las siguientes opciones:
Orientacin. El rbol se muestra de arriba abajo, con el nodo raz situado en la parte
superior. Tambin se podra mostrar de izquierda a derecha, o de derecha a
izquierda.
Contenidos de los nodos. Los nodos pueden mostrar tablas, grficos o ambos. Para
variables dependientes categricas, las tablas muestran frecuencias y porcentajes, y
los grficos son diagramas de barras. Para variables dependientes de escala, las
tablas muestran medias, desviaciones tpicas, nmero de casos y valores
pronosticados, y los grficos son histogramas. Por defecto, aparece la tabla, aunque
sugerimos seleccionar rbol en formato de tabla y grfico. Esta opcin ofrece una
opcin grfica muy clarificadora del rbol.
Escala. Por defecto, los rboles grandes se reducen de forma automtica para
intentar ajustar el rbol a la pgina, pero se puede especificar un porcentaje de
escala personalizado de hasta el 200%.
- 72 -
Vanesa Berlanga Silvente, Mara Jos Rubio Hurtado, Ruth Vil Baos, Cmo aplicar rboles de decisin en SPSS
- 73 -
Vanesa Berlanga Silvente, Mara Jos Rubio Hurtado, Ruth Vil Baos, Cmo aplicar rboles de decisin en SPSS
La pestaa Lmites de crecimiento permite limitar el nmero de niveles del rbol y controlar
el nmero de casos mnimo para nodos parentales y filiales. Se pueden modificar algunos
de los siguientes parmetros:
Nmero de casos mnimo. Controla el nmero de casos mnimo para los nodos. Los
nodos que no cumplen estos criterios no se dividen. El aumento de los valores
mnimos tiende a generar rboles con menos nodos. La disminucin de dichos
valores mnimos generar rboles con ms nodos. Para archivos de datos con un
nmero pequeo de casos, es posible que, en ocasiones, los valores por defecto de
100 casos para nodos parentales y de 50 casos para nodos filiales den como
resultado rboles sin ningn nodo por debajo del nodo raz; en este caso, la
disminucin de los valores mnimos podra generar resultados ms tiles.
Para los mtodos CHAID y CHAID exhaustivo (pestaa CHAID), puede controlarse el nivel
de significacin para la divisin de nodos y la fusin de categoras. Para ambos criterios, el
nivel de significacin por defecto es igual a 0,05.
Debe tenerse en cuenta que, para variables dependientes ordinales, el valor de Chicuadrado para determinar la divisin de nodos y la fusin de categoras se calcula
mediante el mtodo de la razn de verosimilitud. Para variables dependientes nominales,
puede seleccionarse el mtodo Pearson.
- 74 -
Vanesa Berlanga Silvente, Mara Jos Rubio Hurtado, Ruth Vil Baos, Cmo aplicar rboles de decisin en SPSS
4.
La Tabla de resumen del modelo proporciona informacin general sobre las especificaciones
utilizadas para crear el modelo y sobre el modelo resultante. La seccin Especificaciones ofrece
informacin sobre los valores de configuracin utilizados para generar el modelo de rbol,
incluidas las variables utilizadas en el anlisis. La seccin Resultados muestra informacin sobre el
nmero de nodos totales y terminales, la profundidad del rbol (nmero de niveles por debajo
del nodo raz) y las variables independientes incluidas en el modelo final.
El Diagrama de rbol obtenido es una representacin grfica del modelo del rbol. En el
ejemplo, todas las variables son tratadas como nominales y cada nodo contiene una tabla de
frecuencias que muestra el nmero de casos (frecuencia y porcentaje) para cada categora de la
variable dependiente. Tambin incluye el grfico de frecuencias.
La categora pronosticada, que es la categora con el mayor valor de frecuencia en cada nodo,
aparece resaltada con una franja gris.
- 75 -
Vanesa Berlanga Silvente, Mara Jos Rubio Hurtado, Ruth Vil Baos, Cmo aplicar rboles de decisin en SPSS
Figura 9. Diagrama del rbol para el modelo de xito acadmico en el primer curso de Ingeniera
Electrnica.
1. En primer lugar, nos fijamos en el nodo 0 que describe la variable dependiente: porcentaje de
los estudiantes que suspenden y de los que aprueban.
2. Seguidamente observamos que la variable dependiente se ramifica en dos nodos: Nodo 1 y 2
pertenecientes a la variable Satisfaccin con la carrera, indicando que sta es la variable principal
predictora.
//REIRE, Vol. 6, nm. 1, enero 2013
//ISSN: 1886-1946
//Depsito legal: B.20973-2006
// DOI:10.1344/reire2013.6.1615
- 76 -
Vanesa Berlanga Silvente, Mara Jos Rubio Hurtado, Ruth Vil Baos, Cmo aplicar rboles de decisin en SPSS
Entre los estudiantes que estn satisfechos con la carrera, los que estudian menos de tres
horas y no han escogido la carrera como primera opcin slo tienen el 41.3% de
probabilidad de aprobar.
Para finalizar, las variables de prediccin del modelo aparecen en las tablas de riesgo y de
clasificacin, y proporcionan una rpida evaluacin de la bondad del funcionamiento del
modelo, tal y como se observa en la figura 10.
- 77 -
Vanesa Berlanga Silvente, Mara Jos Rubio Hurtado, Ruth Vil Baos, Cmo aplicar rboles de decisin en SPSS
Para la interpretacin de estas tablas debemos considerar que los resultados en la tabla de
clasificacin son coherentes con la estimacin de riesgo. La tabla muestra que el modelo clasifica
de forma correcta, aproximadamente, al 69.3% de los individuos en general. De forma especfica
para cada categora de la variable dependiente ofrece un acierto ligeramente ms elevado en
el caso de la categora aprobar, con un 69.6%.
<Referencias bibliogrficas>
Hernndez, J.; Ramrez, M.J. y Ferri, C. (2004). Introduccin a la minera de datos. Madrid:
Pearson educacin.
Lind, D.A; Marchal, W.G. y Wathen, S.A. (2012). Estadstica aplicada a los negocios y la
economa. Mxico D.F.: MCGraw Hill.
Prez, C. (2011). Tcnicas de segmentacin. Conceptos, herramientas y aplicaciones. Madrid:
Gaceta Grupo Editorial.
Prez, C. (2004). Tcnicas de anlisis multivariante de datos. Aplicaciones con SPSS. Madrid:
Pearson educacin.
Prez, C. y Santn, D. (2007). Minera de Datos: Tcnicas y Herramientas. Madrid: Ediciones
Paraninfo, S.A.
- 78 -
Vanesa Berlanga Silvente, Mara Jos Rubio Hurtado, Ruth Vil Baos, Cmo aplicar rboles de decisin en SPSS
Copyright 2013. Esta obra est sujeta a una licencia de Creative Commons mediante la cual, cualquier explotacin de sta, deber
reconocer a sus autores, citados en la referencia recomendada que aparece al inicio de este documento.
- 79 -