Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Vanesa Berlanga Silvente, Mara Jos Rubio Hurtado, Ruth Vil Baos, Cmo aplicar rboles de decisin en SPSS
//Resumen Un rbol de decisin es una forma grfica y analtica de representar todos los eventos (sucesos) que pueden surgir a partir de una decisin asumida en cierto momento. Nos ayudan a tomar la decisin ms acertada, desde un punto de vista probabilstico, ante un abanico de posibles decisiones. Estos rboles permiten examinar los resultados y determinar visualmente cmo fluye el modelo. Los resultados visuales ayudan a buscar subgrupos especficos y relaciones que tal vez no encontraramos con estadsticos ms tradicionales. Los rboles de decisin son una tcnica estadstica para la segmentacin, la estratificacin, la prediccin, la reduccin de datos y el filtrado de variables, la identificacin de interacciones, la fusin de categoras y la discretizacin de variables continuas. La funcin rboles de decisin (Tree) en SPSS crea rboles de clasificacin y de decisin para identificar grupos, descubrir las relaciones entre grupos y predecir eventos futuros. Existen diferentes tipos de rbol: CHAID, CHAID exhaustivo, CRT y QUEST, segn el que mejor se ajuste a nuestros datos. //Palabras clave rbol de decisin, CHAID, clasificacin, minera de datos. // Referencia recomendada Berlanga Silvente, V., Rubio Hurtado, M. J., Vil Baos, R. (2013). Cmo aplicar rboles de decisin en SPSS. [En lnea] REIRE, Revista dInnovaci i Recerca en Educaci, 6, 1. Accesible en: http://www.ub.edu/ice/reire.htm // Datos de las autoras Vanesa Berlanga Silvente. Profesora. Universidad de Barcelona. Departamento de Mtodos de Investigacin y Diagnstico en Educacin (MIDE). berlanga.silvente@ub.edu Mara Jos Rubio Hurtado. Profesora. Universidad de Barcelona. Departamento de Mtodos de Investigacin y Diagnstico en Educacin (MIDE). mjrubio@ub.edu Ruth Vil Baos. Profesora. Universidad de Barcelona. Departamento de Mtodos de Investigacin y Diagnstico en Educacin (MIDE). ruth_vila@ub.edu
//REIRE, Vol. 6, nm. 1, enero 2013 //ISSN: 1886-1946 //Depsito legal: B.20973-2006 // DOI:10.1344/reire2013.6.1615
Vanesa Berlanga Silvente, Mara Jos Rubio Hurtado, Ruth Vil Baos, Cmo aplicar rboles de decisin en SPSS
//REIRE, Vol. 6, nm. 1, enero 2013 //ISSN: 1886-1946 //Depsito legal: B.20973-2006 // DOI:10.1344/reire2013.6.1615
Vanesa Berlanga Silvente, Mara Jos Rubio Hurtado, Ruth Vil Baos, Cmo aplicar rboles de decisin en SPSS
Para ejemplificar de forma grfica lo que es un rbol de decisin proponemos un sencillo ejemplo. Imaginemos que queremos conocer qu variables influyen primordialmente a la hora de aprobar el primer curso de Ingeniera Electrnica. Es decir, queremos conocer qu estudiantes matriculados de primer curso de esta carrera tienen ms probabilidades de aprobar el conjunto de las asignaturas, y qu caractersticas estn asociadas a este xito acadmico. En este caso, la variable de inters (VD) es el rendimiento acadmico en el primer curso. Tras introducir los datos necesarios en el programa, ste nos devuelve un diagrama que nos permite comprobar que la satisfaccin con la carrera y las horas de estudio diarias son las variables que determinan principalmente el xito acadmico de un estudiante. Aprueban, sobre todo, los estudiantes satisfechos con la carrera que cursan y, dentro de este grupo, los que dedican ms horas al estudio. Es decir, si un estudiante de primer curso de Ingeniera Electrnica est satisfecho con la carrera y estudia ms de tres horas diarias, entonces tiene una probabilidad de aprobar el conjunto del primer curso del 93%.
Figura 2. rbol de clasificacin del rendimiento acadmico de estudiantes de primer curso de Ingeniera Electrnica (datos ficticios para uso didctico).
//REIRE, Vol. 6, nm. 1, enero 2013 //ISSN: 1886-1946 //Depsito legal: B.20973-2006 // DOI:10.1344/reire2013.6.1615
Vanesa Berlanga Silvente, Mara Jos Rubio Hurtado, Ruth Vil Baos, Cmo aplicar rboles de decisin en SPSS
La terminologa asociada a la tcnica de los rboles de decisin recurre a una terminologa especfica, por lo que consideramos interesante, antes de seguir adelante, clarificarla.
Nodo de decisin: Nodo que indica que una decisin necesita tomarse en ese punto del
proceso. Est representado por un cuadrado.
Nodo de probabilidad: Nodo que indica que en ese punto del proceso ocurre un evento aleatorio. Probabilidades de que ocurran los eventos posibles como resultado de las
decisiones. Est representado por un crculo.
Nodo terminal: Nodo en el que todos los casos tienen el mismo valor para la variable
dependiente. Es un nodo homogneo que no requiere ninguna divisin adicional, ya que es puro.
Rama: Nos muestra los distintos caminos que se pueden emprender cuando tomamos una decisin o bien ocurre algn evento aleatorio. Resultados de las posibles
interacciones entre las alternativas de decisin y los eventos.
Existen cuatro mtodos de divisin para los rboles cuyas caractersticas resumimos a continuacin:
CHAID exhaustivo: Supone una modificacin de CHAID que examina todas las divisiones
posibles para cada predictor y trata todas las variables por igual, independientemente del tipo y el nmero de categoras.
//REIRE, Vol. 6, nm. 1, enero 2013 //ISSN: 1886-1946 //Depsito legal: B.20973-2006 // DOI:10.1344/reire2013.6.1615
Vanesa Berlanga Silvente, Mara Jos Rubio Hurtado, Ruth Vil Baos, Cmo aplicar rboles de decisin en SPSS
El paquete estadstico de SPSS permite las siguientes posibilidades en relacin con la tcnica de los rboles de decisin: Identificar grupos, segmentos y patrones de forma altamente visual. Seleccionar entre diferentes tipos de rbol: CHAID, CHAID exhaustivo, CRT y QUEST, segn el que mejor se ajuste a nuestros datos. Presentar resultados de forma intuitiva, lo que facilita la interpretacin para pblicos sin demasiados conocimientos de estadstica. Guardar informacin de los rboles como nuevas variables en los datos. Informacin como el nmero de nodo de terminal, el valor pronosticado y las probabilidades pronosticadas.
3.
Se ha realizado una encuesta a 3.511 estudiantes de Ingeniera Electrnica de diversas universidades catalanas con el objetivo de identificar los factores ms significativos a la hora de aprobar el primer curso de esta carrera universitaria.
Es importante que antes de empezar revisemos: Las escalas de medida asignadas a la matriz de datos del SPSS, ya que pueden afectar a la creacin del rbol, si no estn bien definidas. La muestra: se aconseja que sea suficientemente cuantiosa (evitar muestras con menos de 1.000 casos). La seleccin del mtodo de crecimiento ms adecuado: CHAID, CHAID Exhaustivo, CRT o QUEST.
//REIRE, Vol. 6, nm. 1, enero 2013 //ISSN: 1886-1946 //Depsito legal: B.20973-2006 // DOI:10.1344/reire2013.6.1615
Vanesa Berlanga Silvente, Mara Jos Rubio Hurtado, Ruth Vil Baos, Cmo aplicar rboles de decisin en SPSS
La variable que queremos explicar, es decir, la variable dependiente es el rendimiento acadmico de los estudiantes de primer curso de Ingeniera Electrnica, y como variables explicativas, esto es, las variables independientes, seleccionamos algunas del total de variables de tipo sociodemogrfico incluidas en la encuesta, las consideradas ms probables. En nuestro ejemplo seleccionamos las siguientes variables: nmero de horas de estudio diarias, eleccin de la carrera en primera opcin, trabajar y satisfaccin con la carrera.
a b c
//REIRE, Vol. 6, nm. 1, enero 2013 //ISSN: 1886-1946 //Depsito legal: B.20973-2006 // DOI:10.1344/reire2013.6.1615
Vanesa Berlanga Silvente, Mara Jos Rubio Hurtado, Ruth Vil Baos, Cmo aplicar rboles de decisin en SPSS
El procedimiento excluir de forma automtica cualquier variable de las seleccionadas cuya contribucin al modelo final no sea significativa. En este momento ya se puede ejecutar el procedimiento y generar un modelo de rbol bsico, pero vamos a modificar algunos parmetros que podemos seleccionar en los diferentes botones del cuadro de dilogo general de la figura 4. En el botn Categoras se pueden especificar las categoras objetivo de inters de la variable dependiente. Hay que tener en cuenta que, si bien las categoras objetivo no afectan al modelo del rbol propiamente dicho, algunos resultados y opciones slo estarn disponibles si se han seleccionado categoras objetivo. Es decir, para variables dependientes categricas (nominales, ordinales), se puede controlar qu categoras se incluirn en el anlisis e identificar las categoras objeto de inters. La opcin primera variable forzosa sirve para forzar que la primera variable independiente de la lista sea la primera que aparezca en la divisin del rbol. Esta opcin nicamente se marcar cuando la investigacin as lo requiera. El desplegable mtodo de crecimiento permite seleccionar entre los cuatro existentes: CHAID, CHAID exhaustivo, CRT y QUEST. Para este ejemplo, utilizaremos el mtodo CHAID exhaustivo. Resultados Pulsando el botn de Resultados (en la figura 4 marcado con a) se abre un cuadro de dilogo con pestaas, en el que se pueden seleccionar distintos tipos de opciones.
//REIRE, Vol. 6, nm. 1, enero 2013 //ISSN: 1886-1946 //Depsito legal: B.20973-2006 // DOI:10.1344/reire2013.6.1615
Vanesa Berlanga Silvente, Mara Jos Rubio Hurtado, Ruth Vil Baos, Cmo aplicar rboles de decisin en SPSS
La pestaa rbol permite controlar el aspecto inicial del rbol o suprimir completamente su presentacin. Por defecto aparecen ya marcadas las siguientes opciones:
Orientacin. El rbol se muestra de arriba abajo, con el nodo raz situado en la parte
superior. Tambin se podra mostrar de izquierda a derecha, o de derecha a izquierda.
Contenidos de los nodos. Los nodos pueden mostrar tablas, grficos o ambos. Para
variables dependientes categricas, las tablas muestran frecuencias y porcentajes, y los grficos son diagramas de barras. Para variables dependientes de escala, las tablas muestran medias, desviaciones tpicas, nmero de casos y valores pronosticados, y los grficos son histogramas. Por defecto, aparece la tabla, aunque sugerimos seleccionar rbol en formato de tabla y grfico. Esta opcin ofrece una opcin grfica muy clarificadora del rbol.
Escala. Por defecto, los rboles grandes se reducen de forma automtica para
intentar ajustar el rbol a la pgina, pero se puede especificar un porcentaje de escala personalizado de hasta el 200%.
En la pestaa Estadsticos las opciones disponibles dependen del nivel de medida de la variable dependiente, del mtodo de crecimiento y de otros valores de configuracin. Por defecto estn seleccionadas las siguientes opciones:
Riesgo. Estimacin del riesgo y su error tpico. Una medida de la precisin predictiva del rbol. Para variables dependientes categricas, la estimacin de riesgo es la proporcin de casos clasificados incorrectamente despus de haber sido corregido respecto a las probabilidades previas y los costes de clasificacin errnea. Para variables dependientes de escala, la estimacin de riesgo corresponde a la varianza dentro del nodo. Tabla de clasificacin. Para variables dependientes categricas (nominales, ordinales), esta tabla muestra el nmero de casos clasificados correcta e
//REIRE, Vol. 6, nm. 1, enero 2013 //ISSN: 1886-1946 //Depsito legal: B.20973-2006 // DOI:10.1344/reire2013.6.1615
Vanesa Berlanga Silvente, Mara Jos Rubio Hurtado, Ruth Vil Baos, Cmo aplicar rboles de decisin en SPSS
incorrectamente para cada categora de la variable dependiente. No est disponible para variables dependientes escalares. La pestaa Reglas ofrece la capacidad de generar reglas de seleccin o clasificacin/prediccin en forma de sintaxis de comandos, SQL o slo texto (ingls sin formato). Estas reglas se pueden visualizar en el Visor y/o guardar en un archivo externo. Validacin del modelo En el botn Validacin (en la figura 4 marcado con b) podemos validar el modelo. La validacin permite evaluar la bondad de la estructura de rbol cuando se generaliza para una mayor poblacin. Existen dos mtodos de validacin disponibles: la validacin cruzada y la validacin por divisin muestral. La validacin cruzada divide la muestra en un nmero de submuestras y, a continuacin, se generan los modelos de rbol. Con la validacin por divisin muestral, el modelo se genera utilizando una muestra de entrenamiento y despus pone a prueba ese modelo con una muestra de reserva.
Criterios de crecimiento del rbol El botn Criterios (en la figura 4 marcado con c) permite establecer los criterios de crecimiento del rbol. Para este ejemplo, deseamos que el rbol sea lo ms sencillo posible, as que limitaremos el crecimiento del rbol elevando el nmero de casos mnimo para nodos parentales y filiales, tal como aparece por defecto en el programa.
//REIRE, Vol. 6, nm. 1, enero 2013 //ISSN: 1886-1946 //Depsito legal: B.20973-2006 // DOI:10.1344/reire2013.6.1615
Vanesa Berlanga Silvente, Mara Jos Rubio Hurtado, Ruth Vil Baos, Cmo aplicar rboles de decisin en SPSS
La pestaa Lmites de crecimiento permite limitar el nmero de niveles del rbol y controlar el nmero de casos mnimo para nodos parentales y filiales. Se pueden modificar algunos de los siguientes parmetros:
Mxima profundidad de rbol. Controla el nmero mximo de niveles de crecimiento por debajo del nodo raz. El ajuste Automtica limita el rbol a tres
niveles por debajo del nodo raz para los mtodos CHAID y CHAID exhaustivo y a cinco niveles para los mtodos CRT y QUEST.
Nmero de casos mnimo. Controla el nmero de casos mnimo para los nodos. Los
nodos que no cumplen estos criterios no se dividen. El aumento de los valores mnimos tiende a generar rboles con menos nodos. La disminucin de dichos valores mnimos generar rboles con ms nodos. Para archivos de datos con un nmero pequeo de casos, es posible que, en ocasiones, los valores por defecto de 100 casos para nodos parentales y de 50 casos para nodos filiales den como resultado rboles sin ningn nodo por debajo del nodo raz; en este caso, la disminucin de los valores mnimos podra generar resultados ms tiles.
Para los mtodos CHAID y CHAID exhaustivo (pestaa CHAID), puede controlarse el nivel de significacin para la divisin de nodos y la fusin de categoras. Para ambos criterios, el nivel de significacin por defecto es igual a 0,05. Debe tenerse en cuenta que, para variables dependientes ordinales, el valor de Chicuadrado para determinar la divisin de nodos y la fusin de categoras se calcula mediante el mtodo de la razn de verosimilitud. Para variables dependientes nominales, puede seleccionarse el mtodo Pearson.
//REIRE, Vol. 6, nm. 1, enero 2013 //ISSN: 1886-1946 //Depsito legal: B.20973-2006 // DOI:10.1344/reire2013.6.1615
Vanesa Berlanga Silvente, Mara Jos Rubio Hurtado, Ruth Vil Baos, Cmo aplicar rboles de decisin en SPSS
4.
La Tabla de resumen del modelo proporciona informacin general sobre las especificaciones utilizadas para crear el modelo y sobre el modelo resultante. La seccin Especificaciones ofrece informacin sobre los valores de configuracin utilizados para generar el modelo de rbol, incluidas las variables utilizadas en el anlisis. La seccin Resultados muestra informacin sobre el nmero de nodos totales y terminales, la profundidad del rbol (nmero de niveles por debajo del nodo raz) y las variables independientes incluidas en el modelo final.
El Diagrama de rbol obtenido es una representacin grfica del modelo del rbol. En el ejemplo, todas las variables son tratadas como nominales y cada nodo contiene una tabla de frecuencias que muestra el nmero de casos (frecuencia y porcentaje) para cada categora de la variable dependiente. Tambin incluye el grfico de frecuencias. La categora pronosticada, que es la categora con el mayor valor de frecuencia en cada nodo, aparece resaltada con una franja gris.
//REIRE, Vol. 6, nm. 1, enero 2013 //ISSN: 1886-1946 //Depsito legal: B.20973-2006 // DOI:10.1344/reire2013.6.1615
Vanesa Berlanga Silvente, Mara Jos Rubio Hurtado, Ruth Vil Baos, Cmo aplicar rboles de decisin en SPSS
Figura 9. Diagrama del rbol para el modelo de xito acadmico en el primer curso de Ingeniera Electrnica.
1. En primer lugar, nos fijamos en el nodo 0 que describe la variable dependiente: porcentaje de los estudiantes que suspenden y de los que aprueban. 2. Seguidamente observamos que la variable dependiente se ramifica en dos nodos: Nodo 1 y 2 pertenecientes a la variable Satisfaccin con la carrera, indicando que sta es la variable principal predictora.
//REIRE, Vol. 6, nm. 1, enero 2013 //ISSN: 1886-1946 //Depsito legal: B.20973-2006 // DOI:10.1344/reire2013.6.1615
Vanesa Berlanga Silvente, Mara Jos Rubio Hurtado, Ruth Vil Baos, Cmo aplicar rboles de decisin en SPSS
3. A continuacin, debemos fijarnos en el Nodo 1, ya que su Chi-Cuadrado es superior a la del Nodo 2. Adems, nos interesa conocer el perfil de los estudiantes que aprueban, por ser nuestro objetivo de investigacin. El Nodo 1 nos indica que del 55.9% de los que estn satisfechos con su carrera, el 67% aprueban. 4. El Nodo 1 se vuelve a ramificar en los Nodos 3 y 4 pertenecientes a la variable Horas de estudio. Observamos en el Nodo 4 que aprueban ms los estudiantes que dedican ms de tres horas diarias al estudio, con un 74.6%, frente a un 51.4% del Nodo 3 que aprueban estudiando menos de tres horas diarias. 5. El Nodo 4 se ramifica en los nodos 9 y 10, pertenecientes a la variable Si trabaja o no. Y aqu observamos que un 92.9% de los estudiantes que no trabajan aprueban. 6. Por tanto, a modo resumen, los nodos que definen el perfil de los estudiantes que aprueban (variables que influyen en Aprobar) son: Nodo 0 -Nodo 1 - Nodo 4 - Nodo 10. Es decir, influyen las siguientes variables: Rendimiento acadmico - Satisfaccin con la carrera - Nmero de horas de estudio - Si trabaja o no.
Algunas conclusiones posibles del rbol de la figura 10, son: La variable Satisfaccin con la carrera es el mejor predictor para el Rendimiento acadmico del primer curso, con dos categoras: aprobar y suspender. La probabilidad ms alta de aprobar (92.9%) se da entre los estudiantes que se sienten satisfechos con la carrera, estudian ms de tres horas diarias y no trabajan (tal como hemos sealado en el crculo de la figura 9). La probabilidad ms baja de aprobar (20.7%) se da entre los estudiantes que no estn satisfechos con la carrera y que dedican menos de tres horas diarias al estudio. Si estos alumnos estudian ms de tres horas diarias y adems no trabajan, la probabilidad de aprobar aumenta hasta el 82.3%. Entre los estudiantes que estn satisfechos con la carrera, los que estudian menos de tres horas y no han escogido la carrera como primera opcin slo tienen el 41.3% de probabilidad de aprobar.
Para finalizar, las variables de prediccin del modelo aparecen en las tablas de riesgo y de clasificacin, y proporcionan una rpida evaluacin de la bondad del funcionamiento del modelo, tal y como se observa en la figura 10.
//REIRE, Vol. 6, nm. 1, enero 2013 //ISSN: 1886-1946 //Depsito legal: B.20973-2006 // DOI:10.1344/reire2013.6.1615
Vanesa Berlanga Silvente, Mara Jos Rubio Hurtado, Ruth Vil Baos, Cmo aplicar rboles de decisin en SPSS
Para la interpretacin de estas tablas debemos considerar que los resultados en la tabla de clasificacin son coherentes con la estimacin de riesgo. La tabla muestra que el modelo clasifica de forma correcta, aproximadamente, al 69.3% de los individuos en general. De forma especfica para cada categora de la variable dependiente ofrece un acierto ligeramente ms elevado en el caso de la categora aprobar, con un 69.6%.
<Referencias bibliogrficas>
Hernndez, J.; Ramrez, M.J. y Ferri, C. (2004). Introduccin a la minera de datos. Madrid: Pearson educacin. Lind, D.A; Marchal, W.G. y Wathen, S.A. (2012). Estadstica aplicada a los negocios y la economa. Mxico D.F.: MCGraw Hill. Prez, C. (2011). Tcnicas de segmentacin. Conceptos, herramientas y aplicaciones. Madrid: Gaceta Grupo Editorial. Prez, C. (2004). Tcnicas de anlisis multivariante de datos. Aplicaciones con SPSS. Madrid: Pearson educacin. Prez, C. y Santn, D. (2007). Minera de Datos: Tcnicas y Herramientas. Madrid: Ediciones Paraninfo, S.A.
//REIRE, Vol. 6, nm. 1, enero 2013 //ISSN: 1886-1946 //Depsito legal: B.20973-2006 // DOI:10.1344/reire2013.6.1615
Vanesa Berlanga Silvente, Mara Jos Rubio Hurtado, Ruth Vil Baos, Cmo aplicar rboles de decisin en SPSS
Silberschatz, A. (2007). Fundamentos de diseo de bases de datos (5 ed.). Madrid: Mcgraw-hill/ Interamericana de Espaa, S.A. Torrado, M. (2011). Minera de datos aplicados a la educacin. Consultado el 1 de octubre de 2012, en Depsito digital de la UB http://hdl.handle.net/2445/19862 Valderrey, P. (2010). Tcnicas de segmentacin de mercados. Madrid: Starbook editorial. Vil, R. y Bisquerra, R. (2004). El anlisis cuantitativo de los datos. Bisquerra, R. (coord). Metodologa de la investigacin educativa (pp. 259-274). Madrid: La Muralla. Vil, R. (2012). Arbres de decisi amb SPSS. Consultado el 1 de octubre de 2012, en Depsito digital de la UB: http://hdl.handle.net/2445/22282.
Copyright 2013. Esta obra est sujeta a una licencia de Creative Commons mediante la cual, cualquier explotacin de sta, deber reconocer a sus autores, citados en la referencia recomendada que aparece al inicio de este documento.
//REIRE, Vol. 6, nm. 1, enero 2013 //ISSN: 1886-1946 //Depsito legal: B.20973-2006 // DOI:10.1344/reire2013.6.1615