Documentos de Académico
Documentos de Profesional
Documentos de Cultura
5893 10681 1 PB PDF
5893 10681 1 PB PDF
<Artculo>
Anlisis Discriminante mediante SPSS
Mercedes Torrado-Fonseca, Vanesa Berlanga-Silvente
Fecha de presentacin: 23/02/2013
Fecha de aceptacin: 20/03/2013
Fecha de publicacin: 01/07/2013
//Resumen
El anlisis discriminante es un mtodo estadstico a travs del cual se busca conocer qu variables,
medidas en objetos o individuos, explican mejor la atribucin de la diferencia de los grupos a los cuales
pertenecen dichos objetos o individuos. Es una tcnica que nos permite comprobar hasta qu punto las
variables independientes consideradas en la investigacin clasifican correctamente a los sujetos u
objetos.
Se muestran y explican los principales elementos que se relacionan con el procedimiento para llevar a
cabo el anlisis discriminante y su aplicacin utilizando el paquete estadstico SPSS, versin 18, para el
desarrollo del modelo estadstico, las condiciones para la aplicacin del anlisis, la estimacin e
interpretacin de las funciones discriminantes, los mtodos de clasificacin y la validacin de los
resultados.
//Palabras clave
Anlisis discriminante, clasificacin de datos y sujetos, prediccin, poder de discriminacin.
// Referencia recomendada
Torrado-Fonseca, M. y Berlanga-Silvente, V. (2013). Anlisis Discriminante mediante SPSS. [En lnea]
REIRE, Revista dInnovaci i Recerca en Educaci, 6 (2), 150-166. Accesible en:
http://www.ub.edu/ice/reire.htm
// Datos de los autores
Mercedes Torrado-Fonseca. Profesora. Universidad de Barcelona. Departamento de Mtodos de
Investigacin y Diagnstico en Educacin (MIDE). mercedestorrado@ub.edu
Vanesa Berlanga-Silvente Profesora. Universidad de Barcelona. Departamento de Mtodos de
Investigacin y Diagnstico en Educacin (MIDE). berlanga.silvente@ub.edu
- 150 -
1. Introduccin
En muchas de las investigaciones, independientemente del rea de conocimiento, es habitual tener la
necesidad de identificar cules son las caractersticas que diferencian unos grupos de sujetos u objetos
respecto de otros, para as poder realizar predicciones futuras. Tanto el anlisis de conglomerados
como el anlisis discriminante son tcnicas que nos permiten clasificar sujetos u objetos a partir de
caractersticas similares. La diferencia fundamental entre ambas pruebas es el momento del
establecimiento de los grupos. En el anlisis discriminante (AD) el investigador conoce a priori a qu
grupo pertenece cada sujeto u objeto; en cambio, en el anlisis de conglomerados los grupos o clster
se determinan y configuran a posteriori, es decir, una vez estudiadas y analizadas las agrupaciones.
El anlisis discriminante es la prueba estadstica apropiada para seleccionar qu variables
independientes o predictivas permiten diferenciar grupos y cuntas de estas variables son necesarias
para alcanzar la mejor clasificacin posible. Adems permite cuantificar su poder de discriminacin en
la relacin de pertenencia de un sujeto u objeto a un grupo u otro. Por ello esta tcnica es
considerada, adems de una prueba de clasificacin, una prueba de dependencia. De hecho, su
propsito es similar al anlisis de regresin logstica; la diferencia radica en que solo admite variables
cuantitativas.
Un ejemplo de ello en el mbito educativo podra ser el estudio del rendimiento estudiantil y la
identificacin de las variables que mejor lo predicen, a partir de las cualificaciones de una materia,
como por ejemplo las matemticas, que clasifica al alumnado en dos grupos: los de rendimiento alto y
los de rendimiento bajo. Mediante un anlisis discriminante se puede establecer el poder explicativo y
discriminatorio de las caractersticas que diferencian a los alumnos segn su rendimiento. Se procede
al estudio de una serie de variables independientes como, por ejemplo, variables de carcter
socioeconmico, variables acadmicas referentes a la preparacin en bachillerato y variables
actitudinales en relacin con la variable dependiente que clasifica a los sujetos segn el rendimiento
obtenido en matemticas. Segn las caractersticas analizadas, a travs de la descripcin del grado de
relacin existente entre el conjunto de variables, se puede encontrar la frontera que separa el alto y el
bajo rendimiento. Como resultado obtendremos una regla de clasificacin que podr ser utilizada en el
pronstico de adscripcin al grupo de rendimiento establecido para nuevos estudiantes.
Definicin de la tcnica
El anlisis discriminante tiene sus orgenes en las formulaciones del clculo de distancias
entre grupos, primero por Karl Pearson (1920), quien propuso el trmino de coeficiente de
parecido racial y ms tarde por Mahalanobis (1930), cuyo nombre ha mantenido la
medida de distancia entre grupos. A partir de estos trabajos, R.A. Fisher (1936) introduce el
trmino discriminacin y da forma a la idea de combinacin lineal de variables
independientes para la discriminacin de grupos. Desde ese momento, esta tcnica se
aplica a mltiples mbitos disciplinares.
- 151 -
- 152 -
3. Procedimiento de la tcnica
El anlisis discriminante consiste en partir de n individuos con informacin de p variables y
agrupados en una variable y con dos categoras o ms para que cada sujeto obtenga una serie de
puntuaciones que indiquen a qu grupo pertenecen. Se sigue un mtodo similar al anlisis
factorial, se busca una funcin lineal de modo que se maximice la variabilidad entre los grupos
para discriminarlos mejor.
La aplicacin del anlisis discriminante obtiene como resultado una ecuacin denominada
funcin discriminante que expresa la combinacin lineal de las variables predictivas
(denominadas variables cannicas). El mximo nmero de funciones discriminantes que se
obtiene es igual al mnimo entre el nmero de variables y el nmero de grupos menos 1 [con q
grupos, (q-1)].
Al igual que en el anlisis de regresin mltiple, la combinacin lineal de las variables predictivas
da como resultado una variable no observada (y), pero esta variable expresada cuantitativamente
no puede ser considerada como la parte explicada de una variable criterio. Los coeficientes de
discriminacin aj son coeficientes de ponderacin de las variables predictivas y expresan la
contribucin de dichas variables en la funcin discriminante. Asimismo, en el resultado de los
- 153 -
coeficientes discriminantes tiene gran influencia el grado de covariacin que presentan las
variables predictivas.
Y = a0 + a1* X1 + a2*X2+ .....+ ap*Xp
X = las variables independientes
a0 = la constante
ap = los coeficientes de discriminacin
La ecuacin discriminante resultante ser ptima en la medida en que proporcione una regla de
clasificacin que disminuya los errores de clasificacin y en la medida en que explique una mayor
parte de la variabilidad intragrupos. Para esto las variables cuantitativas deberan cumplir los
supuestos paramtricos.
La aplicacin de la tcnica sigue tres pasos:
- 154 -
- 155 -
Introduciremos como variable de agrupacin la variable dependiente. Esta variable solo podra
tomar valores enteros, de tal manera que indicaremos el valor mximo y el valor mnimo. En
nuestro caso introduciremos la variable denominada persistencia y definiremos los rangos
como mnimo, el 0 (abandona), y como mximo, el 1 (persiste).
a)
b)
d)
c)
Como variables independientes introducimos todas las variables que queremos utilizar para
formular el modelo: crditos aprobados, crditos presentados, nota de admisin y satisfaccin
acadmica.
Podemos utilizar dos formas para obtener las variables que configurarn la funcin discriminante
resultante: introducir independientes juntas o usar mtodo de inclusin por pasos. Es
interesante sealar que si elegimos usar mtodo de inclusin por pasos activamos
automticamente otro botn Mtodos situado en la parte derecha-superior. Finalmente, y de
manera opcional, podemos, mediante la opcin de variable de seleccin, aplicar el anlisis en
una seleccin de individuos de la matriz.
Por defecto obtenemos para cada funcin discriminante una tabla donde aparece el valor de
autovector, el estadstico con mayor poder discriminante que indica la proporcin de la
varianza total explicada por las m funciones discriminantes. La suma de los autovalores es la
proporcin de varianza total que queda explicada.
- 156 -
a)
Botn Estadsticos
Descriptivos
Los descriptivos permitirn hacer un primer nivel de seleccin de las variables
independientes y valorar los supuestos bsicos de aplicabilidad de la prueba.
- 157 -
Coeficientes de la funcin
Los coeficientes de la funcin permitirn identificar la funcin discriminante con mayor
poder explicativo.
b)
Botn Clasificacin
Esta opcin de la tcnica permite matizar situaciones de partida previas a su aplicacin
(desigualdad de los grupos resultantes), obtener una tabla resumen de la clasificacin,
grficos de las funciones discriminantes y matrices de covarianzas.
- 158 -
Probabilidades previas
Todos los grupos iguales: las probabilidades previas sern iguales para todos los
grupos.
Visualizacin
Resultados para cada caso: muestran para cada caso los cdigos del grupo real de
pertenencia, el grupo pronosticado, las probabilidades posteriores y las
puntuaciones discriminantes.
Clasificacin dejando uno fuera: se clasifica cada caso del anlisis mediante la
funcin derivada a partir de todos los casos, excepto el propio caso.
Grupos separados: crea diagramas de dispersin de los grupos por separado, para
los valores en las dos primeras funciones discriminantes y un histograma en caso de
una funcin.
Mapa territorial: grfico de las fronteras utilizadas para clasificar los casos en grupos
a partir de los valores en las funciones. Los nmeros corresponden a los grupos en
los que se clasifican los casos. La media de cada grupo se indica mediante un
asterisco situado dentro de sus fronteras. No se mostrar el mapa si solo hay una
funcin discriminante.
Grficos
Para nuestro anlisis dentro de la ventana de Clasificacin vamos a sealar las siguientes
opciones: calcular segn tamaos de grupos debido a la desigualdad manifiesta entre el
volumen de estudiantes que persisten y los que abandonan, intra-grupos en la matriz de
- 159 -
Botn Mtodo
En los anlisis de discriminante se trabaja con muchas variables, evidentemente algunas
sern ms influyentes que otras a la hora de discriminar a un individuo en un grupo u otro.
Lo que intentaremos con esta opcin ser utilizar solo aquellas variables ms influyentes
con lo que simplificaremos el modelo. Para seleccionar las variables tendremos que usar, en
la ventana del anlisis, mtodo de seleccin de variables por pasos. Al hacer esto, el botn
de Mtodo se activa, pudiendo seleccionar en esta ventana el mtodo por el cual se
elegirn las variables que deben utilizarse. Obtendremos informacin sobre la significacin
individual de cada variable en la incorporacin de la funcin discriminante resultante. La
tabla resultante presenta para cada variable, el nivel de tolerancia (porcentaje de
variabilidad de cada variable), el valor de F (permite valorar si la variable debe o no ser
rechazada en la funcin) y de Wilks global que obtendramos si se eliminara la variable del
modelo. El mtodo ms utilizado es la de Wilks.
d)
Guardar
Con esta opcin podemos guardar en el fichero de datos para su utilizacin y estudio las
siguientes variables:
- 160 -
5.
Interpretacin de Outputs
Posteriormente aparecen dos tablas que nos indican, por un lado, la estimacin de la variabilidad
intergrupo explicada en la funcin discriminante (autovalor) y, por otro, la porcin de varianza
total de las puntuaciones discriminantes que no ha sido explicada por la diferencia entre los
grupos ( de Wilks).
Claves de la interpretacin
Autovalor: Cuanto ms alto es su valor, ms eficaz ser el anlisis para clasificar a los sujetos.
El valor mnimo es cero y no tiene un valor mximo.
- 161 -
Tras los primeros valores obtenidos del caso (autovalor de 0.437, correlacin cannica de 0.552)
extraemos una primera conclusin: existe una nica funcin discriminante que permite de forma
significativa (sig. 000) clasificar a los sujetos en los dos grupos de persistencia y abandono. El
valor de Wilks (0.696) arroja una segunda conclusin: aunque la funcin discriminante servir
para pronosticar la pertenencia a los grupos, seguramente no todas las variables sean
discriminantes. Su valor denota ciertas similitudes entre los grupos y, por lo tanto, deberamos
estudiar la influencia de cada una de las variables en la funcin discriminante obtenida. En
consecuencia, el proceso aconsejado es realizar el test con todas las variables mediante la opcin
usar mtodo de inclusin por pasos para, posteriormente, eliminar las no significativas en la
funcin.
A continuacin aparecen tres tablas que nos indican todos los pasos seguidos para la
construccin de la funcin discriminante y consecuentemente qu variables independientes de
las consideradas inicialmente son significativas para el modelo. En nuestro caso solo se incluyen
dos variables: crditos aprobados y crditos presentados. Las notas a pie de pgina de la primera
tabla nos indican que se ha utilizado el valor de de Wilks global, el estadstico F para incorporar
variables (criterio de entrada) y como estadstico para excluir variables (criterio de salida), y que
el nivel de F ha sido insuficiente para continuar los clculos; en otras palabras, no se han incluido
todas las variables definidas para el anlisis.
El contraste de la lambda de Wilks es un test para el contraste de las medias de todas las
funciones discriminantes en todos los grupos. De tal manera que si el p-valor es inferior a 0.05
nos llevar a aceptar que existen diferencias de comportamiento entre las medias de los grupos.
- 162 -
Por lo tanto, el proceso realiza el test con todas las funciones para, a continuacin, ir
distribuyendo en dos tablas las variables seleccionadas de las que no lo son.
- 163 -
Con la matriz de centroides obtenemos las medias de cada grupo para las dos funciones. Si las
medias de cada grupo fueran parecidas, ello implicara que la funcin no discrimina los grupos y
viceversa si las medias fueran diferentes. En nuestro caso son diferentes, tal y como observamos
en la figura 9. Los valores negativos de los estudiantes clasificados en abandona 1er ao
ilustran la influencia negativa de las variables seleccionadas y, por lo tanto, muestran que a
mayor valor de las mismas, ms influencia para que los sujetos se clasifiquen en el grupo de
persiste.
- 164 -
El ltimo paso del anlisis es el cuadro resumen de la clasificacin de los sujetos a partir de la aplicacin
de la funcin discriminante obtenida. En nuestro caso, vemos que se ha clasificado correctamente el
91,4% a partir de los crditos presentados y aprobados. Los estudiantes que se presentan a menos
crditos de los matriculados y tienen menos xito acadmico son los que tras el primer ao no
persisten y deciden abandonar.
- 165 -
<Referencias bibliogrficas>
Anlisis discriminante. En Rafael Bisquerra. Introduccin conceptual al
Anlisis Multivariable. Un enfoque informtico con los paquetes Spss, Bmdp, Lisrel y Spad (pp.
Bisquerra, R. (1989).
Gil, J.; Garca Jimnez, E. y Rodrguez Gmez, G. (2001). Anlisis discriminante. Cuadernos de
Estadstica n 12. Madrid: La Muralla.
Gondar, N., J. E. (2001). Anlisis discriminante
http://www.estadistico.com/arts.html?20011112
[En
lnea]
Disponible
en:
Hernandez, J.; Ramrez, M.J. y Ferri, C. (2004). Introduccin a la minera de datos. Madrid:
Pearson educacin.
Johnson, D., E. (2000). Mtodos multivariados aplicados al anlisis de datos. D.F. Mxico: C. V.,
International Thomson Editores.
Lind, D.A., Marchal, W.G., Wathen, S.A. (2012). Estadstica aplicada a los negocios y la
economa. Mxico D.F.: McGraw-Hill.
Prez, C. (2004). Tcnicas de anlisis multivariante de datos. Aplicaciones con SPSS. Madrid:
Pearson educacin.
Prez, C. y Santn, D. (2007). Minera de Datos: Tcnicas y Herramientas. Madrid: Ediciones
Paraninfo.
Silberschatz, A. (2007). Fundamentos de diseo de bases de datos (5 ed.). Madrid: McGraw-Hill
/ Interamericana de Espaa.
Valderrey, P. (2010). Tcnicas de segmentacin de mercados. Madrid: Starbook editorial.
Copyright 2013. Esta obra est sujeta a una licencia de Creative Commons mediante la cual, cualquier explotacin de sta, deber
reconocer a sus autores, citados en la referencia recomendada que aparece al inicio de este documento.
- 166 -