Documentos de Académico
Documentos de Profesional
Documentos de Cultura
6
Análisis factorial:
una técnica para evaluar
la dimensionalidad de las pruebas
Cuaderno técnico 6
Análisis factorial:
una técnica para evaluar la dimensionalidad de las pruebas
Cuaderno técnico 6
Revisión técnica:
Antonio Saade Hazin
Análisis factorial:
una técnica para evaluar la dimensionalidad de las pruebas
Cuaderno técnico 6
Dirección General
Rafael Vidal Uribe
Prefacio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
Capítulo I
Antecedentes históricos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
Capítulo II
¿Qué es el análisis factorial? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
El modelo de factores 17
Supuestos del modelo 18
Métodos de extracción de factores 19
Selección del número de factores que serán extraídos 20
Criterio a priori (tipos de análisis factorial) 20
Criterio de la raíz latente (eigenvalor >1) 21
Criterio del gráfico de codo (contraste de caída) 22
Criterio del porcentaje de varianza explicada 23
Interpretación de la matriz de cargas factoriales 23
Un concepto muy controvertido: rotación de factores 26
Rotaciones ortogonales 26
Rotaciones oblicuas 27
Valoración de las comunalidades 28
Puntajes factoriales 25
Bondad de ajuste del modelo de factores 28
Análisis factorial con variables discretas 29
Capítulo III
Fundamentos técnicos del análisis factorial . . . . . . . . . . . . . . . . . . . 31
Aspectos formales 31
Soluciones múltiples al modelo 34
Número máximo de factores 35
Métodos de estimación 38
Máxima verosimilitud 39
Mínimos cuadrados 40
Mínimos cuadrados generalizados 40
Mínimos cuadrados ponderados 40
Método de rotación de ejes principales 41
Prueba sobre el número de factores en el modelo 41
Puntajes factoriales 42
Método de Bartlett o de mínimos cuadrados ponderados 42
Método de Thompson o de regresión 43
Capítulo IV
Aplicación con variables continuas . . . . . . . . . . . . . . . . . . . . . . . . . 45
Descripción general del EXANI-I 45
Definición del ejemplo 46
Análisis en SPSS 48
Análisis en R 63
Capítulo V
Aplicación con variables discretas . . . . . . . . . . . . . . . . . . . . . . . . . . 69
Objetivo 69
Descripción de las variables 69
Análisis en R 86
Un comentario final 90
Bibliografía . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
Anexo 1
Códigos en R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
Índice de tablas
Tabla 1.
Artículos publicados sobre análisis factorial en diferentes
disciplinas, 1904-2004 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
Tabla 2.
Matriz de cargas factoriales para un caso hipotético . . . . . . . . . . . . . . . . 24
Tabla 3.
Directrices para la identificación de cargas factoriales
significativas, basadas en el tamaño de la muestra . . . . . . . . . . . . . . . . . 25
Tabla 4.
Medidas de correlación entre variables . . . . . . . . . . . . . . . . . . . . . . . . . 29
Tabla 5.
Dominios evaluados por el EXANI-I . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
Tabla 6.
Matriz de correlaciones entre las variables que evalúa el EXANI-I . . . . . . . 51
Tabla 7.
Pruebas KMO y de efericidad de Bartlett . . . . . . . . . . . . . . . . . . . . . . . . 53
Tabla 8.
Comunalidades del modelo unifactorial del EXANI-I . . . . . . . . . . . . . . . . 57
Tabla 9.
Total de la varianza explicada por el modelo unifactorial del EXANI-I . . . . 57
Tabla 10.
Cargas factoriales de las variables manifiestas . . . . . . . . . . . . . . . . . . . . 58
Tabla 11.
Matriz de correlaciones reproducidas por el modelo . . . . . . . . . . . . . . . . 60
Tabla 12.
Matriz de correlaciones con niveles de significancia . . . . . . . . . . . . . . . . 62
Índice de figuras
Figura 1.
Crecimiento en las publicaciones sobre análisis factorial . . . . . . . . . . . . . 13
Figura 2.
Representación del modelo unifactorial . . . . . . . . . . . . . . . . . . . . . . . . . 16
Figura 3.
Representación del modelo multifactorial . . . . . . . . . . . . . . . . . . . . . . . . 16
Figura 4.
Explicación de la ecuación del modelo de factores . . . . . . . . . . . . . . . . . 18
Figura 5.
Gráfico de codo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
Figura 6.
Modelo unifactorial del EXANI-I . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
Prefacio
Biología 18 17 20 23 47 41 166
Química 12 14 36 53 88 77 280
Cromatografía 4 7 16 22 24 15 88
Ecología 2 4 11 15 61 45 138
Economía 14 12 9 4 20 26 85
Alimentación 1 4 5 2 17 21 50
Geriatría 8 5 10 9 25 31 88
Procesamiento de imágenes 2 7 22 27 38 51 147
Industria 4 0 2 6 38 28 78
Resonancia magnética 1 1 3 6 25 13 49
Medicina 30 32 64 67 109 116 418
Metodología 10 25 31 49 125 151 391
Investigación de operaciones 1 1 1 9 42 41 95
Fisiología 20 26 38 39 51 29 203
Psiquiatría 15 14 39 61 137 99 365
Psicología 93 86 159 219 379 344 1280
Espectroscopia 11 27 40 50 108 90 326
12 Cuaderno técnico 6
Figura 1. Crecimiento en las publicaciones sobre análisis factorial
Publicaciones Publicaciones
sin Psychology
V1
V2
V3
V4
Habilidad V5
matemática V6
V7
V8
V9
V10
V1
V2
Resolución V3
problemas
V4
V5
V6
V7
Series V8
numéricas
V9
V10
16 Cuaderno técnico 6
El modelo de factores
Los factores f1, f2,...,fk, juegan el papel de variables explicativas, y cada una de
las X’s el de variables de respuesta; las λ’s son los coeficientes asociados a cada
factor, y reciben el nombre de cargas factoriales; por último, los errores del modelo
son las u’s. En este sentido, el modelo está determinando por las variables y no
por los individuos.
Las cargas factoriales indican la correlación entre cada variable y el factor
correspondiente; así, una variable con mayor carga factorial será más represen-
tativa del factor. De este modo, las cargas factoriales sirven para interpretar la
función que cumple cada variable para definir cada uno de los factores. En
la figura 4 se identifican las variables que intervienen en el modelo factorial.
En el modelo de factores, a f1, f2,...,fk se les denomina factores comunes y a u1, u2,...,up
factores específicos. Los supuestos básicos sobre los que se construye el modelo
son los siguientes:
1. Los factores comunes fj j=1,2,...,k no están correlacionados y tienen media
cero y varianza uno.
2. Los factores específicos ui no están correlacionados y tienen media cero y
varianza Ψi i=1,2,...,p.
3. Los factores comunes no están correlacionados con los factores específicos.
18 Cuaderno técnico 6
de la variable y que representa la varianza de la variable Xi que es explicada por los
factores comunes y, por el otro, la varianza específica conocida como especificidad
y que es la varianza no explicada por estos factores comunes. Los factores
comunes y sus características asociadas (comunalidades, especificidades, número,
etcétera) representan el objeto de interés en el análisis factorial.
Todas las técnicas de estimación del modelo factorial parten del supuesto de
que los factores iniciales que serán extraídos de la matriz de correlaciones de las
variables indicadoras no estarán correlacionados. El objetivo de los métodos de
extracción de factores es minimizar la distancia entre la matriz de correlaciones
observada y la matriz de correlaciones que se desprende del modelo (matriz que
especifica el modelo de factores). La diferencia entre los métodos radica en la
definición de “distancia” que utilizan para llegar a la solución. El método de
mínimos cuadrados, por ejemplo, se ocupa de minimizar la suma de cuadrados
de las diferencias entre estas dos matrices, por lo que los valores de los parámetros
que logren este objetivo serán los estimadores finales.
Uno de los métodos más comunes para la extracción de factores es el conocido
como Factorización de ejes principales (Principal axis factoting). Se trata de un método
iterativo para estimar las comunalidades y subsecuentemente extraer los
factores. Este método es igual al que se usa en la técnica multivariada conocida
como Análisis de componentes principales, salvo que no se realiza sobre la matriz
original de correlación (véanse detalles en el capítulo 3). Los factores se extraen
de manera sucesiva, por lo que la solución final consiste en factores ortogonales.
El primer factor se obtiene de forma que explique la mayor cantidad de la
varianza común; el segundo se extrae de una matriz de correlación residual que
se obtiene una vez que se toma en cuenta la influencia del primer factor. Este
Uno de los objetivos del análisis factorial es la reducción de los datos originales
a un número menor de variables, pero podría ocurrir que –dado un conjunto de
datos– se tengan soluciones muy diferentes, dependiendo del número de facto-
res considerado. Por tal motivo son varios los criterios que pueden servirnos de
guía para determinar cuántos factores extraer.
En el capítulo 3 determinaremos el número máximo de factores que se pueden
extraer, dependiendo del número de variables indicadoras que se incluyan en el
modelo; y a continuación explicaremos la lógica de algunos criterios utilizados
para la selección del número de factores por extraer en el análisis; comenzare-
mos con los criterios teóricos que definen el análisis factorial confirmatorio y con
algunos criterios estadísticos que nos ayudarán a seleccionar el número exacto
de factores por extraer en el marco del análisis factorial exploratorio.
20 Cuaderno técnico 6
ninguna interpretación para el investigador. Por el contrario, cuando en una
investigación se determina de forma precisa el número de factores, se está ante
un análisis factorial confirmatorio. La forma usual de proponer este número de fac-
tores es en atención a alguna teoría propuesta en el área de aplicación. En este
caso, los objetivos de la investigación se centran en la confirmación del número
de factores y, consecuentemente, en la validación de esta teoría mediante la
evidencia empírica proporcionada por los datos. Si el ajuste estadístico de los
datos al modelo teórico es satisfactorio, se podrá concluir que el modelo es
adecuado. Entonces, cuando el análisis factorial es de tipo exploratorio, se tiene
la necesidad de decidir cuántos factores se deben retener en el análisis. En seguida
se enuncian algunos criterios establecidos para decidir este número.
2
Esto se debe a que el análisis se realiza con variables estandarizadas, por lo que la varianza
de cada una de ellas es igual a uno.
3.5
3.0
2.5
Eigenvalor
2.0
1.0
0.5
1 2 3 4 5 6 7 8 9 10 11
Del lado izquierdo de la gráfica un punto sobresale de los demás, haciendo que
la pendiente de la línea que une todos los puntos cambie drásticamente en el lugar
correspondiente al segundo factor. En este sitio, todo el conjunto de factores se
22 Cuaderno técnico 6
divide en dos grupos, el primero compuesto solamente por el primer factor,
que explica una cantidad mayor de varianza que cualquiera de los diez factores
restantes pertenecientes al segundo grupo y para los que la cantidad de varianza
explicada parece haberse estabilizado. Por lo tanto, con este criterio deberíamos
incluir sólo el primer factor.
Una vez que se han estimado las cargas factoriales es importante establecer
criterios que permitan interpretar los resultados obtenidos. Esta interpretación
hará posible establecer una conexión entre los resultados vertidos por el análisis
factorial y los constructos teóricos relacionados con los datos. En este sentido,
la extracción de un determinado número de factores por los criterios estadísticos
ya mencionados, carecerá de sentido si no podemos darle un significado lógico
a cada uno de ellos, que además esté justificado teóricamente.
Variable Factor
Área (Reactivo) 1 2
RM1 0.6 0.1
RM2 0.5 0.1
Razonamiento verbal RM3 0.6 0.2
RM4 0.6 0.1
RM5 0.5 0.1
RV1 0.1 0.6
RV2 0.2 0.6
Razonamiento matemático RV3 0.1 0.6
RV4 0.2 0.6
RV5 0.2 0.7
24 Cuaderno técnico 6
variables (reactivos) en dos grupos, que no se traslapan, y que son indicativos
de dos variables latentes diferentes: Razonamiento matemático (factor 1) y
Razonamiento verbal (factor 2).
¿Cómo podemos determinar si una carga factorial es lo suficientemente
“grande” para concluir que la correlación entre la variable y el factor es signifi-
cativa? Hair et al. (1998/1999) proponen ciertas directrices para determinar si
una carga factorial es o no significativa, dependiendo del tamaño de la muestra
utilizada para el análisis (esta tabla se basa en estudios de potencia estadística):
Rotaciones ortogonales
Uno de los patrones de cargas factoriales más usuales y de hecho más deseables
es la llamada estructura simple de cargas factoriales. Se dice que las cargas factoriales
presentan una estructura simple si cada variable tiene una gran carga en un
solo factor, con cargas cercanas a cero en el resto de los factores. Una de las
rotaciones ortogonales (los nuevos ejes después de la rotación siguen siendo
ortogonales) que procura generar una estructura de cargas simple es la rotación
26 Cuaderno técnico 6
varimax, implementada en la mayoría de los paquetes estadísticos. No hay
garantía de que una rotación produzca necesariamente una estructura de cargas
simple, pero, de hacerlo, puede ayudar a una interpretación mucho más fácil de
los factores. Existen otras rotaciones ortogonales (como quartimax y equimax),
pero ninguna tiene la popularidad de varimax.
Rotaciones oblicuas
Contrario a las rotaciones ortogonales, las rotaciones oblicuas permiten relajar la
restricción de ortogonalidad con el fin de ganar simplicidad en la interpretación
de los factores. Con este método los factores resultan correlacionados, aunque
generalmente esta correlación es pequeña. El uso de rotaciones oblicuas se
justifica porque en muchos contextos es lógico suponer que los factores están
correlacionados. Pese a que pueden ser de utilidad en algunas situaciones, estas
rotaciones raramente se usan, a diferencia de las ortogonales. Entre las rotaciones
oblicuas, promax es conceptualmente simple; sin embargo, la más popular es oblimin.
Una vez realizado el análisis factorial, quizá con alguna rotación de los factores,
el paso final es asignar los puntajes factoriales (scores) a cada individuo en la
muestra. Esta construcción de puntajes genera una nueva variable por cada
factor en el modelo. Usualmente estas variables derivadas del análisis factorial
pueden utilizarse como insumo para otros procedimientos estadísticos de
interés. Existen dos métodos para construir estos puntajes factoriales, a saber:
el método de Bartlett o de mínimos cuadrados ponderados y el método de
Thompson o de regresión (capítulo 3).
Dado que el análisis factorial se realiza a través de un modelo, ¿qué tan bien
ajusta este modelo a nuestros datos? Un primer elemento de juicio lo constituye
la matriz de residuos, definida por:
28 Cuaderno técnico 6
Análisis factorial con variables discretas
Aspectos formales
Donde,
Además, podemos observar que los factores comunes explican las relaciones
entre las variables medidas del estudio, y así se convierten en el objeto de inte-
rés de este análisis. Es por lo tanto importante que estén bien determinados y
puedan ser interpretados en el contexto de la aplicación que les dio origen. La
inclusión de los factores específicos en el modelo obedece al hecho de que es
generalmente imposible expresar de manera exacta a nuestras p variables por
medio de un número más reducido k de factores.
32 Cuaderno técnico 6
Es común hacer el análisis factorial con las variables estandarizadas, i.e.,
variables con media cero y varianza uno; entonces lo que tenemos son corre-
laciones entre las variables, en lugar de covarianzas. Si denotamos como R a la
matriz de correlación de X la matriz de datos estandarizados, la descomposición
anterior se puede escribir, de forma matricial, como
con Ψ una matriz diagonal con elementos , e I la matriz idéntica, que tiene
unos en la diagonal y ceros fuera de ella. De aquí tenemos
34 Cuaderno técnico 6
Número máximo de factores
X1 X 2 X3
como no puede ser de otra forma, asumimos que un único factor subyace a
este conjunto de variables, que podríamos denominar habilidades lingüísticas,
por ejemplo. Entonces, el proceso para estimar los parámetros es el siguiente:
Escribamos inicialmente el modelo de factores:
36 Cuaderno técnico 6
de este sistema se desprenden las ecuaciones:
λ1λ2=0.83
λ1λ3=0.78
λ2λ3=0.67
de donde concluimos que λ1λ2 λ3 = √ 0.83 * 0.78 * 0.67 = 0.6586 y finalmente
obtenemos que:
que tiene dos parámetros estimados inadmisibles, var(X1)= Ψ̂1 =-0.44 y λ̂1 =1.2.
Este último debido a que estima la correlación entre X1 y f1, por lo que no puede
ser mayor que uno. El ejemplo muestra que la igualdad en el criterio del número
máximo de factores que se pueden extraer, puede generar resultados inapropiados,
por lo que es preferible considerar la desigualdad estricta. También ilustra
el principio sobre el que se basa el proceso de estimación: igualar la matriz de
correlaciones generada por el modelo, que involucra a los parámetros que
lo componen, con la matriz de correlación estimada con la información.
Métodos de estimación
38 Cuaderno técnico 6
estimación es minimizar alguna función de distancia entre estas dos matrices, es
decir, la función por minimizar es de la forma:
los procesos que minimizan esta función de distancia entre estas dos matrices
son equivalentes a encontrar los estimadores de Λ y Ψ tales que:
Máxima verosimilitud
En este caso, la función de distancia se desprende de la verosimilitud del
modelo, y tiene la forma
que también puede considerarse una medida de distancia entre la matriz observada
S y la matriz generada por el modelo Σ. Se minimiza la suma de cuadrados de las
diferencias entre estas dos matrices. Nuevamente, los valores de los parámetros
que minimicen esta función serán los estimadores.
40 Cuaderno técnico 6
Método de rotación de ejes principales
En este caso se utiliza la llamada matriz reducida S* definida como
que se distribuye como una χ2v con v = ½[( p - k)2 - ( p + k)], entonces rechazar
H0 implica que el número de factores elegido no es suficiente para la descripción
adecuada de la estructura de correlación, y hay necesidad de agregar más
factores. Esta prueba se basa en la normalidad multivariada de X, que es difícil
de cumplir, por lo que, en la mayoría de los casos, sólo se podrá usar como una
referencia.
Puntajes factoriales
42 Cuaderno técnico 6
Bartlett sugiere encontrar f que minimice:
expresión es:
Objetivo
Comprobar que la variable latente “habilidad académica” es un factor que puede
explicar la asociación de los dominios que se evalúan en el exani-i .
46 Cuaderno técnico 6
Tabla 5. Dominios evaluados por el exani-i
HV
ESP
HIS
GEO
Habilidad FCE
académica HM
MAT
FIS
QUIM
BIO
48 Cuaderno técnico 6
Si presionamos el botón Descriptivos (Descriptives), aparecerá una ventana para
seleccionar varias estadísticas relacionadas con la matriz de correlación generada
por nuestros datos.
50 Cuaderno técnico 6
Tabla 6. Matriz de correlaciones entre las variables que evalúa el exani-i
Determinante de la matriz
Una medida global de la correlación entre todas las variables la proporciona el
Determinante de la matriz. Si este determinante está cercano a cero, será indicativo
de que existe una estructura de correlación importante entre las variables, y el
análisis factorial puede ser pertinente. En este conjunto de datos, el determinante
(en la parte inferior izquierda de la tabla anterior) es: 0.021, que es cercano a cero,
e indica que la estructura de correlación en este conjunto de variables es buena.
52 Cuaderno técnico 6
La prueba de esfericidad de Bartlett
Si no hubiera estructura de correlación entre las variables involucradas en el
análisis factorial, la matriz de correlación sería la matriz identidad, es decir, tendría
ceros fuera de la diagonal (no habría correlación entre cualesquiera dos variables)
y unos en la diagonal. Entonces, debemos probar –como parte fundamental
para iniciar nuestro análisis factorial– que la matriz de correlaciones de nuestros
datos es distinta de la identidad. A este respecto, la prueba de esfericidad de
Bartlett contrasta la hipótesis nula de que la matriz de correlación es la identidad
contra la hipótesis alternativa de que es distinta de la identidad. Desafortuna-
damente, esta prueba asume que las variables tienen una distribución normal
multivariada, por lo que en muchas aplicaciones debe usarse únicamente como
una referencia. Los resultados de esta prueba, en nuestro caso, pueden consul-
tarse en la tabla 7.
gl 45
Sig. .000
Número de factores
Existen dos posibilidades de análisis factorial: una es el análisis confirmatorio
(cuando se desea probar una estructura factorial) y la otra es el análisis exploratorio
(cuando se desconoce la estructura de factores).
Cuando se realiza un análisis exploratorio se suele utilizar como criterio inicial
retener en el análisis todos los factores cuyo Eigenvalor (Valor propio) asociado sea
54 Cuaderno técnico 6
mayor que uno. La razón para esta decisión es que, ya que el análisis se realiza
con las variables estandarizadas, entonces cada una de ellas tiene varianza uno,
por lo que se considera que si un factor no explica más varianza que la de una
variable, entonces no tiene sentido considerarlo.
Sin embargo, en el ejemplo que estamos trabajando realizaremos un análisis
confirmatorio, dado que deseamos probar que las variables que se evalúan en el
exani-i pueden ser ajustadas en una estructura unidimensional.
Método de extracción
Aquí decidiremos qué método de estimación debemos utilizar. Se acostumbra
utilizar el de máxima verosimilitud, pero este método es muy demandante de
supuestos que deben cumplir las variables bajo estudio. Un método menos
demandante de supuestos –y por lo tanto más recomendable para las variables que
se incorporarán en el modelo– es el método de Factorización de ejes principales
(Principal axis factoring). Fue escogido para nuestro análisis de los datos.
En la ventana Extracción (Extraction) se presentan opciones para elegir la
matriz por utilizar: de correlación o covarianza. Asimismo, una ventana para
desplegar la solución de los factores sin rotar y, finalmente, en esta parte
del módulo se puede solicitar que en los resultados se incluya una gráfica de
sedimentación (gráfica de codo o scree plot).
Para llevar a cabo el análisis de los datos del ejemplo que estamos trabajando,
elegimos las siguientes opciones:
• Método: Factorización de ejes principales (Principal axis factoring)
• Analizar: Matriz de correlación (correlation matrix)
• Número de factores: 1
56 Cuaderno técnico 6
Tabla 8. Comunalidades del modelo
unifactorial del exani-i
Comunalidades
Inicial Extracción
HV .486 .531
ESP .465 .522
HIS .361 .396
GEO .389 .427
FCE .350 .380
HM .449 .483
MAT .460 .494
FIS .324 .350
QUI .435 .474
BIO .358 .392
% de la % % de la %
Factor Total varianza acumulado Total varianza acumulado
Matriz factoriala
Factor
1
HV .729
ESP .723
HIS .629
GEO .654
FCE .616
HM .695
MAT .703
FIS .591
QUI .688
BIO .626
Método de extracción: Factorización del eje
principal.
a
1 factores extraídos. Requeridas 4 iteraciones.
58 Cuaderno técnico 6
Es muy importante que el investigador detecte si hay un grupo de variables
con cargas factoriales bajas –un claro indicio de que esas variables no pueden
ser explicadas por el factor. En este caso convendría revisar la teoría o evaluar
otro modelo.
Bondad de ajuste
¿Qué tan bien ajusta a los datos este modelo unifactorial? Para responder esta
pregunta analizaremos la matriz de residuos (para desplegar esta matriz es ne-
cesario seleccionar la opción Reproducida (Reproduced) en la ventana Descriptivos
(Descriptives).
En la primera sección de la tabla 11, denominada Correlación reproducida, se
muestra la matriz que reproduce el modelo con nuestro único factor extraído.
La diagonal son las comunalidades (compárese con la tabla correspondiente).
Los valores fuera de la diagonal son las correlaciones entre las variables,
reproducidas por el modelo unifactorial. Para juzgar qué tan bien las reproduce,
observamos la segunda sección de la tabla: Residual. La diagonal, no mostrada
en la salida, debe ser la especificidad de cada variable (1 - comunalidad). Si la
calculamos, confirmaremos que mucha de la varianza de nuestras variables no
es explicada por el modelo. En la tabla 11 se observa que únicamente 8% de
las diferencias entre las correlaciones observadas y calculadas por este modelo
de un factor sobrepasan el corte por defecto de spss (0.05), lo que establece un
buen ajuste sobre las correlaciones entre las variables.
Desafortunadamente, spss no despliega una prueba formal sobre el ajuste
que se logra con este factor, así que no podemos determinar si es suficiente para
lograr un buen ajuste.
Puntajes factoriales
Finalmente, podemos obtener los puntajes que le corresponden a cada uno
de los individuos en la base, dado el modelo unifactorial. En este paquete se
encuentran en la ventana Puntuaciones (Scores) y contiene tres opciones: Regresión
(Regression), Bartlett y Anderson-Rubin.
Las dos primeras fueron descritas previamente. Estos puntajes podrían ser
de utilidad en algún análisis posterior.
60 Cuaderno técnico 6
Análisis en R
¿Por qué realizar este análisis con este software gratuito? La justificación radica
en el hecho de que, además de ser libre (http://www.gnu.org), en este momento es
uno de los paquetes más utilizados en la investigación estadística.
El programa R es mantenido y actualizado esencialmente por la comunidad
de investigadores en estadística, lo que le sitúa a la vanguardia de los desarrollos
recientes en esta disciplina. Una característica que comparte con s-plus es la
enorme riqueza gráfica que posee.
Intentemos rehacer en este paquete todos los pasos que hicimos en spss.
Importa aclarar que R funciona a base de comandos, así que hay que escribirlos
para ejecutarlos. En seguida se presentan los principales resultados del análisis y
en el anexo 1 se describen las instrucciones para obtenerlos.
HV 1.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000
ESP 0.546 1.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000
HIS 0.487 0.453 1.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000
GEO 0.516 0.454 0.428 1.000 0.000 0.000 0.000 0.000 0.000 0.000
FCE 0.494 0.453 0.424 0.429 1.000 0.000 0.000 0.000 0.000 0.000
HM 0.511 0.525 0.396 0.457 0.386 1.000 0.000 0.000 0.000 0.000
MAT 0.465 0.510 0.394 0.472 0.392 0.558 1.000 0.000 0.000 0.000
FIS 0.374 0.438 0.367 0.365 0.360 0.422 0.439 1.000 0.000 0.000
QUI 0.476 0.475 0.429 0.408 0.401 0.466 0.513 0.459 1.000 0.000
BIO 0.449 0.433 0.420 0.392 0.385 0.408 0.437 0.361 0.490 1.000
62 Cuaderno técnico 6
con n, el número de individuos en el estudio, p el número de variables, y |R|, el
determinante de la matriz de correlación. En nuestro caso tenemos:
n =1011, p=10 y |R|=0.0212698
Tras realizar los cálculos obtenemos:
T = 3872.928, que al comparar contra una χ2(45), nos proporciona un p-value
de cero.
Todos los análisis mostrados indican que es adecuado realizar el análisis
factorial. Implementaremos un análisis confirmatorio con un único factor y
método de extracción: Factorización de ejes principales. Al hacerlo en R, obtenemos
los siguientes resultados:
f.solЅ/values
4.449 0.195 0.118 0.029 0.005 -0.038 -0.049 -0.066 -0.080 -0.114
f.solЅ/rotation
"none"
f.solЅ/n.obs
1011
f.solЅ/communality
HV ESP HIS GEO FCE HM MAT FIS QUI BIO
0.531 0.522 0.396 0.427 0.380 0.483 0.494 0.350 0.474 0.392
f.solЅ/loadings
PA1
HV 0.729
ESP 0.723
HIS 0.629
GEO 0.654
FCE 0.616
HM 0.695
MAT 0.703
FIS 0.591
QUI 0.688
BIO 0.626
PA1
SS loadings 4.449
Proportion Var 0.445
f.solЅ/residual
HV 0.469 0.019 0.028 0.040 0.045 0.005 -0.047 -0.057 -0.025 -0.007
ESP 0.019 0.478 -0.002 -0.019 0.007 0.022 0.002 0.011 -0.023 -0.020
HIS 0.028 -0.002 0.604 0.017 0.036 -0.041 -0.049 -0.005 -0.004 0.026
GEO 0.040 -0.019 0.017 0.573 0.026 0.002 0.013 -0.022 -0.042 -0.017
FCE 0.045 0.007 0.036 0.026 0.620 -0.042 -0.041 -0.005 -0.023 0.000
HM 0.005 0.022 -0.041 0.002 -0.042 0.517 0.070 0.011 -0.012 -0.027
MAT -0.047 0.002 -0.049 0.013 -0.041 0.070 0.506 0.023 0.029 -0.003
FIS -0.057 0.011 -0.005 -0.022 -0.005 0.011 0.023 0.650 0.052 -0.009
QUI -0.025 -0.023 -0.004 -0.042 -0.023 -0.012 0.029 0.052 0.526 0.059
BIO -0.007 -0.020 0.026 -0.017 0.000 -0.027 -0.003 -0.009 0.059 0.608
64 Cuaderno técnico 6
f.solЅ/fit
0.885
f.solЅ/fit.off
0.995
f.solЅ/dof
35
f.solЅ/objective
0.1269227
f.solЅ/statistic
123.3586
f.solЅ/pval
8.903534e-12
f.solЅ/communality.iterations
4.996 4.503 4.454 4.449 4.449
La identificación de los elementos mostrados en la salida es:
Values: Eigenvalores de la matriz. En nuestro caso, sólo es de interés el primer
eigenvalor, 4.449 asociado a nuestro único factor.
Rotation: Indica el tipo de rotación que se eligió. Cuando se extrae un solo
factor, no existe posibilidad de rotación, por eso se indicó none.
n.obs: Número de observaciones en la base de datos.
Communality: Las comunalidades de cada variable en el modelo.
Loadings: Las cargas factoriales de cada variable.
SS loading y proportion Var: El eigenvalor y la proporción de varianza asociados
al factor extraído.
Residuals: La matriz de residuos, que resulta de restar a la matriz original, la
matriz reproducida por el modelo. Observamos que en la diagonal aparecen las
especificidades de cada variable, cuyo rango va de 0.469 a 0.650, que comprueba
que mucha de la varianza de cada variable no es explicada por el modelo
unifactorial.
66 Cuaderno técnico 6
Como hemos observado, es posible reproducir los resultados del análisis
factorial que obtuvimos a través de spss, utilizando R. Observamos que no
todos estos resultados están disponibles de forma automática; para generar
algunos de ellos tuvimos que recurrir a programas sencillos.
Objetivo
Este ejemplo utiliza una base de datos de los sustentantes del Examen Nacional
de Ingreso a la Educación Superior (exani-ii). En esta ocasión las variables
manifiestas son los reactivos de opción múltiple que exploran el dominio, de
modo que la base de datos está conformada por vectores que incluyen valores
de 0 y 1. Se asignó 1 a la respuesta correcta y 0 a la incorrecta.
Evaluaremos la dimensionalidad del constructo de Matemáticas, que es
explorado con 16 preguntas. Desafortunadamente, el paquete spss no consi-
dera la escala de medición de las variables en el análisis de factores; por ende,
no es un programa que pueda ser usado cuando las variables manifiestas son
discretas (ordinales o dicotómicas). En su lugar, usaremos statistica (otro
paquete estadístico comercial), que sí permite realizar el análisis con este tipo de
variables, pero que no calcula los puntajes factoriales asociados a cada sujeto
en la base. Como en el área de educación se presentan muchos casos en los que
las variables se miden en escala dicotómica (respuesta correcta o incorrecta),
mostraremos detalladamente el uso de este paquete para construir un factor
con este tipo de variables.
Lo primero que debemos mencionar es que para considerar la escala
dicotómica de las variables, es necesario construir una matriz de correlaciones
tetracórica (véase la tabla correspondiente). La correlación tetracórica estima
la correlación de Pearson que obtendríamos si las variables fueran medidas
La base de datos
La siguiente pantalla muestra un segmento de la base de datos:
70 Cuaderno técnico 6
Activando este último menú, se despliega la siguiente ventana:
72 Cuaderno técnico 6
Observemos que aparece el rango de variables que elegimos. En seguida,
seleccionamos la pestaña Advanced y tenemos la ventana siguiente:
74 Cuaderno técnico 6
Manteniendo abierta esta ventana, realizamos la trayectoria:
Statistics → Multivariate Exploratory Techniques → Factor Analysis.
76 Cuaderno técnico 6
En la ventana del análisis factorial aparecerá marcado ALL después de
Variables, para indicar que hemos elegido todas las variables de la matriz de
correlación tetracórica, para realizar el análisis. Nuevamente pulsamos OK y
obtenemos la siguiente ventana:
78 Cuaderno técnico 6
Observamos que se realizó el proceso con 16 variables. El método de extracción
fue el seleccionado (Principal axis factoring). El número de factores extraídos
es uno con un eigenvalor asociado de 7.83974. Pero éste no es todo el despliegue
de resultados: observamos otras opciones de información en Explained variance,
Loading, Scores, Descriptive, Eigenvalues y Summarary factor loadings. Veamos qué contiene
cada una de estas posibilidades.
Al activar el menú Explained variance tenemos la siguiente ventana:
80 Cuaderno técnico 6
Las comunalidades (From 1 Factor) oscilan entre 0.166344 (Mat_9) y 0.806765
(Mat_1), lo que significa que una cantidad considerable de la varianza de estas
variables es explicada por el factor extraído.
82 Cuaderno técnico 6
Matriz de residuales:
84 Cuaderno técnico 6
En esta ventana se muestra la opción Summary Factor Loadings que servirá
para mostrar las cargas factoriales. Pero además aparece la opción Highlight factor
loadings greather than que permitirá establecer un punto de corte a partir del cual
se señalarán con color rojo las cargas factoriales; por defecto esta opción muestra
el valor de 0.70. Este punto de corte es excesivo en áreas como la educativa, en
donde se asume que una carga mayor que 0.3 es importante. Presentamos en la
siguiente pantalla los resultados de estos menús, señalando las cargas mayores
de 0.3 (en valor absoluto):
Observemos que ninguna variable está por debajo de este punto de corte (de
hecho la carga más baja fue de -0.4078, para el reactivo 9), lo que implica que la
formación de este factor resulta, en principio, una decisión adecuada. Todas las car-
gas factoriales resultan negativas, hecho curioso ya que esperaríamos correlaciones
Análisis en R
86 Cuaderno técnico 6
Tanto el determinante de la matriz como la estadística kmo sugieren que el
análisis factorial puede ser adecuado para estas variables.
Los resultados del análisis factorial están guardados en el objeto: f.cat, para
saber qué elementos componen este objeto, tecleamos:
names(f.cat)
"values” "rotation" "n.obs" "communality" "loadings" "residual" "fit" "unique-
nesses" "fit.off" "dof" "objective" "criteria" "statistic" "pval" "communality.
iterations" "factors"
Varios de estos elementos han sido discutidos con anterioridad.
PA1
M1 0.831
M2 0.842
M3 0.524
M4 0.835
M5 0.617
M6 0.780
M7 0.593
M8 0.475
M9 0.395
M10 0.621
M11 0.737
M12 0.727
M13 0.586
M14 0.628
M15 0.515
M16 0.770
PA1
SS loadings 7.147
Proportion Var 0.447
Las cargas factoriales están, en general, por arriba de 0.3. Ninguna muestra
una carga menor a este punto de corte. La proporción de varianza que explica
este factor es del 44.7%.
f.catЅ/fit
0.912
f.catЅ/fit.of
0.995
88 Cuaderno técnico 6
Se tiene un buen ajuste fuera de la diagonal de la matriz, es decir, el modelo de
factores reproduce bien las correlaciones entre las variables, y hay un buen grado
de reducción de la matriz de correlación, ya que el valor de fit está cercano a uno.
f.catЅ/uniquenesses
M1 M2 M3 M4 M5 M6 M7 M8
0.310 0.292 0.725 0.304 0.619 0.392 0.648 0.774
M9 M10 M11 M12 M13 M14 M15 M16
0.844 0.615 0.456 0.471 0.656 0.605 0.735 0.408
Algunas de las varianzas específicas son muy grandes, lo que confirma la
poca explicación del factor sobre las varianzas de ciertas variables.
f.catЅ/dof
104
f.catЅ/objective
0.5111483
f.catЅ/STATISTIC
2008.113
f.catЅ/PVAL
0.00
Este último valor ( pval) evidencia que un solo factor no es suficiente para
explicar las asociaciones entre las variables.
Finalmente, la función que utilizamos para realizar este análisis ( factor.pa) no
construye de forma automática los puntajes factoriales de los sujetos en la base.
Lo que debemos hacer es utilizar algunos de los elementos que ya tenemos,
para construir “paso a paso” dichos puntajes. En seguida mostramos los puntajes
de los primeros 20 individuos en la base:
factores[1:20]
Un comentario final
90 Cuaderno técnico 6
Bibliografía
Bartholomew, D.J. et al. (2000). The analysis and interpretation of multivariate data for
social scientists. Boca Raton, Florida: Chapman & Hall/CRC.
Bartholomew, D.J. y Knott, M. (1999). Latent Variable Models and Factor Analysis.
London: Arnold Publishers.
Brown, T.A. (2006). Confirmatory Factor Analysis for Applied Research. Nueva York:
The Guilford Press.
Everitt, B.S. y Graham, D. (2001). Applied Multivariate Data Analysis. Nueva
York: Oxford University Press.
Hair, J.F. et al. (1999). Análisis Multivariante (E. Prentice & D. Cano, trads.).
Madrid, España: Pearson/Prentice Hall. (Trabajo original publicado en 1998).
Kaplunovsky, A.S. (2006). Why using factor analysis? (dedicated to the centenary of factor
analysis). Israel: Holon Academic Institute of Technology, Research Center
for Quantum Communication Engineering.
Pett, M.A. et al. (2003). Making Sense of Factor Análisis: The Use of Factor Analysis
for Instrument Development in Health Care Serearch. California: SAGE.
Spearman, C. (1904). General Intelligence, objectively determined and mesured. Illinois:
American Journal of Psychology.
Thurstone, L.L. (1935). The vectors of mind. Illinois: University of Chicago Press.
Thurstone, L.L. (1938). Primary mental abilities. Illinois: University of Chicago
Press.
Yanai, H. y Ichikawa, M. (2007). Factor analysis. En C. R. Rao y S. Sinharay
(Eds.), Handbook of statistics: Vol. 26. Psychometrics (pp. 257–296). Amsterdam:
North-Holland.
E n seguida se muestra el código utilizado para los dos ejemplos del paquete R.
Se recomienda al lector que intente reproducir esta secuencia de instrucciones
con sus propios datos, para que pueda apreciar el despliegue de información que
proporciona este paquete.
Para desplegar los resultados es suficiente teclear el nombre de la variable
donde están guardados; (a<- b) significa que en a se guardan los resultados
generados por la instrucción b. Si no hay esta asignación, el resultado se despliega
en la pantalla del paquete. Cuando el paquete básico de R no posee alguna
rutina se puede recurrir a paquetes especializados, que se cargan a voluntad
del usuario. Una forma simple de cargar estos paquetes es con la instrucción:
install.packages (“nombre del paquete”), para lo que se necesita estar conectado
a Internet.
La secuencia de instrucciones
94 Cuaderno técnico 6
library(psych)
# Se corre el análisis a partir de la base de datos: EJ1
f.sol<-factor.pa( EJ1,nfactors=1,residuals=TRUE, rotate="none",n.
obs=1011,min.err=0.001,digits=3,max.iter=50,scores=TRUE)
===============================================
=========================================
#Ejemplo con variables dicotómicas
# Base que contiene las variables dicotómicas
cencat<-read.table("C:/Documents and Settings/USUARIO/Desktop/BASE-
MAT.txt",header=TRUE,colClasses="factor")
# Paquete que permite el cálculo de la matriz tetracórica
library(polycor)
#Paquete para extraer los factores a través del método de factores principales
(principal axis)
library(psych)
# Cálculo de la matriz tetracórica con las 16 variables en la base: M1-M16
cor.mat2<-hetcor(cencat[,1:16],ML=FALSE,digits=3)
# Se le da formato a la matriz anterior
# Se redondean los resultados de esta matriz a tres dígitos
mat.cor2<-matrix(cor.mat2$correlations,nrow=16,ncol=16,byrow=TRUE,
list(c("M1","M2","M3","M4","M5","M6","M7","M8","M9","M10","M11","M12","
M13","M14","M15","M16"), c("M1","M2","M3","M4","M5","M6","M7","M8","M
9","M10","M11","M12","M13","M14","M15","M16")))
tetra.corre<-round(mat.cor2,digits=3)
# Función que calcula el estadístico KMO
kmo.test <- function(M){
library(corpcor)
cor.sq = cor(M)^2
cor.sumsq = (sum(cor.sq)-dim(cor.sq)[1])/2
96 Cuaderno técnico 6
El Centro Nacional de Evaluación para la Educación Superior es una asociación civil sin fines
de lucro constituida formalmente el 28 de abril de 1994, como consta en la escritura pública
número 87036 pasada ante la fe del notario 49 del Distrito Federal. Sus órganos de gobierno
son la Asamblea General, el Consejo Directivo y la Dirección General. Su máxima autoridad es
la Asamblea General, cuya integración se presenta a continuación, según el sector al que perte-
necen los asociados, así como los porcentajes que les corresponden en la toma de decisiones:
Asociaciones y colegios de profesionales (20%): Barra Mexicana Colegio de Abogados, A.C.; Colegio
Nacional de Actuarios, A.C.; Colegio Nacional de Psicólogos, A.C.; Federación de Colegios y
Asociaciones de Médicos Veterinarios y Zootecnistas de México, A.C.; Instituto Mexicano de
Contadores Públicos, A.C.
• Ceneval, A.C.®, EXANI-I®, EXANI-II® son marcas registradas ante la Secretaría de Co-
mercio y Fomento Industrial con el número 478968 del 29 de julio de 1994. EGEL®, con
el número 628837 del 1 de julio de 1999, y EXANI-III®, con el número 628839 del 1 de
julio de 1999.
• Inscrito en el Registro Nacional de Instituciones Científicas y Tecnológicas del Consejo
Nacional de Ciencia y Tecnología con el número 506 desde el 10 de marzo de 1995.
• Organismo Certificador acreditado por el Consejo de Normalización y Certificación de
Competencia Laboral (CONOCER) (1998).
• Miembro de la International Association for Educational Assessment.
• Miembro de la European Association of Institutional Research.
• Miembro del Consortium for North American Higher Education Collaboration.
• Miembro del Institutional Management for Higher Education de la OCDE.
La publicación de esta obra la realizó
el Centro Nacional de Evaluación
para la Educación Superior, A.C.
Se terminó de imprimir el 29 de octubre de 2010
en los talleres de Winkilis, Bugambilias 131,
Col. El Rosario, México, D.F., C.P. 09930,
con un tiraje de 500 ejemplares