Está en la página 1de 15

NOTAS SOBRE ANÁLISIS FACTORIAL

Traducción-edición: José Malavé


IESA, Caracas, marzo 2013

Confusiones típicas en el análisis factorial exploratorio


(Bandalos y Boehm-Kaufman, 2009)
El análisis factorial exploratorio (AFEX) es el procedimiento que se encuentra usualmente en
paquetes tales como SAS y SPSS; mientras que el análisis factorial confirmatorio (AFCO)
requiere programas de modelación de ecuaciones estructurales. En las aplicaciones de AFEX se
encuentran cuatro confusiones típicas:

1. La elección entre componentes principales y factores comunes es irrelevante.


2. La rotación ortogonal conduce a una mejor estructura simple que la oblicua.
3. El tamaño de muestra mínimo requerido es... (inserte su regla favorita).
4. "Autovalores mayores que uno" es la mejor regla para escoger el número de factores.

¿Componentes principales o factores comunes?


En muchos artículos publicados en revistas académicas, algunos autores no reportan si utilizan
análisis de componentes principales (ACP) o de factores comunes (AFC), y otros usan análisis
incompatibles con los propósitos de sus estudios. Con frecuencia se usa ACP cuando AFC sería
más apropiado. ACP transforma el conjunto de variables observadas en un conjunto menor de
compuestos lineales: es un método de reducción de datos. Por ejemplo, un investigador puede
estar interesado en predecir el desempeño a partir de puntajes en un gran número de pruebas
de aptitud y logro; como sabe que hay puntajes correlacionados, quisiera reducirlos a un
conjunto menor de variables y evitar, así, problemas de colinealidad. AFC se usa para descubrir
constructos subyacentes a las variables. Por ejemplo, en lugar de crear compuestos lineales de
los puntajes en las pruebas, el investigador intenta identificar dimensiones latentes en los
puntajes para entender mejor qué explica sus intercorrelaciones.
La diferencia está en que ACP analiza toda la varianza entre las variables, mientras que AFC
factoriza solamente la varianza compartida; es decir, factorizar la matriz de correlación original
(ACP) o remplazar los elementos de la diagonal con estimaciones de la varianza compartida o
comunalidad (AFC). La diferencia puede apreciarse en las ecuaciones que definen cada
procedimiento: la de AFC contiene un término de error (o especificidad) que no aparece en la de
ACP.
Quizá los autores y revisores de artículos no estén conscientes de esta diferencia. Pero hay
otras razones por las que pueden escoger entre ellos de manera arbitraria. Una es que ACP es la
opción por defecto en SPSS y SAS, y algunos investigadores pueden suponer que por ello es la
"mejor". En segundo lugar, ambos métodos pueden arrojar, y de hecho arrojan, resultados
similares en ciertas condiciones. La tercera razón es que los metodólogos no están de acuerdo en
cuanto al método que debería usarse y esgrimen argumentos metodológicos y filosóficos.

1
Argumentos metodológicos
Un argumento contra el AFC se refiere a la indeterminación de los puntajes factoriales. En
general, el análisis se basa en ecuaciones que relacionan las variables observadas con los
factores: para un conjunto de v variables hay v ecuaciones. Pero en AFC deben calcularse
puntajes sobre f factores comunes y v factores específicos, lo cual resulta en un total de f + v
incógnitas que deben calcularse a partir de v ecuaciones. Esto es análogo a hallar x e y en una
ecuación como x + y = 10: la solución es indeterminada, no porque no haya valores para x e y
sino porque hay muchos valores. Así, el problema no es que no haya un conjunto de puntajes
factoriales que puedan obtenerse a partir de las variables, sino que hay muchos conjuntos de
puntajes factoriales. Este problema no se presenta en ACP, porque no se calculan factores
específicos; suponiendo que se obtiene una solución completa, el número de componentes
coincide con el número de variables.
El debate no se refiere tanto a la existencia de la indeterminación (esto es reconocido por
ambas partes) como al grado en que tal indeterminación es un problema. Los defensores del
AFC argumentan que esta no es una razón para abandonar el método, porque los
investigadores raramente están interesados en los puntajes factoriales; y, en caso de estar
interesados, podrían usar un AFCO para obtener puntajes que no estén afectados por este
problema.
Quienes proponen ACP señalan también la ocurrencia de estimaciones negativas de la
especificidad (casos Heywood) en AFC. Como SPSS y SAS no imprimen estimaciones de la
especificidad, los casos Heywood se advierten en las cargas factoriales mayores que uno. Los
defensores del AFC argumentan que tales casos no son necesariamente problemáticos. Con
frecuencia, revelan que se está usando un modelo mal especificado o que los datos violan los
supuestos del modelo AFC; además, pueden evitarse reduciendo el número de iteraciones de
las comunalidades a dos o tres.

Argumentos filosóficos
Un argumento se refiere a las condiciones requeridas por un modelo de variable latente como
AFC. Si se cree que cada variable contiene un error aleatorio y que esos errores no están
mutuamente correlacionados, entonces el número de dimensiones de cualquier modelo es
mayor que el de las variables observadas; por lo tanto se requiere un modelo de variable latente.
Filosóficamente, esta perspectiva se basa en una inferencia por abducción (estudiar los hechos y
elaborar una teoría para explicarlos), de la cual se deriva que un modelo de variable latente es
preferible cuando se estudia la estructura causal subyacente de un dominio. Quienes critican la
distinción entre ACP y AFC sostienen que los factores comunes no son más "latentes" que los
componentes principales, pues la diferencia está en un término de error, cuyo carácter es
arbitrario.
Ambos tipos de argumentos —metodológicos y filosóficos— están entrelazados. No es
posible identificar factores a partir de patrones de correlaciones entre variables, de manera
específica y sin ambigüedad, sin algunos supuestos previos. Tales supuestos pueden adoptar la
forma de restricciones sobre la estructura factorial o sobre las cargas factoriales. Los resultados
deben someterse a pruebas ulteriores con datos adicionales. Un AFEX dejará siempre el
dominio investigado en un estado de indeterminación teórica. La pluralidad de teorías en

2
competencia no debe considerarse una consecuencia indeseable del método. Ahora bien, los
asuntos conceptuales (la existencia de factores) son categóricamente diferentes de los empíricos
(la generación y la prueba de hipótesis) y los argumentos para establecer los primeros deben
sostenerse sin ayuda empírica.

Los asuntos prácticos


¿Hay alguna diferencia entre los resultados que se obtendrían, o las decisiones que se tomarían,
con ACP y AFC? Para los proponentes del ACP, cualquier diferencia sería trivial y,
posiblemente, resultaría de extraer muchos factores. Pero se ha encontrado que ambos análisis
pueden producir resultados muy diferentes, cuando las comunalidades o los números de
variables por factor son pequeños. Estas dos condiciones interactúan de manera tal que, si la
carga factorial promedio es al menos 0,8, entre tres y siete variables por factor serán suficientes
para que las estimaciones con ambos métodos sean muy parecidas. Con cargas promedio de 0,4
se necesitarán de veinte a cincuenta o más variables para obtener estimaciones similares.
Estos resultados no son sorprendentes, dado que AFC contiene un término de especificidad.
Las condiciones que minimizan la especificidad —mayor comunalidad y mayor número de
variables— conducen a mayor similitud entre ambos métodos. Analíticamente se ha encontrado
que los resultados serán similares cuando las varianzas específicas sean pequeñas con respecto
a las cargas factoriales. En caso contrario se ha demostrado que, aun con proporciones
relativamente pequeñas de especificidad en las variables, ACP sobrestima las cargas factoriales
de la población. También se ha encontrado que, en los modelos de factores correlacionados,
ACP subestima las correlaciones entre factores.

Resumen
• La leyenda: ACP y AFC generan resultados similares y no importa cuál se utilice.
• La verdad: ACP y AFC arrojan resultados similares si las comunalidades son altas (0,8 o
más en promedio) y el número de variables por factor es grande.
• El mito: ACP y AFC son equivalentes conceptualmente.
• La conclusión: ACP y AFC tienen propósitos diferentes y se basan en supuestos diferentes.
Si el propósito es reducir datos debería usarse ACP, pero si es describir variables en
términos de dimensiones subyacentes debería usarse AFC. Aunque ambos propósitos
pudieran confundirse, explicar las correlaciones entre las variables e interpretar de manera
sustantiva las dimensiones escapa del dominio del ACP.

¿Rotación ortogonal o rotación oblicua?


La rotación de factores produce, generalmente, soluciones que pueden interpretarse más
fácilmente que las no rotadas. Las soluciones rotadas pueden obtenerse de dos maneras: con
factores no correlacionados (ortogonales) o con factores correlacionados (oblicuas). En ambos
casos, el propósito es obtener soluciones más interpretables y "limpias". Esto último se define
como "estructura simple" (según el trabajo clásico de Louis Thurstone): (1) varias cargas grandes
y un número mayor de variables con cargas pequeñas (idealmente cero) para cada factor, (2)
diferentes patrones de cargas en los factores y (3) pocas cargas cruzadas. Hay confusión en

3
cuanto a cuál rotación es "mejor", ortogonal u oblicua, tanto en términos generales como en el
sentido de obtener una estructura simple.

¿Correlación o independencia?
La elección entre ambos métodos depende de si se espera que los factores correlacionen.
Cuando no hay información acerca del grado esperado de correlación, se recomienda la rotación
oblicua. Si los factores no están correlacionados se obtendrá "por defecto" una solución
ortogonal; pero es preferible permitir que correlacionen, si eso afecta la estructura de las
variables. Se considera más seguro suponer no hay perfecta independencia. Sin embargo, en la
bibliografía se encuentra amplio uso de la rotación ortogonal y en la mayoría de los casos no se
dan razones para ello.

¿Produce la rotación ortogonal la mejor estructura simple?


¿Por qué es tan popular la rotación ortogonal? Quizá los investigadores sientan que conduce a
una estructura que puede interpretarse más fácilmente, aunque los metodólogos recomienden
lo contrario. En realidad, las rotaciones ortogonales pueden producir más cargas cruzadas que
las oblicuas. Solo cuando las variables de un factor no correlacionan con las variables de otros
factores, la rotación ortogonal producirá una solución sin cargas cruzadas. Mientras mayores
sean las correlaciones entre las variables de distintos factores mayores serán las cargas cruzadas.

Resumen
• La leyenda: la rotación ortogonal produce la mejor estructura simple.
• La verdad: la rotación ortogonal produce soluciones cuya interpretación puede ser más
sencilla.
• El mito: cuando los factores están correlacionados la rotación ortogonal "limpia" la
estructura factorial.
• La conclusión: a menos que exista una buena razón para creer que los factores no están
correlacionados, use una rotación oblicua. Si no están correlacionados, la rotación oblicua
arrojará una solución ortogonal de todos modos. Si las correlaciones entre factores no son
despreciables, la solución oblicua conduce a la mejor representación.

El tamaño mínimo de la muestra


Existen muchas reglas prácticas para determinar el tamaño de la muestra, que caen en dos
categorías: (1) las que especifican un valor mínimo (N) y (2) las que especifican un cociente entre
el tamaño mínimo y el número de variables (N:p). Diversos estudios recientes han llegado a la
misma conclusión: no hay un valor absoluto para N ni para N:p. El error está en creer que existe
un número invariable para lograr la estabilidad e identificar los factores de la población. El
tamaño de la muestra depende de diversos aspectos específicos de cada estudio.
¿Por qué está tan difundida la creencia en valores absolutos para N o N:p? Quizá la
recomendación del tamaño se deriva del conocimiento de la variabilidad de los coeficientes
muestrales de correlación, que proporcionan estimaciones precisas de sus contrapartes
poblacionales cuando N alcanza 100-200. Como los coeficientes del análisis factorial se basan en
correlaciones es razonable suponer que se comportarán de manera similar. ¿Es eso cierto? En

4
cuanto a N:p, las recomendaciones pueden tener su origen en el concepto de "contracción" de la
regresión múltiple, según el cual la validez cruzada de un solución de regresión depende de la
razón del número de variables predictoras al número de sujetos. En ambos casos, las reglas
tradicionales carecen de justificación.

Lineamientos para el tamaño de la muestra


La buena noticia es que se han propuesto nuevos lineamientos; la mala, que son más
complicados que los viejos. Mediante simulaciones se ha mostrado que, aunque la estimación
de las cargas factoriales poblacionales mejora al incrementar el tamaño de la muestra, los
resultados también mejoran al aumentar las comunalidades y el número de variables por factor.
El tamaño de la muestra, las comunalidades y el número de variables interactúan en sus efectos
sobre las cargas poblacionales.
Los efectos de las comunalidades se deben al hecho de ser funciones de las cargas factoriales
que, a su vez, son funciones de las correlaciones entre las variables (más estables mientras
mayores sean sus coeficientes). El efecto del número de variables es menos obvio, pero puede
entenderse como un asunto de muestreo. Así como se necesitan muestras adecuadas de
personas para aproximar los valores poblacionales de ciertas características de esas personas, se
necesitan muestras adecuadas de variables para aproximar los valores poblacionales referidos a
esas variables; suponiendo que las variables son buenas mediciones de sus respectivos factores
(cargas altas en el factor correspondiente y cargas cercanas a cero en otros factores).
Más importante que sus efectos aislados es el efecto de la interacción del tamaño de la
muestra, la comunalidad y el número de variables: la debilidad de una es compensada por la
fortaleza de otra. Por ejemplo, con comunalidades de aproximadamente 0,7 y tres a cuatro
variables por factor, una buena estimación de factores poblacionales requiere un tamaño
muestral de apenas 100. Con tal grado de comunalidad incrementar el número de variables por
factor tiene poco efecto. Con comunalidades inferiores a 0,5 se requerirían seis o siete variables
y una muestra mucho mayor que 100. Con comunalidades menores que 0,5 y tres a cuatro
variables se necesitarían muestras de al menos 300.
Dada la misma razón de variables por factor se necesita una muestra mayor para obtener
una buena estimación cuando hay más factores (y por lo tanto más variables) en el análisis. Por
ejemplo, con siete factores, cada uno con tres a cuatro variables, se necesitan muestras muy por
encima de 500 para obtener buena estimación en la condición de baja comunalidad. Las
muestras con menos factores arrojan soluciones factoriales más estables.

Resumen
• La leyenda: el tamaño mínimo de la muestra aumenta con el número de variables
analizadas.
• La verdad: el tamaño requerido aumenta con el número de factores. Con baja comunalidad
y tres a cuatro variables por factor, se necesita una muestra de al menos 300 si hay tres
factores, pero se necesitaría una muestra de al menos 500 si hubiera siete factores.
• El mito: para un número dado de factores, grandes números de variables requieren grandes
tamaños de muestras.

5
• La conclusión: muestree sus variables cuidadosamente. Escoger variables con alta
comunalidad dará buenos resultados con menores tamaños de muestra.

La regla "autovalores mayores que uno" para escoger el número de factores


Si SPSS y SAS contienen esta regla por defecto, entonces debe ser correcta. No. Una de las pocas
cosas en que los analistas parecen estar de acuerdo es que este criterio —K1, regla de Kaiser o
regla Kaiser-Guttman— es uno de los menos confiables. No obstante, sigue siendo el más
utilizado. Se ha atribuido su origen a Louis Guttman. Pero lo que él hizo fue derivar tres
métodos para determinar el número mínimo de dimensiones de una matriz de correlaciones
poblacionales. Según uno de ellos, la dimensión mínima de una matriz de correlaciones con
unidades en la diagonal era mayor o igual al número de autovalores (eigenvalues) que fueran al
menos uno.
Hay que aclarar tres cosas: (1) la regla K1 se aplica al ACP (sería inapropiado aplicarla al
AFC), (2) Guttman no sugirió K1 como un método para determinar el número de componentes
que deberían extraerse sino el número de componentes que podrían extraerse y (3) las
derivaciones de Guttman se basan en datos poblacionales. Los primeros autovalores en una
matriz de correlaciones muestrales suelen ser mayores que sus contrapartes poblacionales, por
ello la aplicación de esta regla conduce a extraer muchos componentes.
Henry Kaiser aportó otro argumento para la regla K1: los componentes con autovalores
menores que uno tendrían coeficientes negativos de consistencia interna. Algunos
investigadores malinterpretan este argumento y concluyen: los componentes que cumplan la
regla serán confiables. En realidad, no existe relación directa entre el tamaño de un autovalor y
la confiabilidad del componente respectivo.
¿Cuál regla debería usarse? Se han recomendado diferentes métodos para determinar el
número de factores o componentes, que suelen conducir a diferentes números. El investigador
debería obtener las soluciones que producen los diferentes métodos y decidir de acuerdo con lo
que considere interpretable, la evidencia de exceso de factores y consideraciones teóricas. Debe
retenerse un factor si puede ser interpretado de un modo significativo, independientemente de
los criterios empíricos. Entre los métodos recomendados se encuentran: gráfico de
sedimentación, análisis paralelo (AP) y promedio parcial mínimo (PPM).
En un gráfico de sedimentación se colocan los autovalores y el número de factores se
determina por el punto en el cual se nivelan los valores graficados. Aunque menos conocidos,
los métodos AP y PPM se consideran más precisos. La idea tras el AP es que los componentes
extraídos deberían tener autovalores mayores que los provenientes de una matriz de datos
aleatorios con las mismas dimensiones. Así, al comparar los autovalores de la matriz de
correlaciones observadas con los de la matriz de datos aleatorios, se retienen los componentes
con autovalores mayores de la observada. Aunque SPSS y SAS no tienen este procedimiento,
existen programas (http://flash.lakeheadu.ca/~boconno2/nfactors.html) que funcionan con estos
paquetes.
El PPM se ha desempeñado bien en estudios de simulación; pero este método es apropiado
sólo para ACP. Al extraer cada componente se calcula una matriz de correlaciones parciales
(aislando el componente) y se obtiene el promedio de los coeficientes al cuadrado fuera de la
diagonal. El número de componentes se determina cuando la correlación parcial promedio

6
alcanza el mínimo. La idea es que los componentes eliminan sucesivamente la varianza común
de la matriz (a medida que decrece la correlación parcial promedio) hasta quedar solo la
varianza específica (la varianza compartida solamente por dos variables). En ese punto se
extraerán solo componentes basados en varianza específica: cada uno tiene alta correlación con
una variable y bajas correlaciones con las otras. PPM tampoco ha sido implementado en SPSS o
SAS, pero existen programas para hacerlo.
Los estudios empíricos sobre los criterios para la retención de factores se han limitado a
factores ortogonales. No está claro qué sucede cuando los factores están correlacionados, pero
puede esperarse que sea más difícil determinar el número de factores en este caso.

Resumen
• La leyenda: K1 es un método preciso para determinar el número de factores.
• La verdad: el número de autovalores mayores que uno representa un límite inferior teórico
para el número de componentes (no factores comunes) que pueden (no necesariamente
deben) ser extraídos en una población.
• El mito: K1 es un método preciso para calcular el número de factores o componentes que
deberían retenerse en una muestra.
• La conclusión: aunque es el criterio por defecto en SPSS y SAS, K1 es impreciso y no se
recomienda su uso. Se recomienda usar gráfico de sedimentación en conjunto con AP y, solo
en ACP, PPM. Los metodólogos recomiendan usar diversos criterios combinados y
enfatizan la interpretación y la base teórica como criterio último.

Recomendaciones para el análisis factorial exploratorio


(Costello y Osborne, 2005)
El análisis factorial exploratorio (AFEX) es un procedimiento complejo con pocos lineamientos y
muchas opciones. En algunos casos, las opciones varían en terminología entre los programas y,
en muchos casos, algunas opciones no están bien definidas. El diseño del estudio, las
propiedades de los datos y las preguntas que se intenta responder determinan cuáles
procedimientos arrojarán el máximo beneficio.

Extracción
El análisis de componentes principales (ACP) no es verdaderamente un método de análisis
factorial y los teóricos no están de acuerdo acerca de cuándo (si acaso) debería usarse. Otros
opinan que no hay casi diferencia entre componentes y factores, e incluso que ACP es
preferible.
ACP es un método de reducción de datos: la alternativa, cuando los computadores eran
lentos y costosos. Los investigadores no suelen recoger y analizar datos sin una idea a priori de
cómo se relacionan las variables. El propósito del análisis de factores es descubrir las variables
latentes que hacen que las variables manifiestas covaríen. Durante la extracción de factores, la
varianza compartida de una variable se divide en varianza específica y varianza de error; en la
solución aparece la varianza compartida. ACP no discrimina entre varianzas y, cuando los
factores no están correlacionados y las comunalidades son moderadas, puede producir valores
inflados de varianza explicada. Como el análisis de factores analiza solo varianza compartida,

7
debería arrojar la misma solución (manteniendo otras cosas iguales), evitando la inflación de
varianza explicada.
Hay diversos métodos de extracción. SPSS tiene seis (además de ACP): mínimos cuadrados
no ponderados, mínimos cuadrados generalizados, máxima verosimilitud, factorización de ejes
principales, factorización alfa y factorización imagen. Si los datos se distribuyen de manera
relativamente normal, la mejor opción es máxima verosimilitud: permite calcular una variedad
de índices de bondad del ajuste, probar la significación estadística de las cargas factoriales y las
correlaciones entre factores, y calcular intervalos de confianza. Si no puede suponerse
normalidad, se recomienda la factorización de ejes principales. No hay mayor información
sobre los otros métodos.

Retención
¿Cuántos factores deben retenerse? Equivocarse por exceso o por defecto puede afectar
gravemente los resultados. La regla "autovalores mayores que uno" es una de las menos
precisas. Lamentablemente, otros métodos no están disponibles en los paquetes estadísticos, por
lo que la mejor opción es la prueba de sedimentación.
La prueba de sedimentación consiste en examinar el gráfico de autovalores y buscar el
punto donde la curva se aplana. El número de puntos por encima del "quiebre" (sin incluir el
punto donde ocurre) es usualmente el número de factores que pueden retenerse; aunque esto
puede no ser obvio si hay puntos aglomerados cerca del quiebre. La verificación consiste en
correr múltiples análisis fijando manualmente el número de factores: primero el número
derivado de la estructura a priori, luego el número sugerido por la prueba de sedimentación y
luego números por encima y por debajo de aquellos. Por ejemplo, si el número predicho es seis
y la sedimentación sugiere cinco, corra los datos cuatro veces fijando el número de factores en
cuatro, cinco, seis y siete. Después de la rotación, compare las cargas: aquella con la estructura
"más limpia" —cargas mayores que 0,30, ningún ítem (o pocos) con cargas cruzadas, ningún
factor con menos de tres ítems— tiene el mejor ajuste con los datos.
Si todas las estructuras lucen confusas y no interpretables hay un problema con los datos,
que no puede ser resuelto manipulando el número de factores. Algunas veces volver a correr el
análisis descartando los ítems problemáticos —cargas bajas, cargas cruzadas o aislados— puede
resolver el problema, pero hay que considerar si hacer eso compromete la integridad de los
datos. Si después de múltiples corridas la estructura sigue confusa, hay un problema con la
construcción de los ítems, el diseño de la escala o la hipótesis misma, y el investigador puede
tener que desechar los datos y comenzar de cero. Otra posibilidad es que la muestra sea muy
pequeña y se necesite recoger más datos antes de correr el análisis.

Rotación
El propósito de la rotación es simplificar y clarificar la estructura de los datos; pero no puede
mejorar aspectos básicos del análisis, como el monto de varianza extraída de los ítems. Hay una
variedad de opciones: ortogonales (varimax, quartimax y equamax) y oblicuas (oblimin,
quartimin y promax). Un argumento popular, pero errado, es que la rotación ortogonal produce
resultados más fácilmente interpretables. En las ciencias sociales se espera generalmente alguna
correlación entre factores, porque la conducta raramente se divide en unidades que funcionen

8
de manera independiente unas de otras. Por consiguiente, la rotación ortogonal conduce a una
pérdida de información valiosa, si los factores están correlacionados, y la oblicua debería
teóricamente generar una solución más precisa y, quizá, más reproducible. Si, realmente, los
factores no están correlacionados, ambas producen resultados idénticos.
La salida de la rotación oblicua es más compleja que la de la ortogonal. SPSS produce dos
tipos de matrices: patrones (cargas ítem-factor) y correlaciones entre factores. No hay un
método ampliamente preferido de rotación oblicua: todos tienden a los mismos resultados.
Pueden usarse los valores por defecto para delta (0) o kappa (4); manipularlos altera la
magnitud de la correlación entre factores que "permite" el procedimiento, lo cual complica la
interpretación de los resultados. No hay razones para cuándo, por qué o para qué alterar los
valores delta o kappa.

Tamaño de la muestra
La práctica habitual para estandarizar los datos es la razón sujetos por ítem. En estudios de
construcción de escalas se registra el número inicial de ítems, en lugar del número de ítems
seleccionados para la versión final de la escala, pues la razón se determina por el número de
ítems que cada sujeto responde, no cuántos quedan después del análisis. Un gran porcentaje de
investigadores reporta muestras relativamente pequeñas. La mayoría (63%) usa razones de 10:1
o menores; sorprendentemente, casi un sexto reporta análisis factoriales con razones de 2:1 o
menores.
Casi han desaparecido las reglas estrictas acerca del tamaño de la muestra. El tamaño
adecuado es parcialmente determinado por la naturaleza de los datos: mientras más "robustos"
los datos —comunalidades uniformemente altas, sin cargas cruzadas y varias variables con
cargas altas en cada factor— menor el tamaño requerido. En la práctica estas condiciones no son
frecuentes.

1. Las comunalidades se consideran altas a partir de 0,8, pero esto es raro con datos reales. Las
magnitudes comunes se encuentran entre 0,4 y 0,7. Si un ítem tiene una comunalidad
inferior a 0,4 puede ser que no se relacione con los otros ítems o deba explorarse un factor
adicional. El investigador debería considerar por qué lo incluyó y decidir si lo desecha o
añade ítems similares en futuras investigaciones.
2. Se ha considerado 0,32 una buena regla para la carga mínima de un ítem, que equivale
aproximadamente a 10% de varianza solapada con otros ítems en el factor. Un ítem con
cargas cruzadas es aquel que carga 0,32 o más en dos o más factores. El investigador debe
decidir si lo desecha: una buena opción si hay varios ítems con cargas de 0,5 o más en cada
factor. Si hay varios ítems con cargas cruzadas, pueden estar mal redactados o la estructura
a priori puede estar equivocada.
3. Un factor con menos de tres ítems es generalmente débil e inestable. Cinco o más ítems con
cargas altas (0,5 o más) son deseables e indican un factor sólido. Con más investigación
puede reducirse el número de ítems y mantener un factor robusto, si se dispone de un
conjunto de datos muy grande.

9
AFEX es un procedimiento para muestras grandes. Es poco probable que los resultados sean
generalizables o replicables si la muestra es muy pequeña.

Conclusión
Por naturaleza y diseño AFEX es exploratorio. Fue diseñado y es más apropiado para explorar
un conjunto de datos, no para probar hipótesis o teorías. Es un procedimiento propenso a
errores, aun con muestras muy grandes y datos óptimos. Una vez que se ha desarrollado un
instrumento, usando AFEX, es el momento de pasar al AFCO para responder preguntas como:
"¿se mantiene la estructura en distintos subgrupos poblacionales?". No deben sacarse
conclusiones sustantivas con base en análisis exploratorios.
Los investigadores que utilizan muestras grandes y toman decisiones informadas acerca de
las opciones disponibles para el análisis de datos están más cerca de alcanzar sus metas: llegar a
conclusiones que puedan generalizarse, más allá de una muestra particular, a otra muestra o
una población de interés. Hacer menos es llegar a conclusiones de poca utilidad o interés, más
allá de esa muestra o ese análisis.

El método del análisis factorial confirmatorio


(Stapleton, 1997; Suhr, 2006)
Los análisis factoriales exploratorio (AFEX) y confirmatorio (AFCO) son poderosas técnicas
estadísticas. Por ejemplo, en el desarrollo de instrumentos de medición, se elabora un proyecto,
se redactan ítems, se determina una escala, se hace un piloto, se recogen datos y se lleva a cabo
un AFCO. El proyecto identifica una estructura factorial, pero algunos ítems pueden no medir
lo esperado. Si no se confirma la estructura factorial, el próximo paso es un AFEX, que ayuda a
determinar cómo luce la estructura factorial de acuerdo con las respuestas de los participantes.
Al AFEX se le ha criticado que sus supuestos suelen estar alejados de las relaciones entre las
variables observadas. El modelo lineal es apropiado solo para ciertos tipos de datos y los
resultados que arroje pueden ser desorientadores. Las estructuras factoriales dependen de
teorías específicas que determinan la mecánica del método (los procedimientos de extracción y
rotación), lo cual puede generar también resultados inexactos. Un AFEX puede sugerir hipótesis
(que pueden obtenerse, de otros modos, por la experiencia con el fenómeno), pero no justificar
conocimientos. La interpretación de factores medidos con unas pocas variables suele ser
complicada, porque generalmente AFEX no produce soluciones óptimas ni interpretaciones
únicas. AFEX debería reservarse para áreas que sean realmente exploratorias, donde no haya
teorías.
AFCO permite al investigador probar la hipótesis de que existe una relación entre las
variables observadas y uno o más constructos subyacentes. Es un modelo para verificar
hipótesis, a diferencia de AFEX que es un modelo para generar hipótesis. En AFCO el
investigador comienza con una hipótesis (basada en conocimiento teórico o empírico) acerca de
cuáles variables correlacionan con cuáles factores y cuáles factores están correlacionados. AFCO
ofrece un método para evaluar validez de constructo: probar hipótesis explícitas acerca de la
estructura factorial de los datos, especificando el número y la composición de los factores.
Después de especificar a priori los factores, se busca el ajuste óptimo entre las estructuras
factoriales observadas y teóricas, para determinar la "bondad del ajuste" del modelo.

10
El uso de AFCO puede verse afectado por diversos aspectos de la investigación: la hipótesis
propuesta, el tamaño de muestra requerido (por ejemplo, 5-20 casos por parámetro), los
instrumentos de medición, la distribución de los datos (normalidad multivariada), la
identificación de parámetros, casos atípicos, datos perdidos y los índices de ajuste. Se
recomienda el siguiente esquema de trabajo:

• Revisar la bibliografía pertinente (teoría e investigación).


• Especificar un modelo (diagramas, ecuaciones).
• Determinar el modelo (valores específicos de parámetros, grados de libertad).
• Recoger los datos.
• Realizar análisis estadísticos descriptivos (frecuencias, datos perdidos, colinealidad, casos
atípicos).
• Estimar parámetros del modelo.
• Evaluar el ajuste del modelo.
• Presentar e interpretar los resultados.

Procedimiento
El primer requisito es una matriz de correlaciones, varianza-covarianza o similar. Luego el
investigador aplica modelos que hipotéticamente se ajustan a los datos. Tales modelos
especifican el grado de correlación entre cada par de factores comunes, el grado de correlación
entre cada variable y uno o más factores, y cuáles pares de factores específicos están
correlacionados.
Los diferentes modelos se determinan "fijando" o "liberando" parámetros específicos tales
como coeficientes factoriales, coeficientes de correlación y varianza-covarianza del error de
medición. Fijar un parámetro se refiere a establecerle un valor específico; y liberarlo, a calcularlo
durante el análisis ajustando el modelo a los datos. Luego se ponen a prueba, se comparan, los
modelos o hipótesis acerca de la estructura de los datos.
AFCO puede llevarse a cabo usando programas como LISREL, que producen estadísticas
para determinar el ajuste de los modelos o explicar la covariación entre las variables. Si un
modelo no se ajusta a los datos, se le rechaza como posible estructura causal subyacente; si no
puede ser rechazado estadísticamente, es una representación viable de la estructura causal.
Ejemplos de estadísticas de ajuste son la razón chi cuadrado/grados de libertad, el índice de
ajuste comparativo de Bentler, el cociente de parsimonia y el índice de bondad-del-ajuste. En el
caso de la estadística chi cuadrado, que prueba la hipótesis nula de que no hay diferencia
significativa entre las matrices observadas y teóricas, los valores menores indican un buen
ajuste (es muy sensible al tamaño de la muestra). El índice de bondad del ajuste mide los
montos relativos de varianzas y covarianzas explicados conjuntamente por el modelo. Puede
concebirse como análogo al R2 en la regresión múltiple: mientras más cercano a uno mejor el
ajuste. Es menos sensible al tamaño de la muestra que chi cuadrado. El cociente de parsimonia
se refiere al número de parámetros: mientras menor sea el número necesario para especificar el
modelo más parsimonioso será. Se puede obtener un índice global de la eficacia del modelo,
multiplicando el cociente de parsimonia por una estadística de ajuste.

11
Interpretación
Es posible determinar más de un modelo que se ajuste adecuadamente a los datos; es decir,
hallar un modelo con buen ajuste no significa que ese sea el único u óptimo. Además, como hay
varios índices de ajuste para hacer comparaciones, el ajuste debe ser evaluado desde la
perspectiva de estadísticas múltiples simultáneamente. Cuando un AFCO no logra ajustar la
estructura observada con la teórica, el investigador puede evaluar modos de mejorar el modelo,
explorando cuáles parámetros fijos podría liberar y cuáles liberados podría fijar. Los programas
permiten cambiar los parámetros uno por uno, para determinar cuáles cambios mejoran más el
ajuste del modelo.

Análisis factorial confirmatorio con datos ordinales


(Flora y Curran, 2004)
El análisis factorial confirmatorio (AFCO) se usa ampliamente para examinar relaciones
hipotéticas entre variables ordinales (por ejemplo, ítems tipo Likert). Un método teóricamente
apropiado ajusta el modelo a correlaciones policóricas usando el método de mínimos cuadrados
ponderados (MCP) en dos versiones: completo o robusto. Este enfoque supone que un proceso
latente continuo y normal determina cada variable observada. La estimación de correlaciones
policóricas es robusta con violaciones menores de la normalidad. MCP completo se desempeña
bien solo con muestras grandes, mientras que MCP robusto se desempeña bien en todas las
condiciones.
Una situación típica es el desarrollo de una prueba psicométrica que usa un conjunto de
ítems ordinales para evaluar uno o más constructos psicológicos. Aunque cada ítem es diseñado
para medir un constructo teóricamente continuo, las respuestas observadas son manifestaciones
discretas de cierto número de categorías. Con frecuencia se aplican métodos estadísticos que
suponen distribuciones continuas a mediciones observadas con escalas ordinales. En tales
circunstancias hay un potencial de incompatibilidad, entre supuestos y observaciones, que
afecta la validez de las conclusiones extraídas de los datos.
AFCO es un miembro de la familia de modelos de ecuaciones estructurales (MEE), cuyo
método de estimación más popular es máxima verosimilitud (MV), que supone variables
distribuidas continua y normalmente. Este supuesto no se cumple cuando los datos son
discretos (como las escalas ordinales). Hay muchas interrogantes acerca de la precisión, la
validez y la existencia de lineamientos empíricamente informados para el uso de MEE, en las
condiciones típicas de la investigación de la conducta.

Modelos de ecuaciones estructurales


La meta general de un MEE es probar la hipótesis de que la matriz de covarianza observada en
un conjunto de variables es igual a la matriz de covarianza derivada de un modelo hipotético. El
vector de parámetros del modelo define la forma de un MEE particular, mediante la
especificación de medias e intersecciones, varianzas y covarianzas, parámetros de regresión y
cargas factoriales.
En AFCO la matriz de covarianza hipotética es una función de una matriz de varianzas y
covarianzas entre factores latentes, una matriz de cargas factoriales y una matriz de errores de
medición. Los supuestos usuales son: (1) el modelo fue especificado apropiadamente (el modelo

12
hipotético corresponde al que existe en la población), (2) la matriz de errores de medición es
independiente del vector de factores latentes y (3) los errores de medición no están
correlacionados.
MV es el método más utilizado para calcular los parámetros del modelo. Además de los
supuestos usuales de AFCO, MV supone que la matriz de covarianza de la muestra es calculada
a partir de variables continuas normalmente distribuidas. Dados un tamaño de muestra
adecuado, una especificación apropiada del modelo y datos distribuidos de manera
multivariadamente normal (o, más específicamente, sin curtósis multivariada), MV proporciona
parámetros consistentes, eficientes e insesgados, errores estándar asintóticos y una prueba
general de ajuste del modelo.
En muchas aplicaciones de las ciencias conductuales las variables observadas no se
distribuyen continuamente; estrictamente hablando, las mediciones son discretas, pero se habla
de categorizaciones de una distribución teóricamente continua que resultan en un pequeño
número de grados discretos. Las variables suelen observarse en una escala de medición
dicotómica u ordinal. MV, basado en la correlación producto-momento muestral o una matriz
de covarianza entre variables ordinales, no se desempeña bien, especialmente, cuando el
número de categorías es pequeño (cinco o menos). La estadística chi-cuadrado resulta inflada,
los parámetros son subestimados y los errores estándar tienden a ser sesgados hacia abajo. Un
enfoque alternativo es el análisis de correlaciones policóricas.

Correlaciones policóricas
La correlación policórica mide la relación lineal entre dos variables continuas no observadas, a
partir de datos ordinales. Su cálculo se basa en la premisa de que los valores discretos
observados se deben a una distribución continua subyacente no observada (distribución de
respuesta latente).
Las correlaciones policóricas se calculan típicamente mediante un procedimiento de dos
etapas: (1) se usan las proporciones observadas en cada categoría ordinal (las proporciones
marginales acumuladas de la tabla de contingencia) para calcular los parámetros de cada
variable latente (mediante la función de distribución normal acumulada estándar) y (2) se usan
estos parámetros en combinación con la tabla de contingencia bivariada observada para
calcular, mediante MV, la correlación que se habría obtenido si las dos variables latentes
hubieran sido observadas directamente.
Un supuesto clave es que el par de variables latentes tiene una distribución bivariada
normal, lo cual es evidente en el uso de la distribución normal estándar para el cálculo de los
parámetros. Aunque el supuesto de normalidad ha sido criticado (poco realista en la práctica),
algunos investigadores defienden su conveniencia práctica: por sus conocidas propiedades
matemáticas, facilita el cálculo de la correlación. Si las distribuciones continuas latentes
correlacionan se esperaría ver evidencia de esa correlación en la tabla de contingencia
observada. Se ha encontrado que la correlación policórica sobrestima la correlación verdadera
entre dos variables latentes no normales, aunque en un grado pequeño y la estimación es
insesgada con violaciones menores de la normalidad.

13
Mínimos cuadrados ponderados
La simple sustitución de una matriz de correlaciones policóricas por la matriz muestral de
covarianzas producto-momento, en la usual función de estimación MV, es inapropiada: aunque
genera estimaciones consistentes de parámetros, produce estadísticos y errores estándar
incorrectos. Se ha desarrollado un método MCP completo para calcular una matriz ponderada,
con base en varianzas y covarianzas asintóticas de correlaciones policóricas, que puede ser
usada junto con una matriz de correlaciones policóricas en un MEE. Sin embargo, hay dos
limitaciones potenciales en las aplicaciones AFCO con datos ordinales: (1) los estadísticos y
errores estándar podrían ser afectados por sesgos en la matriz de covarianza asintótica
introducidos por variables latentes no normales y (2) las dimensiones de la matriz ponderada
óptima suelen ser excesivas y crecen rápidamente en función del número de indicadores del
modelo. El cálculo de los valores asintóticos requiere un gran tamaño de muestra para producir
estimaciones estables; se ha propuesto un mínimo de (k+1)(k+2)/2, donde k es el número de
indicadores.
Ante los problemas de usar MCP completo con muestras pequeñas se ha desarrollado un
enfoque denominado MCP robusto. Las estimaciones de parámetros se obtienen sustituyendo la
matriz ponderada por una matriz diagonal con varianzas asintóticas de los parámetros y
estimaciones de correlaciones policóricas (es decir, los elementos de la diagonal de la matriz
ponderada original). Una vez obtenido el vector de parámetros, se usa la matriz robusta de
covarianza asintótica para obtener los errores estándar. En este método, los grados de libertad
se determinan a partir de los datos empíricos, en lugar de las especificaciones del modelo, y la
prueba de ajuste consiste en una estadística chi-cuadrado ajustada.

Discusión y conclusiones
Las correlaciones policóricas entre variables ordinales producen estimaciones precisas de las
relaciones entre variables latentes distribuidas normalmente. Las violaciones menores de la
normalidad, en una medida que pudiera esperarse en la investigación aplicada, conducen a
estimaciones ligeramente sesgadas de las correlaciones policóricas (menos de 0,03 en la medida
de la correlación). La no-normalidad en las variables latentes, combinada con los valores de
umbrales usados para categorizar los datos, no produce tablas de contingencia con bajas
frecuencias esperadas en las celdas.
Cuando se ajustan modelos AFCO, usando matrices de correlaciones policóricas
observadas, el MCP completo produce coeficientes chi-cuadrado y errores estándar
correctamente asintóticos (aunque tiende a inflar los primeros y a subestimar los segundos, lo
cual se agrava con modelos más complejos y muestras menores). El MCP completo es
problemático en estimaciones de modelos con un gran número de indicadores a partir de
muestras pequeñas (aun con una muestra de 200 puede no lograrse una solución AFCO
apropiada). El MCP robusto permite obtener soluciones apropiadas aunque el modelo sea
complejo y la muestra pequeña. Aunque los estadísticos de ajuste producidos con un MCP
robusto tienden también a ser sesgados positivamente, los sesgos son sustancialmente menores
que los observados con un MCP completo. Con ambos métodos (completo y robusto), mientras
más se alejen de la normalidad las variables latentes mayores serán los sesgos positivos en las
estimaciones de parámetros AFCO.

14
Tres conclusiones generales:

1. La estimación de modelos AFCO es robusta ante violaciones moderadas del supuesto de


normalidad. Como las correlaciones policóricas producen estimaciones robustas de la
verdadera correlación, aun con diferentes conjuntos de umbrales para categorizar la
variables, la estimación de modelos AFCO no se ve afectada sustancialmente si los umbrales
son o no constantes entre los indicadores.
2. En la medida en que las variables ordinales observadas tengan asimetría y curtósis
diferentes de cero (por ejemplo, que los umbrales conduzcan a una forma de distribución
muy diferente de la variable observada con respecto a la normal), un MCP completo
produce estadísticos chi-cuadrado y errores estándar sesgados. Esto se debe a una tendencia
creciente de baja frecuencia esperada en las tablas de contingencia, especialmente con
muestras pequeñas (por ejemplo, menos de 1.000).
3. Cuando las variables poblacionales son extremadamente no-normales (por ejemplo,
asimetría=5 y curtósis=50) el resultado probable es que las variables ordinales observadas
tengan grados exagerados de asimetría y curtósis que llevan, de nuevo, a bajas frecuencias
esperadas en las tablas de contingencia. En la medida en que el efecto conjunto de la no-
normalidad y la variedad de umbrales entre indicadores produzca tablas de contingencia
observadas con baja (o cero) frecuencia esperada en las celdas, lo más probable es obtener
correlaciones policóricas imprecisas que, a su vez, afectarán la estimación de modelos
AFCO.

Referencias
• Bandalos, D.L. y M.R. Boehm-Kaufman (2009): "Four common misconceptions in
exploratory factor analysis". En C.E. Lance y R.J. Vandenberg (eds.): Statistical and
methodological myths and urban legends: doctrine, verity and fable in the organizational and social
sciences. Nueva York: Routledge.
• Benson, J. y F. Nasser (1998): "On the use of factor analysis as a research tool". Journal of
Vocational Research. Vol. 23. No. 1, 13-23.
• Costello, A.B. y J.W. Osborne (2005): "Best practices in exploratory factor analysis: four
recomendations for getting the most from your analysis". Practical Assessment, Research &
Evaluation. Vol. 10. No. 7, 1-9.
• Flora, D.B. y P.J. Curran (2004): An empirical evaluation of alternative methods of
estimation for confirmatory factor analysis with ordinal data". Psychological Methods. Vol. 9.
No. 4, 466-491.
• Stapleton, C.D. (1997): "Basic concepts and procedures of confirmatory factor analysis".
Ponencia presentada en la reunión anual de la Southwest Educational Research Association,
Austin, enero.
• Suhr, D.D. (2006): "Exploratory or Confirmatory Factor Analysis?". Paper 200-31.
Proceedings of the Thirty-first Annual SAS® Users Group International Conference. San
Francisco, California, marzo 26-29. Cary: SAS Institute Inc.

15

También podría gustarte