acido con el siglo XX, el anlisis factorial (AF) se
ha desarrollado considerablemente a lo largo de
sus ms de 100 aos de existencia. El sencillo mo- delo inicial propuesto por Spearman (1904) para validar su teora de la inteligencia ha dado lugar a una amplia familia de modelos que se utilizan no slo en ciencias so- ciales, sino tambin en otros dominios como Biologa o Economa. Dado que un tratamiento completo del AF ex- cedera con mucho las posibilidades de este artculo, con- viene delimitar primero qu temas se van a tratar. Desde hace aos el primer autor revisa trabajos emp- ricos en los que se emplea el AF en la investigacin psi- colgica, y la experiencia adquirida servir para establecer las primeras delimitaciones. En primer lugar, la mayor parte de los estudios factoriales en psicologa utilizan el AF para evaluar (a) la estructura de un test a partir de las puntuaciones en sus tems, o (b) hiptesis de tipo dimensional utilizando como medidas puntuaciones en diferentes tests. Parece razonable, por tanto, centrar la exposicin en este tipo de medidas: puntuaciones en tems o tests. En segundo lugar, la experiencia indica que los proble- mas metodolgicos en estos estudios son casi siempre los mismos. Un primer grupo de problemas surge en la eta- pa del diseo de la investigacin (etapa generalmente descuidada en los estudios factoriales). Los problemas del segundo grupo se refieren a las decisiones que debe tomar el investigador en la etapa de estimacin y ajuste del modelo y en la de rotacin. En particular, la mayor parte de los problemas se deben al empleo injustificado del pack conocido como Little Jiffy: Componentes principales - valores propios mayores que uno - rotacin Varimax. Dedicaremos especial atencin al diseo y a la estimacin y ajuste del modelo. An con estas delimitaciones, el tema sigue siendo de- masiado amplio. En este artculo nos centraremos tan s- lo en el modelo general ms bsico de AF: el modelo lineal, basado en correlaciones, y que analiza medidas obtenidas en un solo grupo de sujetos y en una sola oca- sin. Esta limitacin deja fuera temas de gran inters: los modelos extendidos de medias y covarianzas, los mode- EL AN LISIS FACTORIAL COMO TCN ICA DE IN VESTIGACIN EN PSICOLOGA Pere J oan Ferrando y Cristina Anguiano-Carrasco Centro de investigacin para la evaluacin y medida de la conducta. Universidad 'Rovira i Virgili' El presente texto explica los principales aspectos del anlisis factorial como instrumento de investigacin psicolgica. Se revisan en primer lugar los aspectos bsicos a nivel conceptual, de modo que su lectura sea adecuada tanto para el lector principiante como para aquellos que quieran profundizar ms en sus conocimientos de la tcnica. Despus, se discuten con cierto detalle las diferencias entre el anlisis exploratorio y confirmatorio, y los procedimientos para estimar el modelo y obtener la solucin transformada. Estos puntos se discuten siguiendo cada una de las etapas recomendadas en una investigacin: desde el diseo y recogida de datos hasta la interpretacin de la solucin final. Finalmente, se explica el funcionamiento del programa Factor, un programa ms completo que la mayor parte de los programas comerciales, y que adems es de distribucin libre. Adicionalmente, se propone al lector la realiza- cin de un ejercicio resuelto, a modo de prctica para la aplicacin de lo expuesto en el texto. Palabras clave: Anlisis factorial exploratorio, Anlisis factorial confirmatorio, Componentes principales, Programa de ordenador FACTOR The present text explains the main aspects of factor analysis as a tool in psychological research. First, the basic issues are revised at a conceptual level, so that the review is appropriate for beginners as well as for those who want an in deep knowledge of the techni- que. Next, the differences between exploratory and confirmatory analysis as well as the procedures for fitting the model and transfor- ming the initial solution are discussed in detail. These issues are discussed according to the recommended steps in a factor-analytic research: from the design and data collection to the interpretation of the final solution. Finally, the functioning of the Factor pro- gram is explained. Factor is more complete than most commercial programs, and is also freely distributed. Additionally, a solved exercise is proposed as a practice to apply the material discussed in the text. Key words: Exploratory factor analysis, Confirmatory factor analysis, Principal components, FACTOR computer program Correspondencia: Pere Joan Ferrando. Universidad 'Rovira i Vir- gili'. Facultad de Psicologia. Carretera Valls s/n. 43007 Tarra- gona. Espaa. E-mail: perejoan.ferrando@.urv.cat S e c c i n M o n o g r f i c a 18 Papeles del Psiclogo, 2010. Vol. 31(1), pp. 18-33 http://www.cop.es/papeles N S e c c i n M o n o g r f i c a 19 los no-lineales y sus relaciones con la teora de respuesta al tem, y los modelos para grupos mltiples y mltiples ocasiones. Tampoco podremos entrar en el tema general de las puntuaciones factoriales. El enfoque del artculo es conceptual y aplicado, y se ha tratado de reducir el formalismo al mximo. Slo se inclu- yen las ecuaciones bsicas del modelo y se presentan en cuadros de texto aparte. Asimismo, se ha tratado de redu- cir al mnimo el nmero de referencias, y, en cambio, se ha propuesto un apartado de lecturas recomendadas. En este sentido, debemos advertir que algunos de los tpicos discu- tidos son controvertidos, y que las recomendaciones refle- jan la posicin de los autores. El apartado de lecturas puede servir para que el lector vea otras posiciones y eva- le crticamente lo que le decimos aqu. LAS IDEAS BSICAS DEL AN LISIS FACTORIAL El AF es un modelo estadstico que representa las rela- ciones entre un conjunto de variables. Plantea que estas relaciones pueden explicarse a partir de una serie de va- riables no observables (latentes) denominadas factores, siendo el nmero de factores substancialmente menor que el de variables. El modelo se obtiene directamente como extensin de algunas de las ideas bsicas de los modelos de regresin lineal y de correlacin parcial. Del primer modelo se derivan las ecuaciones fundamentales del AF. Del segundo se derivan las ideas clave para eva- luar el ajuste del modelo a los datos. En el modelo de regresin lineal, la puntuacin en una variable criterio puede aproximarse, o explicarse en parte, mediante una combinacin lineal (una suma de variables multiplicadas cada una de ellas por un peso o coeficiente) de una serie de variables predictoras o explicativas deno- minadas regresores. Se asume explcitamente que la com- binacin es tan slo una aproximacin, y que una parte de la puntuacin del criterio no podr ser predicha o ex- plicada desde los regresores. Esta parte no explicada es el trmino de error (vase ec. 1 en el cuadro). En el AF se analiza un conjunto de variables observa- bles (tems, subtests o tests) cada una de las cuales pue- de considerarse como un criterio. As entendido, el AF consiste en un sistema de ecuaciones de regresin como la descrita arriba (una ecuacin para cada variable ob- servable) en el que los regresores, denominados aqu factores, son comunes para un subconjunto (factores co- munes) o todo el conjunto (factores generales) de varia- bles (vase ec. 2 en el cuadro). Para cada una de estas ecuaciones la diferencia bsica entre el AF y una regre- sin convencional es que los regresores, es decir los fac- tores, no son observables. Esta diferencia es la que hace que el AF sea un modelo ms complejo que el de regre- sin. Para empezar, al ser los factores no observables, carecen de una escala de medida o mtrica determina- da. Para resolver esta indeterminacin, la prctica ms simple, que seguiremos aqu, consiste en asumir que los factores estn en escala tpica: media cero y varianza uno. Si, adems, las variables observables tambin estn en escala tpica, el modelo es ms simple matemtica- mente y ms fcilmente interpretable. Por analoga con el modelo de regresin, se sigue que el modelo AF ms sencillo es aquel que plantea un solo factor general (ec. 3). Este modelo sera equivalente al de regresin simple, y fue el modelo AF inicial que plan- te Spearman. Para empezar a fijar ideas vamos a estu- diar una solucin de Spearman basada en el AF de un conjunto de 4 tems, junto con su representacin en un diagrama de Wright. Para la elaboracin de estos dia- gramas, el lector puede consultar el artculo de Ruz, Par- do y San Martn en el presente volumen. Representado grficamente sera: PERE JOAN FERRANDO Y CRISTINA ANGUIANO-CARRASCO S e c c i n M o n o g r f i c a 20 La ecuacin AF para el tem 1 es: Que se interpreta como sigue. La puntuacin del indivi- duo i en el tem 1 viene en parte determinada por el efecto del factor comn (el nivel de i en el factor comn f) y en parte es error. En AF el trmino de error incluye to- dos aquellos efectos distintos al factor o factores comu- nes que influyen en la puntuacin en la variable observada. De forma ms sistemtica, podemos distin- guir tres grandes grupos de efectos o tipos de error: (a) el error de muestreo (error estadstico), (b) el error de medida (error psicomtrico) y (c) el error de aproxima- cin. Este ltimo componente de error significa que el modelo especificado no se considera exactamente co- rrecto ni siquiera en la poblacin. En efecto, los modelos no son, ni pretenden serlo, exactos. Son, en el mejor de los casos, aproximaciones razonables a la realidad. El valor 0.6 es el peso factorial y equivale a la pendien- te en el modelo de regresin. Si las puntuaciones del tem y del factor estn en escala tpica, este peso refleja la importancia que tiene el factor en la determinacin de la puntuacin en este tem. Cuanto mayor el peso, mayor la importancia del factor, y, por tanto, menor la influen- cia del error. Adems, en la escala tpica asumida, este peso puede interpretarse como la correlacin entre el factor y el tem. Su cuadrado, que es el coeficiente de determinacin, se interpreta como la proporcin de va- rianza en las puntuaciones de este tem que puede expli- carse desde el factor. As pues, de acuerdo con nuestra solucin estimada, el tem 1 correlacionara 0.6 con el factor general; dicho factor explicara el 36%de la va- rianza de las puntuaciones en este tem (0.6 2 =0.36) y, por tanto, el 64%restante sera varianza de error. En la terminologa AF la proporcin de varianza explicada re- cibe el nombre de comunalidad. Antes de seguir adelante, podra ser de inters como ejercicio que el lector interpretara la ecuacin AF corres- pondiente a otro tem, digamos el tem 2. Asimismo, es muy importante tener en cuenta que las interpretaciones anteriores slo son vlidas si variables y factor estn en escala tpica. De no ser as, el peso no tiene una inter- pretacin clara, ya que refleja entonces en mayor o me- nor grado las diferencias en la escala de medida de las variables. Al interpretar el output de un AF, es pues esencial asegurarse de que la solucin que se interpreta es una solucin tipificada. Cuando se plantea ms de un factor, tenemos el modelo AF mltiple, conocido tambin como modelo de Thurstone (1947), su principal impulsor. El modelo es el mismo para cualquier nmero de factores y, por simplicidad, lo explicare- mos con dos. El aspecto clave aqu es la relacin que se plan- tea entre los factores. Al igual que en regresin, el caso ms simple y fcilmente interpretable es aquel en que los factores estn incorrelados (conceptualmente, que son independientes entre s). Una solucin de este tipo se denomina solucin or- togonal. En una solucin ortogonal los pesos factoriales si- guen siendo interpretables como correlaciones variable-factor, sus cuadrados son proporciones de varianza explicada por el correspondiente factor y la suma de estos cuadrados es la co- munalidad (vanse ecs. 4 y 5) o la proporcin de varianza que explican conjuntamente los factores . El caso de factores correlacionados, denominado solu- cin oblicua es el ms complejo, pero posiblemente tam- bin el ms realista en la prctica. El aspecto ms importante a la hora de interpretar una solucin de este ti- po es que ahora los pesos y las correlaciones variable-fac- tor son coeficientes distintos. Al igual que en teora de la regresin lineal, los pesos factoriales son ahora coeficientes de regresin estandarizados y miden el efecto del factor sobre la variable de respuesta cuando los dems factores permanecen constantes. Estos pesos se presentan en la ma- triz denominada patrn factorial. Por otra parte, las co- rrelaciones variable-factor se denominan coeficientes estructurales, y se presentan en la matriz denominada es- tructura factorial. Las ecuaciones correspondientes a los pesos y coeficientes estructurales se presentan en el cuadro que sigue abajo. Conceptualmente, los pesos indican hasta qu punto influye el factor en la variable, en tanto que los coeficientes estructurales indican hasta qu punto se pare- cen el factor y la variable. En el caso de soluciones obli- cuas, en este captulo nos centraremos sobre todo en los pesos, es decir la matriz patrn. EL ANLISIS FACTORIAL COMO TCNICA DE INVESTIGACIN EN PSICOLOGA S e c c i n M o n o g r f i c a 21 En la ecuacin (8) s j1 es el coeficiente estructural (co- rrelacin variable-factor) y es la correlacin entre fac- tores. Veamos ahora un ejemplo de solucin ortogonal mlti- ple con 6 tems y dos factores: La representacin grfica es: Diagrama de Wright para dos factores comunes incorrelados. Si tomamos como ejemplo el tem 2, obtenemos la si- guiente ecuacin: Esta ecuacin nos indica que la puntuacin del sujeto i en el tem 2, adems de por el error, viene determinada principalmente por el segundo factor (0.85), y, en menor medida, por el primero (0.31). En este caso para expli- car la comunalidad (o varianza explicada) se sumaran los cuadrados de los pesos en ambos factores de modo que para el tem 2, obteniendo la parte de la varianza explicada por am- bos factores. Restndola de uno obtenemos que la va- rianza de error es 0.18. En trminos de proporciones, entre los dos factores explican un 82%de la varianza to- tal (comunalidad) y el 18%restante sera error. Para el lector que lo desee sera interesante que realizara la in- terpretacin de otro tem, por ejemplo el 5. A continuacin mostramos una solucin oblicua (pa- trn) obtenida con los mismos datos. La correlacin esti- mada entre factores fue de 0.40. Con respecto a la solucin ortogonal se aprecia que es ms clara y simple (los pesos menores son ahora ms cercanos a cero). Esto es lo que se observa generalmente al comparar ambos tipos de soluciones. El diagrama correspondiente sera ahora: Diagrama de Wright para dos factores comunes correlados. En este ejemplo vamos a trabajar con el tem 4. Su ecuacin bsica tiene la misma forma que en el caso or- togonal: Pero su interpretacin es distinta, ya que los pesos (efecto del factor sobre la variable) y las correlaciones variable-factor son medidas distintas. As el peso corres- pondiente al primer factor es 0.78. Sin embargo, la co- rrelacin entre la variable y este factor, es decir, el coeficiente estructural debe obtenerse como: PERE JOAN FERRANDO Y CRISTINA ANGUIANO-CARRASCO S e c c i n M o n o g r f i c a 22 El lector que desee practicar puede realizar los clculos correspondientes al tem 1. Pasamos ahora a las aportaciones del modelo de co- rrelacin parcial. La ecuacin bsica se presenta en el cuadro siguiente para el modelo de Spearman y se basa en los resultados previos discutidos arriba. La ecuacin (11) indica que, si el modelo es correcto, la correlacin parcial entre cualquier par de variables des- pus de eliminar de ambas la influencia del factor gene- ral es cero. El numerador de la correlacin parcial es la diferencia entre la correlacin observada entre las dos variables y la correlacin reproducida desde el modelo y recibe el nombre de correlacin residual. As, si el mo- delo es correcto, la correlacin observada y la reprodu- cida son iguales y el residual cero. Conceptualmente este resultado se interpreta como que lo nico que tienen en comn las variables es el factor general que miden, por lo que, al eliminar esta causa comn ya no hay nada que las relacione. El caso mltiple es ms complejo pero la idea esencial es la misma. Si el modelo es correcto, y las variables tienen solo mfactores en comn, entonces la correlacin parcial entre cualquier par de variables tras eliminar la influencia de estos factores comunes de- be ser cero. Ms que un resultado, esto es un principio de importancia bsica. Sugiere que la va ms directa para evaluar si el modelo AF es apropiado deber ba- sarse en la evaluacin de los residuales tras estimar el nmero propuesto de factores. Globalmente, la mayor parte de las caractersticas del modelo expuesto hasta ahora vienen dictadas por el principio de parsimonia (Carroll, 1978). La parsimonia dicta que las ecuaciones del modelo sean lineales y por tanto lo ms simples posible. Este principio recomienda tambin establecer una distincin clara entre varianza comn (comunalidad) y varianza de error. Finalmente, el principio de parsimonia sugiere que el nmero de facto- res comunes debe ser considerablemente menor que el de variables. No se ganara nada, en efecto, interpre- tando una solucin con tantos factores como variables. La determinacin del nmero de factores correcto (que sea lo bastante reducido como para ser claramente inter- pretable y lo bastante completo como para dar cuenta de las relaciones entre variables) es, posiblemente, la de- cisin mas importante del AF (Thurstone, 1947). AN LISIS FACTORIAL EXPLORATORIO Y AN LISIS FACTORIAL CON FIRMATORIO En la literatura (e.g. Mulaik, 1972) se distinguen de for- ma muy marcada dos tipos de anlisis factorial: el anli- sis factorial exploratorio (AFE) y el anlisis factorial confirmatorio (AFC). En nuestra opinin esta distincin no es tan clara como se presenta en los textos y, ade- ms, plantea una serie de problemas. En primer lugar, en la distincin AFE-AFC se mezclan dos conceptos: (a) la finalidad con la que se lleva a cabo el anlisis y (b) el modelo que se pone a prueba. En segundo lugar, tanto para (a) como para (b) el AFE y el AFC no son dos cate- goras cualitativamente distintas sino que son, ms bien, los dos polos de un continuo. Tal y como se entiende tradicionalmente, en un anlisis puramente exploratorio el investigador analizara un conjunto de datos sin tener ninguna hiptesis previa acerca de su estructura, y dejara que fuesen los resulta- dos del anlisis los que le proporcionasen informacin al respecto. Por otra parte, en un AFC el investigador ha- bra planteado una serie de hiptesis bien especificadas que pondra a prueba evaluando el ajuste de un modelo. Estas hiptesis seran de tres tipos: (a) nmero de facto- res, (b) patrn de relaciones entre las variables y los fac- tores, y (c) relaciones entre los factores. En las primeras tentativas para evaluar un fenmeno nuevo, una postura puramente exploratoria como la que hemos descrito arriba sera aceptable. Sin embargo no parece la ms adecuada cuando analizamos un test que hemos desarrollado o adaptado nosotros mismos. En es- te caso, es razonable suponer que tendremos una serie de hiptesis previas acerca del nmero de dimensiones que pretende medir el test, de cuales son los tems que pretenden medir una u otra dimensin, y de si dichas di- mensiones son o no independientes segn la teora. Posi- blemente, sin embargo, estas hiptesis no sean an lo suficientemente fuertes como para especificar un modelo AFC tal como se plantea habitualmente. As pues, en cuanto a la finalidad, es til considerar que la mayor parte de las aplicaciones psicomtricas del AF se encon- trarn en algn punto intermedio. En cuanto al tipo de modelo que se pone a prueba, las distinciones se refieren aqu al grado de restriccin en la solucin propuesta. En un AFE las restricciones impues- EL ANLISIS FACTORIAL COMO TCNICA DE INVESTIGACIN EN PSICOLOGA S e c c i n M o n o g r f i c a 23 tas son las mnimas que se necesitan para obtener una solucin inicial, solucin que luego puede ser transfor- mada. En un AFC las restricciones son mucho ms fuer- tes y permiten poner a prueba una solucin nica que no es susceptible de posterior transformacin. La finalidad con que se lleva a cabo el anlisis y el tipo de modelo que se pone a prueba no son conceptos independientes. Cuanto mayor informacin previa se tenga y ms fuertes sean las hiptesis, ms especificada estar la solucin puesta a prueba y mayor ser el nmero de restricciones impuestas a dicha solucin. Sin embargo, an admitien- do esta clara relacin, la distincin entre AF restricto y AF no restricto nos parecera ms apropiada que la de AFE y AFC para referirnos al tipo de modelo que se po- ne a prueba. En un AFC, tal como se usa habitualmente, las restric- ciones acerca del nmero de factores comunes as como las relaciones entre ellos son similares a las que se plan- tean en un AFE. Generalmente las correlaciones entre los factores se estiman libremente. Las diferencias principa- les se refieren a las restricciones que se imponen al pa- trn factorial. La solucin que se propone casi siempre es una solucin denominada de conglomerados indepen- dientes (McDonald, 1985) que sigue el principio de es- tructura simple. En dicha solucin cada variable tiene una carga no nula en un solo factor comn siendo cero las cargas en los restantes factores. Una solucin de este tipo se presenta a continuacin donde el asterisco indica que el peso correspondiente se estima como parmetro libre. En esta solucin hipot- tica, los tres primeros tems serian medidas puras del se- gundo factor y tendran pesos nulos en el primero. Por otra parte los tres ltimos tems seran medidas puras del primer factor. Las soluciones de este tipo son tericamen- te ideales. Tienen la mxima simplicidad estructural posi- ble y permiten interpretar el contenido de cada factor sin ambigedades. Veamos ahora, en contraste, una solucin exploratoria obtenida a partir del anlisis de estos 6 tems. Se obtuvo de un AFE en el que se propusieron dos factores comu- nes. La solucin inicial arbitraria se transform a una so- lucin oblicua ya que, en teora, los dos factores se consideraban relacionados. Es el patrn que habamos presentado antes Es desde luego bastante clara, y el ajuste del modelo bifactorial fue bueno. Parece bastante evidente que los tres primeros tems miden principalmente f 2 y los tres l- timos f 1 . Sin embargo, son lo bastante limpios estos tems como para ajustarse bien a la hipottica solucin anterior? Si evaluamos la adecuacin de los datos a la solucin hipottica presentada arriba, es decir, ajustamos un AFC convencional a estos tems, lo que estamos planteando es que cada uno de ellos es una medida pura de un solo factor y, por tanto, que los pesos menores que aparecen en la solucin AFE son debidos tan slo a error de mues- treo y son, por tanto, compatibles con valores exacta- mente de cero en la poblacin. El problema con este planteamiento es que, en el mun- do real, la mayor parte de los tems (y de los tests) no son medidas factorialmente puras. Con esfuerzo y tras un proceso de seleccin es posible llegar a obtener algu- nos tems que son medidas (casi) puras. Estos tems se denominan marcadores o indicadores en el lenguaje del AF. Sin embargo la pretensin que todos los tems de un test sean marcadores nos parece una hiptesis poco realista. Si aceptamos la idea de que en la mayor parte de los AF muchos de los tems son factorialmente complejos, deberemos concluir que la hiptesis estructural ms habi- tual en un AFC es falsa y que, por tanto, el modelo no ajustar bien. Ms en detalle, si los pesos menores (estos que estn en torno a 0.20 o por debajo) son menores pero no nulos, cada vez que fijamos uno de ellos a cero PERE JOAN FERRANDO Y CRISTINA ANGUIANO-CARRASCO S e c c i n M o n o g r f i c a 24 cometemos un error de especificacin del modelo. Si el modelo tiene pocos tems, como en el ejemplo, quizs an podamos llegar a un ajuste aceptable. Sin embargo, en modelos ms grandes, la acumulacin de los errores llevar necesariamente a ajustes inaceptables. Este razo- namiento explica dos resultados que preocupan bastante en el campo aplicado (e.g. McCrae, et al. 1996). El pri- mero es que estructuras factoriales obtenidas mediante AFE que son claras, interpretables y replicables a travs de diferentes estudios, muestran ajustes inadmisibles cuando se evalan mediante AFC. El segundo es que es ms fcil obtener malos ajustes cuando se analizan cues- tionarios de tamao realista que cuando se analizan grupos muy reducidos de tems. El primer resultado pue- de provocar en el investigador una desconfianza con respecto al AF. El segundo puede llevar a prcticas poco recomendables y a la eliminacin innecesaria de tems. Nuestra posicin puede resumirse as. En el anlisis de tems y tests, creemos que el AF debe venir guiado por la teora previa. Esta teora permitir plantear hiptesis acerca del nmero de factores, del patrn (aproximado) que se espera encontrar, y de si los factores estn o no relacionados. Sin embargo, generalmente, el conoci- miento previo no ser suficiente para especificar un mo- delo confirmatorio. Lo que proponemos es utilizar un modelo no restricto (exploratorio) pero con una finalidad confirmatoria hasta donde se pueda. Es decir, estimar una solucin en la que se especifique el nmero de fac- tores (o por lo menos un rango de valores) y tambin si estos factores son o no independientes. Adems, debe tenerse una idea ms o menos clara de cmo ha de ser el patrn transformado que se obtendr. Por supuesto, si la investigacin est lo bastante avanzada como para plantear una solucin restricta, o todos los tems son ex- cepcionalmente simples, entonces el AFC es el modelo a usar. EL DISE O DE UN A IN VESTIGACIN BASADA EN EL AN LISIS FACTORIAL Como en cualquier anlisis estadstico, para que los re- sultados obtenidos mediante AF sean vlidos, interpreta- bles y generalizables, se requiere el cumplimiento de algunas condiciones bsicas en el diseo de la investiga- cin. Para ver la importancia de este punto en nuestro caso, es til considerar el AF como un anlisis a dos ni- veles. En el primer nivel se calculan las correlaciones en- tre una serie de medidas. En el segundo se analiza la estructura de dichas correlaciones. Si los resultados fa- llan ya en el primer nivel, nunca podrn ser correctos en el segundo. Por razones de claridad, discutiremos sepa- radamente los dos aspectos bsicos en el diseo: la muestra y las variables. MUESTRA En cualquier estudio factorial, y ms an en aquellos en que se desarrolla o adapta un test, debe tenerse una idea relativamente clara de la poblacin de inters. Por tanto, el AF debera basarse una muestra representativa de esta poblacin. Es muy habitual, sin embargo, utilizar muestras de conveniencia (generalmente estudiantes uni- versitarios). Aparte de la no-representatividad, el proble- ma estadstico ms importante aqu es el de atenuacin por restriccin de rango. Si la muestra es muy homog- nea en las variables a analizar (es decir, si las puntua- ciones en los tems/ tests tienen poca variabilidad), las correlaciones obtenidas en el primer nivel del AF, esta- rn atenuadas. La matriz de correlaciones tendr enton- ces mucho ms ruido que seal y ser difcil obtener una solucin clara en el segundo nivel. Posiblemente, el problema ms discutido en AF en rela- cin a la muestra es el de la estabilidad de la solucin (Cunta muestra se necesita para que una solucin sea estable y generalizable?). Este es un problema complejo. La estabilidad de una solucin factorial depende conjun- tamente de tres factores: (a) el tamao de muestra, (b) El grado de determinacin de los factores y (c) la comunali- dad de las variables. De forma que, si los factores estn bien determinados y las variables tienen poco error de medida se podrn alcanzar soluciones estables con rela- tivamente poca muestra. En este sentido queremos ad- vertir que las recetas tradicionales tipo: 10 veces ms sujetos que variables, etc. no tienen una base slida. Las medidas utilizadas habitualmente en psicologa: tests y sobre todo tems, contienen intrnsecamente mu- cho error de medida. Habr que aceptar pues que las comunalidades sern generalmente bajas y, por tanto, se deber actuar principalmente sobre los puntos (a) y (b). Con respecto al punto (b), que se discute con detalle ms abajo, la idea de determinacin de un factor refiere al nmero de variables que tienen pesos elevados en di- cho factor. De otra forma, hasta qu punto el factor est bien definido y claramente medido por un buen nmero de indicadores. Con respecto al punto (a) es adecuado de nuevo pensar a doble nivel. Los resultados del an- lisis al segundo nivel slo podrn ser estables si lo son las correlaciones en que se basan. Y las correlaciones EL ANLISIS FACTORIAL COMO TCNICA DE INVESTIGACIN EN PSICOLOGA S e c c i n M o n o g r f i c a 25 tienen fluctuaciones muestrales altas. Cabe considerar entonces una muestra de 200 observaciones como un mnimo incluso en circunstancias ideales (altas comunali- dades y factores bien determinados). VARIABLES El AF es un modelo para variables continuas e ilimita- das. Ni las puntuaciones de los tems ni las de los test lo son. Por tanto, en la mayor parte de las aplicaciones psi- colgicas el AF deber verse como un modelo aproxima- do cuya ventaja es la simplicidad. Es importante pues en primer lugar discutir en qu condiciones la aproximacin ser lo bastante buena para lo que se requiere en la prctica. El AF funciona generalmente bien cuando se analizan puntuaciones en tests y subtests. En cuanto a los tems, la aproximacin suele ser tambin aceptable cuando se usan escalas de respuesta graduada (Likert) con 5 o ms categoras. Finalmente, los tems binarios y los tems con 3 opciones y una categora central son potencialmente los que pueden presentar ms problemas. En principio recomendaramos utilizar el formato de respuesta gra- duada siempre que sea posible. Sea cual sea el tipo de respuesta, que el AF funcione bien o no depende sobre todo de la distribucin de las puntuaciones. Las distribuciones simtricas no suelen dar problemas. Por otra parte los problemas ms importan- tes suceden cuando (a) las distribuciones son marcada- mente asimtricas y (b) las asimetras van en ambas direcciones. Un ejemplo de esta situacin sera el anlisis de un test que contiene tems muy fciles e tems muy di- fciles. Las asimetras de signo contrario dan lugar a re- laciones no lineales y, por tanto, a la inadecuacin del modelo AF lineal (Ferrando, 2002). Con relacin a lo expuesto arriba, la magnitud del problema depende del tipo de variable a analizar. Con puntuaciones de tests es muy difcil que se produzcan relaciones no lineales. Con tems de Likert es un problema a tener en cuenta. Final- mente es un problema muy frecuente en tems binarios, conocido con el nombre de factores de dificultad (Mc- Donald y Alhawat, 1974). Resultados obtenidos en simulacin unidos a la propia experiencia, nos llevan a las siguientes recomendacio- nes. En el caso de tests y subtests el AF resulta casi siem- pre apropiado. En el caso de tems de respuesta graduada, el AF se espera que funcione bien si los coefi- cientes de asimetra estn todos en el intervalo entre -1 y +1. Finalmente, incluso los tems binarios pueden ajus- tarse bien por el modelo lineal si los ndices de dificultad se mueven entre 0.4 y 0.6. Cuando las variables tienen distribuciones ms extremas, es necesario generalmente recurrir a enfoques no lineales que no podemos tratar aqu. Aparte de la mtrica y la distribucin, hay otros facto- res a tener en cuenta en lo referente a las variables, so- bre todo cuando se trata de tems individuales. Como hemos dicho la fiabilidad de los tems es intrnsecamente baja. Sin embargo, debera evitarse analizar tems con fiabilidades excesivamente bajas, ya que dichos tems slo aadiran ruido a la solucin factorial. Un estudio piloto convencional en el que se evalen los ndices de discriminacin (correlaciones tem-total) o las correlacio- nes test-retest tem a tem es muy recomendable. Permite eliminar aquellos tems que slo aportan ruido y empe- zar el AF desde un input ms limpio. En los cuestionarios de rendimiento tpico (personali- dad, motivacin y actitudes), es relativamente frecuente incluir tems redundantes: aquellos que son esencialmen- te la misma cuestin redactada quizs en forma ligera- mente distinta. Estos tems se utilizan para evaluar la consistencia de los sujetos o (solapadamente) para incre- mentar la consistencia interna del test. La presencia de tems redundantes provoca siempre problemas en el AF. En efecto, los errores entre dos tems redundantes no pueden ser independientes, ya que, an despus de eli- minar los factores comunes, las respuestas siguen estan- do relacionadas debido a la semejanza de contenidos. La consecuencia es la necesidad de extraer factores adi- cionales definidos principalmente por parejas o tripletes de tems redundantes. Estos factores pueden ser difciles de identificar, sobre todo en soluciones rotadas. Un an- lisis de contenido previo puede eliminar redundancias y evitar estos problemas desde el principio. Discutiremos por ltimo el grado de determinacin de los factores. Si es posible, una buena recomendacin es la de utilizar marcadores o indicadores. Como hemos dicho antes los marcadores son, tericamente, medidas puras de un factor. En forma ms aplicada, Cattell (1988) las define como variables que, en estudios ante- riores, han mostrado ser buenas medidas de los factores que se estn evaluando. Su uso tiene principalmente dos funciones: (a) permiten identificar los factores aumentan- do su grado de determinacin y (b) permiten relacionar los resultados del estudio con estudios anteriores. Cattell (1988) recomienda utilizar como mnimo dos marcado- res por factor. PERE JOAN FERRANDO Y CRISTINA ANGUIANO-CARRASCO S e c c i n M o n o g r f i c a 26 En cuanto a la relacin entre el nmero de tems y de factores, como sabemos, cuantos ms tems existan que midan con precisin un factor, ms determinado estar dicho factor y ms estable ser la solucin. Aunque exis- tan recomendaciones divergentes (Cattell, 1988) nuestra opinin es que los mejores diseos en AF son aquellos en que se plantean pocos factores, se usan marcadores y se proponen un buen nmero de tems para medir cada factor. Tanto si se usan marcadores como si no, para identificar claramente un factor se necesitan un mnimo de 4 variables con pesos substanciales en el mismo. LAS ETAPAS DE UN AN LISIS FACTORIAL Anlisis preliminares: adecuacin de los datos De acuerdo con el planteamiento a doble nivel, parece lgico que antes de emprender un AF se utilicen indica- dores para evaluar si las correlaciones obtenidas en el primer nivel son adecuadas para ser analizadas facto- rialmente en el segundo. Estos indicadores suelen deno- minarse medidas de adecuacin muestral y su uso es muy importante como una etapa previa del AF: indicar si el AF es o no el modelo apropiado para los datos. Sin embargo, esta es la etapa que ms se pasa por alto en investigacin aplicada. Para empezar, es conveniente inspeccionar los estads- ticos descriptivos de las variables de acuerdo con la dis- cusin en la seccin anterior. A continuacin debera contrastarse el test de esfericidad de Bartlett (1950). Di- cho test pone a prueba la hiptesis nula de que la matriz de correlacin poblacional es identidad, es decir, que las variables estn incorreladas en la poblacin. Si no puede rechazarse dicha hiptesis, habr que aceptar que la matriz de correlacin solo contiene ruido. Es importante tener en cuenta que, an as, si se factoriza dicha matriz se obtendrn factores. Sin embargo dichos factores sern totalmente espurios. En este sentido, es til considerar el test de Bartlett como una prueba de seguri- dad y una condicin necesaria. En la mayor parte de los AF se rechazar la hiptesis nula y, por tanto, se admiti- r que existe alguna relacin entre las variables. Sin em- bargo esto puede no ser suficiente. El modelo AF, como hemos visto, asume adems que la relacin es substan- cial. Si la relacin es tan difusa que se necesitan prcti- camente tantos factores como variables para explicarla, entonces no vale la pena llevar a cabo el anlisis. Supuesto que se cumpla la condicin necesaria, en ter- cer lugar se evaluara el grado de relacin conjunta en- tre las variables. La medida ms habitual es el KMO de Kaiser, (1970) que evala hasta que punto las puntua- ciones en cada una de las variables son predecibles des- de las dems. El rango de valores del KMO es de 0 a 1, y, cuanto ms alto el valor, ms substancialmente rela- cionadas entre ellas estarn las variables. Como valor de referencia, Kaiser (1970) sugiere que la matriz de corre- lacin ser apropiada para factorizar si el KMO es igual o superior a 0.80. Estimacin del modelo Como hemos avanzado antes, esta es la etapa crucial del AF. En ella se estima una solucin inicial y, sobre to- do, se determina la dimensionalidad de los datos, es de- cir el nmero de factores ms apropiado. La etapa de estimacin debe guiarse por el principio de parsimonia. Se trata de determinar la solucin ms simple (es decir el menor nmero de factores) compatible con residuales su- ficientemente cercanos a cero. El procedimiento de estimacin implementado por de- fecto en los programas estadsticos suele ser el anlisis en componentes principales (ACP). El ACP, sin embargo, no es un procedimiento para estimar el modelo factorial. Es un mtodo para reducir el nmero de variables. En esencia, el AF es un modelo basado en el principio de que las variables tienen error de medida, distingue cla- ramente entre varianza comn (comunalidad) y varianza de error, y pretende reproducir tan slo la varianza co- mn, que es la que interviene en las correlaciones entre las variables. El ACP, en cambio, no hace esta distin- cin, slo considera la varianza total y es esta varianza total la que pretende reproducir. Los defensores del ACP argumentan que es ms simple, que est mejor determinado y que produce virtualmente los mismos resultados que el AF (e.g. Velicer, 1990). Sin embargo esto ltimo es una verdad a medias. Terica- mente, y desde el punto de vista del AF, el ACP podra considerarse como el caso extremo del modelo factorial en el que todas las variables a analizar estn libres de error (es decir, varianza comn y varianza total coinci- den). En la prctica, el ACP y el AF llevan a resultados similares cuando: (a) el nmero de variables a analizar es grande (digamos ms de 30) y (b) las variables tienen poco error y, por tanto, una elevada comunalidad (Mu- laik, 1972). Un principio bsico en Psicometra, sin em- bargo, es que las puntuaciones en los tests tienen error de medida (y las de los tems mucho ms). No parece, por tanto, muy razonable utilizar una tcnica que no asume este principio. El problema de usar ACP cuando el modelo correcto es el AF se ilustra con una pequea simulacin. Se gener EL ANLISIS FACTORIAL COMO TCNICA DE INVESTIGACIN EN PSICOLOGA S e c c i n M o n o g r f i c a 27 una matriz de correlacin a partir de la siguiente solu- cin factorial verdadera 0.50 0.50 0.50 0.50 0.50 0.50 0.50 0.50 0.50 0.50 A continuacin la matriz de correlacin se analiz me- diante un mtodo propiamente factorial y mediante ACP. La solucin factorial directa (se especificaron dos facto- res) fue: 0.50 0.00 0.50 0.00 0.50 0.00 0.50 0.00 0.50 0.00 0.50 0.00 0.50 0.00 0.50 0.00 0.50 0.00 0.50 0.00 que recupera exactamente la solucin verdadera. En cambio la solucin ACP fue: 0.57 0 -0.82 0 0 0 0 0 0 0 0.57 0.03 0.09 -0.05 -0.78 0.22 0.03 -0.02 -0.01 -0.02 0.57 -0.04 0.09 -0.64 0.01 -0.47 -0.12 0 -0.1 -0.04 0.57 0.4 0.09 0.24 0.01 -0.34 0.44 0 0 0.34 0.57 0.15 0.09 0.18 0.12 -0.02 0.13 -0.15 -0.06 -0.74 0.57 0.06 0.09 0.18 0.12 0.13 -0.33 0.33 -0.59 0.1 0.57 0.09 0.09 0.24 0.01 -0.14 -0.55 0 0.51 0.05 0.57 0.03 0.09 -0.26 0.23 0.41 0.24 0.45 0.32 0 0.57 -0.73 0.09 0.24 0.01 -0.14 0.19 0.01 0.01 0.05 0.57 0 0.09 -0.13 0.23 0.35 -0.02 -0.63 -0.06 0.24 que muestra los dos problemas tpicos del ACP: estimacio- nes sesgadas hacia arriba de los pesos en el factor de con- tenido y sobreestimacin de la dimensionalidad. El primer componente es un estimador sesgado del nico factor real (cuyas cargas verdaderas son todas de 0.50). Por otra parte, en los sucesivos componentes algunas de las varia- bles tienen pesos por encima de 0.20-0.30. A este respecto es importante decir que, en la prctica, suele recomendarse interpretar tan slo los pesos que estn por encima de estos valores mnimos (Catell, 1988, McDonald, 1985). McDo- nald (1985) propone un criterio heurstico ms restrictivo en el que slo se interpretaran aquellos factores que tuviesen al menos tres variables con pesos superiores a 0.30. An si- guiendo este criterio ms restrictivo, los resultados de la so- lucin ACP llevaran a interpretar como factores 4 componentes que reflejan nicamente error. Si, adems, es- ta solucin hubiese sido posteriormente rotada la interpreta- cin hubiera sido, posiblemente, totalmente errnea. Existen varios mtodos recomendables para estimar el mo- delo AF. Por limitaciones de espacio, discutiremos tan slo los dos ms utilizados: Mnimos Cuadrados Ordinarios (MCO) y Mxima Verosimilitud (MV). Sin embargo, hay otros mtodos muy interesantes cuyo posterior estudio reco- mendamos al lector interesado. En particular vale la pena revisar el AF de rango mnimo (Shapiro y ten Berge, 2002). El AF por MCO no es, propiamente, un mtodo de esti- macin, sino un conjunto de mtodos basados en un cri- terio general comn. Para el nmero especificado de factores, los estimadores MCO son aquellos que hacen mnima la suma de cuadrados de las diferencias entre las correlaciones observadas y las reproducidas desde el modelo. Conceptualmente pues, los mtodos MCO deter- minan la solucin que hace que los residuales sean lo ms cercanos a 0 posible. Esta es, como sabemos, la idea bsica del ajuste en AF. Aunque el criterio es muy claro y directo, los mtodos MCO son, en principio, pu- ramente descriptivos. Como veremos, sin embargo, esto no es necesariamente una limitacin. Los principales mtodos basados en el criterio MCO son: (a) AF de ejes principales, (b) MINRES de Harman (Har- man y Jones, 1966), (c) ULS de Jreskog (1977), y (d) Re- sidual Mnimo de Comrey (1962). Para el mismo nmero de factores, las soluciones obtenidas con cualquiera de ellos son virtualmente idnticas. Sin embargo, recomenda- ramos especialmente usar MINRES o ULS por dos razones: (a) no requieren la estimacin inicial de las comunalidades y (b) son muy eficientes en trminos de computacin. En contraste con los mtodos MCO, el mtodo MV (Lawley y Maxwell, 1971) es estadstico (inferencial). Su principal ventaja es que permite contrastar, de forma ri- gurosa, el ajuste del modelo a los datos mediante un n- dice referido a la distribucin chi-cuadrado ( 2 ). Esta ventaja, sin embargo, debe ser matizada. En primer lu- gar, la inferencia en AF MV se basa en el supuesto de que las variables que se analizan son continuas, mtri- cas y distribuidas segn la ley normal multivariante. En el caso de tems y tests este supuesto nunca se cumple. En segundo lugar se asume que el modelo propuesto en PERE JOAN FERRANDO Y CRISTINA ANGUIANO-CARRASCO S e c c i n M o n o g r f i c a 28 mfactores ajusta perfectamente en la poblacin y por tanto, que todo el error es error muestral (esta es la hip- tesis nula del test de bondad de ajuste). Sin embargo, como hemos visto antes, los modelos se proponen tan s- lo como razonables aproximaciones, y se acepta que parte del error ser error de aproximacin. As pues, el mtodo contrasta una hiptesis nula que ya sabemos desde el principio que es falsa y que se rechazar siem- pre en cuanto se tenga la potencia suficiente. Para agra- var el tema, la potencia generalmente es muy alta, ya que en AF se trabaja habitualmente con muestras gran- des. En suma, an con distribuciones razonables el uso del AF MV basado en el test de bondad de ajuste llevar casi siempre a la necesidad de estimar ms factores de los que son substantivamente interpretables. Este fenme- no se denomina sobrefactorizacin. A pesar de los problemas discutidos arriba, existen ra- zones para recomendar el uso del AF MV. En primer lu- gar, y aunque es poco conocido, la solucin MV puede obtenerse tambin sin hacer supuestos inferenciales. Es la que hace mnimas las correlaciones parciales entre las variables tras eliminar de ellas la influencia de los facto- res (Mulaik, 1972). Esencialmente es el mismo criterio bsico que el del AF por MCO. Los mtodos MCO mini- mizan las correlaciones residuales. MV minimiza las co- rrelaciones parciales (la correlacin residual es el numerador de la correlacin parcial). Por esta razn, en la prctica, las soluciones MCO y MV suelen ser muy si- milares. En segundo lugar, aunque el test 2 de bondad de ajuste evala una hiptesis falsa, existen indicadores de bondad de ajuste derivados de este test que evalan el error de aproximacin y el grado de ajuste del mode- lo. Como veremos en la siguiente seccin estos indicado- res son muy recomendables. En una situacin en que (a) las variables tienen distri- buciones aceptables, (b) la solucin esta bien determina- da, y (c) el modelo propuesto es razonablemente correcto, las soluciones MCO y MV sern prcticamente idnticas. En este caso, el uso de MV tiene la ventaja de que permite obtener indicadores adicionales muy tiles en la evaluacin del ajuste. En caso de distribuciones ex- tremas, soluciones dbiles o poco claras y notable error de aproximacin la opcin MV dar problemas. La con- vergencia del mtodo es muy delicada y puede dar lugar a estimaciones inaceptables. Adems, los indicadores adicionales no sern de fiar. En estos casos los mtodos MCO son claramente superiores. De acuerdo con los es- tudios de simulacin, son mtodos muy robustos (conver- gen casi siempre) y, al no hacer distinciones entre las fuentes de error, suelen recuperar mejor la solucin co- rrecta que el mtodo MV (MacCallum y Tucker 1991). Evaluacin del ajuste Para decidir si un modelo con mfactores resulta apropia- do, debe evaluarse el grado de ajuste del modelo a los da- tos. Existen una variedad de criterios y procedimientos para llevar a cabo esta evaluacin. En nuestra opinin, al- gunos son considerablemente mejores que otros. Empezaremos con los criterios y procedimientos que no recomendamos. Posiblemente, el criterio ms utilizado en Psicologa, y el que suelen aplicar por defecto los programas comerciales es la regla de Kaiser: el nmero de factores relevantes es el nmero de valores propios mayores de 1 que tiene la matriz de correlacin original. Este criterio presenta varios problemas, siendo el prime- ro de ellos la falta de una justificacin clara. Tiene varias (que no veremos aqu) pero ninguna convincente. El se- gundo problema es que se basa en la lgica del ACP no del AF. En efecto, los valores propios de la matriz sin re- ducir (con unos en la diagonal principal) equivalen a las proporciones de varianza total explicadas por los corres- pondientes componentes principales. Sin embargo, como hemos visto, la varianza que interesa realmente en el AF es la comn, no la total. En tercer lugar, el nmero de factores determinado mediante esta regla est relaciona- do con el nmero de variables que se analizan. Ms en detalle, si se analizan n variables, el criterio de Kaiser indicar un nmero de factores comprendido entre n/ 5 y n/ 3. As, con 30 variables, el criterio indicar entre 6 y 10 factores. Sin embargo, si hemos diseado una es- cala de 30 tems para medir una sola dimensin, el n- mero de factores esperado es 1, no de 6 a 10. El test de sedimentacin (Scree-test; Cattell, 1988) es un procedimiento grfico ampliamente utilizado. En un gr- fico bivariado, se representan puntos cuyas coordenadas son los valores propios de la matriz de correlacin origi- nal (es decir, las proporciones de varianza total explica- da) en el eje de ordenadas, y el nmero de componentes en el de abcisas. En una solucin tpica, el grfico que une los puntos es una funcin decreciente, similar en for- ma a la ladera de una colina de residuos. A partir de cierto punto la funcin se hace prcticamente horizontal y es este punto el que, segn Cattell, indica el nmero ms adecuado de factores. La lgica es que, a partir de este nmero, los sucesivos factores son triviales y slo ex- plican varianza residual. Aunque la lgica es ms con- vincente que la de la regla de Kaiser, el procedimiento tiene, en nuestra opinin, dos problemas. En primer lu- EL ANLISIS FACTORIAL COMO TCNICA DE INVESTIGACIN EN PSICOLOGA S e c c i n M o n o g r f i c a 29 gar la decisin se apoya en una inspeccin visual y, por tanto, tiene un fuerte componente de subjetividad. En se- gundo lugar, se basa en la lgica ACP y no distingue entre varianza comn y de error. Ahora bien, si en lugar de los valores propios de la matriz sin reducir (propor- ciones de varianza total), se representasen los de la ma- triz reducida (es decir, las comunalidades) entonces el test sera til como procedimiento auxiliar. Existen dos criterios muy en boga actualmente, que son el MAP de Velicer (1976) y el anlisis paralelo (AP; Horn, 1965). En nuestra opinin son de utilidad como criterios auxiliares, pero adolecen del mismo problema bsico que tienen los criterios anteriores basados en la lgica ACP: no distinguen entre varianza comn y varianza de error. En el criterio MAP, se lleva a cabo un ACP en forma se- cuencial y en cada etapa se calcula la raz media cuadrti- ca de las correlaciones parciales que resultan si se elimina el componente correspondiente y los anteriores. Aunque las correlaciones residuales disminuyen siempre a medida que se estiman ms componentes, las correlaciones parciales no lo hacen. De hecho, la funcin que relaciona la raz me- dia cuadrtica de las parciales con el nmero de compo- nentes suele tener forma de U. El mnimo de la funcin indicara el nmero de componentes a retener. El AP puede entenderse como una combinacin del crite- rio de Kaiser y del scree test. En su forma ms bsica, con- siste en generar una matriz de correlacin aleatoria a partir de unos datos de la misma dimensin que los empri- cos (sujetos y variables): tericamente una matriz as debe- ra tener todos los valores propios cercanos a 1. El mtodo consiste en comparar los valores propios de la matriz em- prica con los de la matriz generada al azar. Grficamente la comparacin sera como un doble scree test en el que se representan simultneamente la curva correspondiente a los datos empricos y la correspondiente a los datos al azar. La primera, como sabemos, se esperara que mostra- se un fuerte descenso seguido de estabilizacin. La segun- da debera mostrar una tendencia mucho ms plana (en una matriz muy grande sera una recta horizontal que cor- tara a la ordenada en 1). El punto de interseccin entre las dos curvas indicara el nmero de factores a retener. Visto as el AP comparte muchas de las crticas del scree-test, pe- ro tiene la ventaja de que el criterio para determinar el n- mero de factores es mucho ms objetivo. Pasamos ahora a discutir los criterios y procedimientos que consideramos ms recomendables. Empezaremos por aquellos de tipo general que pueden aplicarse cualquiera que sea el mtodo de estimacin. Despus discutiremos aquellos especficamente relacionados con el AF MV. Como bien sabemos ya, si el nmero de factores pro- puesto es apropiado, entonces las correlaciones residua- les entre las variables tras eliminar la influencia de los factores deben ser todas prcticamente cero. De acuerdo con este principio, los criterios ms claros para evaluar el ajuste de un modelo en mfactores sern aquellos que ms directamente se relacionan con la evaluacin de las correlaciones residuales. En problemas pequeos, la inspeccin visual de la ma- triz de residuales puede dar ya una idea importante del grado de ajuste. Sin embargo, habitualmente el AF tra- baja con un nmero substancial de variables, y la ins- peccin global de la matriz residual no resulta prctica. En este caso, deber condensarse la informacin me- diante estadsticos descriptivos. Para empezar es conveniente inspeccionar la distribu- cin de frecuencias de los residuales. Si el nmero de factores propuesto es adecuado, esta distribucin ser si- mtrica, aproximadamente normal y centrada en torno a una media de cero. Distribuciones asimtricas, descen- tradas o con las colas muy pesadas, indican que an queda covariacin sistemtica por explicar y, por tanto, que es necesario estimar ms factores. La raz media cuadrtica residual (RMCR) es una medida descriptiva que indica la magnitud media de las correlaciones residuales. Si la media de stas ltimas es cero, entonces la RMCR coincide con la desviacin tpica de los residuales. Harman (1976), propone un valor de referencia de 0.05 o menor para considerar que el ajuste del modelo era aceptable. Este criterio es puramente emprico, pero funciona generalmente bien en la prctica. Mejor fundamentado es el criterio propuesto inicialmente por Kelley (1935). El error tpico de un coeficiente de correlacin de cero en la poblacin es, aproximadamente, 1/ N donde N es el tamao de muestra. Este sera, por tanto, el valor de referencia. As, en una muestra de 300 sujetos, 1/ N=0.058. Si la RMCR se mueve en torno a este valor, o es menor, cabe interpretar que los valores residuales observados no difieren significativamente de cero y, por tanto, que no quedan ya relaciones sistemticas por explicar. El ndice gamma o GFI propuesto inicialmente por Ta- naka y Huba (1985) es una medida de bondad de ajuste normada entre 0 y 1 que puede utilizarse con la mayo- ra de los procedimientos de estimacin. Puede interpre- tarse como un coeficiente de determinacin multivariado que indica la proporcin de covariacin entre las varia- bles explicada por el modelo propuesto. De acuerdo con los criterios actuales (vase el artculo de Ruz, Pardo y PERE JOAN FERRANDO Y CRISTINA ANGUIANO-CARRASCO S e c c i n M o n o g r f i c a 30 San Martn en este volumen) para considerar un ajuste como bueno, el GFI debera estar por encima de 0.95. Discutiremos por ltimo dos indicadores que se utilizan en el caso de estimacin por MV. Son, por tanto, infe- renciales, pero aqu recomendamos su uso de acuerdo con una lgica descriptiva. El primero de ellos es el coe- ficiente TLI-NNFI, propuesto inicialmente por Tucker y Le- wis (1973) precisamente para el modelo AF. Es un ndice relativo y mide la mejora de ajuste que produce el modelo propuesto con respecto al modelo nulo en 0 fac- tores, en relacin a la mejora esperada por un modelo que ajustara bien. Sus valores se mueven entre 0 y 1 (aunque no est estrictamente normado) y Tucker y Lewis recomendaron interpretarlo como un coeficiente de fiabi- lidad. En este sentido, y aunque los criterios actuales son ms rigurosos (vase Ruz, Pardo y San Martn en este volumen), nuestra opinin es que valores por encima de 0.85-0.90 empezaran a considerarse aceptables. El ndice RMSEA (Steiger y Lind, 1980), muy en boga actualmente, estima el error de aproximacin del modelo propuesto. Ms especficamente, estima la discrepancia que habra entre la matriz de correlacin poblacional y la matriz reproducida por el modelo propuesto, tambin en la poblacin. Conceptualmente, el RMSEA se basa en el enfoque, discutido antes, de que los modelos son slo aproximaciones y estima hasta qu punto el modelo puesto a prueba es una aproximacin razonable. El RM- SEA es un ndice relativo a los grados de libertad (com- plejidad) del modelo y, por tanto, puede penalizar a los modelos menos parsimoniosos. Como referencia, valores por debajo de 0.05 podran considerarse como indica- dores de buen ajuste, en tanto que valores entre 0.05- 0.08 indicaran un ajuste admisible. Cerraremos esta seccin con tres observaciones. En pri- mer lugar, no recomendamos tomar una decisin tan im- portante como la del nmero apropiado de factores basndose en un solo indicador o criterio. Es convenien- te utilizar mltiples indicadores que nos proporcionen ms informacin y, por tanto, elementos de juicio. En se- gundo lugar, en situaciones reales el proceso que lleva a la determinacin del nmero de factores no es tan lineal como lo describimos aqu por razones didcticas. En efecto, una vez obtenida la solucin transformada pode- mos encontrarnos con que uno o ms factores sean muy dbiles, estn pobremente identificados o reflejen conte- nidos triviales (por ejemplo, que no lleguen al mnimo de 3 variables con pesos superiores a 0.3 antes comenta- do). Este resultado podra llevar a la reconsideracin del nmero de factores y a una nueva inspeccin de la solu- cin. Por ltimo, en muchos casos la informacin terica previa no indica un nmero claro de factores sino que es ms difusa. Puede indicar un rango plausible de factores o quizs varias soluciones alternativas plausibles. Es conveniente en este caso examinar las diferencias entre los valores de los indicadores de ajuste correspondientes a las diferentes soluciones evaluadas. Obtencin de la solucin transformada (rotacin) En el anlisis factorial no restricto, la solucin inicial es- tndar que se obtiene mediante la aplicacin de los m- todos de MCO o MV se denomina forma cannica. Para el nmero de factores especificado, esta solucin tiene la propiedad de que los factores sucesivos explican el mximo posible de la varianza comn. En algunos ca- sos la solucin cannica es directamente interpretable y no requiere ninguna transformacin posterior. El caso ms claro es cuando se analiza un conjunto de tems que pretenden medir una sola dimensin. Dado que el pri- mer factor explica el mximo posible de la varianza co- mn, si el conjunto es esencialmente unidimensional, entonces los factores que siguen al primero debern ser residuales. Un ejemplo extremo es la solucin directa en dos factores que hemos usado arriba para comparar el AF con ACP. Es una solucin cannica en la que el pri- mer factor explica ya toda la varianza comn y al se- gundo no le queda nada por explicar. Este grupo de variables sera pues perfectamente unidimensional. Cuando se espera encontrar una solucin en mltiples fac- tores, sin embargo, la solucin cannica inicial es arbitraria. Debe ser entonces transformada o rotada hasta obtener una solucin interpretable de acuerdo con la teora previa. La principal decisin que debe tomar el investigador en esta etapa es si utilizar una rotacin oblicua o una or- togonal. Este es un tema controvertido. Los autores que defienden las soluciones ortogonales, consideran que son ms simples y fciles de interpretar. Adems creen que son tambin ms estables en estudios de replicacin. La base estadstica de este argumento es que, si los fac- tores son independientes en la poblacin, no lo sern exactamente en las muestras y, por tanto, si se utilizan soluciones oblicuas, las correlaciones entre factores refle- jarn tan slo error muestral Por otra parte, los autores que defienden las soluciones oblicuas consideran que la mayor parte de constructos psicolgicos estn relaciona- dos y que exigir factores incorrelados es imponer artifi- cialmente una solucin que no es correcta tan slo porque es ms sencilla (e.g. Mulaik, 1972). En definitiva, que ha de ser la teora la que gue esta decisin. EL ANLISIS FACTORIAL COMO TCNICA DE INVESTIGACIN EN PSICOLOGA S e c c i n M o n o g r f i c a 31 Los autores nos situamos esencialmente en la segunda postura. Sin embargo, tambin creemos que debe tenerse en cuenta (como siempre en AF) el criterio de parsimonia. Si la teora no permite hiptesis fuertes al respecto, parece razonable empezar con una solucin oblicua. Si las corre- laciones estimadas entre factores son substanciales, esta es la solucin a mantener. Sin embargo, si las correlaciones entre factores son consistentemente bajas (digamos por de- bajo de 0.30 o 0.20), entonces podra hacerse un segundo anlisis especificando una solucin ortogonal. Si las dos soluciones fuesen similares, sera preferible aceptar provi- sionalmente la solucin ortogonal. Una vez decidido el tipo general de rotacin, la impor- tancia de la decisin respecto al mtodo especfico a uti- lizar depende de la solidez del diseo. Si las variables son limpias, se utilizan marcadores y los factores estn bien determinados, entonces los diferentes mtodos de- ben llevar esencialmente a la misma solucin. No es una mala estrategia probar diferentes mtodos y evaluar si convergen aproximadamente a una solucin comn. En soluciones complejas, ruidosas y pobremente determina- das el empleo de diferentes mtodos de rotacin puede llevar a soluciones muy dispares. Este no es un problema de los mtodos, es un problema de diseo. Los mtodos analticos de rotacin ortogonal son general- mente curticos en el sentido de que se basan en las po- tencias cuartas de las los pesos factoriales (conceptualmente, varianzas de los cuadrados de los pe- sos). Existen dos mtodos generales de este tipo (vase e.g. Mulaik, 1972): Quartimax y Varimax. Dado el patrn ini- cial no rotado (variables factores), la transformacin Quartimax es la que maximiza la varianza de los cuadra- dos de los pesos por filas. En cambio Varimax maximiza la varianza por columnas. La solucin Quartimax es pues compatible con una columna del patrn en el que la mayor parte de los pesos son elevados y tiende a dar soluciones con un factor general. En cambio Varimax tiende a dar so- luciones mltiples en las que no hay un factor dominante. Existe un tercer mtodo, Equamax que combina ambos cri- terios y lleva por tanto a soluciones intermedias. Los tres mtodos funcionan bien, y tal vez la eleccin de uno de ellos debera venir guiada por lo esperado desde la teora (existencia o no de un factor general). Nuestra considera- cin positiva de los mtodos (Varimax en particular) no es incompatible con la crtica hecha al principio del captulo. Nuestra crtica inicial se refiere al uso indiscriminado de Varimax por defecto aun cuando la teora indique clara- mente que los factores estn relacionados o cuando se es- pera encontrar un factor general. La experiencia con los mtodos anteriores basada en es- tudios de simulacin sugiere que pueden llevar a resultados errneos o inestables (sobre todo Varimax) cuando una elevada proporcin de las variables a analizar son facto- rialmente complejas. Como hemos dicho arriba, este no es un problema del mtodo de rotacin sino de un mal dise- o. Para minimizar el problema se han propuesto versiones ponderadas (weighted) de los tres mtodos (Quartimax, Varimax y Equamax) en los que se asigna mayor peso a los tems inicialmente evaluados como ms simples. Los mtodos analticos tradicionales de rotacin oblicua son una extensin de los mtodos curticos ortogonales, con el problema adicional de determinar el grado de rela- cin (oblicuidad) entre los factores. En la prctica, el mto- do ms utilizado con diferencia es Oblimin (vase e.g. Mulaik, 1972) cuyo criterio puede ser considerado como una combinacin de los criterios Quartimax y Varimax ex- tendida al caso oblicuo. El criterio Oblimin incluye un pa- rmetro (delta, que puede tomar valores entre 0 y 1) y que pondera la maximizacin de la simplicidad por filas o por columnas. Indirectamente el parmetro delta controla tam- bin el grado de oblicuidad permitido en la solucin. Los programas factoriales utilizan por defecto el valor delta=0 siguiendo la recomendacin de Jennrich (1979). Este valor suele llevar a una buena convergencia y a una solucin simple e interpretable. En contrapartida, para conseguir es- ta simplicidad, los factores resultantes suelen estar muy re- lacionados entre ellos. Browne (comunicacin personal) recomienda utilizar delta=0.5. Una alternativa interesante a Oblimin son ciertos mto- dos analticos que incorporan la idea de rotacin sobre una matriz diana que se construye analticamente. Esen- cialmente la idea es la siguiente. En primer lugar, a par- tir de una solucin ortogonal se construye una matriz hiptesis o diana. Dicha matriz es una modificacin de la solucin ortogonal lo ms cercana posible a la estruc- tura simple; as, y principalmente, los pesos muy bajos en la solucin ortogonal se hipotetizan como ceros en la matriz diana. En segundo lugar se determina la solucin transformada oblicua que mejor se aproxima a la matriz diana. El mtodo inicial que incorporaba estas ideas es Promax (Hendrickson y White, 1964). Lorenzo-Seva (1999) ha propuesto recientemente un mtodo mucho ms refinado denominado Promin. Con respecto a los mtodos previos, Promin incorpora mejoras en todas las etapas: solucin ortogonal de partida, determinacin de la matriz diana y procedimientos y criterios de aproxi- macin. Es, por tanto, el mtodo ms recomendable dentro de esta familia. PERE JOAN FERRANDO Y CRISTINA ANGUIANO-CARRASCO S e c c i n M o n o g r f i c a 32 SOFTW ARE: EL PROGRAMA FACTOR 1 Si bien es cierto que el AFE es una tcnica clsica de anlisis de datos, hoy en da la investigacin estadsti- ca sobre el propio anlisis contina siendo muy activa. As, en los aos recientes se han publicado en revistas especializadas diversos avances relacionados con los mtodos utilizados en AFE. Sin embargo, los autores de los programas informticos de anlisis de datos ms populares (no hace falta citar nombres) no parecen in- teresados en implementar estos nuevos avances. Por es- ta razn, los investigadores de las propias universidades se han preocupado por desarrollar pro- gramas especficos que recojan tanto los mtodos clsi- cos como las nuevas aportaciones. Un ejemplo de este tipo de programas es Factor (Lorenzo-Seva y Ferrando, 2006). Se trata de un programa fcil de usar (basado en los tpicos mens de Windows) que tiene como fina- lidad el clculo de AFE. Factor implementa procedimientos e ndices clsicos, as como algunas de las aportaciones metodolgicas ms recientes. Esto incluye todos los discutidos en este captulo y adems otros de indudable inters y que de- bieran ser objeto de estudio futuro para los lectores in- teresados en el AF. As por ejemplo Factor permite trabajar con correlaciones policricas cuando se sospe- cha que el modelo lineal puede ser inadecuado. Bue- nos ejemplos de la metodologa propuesta recientemente que se han implementado en Factor son: (1) Minimum Rank Factor Analysis, que es el nico pro- cedimiento de extraccin de factores que permite estu- diar la proporcin de varianza explicada por cada factor; y (2) el mtodo de rotacin Simplimax, que ha demostrado ser el mtodo de rotacin ms eficiente de todos los propuestos hasta el momento. Muchos de es- tos mtodos no estn disponibles en ningn programa comercial. Finalmente, cabe destacar que Factor es un programa que se distribuye gratuitamente como software de libre disposicin. Se puede obtener en Internet, en la pgi- na: http:/ / psico.fcep.urv.es/ utilitats/ factor/ . En la mis- ma pgina se ofrece un breve manual de utilizacin, as como una versin de demostracin para ejemplifi- car su utilizacin. Hasta la fecha, y desde que se puso a disposicin de los investigadores en el ao 2006, se ha utilizado por investigadores de las ms diversas procedencias en 29 artculos internacionales apareci- dos en revistas recogidas en el ISI. EJEMPLO ILUSTRATIVO A continuacin se propone al lector la realizacin de un ejercicio prctico para aplicar el material expuesto. Los datos se pueden encontrar en la siguiente direc- cin: http:/ / psico.fcep.urv.cat/ ejemplopapeles. Se tra- ta de un test de 14 tems que mide dos tipos de ansiedad. Se propone al lector que mediante el progra- ma factor, realice el anlisis factorial del test para de- terminar la estructura y propiedades del mismo. En la misma web se encontrar la resolucin de este ejem- plo, aunque es recomendable que el lector trabaje so- bre el ejemplo antes de leer la resolucin. BIBLIOGRAFA RECOMEN DADA - (M a nua les de tipo genera l) los de Harman (1976) y Mulaik (1972), ambos en la lista de referencias, tratan bastante a fondo los principales aspectos del AF, inclu- yendo los que no hemos podido desarrollar. Su nivel tcnico es bastante ms elevado que el que hemos uti- lizado aqu. El manual de McDonald (1985, en lista de referencias) es mucho ms personal que los dos anteriores. Se muestra muy crtico con el enfoque tradicional del AF y refleja las fuertes posiciones del autor. Muy recomendable. Por ltimo, el siguiente texto del autor: Ferrando, P.J. (1993) Introduccin al anlisis factorial. Barcelona: PPU. Puede usarse como una ampliacin ms tcnica de los aspectos bsicos desarrollados en las primeras secciones. - La problem tica AFE vs AFC en el a n lisis de tems se discute a fondo en: Ferrando, P.J. y Lorenzo-Seva, U. (2000). Unrestricted versus restricted factor analysis of multidi- mensional test items: some aspects of the problem and some suggestions, Psicolgica. 21, 301-323. - La siguiente tesis proporciona una buena revisin de los principa les criterios y mtodos de rota cin Lorenzo-Seva, U. (1997). Elaboracin y evaluacin de mtodos grficos en anlisis factorial. Universidad de Barcelona. - Por ltimo, el desa rrollo pa so a pa so de un AF me- dia nte un progra ma inform tico se describe en: Ferrando, P.J. y Lorenzo, U. (1998) Anlisis factorial. En: Renom, J. (Coord.) 'Tratamiento informatizado de datos'. Cap. 5 pp 101-126. Barcelona. Masson. EL ANLISIS FACTORIAL COMO TCNICA DE INVESTIGACIN EN PSICOLOGA 1 El autor de esta seccin es Urbano Lorenzo-Seva S e c c i n M o n o g r f i c a 33 REFEREN CIAS Bartlett, M.S. (1950). Tests of significance in factor analysis. British Journal of Mathematical and Statisti- cal Psychology, 3, 77-85. Carroll, J.B. (1978). How shall we study individual diffe- rences in cognitive abilities?-Methodological and theo- retical perspectives. Intelligence, 2, 87-115. Cattell, R.B. (1988). The meaning and strategic use of factor analysis. In J.R. Nesselroade and R.B. Cattell (eds.) Handbook of multivariate experimental psycho- logy (pp 131-203). New York: Plenum Press. Comrey. A.L. (1962). The minimum residual method of factor analysis. Psychological Reports, 11, 15-18. Ferrando, P.J. (1993) Introduccin al anlisis factorial. Barcelona: PPU. Ferrando, P.J. y Lorenzo-Seva, U. (1998). Anlisis facto- rial. En: Renom, J. (Coord.) Tratamiento informatizado de datos. Cap. 5 (pp 101-126). Barcelona: Masson. Ferrando, P.J. y Lorenzo-Seva, U. (2000). Unrestricted versus restricted factor analysis of multidimensional test items: some aspects of the problem and some sug- gestions. Psicolgica, 21, 301-323. Ferrando, P.J. (2002). Theoretical and empirical compa- risons between two models for continuous item respon- ses. Multivariate Behavioral Research, 37, 521-542. Harman, H.H. y Jones, W.H. (1966). Factor analysis by minimizing residuals (minres). Psychometrika, 31, 351-368. Harman, H.H. (1976). Modern factor analysis. Chicago: Univ. of Chicago press. Hendrickson, A.E. y White, P.O. (1964). Promax: A quick method for rotation to oblique simple structure. British Journal of Statistical Psychology. 17, 65-70. Horn, J.L. (1965). A rationale and test for the number of factors in factor analysis. Psychometrika, 30, 179-185. Jreskog, K.G. (1977). Factor analysis by least-squares and maximum-likelihood methods. En: K. Enslein, A. Ralston, & H.S. Wilf (Eds.): Statistical methods for di- gital computers. (pp 125-153). New York: Wiley. Kaiser, H.F. (1970). A second generation little jiffy. Psy- chometrika, 35, 401-415. Kelley, T.L. (1935). Essential Traits of Mental Life. Har- vard Studies in Education, 26 (pp. 146). Cambridge: Harvard University press. Lawley, D.N. y Maxwell, A.E. (1971). Factor analysis as a statistical method. London: Butterworths. Lorenzo-Seva, U. (1997). Elaboracin y Evaluacin de Mtodos Grficos en Anlisis Factorial. Tesis doctoral. Universidad de Barcelona. Lorenzo-Seva, U. (1999). Promin: A Method for Oblique Factor Rotation. Multivariate Behavioral Research, 34, 347-365. Lorenzo-Seva, U. y Ferrando P.J. (2006). FACTOR: A computer program to fit theexploratory factor analysis model. Behavior Reserch Methods, 38, 88-91. MacCallum, R.C. y Tucker, L.R. (1991). Representing sources of error in the common factor model: implica- tions for theory and practice. Psychological Bulletin, 109, 502 511. McCrae, R.R., Zonderman, A.B., Costa, P.T., Bond, M.H. y Paunonen, S.V. (1996). Evaluating replicability of factors in the revised NEO personality inventory: con- firmatory factor analysis versus Procustres rotation. J ournal of Personality and Social Psychology, 70, 552-566. McDonald, R.P. (1985). Factor analysis and related met- hods. Hillsdale: LEA McDonald, R.P. and Ahlawat, K.S. (1974). Difficulty fac- tors in binary data. British Journal of Mathematical and Statistical Psychology, 27, 82-99. Mulaik, S.A. (1972). The foundations of factor analysis. New York: McGraw-Hill. Shapiro, A. y ten Berge, J.M.F. (2002). Statistical infe- rence of minimum rank factor anlisis. Psychometrika, 67, 79-94. Spearman, Ch. (1904). General intelligence; objectively determined and measured. American Journal of Psy- chology, 115, 201292. Steiger, J.H. y Lind, J. (1980). Statistically based tests for the number of common factors. Comunicacin presen- tada en el meeting anual de la Psychometric Society. Iowa City, Mayo de 1980. Tanaka, J.S. y Huba, G.J. (1985). A fit index for cova- riance structure models under arbitrary GLS estima- tion. British Journal of Mathematical and Statistical Psychology, 38, 197-201. Thurstone, L.L. (1947). Multiple factor analysis. Chicago: University of Chicago press. Tucker, L.R. y Lewis, C. (1973). The reliability coefficient for maximum likelihood factor analysis. Psychometri- ka, 38, 1-10. Velicer, W.F. (1976). Determining the number of compo- nents from the matrix of partial correlations. Psycho- metrika 41, 321337. Velicer, W.F. y Jackson, D.N. (1990). Component analy- sis versus common factor analysis: Some further obser- vations. Multivariate Behavioral Research. 25, 97-114. PERE JOAN FERRANDO Y CRISTINA ANGUIANO-CARRASCO