Está en la página 1de 7

AFC: ESPECIFICACIÓN, IDENTIFICACIÓN Y ANÁLISIS ~ Kline/Brown

Especificación

Especifica el llamado modelo de medida que explica como variables observadas o


medidas reflejan variables latentes. Los modelos especifican una estructura simple,
restringiendo algunos parámetros a ser cero y liberando otros para que sean
estimados.

La especificación del modelo implica establecer lo siguiente:

- número de factores comunes latentes


- relaciones entre las variables observadas y los factores comunes.
- covariación entre factores comunes. (=factores)
- relación entre los factores únicos y las variables observadas
- varianzas y covarianzas entre factores únicos. (=errores)

Ej. en un AFE si tenemos 9 variables, tenemos: 27 coeficientes patrón, 27 coeficientes


estructura, 9 comunalidades y 3 correlaciones entre factores y se estiman todos. En el AFC
podemos decidir que algunas relaciones son 0 o 1 o igualarlas entre sí.

Una variable latente en CFA es una dimensión o continuo en el cual los casos varian
entre sí. Es una variable explicativa que siempre es estimada con cierto grado de
incertidumbre. La variable latente no es la suma de los indicadores.

La varianza común es la compartida por todos los indicadores y se asume que es


debida a los factores. La varianza específica es la varianza sistemática no explicada
por el factor y que puede estar siendo causada por las características especiales de
los indicadores (ej. tipo de tarea)

Cada indicador (o variable observada) puede depender del factor especificado por el
investigador. La varianza específica si puede ser compartida por varios indicadores.

→ cada indicador es continuo y tiene dos causas: un único factor (que el indicador
mide) y fuentes de influencia provenientes del término error.
→ los término error son independientes entre sí y de los factores.
→ todas las asociaciones son lineales y todos los factores covarían.

Respecto a los indicadores: todos tienen un componente sistemático y un componente


error. Las variables latentes están actuando sobre los indicadores (=medida reflexiva),
los indicadores nunca pueden ser interpretados como causas. Los indicadores que
miden el mismo constructo deben ser consistentes y deben por tanto tener altas
correlaciones positivas entre ellos (una vez están todos en la misma dirección!)
Identificación según Brown:

1- independientemente de la complejidad del modelo (1 o +factores, nº de indicadores


etc.), las variables latentes deben estar escaladas (su escala de medida debe estar
especificada) ya sea fijando el valor de un de los indicadores de cada factor a 1 (se
puede elegir el que sabemos que mide el factor mejor) o fijando la varianza de los
factores a 1.

2- independientemente de la complejidad... el número de datos para estimar los


parámetros del modelo (varianzas y covarianzas) debe ser igual o mayor al número de
parámetros que queremos estimar libremente. (es decir los coefiecientes, las
varianzas de factor, las varianzas error etc.)

3- en el caso de modelos de un solo factor: un minimo de tres indicadores es


necesario. Con tres indicadores (y sin errores correlacionados), la solución de un
factor está just-identified (una valoración del ajuste no tiene sentido, solo se puede
valorar su interpretabilidad y las estimaciones de los parámetros (i.e la magnitud de los
pesos factoriales). Con cuatro o más indicadores (y sin errores correlacionados) el
modelo está sobreidentificado (i.e hay más elementos en la matriz de entrada que
parámetros necesitamos estimar) y se debe valorar el grado de ajuste de la solución
obtenida.

4- en modelos con dos o más factores y dos o más indicadores por factor: la solución
estará sobreidentificada, siempre y cuando cada variable latente correlacione con al
menos otra variable latente y los errores entre los indicadores no correlacionen. En
estos casos, se puede dar infraidentificación empírica, con lo cual es recomendable un
minimo de tres indicadores por variable latente.

* A veces estandarizar no es apropiado por ej. si estamos midiendo en distintas


muestras que tienen varianzas distintas, perderíamos información.
Existe la opción de crear restricciones lineales en un set de 2 o más parámetros como
por ej. lambda1 + lambda2 + lambda3 / 3 = 1 ///p. 200

* Para modelos no estándar que incluyen indicadores complejos y errores correlacionados, existen otras
normas extra, pag. 203-205 y apuntes.

Estimación de parámetros
- Coeficientes patrón son interpretados como los coeficientes de regresión. Un
coeficiente de 4 implica un aumento de 4 en el indicador por cada aumento de 1 punto
en el factor.

- En la solución estandarizada, donde todas las variables tienen varianza 1, los


coeficientes patrón (para single indicators, dependen solo de un factor) son
correlaciones de Pearson. La raíz cuadrada de estos coeficients son la proporcion de
la varianza explicada.

Ej. si un coeficiente estandarizado es 0.80, 0.80^2=0.64 o 64% es la varianza


observada del indicador. Idealmente, el CFA explica la mayoría de la varianza total, >
0.50 en cada uno de los indicadores. R2!!
- En el caso de indicadores complejos (depende de 2 o más factores) el coeficiente
patrón estandarizado se interpreta como un coeficiente de regresión (beta weight) que
controla por las causas, es decir factores. No siempre se puede considerar que el
cuadrado de esto sea el % de varianza explicada, asi que mejor no.

- El ratio error variance/observed variance de un indicador es igual a la proporción de


varianza no explicada de dicho indicador.

Ej. si la varianza de un indicador es 25 y la varianza error es 9: 9/25= 0.36 es la


proporción de varianza no explicada. Y la explicada es 1-0.36= 0.64

- La correlación de Pearson entre un indicador y su factor es el coeficiente estructura.


El coeficiente patrón estandarizado para un indicador simple = coeficiente estructura.
Pero no lo es en el caso de un indicador complejo.

Un coeficiente patrón = 0 no significa que la correlación entre indicador y factor sea


también cero. Un coef. patrón 0 no implica un coef. estructura 0. Esto es porque los
factores en un AFC covarían lo que implica que no hay correlaciones de 0.

Importante saber que sale estandarizado y qué no en las salidas de software.

Problemas como casos heywood y varianzas negativas, no convergencia: N menor a


100 o solo 2 indicadores por factor. Solución:

→ utilizar indicadores con coeficientes estandarizados > 0.70 (good psychom. properties)

→ imponer restricciones de igualdad a los coeficientes no estandarizados de los indicadores de


un mismo factor.

→ Si estamos analizando ítems, será mejor analizarlos por parcels que individualmente.

También podemos tener una matriz no positiva definida, solución no admisible:

- los datos dan poca info (N pequeño, 2 indicadores por factor)


- el modelo está sobreparametrizado, demasiados parámetros libres.
- la muestra tiene valores extremos o las distribuciones no normales.
- hay infraidentificación empírica co: las covarianzas del factor ??
- el modelo de medida está mal especificado.

Checks for identification: para modelos sobreidentificado: usar la covarianza


pronosticada de un análisis como input de un segundo análisis del mismo modelo, si
no obtenemos los mismo parámetros, el modelo no estaba identificado. + p. 303-4

EJEMPLO: p. 305
Calculo de gl

Tenemos 8 ítems 8(9)/2= 36 observaciones. Hemos fijado un valor a 1, con lo cual


tenemos 7 parámetros de cada ítem, 8 varianzas residuales y una varianza del factor.
Un total de 16 parámetros a estimar. 36-16=20 gl.

1. Aunque sabemos que es un modelo de 2 factores, estimamos el de 1 primero.


Vemos que todos los índices de ajuste globales son malos.
Ajuste local: Si inspeccionamos la matriz de residuos estandarizados, vemos que un
gran número de ellos son altos e estadísticamente significativos. La matriz de
correlaciones de los residuos también incluyen unos cuantos valores absolutos
mayores a 0.10.

2. Un modelo CFA de un factor está anidado en otro de dos o más factores con los
mismo indicadores. Es por esto que podemos estimar el modelo de 2 parámetros y
compararlo con este mismo modelo a través de los Chis.

Los estimamos y calculamos la diferencia de chis


 D (1)  105, 427  38,325  67,102, p  0.001 lo que indica que el ajuste del modelo
2

de 2 factores es estadísticamente mejor que el de 1.

Los resultados del test de ajuste exacto con Chi ha resultado significativo, es decir
debemos rechazar el modelo. El test de close-fit *** también mal. Se podría mirar la
potencia*** http://www.quantpsy.org/rmsea/rmsea.htm

Estimaciones de los parámetros, podemos chequear lo siguiente:

El coeficiente (patrón) estandarizado del ítem 1 es 0.497, si lo elevamos al cuadrado,


vemos que explica un 25% de su varianza. Es un mal resultado para un indicador de
tipo continuo. En 4 de los 8 indicadores, pasa lo mismo no llegan a explicar el 50%

La correlación entre los dos factores es de 0.557, moderada.

Nos podemos fijar en la tabla de coeficientes estructura y vemos que los coeficientes
de los ítems 1, 2 y 3 que no saturan en el factor 1, no son cero. Nos recuerda que
aunque no se dibujen/fije a cero, existe cierta relación.

Los residuos de las correlaciones son muchos de ellos > 0.10 y positivos lo que indica
que el modelo está infraestimando las correspondientes asociaciones de los datos.

Respecificación del modelo CFA

Los indicadores deben ser inspeccionados primero. Si alguno está midiendo mejor otro
factor que el propio puede cambiarse. También podría estar midiendo dos factores
muy bien por ej. si un indicador que mide factor A, tiene unas correlaciones residuales
muy grandes y positivas con otro indicador que mide el factor B, esto puede deberse a
que el indicador está midiendo los dos factores. O que ambos indicadores comparten
algo especifico como el tipo de estimulo, tarea, "informador" no relacionado con el
factor. Si hay varianza única se puede especificar en el modelo errores
correlacionados.

Los factores también pueden estar mal especificados (en número) si bien es cierto que
este es un error más grave ya que las hipótesis sobre lo que estamos midiendo
estarían muy equivocadas. Si hay alto grado de correlación entre factores, el modelo
puede tener muchos factores. Poor convergent validity within sets of indicators for the
same factor suggests that the modelo may have too few factors.

De nuevo, cambiar el número de factores es un cambio mucho más radical que ajustar
las correspondencias de factor-indicador o añadir correlaciones entre errores.
En el ej. p. 311. Hay correlaciones de residuos altas entre "hand movements" y otras
cuatro tareas, el hecho de que además el coeficiente patrón de "hand movements" sea
moderado (0.497) nos puede estar indicando que esta tarea mide los dos factores.

Pag. 312, Modification indexes

Para valorar la fiabilidad de la medida del factor, podemos utilizar la siguiente


fórmula que es un ratio entre la varianza explicada sobre la varianza total. Para
factores sin errores correlacionados: pag. 313 , datos en 308 [Raykov (2001a, 2004)]

Modelos equivalentes, ej. pag. 315

pag. 318, se pasa de un AFC a un modelo de regresión estructural al cambiar un


indicador y convertirlo en causa del factor.

Modelos jerárquicos y modelos bifactor en p. 319

P. 328 y 329 ejemplo de WLS robusto

~Tres matrices~

1) matriz varianza covarianza muestral (observada)


2) matriz varianza covarianza del modelo (pronosticada) <- creada según las
estimaciones de los parámetros obtenidos de minimizar la función de
discrepancia.
3) matriz de residuos (diferencia entre la observada y la pronosticada)

*Todas ellas pueden estar estandarizadas, entonces son matrices de correlaciones.

La importancia de la matriz residuos es que aunque tenemos estadísticos que


resumen en un número el ajuste del modelo, la matriz nos ofrece información
específica de como de bien o mal los parámetros estimados reproducen la matriz
observada. Tenemos además un valor residual por cada par de indicadores lo que nos
ayuda a inspeccionar donde pueden estar los problemas de ajuste si los hubiese. Para
ello debemos fijarnos en los residuos estandarizados ya que al estar libres de métrica
son más fáciles de interpretar.

Debemos fijarnos en cualquier residuo estandarizado que sea mayor a 2 (1.96) en


valor absoluto. Lo que lo hace significativo a un nivel p < 0.05. Ya que el tamaño de los
residuos se ve influido por el tamaño muestral, se recomienda el valor de corte de 2.58
que corresponde al nivel alfa de 0.01.

Un residuo estandarizado positivo nos está sugiriendo que los parámetros del modelo
infraestiman la relación de dos indicadores (ya que los residuos deberían ser cercanos
a cero). Quizás hagan falta más parámetros que expliquen mejor la relación entre esos
dos indicadores.

Un residuo estandarizado negativo sugiere que los parámetros del modelo


sobreestiman la relación entre los dos indicadores implicados.

Respecto a los residuos no estandarizados, valores mayores a 0.10 deben ser


inspeccionados.
Paso a paso

1. Especificación del modelo: justificación conceptual/empírica para el modelo


hipotetizado. Se debe aportar una descripción completa de la especificación de los
parámetros del modelo: Lista de indicadores para cada factor. Especificar la métrica de
las variables que variables observadas fueron elegidas como marcadores de los
indicadores (a 1). Describir todos los parámetros libres, fijos y restringidos. Los
loadings de los factores, los cross loadings, las correlaciones entre factores y las
correlaciones entre errores (las var error pueden correlacionar en AFC, nunca en
AFE), interceptos, medias de factores...

► Ya que no se menciona, en primer lugar comprobaremos que el modelo está


identificado.
En primer lugar, calcular los gl del modelo. Estos son función del número de varianzas
y covarianzas que se pueden conocer a partir de los datos. Utilizamos la formula
p(p+1)/2, ej 9(10)/2= 45 gl. Cada parámetro que se estima, costará un gl al modelo y
para que el modelo esté identificado, necesitamos un número de gl no negativos. (si
gl=0 es el modelo saturado que no tiene interés porque no simplifica la realidad, si gl
fuese negativo, no es posible la estimación)

Queremos estimar X parámetros y por tanto x - gl = zz. Se trata de un modelo


sobreidentificado que puede contrastarse a partir de los datos.

2. Datos: descripción de los datos y su naturaleza.


2.1. El primer paso antes de ejecutar el análisis es comprobar que cada una de las
variables del archivo es normal univariante. Al representar los gráficos p-p de
normalidad para cada variable, vemos que estos muestran un patrón adecuado (o no),
los puntos se ajustan (o no) a la diagonal. En segundo lugar comprobamos la
significación estadística con la prueba de Shapiro-Wilks y vemos que para X variables
se rechaza (o acepta) la hipótesis de normalidad con un p< xxx. También
comprobamos que los estadísticos de asimetría y curtosis no excedan de 2 y 7
respectivamente (en valor absoluto).

Como segundo paso, comprobamos la normalidad multivariante con el test de Mardia.


Rechazamos (o aceptamos) la hipótesis de nula de normalidad multivariada.
(queremos que skew y curtosis sea significativo o mayor de 0.05, si no lo es, no
podemos asumir multivariada)

3. Estimación del modelo, justificar elección de método de estimación.


La estimación del modelo se ha realizado en R a partir de la matriz de (varianza
covarianza o (correlaciones de Pearson o poly)).

El método de estimación utilizado es ML porque hemos comprobado que se puede


asumir normalidad multivariada para la distribución conjunta de las variables
observadas. ML es la mejor opción en este caso ya que proporciona estimaciones
asintóticamente insesgadas además de pruebas de significación estadística para
valorar la bondad de ajuste del modelo.
Ya que nuestros datos son ordinales debemos utilizar un método de estimación
adecuado a ellos. El método WLS robusto es el mejor estimador para este tipo de
datos. (Flora y Curran, 2004).

4. Evaluación del modelo

Ajuste global
- Chi, con sus gl y su significación (queremos que sea no sign.), "se rechaza/retiene la
hipótesis nula de igualdad entre la matriz estimada por nuestro modelo y la matriz de
covarianza muestral." Ya que Chi-cuadrado es un índice que se afectado por muchos
factores, rechazamos/mantenemos la hipótesis nula de ajuste provisionalmente hasta
valorar el resto de índices.

- Otros índices de ajuste global.


RMSEA: obtenemos un valor de ___ con p=___ y un intervalo de confianza al 90% de
____ . Las discrepancias entre el modelo y los datos no llegan a exceder las del ajuste
aproximado pero aunque no las del ajuste perfecto (close fit test)

El índice SRMR apunta en la misma dirección con un valor de ___ (es bueno si es < 0.10!)

CFI, que utiliza al modelo de independencia como referente, nos está indicando con un
valor de ____ que el modelo propuesto es un ___ mejor que el modelo base. (>0.9)

*Criterio mixto (Hu & Bentler, 1999): SRMR < .08 y RMSEA < .05; SRMR < .08 y CFI > .95

Ajuste local: para valorar el ajuste local, se llevan a cabo dos estrategias:
- Inspeccionar la matriz residual de las correlaciones para ver si existen discrepancias
grandes (valores mayores a 0.10) o la matriz estandarizada para ver si alguno de sus
valores es sign. (>1.96)
- Estimaciones de los parámetros: se debe reportar todos (pesos factoriales (en R
latent variables) varianzas error (en R variances de cada vv.), varianzas factor).
- Consultar los índices de modificación: si existe alguno con un valor de Xd muy alto,
comentar si hay unos cuantos que deberían ser inspeccionados y valorar si existe
alguna "zona" dentro del modelo que pudiese estar incorrectamente especificada.

5. Conclusiones: el modelo analizado ofrece buen ajuste/mal ajuste. Podría ser


respecificado o no bla bla.

Por último, se podría comparar el modelo propuesto con algún otro equivalente (o
reespecificado) ~ es decir volver a estimar y comparar su cambio de ajuste en
modelos anidados o comparar con BIC/AIC si no lo están.