Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Cea, M. Á. (2004). Análisis multivariable. Teoría y práctica en la investigación social. Madrid: Síntesis.
Lévy-Mangin, J. P., & Varela-Mallou, J. (2006). Modelización con Estructuras de Covarianzas en Ciencias Sociales. La Coruña:
Netbiblo.
El problema de la identificación hace referencia a si es posible encontrar soluciones numéricas para todos los parámetros estructurales.
Es decir, cada parámetro (𝜽) debe poder ser calculado a partir de la información presente en la matriz de covarianzas poblacional
(𝜮) o muestral (S). Para esto caben tres soluciones posibles:
Modelo exactamente identificado: Se podrá estimar cada parámetro estructural a partir de una única combinación de los
elementos de la matriz 𝛴, por lo que tendrán una solución única.
Modelo sobre-identificado: Estando todos los parámetros identificados, al menos un parámetro podrá obtenerse a partir de
dos o más ecuaciones diferentes.
Modelo infra-identificado: No será posible establecer ecuaciones de covarianza para alguno de los parámetros, por lo que no
todos podrán ser estimados.
Regla t (Bollen, 1989): El número de parámetros a estimar ha de ser igual o inferior al número de momentos no redundantes
de la matriz 𝛴.
𝑡 ≤ 𝑝(𝑝 + 1)/2
𝑡: 𝑛ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑝𝑎𝑟á𝑚𝑒𝑡𝑟𝑜𝑠 𝑙𝑖𝑏𝑟𝑒𝑠
𝑝: 𝑛ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑣𝑎𝑟𝑖𝑎𝑏𝑙𝑒𝑠 𝑜𝑏𝑠𝑒𝑟𝑣𝑎𝑏𝑙𝑒𝑠
Grados de libertad:
𝑝(𝑝 + 1)
𝑚= 𝐺𝐿 = 𝑚 − 𝑡 𝐺𝐿 ≥ 0
2
Los grados de libertad deben tener un valor igual o
m: momentos no redundantes de la GL: grados de
superior a 0 para posibilitar la identificación del
matriz libertad
modelo.
1
El documento se basa en la sistematización de fragmentos y transcripciones de los textos señalados al comienzo.
1
Condiciones suficientes aunque no necesarias para la identificación
Que haya al menos tres indicadores por variable latente (en el caso de disponer únicamente de dos indicadores será necesario
que exista correlación entre los factores).
Que cada fila de la matriz 𝛬 tenga un solo elemento distinto de 0. Es decir, que en la matriz de saturaciones, cada indicador
tenga un solo 𝜆, o sea, está siendo afectado por un único factor.
Que la matriz 𝛩 sea diagonal. Es decir, que los errores no deben estar correlacionados.
Virtualmente, cualquier modelo que cumpla las condiciones anteriores estará identificado o sobre-identificado, y se podrá
proceder a la estimación de sus parámetros. En el caso de que alguna de las condiciones no se cumpla (por ejemplo, si hay
errores correlacionados), al no ser esta una regla necesaria, no se excluirá la identificación del modelo.
Fijación de parámetros
Para poder posibilitar la identificación y la posterior estimación de los parámetros del modelo, es necesario imponer restricciones
fijando alguno de esos parámetros a una constante.
Esta fijación a priori se basa en la necesidad de otorgarle una escala de medida a las variables latentes, dado que, al ser constructos
que no se miden en forma directa, carecen de métrica.
Para esto, habitualmente se iguala a 1 la saturación (𝜆) de un indicador por variable latente, de tal forma que el indicador elegido
actuará como variable de referencia de ese constructo.
Otra opción es estandarizar las variables latentes fijando de antemano su varianza a 1. Esta solución resulta útil cuando la métrica de
los indicadores de una misma variable latente sea diferente.
Los errores también son variables latentes, por lo tanto se deben imponer restricciones del mismo modo que con los factores. Sin
embargo, estos son considerados también como parámetros libres.
𝑝(𝑝 + 1) 7(7 + 1) 11 ≥ 0
Grados de libertad 𝐺𝐿 = −𝑡 𝐺𝐿 = − 17 = 11
2 2 Sí cumple
Parámetros libres 𝑡 = 17, (4𝜆, 7𝛿, 6𝜑)
7(7 + 1) 17 ≤ 28
Regla t (𝑡 ≤ 𝑚) 𝑚= = 28
2 Sí se cumple la Regla t
𝑖=2
Número mínimo de indicadores por variable latente
Cumple con el mínimo, y con la correlación entre factores necesaria
Indicador afectado por un factor único Sí cumple
Errores no correlacionados Sí cumple
Parámetros fijos 𝜆1 , 𝜆4 , 𝜆6
2
Este examen permite concluir que el modelo está sobre-identificado y que es posible proceder a la estimación de sus parámetros. Sin
embargo el modelo puede estar empíricamente no identificado. Es decir, que pese al cumplimiento teórico de las reglas de
identificación, la estimación del modelo proporciona coeficientes erróneos para algunos de sus parámetros. Las estimaciones
infractoras más comunes son:
Son errores frecuentes que denotan problemas en la especificación o identificación del modelo. Las soluciones pasan por aumentar el
tamaño de la muestra, modificar el modelo o fijar a un valor los parámetros “problemáticos”. En el caso de los casos Heywood, la
solución habitual es fijar el parámetro a un valor positivo próximo a 0. Sea cual sea la solución, el modelos debe ser reestimado
posteriormente, comprobando que todos los parámetros obtenidos estén dentro de los valores aceptables.
El proceso de estimación tiene como objetivo encontrar los valores de 𝛬𝑥 , 𝛷 𝑦 𝛩𝛿 que generen una matriz de covarianza estimada
𝛴(𝜃̂) tan próxima como sea posible a la matriz de covarianza muestral 𝑆 que, supuestamente, será un estimador consistente de la
matriz de covarianzas poblacional (𝑆 = 𝛴). De esta forma, los momentos de la matriz residual 𝑅 obtenida de la resta entre ambas
matrices (𝑆 − 𝛴(𝜃̂)) deberán arrojar unos valores próximos a 0.
Para determinar el grado de proximidad entre ambas matrices es preciso definir una función de ajuste, la cual será aplicada sobre
todas las matrices que satisfagan las restricciones impuestas al modelo. El objetivo último será obtener, del conjunto de posibles
valores de los parámetros, aquellos que generen una matriz estimada 𝛴(𝜃̂) que minimice su función de ajuste con 𝑆:
𝐹 (𝑆 − 𝛴(𝜃̂)) ≈ 0
Existen varias funciones de ajuste que difieren según el método de estimación de parámetros empleado 2. Estos métodos son
iterativos, es decir, implican una serie de intentos de lograr estimaciones de los parámetros “libres” de la matriz de datos observada,
en relación con aquella matriz que resultaría si los parámetros libres fuesen sustituidos en el modelo.
El proceso iterativo concluye cuando la diferencia entre ambas matrices, la matriz observada y la matriz predicha, no puede
minimizarse más (esto se resume en la matriz de residuos). El grado de correspondencia alcanzado entre las matrices se resume en
un único número, “el valor de la función de ajuste” y es el punto de partida para la elaboración de los índices de bondad de ajuste del
modelo. Cuanto más se aproxime su valor a 0, mayor es el ajuste de las matrices: más se asemeja la matriz predicha a la matriz
observada.
2
La descripción de los métodos de estimación se basa en Cea (2004).
3
combinaciones relevantes de los predictores); e independencia de los residuos (estos se distribuyen normalmente y no deben
relacionarse con predictores exógenos).
Un tamaño muestral elevado facilita el cumplimiento de estos supuestos y favorece la convergencia de las estimaciones
muestrales con los parámetros poblacionales, además de la normalidad de la distribución muestral de los estimadores.
Se adecúa mejor a tamaños muestrales grandes y a distribuciones muestrales multivariadas.
Cuando la muestra supera, al menos, los 100 casos, es posible obtener coeficientes estimados carentes de sesgo3.
Es invariante de la escala de medición de las variables.
Mínimos cuadrados generalmente ponderados (WLS)
Como desventaja, se señala su requerimiento de un tamaño muestral elevado.
Mínimos cuadrados diagonalmente ponderados (DWLS)
Es una alternativa a WLS cuando el número de variables es elevado.
Se recomienda cuando se analizan matrices de correlación.
Adecuado para variables ordinales.
Estimador ADF: Asymptotically Distribution Free / Estimador AGLS de mínimos cuadrados generalizados arbitrarios
Resiste el incumplimiento del supuesto de normalidad.
Requiere el cumplimiento del supuesto de homocedasticidad.
Precisa de un tamaño muestral muy elevado para la realización adecuada del estadístico 𝜒 2 . Cuando el tamaño muestral es
pequeño o moderado, ADF genera estadísticos 𝜒 2 muy elevados, lo que repercute negativamente en el ajuste del modelo
empírico con el teórico.
Los índices de bondad de ajuste informan sobre hasta qué punto la estructura definida a través de los parámetros del modelo
reproduce la matriz de covarianzas de los datos muestrales. Este es un proceso más relativo que absoluto, por esto se recomienda la
evaluación complementaria de tres tipologías de índices de ajuste global.
Por lo tanto, se busca un 𝒑 ≥ 𝟎, 𝟎𝟓, es decir, que la prueba no sea significativa. Esto implica que el ajuste es perfecto
cuando 𝝌𝟐 se aproxima a 𝟎.
- Los grados de libertad dependen del número de variables incluidas en el modelo:
1
𝐺𝐿 = [(𝑝 + 𝑞)(𝑝 + 𝑞 + 1] − 𝑡
2
𝑝: 𝑛ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑣𝑎𝑟𝑖𝑎𝑏𝑙𝑒𝑠 𝑜𝑏𝑠𝑒𝑟𝑣𝑎𝑑𝑎𝑠 𝑒𝑥ó𝑔𝑒𝑛𝑎𝑠
𝑞: 𝑛ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑣𝑎𝑟𝑖𝑎𝑏𝑙𝑒𝑠 𝑜𝑏𝑠𝑒𝑟𝑣𝑎𝑑𝑎𝑠 𝑒𝑛𝑑ó𝑔𝑒𝑛𝑎𝑠
𝑡: 𝑛ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑝𝑎𝑟á𝑚𝑒𝑡𝑟𝑜𝑠 𝑖𝑛𝑑𝑒𝑝𝑒𝑖𝑒𝑛𝑡𝑒𝑠 𝑒𝑠𝑖𝑡𝑚𝑎𝑑𝑜𝑠 𝑒𝑛 𝑒𝑙 𝑚𝑜𝑑𝑒𝑙𝑜
3
Esto significa que si se extrae, de la misma población, un número infinito de muestras del mismo tamaño, el valor medio de los
coeficientes estimados equivale al correspondiente en la población a la que pertenece la muestra analizada.
4
- Es independiente del tamaño muestral.
- Como desventaja, se señala que no considera el número de parámetros empleados para la consecución de un buen ajuste.
- Su valor oscila entre 0,0 y 1,0. Un 𝑮𝑭𝑰 = 𝟎, 𝟎 indica un mal ajuste del modelo, mientras que un 𝑮𝑭𝑰 = 𝟏, 𝟎 expresa un
ajuste perfecto.
- El valor de referencia habitual para considera un modelo aceptable es 0,90. Por debajo de este valor, se cuestiona el
ajuste del modelo.
Raíz cuadrada de la media de residuos cuadrados (RMSR: Root Mean Square Residual)
- Se basa directamente en los residuos. Si éstos se aproximan a 0, el valor de RMSR será 0, lo que significa que el ajuste
es perfecto. En general, cuanto más bajo sea su valor, mejor es el ajuste.
- Suele aplicarse con correlaciones y no con covarianzas.
- Su funcionamiento mejora cuando todas las variables observadas están estandarizadas.
Raíz cuadrada de la media del error de aproximación (RMSEA: Root Mean Square Error of Approximation)
- Un 𝑹𝑴𝑺𝑬𝑨 = 𝟎, 𝟎 corresponde a un modelo que ajusta perfectamente. El valor mínimo recomendado para un buen
ajuste, en relación con los grados de libertad es 0,05. Todo valor menor o igual a dicho referente indica que el modelo
ajusta bien.
- Un RMSEA entre 0,05 y 0,08 expresa un error razonable de aproximación del modelo. Cuando 𝑹𝑴𝑺𝑬𝑨 ≥ 𝟎, 𝟏 significa
que el modelo es totalmente desaconsejable.
- Entrega una prueba de significación en que la hipótesis nula indica que 𝑹𝑴𝑺𝑬𝑨 = 𝟎, 𝟎 y la hipótesis alternativa es que
el índice es distinto de 0,0. Por lo tanto, precisa un valor 𝒑 ≥ 𝟎, 𝟎𝟓 para poder afirmar que el modelo ajusta bien.
Índices de ajuste incremental
Comparan el ajuste global del modelo propuesto con un modelo de referencia, habitualmente un modelo nulo en el que no se
especifica ninguna relación entre las variables.
Índice de Tucker Lewis (TLI, 𝜌2 , Rho 2)
- Cuantifica el grado al que un modelo particular es una mejora sobre un modelo nulo, preferiblemente cuando se estima
por el método de ML.
- Es útil para comparar modelos alternativos.
- El rango de valores va de 0,0 a 1,0. Todo valor ≥ 𝟎, 𝟗𝟎 indica un buen ajuste del modelo propuesto.
- Su valor aumenta con el tamaño muestral, aunque resulta menos afectado que el RLI.
Índice de ajuste comparativo (CFI: Comparative Fit Index)
- Su valor va de 0,0 (inexistencia de ajuste) a 1,0 (ajuste perfecto). Todo valor inferior a 0,90 expresa que el modelo
propuesto es cuestionable.
- Se ve afectado negativamente por el incumplimiento del supuesto de normalidad multivariante (subestimación del modelo
empírico).
- Actúa adecuadamente con muestras pequeñas.
Entre los factores que inciden en el cálculo de los índices se encuentran el método de estimación, el tamaño de la muestra, y la
distribución de los datos.
5
Si bien la mayoría de los índices varían en un mismo sentido y existe un alto grado de acuerdo entre ellos, en ocasiones se producen
resultados dispares en la evaluación de un mismo modelo. Además, los distintos índices enfatizan diferentes aspectos del ajuste del
modelo. Si se da el caso de que alguno de los índices diverge de los demás, es necesario indagar en sus supuestos y en las características
de los datos con el fin de averiguar el origen de esa diferencia.
𝜒 2 estadísticamente no significativo (𝑝 > 0,05), que coincide con un valor de 𝜒 2 pequeño (𝜒 2 = 0,0 indica un ajuste perfecto)
GFI grande (≥ 0,90)
RMSR pequeño (𝑅𝑀𝑆𝑅 = 0,0, ajuste perfecto)
CI grande (≥ 0,90)
Índices de ajuste incremental (TLI, RFI, NFI, IFI, CFI, RNI) elevados (≥ 0,90)
𝜒 2 normado < 2,0 (a veces hasta incluso 5,0)
AGFI y PGFI ≥ 0,90
𝑅𝑀𝑆𝐸𝐴 ≤ 0,05 (𝑅𝑀𝑆𝐸𝐴 = 0,0, ajuste perfecto)
AIC pequeño
𝐶𝑁 ≥ 200
Reespecificación
Saturaciones cruzadas: Su utilidad se relaciona con el análisis de la multicolinealidad. Si un indicador muestra relaciones
significativas con algún factor diferente al especificado inicialmente en el modelo ,será conveniente eliminarlo con el objetivo de
favorecer la discriminación entre constructos
6
En el caso de que la muestra sea demasiado amplia, los estadísticos t rara vez serán no significativos, debido a que el error típico
desciende a medida que aumenta el tamaño muestral. En estos casos, es manifiesta la utilidad de los índices de fiabilidad y validez de
cada uno de los indicadores y de los constructos que representan, para proceder a la correcta especificación del modelo.
La reespecificación del modelo original debe llevarse a cabo en forma gradual y con justificación en teoría que sustente el cambio
o corrección impuesta. La reespecificación debe hacerse en forma secuencial, eliminando los parámetros uno a uno.
Fiabilidad y validez de los modelos de medida
Los modelos de medida basados en estructuras de covarianzas cuentan con índices de fiabilidad y validez complementarios que
permiten evaluar los componentes que integran la estructura factorial del modelo.
Índices de fiabilidad
Coeficiente de determinación para cada ecuación factorial 𝑅𝑥 2. Corresponde al coeficiente de correlación múltiple al cuadrado para
cada variable observable:
𝑉𝑎𝑟(𝑑𝑖 )
𝑅𝑥 2 = 1 −
𝜎̂𝑖2
Es una medida directa de fiabilidad que informa de la adecuación de los indicadores en la medición de variables latentes, es decir,
informa de esa parte de la medida de un indicador que está libre del error puramente aleatorio. Lo ideal es obtener altos 𝑅2 , ya que
indicará que las medidas obtenidas constituyen buenos indicadores de las variables latentes. Es recomendable que las fiabilidades de
cada indicador excedan el umbral de 0,50.
Fiabilidad compuesta de cada constructo. Forma parte de la consistencia interna en la medición del constructo.
2
(∑ 𝜆𝑗𝑠 )
𝜌𝛼 = 2
(∑ 𝜆𝑗𝑠 ) + ∑ 𝜀𝑗
Este índice debe ser calculado para cada constructo, siendo recomendable que el valor obtenido sea igual o superior a 0,70. Cuanto
mayor sea la fiabilidad del constructo, mayor será la consistencia interna de sus indicadores.
Varianza extraída. Informa de la cantidad total de varianza de los indicadores tenida en cuenta por el constructo latente.
∑ 𝜆𝑗𝑠 2
𝑉𝑎𝑟𝑖𝑎𝑛𝑧𝑎 𝑒𝑥𝑡𝑟𝑎í𝑑𝑎 =
∑ 𝜆𝑗𝑠 2 + ∑ 𝜀𝑗
A medida que los indicadores son más representativos del constructo latente, mayor es el valor de la varianza extraída, siendo
recomendable que iguale o supere el umbral de 0,50.
Índices de validez
El CFA en sí mismo, supone una prueba de validez de constructo. Es posible definir la validez de una medida 𝑋𝑖 para el constructo
𝜉𝑗 como la magnitud de la relación estructural directa entre 𝑋𝑖 y 𝜉𝑗 .
Coeficiente de validez estandarizado (𝜆𝑖𝑗 𝑠 ). Análogo al coeficiente de regresión estandarizado. Es útil para la comparación de los
efectos de variables con escalas de medida desiguales.
7
Recursos web
http://lavaan.ugent.be/tutorial/index.html
http://jonathantemplin.com/files/multivariate/mv11icpsr/mv11icpsr_lecture12.pdf
http://jeromyanglim.tumblr.com/post/33556941601/lavaan-cheat-sheet