Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Los presentes apuntes forman parte del borrador del libro de Joaquín
Aldás y Ezequiel Uriel Análisis Multivariante Aplicado que será
próximamente publicado por la editorial Thomson-Paraninfo. Por lo
tanto, como tal borrador pueden existir erratas, siendo bienvenidos todos
los comentarios que las detecten y sugerencias sobre la mejora del
capítulo.
2
13 ECUACIONES ESTRUCTURALES:
ANÁLISIS FACTORIAL CONFIRMATORIO
13.1 INTRODUCCIÓN
Muchos son los textos que el lector puede utilizar para profundizar en el análisis del AFC que,
en su gran mayoría, también incluyen el desarrollo de los modelos de estructuras de
covarianza. La elección de uno u otro suele ir ligada a la decisión acerca del programa
estadístico que se prefiera utilizar. El SPSS incluía, hasta hechas recientes, el programa
LISREL (Jöreskog y Sörbom, 1989) como módulo opcional, convirtiéndolo en el de uso más
extendido. Si se opta por este programa, Sharma (1996) ofrece una buena introducción con
salidas comentadas o, si se prefiere un texto con mayor profundidad, puede recurrirse a Long
(1983). Si, por el contrario, el lector opta por el EQS (Bentler, 1995), con un sistema de
notación mucho más intuitivo en nuestra opinión (Bentler y Weeks, 1980), una buena guía es,
sin duda, el texto de Byrne (1994). Una buena alternativa para aquellos que no se atreven a
decidirse por uno u otro tipo de software, es recurrir al módulo CALIS del SAS, que permite
utilizar alternativamente cualquiera de las dos notaciones. En este caso, Hatcher (1994) es un
buen texto. Finalmente, puede recurrirse a Ullman (1996) para una aproximación a esta
técnica con salidas comparadas de todos los programas mencionados.
3
Dado que, como hemos indicado, la notación de Jöreskog y Sörbon (1989) es la más
conocida, será la que utilizaremos en el desarrollo del tema. Sin embargo, llegado el
momento, presentaremos también la de Bentler y Weeks (1980) y demostraremos la
equivalencia de ambas.
Supongamos que un investigador ha recogido las notas de 275 alumnos de secundaria en seis
asignaturas: Lengua (L), Filosofía (FSF), Historia (H), Matemáticas (M), Física (FSC) y
Química (Q). En el cuadro 13.1 se recogen las correlaciones entre estas seis variables. Nuestro
investigador se plantea una cuestión a la que quiere dar respuesta. Asumiendo que las notas de
un alumno miden su inteligencia (I), desearía saber si estas se agrupan en un único factor (la
inteligencia) o, por el contrario, miden distintos aspectos de la misma, por ejemplo, la
inteligencia cuantitativa (IQ) y la inteligencia verbal (IV).
Cuadro 13.1 Matriz de correlaciones entre las notas de los 275 estudiantes
L FSF H M FSC Q
X1=L 1
X2=FSF 0,493 1
X3=H 0,401 0,314 1
X4=M 0,278 0,347 0,147 1
X5=FSC 0,317 0,318 0,183 0,587 1
X6=Q 0,284 0,327 0,179 0,463 0,453 1
Si suponemos que el investigador no tiene una hipótesis a priori acerca de qué estructura es la
adecuada (un único componente de la inteligencia o dos), decidirá efectuar un análisis
factorial exploratorio para ver cuántos factores obtiene. Su planteamiento aparece recogido
gráficamente en la figura 13.1. Las variables observadas o manifiestas o indicadores, es decir,
aquellas que se han medido (las notas en los alumnos en nuestro ejemplo), aparecen insertadas
en un cuadrado y se denotan como X1,...,X6. Las variables latentes, esto es las no observables
o subyacentes (por ejemplo, los factores, como la inteligencia en general, o la inteligencia
verbal o cuantitativa en particular), aparecen rodeadas por círculos. Una flecha recta desde
una variable latente a una variable observada, indica una relación de causalidad. Así el factor
“ξ1” está “causando” las notas de los alumnos en las seis asignaturas, es decir, la mayor o
menor inteligencia “cuantitativa” provoca que los alumnos tengan notas diferentes. El término
λ que aparece en cada una de las relaciones causales o “paths” es el parámetro que mide la
intensidad de la relación, esto es, el término que denominamos “carga factorial” en una
análisis factorial exploratorio, o el coeficiente estandarizado asociado a una variable
independiente en una regresión múltiple.
4
Figura 13.1 Modelo de análisis factorial exploratorio
φ12=φ21
ξ1 ξ2
λ61 λ12
λ11 λ62
λ21 λ31 λ41λ51 λ22 λ32 λ42 λ52
x1 x2 x3 x4 x5 x6
δ1 δ2 δ3 δ4 δ5 δ6
Las variables latentes son de dos tipos. Los mencionados factores comunes (ξ), que son
comunes en cuanto que sus efectos son compartidos por más de una variable observada, y los
factores específicos o errores (δ). Como se comprueba en la figura 13.1, cada uno de estos
factores afecta solamente a una variable observada, y son errores aleatorios que se pueden
haber producido en la medida de la variable observada. Finalmente, la flecha curva con dos
puntas que une a los factores comunes, indica que estas variables están correlacionadas con
una intensidad φ12.
Planteados los convenios de representación y los términos empleados en el AFC que son
comunes a los de los modelos de estructuras de covarianza, que se examinarán en el próximo
tema, nos restaría por señalar las diferencias del análisis factorial confirmatorio con respecto
al análisis factorial exploratorio, examinado en el tema 12, o con respecto al modelo de
estructuras de covarianza.
Volviendo a nuestro ejemplo, el investigador quiere saber si las notas están midiendo un
único componente de la inteligencia o, por el contrario, reflejan el efecto de varios
componentes. Como él no tiene establecida una hipótesis a priori, su análisis factorial ha de
contemplar como plausibles todas las posibilidades. Un caso extremo consistiría en que todas
las variables carguen de forma significativa sobre un solo factor. Un caso intermedio, aunque
puede haber otras muchas combinaciones, consistiría en que un grupo de variables cargue
significativamente sobre un factor y el resto de variables lo haga sobre un segundo factor. La
figura 13.1 recoge todas las posibilidades y, en concreto, estos dos casos. En el primer caso,
λ11, λ21, ... , λ61 serían significativos, mientras que λ12, λ22, ... , λ62 no lo serían. En el segundo
caso, λ11, λ21 y λ31 tendrían un valor significativo y λ41, λ51, λ61 no (las notas en literatura,
filosofía e historia cargan sobre un factor, inteligencia verbal, y no sobre el otro); por otra
parte, λ12, λ22, λ32 tendrían un valor no significativo, mientras que λ42, λ52, λ62 sí (las notas en
5
matemáticas, física y química cargan sobre un factor, la inteligencia cuantitativa). El
investigador debe efectuar un análisis factorial exploratorio con objeto de averiguar cuál de
las dos posibilidades (o cualquiera de las otras muchas que sugiere la figura 13.1) es más
verosímil de acuerdo con los datos.
El investigador puede plantearse otra hipótesis alternativa según la cual, sí existe una sola
medida global de la inteligencia que, a su vez, causa la inteligencia verbal y la cualitativa
(figura 13.3). Su misión consistiría, ahora, en determinar cuál de los dos modelos es más
verosímil de acuerdo con los datos. En este segundo caso, ha establecido una relación de
causalidad, no de correlación, entre una o más variables latentes. El modelo deja de ser un
AFC para convertirse en un modelo de estructuras de covarianza. Nótese en la figura 13.3
que, ahora, los factores ξ1 y ξ2 no son variables independientes (además de salir una flecha
causal de ellas, también la reciben), por lo que están sujetos a un error de predicción que se
denomina perturbación (disturbance) y que se suele denotar mediante la letra ζ. Los
coeficientes de estos path se designan con la letra β.
φ12=φ21
ξ1 ξ2
λ11 λ42
λ21 λ31
λ52 λ62
x1 x2 x3 x4 x5 x6
δ1 δ2 δ3 δ4 δ5 δ6
θ12=θ21 θ32=θ23 θ45=θ54 θ56=θ65
θ13=θ31 θ46=θ64
6
Figura 13.3 Modelo de estructuras de covarianzas
ξ3
β13 β23
ξ1 ξ2
ζ1 ζ2
λ11 λ42
λ21 λ31
λ52 λ62
x1 x2 x3 x4 x5 x6
δ1 δ2 δ3 δ4 δ5 δ6
x1 = λ11ξ1 + δ1
x2 = λ21ξ1 + δ 2
x3 = λ31ξ1 + δ 3
x4 = λ42ξ 2 + δ 4
x5 = λ52ξ 2 + δ 5
x6 = λ62ξ 2 + δ 6
⎡ x1 ⎤ ⎡ λ11 0 ⎤ ⎡ δ1 ⎤
⎢ ⎥ ⎢ ⎥ ⎢ ⎥
⎢ x2 ⎥ ⎢ λ21 0 ⎥ ⎢δ2 ⎥
⎢ x ⎥ ⎢λ 0 ⎥ ⎡ ξ1 ⎤ ⎢ δ 3 ⎥
⎢ 3 ⎥ = ⎢ 31 ⎥ +⎢ ⎥
⎢ x ⎥ ⎢ 0 λ ⎥ ⎢ξ ⎥ ⎢δ ⎥
⎢ 4⎥ ⎢ 42 ⎥ ⎣ 2 ⎦ ⎢ 4 ⎥
⎢ x5 ⎥ ⎢ 0 λ52 ⎥ ⎢ δ5 ⎥
⎢ ⎥ ⎢ ⎥ ⎢ ⎥
⎢⎣ x6 ⎥⎦ ⎢⎣ 0 λ62 ⎥⎦ ⎢⎣ δ 6 ⎥⎦
o de manera compacta:
7
x = Λξ + δ (13-1)
donde, en general, x es un vector q×1 que contiene las q variables observadas, ξ es un vector
s ×1 que contiene los s factores comunes, Λ es una matriz q×s que contiene las cargas
factoriales de las variables latentes y δ es un vector q×1 de los factores específicos o errores.
Asumimos que el número de variables observadas será siempre mayor que el de factores
comunes, o lo que es lo mismo que q>s.
Tanto las variables latentes como las observadas de la expresión (13-1) vienen expresadas
como desviaciones sobre la media, con lo que la esperanza de cada vector es otro vector de
ceros:
Este desplazamiento respecto al origen, no afecta a las covarianzas entre las variables.
Σ = E ( xx′ ) = E ⎡ ( Λξ + δ )( Λξ + δ )′ ⎤
⎣ ⎦
Teniendo en cuenta que la traspuesta de una suma de matrices es la suma de las traspuestas y
que la traspuesta de un producto es el producto de las traspuestas en orden inverso, tenemos
que:
Σ = E [ ( Λξ + δ )( ξ′Λ′ + δ′ ) ]
Dado que la matriz Λ no contiene variables aleatorias, al ser constantes los parámetros
poblacionales, se tiene que:
Si hacemos
Φ = E [ ξξ′ ]
Θ = E [ δδ′ ]
y asumimos que δ y ξ están incorrelacionados entre sí, la expresión (13-2) puede escribirse
del siguiente modo:
8
Σ = ΛΦΛ ′ + Θ (13-3)
⎡ λ11 0 ⎤
⎢ ⎥ ⎡ θ11 θ12 θ13 0 0 0 ⎤
⎢ λ21 0 ⎥ ⎢θ
21 θ 22 θ 23 0 0 0 ⎥
⎢λ ⎢ ⎥
0 ⎥ ⎡ φ11 φ12 ⎤ ⎢ θ 31 θ 32 θ 33 0 0 0 ⎥
Λ= ⎢ 31 ⎥ ; Φ=⎢
⎢ 0 λ ⎥ ⎥; Θ = ⎢ 0 ⎥
42 ⎣ φ12 φ22 ⎦ ⎢ 0 0 θ 44 θ 45 θ 46 ⎥
⎢ ⎥
⎢ 0 λ52 ⎥ ⎢ 0 0 0 θ 54 θ 55 θ 56 ⎥
⎢ ⎥ ⎢ ⎥
λ ⎢ 0
⎣ 0 0 θ 64 θ 65 θ 66 ⎦⎥
⎣⎢ 0 62 ⎦⎥
donde los subrayados indican que esos elementos de las matrices Λ y Θ son 0 por la
especificación concreta que tiene el modelo que se quiere contrastar. Lógicamente, si el
investigador asumiera otras hipótesis la configuración de estas matrices sería distinta. De
hecho, tal como hemos comentado anteriormente, en general, la matriz Θ tiene 6(6+1)/2 = 21
elementos distintos a estimar (el triángulo inferior), mientras que en nuestro caso, dado el
modelo especificado, sólo hay 12.
¿A qué se reduce, a grandes rasgos, el método AFC? La finalidad de este método es obtener
estimaciones de las matrices Λ, Φ y Θ que hagan que la matriz de varianzas y covarianzas
poblacional estimada Σ obtenida a partir de ellas, sea lo más parecida posible a la matriz de
varianzas y covarianzas muestral que se obtiene a partir de los valores muestrales de las
variables observadas. Pero para poder entrar en el procedimiento de estimación, es necesario
abordar previamente el problema de la identificación que se plantea en el método AFC.
En el epígrafe anterior, hemos visto que en el método AFC disponemos de una serie de datos
(las varianzas y covarianzas muestrales de las variables observadas) y con ellos hemos de
estimar una serie de parámetros (cargas factoriales, varianzas y covarianzas de los factores
comunes, y varianzas y covarianzas de los factores específicos o errores). Al igual que ocurre
1
Para determinar el número de varianzas y covarianzas distintas, téngase en cuenta que Σ es una matriz q × q
simétrica
9
con un sistema de ecuaciones lineales, podemos disponer en principio de más ecuaciones que
incógnitas, del mismo número o de mayor número de incógnitas que ecuaciones. Pues bien, la
identificación del modelo en el AFC hace referencia, precisamente, a la cuestión de si los
parámetros del modelo pueden o no ser determinados de forma única.
En palabras de Long (1983), si se intenta estimar un modelo que no esté identificado, los
resultados que se obtendrán serán estimaciones arbitrarias de los parámetros lo que
desembocará en interpretaciones carentes de sentido. En el apéndice A13.1 se demuestra
cómo, si no se imponen restricciones a los parámetros a estimar, necesariamente habrá un
número infinito de soluciones posibles para los mismos.
¿Qué tipo de restricciones pueden imponerse a los parámetros? Por ejemplo, si una carga
factorial λij de la matriz Λ se fija a 0, estaremos indicando que el factor ξj no afecta
causalmente a la variable observada xi. Si fijamos a 0 el elemento φij de la matriz Φ,
estaremos señalando que los factores ξi y ξj están incorrelacionados. Si todos los elementos de
la matriz Φ fuera de la diagonal se fijan a 0, los factores serán ortogonales (como ocurre en el
análisis factorial exploratorio, por ejemplo). Restricciones similares se pueden imponer a los
elementos de la matriz Θ.
Long (1983) señala que existen una serie de condiciones para que el modelo esté identificado:
necesarias (si no se dan, el modelo no está identificado), suficientes (si se dan el modelo está
identificado, pero si no se dan no tiene porqué no estarlo) y necesarias y suficientes (si se dan
el modelo está identificado y si no se dan está no identificado). No hay acuerdo entre la
literatura acerca de si existen o no las condiciones necesarias y suficientes. Jöreskog y
Sörbom (1989) señalan que el análisis de la llamada matriz de información, construida a partir
de la matriz de varianzas y covarianzas de los estimadores de los parámetros, puede servir
para establecer si el modelo está identificado. Estos autores señalan que “si la matriz de
información es definida positiva es casi seguro que el modelo está identificado. Por el
contrario, si la matriz de información es singular, el modelo no está identificado”. Las
cursivas son de Long (1983) y las introduce porque indica que, dado que los programas
existentes verifican esta condición, si no hacen advertencias acerca de problemas en esta
matriz, estaríamos ante un buen indicador de que el modelo está identificado pero, en su
opinión, aún siendo la matriz definida positiva es posible, aunque improbable, que el modelo
no esté identificado. Otros autores, como Hatcher (1994) y Ullman (1996) confían también en
las advertencias de los programas como indicadores de no identificación. En general, la
mayoría de textos optan por recomendar que se comprueben una serie de condiciones
necesarias que suelen demostrarse como lo suficientemente exigentes para garantizar la
identificación del modelo. Siguiendo a Hatcher (1994) y Ullman (1996), el investigador
debería centrarse en las siguientes tareas:
1. Comparar el número de datos con el número de parámetros que han de estimarse. Los
datos son siempre las varianzas-covarianzas muestrales, y hemos visto que existen
q(q+1)/2. Como el número de parámetros a estimar es qs+[s(s+1)/2]+[q(q+1)/2], el
modelo estará sin identificar si no se imponen, al menos, qs+[s(s+1)/2] restricciones.
Decimos “al menos” porque sólo si hay más datos que parámetros, el modelo está
sobreidentificado (caso particular de identificación), lo que hace que, al existir grados
de libertad, será posible la aceptación o el rechazo del modelo.
2. Establecer una escala para los factores comunes. Esto se consigue fijando la varianza
de cada factor común a 1 o el coeficiente de regresión (carga factorial) de una de las
variables observadas que cargan sobre cada factor a 1. Si esto no se hace se produce el
10
denominado problema de indeterminación entre la varianza y las cargas factoriales, es
decir, es imposible distinguir entre los casos en los que un factor tiene una varianza
grande y las cargas son pequeñas y el caso en que las varianzas son pequeñas y las
cargas altas.
3. Asegurar la identificabilidad de la parte del modelo que contiene la relación entre las
variables observadas y los factores. Para ello debe analizarse el número de factores y
el número de variables observadas que cargan sobre cada factor. Si solo hay un factor,
el modelo puede estar identificado si el factor tiene al menos tres variables con cargas
no nulas sobre él. Si hay dos o más factores, examínese el número de variables
observadas de cada factor. Si cada factor tiene tres o más variables que cargan sobre
él, el modelo puede estar identificado si los errores asociados con los indicadores no
están correlacionados entre sí, cada variable carga sólo sobre un factor y los factores
pueden covariar entre ellos. Si sólo hay dos indicadores por factor, el modelo puede
estar indentificado si los errores asociados con cada indicador no están
correlacionados, cada indicador carga sólo sobre un factor y ninguna de las
covarianzas entre los factores es igual a cero.
4. Fijar arbitrariamente el coeficiente de regresión del término de error al valor 12.
La aplicación de las condiciones expuestas al modelo de la figura 13.2, que nos viene
sirviendo de ejemplo, se ilustran en figura 13.4.
ξ1* ξ2 *
1=λ11 1=λ42
x1 x2 x3 x4 x5 x6
1 1 1 1 1 1
0=θ13=θ31 0=θ46=θ64
2
En el modelo (13-1), como puede verse, los coeficientes correspondientes al término de error (δ) son 1. Sin
embargo, en algunos programas de ordenador para tratamiento del AFC se permite fijar los coeficientes δ a
valores distintos de 1.
11
En primer lugar, recordemos que disponemos para estimar el modelo señalado de
6(6+1)/2=21 datos, que se corresponden con las varianzas covarianzas de las variables
observadas. Tenemos que estimar, en principio, 6×2+(2×3/2)+(6×7/2)=36 parámetros. Estos
parámetros son 12 coeficientes de regresión (cargas factoriales), la varianza de los 2 factores
comunes, la covarianza entre ellos, 6 coeficientes de regresión entre las variables observadas
y los factores específicos, las 6 varianzas de los factores específicos y las 15 covarianzas entre
esos factores específicos.
Veamos en qué medida las condiciones de determinación anteriores influyen en esta situación.
Finalmente, los coeficientes de regresión entre las variables observadas y los términos de
error se han fijado arbitrariamente a 1.
Tras haber efectuado estas restricciones, cabe preguntarse ¿el modelo está identificado, o
sobreidentificado, y, en consecuencia, puede ser sometido a contraste? En otras palabras,
¿hay más datos que parámetros a estimar? O, análogamente, ¿disponemos de grados de
libertad suficientes? Los datos son, según hemos visto, 21, mientras que los parámetros a
estimar son los siguientes:
Es decir, hay 13 parámetros a estimar, con lo que tenemos 8 grados de libertad, dado que el
número de datos es 21. Por tanto, el modelo puede someterse a contraste. A continuación
aprovecharemos el ejemplo para presentar la sintaxis que nos permite estimarlo mediante uno
de los programas que indicábamos al comienzo del capítulo, concretamente, el EQS.
El EQS se basa en la notación de Bentler y Weeks (1980) que se limita a distinguir entre
variables dependientes e independientes en el AFC. Una variable será independiente cuando
de ella sólo salga una flecha causal y será dependiente si recibe alguna. Este programa denota
como Vi a las variables observadas, como Fi a los factores comunes y como Ei a los factores
12
específicos. Si un parámetro se ha de estimar, aparece señalado con un asterisco en la
ecuación correspondiente y si se ha fijado que toma un valor determinado, se indica
expresamente. Las covarianzas, de no especificarse, se suponen que son nulas.
El cuadro 13.2 muestra la sintaxis del EQS para estimar el modelo de AFC, tal y como se ha
especificado en la figura 13.4.
/TITLE
CFA INTELIGENCIA VERBAL Y CUANTITATIVA
/SPECIFICATIONS
CASE=275; VAR=6; ME=ML; MA=COR; ANAL=COV;
/MATRIX
1.000
0.493 1.000
0.401 0.314 1.000
0.278 0.347 0.147 1.000
0.317 0.318 0.183 0.587 1.000
0.284 0.327 0.179 0.463 0.453 1.000
/STANDARD DEVIATIONS
1.0900 0.5900 0.9800 1.1000 0.4100 1.1100
/LABELS
V1=L; V2=FSF; V3=H; V4=M; V5=FSC; V6=Q;
F1=IV; F2=IQ;
/EQUATIONS
V1= F1+E1;
V2=*F1+E2;
V3=*F1+E3;
V4= F2+E4;
V5=*F2+E5;
V6=*F2+E6;
/VARIANCES
F1 TO F2=*;
E1 TO E6=*;
/PRINT
EFFECT=YES;
FIT=ALL;
/COVARIANCES
F1 TO F2=*;
/LMTEST
/WTEST
/END
3
En el epígrafe siguiente se examinarán los métodos de estimación
13
correlaciones, lo que se hace bajo el apartado /MATRIZ y, en segundo lugar, para que el EQS
realice el análisis en términos de matriz de varianzas covarianzas es necesario ofrecerle las
desviaciones típicas de las variables observadas (/STANDARD DEVIATIONS).
V1=F1+E1
V2=*F1+E2
el coeficiente del término de error sigue estando fijado a 1, pero es necesario estimar el
parámetro de F1 (λ21=*).
Todas las varianzas, tanto de los factores específicos como de los comunes han de estimarse,
tal como indica la instrucción /VARIANCES y lo mismo ocurre con las covarianzas ente los
factores comunes F1 y F2 (así lo indica la instrucción / COVARIANCES). Así pues, queda
comprobada la sencillez de la sintaxis del programa cuando seguimos la notación de Bentler y
Weeks (1980), dado que todo se reduce a distinguir entre variables dependientes e
independientes, lo que permite deducir de manera natural las ecuaciones. Las dos últimas
instrucciones (/LMTEST y /WTEST) las analizaremos más adelante. En el epígrafe siguiente,
que dedicamos a la estimación del modelo, comentaremos las salidas resultantes de la
ejecución del programa EQS con la sintaxis anterior.
14
13.4 ESTIMACIÓN DE MODELOS EN EL AFC
A partir de lo descrito, y siguiendo a Sharma (1996), el proceso de estimación del AFC puede
sintetizarse en los dos pasos siguientes:
Σ = ΛΦΛ ′ + Θ
Estimar el modelo, supone encontrar valores, a partir de los datos muestrales, para las
matrices anteriores (que denotamos con “^”) que cumplan las restricciones impuestas en el
proceso de identificación y que hagan que la matriz de varianzas y covarianzas estimada
mediante la expresión siguiente, sea lo más parecida posible a S:
ˆ ˆ ˆ′+Θ
Σˆ = ΛΦΛ ˆ (13-4)
Long (1983) ilustra el proceso de estimación como sigue. Inicialmente existirán infinitas
matrices estimadas de Λ, Φ y Θ que satisfagan la expresión anterior, pero habrá que rechazar
todas aquellas soluciones que no cumplan las restricciones que se han impuesto en la
identificación del modelo. Llamemos genéricamente Λ*, Φ* y Θ* a las matrices que sí
cumplen las restricciones. Esas matrices permiten obtener una estimación de la matriz de
varianzas covarianzas poblacional Σ* mediante (13-4). Si esta última matriz está próxima a S,
entonces las estimaciones de los parámetros contenidas en Λ*, Φ* y Θ* serían razonables en el
sentido de ser consistentes con los datos de S.
Necesitamos una función, a la que denominamos una función de ajuste, que nos indique en
qué medida “Σ* está próxima a S”. Long (1983) denota a estas funciones de ajuste con la
expresión F(S;Σ*) y están definidas para todas las matrices que cumplen las restricciones
marcadas en la identificación del modelo. Si entre dos matrices que cumplen esta condición se
verifica que F(S; Σ1∗ ) < F(S; Σ∗2 ), entonces concluiremos que Σ1∗ está más “próxima” a S que
Σ∗2 . Consecuentemente, aquellos valores de Λ*, Φ* y Θ* que minimizan el valor de F(S;Σ*)
ˆ Θ
serán las estimaciones de los parámetros poblacionales finales Λ, ˆ yΦ
ˆ.
Los procedimientos de estimación que vamos a describir a continuación son los siguientes:
mínimos cuadrados no ponderados, mínimos cuadrados generalizados, máxima verosimilitud,
15
estimación por la teoría de la distribución elíptica y estimación con libre distribución
asintótica.
La estimación por mínimos cuadrados no ponderados ULS (Unweighted Least Squares) toma
como estimadores a los valores que minimizan la siguiente función de ajuste:
FULS ( Σ;Σ∗ ) = tr ⎡ ( S − Σ* ) ⎤
1 2
(13-5)
2 ⎣ ⎦
donde por tr indicamos la traza de la matriz resultante de la operación subsiguiente, esto es, la
suma de los elementos de su diagonal. Long (1983) y Ullman (1996) indican que este método
tiene dos limitaciones que hacen que no sea muy utilizado. En primer lugar, no existen
contrastes estadísticos asociados a este tipo de estimación y, en segundo lugar, los
estimadores dependen de la escala de medida de las variables observadas, esto es, no se
alcanzaría el mismo mínimo de (13-5) si las unidades del nivel de renta, por ejemplo,
estuviera medida en pesetas que si lo estuviera en millones.
Este método tiene, sin embargo, algunas ventajas. Así, no es necesario asumir ningún tipo de
distribución teórica de las variables observadas, frente a la hipótesis de normalidad
multivariante que asumen otros métodos de estimación. Por ello, si la violación de esta
hipótesis fuera muy evidente, algunos autores recomiendan recurrir a la estimación por este
método, pero tomando como datos de partida la matriz de varianzas covarianzas estandarizada
– o matriz de correlaciones - para corregir el problema de la dependencia de las unidades de
medida.
FGLS ( S; Σ* ) = tr ⎡⎣ ( S − Σ* ) S −1 ⎤⎦
1 2
(13-6)
2
16
diagonal (o sea, q), el primer término de (13-7) se aproximará a q cuando las matrices estén
próximas, compensándose con el término q de (13-7). Por otra parte, la diferencia de los
logaritmos de los determinantes de S y Σ* tenderá a 0, dado que, cuando las matrices estén
próximas, también lo estarán sus determinantes. De esta forma, cuando las matrices sean
iguales la función de ajuste será cero.
FEDT ( S; Σ* ) = ( κ + 1 )−1 tr ⎡⎣ ( S − Σ* ) W −1 ⎤⎦ − δ tr ⎡⎣ ( S − Σ* ) W −1 ⎤⎦
1 2 2
(13-8)
2
FADF ( S; Σ* ) = [ s − σ ( Θ ) ]′ W −1 [ s − σ ( Θ ) ] (13-9)
Resumimos a continuación los resultados del trabajo de Hu, Bentler y Kano (1992), que
analizaron mediante simulación de Monte Carlo cómo se comportaban los distintos
procedimientos de estimación ante distintos tamaños muestrales, violación de las hipótesis de
normalidad y de independencia entre los términos de error y los factores comunes.
Estos autores encontraron que, en caso de que fuera razonable asumir la normalidad, el
método ML funcionaba mejor cuando el tamaño muestral era superior a 500, mientras que
4
El coeficiente de curtosis de una distribución es igual al coeficiente estandarizado de cuarto orden menos 3.
17
para tamaños inferiores a esa cifra tenía un mejor comportamiento el método EDT.
Finalmente, el método ADF sólo ofrecía buenos resultados con muestras superiores a 2500
casos.
Cuando el supuesto de normalidad se violaba, los métodos de ML y GLS solo daban buenos
resultados con muestras superiores a 2500 casos, aunque el GLS funcionaba algo mejor que el
ML en muestras inferiores. Pese a no adoptar el supuesto de normalidad, el método ADF
tampoco daba buenos resultados con muestras inferiores a 2500 casos.
Cuando se produce una violación del supuesto de independencia entre los términos de error y
los factores comunes, los métodos de ML y GLS funcionan muy mal, y también el ADF salvo
que la muestra fuera superior a 2500 casos. En cambio, el EDT funcionaba significativamente
mejor que los demás.
• Los métodos de ML y GLS son la mejor opción con pequeñas muestras siempre que
sea plausible la asunción de normalidad e independencia.
• En el caso en que ambos supuestos no parezcan razonables, se recomienda recurrir a la
estimación ML denominada “escalada”. Una descripción de este procedimiento se
encuentra en Bentler (1980) y es una opción de estimación del EQS.
L FSF H M FSC Q
V 1 V 2 V 3 V 4 V 5 V 6
L V 1 1.188
FSF V 2 0.317 0.348
H V 3 0.428 0.182 0.960
M V 4 0.333 0.225 0.158 1.210
FSC V 5 0.142 0.077 0.074 0.265 0.168
Q V 6 0.344 0.214 0.195 0.565 0.206 1.232
La matriz Λ, que contiene los coeficientes de regresión entre las variables observadas y los
factores comunes, se obtiene directamente de las ecuaciones que el EQS denomina ecuaciones
de medida y que se recogen en el cuadro 13.4. En estas ecuaciones aparecen también los
estadísticos para contrastes de significatividad de cada coeficiente, así como los errores
estándar, cuya interpretación se ofrecerá más adelante.
18
De este cuadro se deduce directamente que la estimación de Λ es la siguiente5:
⎡ 1 0 ⎤
⎢ 0,509 0 ⎥
⎢ ⎥
⎢ 0, 604 0 ⎥
Λˆ = ⎢ ⎥
⎢ 0 1 ⎥
⎢ 0 0,373 ⎥
⎢ ⎥
⎣⎢ 0 0,817 ⎥⎦
ˆ = ⎡ 0, 636 0,388 ⎤
Φ ⎢ 0,388 0, 698 ⎥
⎣ ⎦
5
Los subrayados indican que ese parámetro se fijo al valor señalado durante la identificación del modelo.
19
VARIANCES OF INDEPENDENT VARIABLES
----------------------------------
V F
--- ---
I F1 - IV .636*I
I .117 I
I 5.443 I
I I
I F2 - IQ .698*I
I .112 I
I 6.244 I
I I
V F
--- ---
I F2 - IQ .388*I
I F1 - IV .068 I
I 5.712 I
I I
Finalmente resta por obtener la estimación de la matriz Θ, que contiene las varianzas y
covarianzas entre los factores específicos o términos de error. Si se observa la figura 13.4, se
comprueba que, durante la identificación del modelo, todas las covarianzas se fijaron a 0
(como se indica con un subrayado en la matriz que se muestra a continuación), por lo que sólo
se han estimado las varianzas. El cuadro 13.6 ofrece la información que nos permite obtener
la estimación de la matriz Θ:
⎡ 0,552 0 0 0 0 0 ⎤
⎢ 0 0,183 0 0 0 0 ⎥
⎢ ⎥
ˆ = ⎢ 0 0 0, 728 0 0 0 ⎥
Θ ⎢ ⎥
⎢ 0 0 0 0,512 0 0 ⎥
⎢ 0 0 0 0 0, 071 0 ⎥
⎢ ⎥
⎣⎢ 0 0 0 0 0 0, 767 ⎦⎥
Basta operar matricialmente de acuerdo con la expresión (13-4) para obtener la estimación de
la matriz de varianzas covarianzas poblacional (el EQS no la ofrece):
⎡ 1,188 ⎤
⎢ 0,324 0,348 ⎥
⎢ ⎥
⎢ 0,384 0,196 0,960 ⎥
Σˆ = ⎢ ⎥ (13-10)
⎢ 0,388 0,197 0, 234 1, 210 ⎥
⎢ 0,145 0, 074 0, 087 0, 260 0,168 ⎥
⎢ ⎥
⎢⎣ 0,317 0,161 0,191 0,570 0, 213 1, 232 ⎥⎦
20
VARIANCES OF INDEPENDENT VARIABLES
----------------------------------
E D
--- ---
E1 - L .552*I I
.088 I I
6.256 I I
I I
E2 - FSF .183*I I
.025 I I
7.294 I I
I I
E3 - H .728*I I
.071 I I
10.281 I I
I I
E4 - M .512*I I
.075 I I
6.828 I I
I I
E5 - FSC .071*I I
.010 I I
6.807 I I
I I
E6 - Q .767*I I
.079 I I
9.655 I I
I I
L FSF H M FSC Q
V 1 V 2 V 3 V 4 V 5 V 6
L V 1 0.000
FSF V 2 -0.007 0.000
H V 3 0.044 -0.014 0.000
M V 4 -0.055 0.028 -0.076 0.000
FSC V 5 -0.003 0.003 -0.014 0.004 0.000
Q V 6 0.027 0.053 0.003 -0.005 -0.006 0.000
Antes de pasar a interpretar los resultados del análisis factorial confirmatorio que se ha
efectuado, es necesario determinar hasta qué punto el modelo asumido se ajusta a los datos
muestrales. Si detectáramos problemas de ajuste, sería necesario plantear algún tipo de
21
reespecificación del mismo hasta que se lograra un mejor ajuste. Analizaremos, a
continuación, una serie de criterios que se calculan en la mayor parte de programas que
abordan este tema. Como ya avanzamos, los estadísticos elaborados con esta finalidad son
muchos más de que los que aquí se muestran. La selección efectuada recoge, desde nuestro
punto de vista, los más utilizados.
Como indicábamos al presentar los distintos métodos de estimación del AFC, el objetivo
básico de los mismos es que la matriz de covarianzas poblacional estimada se parezca lo más
posible a la muestral S. En otros términos, puede expresarse lo anterior diciendo que la
diferencia entre ambas matrices, a la que llamamos matriz residual de covarianzas, esté lo más
cercana posible a una matriz nula 0. Los valores de esta matriz deberían ser pequeños y estar
homogéneamente distribuidos. Como señala Byrne (1994), residuos grandes asociados a
algunos parámetros, podrían indicar que han sido mál especificados, y ello afectaría
negativamente al ajuste global del modelo. El EQS proporciona la matriz residual de
covarianzas recogida en el cuadro 13.7, así como su versión estandarizada que mostramos en
el cuadro 13.8. En ambos casos calcula los promedios de estos residuos teniendo en cuenta los
elementos de la diagonal y obviándolos. Este segundo promedio se justifica porque,
normalmente, son los elementos de fuera de la diagonal los que tienen más influencia sobre el
estadístico χ2 que mostraremos más adelante (Bentler, 1995).
22
Cuadro 13.8 Matriz residual estandarizada de varianzas covarianzas y otra información relacionada
L FSF H M FSC Q
V 1 V 2 V 3 V 4 V 5 V 6
L V 1 0.000
FSF V 2 -0.011 0.000
H V 3 0.041 -0.024 0.000
M V 4 -0.046 0.043 -0.070 0.000
FSC V 5 -0.007 0.013 -0.035 0.010 0.000
Q V 6 0.022 0.081 0.003 -0.004 -0.014 0.000
----------------------------------------
! !
20- -
! !
! !
! !
! ! RANGE FREQ PERCENT
15- -
! ! 1 -0.5 - -- 0 0.00%
! ! 2 -0.4 - -0.5 0 0.00%
! ! 3 -0.3 - -0.4 0 0.00%
! * ! 4 -0.2 - -0.3 0 0.00%
10- * * - 5 -0.1 - -0.2 0 0.00%
! * * ! 6 0.0 - -0.1 11 52.38%
! * * ! 7 0.1 - 0.0 10 47.62%
! * * ! 8 0.2 - 0.1 0 0.00%
! * * ! 9 0.3 - 0.2 0 0.00%
5- * * - A 0.4 - 0.3 0 0.00%
! * * ! B 0.5 - 0.4 0 0.00%
! * * ! C ++ - 0.5 0 0.00%
! * * ! -------------------------------
! * * ! TOTAL 21 100.00%
----------------------------------------
1 2 3 4 5 6 7 8 9 A B C EACH "*" REPRESENTS 1 RESIDUALS
Asimismo, el programa ordena de mayor a menor los 20 residuos estandarizados más grandes
en valor absoluto, de tal manera que puedan identificarse las variables con mayores errores.
Finalmente, muestra un gráfico con la distribución de estos residuos, distribución que debería
ser simétrica y centrada en cero.
Examinando los resultados de nuestro ejemplo en concreto, observamos que el error promedio
de los elementos fuera de la diagonal es pequeño (0.0282), indicando un buen ajuste. El
elemento que muestra un mayor residuo es el asociado a las variables V2 y V6 (notas en
química y filosofía), pudiendo indicar una mala especificación, lo que será analizado
posteriormente para comprobar si procede su reespecificación. Finalmente comprobamos que
23
el 100% de los residuos cae dentro del intervalo [–0.1; 0.1] de forma prácticamente simétrica
y, como se ha señalado, centrada en cero. En síntesis, el ajuste del modelo, a partir del análisis
de los residuos es bueno, aunque puede existir un problema debido a la interrelación entre las
variables V2 y V6.
H 0 : Σnc = Σ (13-11)
La hipótesis alternativa postula que la matriz Σ nc es igual a cualquier matriz que sea definida
positiva. Para el contraste de estas hipótesis en Bentler y Bonett (1980) se propone el
siguiente estadísico:
N × FML
0
0
donde N es el número de datos y FML es el valor que toma la función de ajuste (13-7) al
realizar la estimación por máxima verosimilitud. Este estadístico se distribuye, bajo la
hipótesis nula, como una χ2 con ½q(q+1)-k grados de libertad, siendo q el número de
variables independientes y k el número de parámetros a estimar. Si el modelo es el adecuado,
se puede esperar que se rechace la hipótesis nula planteada en este contraste. En el EQS a
este estadístico se le denomina Chi Square.
El cuadro 13.9 recoge junto a los dos estadísticos citados, otros estadísticos que miden la
bondad del ajuste que comentaremos posteriormente. Por otra parte el estadístico χ2 para este
modelo en que son independientes las variables observadas es efectivamente muy alto
(392,8). Por otra parte, el estadístico χ2 para contrastar la hipótesis nula (13-11) tiene ½ 6
(6+1)-13 = 8 grados de libertad y toma el valor 8,84 con un p=0,355, lo que nos permite
aceptar la hipótesis nula de igualdad entre las matrices para los niveles usuales de
significación. Este estadístico se utiliza, en definitiva, para contrastar la validez del modelo
teórico propuesto por el investigador.
24
Cuadro 13.9 Estadísticos de bondad de ajuste
GOODNESS OF FIT SUMMARY
Un primer grupo de estadísticos se correspondería con los denominados por Ullman (1996)
índices comparativos de ajuste. Los distintos modelos que se pueden plantear en un AFC van
desde el que hemos denominado modelo independiente (variables sin ninguna relación) y que
tendría tantos grados de libertad como el número de datos menos el de varianzas que se han
de estimar, hasta el llamado modelo saturado, con ningún grado de libertad. Los índices que
se proponen son comparativos en el sentido de que comparan el valor del modelo teórico que
se evalúa, con el del modelo independiente.
Índice NFI
El índice NFI (Normed Fit Index) ha sido propuesto por Bentler y Bonnett (1980) y compara
el valor del estadístico χ2 del modelo teórico con el del modelo independiente:
χ indep
2
− χ teorico
2
NFI =
χ indep
2
25
Para que sea satisfactorio este estadístico, como la mayor parte de los que examinaremos a
continuación, debe alcanzar valores superiores a 0,90 (Bentler, 1992).
392,81 − 8,84
NFI = = 0,977
392,81
Algunos trabajos han demostrado que este índice tiene una tendencia a subestimar el ajuste
del modelo si las muestras son pequeñas (Bearden, Sharma y Teel, 1982), llevando a sus
autores a plantear dos modificaciones del mismo, el índice NNFI y el CFI.
Índice NNFI
El Nonnormed Fit Index (NNFI) incorpora los grados de libertad de los modelos teórico e
independiente y aunque se evita así la subestimación del ajuste, puede provocar en algunos
casos extremos valores fuera del rango 0-1. Otra limitación es que, en pequeñas muestras,
puede indicar un ajuste excesivamente bajo si se compara con otros modelos, tal y como
apuntan Ullman (1996) y Anderson y Gerbing (1984).
glindep 2
χ indep
2
− χ
glteorico teorico
NNFI =
χ indep
2
− glindep
En el ejemplo que nos ocupa, y tomando la información del cuadro 13.9, este estadístico
ofrece también un buen ajuste:
15
392,81 − 8,84
NNFI = 8 = 0,996
392,81 − 15
Índice CFI
Este índice (Comparative Fit Index), propuesto por Bentler (1988), corrige por el número de
grados de libertad del siguiente modo:
CFI =
( χindep
2
− glindep ) − ( χ teorico
2
− glteorico )
( χindep − glindep )
2
( 392,81 − 15 ) − ( 8.84 − 8 )
CFI = = 0,998
( 392,81 − 15 )
26
Índice IFI
Propuesto por Bollen (1989), pretende corregir la posibilidad de que el NNFI tome valores
por encima del intervalo razonable 0-1. Para ello se formula así:
χ indep
2
− χ teorico
2
IFI =
χ indep
2
− glteorico
En nuestro ejemplo este índice también alcanza valores de ajuste razonables. A partir de la
información del cuadro 13.9, se obtiene el siguiente valor:
392,81 − 8,84
IFI = = 0,998
392,81 − 8
Índice MFI
Propuesto por McDonald y Marsh (1990), el índice MFI entraría en los denominados índices
de ajuste absoluto en contraposición a los anteriores que hemos denominado comparativos,
por basarse en poner en relación el modelo teórico con el independiente. El MFI solo toma en
consideración la χ2 del modelo teórico y responde a la expresión siguiente:
1 χ2 − glteorico
− ⋅ teorico
MFI = e 2 N
donde toda la notación es conocida salvo N que indica el tamaño de la muestra. Con los datos
del cuadro 13.9 se comprueba que:
1 8,84 − 8
− ×
MFI = e 2 275 = 0,998
Índice GFI
Ullman (1996) denomina a este índice y al AGFI que, como se verá, es una sencilla
corrección de aquel, índices de proporción de varianza. El índice GFI (Goodness of Fit Index)
es una ratio entre los elementos ponderados de la matriz de covarianzas poblacional estimada
y los elementos ponderados de la matriz de covarianzas muestral. Concretamente, su
expresión es la siguiente:
tr ( σˆ ′Wσˆ )
GFI =
tr ( sˆ′Wsˆ )
donde el vector σ̂ contiene las varianzas de la matriz de covarianzas estimada y el vector s las
de la matriz muestral. La matriz W es una matriz de ponderación que varía en función del
método de estimación elegido: la matriz identidad en el ULS, la matriz de covarianzas
muestral en el GLS, la inversa de la matriz de covarianzas estimada en el ML, etcétera. Según
puede verse en el cuadro 13.9, este estadístico toma el valor 0,981.
27
Índice AGFI
El Adjusted Goodness of Fit Index (AGFI) es una corrección del anterior que se hace en
función del número de parámetros que se han de estimar (a los que denominanmos k) y el
número de datos disponibles (a los que denominamos d). Esta corrección adopta la forma:
1 − GFI
AGFI = 1 −
k
1−
d
En nuestro ejemplo, con la información del cuadro 13.9, y recordando que se disponía de 21
datos y 13 parámetros a estimar, el valor del estadístico es el siguiente:
1 − 0,989
AGFI = 1 − = 0,971
13
1−
21
Índice AIC
Este índice, denominado Akaike Information Criterion (Akaike, 1987) forma parte de un
nuevo grupo que Ullman (1996) denomina índices de grado de parsimonia, por cuanto tienen
en cuenta no solamente la bondad de ajuste estadístico sino también el número de parámetros
a estimar. Su expresión adopta la forma:
AIC = χ teorico
2
− 2 glteorico
Para nuestro ejemplo, con la información del cuadro 4.9 se obtiene el siguiente valor:
¿Qué valor debe tomar este índice? Ullman (1996) señala que “lo suficientemente bajo” pero,
dado que no está normalizado a un intervalo 0-1, “suficientemente bajo” solo puede
entenderse en términos comparativos con otros modelos teóricos, es decir, servirá como
indicador para señalar si el modelo que hemos contrastado es mejor o peor que otro modelo
contrastado previamente, pero no ofrece un nivel de ajuste absoluto. Esta es la razón de que
siempre vaya acompañado por el AIC del modelo independiente, que se supone que es la base
que cualquier modelo teórico debe mejorar y cuanto mayor sea la diferencia del valor del AIC
del modelo comparado con el valor correspondiente independiente, tanto mejor. En nuestro
ejemplo lo mejora muy claramente, dado que el AIC en el modelo independiente toma el
valor:
Índice CAIC
El Consistent AIC (CAIC) es la corrección propuesta por Bozdogan (1987) al AIC, siendo
válidos todos los comentarios efectuados para este último. Su expresión es la siguiente:
28
CAIC = χ teorico
2
− ( ln N + 1 ) glteorico
En nuestro ejemplo, como puede verse en el cuadro 13.9, toma el siguiente valor:
Índice RMR
El último grupo de índices que analizaremos son los que Ullman (1996) denomina basados en
los residuos que no son sino un promedio de las diferencias entre las varianzas y covarianzas
muestrales y las estimadas que se derivan del modelo. Esto es:
q i
∑∑ ( sij − σˆ ij )
2
i =1 j =1
RMR =
q ( q + 1) / 2
donde toda la notación es conocida, pero recordemos que q era el número de variables
observadas. En nuestro ejemplo este índice toma el valor de 0.027.
Como los residuos sin estandarizar están afectados por la escala en que se mide la variable, se
suelen utilizar los residuos estandarizados construyéndose el llamado SRMR (Standardized
RMR) que está acotado entre 0 y 1, siendo recomendables valores inferiores a 0,05. Como
puede verse en el cuadro 13.9, el índice SRMR se sitúa ligeramente por debajo de 0,05
(0,044).
Byrne (1994) plantea que, en cuanto que la estimación del modelo es un proceso iterativo, el
hecho de que el algoritmo converja de una manera rápida, es indicador de un buen ajuste del
modelo. La autora considera que, si después de dos o tres iteraciones, el cambio medio en las
estimaciones de los parámetros se estabiliza en valores muy bajos, estaremos probablemente
ante un ajuste adecuado.
El EQS ofrece (cuadro 13.10) la información del número de iteraciones que han sido
necesarias para la convergencia y el cambio medio en los parámetros en cada una de ellas
(parameter abs change). Puede comprobarse como, efectivamente, esta convergencia se ha
producido en apenas 6 iteraciones y cómo, a partir de la tercera, los cambios han sido
mínimos.
29
Cuadro 13.10 Historial de iteraciones
ITERATIVE SUMMARY
PARAMETER
ITERATION ABS CHANGE ALPHA FUNCTION
1 0.298689 1.00000 0.88599
2 0.124292 1.00000 0.10692
3 0.026794 1.00000 0.03287
4 0.008439 1.00000 0.03231
5 0.001469 1.00000 0.03227
6 0.000443 1.00000 0.03227
Al presentar los distintos índices de ajuste, hemos podido comprobar que en el modelo que
hemos tomado como ejemplo se ha obtenido un buen ajuste a los datos. Llegados a este
punto, vamos a analizar e interpretar los resultados que hemos mostrado.
Hasta este momento nos hemos centrado en analizar la razonabilidad del modelo en términos
globales (su ajuste). Ahora vamos a examinar si los estimadores de los parámetros son
también razonables en dos sentidos: (i) ¿toman valores adecuados teóricamente? y (ii) ¿son
significativos?.
La mayor parte de la información necesaria para esta fase, ya se ha mostrado en los cuadros
13.4, 13.5 y 13.6 y a ellos referiremos nuestros comentarios.
En primer lugar, vamos a analizar si los valores que toman los parámetros estimados son o no
compatibles con el modelo estadístico. Para que exista tal compatibilidad las respuestas a las
siguientes preguntas deben ser en todos casos negativas:
Si hubiera respuestas no negativas, y aunque el ajuste global del modelo fuera óptimo,
estaríamos ante un indicador claro de que (Long, 1983) esta incompatibilidad puede haberse
originado por uno o más de los siguientes motivos:
30
Si se revisan los cuadros 13.4 a 13.6 se puede comprobar que, en el modelo del ejemplo, no se
presenta ninguna de las incompatibilidades señaladas.
Si tomamos, por ejemplo, la segunda ecuación del cuadro 13.4, comprobamos que aparecen
las tres líneas que están reproducidas en el cuadro 13.11. La primera de ellas ofrece la
ecuación correspondiente a la variable observada “calificación en Filosofía” (FSF o V2). Esta
ecuación se expresa como una combinación lineal del factor común “inteligencia verbal” (F1)
multiplicado por el coeficiente de regresión estimado (0,509) y un error de medida (E2).
31
Cuadro 13.12 Solución estandarizada
STANDARDIZED SOLUTION:
V F
--- ---
I F2 - IQ .582*I
I F1 - IV I
I I
Esta información se suele presentar gráficamente tal y como se recoge en la figura 13.5.
ξ1 ξ2
x1 x2 x3 x4 x5 x6
δ1 δ2 δ3 δ4 δ5 δ6
32
13.7 REESPECIFICACIÓN DEL MODELO
Como señala Ullman (1996), existen básicamente dos motivos para reespecificar un modelo
(esto es, eliminar o introducir relaciones entre las variables que los conforman): (i) mejorar su
ajuste o (ii) contrastar alguna hipótesis teórica. Existen, sin embargo, muchos problemas que
pueden generarse como consecuencia de una reespecificación poco meditada. Como veremos
a continuación, existen dos instrumentos analíticos –el contraste del multiplicador de
Lagrange y el contraste de Wald– que nos indican qué relaciones causales pueden añadirse o
eliminarse y qué mejoras en el ajuste obtendríamos con cada una de esta modificaciones. Si el
investigador cae en la tentación de ir incorporando o eliminando relaciones sin más, hasta
lograr un ajuste razonable y no tiene en cuenta si estas modificaciones están o no soportadas
por el marco teórico que sustenta su investigación, puede provocarse que el modelo al que se
llega no sea en absoluto generalizable (McCallumn, Roznowski y Necowitz, 1992).
En este mismo sentido, Pedhazur (1982) y Sorbom (1989) afirman que es científicamente
incorrecto modificar un modelo simplemente porque mejore su ajuste, ya que el cambio debe
ser teóricamente interpretable y el investigador debe ser capaz de justificar cuál es el motivo
para añadir una relación causal determinada.
Todo lo expuesto lleva a Hatcher (1994) a plantear las siguientes recomendaciones para la
modificación de un modelo, aunque la mayoría se basan en el trabajo de McCallumn,
Roznowski y Necowitz (1992):
1. Utilizar muestras grandes. Los modelos basados en menos de 100 o 150 casos llevan
a modelos finales poco estables si las modificaciones se basan en los datos y no en la
teoría.
2. Hacer pocas modificaciones. Es posible que las primeras modificaciones puedan estar
derivadas de un modelo que refleje las relaciones poblacionales; las siguientes,
probablemente, reflejarán relaciones específicas de la muestra.
3. Realizar solo aquellos cambios que puedan ser interpretados desde una perspectiva
teórica o tengan soporte en trabajos precedentes. En todo caso, se deben detallar todos
los cambios realizados sobre el modelo inicial en el informe del trabajo final.
4. Seguir un procedimiento paralelo de especificación. Siempre que sea posible, el
investigador debería trabajar con dos muestras independientes. Si las dos muestras
desembocan en las mismas modificaciones del modelo, se podrá tener una mayor
confianza en la estabilidad del mismo.
5. Comparar modelos alternativos desde el principio. Más que proponer un modelo e ir
modificándolo, puede ser conveniente en algunas ocasiones plantear modelos
alternativos y determinar con cuál se obtiene un mejor ajuste.
6. Finalmente, describir detalladamente las limitaciones de su estudio. Como indica
Hatcher (1994), la mayoría de los trabajos que se publican están basados en una única
muestra y sobre los que se efectúan sucesivas modificaciones basadas en los datos
hasta lograr un ajuste razonable. Si se sigue este enfoque, sería recomendable que el
trabajo advirtiera al lector de todas estas circunstancias.
Una vez planteadas estas precauciones, veamos a continuación los instrumentos de que se
dispone para reespecificar un modelo.
33
13.7.1 Significatividad de los parámetros
En nuestro ejemplo, tal y como se comprueba en los cuadros 13.4, 13.5 y 13.6, todos los
coeficientes estimados son significativos
El contraste ML permite evaluar la mejora que se obtiene al añadir una relación causal o una
nueva covarianza al modelo teórico. Para determinar si esta mejora es estadísticamente
significativa, el estadístico lleva asociado un nivel de significación.
34
Cuadro 13.14 Contraste multivariante del multiplicador de Lagrange
PVV PFV PFF PDD GVV GVF GFV GFF BVF BFF
Los cuadros 13.13 y 13.14 recogen la información señalada que se solicitó al programa con la
opción /LMTEST que aparecía en la sintaxis ofrecida en el cuadro 13.2. En el contraste
univariante, se observa que hay dos parámetros que, individualmente, serían candidatos a
conseguir una mejora significativa del modelo. Estos dos parámetros se corresponden con la
introducción de una covarianza entre los factores específicos E1 y E3, en el primer caso, y
con la inclusión de una relación causal entre la variable observada V2 y el factor común F2,
en el segundo caso. En ambos casos el contraste ofrece el valor aproximado que tendría el
parámetro si se añadiera (parameter change).
Sin embargo, como se ha señalado, estos contrastes tienen el inconveniente que no tiene en
cuenta las covarianzas entre los distintos estimadores de los parámetros, por lo que es
conveniente centrar la atención en el contraste multivariante, que descuenta estos efectos
comunes. Si nos fijamos en el cuadro 13.14, comprobamos que ahora sólo propone la
inclusión de una relación, o path causal, entre la variable V2 y el factor común F2. Y sólo
incluye este parámetro porque el enfoque multivariante hace que compruebe que, tras hacerlo,
ninguna otra adición provocaría mejoras significativas en la χ2. La necesidad estadística de
introducir este parámetro no es excesiva, dado que el contraste demuestra que la mejora sería
sólo significativa al 5% y no al 1% (p=0.029) y haría que el estadístico χ2 disminuyera en
4.74 unidades. ¿Debe producirse esta modificación del modelo? La respuesta debe proceder
del análisis teórico del investigador. El modelo tiene un ajuste suficientemente razonable,
¿tiene sentido que exista una relación causal entre la inteligencia cuantitativa y la filosofía?
¿existe soporte teórico para esta relación? ¿hay trabajos previos que lo apuntan? Si no es así,
no debería introducirse la relación propuesta por el contraste LM, dado que el ajuste del
modelo sin ella es razonable.
35
En nuestro ejemplo, como se comprueba en el cuadro 13.15, no hay relaciones que pudieran
suprimirse pero, en el caso de que existieran, deberían hacerse las mismas consideraciones de
naturaleza teórica que se han efectuado en el caso de inclusión de nuevos parámetros.
En general, tanto el contraste LM como el de Wald son procedimientos “paso a paso”, por lo
que el error tipo I suele sobreestimarse. Por esta razón algunos autores (Ullman, 1996)
recomiendan ser conservadores en el nivel de significación considerado. Por ejemplo α =0,01
para Lagrange y α =0.05 para Wald.
También señala esta autora que, de acuerdo con McCallum (1986), el orden en que los
parámetros se eliminen o añadan puede afectar a la significatividad de los restantes, por lo que
se recomienda añadir todos los parámetros necesarios antes de eliminar los innecesarios.
Cuadro 13.15 Contraste de Wald
************
NONE OF THE FREE PARAMETERS IS DROPPED IN THIS PROCESS.
El problema con que nos enfrentamos es el siguiente. Como señala Martín Armario (1993),
las organizaciones se ven obligadas a estar pendientes tanto de sus clientes como de la
competencia, aunque su gestión de marketing puede variar la importancia que concede a uno
u otro factor a lo largo del tiempo. Nuestro investigador quiere desarrollar un instrumento de
medida de estos dos aspectos del enfoque de marketing, la “orientación al cliente” y la
“orientación a la competencia”, para determinar, en cada momento del tiempo, cuál está
primando por encima del otro en un sector determinado.
Pero una escala de medida debe demostrar su validez convergente, esto es, si se supone que
esas 11 preguntas están midiendo dos factores latentes o constructor distintos, cada grupo de
36
variables observadas deben tener cargas significativas sobre su respectivo factor común, y no
sobre los demás (puede consultarse Küster, Vila y Aldás, 2000 para profundizar en el tema de
la validación de escalas). Por este motivo, tras realizar una encuesta a 375 empresas, con el
cuestionario del cuadro 13.16, se realiza una aplicación del método AFC para constatar la
plausibilidad del modelo recogido en la figura 13.6. Si este modelo ofrece un ajuste razonable
y todas las cargas factoriales planteadas son significativas, será una evidencia que apoyará la
validez convergente de estos indicadores (Anderson y Gerbing, 1988).
Valore su acuerdo o desacuerdo con las siguientes afirmaciones en una escala de siete puntos
donde 1=totalmente en desacuerdo; 7=totalmente de acuerdo.
ORIENTACIÓN AL CLIENTE
V1. Nos preocupamos por responder a las exigencias de los clientes
V2. Ofrecemos servicios post-venta
V3. Comprendemos las necesidades de los clientes
V4. Nos fijamos objetivos de satisfacción del cliente
V5. Medimos el grado de satisfacción del cliente
V6. Las acciones de mi empresa van dirigidas a que el cliente obtenga más por el mismo precio
ORIENTACIÓN A LA COMPETENCIA
V7. Poseemos información sobre la cuota de mercado de la competencia
V8. Damos una respuesta rápida a las acciones de la competencia
V9. La alta dirección efectúa análisis de las estrategias de la competencia
V10. El personal de ventas regularmente comparte información con nuestro negocio en relación a
la estrategia de los competidores.
V11. Vemos como ventajas competitivas las oportunidades de mercado
37
Figura 13.6 Modelo teórico sujeto a contraste
φ12=φ21
Orientación Orientación a la
al cliente ξ1 ξ2 competencia
λ11 λ21 λ31 λ41 λ51 λ61 λ72 λ82 λ92 λ102 λ112
v1 v2 v3 v4 v5 v6 v7 v8 v9 v10 v11
δ1 δ2 δ3 δ4 δ5 δ6 δ7 δ9 δ9 δ10 δ11
El primer paso consiste en identificar el modelo teórico ilustrado en la figura 13.6. Para ello
es necesario determinar los parámetros que se han de estimar y los que se han de constreñir a
un valor prefijado, de acuerdo con las especificaciones dadas. En este sentido, se llevan a
cabo las siguientes tareas:
38
3. Determinación de los grados de libertad. Tras las restricciones anteriores, se dispone
de 11×12/2=66 datos y de 23 parámetros a estimar: las 11 varianzas de los términos de
error, los 11 coeficientes de regresión entre las variables observadas y los factores
comunes y la covarianza entre dichos factores. El modelo está, pues, sobreidentificado
y tiene 43 grados de libertad.
λ11=* λ21=* λ31=* λ41=* λ51=* λ61=* λ72=* λ82=* λ92=* λ102=* λ112=*
v1 v2 v3 v4 v5 v6 v7 v8 v9 v10 v11
1 1 1 1 1 1 1 1 1 1 1
δ1* δ2* δ3* δ4* δ5* δ6* δ7* δ9* δ9* δ10* δ11*
Una vez identificado el modelo, escribimos la sintaxis del SAS CALIS que permite su
contrastación, tal como aparece recogida en el cuadro 13.18. Hemos optado por utilizar la
opción de formulación equivalente al EQS (opción LINEQS de la sintaxis) para facilitar la
comparabilidad de la misma con la mostrada con anterioridad. Comentamos a continuación
los elementos básicos de la misma.
39
Cuadro 13.18 Sintaxis del SAS CALIS
DATA D1 (TYPE=COV);
INPUT _TYPE_ $ _NAME_ $ V1-V11;
CARDS;
N . 375 375 375 375 375 375 375 375 375 375 375
COV V1 8.48 . . . . . . . . . .
COV V2 4.03 8.79 . . . . . . . . .
COV V3 3.32 2.68 5.32 . . . . . . . .
COV V4 4.76 4.81 2.71 10.14 . . . . . . .
COV V5 5.34 4.62 2.62 5.02 8.60 . . . . . .
COV V6 2.72 1.89 1.68 2.23 2.33 7.31 . . . . .
COV V7 1.97 3.54 1.05 3.45 2.46 0.60 8.61 . . . .
COV V8 1.56 1.47 1.39 2.52 1.03 1.07 1.94 7.07 . . .
COV V9 1.81 2.97 1.70 2.26 2.36 0.53 3.04 2.53 7.34 . .
COV V10 1.53 2.72 0.28 2.43 1.55 0.27 3.03 1.92 3.08 8.09 .
COV V11 0.06 0.52 0.60 -0.37 0.84 1.34 -0.61 0.29 0.83 0.43 8.25
;
COV
F1 F2=CF1F2;
VAR V1-V11;
RUN;
Como se puede comprobar al examinar el cuadro 13.18, la sintaxis del SAS CALIS es muy
similar a la del EQS. La primera parte de la misma (DATA) se limita a suministrar al
programa la matriz de varianzas covarianzas con la que ha de trabajar y el número de casos
(375) que la han generado. En la segunda parte (PROC CALIS) se dan las siguientes
instrucciones: el análisis se ha de efectuar sobre la matriz de varianzas covarianzas
(COVARIANCES) y no sobre la matriz de correlación; se debe imprimir la matriz de
correlación (CORR); se debe imprimir la matriz de varianzas covarianzas residual, tanto la
absoluta como la estandarizada (RESIDUAL); se solicita que ofrezca los indicadores
necesarios para reespecificar el modelo, caso de que el ajuste no sea bueno, es decir, los
contrastes de Wald y multiplicadores de Lagrange (MODIFICATION); y, finalmente, se
indica al programa que efectúe una estimación por máxima verosimilitud (METHOD=ML).
Caso de optar por otro procedimiento se utilizarían los siguientes códigos: GLS para mínimos
cuadrados generalizados; LSGLS para realizar primero una estimación por mínimos
40
cuadrados sin ponderar, seguida de otra por mínimos cuadrados generalizados; LSML para
realizar primero una estimación por mínimos cuadrados sin ponderar seguida por una por
máxima verosimilitud; y, finalmente, ULS para realizar una estimación por mínimos
cuadrados sin ponderar.
El paso siguiente consiste en introducir las ecuaciones que, como se señaló, se efectúa en este
caso siguiendo la notación de Bentler y Weeks (1980), lo que se le indica al programa
mediante la instrucción LINEQS. A partir de aquí la sintaxis es inmediata y se deriva de
manera directa de la figura 13.7. Las variables se denotan con la letra V, los coeficientes de
regresión con la letra L (de loadings) seguida por los dos elementos que une (V1 y F1, por
ejemplo), los factores comunes se denotan con la letra F y los términos de error por la letra E.
El término STD introduce las varianzas que se desea estimar o fijar a un valor determinado. Si
se fijan se pone el valor (F1=1) y si se dejan libres para su estimación, se le asigna un nombre
(E1-E11=VARE1-VARE11). De forma análoga, las covarianzas entre los factores comunes se
introduce con COV; así se indica que se quiere estimar la covarianza entre F1 y F2
asignándole el nombre CF1F2 mediante la instrucción: F1 F2 = CF1F2.
Explicada la sintaxis del SAS CALIS, pasamos a examinar los resultados. En primer lugar, el
programa ofrece la matriz de varianzas covarianzas residual como primer indicador de ajuste.
Lo hace tanto en su versión original como estandarizada y, al igual que el EQS, muestra los
10 residuos más grandes y una media de los residuos, tanto global, como los que están fuera
de la diagonal. En el cuadro 13.19 ofrecemos la matriz de residuos estandarizados. De su
análisis se comprueba que existen algunas variables con residuos elevados, como V7 y V2 o
V10 y V3, lo que constituye un indicio de que la relación entre las mismas no ha sido bien
recogida por el modelo propuesto.
41
Cuadro 13.19 Matriz de residuos estandarizados
V1 V2 V3 V4 V5 V6
V7 V8 V9 V10 V11
V8,V4
2.5677
42
Cuadro 13.20 Distribución de los residuos estandarizados
Levenberg-Marquardt Optimization
Scaling Update of More (1978)
Number of Parameter Estimates 23
Number of Functions (Observations) 66
Optimization Start: Active Constraints= 0 Criterion= 0.428 Maximum Gradient Element= 0.036
Radius= 1.000
43
Cuadro 13.22 Indices de bondad de ajuste
Los indicadores de bondad de ajuste aparecen en el cuadro 13.22. En dicho cuadro se han
subrayado aquellos que se comentaron en el desarrollo del tema y que están presentes en el
programa SAS CALIS. Todos parecen señalar que existe un problema de ajuste. Así aunque
la chi cuadrado es inferior a la del modelo independiente (150,75<1109,31), es significativa,
con lo que se rechaza la hipótesis nula de que las matrices Σ nc y Σ sean iguales, hecho no
deseable. Por otra parte, los índices NFI (0,8641) y NNFI (0,8693) no son superiores a 0,9; lo
mismo ocurre con los índices CFI (0,8978) y AGFI (0,8940).
Una primera modificación podría ir en la línea de eliminar esta relación. Pero recordemos
nuestra insistencia de que no se trata de lograr un ajuste estadístico, sino que cada
reespecificación del modelo debe tener una justificación teórica de acuerdo con los objetivos
de la investigación. En este caso, si la eliminación de la relación desembocara en un buen
ajuste, la única consecuencia sería que la escala que mide la orientación a la competencia
44
tendría un item menos de los inicialmente propuestos, pero sería válida en un sentido
convergente, lo que puede ser hasta deseable en términos de parsimonia.
Para estimar este nuevo modelo, bastaría eliminar la última ecuación del cuadro 13.18 y
cualquier referencia a la variable V11 de la sintaxis, incluyendo la matriz de varianzas y
covarianzas. Si se hace esto, se obtendría el ajuste del modelo que sintetizan los índices del
cuadro 13.24 donde, aunque se producen ligeras mejoras, estas no son suficientes para
considerar como bueno el ajuste del modelo. Llegados a este punto, el investigador ya sabe
que en ningún caso su escala va a gozar de validez convergente, porque cualquier otro tipo de
modificación que ahora presentaremos ya supone cambios demasiados importantes respecto al
modelo teórico como para considerarlo válido. ¿Qué otras modificaciones se pueden
introducir? El cuadro 13.25 nos ofrece los contraste de Lagrange y de Wald que nos sirven
como indicador.
V1 = 2.2132*F1 + 1.0000 E1
Std Err 0.1372 LV1F1
t Value 16.1305
V2 = 2.0465*F1 + 1.0000 E2
Std Err 0.1443 LV2F1
t Value 14.1828
V3 = 1.3029*F1 + 1.0000 E3
Std Err 0.1180 LV3F1
t Value 11.0399
V4 = 2.2377*F1 + 1.0000 E4
Std Err 0.1541 LV4F1
t Value 14.5202
V5 = 2.2573*F1 + 1.0000 E5
Std Err 0.1375 LV5F1
t Value 16.4143
V6 = 1.0553*F1 + 1.0000 E6
Std Err 0.1454 LV6F1
t Value 7.2583
V7 = 1.7469*F2 + 1.0000 E7
Std Err 0.1663 LV7F2
t Value 10.5077
V8 = 1.2564*F2 + 1.0000 E8
Std Err 0.1539 LV8F2
t Value 8.1613
V9 = 1.8519*F2 + 1.0000 E9
Std Err 0.1523 LV9F2
t Value 12.1590
45
Cuadro 13.24 Indices de bondad de ajuste tras eliminar V11
46
Cuadro 13.25 Multiplicadores de Lagrange y contraste de Wald
E2 : F1 E2 : F2 E10 : E3 E2 : E1
21.1267 : 0.000 21.1263 : 0.000 13.6276 : 0.000 11.2709 : 0.001
E11 : E6 E7 : E2 E11 : E7 E1 : F1
10.4606 : 0.001 9.9540 : 0.002 9.8334 : 0.002 9.5723 : 0.002
E1 : F2 E5 : E1
9.5721 : 0.002 9.4192 : 0.002
V2 : F2 V1 : F2 V4 : F2 V6 : F2
21.1261 : 0.000 9.5720 : 0.002 5.4948 : 0.019 3.9647 : 0.046
V7 : F1
3.8312 : 0.050
Para la introducción de las dos cambios señaladas hay que modificar la sintaxis de 13.18,
expresando la ecuación correspondiente a V2 de esta forma
V11=LV11F2 F2+E11;
Con estas modificaciones el ajuste del modelo mejora significativamente, como se aprecia en
el cuadro 13.26, lográndose incluso que el estadístico χ2 sea no significativo para un nivel
α=0,05 (p=0,08) y que los índices GFI, AGFI, NFI, NNFI y CFI superen el valor de 0,9.
Como se comprueba en el cuadro 13.27, todos los parámetros que relacionan los factores
comunes con las variables observadas son significativos (t supera ampliamente 2 en valor
absoluto), como también lo es la covarianza entre los factores comunes y el resto de
parámetros estimados (cuadro 13.28). De la solución estandarizada del cuadro 13.29,
obtendríamos la síntesis gráfica del modelo que se ilustra en la figura 13.8.
47
Cuadro 13.26 Indices de bondad de ajuste tras eliminar V11 e introducir la relación V2F2
48
Cuadro 13.27 Ecuaciones entre variables observadas y factores comunes
V1 = 2.2636*F1 + 1.0000 E1
Std Err 0.2004 LV1F1
t Value 11.2943
V3 = 1.3095*F1 + 1.0000 E3
Std Err 0.1733 LV3F1
t Value 7.5568
V4 = 2.2110*F1 + 1.0000 E4
Std Err 0.2275 LV4F1
t Value 9.7174
V5 = 2.2799*F1 + 1.0000 E5
Std Err 0.2018 LV5F1
t Value 11.2967
V6 = 1.0767*F1 + 1.0000 E6
Std Err 0.2133 LV6F1
t Value 5.0485
V7 = 1.8117*F2 + 1.0000 E7
Std Err 0.2400 LV7F2
t Value 7.5486
V8 = 1.1893*F2 + 1.0000 E8
Std Err 0.2249 LV8F2
t Value 5.2878
V9 = 1.8173*F2 + 1.0000 E9
Std Err 0.2201 LV9F2
t Value 8.2568
49
Cuadro 13.28 Varianzas términos de error y covarianzas entre factores comunes
Cuadro 13.26 Indices de bondad de ajuste tras eliminar V11 e introducir la relación V2F2
V1 = 0.7773*F1 + 0.6291 E1
LV1F1
V2 = 0.5034*F1 + 0.3003*F2 + 0.7039 E2
LV2F1 LV2F2
V3 = 0.5678*F1 + 0.8232 E3
LV3F1
V4 = 0.6943*F1 + 0.7196 E4
LV4F1
V5 = 0.7775*F1 + 0.6289 E5
LV5F1
V6 = 0.3982*F1 + 0.9173 E6
LV6F1
V7 = 0.6174*F2 + 0.7866 E7
LV7F2
V8 = 0.4473*F2 + 0.8944 E8
LV8F2
V9 = 0.6708*F2 + 0.7417 E9
LV9F2
V10 = 0.5756*F2 + 0.8177 E10
LV10F2
50
Figura 13.8 Modelo final estimado
0.532
Orientación Orientación a la
al cliente ξ1 ξ2
competencia
0.300
v1 v2 v3 v4 v5 v6 v7 v8 v9 v10
0.629 0.703 0.823 0.719 0.628 0.917 0.786 0.894 0.741 0.817
δ1 δ2 δ3 δ4 δ5 δ6 δ7 δ9 δ9 δ10
REFERENCIAS BIBLIOGRÁFICAS
Akaike, H. (1987): “Factor Analysis and AIC”. Psychometrika, vol. 52, pp. 317-332.
Anderson, J.C. y Gerbing, D.W. (1984): “The effect of sampling error on covergence,
improper solutions, and goodness of fit indices for maximum likelihood confirmatory
factor analysis”. Psychometrika, vol. 49, pp. 155-173.
Anderson, J.C. y Gerbing, D.W. (1988): “Structural equation modelling in practice: A review
and recommended two step approach”. Psychological Bulletin, nº 103, pp. 411-423.
Bearden, W.O.; Sharma, S. y Teel, J.E. (1982): “Sample sizes effects on chi square and other
statistics used in evaluating causal models”. Journal of Marketing Research, Vol. 19,
pp. 425-430.
Bentler, P.M. (1988): “Comparative fit indeces in structural models”. Psychological Bulletin,
107, pp. 238-246.
Bentler, P.M. (1992): “On the fit of models to covariances and methodology to the Bulletin”.
Psychological Bulletin, 112, pp. 400-404.
Bentler, P.M. (1995): EQS Structural Equations Program Manual. Encino, CA: Multivariate
Software, Inc.
Bentler, P.M. y Bonett, D.G. (1980): “Significance tests and goodness of fit in the analysis of
covariance structures”. Psychological Bulletin, 88, pp. 588-606.
Bentler, P.M. y Weeks, D.G. (1980): “Linear structural equations with latent variables”.
Psychometrika, vol. 45, pp. 289-308.
Bollen, K.A. (1989): Structural Equations with Latent Variables. Nueva York: Wiley.
Bozdogan, H. (1987): “Model selection and Akaike’s information criteria: The general theory
and its analytical extensions”. Psychometrika, vol. 52, pp. 345-370.
Browne, M.W. y Cudeck, R. (1993): “Alternative ways of assessing model fit”. En Bollen,
K.A. y Long, J.S. (eds), Testing Structural Models. Newbury Park: Sage.
Byrne, B. (1994): Structural Equation Modeling with EQS and EQS/Windows. Thousand
Oaks, CA: Sage.
51
Hatcher, L. (1994): A Step-by-Step Apporach to Using the SAS System for Factor Análisis and
Structural Equation Modelling. Cary, NC: Sas Institute Inc.
Hu, L.T.; Bentler, P.M. y Kano, Y. (1992): “Can test statistics in covariance structure
analyses be trusted?. Psychological Bulletin, nº 112, pp. 351-362.
Jöreskog, K.G. y Sörbom, D. (1989): Lisrel 7: A guide to the Program Applications. Chicago:
SPSS Inc.
Long, J.S. (1983): Confirmatory Factor Analysis. Sage University Paper series on
Quantitative Applications in the Social Sciences, nº 07-033. Newbury Park, CA: Sage.
Marsh, H.W.; Balla, J.R. y McDonald, R. (1988): “Goodness of fit indexes in confirmatory
factor analysis: the effect of sample size”. Psychological Bulletin, Vol. 105, pp. 430-
445.
Martín Armario, E. (1993): Marketing. 1ª edición. Barcelona: Ariel.
McCallum, R.C. (1986): “Specification searches in covariance structure modelling.
Psychological Bulletin, 100, pp. 107-120.
McCallum, R.C.; Roznowski, M. y Necowitz, L.B. (1982): “Model modifications in
covariance structure analysis: the problem of capitalization on chance. Psychological
Bulletin, 111, pp. 490-504.
McDonald, R.P. y Marsh, H.W. (1990): “Choosing a multivariate model: noncentrality and
goodness of fit”. Psychological Bulletin, 107, pp. 247-255.
Narver, J.C. y Slater, S.F. (1990): “The effect of a market orientation on business
profitability”. Journal of Marketing, vol. 54, octubre, pp. 20-35.
Pedhazur, E. (1982): Multiple Regression in behavioural research. Nueva York: Holt.
Sharma, S. (1996): Applied Multivariate Techniques. Nueva York: John Wiley & Sons, Inc.
Sorbom, D. (1989): “Model modification”, Psychometrika, vol 54, pp. 371-384.
Tabachnick, B.G. y Fidell, L.S. (1996): Using Multivariate Statistics. 3ª edición. Nueva York:
Harper Collins.
Tanaka, J.S. (1993): “Multifaceted conceptions of fit”. En Bollen, K.A. y Long, J.S. (eds),
Testing Structural Models. Newbury Park: Sage.
Ullman, J.D. (1996): “Structural Equation Modelling”, en Tabachnick y Fidell (1996), pp.
709-812.
Vila, N.; Küster, I. y Aldás, J. (2000): “Desarrollo y Validación de Escalas de Medida en
Marketing”. Quaderns de Treball. Nº 104. Facultad de Economía, Universitat de
Valencia.
Williams, L.J. y Holahan, P.J. (1994): “Parsimony-based fit indices for multiple indicator
models: Do they work? Structural Equation Modeling, Vol. 1, pp. 161-189.
52
APÉNDICE
x = Λξ + δ
Por otra parte, la matriz Σ que contiene las varianzas y covarianzas de las variables
observadas puede descomponerse tal y como se mostraba en la ecuación (13-3)
Σ = ΛΦΛ ′ + Θ
&& && + δ = ( ΛM −1 ) ( Mξ ) + δ
Λξ
= Λ ( M −1M ) ξ + δ
= Λξ + δ
&& && + δ
x = Λξ
&& = E ⎡ &&&&
Φ ⎣ ξξ′ ⎤⎦ = E [ ( Μξ)(Μξ)′ ] = ME [ ξξ′ ] M′ = MΦ M′
Dado que las matrices marcadas con “¨” sólo serían iguales a las originales en el caso en que
M=I, existen infinitas matrices M invertibles que dan lugar a infinitas soluciones del modelo.
En consecuencia, este modelo se definiría como no identificado.
53
Ejercicio Análisis Factorial Confirmatorio
Shimp y Sharma (1987) desarrollaron una escala de 17 ítemes para medir las tendencias
etnocéntricas de los consumidores en lo referente a comprar productos hechos fuera de los
Estados Unidos frente a comprar productos norteamericanos. Se adjunta una copia del
mencionado artículo con el fin de que, quien no lo haya trabajado, pueda profundizar en
el concepto de etnocentrismo que ha generado numerosa literatura en marketing.
En ese trabajo, los autores identificaron una batería de sólo 10 ítemes que podían
también utilizarse como indicadores de la tendencia etnocéntrica y que se muestran
(conscientemente sin traducir) en el cuadro 1.
La escala fue administrada a 575 individuos que expresaron su acuerdo o desacuerdo
con cada una de las afirmaciones del cuadro 1 en una escala tipo Likert de 7 puntos en la
que 1 significaba completo desacuerdo y 5 completo acuerdo. La matriz de varianzas-
covarianzas que sintetiza los datos se ofrece en el cuadro 2.
Los autores parten de la hipótesis de que el etnocentrismo en un concepto
unidimensional, esto es, que los 10 ítemes deberían conformar un único factor. Dado lo
expuesto se pide:
54
Cuadro 1. Afirmaciones de la escala para medir las tendencias etnocéntricas
Item Afirmación
I1 Only those products that are unavailable in the US should be imported
I2 American products, first, and foremost.
I3 Purchasing foreign-made products is un-American
I4 It is not right to purchase foreign products, because it puts American out of jobs
I5 A real American should always buy American made products
I6 We should purchase products manufactured in America instead of letting other countries get rich off us
I7 Americans should not buy foreign products, because this hurts American business and causes
unemployment
I8 It may cost me in the long-run but I prefer to support American products
I9 We should buy from foreign countries only those products that we cannot obtain within our own country
I10 American consumers who purchase products made in other countries are responsible for putting their
fellow Americans out of work
55