Está en la página 1de 34

DIFERENCIAS ENTRE AL ANÁLISIS FACTORIAL

EXPLORATORIO Y CONFIRMATORIO: UNA


ILUSTRACIÓN PARA UN MODELO DE
MEDICIÓN DEL RENDIMIENTO ACADÉMICO EN
LECTURA CON DATOS DE PISA 2009

Andrés Fernández
Junio 2015
Introducción
• Datos observacionales: análisis de relación o correlacionales que no
permiten realizar conclusiones causales (aunque algunos se
aventuran a hacerlas).

• Existe una técnica estadística que en lugar de explorar los datos,


permite comprobar una hipótesis teórica sobre un modelo de
medición: análisis factorial confirmatorio.

• Este trabajo pretende presentar la técnica del análisis factorial


confirmatorio, compararla con el análisis factorial exploratorio y
evaluar mediante un ejemplo empírico el uso que se le puede dar a
esta técnica estadística.
Análisis factorial
• Técnica de reducción de datos que sirve para encontrar grupos
homogéneos de variables a partir de un conjunto usualmente muy
grande de variables. Esos grupos homogéneos se forman con las
variables que correlacionan mucho entre sí.

• Determinar el número y la naturaleza de las variables latentes o


factores que explican la variación y covariación entre un conjunto de
medidas observadas, comúnmente conocidas como indicadores.

• Un factor (también llamado variable latente o constructo) es


una variable no observable que influye en más de una medida
observada y que da cuenta de las correlaciones entre estas medidas
observadas
Análisis factorial
• Modelo de factor común: cada indicador en un conjunto de medidas
observadas es una función lineal de uno o más factores comunes y un factor
único.

• Hay dos tipos principales de análisis basados en el modelo de factor común:


el análisis factorial exploratorio (EFA) y el análisis factorial confirmatorio
(CFA).

• EFA: explorado por los datos; no se hacen especificaciones en relación con el


número de factores latentes o al patrón de las relaciones entre los factores
comunes y los indicadores.

• CFA: especifica el número de factores y el patrón de relación entre el


indicador y las cargas factoriales de antemano, así como otros parámetros.
Exploratorio vs Confirmatorio:
Conocimiento previo
• EFA es generalmente un procedimiento descriptivo o exploratorio
donde todos los indicadores cargan libremente en todos los factores
(no es necesario saber mucho).

• CFA se debe especificar previamente todos los aspectos del modelo


factorial (fuerte fundamentación empírica y conceptual para poder
guiar la especificación y evaluación del modelo factorial).
Exploratorio vs Confirmatorio:
Input de análisis
• EFA matriz de correlaciones
HISEI PARED HOMEPOS METASUM UNDREM JOYREAD DIVREAD ATSCHL
HISEI 1,0000
PARED 0,5405 1,0000
HOMEPOS 0,5632 0,5051 1,0000
METASUM 0,1929 0,1672 0,2003 1,0000
UNDREM 0,1134 0,1027 0,1238 0,3514 1,0000
JOYREAD 0,0268 0,0069 0,0109 0,1003 0,0984 1,0000
DIVREAD 0,0151 0,0309 0,0836 0,0149 0,0431 0,3337 1,0000
ATSCHL 0,0285 0,0282 0,0560 0,0586 0,0553 0,1491 0,1074 1,0000

• CFA matriz de varianzas y covarianzas


HISEI PARED HOMEPOS METASUM UNDREM JOYREAD DIVREAD ATSCHL
HISEI 338,501
PARED 42,165 17,976
HOMEPOS 12,370 2,557 1,425
METASUM 3,544 0,708 0,239 0,998
UNDREM 2,000 0,417 0,142 0,336 0,919
JOYREAD 0,395 0,023 0,010 0,080 0,075 0,638
DIVREAD 0,303 0,143 0,109 0,016 0,045 0,290 1,185
ATSCHL 0,541 0,123 0,069 0,060 0,055 0,123 0,121 1,067
Exploratorio vs Confirmatorio:
Variables
• EFA se estandarizan completamente todas las variables en el análisis
(tanto observadas como latentes), para poder utilizar
apropiadamente la matriz de correlaciones y producir soluciones
completamente estandarizadas.

• CFA la mayor parte del análisis no requiere la estandarización de las


variables observadas ni de las latentes, por lo que no sólo se puede
obtener una solución completamente estandarizada sino
también una solución no estandarizada donde la estimación de
los parámetros se expresa en la métrica original de los indicadores,
así como una solución estandarizada o no completamente
estandarizada (indicadores no estandarizadas pero variables
latentes estandarizadas)
Exploratorio vs Confirmatorio:
Cargas factoriales
• EFA todos los indicadores cargan libremente en todos los factores
latentes y la solución es rotada para maximizar la magnitud de las
cargas primarias y minimizar la magnitud de las cargas cruzadas.

• La rotación factorial no aplica en el CFA, debido a las restricciones


identificadas previamente al fijar la mayor parte de las cargas
cruzadas como iguales a cero (se obtiene una solución más
parsimoniosa).
Exploratorio vs Confirmatorio:
Cargas factoriales
Exploratorio vs Confirmatorio:
Correlación de errores de medición
• EFA los modelos factoriales deben ser especificados bajo el supuesto
de que el error de medición es aleatorio (no correlacionan unos con
otros).

• CFA la correlación entre los errores de medición sí puede ser


modelada (aunque dicha especificación de correlación debe ser
justificada sustancialmente en la teoría y evidencia empírica, así
como todas las estructuras de un modelo CFA).
Exploratorio vs Confirmatorio:
Correlación de errores de medición
Exploratorio vs Confirmatorio:
Relación con otros análisis
• EFA requiere del cómputo de puntajes factoriales que sirvan como
proxy de los factores latentes. Sin embargo, esta práctica es limitada
por la indeterminación de los puntajes; esto es, que para un EFA
dado existe un número infinito de sets de puntajes que podrían ser
computados y que son igualmente consistentes con las cargas
factoriales.

• CFA esta indeterminación no es un problema porque la base


conceptual y el sustento analítico previo elimina la necesidad de
computar puntajes factoriales, es decir, los factores latentes son
utilizados ellos mismos (y no puntajes) en los análisis, como en el
caso de los modelos de ecuaciones estructurales.
Exploratorio vs Confirmatorio:
Relación con otros análisis
Estimación del Confirmatorio
• Parámetros a estimar: cargas factoriales, varianzas y covarianzas
de error, varianzas y covarianzas factoriales.

• Objetivo: reproducir la matriz de varianzas y covarianzas observada


de los datos.

• Las variables latentes en CFA pueden ser exógenas o endógenas:


▫ Exógena: no es causada por otras variables en la solución.
▫ Endógena: causada por uno o más variables en el modelo (otras
variables en la solución ejercen efectos directos en la variable).
Estimación del Confirmatorio
• Métrica de la variable latente: Variable latente (inobservable)
debe tener escala. La forma más común de darle una escala es fijar la
métrica de la variable latente para que sea la misma que uno de sus
indicadores, que será llamado indicador de referencia (para la
solución no estandarizada).

• Identificación del modelo:


▫ Sub-identificado: número de parámetros desconocidos es mayor al
número de elementos conocidos (gl <0; varias soluciones)
▫ Identificada: número de parámetros desconocidos es igual al número de
elementos conocidos (gl = 0).
▫ Sobre-identificado: número de parámetros desconocidos es menor al
número de elementos conocidos (gl > 0; solución única).
Datos y metodología
• Programa Internacional de Costa Rica: Estadísticas descriptivas de la muestra de PISA

Evaluación de Estudiantes según categoría. 2009


(cifras en porcentajes)
2009 (PISA) Categoría Porcentaje

Género
• Población: estudiantes con Mujeres 53,0 (0,6)
edades entre los 15 años y Hombres 47,0 (0,6)

tres meses y 16 años y dos Sector educativo al que asiste

meses que asisten a las Público


Privado
84,6
15,4
(1,4)
(1,4)
instituciones educativas
Año de Colegio que cursa
oficiales y se encuentran Séptimo 8,5 (0,8)
cursando un grado Octavo
Noveno
16,0
34,1
(1,0)
(1,2)
equivalente al séptimo o Décimo 40,9 (1,8)

superior. Undécimo
Duodécimo
0,4
0,0
(0,1)
(0,0)
Datos y metodología
• Se probará la validez de un modelo del rendimiento educativo de
los estudiante en la prueba de lectura de la evaluación PISA 2009.

• PISA 2009 tuvo énfasis en la alfabetización lectora.

• Únicamente el modelo de medición (CFA).

• El ejemplo se ilustra sobre la base de la evidencia empírica en


cuanto a la construcción de los constructos.
Factor Latente 1:
Extracción socioeconómica
• En diversos países ha sido ampliamente probada la hipótesis de
que un mayor estatus socioeconómico del estudiante se asocia
con un mejor rendimiento educativo.

• PISA incluye una variable latente denominada Índice de Estatus


Económico, Social y Cultural (puntuaciones factoriales) pero no
será ingresada de esta forma en el modelo de medición.

• Tres variables de medición:


▫ Índice posesiones del hogar (HOMEPOS)
▫ Índice de estatus ocupacional más alto de los padres (HISEI)
▫ Índice del nivel educativo más alto de los padres (PARED).
Factor Latente 2:
Estrategias de lectura
• Investigación previa (Fernández, 2013)
“En especial, el índice de habilidad para resumir presenta el mayor efecto
marginal, de un 76%, lo que significa que un incremento de una desviación
estándar en la medida de este índice -para un estudiante desaventajado-
producirá un incremento en la razón de probabilidades de un 76%”.

“El índice de habilidades para comprender y recordar se encuentra muy


relacionada con las técnicas en donde se prioriza el resumir ideas y explicarlas en
sus propias palabras, en lugar de copiar o recitar una oración textualmente”

• Dos variables de medición:


▫ Índice de habilidades para resumir (METASUM)
▫ Índice de habilidades para comprender y recordar (UNDREM)
Factor Latente 3:
Actitud Personal hacia la lectura
• Investigación previa (Fernández, 2013)
“Como segunda y tercera variables con mayor impacto para propiciar la
resiliencia, se encuentran el gusto del estudiante por la lectura y su actitud hacia
el centro educativo. Ambas están relacionadas con las actitudes personales del
alumno, la forma en que valora el proceso educativo, su colegio, la importancia
del estudio y en general el gusto por la lectura”.

• Tres variables de medición:


▫ Índice de disfrute propio por la lectura (JOYREAD)
▫ Índice de diversidad de lecturas (DIVREAD)
Una tercera que no está relacionada con este constructo:
▫ Actitud del estudiante hacia el centro educativo (ATSCHL).
Resultados: análisis exploratorio
Cargas factoriales del análisis factorial exploratorio con datos de PISA
FACTOR 1 FACTOR 2 FACTOR 3 FACTOR 4
HISEI 0,767 -0,016 0,005 0,115
PARED 0,690 0,002 0,005 0,092
HOMEPOS 0,717 0,056 0,024 0,125
METASUM 0,160 0,042 0,021 0,633
UNDREM 0,073 0,069 0,021 0,532
JOYREAD -0,006 0,345 0,101 0,134
DIVREAD 0,049 0,995 -0,018 -0,054
ATSCHL 0,027 0,127 0,988 0,045

Autovalores iniciales 1,61 1,14 0,99 0,74


% Varianza individual 20,1 14,2 12,4 9,3
% Varianza acumulada 20,1 34,4 46,8 56,1
Fuente: cálculos propios con datos de PISA 2009
Rotación Varimax
Resultados: análisis confirmatorio
Modelo sobreidentificado:

Parámetros total = 22
Parámetros fijos = 3 :
λ_x31 = 1 para el Factor 1
λ_x42 = 1 para el Factor 2
λ_x63 = 1 para el Factor 3

Parámetros libres (a estimar)


= 19 (22-3)

Elementos observados: 36
Grados libertad=36-19=17
Resultados: análisis confirmatorio
Solución no estandarizada
Resultados: Ajuste global del modelo
Matriz de varianzas y covarianzas observada y estimada para el modelo de tres factores
Error cuadrático medio de
OBSERVADA la aproximación. Menor a
HISEI PARED HOMEPOS METASUM UNDREM JOYREAD DIVREAD ATSCHL 0,05 es un muy buen
HISEI 338,501 ajuste:
PARED 42,165 17,976 RMSEA = 0,0297
HOMEPOS 12,370 2,557 1,425
METASUM 3,544 0,708 0,239 0,998 [0,0231 , 0,0366] al 95%
UNDREM 2,000 0,417 0,142 0,336 0,919
JOYREAD 0,395 0,023 0,010 0,080 0,075 0,638
DIVREAD 0,303 0,143 0,109 0,016 0,045 0,290 1,185
ATSCHL 0,541 0,123 0,069 0,060 0,055 0,123 0,121 1,067 Ajuste Comparativo. Más
ESTIMADA cercano a 1 es mejor vs
HISEI PARED HOMEPOS METASUM UNDREM JOYREAD DIVREAD ATSCHL
modelo nulo
HISEI 338,586 CFI = 0,9872
PARED 41,961 17,981
HOMEPOS 12,402 2,565 1,426
METASUM 3,539 0,732 0,216 0,998
UNDREM 2,309 0,478 0,141 0,337 0,919
JOYREAD 0,436 0,090 0,027 0,082 0,054 0,638
DIVREAD 0,356 0,074 0,022 0,067 0,044 0,289 1,185
ATSCHL 0,160 0,033 0,010 0,030 0,020 0,130 0,106 1,067
Resultados: Significancia de los
parámetros estimados
Prueba de Wald (T-value):

Un valor mayor a 2 (1,96


estrictamente al 95%) en
un parámetro específico
muestra que el parámetro
es realmente distinto del
cero.
Resultados: Residuos estandarizados
Matriz de residuos estandarizados para el modelo de tres factores
HISEI PARED HOMEPOS METASUM UNDREM JOYREAD DIVREAD ATSCHL
HISEI 0,000
PARED 0,152 0,000
HOMEPOS -0,057 -0,087 0,000
METASUM 0,018 1,184 0,000
UNDREM -1,097 0,000 0,000
JOYREAD -0,180 -1,327 -1,080 -0,175 2,085 0,000
DIVREAD -0,169 0,958 4,313 -3,402 0,065 0,093 0,000
ATSCHL 1,272 1,309 2,382 -0,495 0,000

En la práctica, se considera que los residuos estandarizados que son iguales o mayores que
1,96 (en valor absoluto) son problemáticos.

Un residuo estandarizado positivo sugiere que los parámetros del modelo subestiman la
relación de orden cero entre dos indicadores en algún grado.

Para residuos muy grandes, estos pueden indicar que se necesitan parámetros adicionales
en el modelo para medir de una mejor manera la covarianza entre los indicadores
Resultados: análisis confirmatorio
Solución estandarizada
Resultados: análisis confirmatorio
• En la solución completamente estandarizada las cargas factoriales
pueden ser interpretadas como coeficientes de regresión
estandarizadas: un incremento de un punto estándar en el índice de
posesiones del hogar (HOMEPOS) se asocia con un incremento de
0,73 puntos estándar en el factor de Extracción socioeconómica.

• Cuando un modelo de medición no incluye dobles cargas de un mismo


indicador (es decir, ninguna variable carga en más de un factor, como
en este caso) las cargas factoriales de la solución completamente
estandarizada también pueden interpretarse como correlaciones del
indicador con el factor latente porque este factor es el único predictor
del indicador.

• De esta manera, el cuadrado de las cargas factoriales provee la


proporción de la varianza en el indicador que es explicada por el
factor latente.
Resultados: análisis confirmatorio
Cargas factoriales de cada variable con su factor latente y
proporción de varianza explicada por el factor latente
Factor Carga Proporción Proporción
Variable
latente Factorial de varianza Error
HISEI 0,77 0,60 0,40
PARED EXTRACT 0,69 0,48 0,52
HOMEPOS 0,73 0,53 0,47
METASUM 0,72 0,52 0,48
ESTRATEG
UNDREM 0,49 0,24 0,76
JOYREAD 0,74 0,55 0,45
DIVREAD PERSONAL 0,45 0,20 0,80
ATSCHL 0,21 0,04 0,96
Resultados:
Exploratorio vs Confirmatorio
Diferencias entre las cargas factoriales para los modelos de análisis factorial exploratorio y
confirmatorio con datos de PISA 2009
Análisis Factorial Exploratorio Análisis Factorial Confirmatorio
Variable
FACTOR 1 FACTOR 2 FACTOR 3 EXTRACT ESTRATEG PERSONAL
HISEI 0,77 -0,02 0,00 0,77
PARED 0,69 0,00 0,01 0,69
HOMEPOS 0,72 0,06 0,02 0,73
METASUM 0,16 0,04 0,02 0,72
UNDREM 0,07 0,07 0,02 0,49
JOYREAD -0,01 0,34 0,10 0,47
DIVREAD 0,05 0,99 -0,02 0,45
ATSCHL 0,03 0,13 0,99 0,21
Conclusiones
• Los resultados muestran que las variables de nivel educativo máximo
de los padres de familia, estatus ocupacional más alto de los padres de
familia y de posesiones materiales en el hogar, son variables que en
conjunto explican el constructo inobservable de extracción
socioeconómica del estudiante.

• Los índices de habilidades del estudiante para resumir un texto y de


habilidades para comprender y recordar las partes esenciales de un
texto dan buena cuenta del factor latente de Estrategias de lectura,
aunque el índice de habilidades para comprender y recordar muestra
una carga factorial más baja que el índice de habilidades para
resumir, es decir, la proporción de la varianza que explica el factor
latente sobre este indicador es más baja
Conclusiones
• El disfrute propio del estudiante de la lectura por placer, la diversidad
de materiales que lee el estudiante fuera del sistema educativo y la
actitud personal del estudiante hacia el centro educativo son, en
conjunto, indicadores aceptables para medir el constructo de actitud
personal del estudiante hacia la lectura.

• Sin embargo el tercer indicador muestra una carga factorial muy


baja, que pueden evidenciar poca relación con este constructo o
posibles correlaciones de error con otros indicadores; este índice de
actitud personal del estudiante hacia el centro educativo muestra una
carga factorial tan baja que la variable latente sólo explica el 4% de la
varianza en este indicador, por lo que el 96% es varianza única
Conclusiones
• A la luz de estos resultados, podría considerarse el variar algunas
relaciones de trayectoria entre indicadores y variables latentes
(analizando los índices de modificación de LISREL), así como definir
efectos entre las mismas variables latentes para evaluar un modelo de
ecuaciones estructurales sobre el rendimiento en lectura.
Gracias

También podría gustarte