Documentos de Académico
Documentos de Profesional
Documentos de Cultura
qxd
19/6/12
13:04
Pgina 89
En este artculo se realiza una revisin acerca de un posible modelo de diseo y desarrollo de
cuestionarios de contexto para la evaluacin de sistemas educativos. Se revisan las fases generales, a la par que se identifica la posible composicin de indicadores (simples y complejos) de
dichos instrumentos. En el diseo de cuestionarios de contexto hay que considerar diversos
aspectos, entre ellos son clave: a) la seleccin de variables e indicadores que se deben incluir
como parte del modelo y b) el modo en que se evalan los indicadores complejos, es decir, aquellos que son resultado de una escala o de la combinacin de indicadores simples (representados
por un solo tem). Para evaluar indicadores complejos (por ejemplo, clima social del aula) existen escalas con buena validez de constructo; sin embargo, no pueden utilizarse completamente,
al estar compuestas por un elevado nmero de tems. En este ltimo caso, incluimos un procedimiento que hemos desarrollado para disear micro-instrumentos que estn compuestos por los
mejores tems de la escala (es decir, los que mejor predicen la puntuacin total, manteniendo la
estructura dimensional de la escala). Estos micro-instrumentos deben ser capaces de representar
indicadores complejos para que puedan ser incluidos en los cuestionarios de contexto. Se trata
de un procedimiento de reduccin de escalas, dirigido a identificar los elementos o tems que
mejor predicen la puntuacin global de una escala, pero manteniendo su estructura terica.
Palabras clave: Evaluacin de sistemas educativos, Cuestionarios de contexto, Metodologa de
diseo y construccin de instrumentos, Indicadores educativos.
Introduccin
Las evaluaciones de sistemas educativos, sean las
que se realizan en cada pas o las que se desarrollan a nivel internacional (como, por ejemplo, los
proyectos PISA, TIMSS, PIRLS) se han convertido en una lnea de investigacin y anlisis de
gran relieve, con amplia repercusin social y con
capacidad de influencia en las polticas educativas a nivel local, nacional e internacional.
19/6/12
13:04
Pgina 90
Los elementos considerados clave en estas evaluaciones, sobre los que se han centrado los esfuerzos tcnicos y las discusiones polticas, han
sido las pruebas estandarizadas de rendimiento. Estas pruebas son las que permiten ofrecer
informacin sobre los niveles de rendimiento
en cada una de las reas fundamentales de contenido para cada una de los pases o regiones
que participan en las evaluaciones.
La aplicacin de estas pruebas de rendimiento
se acompaa de los llamados cuestionarios de contexto. Son procedimientos de recogida de informacin sobre los sujetos, grupos y centros a los que se
aplican las pruebas y en algunos casos sobre el propio proceso de enseanza aprendizaje. La informacin que aportan, analizada en paralelo con las
pruebas de rendimiento, puede resultar de gran
utilidad para explicar los resultados obtenidos, y,
por tanto, para sustentar las decisiones sobre polticas educativas. Sin embargo, como sealbamos
en De la Orden y Jornet (2012), existe un problema fundamental que est en la base de la limitada
utilidad de estos anlisis: el diseo deficiente de los
denominados cuestionarios de contexto.
En los ltimos aos, los institutos y agencias de
evaluacin que realizan evaluaciones de sistemas
educativos han incrementado su inters y atencin por ajustar mejor este tipo de instrumentos.
Sin embargo, dichos esfuerzos generalmente se
han basado en la identificacin de los reactivos
que mostraban asociaciones significativas para
explicar el desempeo (Willms, 2006; Backhoff
et al., 2008; Miranda, 2008; Murillo, 2009), aportando, sin duda, informaciones de gran valor. No
obstante, se ha priorizado el anlisis emprico de
la utilidad de los reactivos como indicadores de
factores asociados al desempeo, sin realizar una
incidencia especial en las bases tericas o racionalidad de elaboracin de los cuestionarios como
instrumento de medida.
En consecuencia, se han producido innovaciones, en ocasiones escasas y en cualquier caso
parciales, que han mejorado el rol de este tipo de
instrumentos en el conjunto de la investigacin
educativa en general y de los planes de evaluacin en particular, pero que no han llegado a
satisfacer las expectativas acerca de su utilidad
global en las evaluaciones de sistemas. De este
modo, las mejoras han sido menores que los
esfuerzos realizados. El hecho de apoyar la
mejora principalmente sobre anlisis estadsticos ms potentes de la informacin disponible,
normalmente de carcter causal y multinivel,
aunque haya proporcionado indudables avances probablemente no sea el nico camino para
mejorar el uso de la informacin evaluativa.
Desde nuestra perspectiva, y tal como se indica
en De la Orden y Jornet (2012), el incremento
de la utilidad de este tipo de informaciones
debe apoyarse en un mejor diseo de los instrumentos y elaborarlos con la atencin que merecen: desde la descripcin del modelo explicativo de referencia para dar respuesta al concepto
de calidad que pretende evaluarse, pasando por
la definicin de los constructos implicados,
hasta la seleccin de los indicadores que los
hacen operativos en forma de medida.
En este trabajo presentamos una propuesta de
diseo y desarrollo de cuestionarios de contexto. El origen de esta lnea de investigacin se
sita en el Proyecto Anlisis de Variables de
Contexto: Diseo de cuestionarios de contexto
para la evaluacin de sistemas educativos (Proyecto AVACO, I+D+I, 2006-2008. Cdigo SEJ
2005-05 923 financiado por el MICINN),
y que ha sido comprobado y validado en el Proyecto Modelos de Anlisis de Variables de Contexto (Proyecto M-AVACO, I+D+I. 2009-2012.
Cdigo EDU 2009-13485 asimismo financiado por el MICINN)1. La propuesta incluye
dos grandes conjuntos de acciones:
a) Proceso general de diseo y desarrollo
de los cuestionarios de contexto para la
evaluacin de sistemas educativos.
b) Optimizacin de la medida de constructos complejos para el diseo de microinstrumentos que integrar en dichos
cuestionarios.
19/6/12
13:04
Pgina 91
19/6/12
13:04
Pgina 92
las diferentes partes involucradas en la evaluacin. Ello ayuda a especificar las preguntas de
evaluacin a que debe responderse y orienta de
forma ms concreta la fase siguiente. La definicin precisa del plan de evaluacin est en la
base de la validez ltima que pueda exigirse al
mismo.
19/6/12
13:04
Pgina 93
Investigacin
pedagoga
diferencial
Modelos de explicacin
del rendimiento
acadmico
Necesidades/expectativas
de informacin
de las audiencias
Informa
Informa
Informa
Indicadores simples
Seleccin de variables
e indicadores
Incluye
Representados por
Indicadores complejos
Estructura
Modo en que
se da la E/A
Entrada
Proceso
quin?
quin?
Niveles
mediato
inmediato
Percepciones
resultados
de logro
Contexto
quin?
Una escala
Componer
cuestionarios
Condiciones en
que se
da la E/A
Un reactivo
Sistema de
cuestionarios
de contexto
Producto
quin?
Componer
cuestionarios
Informacin
de contexto
Informacin de entrada
Cuestionarios
de contexto
Informacin de proceso
Informacin de producto:
Rendimiento
Pruebas estandarizadas
de rendimiento
19/6/12
13:04
Pgina 94
Bancos de datos
Cul es la ms operativa?
Es posible triangular fuentes?
Es fiable y vlida su informacin?
19/6/12
13:04
Pgina 95
Producto
Contexto
X
X
X
X
X
X
X
X
19/6/12
13:04
Pgina 96
19/6/12
13:04
Pgina 97
19/6/12
13:04
Pgina 98
19/6/12
13:04
Pgina 99
Versin 1
N tems = N orig
ESTUDIO PILOTO
0. Anlisis de dimensionalidad de la escala
Objetivo: comparar la dimensionalidad de la EO en el estudio piloto
Versin 2
N tems =
N orig IA
Versin 3
N tems = N orig
IA IsinQ
Iteracin 2
Iteracin n
Versin 4. M.I.
N tems =
N orig IA
IsinQ IsinInfo
jerrquicos, tomando como medida la distancia eucldea, que se ajusta mejor a la mtrica
de las variables a analizar. Como mtodo de
19/6/12
13:04
Pgina 100
Tambin est vigente la muy potente alternativa de someter a prueba los modelos de medida de
las escalas identificadas en la reduccin a travs
de procedimientos de anlisis factorial confirmatorio (AFC), que forman parte de los modelos de
ecuaciones estructurales (SEM) (Gonzlez-Montesinos y Backhoff, 2010; Backhoff y GonzlezMontesinos, 2012). De hecho, una combinacin
de procedimientos de escalamiento Rasch y confirmacin de modelos de medida a travs de CFASEM es la alternativa ideal para las fases intermedias y finales de consolidacin de las escalas e
instrumentos de contexto. Esta combinacin de
tcnicas psicomtricas para validacin de escalas
se ha empleado ya con mucho xito en evaluaciones nacionales e internacionales de gran alcance,
tanto para tems de dominios cognitivos, actitudinales y de percepcin (Schultz y Sibberns, 2004).
19/6/12
13:04
Pgina 101
afirmar que a menor nmero de valores perdidos la escala es factible. Se trata de comprobar
que la presencia de valores perdidos es aleatoria y no responde a un patrn sistemtico de no
respuesta. Por ello, aunque no existe un criterio prefijado al que podamos aludir como referencia para la toma de decisiones, estimamos
que cualquier tem con una presencia de valores perdidos superior al 30% puede contener
algn problema de formulacin importante,
o bien, abordar un contenido no adecuado para
el grupo al que se dirige el instrumento, por lo
que sera conveniente su eliminacin. En caso
de que el nmero de casos perdidos sea mnimo y no se mantenga un patrn sistemtico, se
pueden asumir dichos casos como mortalidad
experimental y eliminarlos del grupo sobre el
que se realiza el estudio, o bien pensar en algn
procedimiento robusto o de recorte como, por
ejemplo, la media recortada (trimmed mean).
En caso de que exista un nmero considerable
de valores perdidos (pero siempre inferior al
30%), se analizan otras opciones, como la imputacin o la interpolacin, para recuperar esos
casos.
La imputacin es un proceso habitual cuando
se trata de trabajar con escalas de opinin,
actitudes, etc. El motivo fundamental reside en
que en este tipo de instrumentos suelen darse
bastantes reactivos omitidos, de forma que los
sujetos, cuando no tienen formada una respuesta, prefieren dejar en blanco, no contestando el elemento. El efecto sobre los anlisis es
muy negativo, pues en todas aquellas aproximaciones en que se requiera que los registros
individuales estn completos se elimina el registro en su totalidad, aunque sea tan solo un
tem el que est en blanco. Obviamente, si se
trata de anlisis en los que se relacionan variables, la eliminacin de casos se incrementa,
pues se requiere que todos los casos tengan respuesta en las variables que se analizan (as, por
ejemplo, si se trata de una correlacin bivariada, debe haber respuesta en las dos variables;
en caso contrario, todos los registros que no
19/6/12
13:04
Pgina 102
tengan respuesta en ambas variables se eliminan). Todo esto puede implicar un grave proceso de reduccin de la muestra.
Respecto a las soluciones de imputacin, pasan
sobre todo por imputar o interpolar. Existen
diversos procedimientos que pueden aplicarse
en funcin de la mtrica de las variables, las
caractersticas de la distribucin de las mismas,
el tipo de muestreo, la cantidad de casos perdidos y las relaciones que pueden establecerse
entre las variables que se deben imputar con
otras variables a partir de las cuales se pueda
reducir la incertidumbre (Srndal, Swensson
y Wretman, 1991; Muoz y lvarez, 2009).
En nuestro caso, hemos optado por un proceso
simple de imputacin: la sustitucin del caso
perdido por la mediana del tem en el caso de
variables en las que al menos se pueda asegurar
la ordinalidad, pero no ms all, o por la
moda en el caso de variables nominales,
considerando todas las respuestas existentes.
As, el proceso de imputacin que hemos seleccionado tiene las siguientes caractersticas:
I. El objetivo en este caso es mantener el
tamao de la muestra. Por lo que siempre que se haya cumplido el criterio
sealado en la fase anterior, mantendramos los sujetos imputando los valores
perdidos.
II. En cuanto al procedimiento, en nuestro
caso, procedemos por la sustitucin de
valores perdidos por la mediana (considerando todas las respuestas al tem). Si
se trata de variables nominales, la opcin es la moda.
Adicionalmente al proceso de imputacin propiamente dicho, estimamos que se requiere una
validacin del proceso de imputacin, de forma
que se estime si esta ha producido diferencias
entre la distribucin de los datos originales y la
serie ya imputada. El problema metodolgico
aqu no es menor; de hecho buena parte de los
procedimientos para analizar la relacin entre
ambas series no es aplicable, dado que eliminara los sujetos que contuvieran valores perdidos
en la variable original. Por ejemplo, una correlacin entre ambas series, que sera lgicamente un
indicador de referencia, no es aplicable. Siempre
nos ofrecera como resultado +1 dado que, en
definitiva, se acabaran correlacionando las dos
series nicamente con los sujetos completos.
La prueba T de Wilcoxon, para muestras relacionadas puede constituir un apoyo simple de
corroboracin de la imputacin, dirigido a contrastar si los rangos de ambas series de la variable al menos se mantienen sin distorsiones
debidas la imputacin6.
19/6/12
13:04
Pgina 103
Con ello, disponemos del indicador de fiabilidad global para poder as corroborar el tamao
de la prdida en fiabilidad desde la escala original. El criterio en este caso es obvio: a mayor
valor en el coeficiente alfa, mejor. No obstante,
hay que tener en cuenta el punto de partida de
alfa en la escala original y tomamos como criterio
global que la prdida en fiabilidad sea 10%,
siempre y cuando se mantenga en valores altos.
Tras esta comprobacin global de la escala, que
ofrece adems la puntuacin alfa de referencia, iniciamos la exploracin de los tems de la versin 3.
Estas exploraciones, que nos van a permitir una
nueva seleccin de tems, se realizan sobre la versin ya reducida del instrumento (versin 3), y se
apoyan en los siguientes indicadores:
Se identifican grupos extremos (27% superior e inferior) a partir de la puntuacin
total de la versin reducida (versin 3).
Posteriormente, se contrasta la media de
cada tem entre ambos grupos, mediante
la prueba t de Student. En el caso en que
las pruebas t no fueran significativas
(hecho que puede resultar extrao dado
el proceso de reduccin anterior), se utilizaran para seleccionar tems, de forma
que estos seran eliminados. Se tratara,
pues, de una segunda depuracin. Ello nos
permite utilizar la discriminacin de cada
tem como criterio de ordenacin de los
mismos, de forma que constituye el primer indicador para la confirmacin de la
versin reducida (versin 3).
Asimismo, se analizan los tems considerando la prdida en el coeficiente de fiabilidad si se elimina el tem. Como en
casos anteriores, siempre y cuando se observe un incremento en el coeficiente alfa
al eliminar el tem, este debe ser eliminado. En cualquier caso, como criterio, nos
permite ordenar los tems en funcin de
las aportaciones a la fiabilidad total de la
versin reducida (versin 3).
El tercer indicador para cada reactivo ser
nuevamente el ndice de homogeneidad
19/6/12
13:04
Pgina 104
Donde:
t2= i2 + 2ij
19/6/12
13:04
Pgina 105
Las siguientes iteraciones se establecern disminuyendo un tem en cada una de ellas, utilizando como referencia la ordenacin de tems
estimada en la fase 5.
El criterio de detencin de las iteraciones se
vincula con la calidad mtrica de la reduccin.
Se detendrn las iteraciones cuando se produzca alguna de las siguientes situaciones en los
criterios mencionados:
A modo de conclusin
a) La disminucin de la correlacin entre
las versiones por debajo de 0.90.
b) Cuando no se produzca una coherencia
entre las clasificaciones de ambas versiones entre las clasificaciones producidas
entre los totales de ambas versiones (criterio 2 y 3).
c) Cuando se den coincidencias entre las
clasificaciones estimadas por unidades
muestrales, inferiores al 70% (criterio 5).
d) Cuando no se cumpla el criterio 5, habiendo eliminado tems redundantes.
De esta forma, se replica el procedimiento con
todas las variaciones posibles de elementos. La
La uniformidad y homogeneidad que se observa en los planes de evaluacin de sistemas probablemente est en la base de la percepcin
generalizada de falta de utilidad.
Hay una dificultad constatada en la comunicacin de resultados de las evaluaciones de
sistemas: de la ingente cantidad de informacin que ofrecen, los medios de comunicacin suelen destacar exclusivamente datos
controvertidos como los rankings derivados
de las pruebas de rendimiento, que se convierte en la nica informacin que finalmente
llega a la sociedad.
19/6/12
13:04
Pgina 106
Notas
1 En ambos casos, ha actuado como investigador principal J. M. Jornet y la Universitat de Valncia ha sido la coordinadora de la red de universidades (Universidad Complutense, Universidad del Pas Vasco, Universidad de Cdiz,
Universidad de Mlaga, Universidad de Navarra, Universidad de Castilla La Mancha, Universitat Jaume I y Universidad Autnoma de Barcelona), que han dado respuesta a ambos proyectos. La lnea de investigacin iniciada por estos
proyectos adems tiene continuidad en el Proyecto EVALEF, Validacin de un instrumento de evaluacin de estilos
educativos familiares y establecimiento de lineamientos para el diseo de programas de intervencin con familias
(financiado en el Plan Nacional de I+D+i, Referencia EDU2011-29467, dirigido por M. J. Perales). Tomando como
constructo central los estilos educativos parentales, el proyecto parte de la metodologa desarrollada en Avaco y
Mavaco para desarrollar la escala de estilos educativos familiares. Asimismo, los proyectos Evaluacin del clima social
del aula en educacin secundaria (financiado por la Universitat de Valncia) y Diseo de instrumentos de valoracin del
clima de aprendizaje en estudiantes universitarios (financiado por la Generalitat Valenciana), centrados en el clima
social de aula, surgen de los proyectos Avaco y Mavaco y aplican su metodologa de diseo de instrumentos de contexto.
2 Probablemente con enfoques metodolgicos alternativos pueda llegar a establecerse esa continuidad desde lo
micro-analtico hasta lo macro-analtico, pero se requerir otro tipo de diseos de los planes de evaluacin de sistemas educativos, que tambin ser necesario explorar.
3 En el artculo de De la Orden y Jornet en este mismo nmero de Bordn se analiza en profundidad el concepto de calidad y su concrecin en efectos que se van a considerar en la evaluacin de sistemas educativos.
4 Si bien este trabajo se presenta por los autores del artculo, la definicin del procedimiento R-AVACO de optimizacin de la medida ha sido desarrollado contando adems con las aportaciones de diversos investigadores: Emelina Lpez Gonzlez (UV), Javier Tourn (UNAV), Luis Lizasoain (EHU), Luis Joarsti (EHU) y Javier Tejedor
(USAL), por lo que si se utilizara el procedimiento y se deseara citar, debera referirse al conjunto de investigadores
(autores del artculo y participantes).
5 Mediante SPSS, se pueden usar comandos tales como explorar, pedir grficos de cajas, tallos y hojas y frecuencias, o bien, utilizar procedimientos ms potentes, como los disponibles en R.
6 Habitualmente trabajaremos con muestras grandes (N 25), por lo que la T debe transformarse a Z para comprobar la probabilidad.
19/6/12
13:04
Pgina 107
Referencias bibliogrficas
ANDRICH, D. (1978). A rating formulation for ordered response categories. Psychometrika, 43, 561-573.
BACKHOFF, E. y GONZLEZ-MONTESINOS, M. (2012). Evidencias de validez del cuestionario para docentes del Estudio
Internacional sobre Enseanza y Aprendizaje (TALIS-2009). Bordn, 64 (2), 173-194.
BACKHOFF, E., BOUZAS, A., GONZLEZ-MONTESINOS, M., ANDRADE, E., HERNNDEZ, E. y CONTRERAS, C. (2008). Factores
asociados al aprendizaje de estudiantes de 3 de primaria en Mxico. Mxico D. F.: Instituto Nacional para la Evaluacin de la Educacin (INEE).
CARDONA, L., PERALES, M. J. y GMEZ-COSTA, D. (2009). Conferencia: Familia y transformacin social. Anlisis del papel
de las familias en los estudios de evaluacin de sistemas educativos. Introduccin al estudio de validacin de un cuestionario, Huelva, XIV Congreso de AIDIPE: Educacin, investigacin y desarrollo social.
CHIVA, I. y MORAL, A. (2009). Conferencia: Diseo y revisin lgica de una escala para evaluar la metodologa docente
en primaria y secundaria, Huelva, XIV Congreso de AIDIPE: Educacin, investigacin y desarrollo social.
CRONBACH, L. J. (1951). Coefficient alpha and the internal structure of test. Psychometrika, 16, 297-334.
DE LA ORDEN, A. (2007). Evaluacin de la calidad de la educacin. Un modelo sistmico como base para la construccin de un sistema de indicadores. En Seminario Internacional de Indicadores Educativos (memoria): Conceptos,
metodologas y experiencias para la construccin de indicadores educativos. Mxico: Instituto Nacional para la Evaluacin de la Educacin (INEE), 6-21.
DE LA ORDEN, A. y JORNET, J. M. (2012). La utilidad de las evaluaciones de sistemas educativos: el valor de la consideracin del contexto. Bordn, 64 (2), 69-88.
EMBRETSON, S. E. y REISE, S. P. (2000). Item Response Theory for Psychologists. London, Mohaw, N. J.: Lawrence Erlbaum Associate Publishers.
GMEZ-COSTA, D. y CARDONA, L. (2009). Conferencia: Diseo y validacin de un instrumento para la evaluacin del
autoconcepto acadmico: Ensayo piloto con alumnas y alumnos de sexto de primaria de la provincia de Valencia dentro del marco de la evaluacin de sistemas educativos, Huelva, XIV Congreso de AIDIPE: Educacin, investigacin
y desarrollo social.
GONZLEZ-BARBERA, C., GARCA-GARCA, M., GARCA-CORONA, D. y BIENCINTO, CH. (2009). Conferencia: EVADIE. Cuestionario para la evaluacin de la atencin a la diversidad. Diseo y validacin, Huelva, XIV Congreso de AIDIPE:
Educacin, investigacin y desarrollo social.
GONZLEZ-MONTESINOS, M. (2012). El modelo mtrico de Rasch: Fundamentacin, implementacin, interpretacin.
Madrid: La Muralla (en prensa).
JOARISTI, L., LIZASOAIN, L. y GAMBOA, E. (2012). Construccin y validacin de un instrumento de medida del nivel socioeconmico y cultural (NSE) de estudiantes de educacin primaria y secundaria. Bordn, 64 (2), 151-172.
LPEZ-GONZLEZ, E., PREZ-CARBONELL, A. y RAMOS-SANTANA, G. (2011). Modelos complementarios al anlisis factorial en la construccin de escalas ordinales: un ejemplo aplicado a la medida del clima social aula, Revista de Educacin, 354, 369-397.
LPEZ-GONZLEZ, E., TOURN. J. y TEJEDOR, F. J. (2012). Diseo de un micro-instrumento para medir el clima de
aprendizaje en cuestionarios de contexto. Bordn, 64 (2), 111-126.
MASTERS, G. N. (1982). A Rasch model for Partial credit scoring. Psychometrika, 60, 523-547.
MUOZ, J. F. y LVAREZ, E. (2009). Mtodos de imputacin para el tratamiento de datos faltantes. Revista de mtodos
cuantitativos para la economa y la empresa, 7, 3-30.
PREZ-CARBONELL, A., RAMOS-SANTANA, G. y LPEZ-GONZLEZ, E. (2009). Diseo y anlisis de una escala para la valoracin de la variable clima social aula en alumnos de educacin primaria y secundaria, Revista de Educacin, 350,
221-252.
RAMOS SANTANA, G. y PREZ CARBONELL, A. (2008). Conferencia: El clima social aula: un reto para la formacin integral de alumnos, Zaragoza, XIV Congreso Nacional y III Iberoamericano de pedagoga, educacin, ciudadana y convivencia, diversidad y sentido social de la educacin.
19/6/12
13:04
Pgina 108
RAMOS, G. y PREZ CARBONELL, A. (2009). Conferencia: Utilidad del diseo de una escala de valoracin de la percepcin
clima social aula en los niveles de primaria y secundaria, Huelva, XIV Congreso de AIDIPE: Educacin, investigacin y desarrollo social.
SRNDAL, C. E., SWENSSON, B. y WRETMAN, J. (1991). Model Assisted Survey Sampling. New York: Springer-Verlag.
SCHULTZ, W. y SIBBERNS, H. (2004). IEA Civic Education Technical Report. Amsterdam: International Association for
the Evaluation of Educational Achievement (IEA).
TUKEY, J. W. (1977). Exploratory Data Analysis. Addison-Wesley, Reading, MA.
WILLMS, J. D. (2006). Learning Divides: Ten Policy Questions About the Performance and Equity of Schools and Schooling
Systems. Montreal: UNESCO.
Fuentes electrnicas
BIENCINTO-LPEZ, C., GONZLEZ-BARBERA, C., GARCA-GARCA, M., SNCHEZ-DELGADO, P. y MADRID-VIVAR, D. (2009).
Diseo y propiedades psicomtricas del AVACO-EVADIE. Cuestionario para la evaluacin de la atencin a la
diversidad como dimensin educativa en las instituciones escolares. Relieve, 15, 1.
<http://www.uv.es/RELIEVE/v15n1/RELIEVEv15n1_4.htm.> [Fecha de consulta: 15/diciembre/2011]
DE LA ORDEN, A. (dir.) (1997). Desarrollo y validacin de un modelo de calidad universitaria como base para su evaluacin. Relieve, 3, 1 y 2. <http://www.uv.es/RELIEVE/.> [Fecha de consulta: 13/diciembre/2011].
GONZLEZ-MONTESINOS, M. J. y BACKHOFF, E. (2010). Validacin de un cuestionario de contexto para evaluar sistemas
educativos con Modelos de ecuaciones estructurales. Relieve, 16, 2. <http://www.uv.es/RELIEVE/v16n2/RELIEVEv16n2_1.htm> [Fecha de consulta: 13/diciembre/2011].
LIZASOAIN, L. y JOARISTI, L. (2010). Estudio diferencial del rendimiento acadmico en lengua espaola de estudiantes
de educacin secundaria de Baja California (Mxico). Revista Iberoamericana de Evaluacin Educativa, 3 (3), 115-134.
<http://www.rinace.net/riee/numeros/vol3-num3/art6.pdf.> [Fecha de consulta: 13/diciembre/2012].
LUKAS, J. F. y SANTIAGO, K. M. (2004). Evaluacin de centros escolares de educacin secundaria del Pas Vasco. Revista Electrnica de Investigacin Educativa, 6 (2). <http://redie.uabc.mx/vol6no2/contenido-lukas.html.> [Fecha de
consulta: 13/diciembre/2012].
MIRANDA, L. (2008). Factores asociados al rendimiento escolar y sus implicancias para la poltica educativa del Per.
En BENAVIDES, M. (ed.), Anlisis de programas, procesos y resultados educativos en el Per. Contribuciones empricas
para el debate. Lima: Grade. <http://www2.minedu.gob.pe/umc/admin/images/publicaciones/artiumc/3.pdf.>
[Fecha de consulta: 13/diciembre/2012].
MURILLO, F. J. y HERNNDEZ-CASTILLA, R. (2011). Factores escolares asociados al desarrollo socio-afectivo en Iberoamrica. Relieve, 17, 2, art. 2. <http://www.uv.es/RELIEVE/v17n2/RELIEVEv17n2_2.htm>[Fecha de consulta:
5/diciembre/2012].
MURILLO, J. (2009). Hacia un modelo de eficacia escolar. Estudio multinivel sobre los factores de eficacia en las escuelas espaolas. Revista electrnica Iberoamericana sobre calidad, eficacia y cambio en educacin. 6 (1), 4-28.
<http://www.rinace.net/arts/vol6num1/vol6num1.pdf.>
[Fecha de consulta: 13/diciembre/2012].
SAMEJINA, F. (1969). Estimation of latent ability using a response pattern of graded scores. Psychometrika Monograph,
17. Richmond, VA: Psychometric Society. <http://www.psychometrika.org/journal/online/MN17.pdf> [Fecha de
consulta: 18/noviembre/2011].
19/6/12
13:04
Pgina 109
Abstract
Context questionnaire design for the evaluation of educational systems: optimization
of complex constructs measurement
This paper is a review of a possible model for design and development of context
questionnaires for the educational systems evaluation. General stages are reviewed and identify
the composition of possible indicators (simple and complex) of these instruments. In the design
of questionnaires of context one must consider various aspects, some of which the most
important are: a) the selection of variables and indicators to be considered as part of the model,
and b) the way in which complex indicators, i.e., those that are the result of a scale or a
combination of simple indicators (represented by a single item) are evaluated. To evaluate
complex indicators (for example, the social climate of the classroom) there are good construct
validity scales; however, they cannot be used completely, since they are made up of a large
number of items. In the latter case, we include a procedure that we have developed to design
micro-instruments that are composed of the best items of the scale (i.e., that best predict the
total score, keeping the dimensional structure of the scale). These micro-instruments must be
able to represent complex indicators so that they can be included in the questionnaires of
context. It is a procedure of reduction of scales, aimed at identifying the best elements or items
that best predict the overall score of a scale, while maintaining its theoretical structure.
Key words: Educational systems evaluation, Context questionnaires, Instrument design and construction
methodology, Educational indicators.
Rsum
La conception de questionnaires de contexte pour lvaluation des systmes ducatifs:
loptimisation de la mesure des construits complexes
Cet article fait une rvision dun possible modle pour concevoir et construire des
Questionnaires de Contexte pour lvaluation des systmes ducatifs. Nous revissons les
phases gnrales, toutefois que nous identifions la possible composition des indicateurs
(simples et complexes) de ces instruments. Dans la conception des questionnaires de
contexte il faut tenir compte de plusieurs aspects. Parmi eux nous identifions comme des
lments cls: a) la slection des variables et des indicateurs qui doivent tre considrs et
qui font partie du modle, et b) la faon dvaluer les indicateurs complexes, cest dire,
ceux rsultants dune chelle ou bien dune combinaison dindicateurs simples (reprsents
par un seul lment). Pour lvaluation dindicateurs complexes (para exemple, le climat
sociale de la classe) ils existent des chelles avec une bonne validit de construit; nanmoins
elles ne peuvent pas tre compltement utilises puisquelles se composent dun grand
nombre ditems. Dans le dernier cas, nous dveloppons une procdure pour la conception de
micro-instruments composs par les meilleurs items de lchelle (cest dire, les items qui
prdisent le mieux le score total, en gardant la structure dimensionnelle de lchelle). Ces
micro-instruments doivent tre capables de reprsenter des indicateurs complexes pour
quils puissent tre inclus dans les questionnaires de contexte. Il sagit dun processus de
19/6/12
13:04
Pgina 110
rduction des chelles, visant lidentification des lments ou items qui prdisent le mieux
le score total dune chelle, en gardant sa structure thorique.
Mots cls: valuation des systmes ducatifs, Questionnaires de contexte, Mthode de conception et
constructions dinstruments, Indicateurs ducatifs.