Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Dialnet ModeloDeRecalificacionParaLaPruebaSaber11 7396909
Dialnet ModeloDeRecalificacionParaLaPruebaSaber11 7396909
Resumen
1 Acero, W., Sánchez, J., Suárez, Dora., Téllez, C. (2016) Modelo de recalificación para la
Colombia.
d Estudiante de doctorado en Estadı́stica , Universidad Nacional de Colombia. Subdirector de
43
44 William Acero R., Jesús Fernando Sánchez, Dora Suárez & Cristian F. Téllez
Abstract
Nowadays the standardized tests are an essential tool when assessing the quality of
education, the population changes and the inclusion of new evaluation forms would
require the use of methodologies that allow the comparison between the results of
the tests in different applications. This article outlines the different methodologies
for equalization Rating through transformations applied to the particular case of
the test Saber 11, applied by the Instituto Colombiano para la Evaluación de la
Calidad de la Educación (Icfes), due to the structural change in the test presented
from 2014. To achieve the equalization the Generalized Linear Models and the
Test Classic theory models are used, to make comparisons with less error when
Beta Regression models are used. The methodologies presented can be applied to
different scenarios in which equalization Rating for standardized test is required.
Keywords: generalized linear models, rating equalization, Beta regression models,
standardized test .
1. Introducción
Los puntajes de las pruebas de estado de la educación media son usadas frecuente-
mente como criterio en la toma de decisiones individuales e institucionales (Chica
et al. 2011).
Los cambios presentes en los modelos educativos a través del tiempo impulsan
desarrollos en las pruebas estandarizadas de forma que tengan mayor capacidad
para captar las diferencias cognitivas de los evaluados (Martı́nez 2001).
El Icfes aprobó una nueva estructura y organización del examen de Estado para la
educación media Saber 11 a partir de la segunda aplicación del 2014. Este cambio
estructural permite que la prueba de estado esté alineada con los otros exámenes
del Sistema Nacional de Evaluación Estandarizada (SNEE): Saber 3, Saber 5,
Saber 9 y Saber Pro(Bernal 2013).
Los exámenes de Estado están sujetos a ser aplicados bajo los principios de inde-
pendencia, igualdad, comparabilidad, periodicidad, reserva individual, pertinencia
y relevancia.De esta forma, se hace necesario asegurar la comparabilidad entre
las aplicaciones tanto las hechas antes de la segunda aplicación como aplicaciones
siguientes.
Como consecuencia, un cambio estructural en la prueba estandarizada, necesita un
proceso de recalificación de los puntajes en las aplicaciones anteriores de la prueba
con el fin de obtener uno equivalente en la escala de la prueba actual.
Este artı́culo pretende comparar varias alternativas disponibles para la recalifi-
cación de los puntajes de forma que al equiparar sea posible llevar los puntajes
globales de la pruebas estandarizadas aplicadas después de un cambio estructural
(Bernal 2013).
2. Generalidades de la prueba
Los cambios propuestos para el examen Saber 11 para la segunda aplicación de
2014 consisten en modificar la estructura del examen con el objetivo de que los re-
sultados obtenidos sean comparables, en algún sentido, con los de los otros exáme-
nes del SNEE(Mariño 2014). El cambio consistió en pasar de 9 pruebas, que in-
cluı́an una profundización, a 5 pruebas. En la tabla 1 se muestra la estructura
y forma de calcular los puntajes globales de la prueba Saber 11 antes y después
de la reestructuración de la prueba. Esta ponderación es realizada de forma que
lectura crı́tica, matemáticas, ciencias naturales y sociales y ciudadanas tengan el
mismo peso e inglés tenga un peso menor dadas las diferencias entre estudiantes de
calendario A y B, colegios oficiales y no oficiales (Mariño 2014). El ı́ndice global
anterior era calculado bajo la misma esencia, agrupando cada una de las áreas
evaluadas.
Tabla 1: Estructura del examen antes y después de 2014-II y forma de cálculo del
puntaje global. Fuente: elaboración propia.
Prueba Caracterı́tica
Matemáticas (M)
Lenguaje (L)
Antes Biologı́a (B)
de Fı́sica (F)
2014- Quı́mica (Q)
II Ciencias Sociales (S)
Filosofı́a (Fi)
Inglés (I)
Índice global
PB + PQ + PF + 2PS + PF i + 3PL + 3PM + PI
anterior IG1 =
13
Lectura Crı́tica (LC)
Después
Matemática (MA)
de
Ciencias Naturales (CN)
2014-
Sociales y ciudadanas (SC)
II
Inglés (IN)
Índice global
3PLC + 3PM A + 3PCN + 3PSC + PIN
actual IG1 =
13
Cada uno de los puntajes está en una escala de medición de 0 a 100, por tanto,
el ı́ndice global resultante corresponde al promedio ponderado de los puntajes en
las diferentes pruebas, es también una medida entre 0 y 100. El ı́ndice resultante
es multiplicado por 5, que corresponde al puntaje global que se publica en los
reportes individuales.
Todos los exámenes de las aplicaciones desde 2012-I hasta 2014-I, fueron re-
calificados utilizando teorı́a clásica del test y teorı́a de respuesta al ı́tem (TRI).
3. Metodologı́a
Tabla 2: Distribución de las pruebas por año y tipo del evaluado. Fuente: elabora-
ción propia.
Para equiparar los puntajes globales, se busca explicar los puntajes de la recalifica-
ción por medio de los puntajes reales obtenidos en las diferentes pruebas. Cuando
se observa la correlación entre las diferentes pruebas, encontramos valores altos,
tanto entre las pruebas recalificadas como en los valores de los puntajes originales
de la prueba (matrices (1) y (2)). Al realizar la prueba de esfericidad de Barlett
(Grossman et al. 1991) se concluye que existe una correlación estadı́sticamente
significativa entre las pruebas a un nivel de significancia del 5 %.
Esto indica entonces la presencia de una variable latente que no se ha observado
directamente a través de los puntajes brutos, por lo cual se procede a reducir la
dimensionalidad de la prueba por medio de un análisis de componentes principales
con rotación ortogonal, normado (trabajando con la matriz de correlaciones direc-
tamente) (Peña 2002). Para buscar esta reducción de la dimensionalidad se realiza
una transformación lineal de las variables de forma que se conserva la mayor canti-
dad de variabilidad en los datos con la menor pérdida de información (Peña 2002).
Tabla 3: Valores propios y porcentaje de varianza acogida por cada eje factorial.
Fuente: elaboración propia.
Eje Valor propio Porcentaje de varianza
1 4.62 57.69 %
2 0.64 7.96 %
3 0.55 6.92 %
4 0.50 6.28 %
5 0.47 5.92 %
6 0.44 5.51 %
7 0.40 5.03 %
8 0.37 4.68 %
Dada la gran cantidad de variabilidad que recoge el primer eje factorial respecto
a los demás ejes, se ha decidido crear un ı́ndice basado en este eje que será usado
como medida de resumen, para cada individuo, del desempeño en la prueba basado
en las diferentes subpruebas, que llamaremos en adelante ı́ndice global del ACP.
En adelante este será llamado el incide global del ACP, denotado como IGACP y
Tabla 4: Vectores propios asociados a cada eje del análisis de compoenentes prin-
cipales. Fuente: elaboración propia.
Eje 1 Eje 2 Eje 3 Eje 4 Eje 5 Eje 6 Eje 7 Eje 8
Biologı́a -0.36 -0.08 -0.03 0.46 0.33 0.54 0.40 -0.29
Sociales -0.37 0.28 0.01 0.39 -0.04 0.01 -0.78 -0.11
Filosofı́a -0.33 0.53 0.52 -0.46 0.33 -0.03 0.11 -0.04
Fı́sica -0.33 -0.58 0.53 -0.06 -0.39 -0.14 -0.01 -0.31
Inglés -0.35 0.09 -0.45 -0.51 -0.46 0.44 -0.03 -0.07
Lenguaje -0.36 0.34 -0.18 0.30 -0.38 -0.53 0.45 0.06
Matemáticas -0.35 -0.34 -0.44 -0.25 0.52 -0.44 -0.09 -0.18
Quı́mica -0.38 -0.25 0.09 0.05 0.08 0.12 -0.02 0.87
IGRecal = β0 + β1 IGACP +
El modelo Gamma ayuda a modelar el valor esperado de variables que son mayores
que cero, considerando que el ı́ndice global calculado a través de la recalificación
Figura 1: Plano factorial para los primeros 2 ejes factoriales. El primer eje contiene
el 57 % de variabilidad. Fuente: elaboración propia.
(medido de 0 a 1) es un valor siempre mayor que cero, este modelo parece ser
adecuado para establecer la equivalencia. El modelo quedará definido entonces
como:
Para un modelo Beta, se asume que la media de la variable aleatoria está medida
entre 0 y 1. Teniendo en cuenta que IGRecal es una variable aleatoria entre 0 y 1,
se utiliza una regresión Beta para modelar esta variable. En este caso, se asume
que para el i-ésimo individuo, IGRecal,i ∼ Beta(µi , φ). Por lo tanto, el modelo de
regresión estarı́a dado por:
µi = g −1 (β0 + β1 IGACP ) + ; i = 1, 2 . . . n.
Desde la teorı́a clásica de los tests, se pueden realizar dos tipos de equivalencias
entre las puntuaciones: lineal y no lineal. En el primer caso, se puede utilizar la
función de identidad, de medias o funciones lineales. En el segundo caso, el cı́rculo
de ángulo igualado o el método equipercentil (Kolen & Brennan 2004).
En este documento se hará uso del método equipercentil, ya que el puntaje glo-
bal es una variable continua. En este método se define una relación no lineal
entre las escalas de puntuación, estableciendo una igualdad entre las funciones de
distribución acumuladas para las poblaciones que quieran ser equiparadas. Si se
desean equiparar los puntajes IG1 e IG2 , cuyas funciones de densidad son F (IG1 )
y G(IG2 ), respectivamente, entonces la relación de equiparación para el modelo
equipercentil estará dada por:
IG2 = G−1 (F (IG1 )).
Para establecer la relación entre las dos puntuaciones son utilizados métodos de pre
suavizado y post suavizado con el objetivo de mejorar el ajuste. Este suavizamiento
se realiza con el método kernel (en general se usa kernel gaussiano) de equiparación
(Gasser & Müller 1979), luego se evalúa el error y la precisión de la estimación
(Steinberg & Moses 2011).
Los modelos que son presentados aquı́ son validados a través del análisis de resi-
duales. En cada uno de los modelos los residuales serán calculados como:
yi − µ̂i
ri = q .
\i )
var(y
4. Resultados
Para cada uno de los modelos ajustados son calculadas medidas de ajuste, estos
son: la suma de cuadrados de los errores (SCR), el criterio de información de Akaike
con base a los puntajes obtenidos en cada una de las pruebas individuales de la
siguiente forma:
8 8
X ai xij X ai x̄i
IG
c j = β1 λ 1 − β1 λ 1 + β0 (4)
i=1
Si i=1
Si
Donde:
con
a =[−2.466826, 0.0008034867, 0.0007437763, 0.0006196794, 0.0005891047,
0.0005464668, 0.0007962810, 0.0005441301, 0.0008231145]
y
M = [1, PBiologı́a , PSociales , PFilosofı́a , PFı́sica , PInglés , PLenguaje , PMatemáticas , PQuı́mica ]
5. Conclusiones
Este ejercicio permitió comparar y llevar a la misma métrica los resultados de
los evaluados del examen de Estado Saber 11, obtenidos como un puntaje global,
para distintas aplicaciones en las que se contaba con un cambio estructural de la
prueba.
Los resultados muestran que con cuatro métodos diferentes es posible predecir los
puntajes globales de los evaluados utilizando solo los puntajes obtenidos en una
aplicación anterior a 2014-2. Sin embargo, al evaluar medidas de ajuste para de las
puntuaciones obtenidas la equiparación con el uso de algún modelo de regresión
lineal generalizado es más robusto que con el uso de equiparaciones basadas en los
métodos convencionales de TRI y TCT.
En particular, la equiparación utilizando un modelo de regresión Beta mostró un
mejor ajuste en cuanto a la cobertura y la amplitud de los intervalos ya que los
puntajes a equiparar se encuentran en una escala acotada fácilmente llevada a una
escala de 0 a 1. Puntuaciones no acotadas como las de el examen Saber Pro pueden
ser equiparadas mediante el uso de un modelo de regresión gamma.
Referencias
Bernal, R. (2013), ‘Sistema nacional de evaluación estandarizada de la educación’,
Alineación del examen Saber 11.
Chica, S. M., Galvis, D. M. & Ramı́rez, A. (2011), ‘Determinantes del rendimiento
académico en Colombia: pruebas Icfes Saber 11o , 2009’.
Gasser, T. & Müller, H.-G. (1979), Kernel estimation of regression functions,
Springer.
Grossman, G. D., Nickerson, D. M. & Freeman, M. C. (1991), ‘Principal component
analyses of assemblage structure data: utility of tests based on eigenvalues’,
Ecology 72(1), 341–347.
Kolen, M. J. & Brennan, R. L. (2004), Test equating, scaling, and linking, Springer.
Mariño, J. P. (2014), Sistema Nacional de Evaluación Estandarizada de la Edu-
cación. Alineación del examen SABER 11; Lineamientos generales 2014-2.,
ICFES.