Dialnet ModeloDeRecalificacionParaLaPruebaSaber11 7396909

Comunicaciones en Estadı́stica
Estadı́stica en la evaluación de la educación

Junio 2016, Vol. 9, No. 1, pp. 43–54
Modelo de recalificación para la prueba Saber 111

Requalification model for Saber 11 test
William Acero R.a Jesús Fernando Sánchezb

wacero@contratista.icfes.gov.co jsanchez@contratista.icfes.gov.co
Dora Suárezc Cristian F. Téllezd

dsuarez@contratista.icfes.gov.co ctellez@icfes.gov.co
Resumen
Actualmente, las pruebas estandarizadas son una herramienta fundamental a la

hora de evaluar la calidad de la educación. Los cambios poblacionales y el la in-
clusión de nuevas forma de evaluación hacen necesario el uso de metodologı́as que
permitan comparar los resultados de las pruebas en las diferentes aplicaciones de
la misma. En el presente artı́culo se exponen diferentes metodologı́as para la equi-
paración de puntuaciones a través de transformaciones aplicadas al caso particular
de la prueba Saber 11, aplicada por el Instituto Colombiano para la Evaluación
de la Calidad de la Educación (Icfes), dado que para esta prueba se presentó un
cambio estructural a partir de la segunda aplicación de 2014. Para lograr la equi-
paración se utilizan modelos lineales generalizados y modelos de teorı́a clásica de
los test, para hacer las comparaciones encontrando menor error cuando se utilizan
modelos de regresión beta. Las metodologı́as aquı́ expuestas pueden ser aplicadas
para escenarios en los que se necesite hacer equiparación de puntuaciones para
pruebas estandarizadas.
Palabras clave: modelos lineales generalizados, equiparación de puntajes , mo-
delos de regresión Beta, pruebas estandarizadas .
1 Acero, W., Sánchez, J., Suárez, Dora., Téllez, C. (2016) Modelo de recalificación para la
prueba Saber 11. Comunicaciones en Estadı́stica, 9(1), 43-54.

a Estadı́stico, Subdirección de Estadı́sticas, Icfes, Colombia.
b Estadı́stico, Subdirección de Estadı́sticas, Icfes, Colombia.
c Msc. Universidade Federal de Pernambuco, Estadı́stica, Subdirección de estadı́sticas, Icfes,
Colombia.
d Estudiante de doctorado en Estadı́stica , Universidad Nacional de Colombia. Subdirector de
estadı́sticas, Icfes, Colombia.
43
44 William Acero R., Jesús Fernando Sánchez, Dora Suárez & Cristian F. Téllez
Abstract
Nowadays the standardized tests are an essential tool when assessing the quality of
education, the population changes and the inclusion of new evaluation forms would
require the use of methodologies that allow the comparison between the results of
the tests in different applications. This article outlines the different methodologies
for equalization Rating through transformations applied to the particular case of
the test Saber 11, applied by the Instituto Colombiano para la Evaluación de la
Calidad de la Educación (Icfes), due to the structural change in the test presented
from 2014. To achieve the equalization the Generalized Linear Models and the
Test Classic theory models are used, to make comparisons with less error when
Beta Regression models are used. The methodologies presented can be applied to
different scenarios in which equalization Rating for standardized test is required.
Keywords: generalized linear models, rating equalization, Beta regression models,
standardized test .
1. Introducción
Los puntajes de las pruebas de estado de la educación media son usadas frecuente-
mente como criterio en la toma de decisiones individuales e institucionales (Chica
et al. 2011).
Los cambios presentes en los modelos educativos a través del tiempo impulsan
desarrollos en las pruebas estandarizadas de forma que tengan mayor capacidad
para captar las diferencias cognitivas de los evaluados (Martı́nez 2001).
El Icfes aprobó una nueva estructura y organización del examen de Estado para la
educación media Saber 11 a partir de la segunda aplicación del 2014. Este cambio
estructural permite que la prueba de estado esté alineada con los otros exámenes
del Sistema Nacional de Evaluación Estandarizada (SNEE): Saber 3, Saber 5,
Saber 9 y Saber Pro(Bernal 2013).
Los exámenes de Estado están sujetos a ser aplicados bajo los principios de inde-
pendencia, igualdad, comparabilidad, periodicidad, reserva individual, pertinencia
y relevancia.De esta forma, se hace necesario asegurar la comparabilidad entre
las aplicaciones tanto las hechas antes de la segunda aplicación como aplicaciones
siguientes.
Como consecuencia, un cambio estructural en la prueba estandarizada, necesita un
proceso de recalificación de los puntajes en las aplicaciones anteriores de la prueba
con el fin de obtener uno equivalente en la escala de la prueba actual.
Este artı́culo pretende comparar varias alternativas disponibles para la recalifi-
cación de los puntajes de forma que al equiparar sea posible llevar los puntajes
globales de la pruebas estandarizadas aplicadas después de un cambio estructural
(Bernal 2013).
Comunicaciones en Estadı́stica, junio 2016, Vol. 9, No. 1

Modelo de recalificación para la prueba Saber 11 45
2. Generalidades de la prueba
Los cambios propuestos para el examen Saber 11 para la segunda aplicación de
2014 consisten en modificar la estructura del examen con el objetivo de que los re-
sultados obtenidos sean comparables, en algún sentido, con los de los otros exáme-
nes del SNEE(Mariño 2014). El cambio consistió en pasar de 9 pruebas, que in-
cluı́an una profundización, a 5 pruebas. En la tabla 1 se muestra la estructura
y forma de calcular los puntajes globales de la prueba Saber 11 antes y después
de la reestructuración de la prueba. Esta ponderación es realizada de forma que
lectura crı́tica, matemáticas, ciencias naturales y sociales y ciudadanas tengan el
mismo peso e inglés tenga un peso menor dadas las diferencias entre estudiantes de
calendario A y B, colegios oficiales y no oficiales (Mariño 2014). El ı́ndice global
anterior era calculado bajo la misma esencia, agrupando cada una de las áreas
evaluadas.
Tabla 1: Estructura del examen antes y después de 2014-II y forma de cálculo del
puntaje global. Fuente: elaboración propia.
Prueba Caracterı́tica
Matemáticas (M)
Lenguaje (L)
Antes Biologı́a (B)
de Fı́sica (F)
2014- Quı́mica (Q)
II Ciencias Sociales (S)
Filosofı́a (Fi)
Inglés (I)
Índice global
PB + PQ + PF + 2PS + PF i + 3PL + 3PM + PI
anterior IG1 =
13
Lectura Crı́tica (LC)
Después
Matemática (MA)
de
Ciencias Naturales (CN)
2014-
Sociales y ciudadanas (SC)
II
Inglés (IN)
Índice global
3PLC + 3PM A + 3PCN + 3PSC + PIN
actual IG1 =
13
Cada uno de los puntajes está en una escala de medición de 0 a 100, por tanto,
el ı́ndice global resultante corresponde al promedio ponderado de los puntajes en
las diferentes pruebas, es también una medida entre 0 y 100. El ı́ndice resultante
es multiplicado por 5, que corresponde al puntaje global que se publica en los
reportes individuales.
Todos los exámenes de las aplicaciones desde 2012-I hasta 2014-I, fueron re-
calificados utilizando teorı́a clásica del test y teorı́a de respuesta al ı́tem (TRI).

La recalificación consistió en evaluar a lo largo de las aplicaciones de la prueba,

qué ı́tems podı́an utilizarse como anclas para llevar de la escala anterior a esta
nueva escala (Kolen & Brennan 2004). El resultado de estas recalificaciones son el
insumo principal para poder realizar los modelos de recalificación de los puntajes
globales a partir de los puntajes para cada una de las pruebas.
3. Metodologı́a
En 2014-I, a través de metodologı́as basadas en la teorı́a clásica de los test (TCT),

se realizó la recalificación de los exámenes hechos desde 2012-I a 2014-I. Esta re-
calificación ofrece, por cada una de las pruebas, el puntaje equivalente a la nueva
estructura del examen. Una regla general de equiparación de las puntuaciones
globales puede ser obtenida mediante el uso de los puntajes los puntajes indi-
viduales de las pruebas aplicadas desde 2012-I a 2014-II junto con su respectiva
recalificación. Para ello, se cuenta con 1’426.641 evaluados con puntuaciones en las
diferentes pruebas y sus respectivas recalificaciones. La distribución del número de
estudiantes por aplicación y el promedio del puntaje global es presentado en la
tabla 2.
Tabla 2: Distribución de las pruebas por año y tipo del evaluado. Fuente: elabora-
ción propia.
Periodo 2012-I 2012-II 2013-I 2013-II 2014-I

Número de evaluados 97272 577100 87378 575224 89667
Puntaje global promedio 260.73 249.92 260.39 250.14 254.81
Para equiparar los puntajes globales, se busca explicar los puntajes de la recalifica-
ción por medio de los puntajes reales obtenidos en las diferentes pruebas. Cuando
se observa la correlación entre las diferentes pruebas, encontramos valores altos,
tanto entre las pruebas recalificadas como en los valores de los puntajes originales
de la prueba (matrices (1) y (2)). Al realizar la prueba de esfericidad de Barlett
(Grossman et al. 1991) se concluye que existe una correlación estadı́sticamente
significativa entre las pruebas a un nivel de significancia del 5 %.
Esto indica entonces la presencia de una variable latente que no se ha observado
directamente a través de los puntajes brutos, por lo cual se procede a reducir la
dimensionalidad de la prueba por medio de un análisis de componentes principales
con rotación ortogonal, normado (trabajando con la matriz de correlaciones direc-
tamente) (Peña 2002). Para buscar esta reducción de la dimensionalidad se realiza
una transformación lineal de las variables de forma que se conserva la mayor canti-
dad de variabilidad en los datos con la menor pérdida de información (Peña 2002).

PMA PLC PSC PCN PIN

PMA 1.000 0.594 0.582 0.730 0.565
PLC 0.594 1.000 0.758 0.676 0.586
(1)
PSC 0.582 0.758 1.000 0.676 0.567
PCN 0.730 0.676 0.676 1.000 0.611
PIN 0.565 0.586 0.567 0.611 1.000
PBiol PSoc PFilo PFı́s PIng PLen PMate PQuı́

PBiol 1.00 0.57 0.48 0.50 0.51 0.54 0.53 0.60
PSoc 0.57 1.00 0.53 0.47 0.53 0.58 0.50 0.57
PFilo 0.48 0.53 1.00 0.43 0.48 0.50 0.43 0.50
PFı́s 0.50 0.47 0.43 1.00 0.46 0.45 0.49 0.58 (2)
PIng 0.51 g0.53 0.48 0.46 1.00 0.53 0.52 0.55
PLen 0.54 0.58 0.50 0.45 0.53 1.00 0.49 0.54
PMate 0.53 0.50 0.43 0.49 0.52 0.49 1.00 0.57
PQuı́ 0.60 0.57 0.50 0.58 0.55 0.54 0.57 1.00
Para realizar el análisis de componentes principales (ACP), se incluyen como va-

riables activas todas las 8 (ocho) pruebas. En la tabla 3 se pueden ver los valores
propios asociados a cada uno de los ejes factoriales y la varianza que retiene cada
una de las componentes del ACP. Notemos que únicamente el primer eje factorial
ya retiene el 57.69 % de toda la varianza. Los vectores propios asociados a cada
valor propio se muestran en la tabla 4.
Tabla 3: Valores propios y porcentaje de varianza acogida por cada eje factorial.
Fuente: elaboración propia.
Eje Valor propio Porcentaje de varianza
1 4.62 57.69 %
2 0.64 7.96 %
3 0.55 6.92 %
4 0.50 6.28 %
5 0.47 5.92 %
6 0.44 5.51 %
7 0.40 5.03 %
8 0.37 4.68 %
Dada la gran cantidad de variabilidad que recoge el primer eje factorial respecto
a los demás ejes, se ha decidido crear un ı́ndice basado en este eje que será usado
como medida de resumen, para cada individuo, del desempeño en la prueba basado
en las diferentes subpruebas, que llamaremos en adelante ı́ndice global del ACP.
En adelante este será llamado el incide global del ACP, denotado como IGACP y

Tabla 4: Vectores propios asociados a cada eje del análisis de compoenentes prin-
cipales. Fuente: elaboración propia.
Eje 1 Eje 2 Eje 3 Eje 4 Eje 5 Eje 6 Eje 7 Eje 8
Biologı́a -0.36 -0.08 -0.03 0.46 0.33 0.54 0.40 -0.29
Sociales -0.37 0.28 0.01 0.39 -0.04 0.01 -0.78 -0.11
Filosofı́a -0.33 0.53 0.52 -0.46 0.33 -0.03 0.11 -0.04
Fı́sica -0.33 -0.58 0.53 -0.06 -0.39 -0.14 -0.01 -0.31
Inglés -0.35 0.09 -0.45 -0.51 -0.46 0.44 -0.03 -0.07
Lenguaje -0.36 0.34 -0.18 0.30 -0.38 -0.53 0.45 0.06
Matemáticas -0.35 -0.34 -0.44 -0.25 0.52 -0.44 -0.09 -0.18
Quı́mica -0.38 -0.25 0.09 0.05 0.08 0.12 -0.02 0.87
que calcularemos como:

8
X
IG
c ACP = λ1 xj · a1j ,
j=1
Donde λ1 es el primer valor propio, xj es el puntaje estandarizado de la prueba j

en el examen y a1j es la componente principal asociada al primer valor propio. Este
ı́ndice creado es utilizado como variable explicativa para los modelos de regresión
que serán propuestos a continuación. El primer plano factorial puede ser visto en
la figura 1. La variable dependiente será el ı́ndice global basado en la recalificación
de la prueba, por conveniencia el ı́ndice global será dividido entre 100 para obtener
una medida que este entre 0 y 1 y se denotará por IGRecal .
3.1. Procedimientos de equiparación
3.1.1. Modelo lineal
En el modelo de regresión lineal se relaciona el ı́ndice global calculado a través de

la recalificación y el ı́ndice resultante del análisis de componentes principales. El
modelo puede ser escrito como:
IGRecal = β0 + β1 IGACP +
Al ajustar el modelo lineal sobre los ı́ndices de la prueba se tiene:

c Recal = −3.0610 + 0.091 · IGACP
IG
3.1.2. Modelo Gamma
El modelo Gamma ayuda a modelar el valor esperado de variables que son mayores
que cero, considerando que el ı́ndice global calculado a través de la recalificación

Figura 1: Plano factorial para los primeros 2 ejes factoriales. El primer eje contiene
el 57 % de variabilidad. Fuente: elaboración propia.
(medido de 0 a 1) es un valor siempre mayor que cero, este modelo parece ser
adecuado para establecer la equivalencia. El modelo quedará definido entonces
como:
µi = E(IGArecal ) = g −1 (β0 + β1 IGACP ) + ,
Donde g(µi ) es la función de enlace logı́stica dada por:

µi
g(µi ) = log . (3)
1 − µi
En este caso se asume que µi tiene distribución gamma, con µi > 0.
3.1.3. Modelo Beta
Para un modelo Beta, se asume que la media de la variable aleatoria está medida
entre 0 y 1. Teniendo en cuenta que IGRecal es una variable aleatoria entre 0 y 1,
se utiliza una regresión Beta para modelar esta variable. En este caso, se asume
que para el i-ésimo individuo, IGRecal,i ∼ Beta(µi , φ). Por lo tanto, el modelo de
regresión estarı́a dado por:
µi = g −1 (β0 + β1 IGACP ) + ; i = 1, 2 . . . n.
Nuevamente se utiliza la función de enlace logı́stica como se presenta en (3).

3.1.4. Teorı́a clásica de los test TCT - modelo equipercentil
Desde la teorı́a clásica de los tests, se pueden realizar dos tipos de equivalencias
entre las puntuaciones: lineal y no lineal. En el primer caso, se puede utilizar la
función de identidad, de medias o funciones lineales. En el segundo caso, el cı́rculo
de ángulo igualado o el método equipercentil (Kolen & Brennan 2004).
En este documento se hará uso del método equipercentil, ya que el puntaje glo-
bal es una variable continua. En este método se define una relación no lineal
entre las escalas de puntuación, estableciendo una igualdad entre las funciones de
distribución acumuladas para las poblaciones que quieran ser equiparadas. Si se
desean equiparar los puntajes IG1 e IG2 , cuyas funciones de densidad son F (IG1 )
y G(IG2 ), respectivamente, entonces la relación de equiparación para el modelo
equipercentil estará dada por:
IG2 = G−1 (F (IG1 )).
Para establecer la relación entre las dos puntuaciones son utilizados métodos de pre
suavizado y post suavizado con el objetivo de mejorar el ajuste. Este suavizamiento
se realiza con el método kernel (en general se usa kernel gaussiano) de equiparación
(Gasser & Müller 1979), luego se evalúa el error y la precisión de la estimación
(Steinberg & Moses 2011).
3.1.5. Validación de los modelos
En la validación de los modelos se verifica que se cumplan los siguientes supuestos:
Buena especificacion del modelo (prueba de reset de Ramsey);

Valor esperado de los residuales igual a cero;
Homocedasticidad (prueba de Breusch-Pagan);
No colinealidad (coeficiente kappa, como hay una sola variable no aplica),
Normalidad en los errores.
Los modelos que son presentados aquı́ son validados a través del análisis de resi-
duales. En cada uno de los modelos los residuales serán calculados como:
yi − µ̂i
ri = q .
\i )
var(y
4. Resultados
Para cada uno de los modelos ajustados son calculadas medidas de ajuste, estos
son: la suma de cuadrados de los errores (SCR), el criterio de información de Akaike

Tabla 5: Criterios de medida. Fuente: elaboración propia.
Medida Lineal Gamma Beta

SCR 9431.46 9249.24 9239.13
Akaike -8851.85 -8841.99 -8811.66
BIC -8835.26 -8825.40 -8795.06
Deviance 0.934 0.928 0.931
Tabla 6: Criterios de medida. Fuente: elaboración propia.
Modelo Cobertura Amplitud

Beta 0.95 12536904
Gamma 0.95 12848854
Lineal 1.00 48609023
Equipercentil 1.00 46317587
(AIC), el criterio de información bayesiano (BIC), el R2 por deviance (deviance),

la cobertura y la amplitud (Salibian-Barrera & Zamar 2002) de los modelos. En
cuanto a la suma de cuadrados de los errores, la cobertura y la amplitud, se
observa que el modelo Beta es superior a los demás. El modelo Gamma es superior
en cuanto al criterio de información de Akaike y bayesiano y el modelo de regresión
lineal con respecto al R2 por deviance. Estos resultados pueden observarse en las
tablas 5 y 6.
Para determinar el número de componentes a retener en la creación del IGc ACP , se
hizo un estudio de simulación, en el que se fue variando el número de componentes
retenidas para una muestra de tamaño 1864 (determinada bajo un muestreo alea-
torio simple) que incluı́a a todos los evaluados a los cuales se tuvo acceso, donde
se obtuvieron los resultados que son presentados en la figura 2 (los resultados que
se muestran es el promedio de 100 simulaciones).
Se evidencia que retener una sola componente en el cálculo del IG
c ACP es adecuado,
ya que tiene menor SCE, AIC, BIC y un mejor ajuste en terminos de R2 .
De acuerdo a los criterios presentados en el resumen metodológico, se decide rea-
lizar la equiparación del puntaje global de la prueba a través del modelo beta,
puesto que presenta menor suma de cuadrados del error (SCE), una cobertura del
95 % aproximadamente y una amplitud del intervalo de predicción menor que la
encontrada para los demás modelos. En este modelo la variable modelada siempre
estará el intervalo [0,1], el cual asegura que ninguna de las predicciones estará por
fuera de lo establecido en la creación del ı́ndice actual.
De acuerdo con los parámetros encontrados para el modelo Beta y los valores para
la creación del ı́ndice global a través del ACP, el ı́ndice global actual se calcuları́a

Figura 2: Amplitud y cobertura para los modelos propuestos. Fuente: elaboración

propia.
con base a los puntajes obtenidos en cada una de las pruebas individuales de la
siguiente forma:
8 8
X ai xij X ai x̄i
IG
c j = β1 λ 1 − β1 λ 1 + β0 (4)
i=1
Si i=1
Si
Donde:
xij es el puntaje obtenido en la prueba i para la j-ésima persona.

x̄i es el promedio de las puntuaciones para la i-ésima prueba.
Si es la desviación estándar estimada para la i-ésima prueba.
ai son coeficientes provenientes del análisis de componentes principales, es-
pecı́ficamente obtenidos del vector propio asociado al primer valor propio.
λi es el primer valor propio del análisis de componentes principales.
βk son los coeficientes de la regresión beta con k = 0, 1.
Al realizar las estimaciones de los parámetros presentados en (4), se obtiene la

siguiente relación entre el ı́ndice global actual y los puntajes de las pruebas:
c j = a · M>
IG

con
a =[−2.466826, 0.0008034867, 0.0007437763, 0.0006196794, 0.0005891047,
0.0005464668, 0.0007962810, 0.0005441301, 0.0008231145]
y
M = [1, PBiologı́a , PSociales , PFilosofı́a , PFı́sica , PInglés , PLenguaje , PMatemáticas , PQuı́mica ]
5. Conclusiones
Este ejercicio permitió comparar y llevar a la misma métrica los resultados de
los evaluados del examen de Estado Saber 11, obtenidos como un puntaje global,
para distintas aplicaciones en las que se contaba con un cambio estructural de la
prueba.
Los resultados muestran que con cuatro métodos diferentes es posible predecir los
puntajes globales de los evaluados utilizando solo los puntajes obtenidos en una
aplicación anterior a 2014-2. Sin embargo, al evaluar medidas de ajuste para de las
puntuaciones obtenidas la equiparación con el uso de algún modelo de regresión
lineal generalizado es más robusto que con el uso de equiparaciones basadas en los
métodos convencionales de TRI y TCT.
En particular, la equiparación utilizando un modelo de regresión Beta mostró un
mejor ajuste en cuanto a la cobertura y la amplitud de los intervalos ya que los
puntajes a equiparar se encuentran en una escala acotada fácilmente llevada a una
escala de 0 a 1. Puntuaciones no acotadas como las de el examen Saber Pro pueden
ser equiparadas mediante el uso de un modelo de regresión gamma.
Recibido: 19 de febrero del 2016

Aceptado: 21 de abril del 2016
Referencias
Bernal, R. (2013), ‘Sistema nacional de evaluación estandarizada de la educación’,
Alineación del examen Saber 11.
Chica, S. M., Galvis, D. M. & Ramı́rez, A. (2011), ‘Determinantes del rendimiento
académico en Colombia: pruebas Icfes Saber 11o , 2009’.
Gasser, T. & Müller, H.-G. (1979), Kernel estimation of regression functions,
Springer.
Grossman, G. D., Nickerson, D. M. & Freeman, M. C. (1991), ‘Principal component
analyses of assemblage structure data: utility of tests based on eigenvalues’,
Ecology 72(1), 341–347.

Kolen, M. J. & Brennan, R. L. (2004), Test equating, scaling, and linking, Springer.
Mariño, J. P. (2014), Sistema Nacional de Evaluación Estandarizada de la Edu-
cación. Alineación del examen SABER 11; Lineamientos generales 2014-2.,
ICFES.
Martı́nez, F. (2001), ‘Evaluación educativa y pruebas estandarizadas. elementos

para enriquecer el debate’, Revista de la Educación Superior 30(120), 71–85.
Peña, D. (2002), Análisis de datos multivariantes, Vol. 24, McGraw-Hill Madrid.
Salibian-Barrera, M. & Zamar, R. H. (2002), ‘Bootstrapping robust estimates of
regression’, Annals of Statistics 30(2), 556–582.
Steinberg, J. & Moses, T. (2011), ‘Smoothing scaled score distributions from a

standardized test using proc genmod’, SESUG 2011: The 19th annual pro-
ceedings of the SouthEast SAS Users Group, Arlington, VA .

Dialnet ModeloDeRecalificacionParaLaPruebaSaber11 7396909

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Dialnet ModeloDeRecalificacionParaLaPruebaSaber11 7396909

Cargado por

Copyright:

Formatos disponibles

Comunicaciones en Estadı́stica

Estadı́stica en la evaluación de la educación

Modelo de recalificación para la prueba Saber 111

William Acero R.a Jesús Fernando Sánchezb

Dora Suárezc Cristian F. Téllezd

Actualmente, las pruebas estandarizadas son una herramienta fundamental a la

prueba Saber 11. Comunicaciones en Estadı́stica, 9(1), 43-54.

estadı́sticas, Icfes, Colombia.

Comunicaciones en Estadı́stica, junio 2016, Vol. 9, No. 1

Comunicaciones en Estadı́stica, junio 2016, Vol. 9, No. 1

La recalificación consistió en evaluar a lo largo de las aplicaciones de la prueba,

En 2014-I, a través de metodologı́as basadas en la teorı́a clásica de los test (TCT),

Periodo 2012-I 2012-II 2013-I 2013-II 2014-I

Comunicaciones en Estadı́stica, junio 2016, Vol. 9, No. 1

PMA PLC PSC PCN PIN

PBiol PSoc PFilo PFı́s PIng PLen PMate PQuı́

Para realizar el análisis de componentes principales (ACP), se incluyen como va-

Comunicaciones en Estadı́stica, junio 2016, Vol. 9, No. 1

que calcularemos como:

Donde λ1 es el primer valor propio, xj es el puntaje estandarizado de la prueba j

3.1. Procedimientos de equiparación

3.1.1. Modelo lineal

En el modelo de regresión lineal se relaciona el ı́ndice global calculado a través de

Al ajustar el modelo lineal sobre los ı́ndices de la prueba se tiene:

3.1.2. Modelo Gamma

Comunicaciones en Estadı́stica, junio 2016, Vol. 9, No. 1

µi = E(IGArecal ) = g −1 (β0 + β1 IGACP ) + ,

Donde g(µi ) es la función de enlace logı́stica dada por:

En este caso se asume que µi tiene distribución gamma, con µi > 0.

3.1.3. Modelo Beta

Nuevamente se utiliza la función de enlace logı́stica como se presenta en (3).

Comunicaciones en Estadı́stica, junio 2016, Vol. 9, No. 1

3.1.4. Teorı́a clásica de los test TCT - modelo equipercentil

3.1.5. Validación de los modelos

En la validación de los modelos se verifica que se cumplan los siguientes supuestos:

Buena especificacion del modelo (prueba de reset de Ramsey);

Comunicaciones en Estadı́stica, junio 2016, Vol. 9, No. 1

Tabla 5: Criterios de medida. Fuente: elaboración propia.

Medida Lineal Gamma Beta

Tabla 6: Criterios de medida. Fuente: elaboración propia.

Modelo Cobertura Amplitud

(AIC), el criterio de información bayesiano (BIC), el R2 por deviance (deviance),

Comunicaciones en Estadı́stica, junio 2016, Vol. 9, No. 1

Figura 2: Amplitud y cobertura para los modelos propuestos. Fuente: elaboración

xij es el puntaje obtenido en la prueba i para la j-ésima persona.

Al realizar las estimaciones de los parámetros presentados en (4), se obtiene la

Comunicaciones en Estadı́stica, junio 2016, Vol. 9, No. 1

Recibido: 19 de febrero del 2016

Comunicaciones en Estadı́stica, junio 2016, Vol. 9, No. 1

Martı́nez, F. (2001), ‘Evaluación educativa y pruebas estandarizadas. elementos

Steinberg, J. & Moses, T. (2011), ‘Smoothing scaled score distributions from a

Comunicaciones en Estadı́stica, junio 2016, Vol. 9, No. 1

También podría gustarte

µi = E(IGArecal ) = g −1 (β0 + β1 IGACP ) + ,