Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Resumen: La medicin en el mbito educativo del Abstract: Measurement in the educational field of
rendimiento acadmico de los estudiantes universi- academic achievement of university students is con-
tarios es considerada emprica y cuantitativa. De sidered empirical and quantitative. Hence, the main
all que el propsito principal de dichas evaluacio- purpose of such assessments is to control educational
nes consiste en el control de los sistemas educati- systems and evaluation based on objective criteria
vos y la evaluacin a partir de criterios objetivos (Long, Wendt, & Dunne, 2011). The aim of this arti-
(Long, Wendt, & Dunne, 2011). Este trabajo cle was to develop an Item Bank for General
apunta a desarrollar un banco de tems para el Test Knowledge Test composed by 20 specific domains of
de Conocimiento General compuesto de 20 domi- knowledge. Considering that an effective construc-
nios especficos. Se presentan avances realizados tion of a test requires organization and systematiza-
en seis dominios (psicologa, biologa, historia, li- tion of activities, progress in six domains are pre-
teratura, economa y leyes). La muestra estuvo sented. The sample was composed by 6,794
compuesta por 6.794 estudiantes. Se evaluaron university students. 1,526 items from different do-
1.526 tems de distintos dominios. Se realiz un mains were evaluated. To calibrate the items, a non-
anlisis factorial exploratorio no lineal, se obtuvie- linear exploratory factorial analysis was performed.
ron los ndices de dificultad y discriminacin segn Difficulty and discrimination indices were obtained
la teora clsica de los test y la teora de respuesta according to the classical theory of tests and the item
al tem; tambin se obtuvieron ndices de fiabili- response theory, and reliability indices as well. It was
dad. El 68% presenta dificultad moderada y 32% observed that 68% of the items have moderate diffi-
un ndice de dificultad alto o bajo. Sobre los ndices culty and 32% of them have high or low difficulty.
de confiabilidad en la mayora de los dominios se Internal consistency of the instrument showed high
obtuvieron valores satisfactorios superiores a ,70. reliability values, up to .70. Further studies are needed
Se concluye la necesidad de revisar los tems que in order to expand the item sample, and review items
no cumplieron estos criterios y ampliar la muestra. that showed inadequate indexes on discrimination,
Este instrumento permitir reducir los errores de difficulty and reliability. This instrument allows
clasificacin de los alumnos y medir el desempeo measuring academic performance on an interval scale
acadmico con una escala de intervalo. level and reducing the misclassification of students.
Palabras clave: Test de Conocimiento General, Keywords: General Knowledge Test, items bank,
banco de tems, teora clsica de los test. classical test theory.
Este trabajo ha sido financiado con subsidios de investigacin y desarrollo otorgados por el Fondo para la Investigacin
Cientfica y Tecnolgica de la Agencia Nacional de Promocin Cientfica y Tecnolgica (Foncyt-PICT-2012), por el
Consejo Nacional de Investigaciones Cientficas y Tcnicas (PIP 2012-2014), Ministerio de Ciencia y Tecnologa de la
Secretara de Promocin Cientfica (PID 2010). Los autores agradecen la colaboracin de Brenda de Dio, Daniela De-
negri Coumeres, Roco Martnez, Nilton Fernando Meza y Patricia Cataneo, por su contribucin en la recoleccin de
datos, y a los profesores de las distintas carreras universitarias que facilitaron el acceso a los estudiantes.
Contacto: M. Cupani. Cipsi - Conicet, Facultad de Psicologa, Universidad Nacional de Crdoba, Ciudad Universi-
taria, Crdoba 5000, Argentina. Correo electrnico: marcoscup@gmail.com
Cmo citar: Cupani, M., Ghio, F. B., Leal, M. F., Giraudo, G. M., Castro Zamparella, T., Piumatti, G., Barrionuevo,
L. (2016). Desarrollo de un banco de tems para medir conocimiento en estudiantes universitarios. Revista de Psico-
loga, 25(2), 1-18.
http://dx.doi.org/10.5354/0719-0581.2017.44808
Cupani, Ghio, Leal, Giraudo, Castro Zamparella, Piumatti, Casalotti, Ramrez, Arranz, Faraz, Padilla, & Barrionuevo
Revista de Psicologa
2 2016, 25(2), 1-18
Banco de tems: evaluacin de conocimiento
Revista de Psicologa
2016, 25(2), 1-18 3
Cupani, Ghio, Leal, Giraudo, Castro Zamparella, Piumatti, Casalotti, Ramrez, Arranz, Faraz, Padilla, & Barrionuevo
Revista de Psicologa
4 2016, 25(2), 1-18
Banco de tems: evaluacin de conocimiento
Revista de Psicologa
2016, 25(2), 1-18 5
Cupani, Ghio, Leal, Giraudo, Castro Zamparella, Piumatti, Casalotti, Ramrez, Arranz, Faraz, Padilla, & Barrionuevo
Los tems que conforman una prueba pue- A cada uno de los profesionales se le en-
den adoptar diferentes formatos, entre los treg la tabla de especificacin donde se
que se destacan: i) preguntas abiertas (en aclaraba cuntas preguntas deba redactar
las que se debe elaborar la respuesta); ii) por contenido (concepto). Estas preguntas
completar frases (en las que se pide a la fueron organizadas en fichas y a cada una
persona que complete algunos elementos se le asign un cdigo nico de identifi-
de una oracin); iii) de eleccin alternativa cacin, un concepto relacionado, el tipo
(si se presentan dos alternativas de respues- de categora cognitiva que evala, la op-
ta entre las que la persona tiene que elegir cin correcta y una justificacin de por
la correcta); y iv) de eleccin mltiple qu cada alternativa es una opcin correc-
(cuando la persona debe elegir la opcin ta o incorrecta. Tambin se confeccion
que considera correcta entre varias alterna- un espacio para categorizar el nivel de
tivas de respuesta). La eleccin mltiple, dificultad de cada uno de los tems.
formato elegido para la construccin del
TCG, es ms difcil de elaborar, pero per- Posteriormente estas fichas fueron entre-
mite una evaluacin ms confiable, siendo gadas a jueces que evaluaron la calidad y
un recurso importante a la hora de evaluar pertinencia de los tems. Para cumplir con
grupos amplios de personas (Moreno, Mar- tal requisito se les hizo entrega de la tabla
tnez, & Muiz, 2004). de especificacin conjuntamente con la
ficha de redaccin de tem. Esto con el
Para la redaccin de los tems del TCG se objetivo de que valoraran la adecuacin
cont con la colaboracin de profesiona- del contenido a la poblacin especfica
Revista de Psicologa
6 2016, 25(2), 1-18
Banco de tems: evaluacin de conocimiento
segn cada nivel de conocimiento para de los evaluados con espacios determina-
cada dominio. Los jueces calificaron las dos para la eleccin de su respuesta (A, B
preguntas segn su nivel de dificultad o C); en este ltimo se incluyeron ciertos
como fcil, mediana y difcil. Luego de la datos sociodemogrficos tales como edad,
revisin por parte de los expertos el equi- sexo, universidad, facultad y carrera, en-
po de trabajo determin los tems que tre otros.
deban modificarse si los comentarios
afectaban aspectos de la redaccin de los Paso d. Administracin del test
tems; o eliminarse en caso de una repre-
sentacin inadecuada de los contenidos a La administracin de la prueba se realiz
evaluar. a estudiantes universitarios de diferentes
aos de cursado de diversas carreras de la
Paso c. Diseo, montaje y produccin ciudad de Crdoba. Las tomas se realiza-
del test ron de forma colectiva, en un horario re-
gular de clase y bajo supervisin de los
Los tems fueron organizados en diferen- profesores asignados al horario de cursa-
tes formas con el fin de poder evaluar sus do. Previo a la administracin se explic
propiedades psicomtricas. Para los dis- a los estudiantes que deban responder un
tintos niveles de cada dominio de cono- nmero de preguntas de opcin mltiple,
cimiento se confeccionaron una forma A las cuales solo tenan una nica opcin
y una forma B, y en algunos casos, una correcta. De igual manera se sugiri que
forma C. La distribucin de los tems en tratasen de responder a todas las pregun-
cada forma se realiz por nivel de dificul- tas y que, en caso de considerar que la
tad ascendente considerando los diferen- pregunta era totalmente ajena a sus cono-
tes contenidos. cimientos, no emitiesen respuesta alguna.
Luego de esta aclaracin se entreg a los
Adems, en cada forma se establecieron alumnos el consentimiento informado y el
ciertos tems anclas y libres. Para la se- material para leer y responder.
leccin de los tems anclas se consider
que respondieran a los diferentes niveles Paso e. Anlisis de datos
de dificultad (baja, media y alta) y que
abarcaran los diferentes contenidos del Para evaluar la validez de estructura inter-
nivel y dominio en particular. Por otro na de cada dominio se realiz un anlisis
lado, se configuraron las formas y la can- factorial no lineal (AFNL). Se utiliz el
tidad de tems a incluir estimando que los mtodo robusto para el anlisis armnico
usuarios deberan poder responder el ins- de la ojiva normal (NOHARM, por su
trumento en condiciones normales, y en nombre en ingls Normal Ogive Harmonic
40 y 60 minutos. Este criterio condicion Analysis Robust Method) mediante el pro-
la cantidad de tems anclas y libres a in- grama NOHARM versin 4.0, que permite
cluir en cada forma y dominio en particu- evaluar la relacin entre el anlisis facto-
lar. La respuesta correcta vari de rial no-lineal y el modelo de ojiva normal
ubicacin de forma aleatoria. Asimismo en orden del ajuste unidimensional y/o
se estableci un formato estndar para la multidimensional del modelo ojiva normal
conformacin de cada test: a) un cuader- (Ayala, 2009). NOHARM produce una
nillo de preguntas de doble carilla para matriz residual para evaluar el ajuste del
facilitar la lectura y b) un protocolo de modelo, dicha matriz es la discrepancia
respuesta para organizar las puntuaciones entre la matriz de covarianza observada y
Revista de Psicologa
2016, 25(2), 1-18 7
Cupani, Ghio, Leal, Giraudo, Castro Zamparella, Piumatti, Casalotti, Ramrez, Arranz, Faraz, Padilla, & Barrionuevo
Revista de Psicologa
8 2016, 25(2), 1-18
Banco de tems: evaluacin de conocimiento
Paso d. Las tres formas fueron adminis- En los anlisis de dificultad (b) y discri-
tradas a una muestra de 900 personas, 613 minacin (a) desde la TRI, se observ
estudiantes de sexo femenino (68,1 %), que en la forma A los parmetros de difi-
284 de sexo masculino (31,6 %), y tres cultad variaron entre b = -3,50 a 2,61 y
participantes no informaron el sexo. La los parmetros de discriminacin entre a
edad comprendida de los participantes fue = -0,11 a 0,79; podemos destacar que tres
entre los 18 y 67 aos (M = 21,3; DT = tems presentaron valores negativos y
5,69). deberan ser revisados o eliminados del
modelo. En la forma B, los parmetros
Paso e. Para la forma A, el valor del variaron entre b = -4,39 a 7,73 y a = 0,15
RMSR (0,012) es menor al error tpico de a 0,76 para dificultad y discriminacin
los residuos estimado (0,32) lo que nos respectivamente; y para la forma C, entre
indica que los tems del test estn midien- b = -5,73 y 10,4 y a = 0,01 y 1,01. Estos
do una sola dimensin. Sin embargo, el resultados nos indican que los tems pre-
ndice de Tanaka de bondad de ajuste sentan una variacin adecuada entre los
(GFI) fue de ,84, valor inferior al punto ndices de dificultad, pero no as con su
de corte recomendado (,90). Este resulta- propiedad de discriminacin.
Revista de Psicologa
2016, 25(2), 1-18 9
Cupani, Ghio, Leal, Giraudo, Castro Zamparella, Piumatti, Casalotti, Ramrez, Arranz, Faraz, Padilla, & Barrionuevo
Revista de Psicologa
10 2016, 25(2), 1-18
Banco de tems: evaluacin de conocimiento
xo; sus edades estaban comprendidas entre GFI = ,89) como B (RMSR = 0,014; GFI
18 y 64 aos (M = 25,01; DT = 14,57). = 0,85) presentan un ajuste adecuado a
los datos. En lo que respecta al ndice de
Paso e. Los resultados del AFNL de la dificultad y discriminacin (TCT) el 90%
forma A (RMSR = 0,013; GFI = ,87) y de los tems presentan un nivel de dificul-
forma B (RMSR = 0,015 y GFI = ,87) tad moderado, mientras que el 10% res-
indican que la estructura unifactorial se tante presentan un nivel de dificultad muy
ajusta a los datos. La mayora de los tems bajo o muy alto. Los valores del coefi-
present una dificultad moderada (63%), ciente punto-biserial fueron de ,07 a ,56
el 37% restante niveles de dificultad bajos para la forma A y -,00 a ,50 para la forma
o altos. El coeficiente punto-biserial fue B. El ndice de confiabilidad fue de ,89
de ,02 a ,45 para la forma A; y de ,01 a para la forma A y ,85 para la forma B. En
,49 para la forma B. Los parmetros de lo que respecta a los anlisis de dificultad
dificultad en la forma A variaron entre b y discriminacin desde la TRI, se observ
= -7,14 a 3,04 y los parmetros de discri- que en la forma A los parmetros de difi-
minacin entre a = -0,02 a 1,26. En la cultad variaron entre b = -3,50 a 4,09 y
forma B, los parmetros variaron entre b los parmetros de discriminacin entre a
= -4,37 a 4,70 y a = -0,08 a 1,06. = -0,16 a 1,06. En la forma B, los parme-
tros variaron entre b = -5,88 a 7,94 y a = -
Dominio de literatura 0,17 a 0,6 para dificultad y discrimina-
cin respectivamente.
Paso a. Se seleccionaron 58 programas de
diferentes unidades acadmicas. Cada Dominio de economa
material se organiz por programa, ao de
cursado, unidades en que se divide cada Paso a. Se consultaron 42 programas per-
programa y temas. Esta informacin se tenecientes a la carrera de Ciencias Eco-
organiz en tres niveles (1 al 3). Para el nmicas. Esta informacin fue organizada
nivel 1 se consultaron cuatro programas. en cinco niveles (1 al 5). Siete programas
fueron consultados para el nivel 1.
Paso b. Expertos en el dominio redacta-
ron 485 preguntas sobre literatura general Paso b. Cinco profesionales redactaron
y argentina. 314 preguntas, que fueron sometidas a un
estudio de jueces; estos recomendaron la
Paso c. Los 99 tems del nivel fueron modificacin de ciertos tems. De all que
distribuidos en dos formas (A y B). Cada del pool de tems, los expertos determina-
forma const de 66 preguntas de las cua- ron que el 32% del total responda a un
les 33 son anclas y 33 libres. nivel de dificultad bajo, el 55% mediana
y 13% difcil. De aquellos 79% fueron
Paso d. Las dos formas fueron adminis- aceptados sin cambios, 18% deba modi-
tradas a una muestra de 608 estudiantes, ficarse y el 3% eliminarse. El pool final
426 estudiantes de sexo femenino (70 %), de tems fue de 248 tems de los diferen-
y 182 de sexo masculino (30 %) con eda- tes niveles de conocimiento del dominio
des comprendidas entre los 19 y 60 aos de economa.
(M = 24; DE = 6,81).
Paso c. Para el establecimiento de las
Paso e. Los resultados del AFNL indican formas del nivel 1 se seleccionaron aque-
que tanto la forma A (RMSR = 0,013; llos tems que, segn las observaciones de
Revista de Psicologa
2016, 25(2), 1-18 11
Cupani, Ghio, Leal, Giraudo, Castro Zamparella, Piumatti, Casalotti, Ramrez, Arranz, Faraz, Padilla, & Barrionuevo
Paso e. Los resultados del AFNL indican Paso c. Se utilizaron 80 tems para consti-
que tanto la forma A (RMSR= 0,013; tuir dos formas (A y B) con 55 tems cada
GFI = ,92) como B (RMSR = 0,016; GFI una, de los cuales 31 son tems anclas y
= ,87) presentan un ajuste adecuado a los 24 tems libres.
datos. El coeficiente punto-biserial pre-
sent valores entre ,11 a ,53 para la for- Paso d. Los test se administraron a una
ma A, y entre ,15 a ,55 para la forma B. muestra de 170 personas, 102 de sexo
En lo que respecta a la fiabilidad se ob- femenino (60%) y 68 de sexo masculino
tuvieron valores de KR-20 de ,90 para la (40%), con edades comprendidas entre
forma A y ,89 para la forma B. Por lti- los 19 y 60 aos (M = 24,59; DT = 6,22),
mo los parmetros a y b muestran que en considerando un N = 85 por forma.
la forma A, los ndices de b variaron
entre -2,10 a 0,56; mientras que los ndi- Paso e. El AFNL solo se realiz con los
ces de discriminacin variaron entre 0,08 31 tems anclas. Los resultados indican
y 1,35. En la forma B los ndices de b (RMSR = 0,013; GFI = ,92) que los tems
variaron entre -3,79 y 0,69, en lo que miden una sola dimensin. El 59% de los
respecta a los valores a, ellos variaron tems presenta un nivel de dificultad mo-
entre -0,42 y 2,00. derado y el 41% presenta niveles muy
bajos o muy altos. El coeficiente punto-
Dominio de leyes biserial present valores entre ,02 a ,42
para la forma A; y ,03 a ,51 para la forma
Paso a. Se recolectaron 36 programas B. Por su parte, el KR-20 arroj un ndice
pertenecientes a la Facultad de Derecho y de ,76 para la forma A y ,54 para la forma
Ciencias Sociales, de la carrera de Abo- B. Por ltimo, el parmetro b present
gaca de la UNC. Cada material fue orga- valores entre 5,61 y -4,45, mientras que
nizado por programa, ao de cursado (n = los ndices de discriminacin variaron
6), unidades (n = 305) en que se divide entre -0,09 a 0,73.
Revista de Psicologa
12 2016, 25(2), 1-18
Banco de tems: evaluacin de conocimiento
Tabla 1
ndices de dificultad y discriminacin desde la TCT y desde la TRI de los tems de los seis
dominios
Nivel del
Punto
dominio de Forma N p-valor q-valor KR-20 b a
biserial
conocimiento
Literatura 1 A 303 ,07 a ,86 ,14 a ,84 ,07 a ,56 ,89 -3,50 a 4,09 -0,16 a 1,06
B 305 ,10 a ,84 ,16 a ,90 ,00 a ,50 ,85 -5,88 a 7,94 -0,17 a 0,6
Psicologa 1 A 300 ,06 a ,94 ,06 a ,94 ,01 a ,32 ,77 -3,50 a 2,61 -0,11 a 0,79
B 300 ,07 a ,86 ,14 a ,93 ,02 a ,40 ,77 -4,39 a 7,73 0,15 a 0,76
C 300 ,09 a ,86 ,14 a ,91 ,04 a ,47 ,85 -5,73 y 10,4 0,01 y 1,01
Biologa 1 A 304 ,10 a ,94 ,06 a ,90 ,03 a ,49 ,80 8,74 a 7,13 -1,26 a 0,96
B 311 ,18 a ,89 ,11 a ,91 ,00 a ,54 ,81 -4,54 a 5,35 -0,93 a 1,16
Historia 0 A 306 ,11 a ,97 ,03 a ,89 ,01 a ,48 ,85 -9,68 a 7,38 0,06 a 0,90
B 312 ,23 a ,95 ,05 a ,77 ,06 a ,48 ,82 -5,26 y 4,38 0,08 a 0,86
Historia 1 A 192 ,14 a ,95 ,05 a ,86 ,02 a ,45 ,74 -7,14 a 3,04 -0,02 a 1,26
B 192 ,10 a ,95 ,05 a ,90 ,01 a ,49 ,75 -4,37 a 4,70 -0,08 a 1,06
Leyes 1 A 74 ,16 a ,97 ,03 a ,84 ,02 a ,42 ,76 5,61 y 4,45 0,09 a 0,73
Economa 1 A 299 ,31 a ,91 ,09 a ,69 ,11 a ,53 ,90 -2,10 a 0,56 0,08 a 1,35
B 330 ,27 a ,93 ,07 a ,73 ,15 a ,55 ,89 -3,79 y 0,69 -0,42 y 2,00
Nota: TCT = teora clsica de los tests; TRI = teora de respuesta al tem; p = proporcin de
respuestas correctas; q = proporcin de respuestas incorrectas; Punto biserial = ndice de dis-
criminacin; K-20 = ndice de fiabilidad; b: ndice de dificultad y a: ndice de discriminacin.
Revista de Psicologa
2016, 25(2), 1-18 13
Cupani, Ghio, Leal, Giraudo, Castro Zamparella, Piumatti, Casalotti, Ramrez, Arranz, Faraz, Padilla, & Barrionuevo
que ver con el uso eficiente de las respues- los residuos estimados de lo que se en-
tas de los sujetos a los tems: cualquier tiende que el modelo se ajusta. Sin em-
conjunto de datos se puede incorporar al bargo, el ndice de Tanaka de bondad de
sistema para una actualizacin peridica de ajuste fue, para algunos dominios, inferior
las estimaciones de los parmetros de los al punto de corte recomendado (,90); este
tems (Van der Linden & Glas, 2000). resultado indicara que puede haber uno o
ms factores que explican la varianza
Para evaluar la adecuacin de los tems, restante (Yen, 1993).
desde la teora clsica de los test se eva-
lu la calidad de las respuestas de los su- No obstante, como se trata de una prueba
jetos a los tems y del total del test. Se que mide un factor general compuesto por
observ que de los 1.526 tems distribui- factores ms especficos es esperable ob-
dos en seis dominios (psicologa, biolo- tener una estructura factorial compleja
ga, leyes, economa, literatura e historia), (Tate, 2003). A futuro, se planifica la re-
68% presenta dificultad moderada y el visin de aquellos tems que no se ajusta-
32% restante un ndice de dificultad alto o ron al modelo mediante nuevos estudios
bajo. En lo que respecta a los ndices de de expertos en el rea; igualmente se con-
confiabilidad en la mayora de los domi- sidera que los resultados obtenidos para
nios se obtuvieron valores satisfactorios los tems del nivel I son alentadores.
superiores a ,70, a excepcin del nivel 1
del dominio de leyes (forma B) y del ni- Se proyecta completar los anlisis de los
vel 3 del dominio de biologa (forma C). tems de todos los dominios desde la TRI,
Modelo de Rasch. Ya que, a saber, aun-
De los resultados obtenidos se concluye que en principio tanto la TCT como la
la necesidad de revisar los tems que no TRI pueden trabajar con bancos de tems,
cumplieron estos criterios y de ampliar la la TCT presenta limitaciones. Pues bien,
muestra de los tems. Se ha podido identi- dado que en la TCT los parmetros de los
ficar algunos inconvenientes en la repre- tems dependen de la muestra de sujetos
sentatividad del contenido del test. Los que ha sido utilizada para estimarlos, es
tems redactados no cubren todo el domi- difcil conseguir que los valores estima-
nio de inters, por lo cual, se planifica dos para los parmetros de todos los tems
ampliar el banco de tems con preguntas sean estrictamente comparables.
de los niveles de dificultad extremos para
de esta manera poder discriminar entre Por el contrario, la invarianza de los par-
buenos y malos desempeos. metros del tem en la TRI convierte a esta
teora en el marco adecuado para trabajar
Por su parte, los resultados obtenidos con bancos de tems, ya que permite dis-
desde la TRI permitieron superar algunas poner de una escala comn para los par-
limitaciones de la TCT, ya que la primera metros de todos los tems. En la aplicacin
se interesa ms en las propiedades de los de la TRI un paso insoslayable es optar por
tems individuales que en las propiedades un modelo terico que suministre una bue-
globales del test. Puede decirse que uno na representacin del rendimiento de los
de los supuestos fundamentales de la teo- tems. Dentro de ellos, el Modelo de
ra se cumple, a saber, la mayora de los Rasch, de un parmetro, plantea que la
tems miden solo una aptitud o rasgo probabilidad de acertar un tem depende
(unidimensionalidad). En todos los domi- solamente del nivel de dificultad de dicho
nios el RMSR es menor al error tpico de tem y del nivel del individuo en la varia-
Revista de Psicologa
14 2016, 25(2), 1-18
Banco de tems: evaluacin de conocimiento
ble medida. El modelo de Rasch presenta Entonces, entre los beneficios que ofrece
ventajas fundamentales que hace que sea la construccin de este instrumento se
ampliamente utilizado en la validacin de encuentra la adecuacin del plan de estu-
pruebas educativas. En particular los bene- dios a los requerimientos y necesidades
ficios de dicho modelo para el anlisis de de los estudiantes (Fuentes Navarro,
pruebas educativas pueden aplicarse a las 2006). Es decir, la enseanza se vera
pruebas PISA, a las pruebas de diagnstico favorecida si los contenidos y la dificul-
o bien a pruebas de certificacin (Montero, tad de la instruccin fueran acordes al
Rojas, & Zamora, 2014). conocimiento y habilidades del sujeto,
optimizando el proceso de enseanza
Tambin se planifica utilizar test adaptati- (Rolfhus & Ackerman, 1999).
vos informatizados (TAI), lo que propicia-
ra minimizar el error estndar de medicin Asimismo, dicha evaluacin posibilitara la
y la posibilidad de medidas de longitud sin valoracin de calidad de la instruccin de
prdida de precisin y fiabilidad, mejoran- los educadores. Contar con herramientas de
do la posibilidad de diagnstico con eva- medicin correctamente elaboradas repre-
luaciones ms breves y precisas (Olea & sentara un avance en la evaluacin del
Ponsoda, 2003). Esto ayudara a realizar un aprendizaje de los sistemas educativos. En
seguimiento longitudinal del conocimiento conclusin, el aporte de este trabajo es sig-
de un alumno, generar un diagnstico de la nificativo en el campo de la medicin y
cantidad y calidad de contenido adquirido, evaluacin en nuestro medio. El presente
especificar qu contenido terico dado proyecto permitira mejorar las trayectorias
resulta ms dificultoso e incorporar nuevas acadmicas, el desempeo acadmico y
alternativas de aprendizaje. disminuir la desercin universitaria.
Referencias
Attorresi, H. F., Lozzia, G. S., Abal, F. J. P., Galibert, M. S., & Aguerri, M. E. (2009). Teora
de respuesta al tem. Conceptos bsicos y aplicaciones para la medicin de constructos
psicolgicos. Revista Argentina de Clnica Psicolgica, 18(2), 179-188. Recuperado de
http://www.redalyc.org/articulo.oa?id=281921792007
De Ayala, R. J. (2009). The theory and practice of item response theory. New York, New
York: The Guilford Press. Recuperado de
http://psycnet.apa.org/psycinfo/2009-01904-000
Bravo Urrutia, D., Bosch Cartagena, M. A., Del Pino Manresa, G., Donoso Retamales, G.,
Manzi Astudillo, J., Martnez Martnez, M., & Pizarro Snchez, R. (2010). Validez dife-
rencial y sesgo de predictividad de las pruebas de admisin a las universidades chile-
nas. Santiago, Chile: CTA-PSU. Recuperado de
https://is.gd/zv0Dkm
Cols, E. (2009). Introduccin. La evaluacin de los aprendizajes como objeto de estudio y
campo de prcticas. Archivos de Ciencias de la Educacin, 3(3), 11-14. Recuperado de
http://www.memoria.fahce.unlp.edu.ar/art_revistas/pr.4079/pr.4079.pdf
Cupani, M., Zalazar-Jaime, M. F., Garrido, S., Gross, M., & Tavella, J. (Octubre, 2012).
Construccin de un test de conocimiento general. Trabajo presentado en el X Congreso
Latinoamericano de Sociedades de Estadstica, Crdoba, Argentina.
Revista de Psicologa
2016, 25(2), 1-18 15
Cupani, Ghio, Leal, Giraudo, Castro Zamparella, Piumatti, Casalotti, Ramrez, Arranz, Faraz, Padilla, & Barrionuevo
Delich, A., Iaies, G., Savransky, N., & Galliano, M. (2009). Hacia un nuevo debate de los
resultados de las evaluaciones de calidad educativa en la Argentina. Buenos Aires, Ar-
gentina: Centro de estudios en Polticas Pblicas. Recuperado de
https://is.gd/cK8UWp
Downing, S. M. & Haladyna, T. M. (2006). Handbook of test development. Mahwah, New
Jersey: Lawrence Erlbaum Associates.
Froemel, J. E. (2009). La efectividad y la eficacia de las mediciones estandarizadas y de las
evaluaciones en educacin. Revista Iberoamericana de Evaluacin Educativa, 2(1), 10-
28. Recuperado de
http://www.rinace.net/riee/numeros/vol2-num1/art1.pdf
Fuentes Navarro, R. (2006). La constitucin cientfica del campo acadmico de la comuni-
cacin en Mxico y en Brasil: anlisis comparativo. Revista Latinoamericana de Cien-
cias de la Comunicacin, 5, 48-55. Recuperado de
http://www.eca.usp.br/associa/alaic/revista/r5/art_04.pdf
Garbanzo Vargas, G. M. (2007). Factores asociados al rendimiento acadmico en estudian-
tes universitarios, una reflexin desde la calidad de la educacin superior pblica. Edu-
cacin, 31(1), 43-63.
http://dx.doi.org/10.15517/revedu.v31i1.1252
Gvirtz, S., Larripa, S., & Oelsner, V. (2006). Problemas tcnicos y usos polticos de las
evaluaciones nacionales en el sistema educativo argentino. Archivos Analticos de Polti-
cas Educativas, 14(18), 1-24. Recuperado de
http://www.redalyc.org/articulo.oa?id=275020543018
Haladyna, T. M., Downing, S. M., & Rodrguez, M. C. (2002). A review of multiple-choice
item writing guidelines. Applied Measurement in Education, 15(3), 309-334.
http://dx.doi.org/10.1207/S15324818AME1503_5
Kaplan, R. M. & Saccuzzo, D. P. (2006). Pruebas psicolgicas: principios, aplicaciones y
temas. Mxico, Distrito Federal., Mxico: Thomson.
Kuncel, N. R., Cred, M., & Thomas, L. (2005). The validity of self-reported grade point
averages, class ranks, and test scores: A meta-analysis and review of the literature. Re-
view of Educational Research, 75(1), 63-82. Recuperado de
http://people.uncw.edu/caropresoe/EDN523/article.pdf
Lafuente, M. (2009). La experiencia del sistema nacional de evaluacin del proceso educa-
tivo, SNEPE, en Paraguay: aprendizajes y desafos. Revista Iberoamericana de Evalua-
cin Educativa, 2(1), 49-73. Recuperado de
http://hdl.handle.net/10486/661545
Larripa, S. (2009). Reflexiones sobre las funciones de los sistemas de evaluacin educativa
de gran escala. Archivos de Ciencias de la Educacin, 3(3), 69-78. Recuperado de
http://www.memoria.fahce.unlp.edu.ar/art_revistas/pr.4083/pr.4083.pdf
Long, C., Wendt, H., & Dunne, T. (2011). Applying Rasch measurement in mathematics
education research: Steps towards a triangulated investigation into proficiency in the
multiplicative conceptual field. Educational Research and Evaluation, 17(5), 387-407.
http://dx.doi.org/10.1080/13803611.2011.632661
Revista de Psicologa
16 2016, 25(2), 1-18
Banco de tems: evaluacin de conocimiento
Revista de Psicologa
2016, 25(2), 1-18 17
Cupani, Ghio, Leal, Giraudo, Castro Zamparella, Piumatti, Casalotti, Ramrez, Arranz, Faraz, Padilla, & Barrionuevo
Smits, N., Mellenbergh, G. J., & Vorst, H. C. M. (2002) Alternative missing data tech-
niques to grade point average: Imputing unavailable grades. Journal of Educational
Measurement, 39(3), 187-206. Recuperado de
http://onlinelibrary.wiley.com/doi/10.1111/j.1745-3984.2002.tb01173.x/abstract
Tanaka, J. S. (1993). Multifaceted conceptions of fit in structural equation models. En K.
A. Bollen & J. S. Long (Eds.), Testing structural equation models (pp. 10-39). Newbury
Parks, California: Sage.
Tate, R. (2003). A comparison of selected empirical methods for assessing the structure of
responses to test items. Applied Psychological Measurement, 27(3), 159-203.
http://dx.doi.org/10.1177/0146621603027003001
Van der Linden, W. J. & Glas, C. A. W. (2000). Capitalization on item calibration error in
adaptive testing. Applied Measurement in Education, 13(1), 35-53.
http://dx.doi.org/10.1207/s15324818ame1301_2
Velandrino, A. (1998). Anlisis de datos en ciencias sociales. Murcia, Espaa: DM Editora.
Vlaz de Medrano Ureta, C. (2006). Presentacin. Una visin integral de las evaluaciones
del PISA (OCDE) con especial atencin a la participacin en Espaa [Edicin extraordi-
naria]. Revista de Educacin, 13-18. Recuperado de
http://www.revistaeducacion.mec.es/re2006/re2006.pdf
Volwerk J. J. & Yindal, G. (2012). Documenting student performance: An alternative to the
traditional calculation of grade point averages. Journal of College Admission, 216, 16-
23. Recuperado de
http://files.eric.ed.gov/fulltext/EJ992990.pdf
Yen, W. M. (1993). Scaling performance assessments: Strategies for managing local item
dependence. Journal of Educational Measurement, 30(3), 187-214.
http://dx.doi.org/10.1111/j.1745-3984.1993.tb00423.x
Young, F. W. & Bann, C. M. (1996). ViSta: The visual statistics system. Research Memo-
randum, 94(1), 1-13. Recuperado de
http://147.156.1.4/~prodat/ViSta/vista-frames/pdf/YoungBann.pdf
Revista de Psicologa
18 2016, 25(2), 1-18