Está en la página 1de 18

2016, 25(2), 1-18

Revista de Psicologa ISSN impreso: 0716-8039


UNIVERSIDAD DE CHILE ISSN en lnea: 0719-0581
www.revistapsicologia.uchile.cl

Desarrollo de un banco de tems para medir conocimiento en


estudiantes universitarios
Development of an Item Bank to Measure Knowledge in University Students
Marcos Cupani, Fernanda Beln Ghio, Mara Florencia Leal, Gimena Mariel Giraudo, Tatiana Castro Zamparella, Gisella
Piumatti, Antonella Beln Casalotti, Juan Claudio Ramrez, Mara Andrs Arranz, Anala Norma Faras,
Natalia Padilla, & Leandro Barrionuevo
Cipsi - Grupo Vinculado Centro de Investigaciones y Estudios sobre Cultura y Sociedad (CIECS) -
Conicet, Universidad Nacional de Crdoba, Crdoba, Argentina

Resumen: La medicin en el mbito educativo del Abstract: Measurement in the educational field of
rendimiento acadmico de los estudiantes universi- academic achievement of university students is con-
tarios es considerada emprica y cuantitativa. De sidered empirical and quantitative. Hence, the main
all que el propsito principal de dichas evaluacio- purpose of such assessments is to control educational
nes consiste en el control de los sistemas educati- systems and evaluation based on objective criteria
vos y la evaluacin a partir de criterios objetivos (Long, Wendt, & Dunne, 2011). The aim of this arti-
(Long, Wendt, & Dunne, 2011). Este trabajo cle was to develop an Item Bank for General
apunta a desarrollar un banco de tems para el Test Knowledge Test composed by 20 specific domains of
de Conocimiento General compuesto de 20 domi- knowledge. Considering that an effective construc-
nios especficos. Se presentan avances realizados tion of a test requires organization and systematiza-
en seis dominios (psicologa, biologa, historia, li- tion of activities, progress in six domains are pre-
teratura, economa y leyes). La muestra estuvo sented. The sample was composed by 6,794
compuesta por 6.794 estudiantes. Se evaluaron university students. 1,526 items from different do-
1.526 tems de distintos dominios. Se realiz un mains were evaluated. To calibrate the items, a non-
anlisis factorial exploratorio no lineal, se obtuvie- linear exploratory factorial analysis was performed.
ron los ndices de dificultad y discriminacin segn Difficulty and discrimination indices were obtained
la teora clsica de los test y la teora de respuesta according to the classical theory of tests and the item
al tem; tambin se obtuvieron ndices de fiabili- response theory, and reliability indices as well. It was
dad. El 68% presenta dificultad moderada y 32% observed that 68% of the items have moderate diffi-
un ndice de dificultad alto o bajo. Sobre los ndices culty and 32% of them have high or low difficulty.
de confiabilidad en la mayora de los dominios se Internal consistency of the instrument showed high
obtuvieron valores satisfactorios superiores a ,70. reliability values, up to .70. Further studies are needed
Se concluye la necesidad de revisar los tems que in order to expand the item sample, and review items
no cumplieron estos criterios y ampliar la muestra. that showed inadequate indexes on discrimination,
Este instrumento permitir reducir los errores de difficulty and reliability. This instrument allows
clasificacin de los alumnos y medir el desempeo measuring academic performance on an interval scale
acadmico con una escala de intervalo. level and reducing the misclassification of students.
Palabras clave: Test de Conocimiento General, Keywords: General Knowledge Test, items bank,
banco de tems, teora clsica de los test. classical test theory.

Este trabajo ha sido financiado con subsidios de investigacin y desarrollo otorgados por el Fondo para la Investigacin
Cientfica y Tecnolgica de la Agencia Nacional de Promocin Cientfica y Tecnolgica (Foncyt-PICT-2012), por el
Consejo Nacional de Investigaciones Cientficas y Tcnicas (PIP 2012-2014), Ministerio de Ciencia y Tecnologa de la
Secretara de Promocin Cientfica (PID 2010). Los autores agradecen la colaboracin de Brenda de Dio, Daniela De-
negri Coumeres, Roco Martnez, Nilton Fernando Meza y Patricia Cataneo, por su contribucin en la recoleccin de
datos, y a los profesores de las distintas carreras universitarias que facilitaron el acceso a los estudiantes.
Contacto: M. Cupani. Cipsi - Conicet, Facultad de Psicologa, Universidad Nacional de Crdoba, Ciudad Universi-
taria, Crdoba 5000, Argentina. Correo electrnico: marcoscup@gmail.com
Cmo citar: Cupani, M., Ghio, F. B., Leal, M. F., Giraudo, G. M., Castro Zamparella, T., Piumatti, G., Barrionuevo,
L. (2016). Desarrollo de un banco de tems para medir conocimiento en estudiantes universitarios. Revista de Psico-
loga, 25(2), 1-18.
http://dx.doi.org/10.5354/0719-0581.2017.44808
Cupani, Ghio, Leal, Giraudo, Castro Zamparella, Piumatti, Casalotti, Ramrez, Arranz, Faraz, Padilla, & Barrionuevo

Introduccin los resultados sean comparables en las


distintas instituciones a travs de los aos.
Actualmente se considera que ms all de Asimismo permite evaluar el cumpli-
la especificidad terica que caracteriza miento de las metas educativas y el desa-
cada lnea de pensamiento y enfoque, la rrollo de polticas educativas (Froemel,
evaluacin de conocimiento es una di- 2009).
mensin constitutiva de la enseanza y el
aprendizaje (Cols, 2009). La medicin en A nivel internacional existen diferentes
el mbito educativo del rendimiento aca- pruebas estandarizadas que pretenden
dmico de los estudiantes universitarios evaluar el nivel de conocimiento adquiri-
es considerada emprica y cuantitativa. De do por los estudiantes (Martnez Rizo,
all que el propsito principal de dichas 2009). Por ejemplo, Estados Unidos utili-
evaluaciones consiste en el control de los za medidas estandarizadas para medir el
sistemas educativos y la evaluacin a par- rendimiento acadmico a travs del pro-
tir de criterios objetivos (Long, Wendt, & medio de calificaciones (GPA, por su
Dunne, 2011). Es as que la problemtica nombre en ingls Grade Point Average),
existente en el proceso de evaluacin de el examen de evaluacin escolstica
la educacin se constituye como objeto de (SAT, por su nombre en ingls Scholastic
estudio y atencin por parte de las agen- Assessment Test) y el examen del colegio
cias estatales, instituciones educativas, americano (ACT, por su nombre en ingls
centros de investigacin y comunidad American Collage Test). Dentro de ellos,
educativa en general (Lpez Jimnez & el sistema GPA es una de las medidas de
Puentes Velsquez, 2010). A lo largo del logros acadmicos ms utilizada como
tiempo el sistema educativo ha utilizado criterio de admisin en las universidades
distintas formas de evaluacin para esti- (Volwerk & Yindal, 2012), en la valida-
mar el aprendizaje. De all que entre los cin de pruebas como el SAT y el ACT
instrumentos ms empleados para medir (Smits, Mellenbergh, & Vorst, 2002),
la adquisicin de los contenidos curricula- como tambin para la seleccin del per-
res por parte de los alumnos encontremos sonal en el mbito laboral (Kuncel, Cre-
los exmenes de conocimiento, rendi- d, & Thomas, 2005). Sin embargo, el
miento y aptitudes. GPA tiene defectos como medida de ren-
dimiento dada la variacin de los planes
Tradicionalmente, cada profesor establece de estudio y los currculums que hace que
en su rea o materia sus propios criterios los promedios no sean comparables
y procedimientos de calificacin, particu- (Smits et al., 2002).
larmente en el mbito universitario (Na-
vas, Sampascual, & Santed, 2003). De Otra prueba utilizada a nivel internacional
modo que la asignacin de puntuaciones es el Programa para la Evaluacin Inter-
est sujeta a fuentes de variabilidad no nacional de Alumnos (PISA, por su nom-
siempre atribuibles al nivel de competen- bre en ingls Programme for International
cia de los alumnos (Rodrguez-Ayn Student Assessment) desarrollado por la
Mazza, 2007). A razn de ello surge el Organizacin para la Cooperacin y el
inters por desarrollar herramientas de Desarrollo Econmico (OCDE). Este
medicin correctamente elaboradas y ca- examen permite realizar anlisis compara-
libradas que aporten objetividad a la eva- tivos al examinar el grado de preparacin
luacin de conocimiento. Contar con de los jvenes para la vida adulta y, hasta
instrumentos estandarizados permite que cierto punto, la efectividad de los siste-

Revista de Psicologa
2 2016, 25(2), 1-18
Banco de tems: evaluacin de conocimiento

mas educativos (Vlaz de Medrano Ureta, desventajas al no ofrecer un marco inter-


2006). La evaluacin cubre las reas de pretativo de los resultados acorde con la
lectura, matemticas y competencia cien- segmentacin de niveles educativos y las
tfica, y las pruebas que se utilizan estn frecuencias de devolucin; y consideran-
desarrolladas desde la teora de respuesta do el tipo de informacin que se reporta,
al tem (TRI), especficamente desde el dificultan la construccin de una cultura
Modelo de Rasch. de la evaluacin en el pas (Delich, Iaies,
Savransky, & Galliano 2009). A su vez,
En Amrica Latina la diversidad y mul- debido a la variacin de los contenidos a
tiplicidad de experiencias en el desarro- evaluar en relacin con los cambios de
llo y propagacin de sistemas nacionales gobierno (Larripa, 2009), los resultados
de evaluacin es una constante desde la no pueden compararse a travs del tiempo
dcada de 1980. Particularmente Chile generando la imposibilidad de mejorar los
ha sido uno de los principales referentes aprendizajes y la calidad educativa
regionales en materia de evaluacin de (Gvirtz, Larripa, & Oelsner, 2006).
calidad (Lafuente, 2009). En este pas
existen dos pruebas que se encargan de Cabe aadir que la evaluacin en el sis-
medir las capacidades y logros educacio- tema educativo resulta til para el control
nales en los alumnos. Una de ellas est de calidad y eficacia de las polticas adop-
bajo la supervisin del Sistema de medi- tadas al establecer el nivel de adecuacin
cin de calidad de la educacin y evala entre el plan de estudios y el aprendizaje
el logro de los Objetivos fundamentales y de los estudiantes (Fuentes Navarro,
contenidos mnimos obligatorios (OF- 2006), como tambin valorar la calidad de
CMO). Otro instrumento es la batera de la instruccin de los educadores. Es decir,
Pruebas de seleccin universitaria (PSU), los exmenes de rendimiento pueden pro-
que consta de dos instrumentos obligato- porcionar a las instituciones, la oportuni-
rios (matemtica, y lenguaje y comunica- dad de medir su propio progreso ao a
cin) y dos electivos (historia y ciencias ao en el cumplimiento de las normas
sociales, y ciencias). Este ltimo modelo establecidas por los organismos guber-
de medicin de las PSU tiene como objeti- namentales (Simner, 2000).
vo seleccionar a los postulantes a las uni-
versidades del Consejo de rectores y por Este panorama nos permite reflexionar
ello combina dos aspectos: habilidades acerca de lo que se espera lograr en el
cognitivas y contenidos curriculares (Bra- mbito educativo, lo que se hace para
vo Urrutia et al., 2010). lograrlo, y lo que podemos hacer para
mejorarlo (Fuentes Navarro, 2006). Parti-
En Argentina, a partir de la Direccin cularmente en la Argentina la mayor parte
Nacional de Informacin y Evaluacin de de los sistemas de evaluacin se concen-
la Calidad Educativa, se comienza con el tran en la educacin primaria y de nivel
Sistema Nacional de Evaluacin de la medio. Es por eso que surge el inters de
calidad de la educacin en reas como contar con un banco de tems que permita
matemtica, ciencias sociales y ciencias indagar sobre el conocimiento general de
naturales. Este sistema tiene como objeti- los estudiantes en el mbito universitario.
vo brindar informacin sobre qu apren- Evaluar las competencias con las que los
den los estudiantes e identificar los estudiantes comienzan su carrera de for-
factores asociados al aprendizaje. Sin macin, como as su trayectoria acadmi-
embargo, dicho sistema presenta ciertas ca hasta la finalizacin. Esto permitira

Revista de Psicologa
2016, 25(2), 1-18 3
Cupani, Ghio, Leal, Giraudo, Castro Zamparella, Piumatti, Casalotti, Ramrez, Arranz, Faraz, Padilla, & Barrionuevo

generar diferentes estrategias de ensean- dos de los dominios de psicologa (teoras


za para maximizar la transferencia de los de la personalidad, tcnicas clnicas, teo-
conocimientos. Se trata de una apuesta ras psicolgicas e historia de la psicolo-
importante por la evaluacin, lo que su- ga); literatura (escritores, dramaturgos y
pone, tal como establece la Organizacin poetas occidentales desde la poca de la
de Estados Iberoamericanos (1996), no antigua Grecia hasta el presente, y de Ar-
solo un mero control, sino tambin una gentina); leyes (contenidos sobre los prin-
respuesta a la necesidad poltica y tcnica cipios bsicos de las leyes penales,
de orientar los procesos de toma de deci- cvicas y empresariales de Argentina);
siones y, de este modo, la mejora de la historia (principales acontecimientos pol-
calidad de la educacin. ticos, filosficos y econmicos en Europa
de la antigua Grecia hasta la Segunda
A razn de lo expuesto, en la Universidad Guerra Mundial, y sobre historia argenti-
Nacional de Crdoba (UNC) se est desa- na desde el la conquista espaola hasta
rrollando un banco de tems (BI) para el nuestro das); biologa (aspectos de la
Test de Conocimiento General (TCG) biologa desde las clulas y organismos
compuesto de 20 dominios especficos: hasta niveles ecolgicos); y economa
psicologa, biologa, historia occidental, (conceptos bsicos de micro y macroeco-
historia argentina, literatura, economa, noma).
leyes, estadstica, qumica, fsica, mate-
mtica, arte, msica, poltica argentina, Para la construccin efectiva del test se
geografa, astronoma, herramientas, tec- precis de un enfoque organizado de las
nologa, negocios y electrnica. Se estima actividades a desarrollar, las que deben
que el BI-TCG estar conformado apro- ser bien ejecutadas para que el test mida
ximadamente por 10.000 preguntas que de manera precisa el dominio correspon-
midan estos dominios especficos de co- diente (Downing & Haladyna, 2006), y
nocimiento (alrededor de 500 tems por as proporcione evidencias de validez que
cada dominio) distribuidos entre cuatro o apoyen las inferencias que se realicen
cinco niveles de instruccin (aos cursa- desde la puntuaciones obtenidas. Los an-
dos por los estudiantes). lisis se realizaron a partir de teora clsica
de los test (TCT) y se presentan avances
Van der Linden y Glas (2000) sealan dos respecto a la TRI.
ventajas de los bancos de tems. Por un
lado, estos introducen flexibilidad en el La TCT es el enfoque clsico y predomi-
campo psicolgico y educativo en tanto nante en la construccin y anlisis de los
posibilitan la construccin de test basados test, se ha usado desde principios del si-
en las necesidades de evaluacin que exi- glo XX como modelo lineal de medicin
gen el desarrollo de un test concreto. Por adaptable a diversas situaciones y con
el otro, permite seleccionar tems en rela- gran xito en pruebas de tipo cognitivas
cin con las caractersticas de los sujetos (Muiz Fernndez, 2010). Sin embargo,
(Attorresi, Lozzia, Abal, Galibert, & presenta algunas limitaciones que dismi-
Aguerri, 2009). nuyen la validez de los exmenes. Las
principales limitaciones de la TCT son
En el presente artculo se presentan los que las caractersticas del examen y las
avances realizados en seis de los 20 do- del alumno son dependientes; es decir, la
minios que componen el BI del TCG. habilidad del alumno se mide mediante el
Especficamente se presentan los resulta- nmero de tems respondidos correcta-

Revista de Psicologa
4 2016, 25(2), 1-18
Banco de tems: evaluacin de conocimiento

mente en el examen. Queda en evidencia Paso a. Anlisis de contenido y tabla de


el problema de la invariancia de las medi- especificacin
ciones y de las propiedades de los instru-
mentos de medida. Todas las pruebas de rendimiento depen-
den, en gran medida, de las evidencias de
Para subsanar esas limitaciones, la TRI validez de contenido que fundamentan y
intenta establecer la probabilidad de cada apoyan las interpretaciones que se realiza-
tem de ser respondido correctamente. Los rn desde las puntuaciones del test. De
parmetros estimados por el modelo per- esta manera, el objetivo esencial en esta
miten evaluar la calidad tcnica de cada fase es la definicin operativa, semntica
uno de los tems por separado y del ins- y sintctica de la variable a medir, as
trumento como un todo, y a la vez estimar como las facetas o dimensiones que la
el nivel que cada examinado presenta en el componen para que pueda ser medido
constructo de inters. En conclusin este empricamente. A su vez, en este paso es
tipo de instrumento permitira reducir al necesario generar una tabla de especifica-
mnimo los errores de clasificacin del cin que ayudar a delimitar y definir el
desempeo acadmico de los estudiantes dominio de conocimiento para cada test.
universitarios, ya que los indicadores o De este modo, dicha tabla posibilitar una
tems empleados posibilitaran una medi- planificacin sistemtica que permita
cin objetiva del rendimiento acadmico, otorgar cierto orden y orientacin para la
lo que aumentara la eficiencia de la eva- construccin de cada instrumento, para
luacin de este al obtenerse resultados seleccionar aquellos contenidos (u objeti-
precisos y transparentes. vos) que constituyan una muestra represen-
tativa de los aprendizajes ms relevantes de
Mtodo cada dominio en particular.

Para la construccin efectiva de un test Para definir el contenido de cada dominio


se requiere de un enfoque sistemtico y se analizaron los programas de formacin
organizado de las actividades a desarro- pertenecientes a las carreras relacionadas
llar. Para la construccin del banco de con los dominios de conocimiento. Este
tem se tuvo en cuenta los doce pasos material fue organizado en una planilla
propuestos por Downing y Haladyna (Excel) por programa, ao de cursado al
(2006). Estas actividades deben ser de- que pertenece el programa, unidades en
bidamente planificadas y correctamente que se divide cada programa (contenidos
ejecutadas a fin de producir un test que generales) y temas (contenidos especfi-
mida de manera precisa y consistente el cos). Luego esta informacin fue proce-
dominio pretendido y, a su vez, que pro- sada mediante un anlisis de frecuencia
porcione evidencias de validez que apo- con el fin de visualizar de manera des-
yen las inferencias que se realicen a cendente cules son los contenidos ms
partir de las puntuaciones obtenidas por relevantes por dominio y nivel de cono-
el test. Adems estos autores sugieren cimiento (aquellos con mayor frecuencia
que, en la prctica, estas actividades de aparicin).
pueden modificarse o revisarse, por lo
tanto, pueden realizarse cambios en el Cabe agregar que un grupo de expertos
proceso de construccin. Las actividades evalu la representatividad de la informa-
que se realizaron hasta el momento se cin recabada. Por cada dominio de cono-
mencionan a continuacin. cimiento participaron entre tres y seis

Revista de Psicologa
2016, 25(2), 1-18 5
Cupani, Ghio, Leal, Giraudo, Castro Zamparella, Piumatti, Casalotti, Ramrez, Arranz, Faraz, Padilla, & Barrionuevo

docentes universitarios (jueces expertos), les de las distintas facultades de la UNC,


quienes puntuaron como frecuente- quienes recibieron una capacitacin espe-
infrecuente, principal-secundario o faltante cial sobre los procesos de construccin de
los contenidos que abarcaban el listado de test y, fundamentalmente, sobre directri-
frecuencias extradas del anlisis realizado ces para la construccin de tems de elec-
anteriormente. Con base en estas observa- cin mltiple (Haladyna, Downing, &
ciones se incluyeron o descartaron algunos Rodrguez, 2002). De all que respecto al
contenidos, y la informacin obtenida se enunciado se consider que tuviera un
organiz en diversos niveles de conoci- esquema de indagacin completa y que se
miento considerando la poblacin meta, evitara redactar la proposicin base como
principalmente el ao de cursado de los enunciado negativo o que pudieran con-
estudiantes de cada dominio (del nivel 0 al fundir en la eleccin de la respuesta co-
nivel 5, variando segn el dominio). Una rrecta. Respecto a las alternativas de
vez seleccionados los contenidos ms re- respuesta, se tuvo en cuenta que cada tem
presentativos se conform una tabla de tuviera una sola opcin correcta; que las
especificacin donde se estableci redactar alternativas fueran gramaticalmente se-
aproximadamente 100 preguntas por cada mejantes, e igualmente aceptables desde
nivel, considerando el nivel de representa- el sentido comn; que se construyeran
tividad de los conceptos y categoras cog- tres alternativas; que las alternativas inco-
nitivas (conocimiento, comprensin y rrectas tuvieran el mismo grado de especi-
aplicacin). ficidad que la opcin correcta de
respuesta; y finalmente que la opcin de
Paso b. Redaccin y desarrollo de los respuesta correcta estuviera dispuesta
tems aleatoriamente.

Los tems que conforman una prueba pue- A cada uno de los profesionales se le en-
den adoptar diferentes formatos, entre los treg la tabla de especificacin donde se
que se destacan: i) preguntas abiertas (en aclaraba cuntas preguntas deba redactar
las que se debe elaborar la respuesta); ii) por contenido (concepto). Estas preguntas
completar frases (en las que se pide a la fueron organizadas en fichas y a cada una
persona que complete algunos elementos se le asign un cdigo nico de identifi-
de una oracin); iii) de eleccin alternativa cacin, un concepto relacionado, el tipo
(si se presentan dos alternativas de respues- de categora cognitiva que evala, la op-
ta entre las que la persona tiene que elegir cin correcta y una justificacin de por
la correcta); y iv) de eleccin mltiple qu cada alternativa es una opcin correc-
(cuando la persona debe elegir la opcin ta o incorrecta. Tambin se confeccion
que considera correcta entre varias alterna- un espacio para categorizar el nivel de
tivas de respuesta). La eleccin mltiple, dificultad de cada uno de los tems.
formato elegido para la construccin del
TCG, es ms difcil de elaborar, pero per- Posteriormente estas fichas fueron entre-
mite una evaluacin ms confiable, siendo gadas a jueces que evaluaron la calidad y
un recurso importante a la hora de evaluar pertinencia de los tems. Para cumplir con
grupos amplios de personas (Moreno, Mar- tal requisito se les hizo entrega de la tabla
tnez, & Muiz, 2004). de especificacin conjuntamente con la
ficha de redaccin de tem. Esto con el
Para la redaccin de los tems del TCG se objetivo de que valoraran la adecuacin
cont con la colaboracin de profesiona- del contenido a la poblacin especfica

Revista de Psicologa
6 2016, 25(2), 1-18
Banco de tems: evaluacin de conocimiento

segn cada nivel de conocimiento para de los evaluados con espacios determina-
cada dominio. Los jueces calificaron las dos para la eleccin de su respuesta (A, B
preguntas segn su nivel de dificultad o C); en este ltimo se incluyeron ciertos
como fcil, mediana y difcil. Luego de la datos sociodemogrficos tales como edad,
revisin por parte de los expertos el equi- sexo, universidad, facultad y carrera, en-
po de trabajo determin los tems que tre otros.
deban modificarse si los comentarios
afectaban aspectos de la redaccin de los Paso d. Administracin del test
tems; o eliminarse en caso de una repre-
sentacin inadecuada de los contenidos a La administracin de la prueba se realiz
evaluar. a estudiantes universitarios de diferentes
aos de cursado de diversas carreras de la
Paso c. Diseo, montaje y produccin ciudad de Crdoba. Las tomas se realiza-
del test ron de forma colectiva, en un horario re-
gular de clase y bajo supervisin de los
Los tems fueron organizados en diferen- profesores asignados al horario de cursa-
tes formas con el fin de poder evaluar sus do. Previo a la administracin se explic
propiedades psicomtricas. Para los dis- a los estudiantes que deban responder un
tintos niveles de cada dominio de cono- nmero de preguntas de opcin mltiple,
cimiento se confeccionaron una forma A las cuales solo tenan una nica opcin
y una forma B, y en algunos casos, una correcta. De igual manera se sugiri que
forma C. La distribucin de los tems en tratasen de responder a todas las pregun-
cada forma se realiz por nivel de dificul- tas y que, en caso de considerar que la
tad ascendente considerando los diferen- pregunta era totalmente ajena a sus cono-
tes contenidos. cimientos, no emitiesen respuesta alguna.
Luego de esta aclaracin se entreg a los
Adems, en cada forma se establecieron alumnos el consentimiento informado y el
ciertos tems anclas y libres. Para la se- material para leer y responder.
leccin de los tems anclas se consider
que respondieran a los diferentes niveles Paso e. Anlisis de datos
de dificultad (baja, media y alta) y que
abarcaran los diferentes contenidos del Para evaluar la validez de estructura inter-
nivel y dominio en particular. Por otro na de cada dominio se realiz un anlisis
lado, se configuraron las formas y la can- factorial no lineal (AFNL). Se utiliz el
tidad de tems a incluir estimando que los mtodo robusto para el anlisis armnico
usuarios deberan poder responder el ins- de la ojiva normal (NOHARM, por su
trumento en condiciones normales, y en nombre en ingls Normal Ogive Harmonic
40 y 60 minutos. Este criterio condicion Analysis Robust Method) mediante el pro-
la cantidad de tems anclas y libres a in- grama NOHARM versin 4.0, que permite
cluir en cada forma y dominio en particu- evaluar la relacin entre el anlisis facto-
lar. La respuesta correcta vari de rial no-lineal y el modelo de ojiva normal
ubicacin de forma aleatoria. Asimismo en orden del ajuste unidimensional y/o
se estableci un formato estndar para la multidimensional del modelo ojiva normal
conformacin de cada test: a) un cuader- (Ayala, 2009). NOHARM produce una
nillo de preguntas de doble carilla para matriz residual para evaluar el ajuste del
facilitar la lectura y b) un protocolo de modelo, dicha matriz es la discrepancia
respuesta para organizar las puntuaciones entre la matriz de covarianza observada y

Revista de Psicologa
2016, 25(2), 1-18 7
Cupani, Ghio, Leal, Giraudo, Castro Zamparella, Piumatti, Casalotti, Ramrez, Arranz, Faraz, Padilla, & Barrionuevo

la matriz de covarianza de los tems luego chardson 20 (KR-20), que es el ms apro-


de ajustar el modelo. El software provee piado cuando se trabaja con tems dicot-
la raz de la media de los residuos al cua- micos.
drado (RMSR, por su nombre en ingls
Root Mean Square of Residuals), en que Por ltimo, de manera complementaria se
valores cercanos a 0 representan un ajuste obtuvieron los ndices de dificultad (b) y
adecuado al modelo. Una segunda medida discriminacin (a), basados en la TRI
de ajuste es el ndice de Tanaka (1993) de (modelo de dos parmetros), mediante el
bondad de ajuste (GFI por su nombre en programa NOHARM. El parmetro de
ingls Goodness of Fit Index). McDonald dificultad es el puntaje en la escala del
(1989) sugiere que un puntaje de ,90 es rasgo () cuya probabilidad de respuesta
un valor aceptable, un ndice de ,95 indica correcta es igual a 0,5, y se simboliza con
un buen ajuste y un valor igual a 1 indica- b. En la prctica suele expresarse en una
ra un ajuste perfecto. escala con media 0, desviacin estndar 1
y rango de valores entre -3 y 3. Los valo-
En segundo lugar, desde la TCT se realiz res negativos estn asociados con reactivos
el anlisis de tems para determinar si el fciles, mientras que los valores positivos
rango de dificultad y de discriminacin de estn asociados con reactivos difciles. La
los reactivos era adecuado. Para estos an- capacidad discriminativa del tem nos in-
lisis se utiliz el programa ViSta (Young, dica hasta qu punto un tem puede dife-
1996). Uno de los ndices ms importantes renciar entre los examinados que poseen
para determinar el grado de dificultad de habilidades bajas y altas, en un nivel de
los tems es el valor de P, que indica el dificultad (parmetro b) determinado del
porcentaje de la muestra que respondi de tem. La capacidad discriminativa de un
manera correcta el tem. Por lo tanto, tem se simboliza con a y se refleja en la
mientras mayor es el valor P, el reactivo es inclinacin o pendiente de la curva del
ms fcil; un tem con un valor P de ,75 tem. Normalmente estos valores varan
indica que el 75% de todos los estudiantes entre 0,3 y 2,5, y se consideran tems muy
de la muestra contest el reactivo correc- discriminantes aquellos que poseen valores
tamente. Se consider como criterio que superiores a 1,34, moderadamente discri-
los niveles de dificultad deseable para los minante entre 0,65 y 1,33, y escasamente
tems entre valores de P = ,30 y ,70, es discriminantes los valores de 0,64 o infe-
decir, ni excesivamente difciles ni fciles riores. En el presente trabajo solo se pre-
(Kaplan & Saccuzzo, 2006). Se realiz una sentan los resultados psicomtricos del
correlacin de cada tem con el puntaje nivel 1 de los seis dominios por una cues-
total de la prueba. Este ndice permite tin de espacio y claridad.
identificar la capacidad del tem para dis-
criminar (diferenciar) entre los individuos Resultados
que poseen ms un rasgo y los que po-
seen menos de ese rasgo. El estadstico Dominio de psicologa
usual es el coeficiente punto-biserial cuan-
do las variables son dicotmica (Velan- Paso a. Para definir los contenidos del
drino, 1998). Los tems con correlaciones Test de Conocimiento en Psicologa se
no significativas o bajas con el puntaje seleccionaron 53 programas de estudio de
total (inferiores a ,30) deben revisarse. diferentes carreras de la UNC: Facultad
Para evaluar la consistencia interna de la de Psicologa, Arte, Derecho y Ciencias
prueba se utiliz el coeficiente Kuder Ri- Sociales (Trabajo Social), Comunicacin

Revista de Psicologa
8 2016, 25(2), 1-18
Banco de tems: evaluacin de conocimiento

Social, Filosofa y Humanidades, Cien- do indicara que puede haber uno o ms


cias Mdicas, Odontologa y Ciencias factores que explican la varianza restante
Econmicas. Los programas recolectados (Yen, 1993). No obstante, como se trata
se organizaron en una tabla de contenido, de una prueba que mide un factor general
en la que se especific nivel de conoci- compuesto por factores ms especficos
miento (del nivel 1 al nivel 5), programa es esperable obtener una estructura facto-
de la materia, contenidos generales y es- rial compleja (Tate, 2003).
pecficos. Para el nivel 1 se consultaron
ocho programas. Para la forma B (RMSR = 0,012; GFI =
,85), y la forma C (RMSR = 0,014; GFI =
Paso b. Se redactaron 876 preguntas de ,86), los ndices de ajuste indican que se
los diferentes niveles. Diez jueces exper- confirma que la estructura unifactorial es
tos evaluaron la pertenencia de los tems. viable. Con respecto a los anlisis de difi-
Los jueces calificaron las preguntas segn cultad (P) y discriminacin (D), los resul-
su nivel de dificultad como fcil (19%), tados muestran (ver tabla 1) que para las
mediano (25%) y alto (25%). Del mismo forma A, B y C, se puede considerar que
modo los expertos consideraron que del el 72% de los tems presenta un nivel de
pool inicial de tems, un 75% son acepta- dificultad moderado mientras que el 28 %
dos como estn, un 25% se debe modifi- restante presenta niveles muy bajos o
car, y 5% debera eliminarse. Por lo tanto, muy altos. En relacin con los ndices de
este dominio qued conformado por 796 discriminacin se observ que los valores
preguntas. del coeficiente punto-biserial variaron
entre ,01 a ,32 para la forma A, entre ,02 a
Paso c. Los 121 tems del nivel 1 fueron ,40 para forma B, y entre ,04 a ,47 para la
distribuidos en tres formas (A, B y C) y forma C. Tambin se puede observar que
organizados segn nivel de dificultad. los ndices de fiabilidad para las tres for-
Cada forma const de 67 tems de los mas fueron satisfactorios, alcanzando
cuales 40 eran comunes a todas las for- resultados de ,77, ,77 y ,85, respectiva-
mas y 27 tems diferentes. mente para las formas A, B y C.

Paso d. Las tres formas fueron adminis- En los anlisis de dificultad (b) y discri-
tradas a una muestra de 900 personas, 613 minacin (a) desde la TRI, se observ
estudiantes de sexo femenino (68,1 %), que en la forma A los parmetros de difi-
284 de sexo masculino (31,6 %), y tres cultad variaron entre b = -3,50 a 2,61 y
participantes no informaron el sexo. La los parmetros de discriminacin entre a
edad comprendida de los participantes fue = -0,11 a 0,79; podemos destacar que tres
entre los 18 y 67 aos (M = 21,3; DT = tems presentaron valores negativos y
5,69). deberan ser revisados o eliminados del
modelo. En la forma B, los parmetros
Paso e. Para la forma A, el valor del variaron entre b = -4,39 a 7,73 y a = 0,15
RMSR (0,012) es menor al error tpico de a 0,76 para dificultad y discriminacin
los residuos estimado (0,32) lo que nos respectivamente; y para la forma C, entre
indica que los tems del test estn midien- b = -5,73 y 10,4 y a = 0,01 y 1,01. Estos
do una sola dimensin. Sin embargo, el resultados nos indican que los tems pre-
ndice de Tanaka de bondad de ajuste sentan una variacin adecuada entre los
(GFI) fue de ,84, valor inferior al punto ndices de dificultad, pero no as con su
de corte recomendado (,90). Este resulta- propiedad de discriminacin.

Revista de Psicologa
2016, 25(2), 1-18 9
Cupani, Ghio, Leal, Giraudo, Castro Zamparella, Piumatti, Casalotti, Ramrez, Arranz, Faraz, Padilla, & Barrionuevo

Dominio de biologa torios con valores de ,90 y ,89, para las


formas A y B, respectivamente. Los pa-
Paso a. Se recolectaron 55 programas rmetros de dificultad para la forma A
pertenecientes a siete carreras relaciona- variaron entre b = -8,74 a 7,13; y los ndi-
das con las CN y ciencias de la salud (CS) ces de discriminacin variaron entre a = -
de la UNC. Cada material fue organizado 1,26 a 0,96; y en el caso de la forma B,
por programa, ao de cursado al que per- los parmetros de dificultad variaron en-
tenece el programa (n = 4), unidades en tre b = -4,54 a 5,35 y los de discrimina-
que se dividen cada programa (contenidos cin entre a = -0,93 y 1,16.
generales) y temas (contenidos especfi-
cos). Esta informacin fue organizada en Dominio de historia
cuatros niveles (1 al 4). Para el nivel 1 se
utilizaron 18 programas. Paso a. Se recolectaron 122 programas de
formacin del nivel secundario y del pro-
Paso b. Diez profesionales redactaron fesorado de Historia perteneciente a la
532 preguntas iniciales y cinco jueces Facultad de Filosofa y Humanidades de
evaluaron el contenido especfico selec- la UNC. Cada material fue organizado
cionado para cada tem. Se descartaron por materia, ao de cursado, contenidos
algunas preguntas y el pool final qued generales, y temas que contemplan cada
conformado por 487 tems. unidad. Esta informacin fue organizada
en cinco niveles (del nivel 0 al 4). Para el
Paso c. Los 100 tems del nivel 1 se cons- nivel 1 se consultaron 18 programas.
tituyeron en dos formas (A y B), cada una
de ellas con 40 tems libres y 20 anclas. Paso b. La redaccin de los tems estuvo
a cargo de dos profesores expertos en
Paso d. Las dos formas fueron adminis- historia, a quienes se les entreg una tabla
tradas a una muestra de 615 personas, 387 de especificacin, que contena el nmero
estudiantes de sexo femenino (63 %), y de preguntas a redactar por contenido. Se
228 de sexo masculino (37 %). Las eda- redactaron 493 preguntas; luego de una
des de los alumnos variaron entre 18 y 37 revisin por tres pares expertos, el pool
aos [M = 21; DT= 3,9]). qued conformado por 450 tems. El 87%
de los tems fue aceptado, un 5% con mo-
Paso e. Los resultados del AFNL de la dificaciones menores y un 8% de las pre-
forma A (RMSR = 0,014; GFI = ,85) y guntas fueron eliminadas.
forma B (RMSR = 0,015 y GFI = ,84)
indican que la estructura unifactorial se Paso c. Para el nivel I se establecieron
ajusta a los datos. Con respecto a los ndi- dos formas (A y B) de 50 preguntas cada
ces de P y D, los resultados muestran que una, 32 tems anclas y 18 tems libres,
el 90% de los tems presenta un nivel de utilizando 68 tems. La cantidad de tems
dificultad moderado acorde a los conoci- a incluir se realiz considerando la exten-
mientos de la muestra; el 10% restante sin de los reactivos y el tiempo necesario
presenta muy baja dificultad o muy alta. para responder la totalidad de la prueba.
Con relacin a los ndices de discrimina-
cin se observ que los valores del coefi- Paso d. El test se aplic a una muestra de
ciente punto-biserial variaron entre ,03 a 384 estudiantes, 234 de sexo femenino
,49 (forma A) y entre ,00 a ,54 (forma B). (60,9%) y 138 de sexo masculino (35,9%),
Los ndices de fiabilidad fueron satisfac- un 3,1 % de la muestra no comput el se-

Revista de Psicologa
10 2016, 25(2), 1-18
Banco de tems: evaluacin de conocimiento

xo; sus edades estaban comprendidas entre GFI = ,89) como B (RMSR = 0,014; GFI
18 y 64 aos (M = 25,01; DT = 14,57). = 0,85) presentan un ajuste adecuado a
los datos. En lo que respecta al ndice de
Paso e. Los resultados del AFNL de la dificultad y discriminacin (TCT) el 90%
forma A (RMSR = 0,013; GFI = ,87) y de los tems presentan un nivel de dificul-
forma B (RMSR = 0,015 y GFI = ,87) tad moderado, mientras que el 10% res-
indican que la estructura unifactorial se tante presentan un nivel de dificultad muy
ajusta a los datos. La mayora de los tems bajo o muy alto. Los valores del coefi-
present una dificultad moderada (63%), ciente punto-biserial fueron de ,07 a ,56
el 37% restante niveles de dificultad bajos para la forma A y -,00 a ,50 para la forma
o altos. El coeficiente punto-biserial fue B. El ndice de confiabilidad fue de ,89
de ,02 a ,45 para la forma A; y de ,01 a para la forma A y ,85 para la forma B. En
,49 para la forma B. Los parmetros de lo que respecta a los anlisis de dificultad
dificultad en la forma A variaron entre b y discriminacin desde la TRI, se observ
= -7,14 a 3,04 y los parmetros de discri- que en la forma A los parmetros de difi-
minacin entre a = -0,02 a 1,26. En la cultad variaron entre b = -3,50 a 4,09 y
forma B, los parmetros variaron entre b los parmetros de discriminacin entre a
= -4,37 a 4,70 y a = -0,08 a 1,06. = -0,16 a 1,06. En la forma B, los parme-
tros variaron entre b = -5,88 a 7,94 y a = -
Dominio de literatura 0,17 a 0,6 para dificultad y discrimina-
cin respectivamente.
Paso a. Se seleccionaron 58 programas de
diferentes unidades acadmicas. Cada Dominio de economa
material se organiz por programa, ao de
cursado, unidades en que se divide cada Paso a. Se consultaron 42 programas per-
programa y temas. Esta informacin se tenecientes a la carrera de Ciencias Eco-
organiz en tres niveles (1 al 3). Para el nmicas. Esta informacin fue organizada
nivel 1 se consultaron cuatro programas. en cinco niveles (1 al 5). Siete programas
fueron consultados para el nivel 1.
Paso b. Expertos en el dominio redacta-
ron 485 preguntas sobre literatura general Paso b. Cinco profesionales redactaron
y argentina. 314 preguntas, que fueron sometidas a un
estudio de jueces; estos recomendaron la
Paso c. Los 99 tems del nivel fueron modificacin de ciertos tems. De all que
distribuidos en dos formas (A y B). Cada del pool de tems, los expertos determina-
forma const de 66 preguntas de las cua- ron que el 32% del total responda a un
les 33 son anclas y 33 libres. nivel de dificultad bajo, el 55% mediana
y 13% difcil. De aquellos 79% fueron
Paso d. Las dos formas fueron adminis- aceptados sin cambios, 18% deba modi-
tradas a una muestra de 608 estudiantes, ficarse y el 3% eliminarse. El pool final
426 estudiantes de sexo femenino (70 %), de tems fue de 248 tems de los diferen-
y 182 de sexo masculino (30 %) con eda- tes niveles de conocimiento del dominio
des comprendidas entre los 19 y 60 aos de economa.
(M = 24; DE = 6,81).
Paso c. Para el establecimiento de las
Paso e. Los resultados del AFNL indican formas del nivel 1 se seleccionaron aque-
que tanto la forma A (RMSR = 0,013; llos tems que, segn las observaciones de

Revista de Psicologa
2016, 25(2), 1-18 11
Cupani, Ghio, Leal, Giraudo, Castro Zamparella, Piumatti, Casalotti, Ramrez, Arranz, Faraz, Padilla, & Barrionuevo

los expertos, eran acordes al dominio y cada programa (contenidos generales) y


congruentes con la poblacin meta, como temas (contenidos especficos). Esta in-
tambin el nmero de tems a incluir se formacin fue organizada en seis niveles
estableci a partir del tiempo necesario (nivel 1 al 6). Para el nivel 1 se consulta-
para responder a la prueba. Se utilizaron ron siete programas.
100 tems para constituir las formas A y
B, cada una const de 60 tems (40 libres Paso b. Un profesional redact 637 pre-
y 20 anclas). guntas. Estas fueron sometidas a un estu-
dio de jueces, en el cual tres expertos
Paso d. La muestra se form por 603 es- determinaron la pertinencia de los tems.
tudiantes de la Facultad de Ciencias Eco- Del banco de tems inicial 72% de los
nmicas de la UNC, 305 mujeres (50,6%) tems fueron aceptados, 20% deben ser
y 260 varones (43,1%), el 6,1% no com- modificados y 8% eliminarse. Por lo que
plet este dato, con edades comprendidas el pool final de tems qued conformado
entre 18 y 31 aos (M = 20,52; DT = por 458 tems de los diferentes niveles de
3,95). conocimiento.

Paso e. Los resultados del AFNL indican Paso c. Se utilizaron 80 tems para consti-
que tanto la forma A (RMSR= 0,013; tuir dos formas (A y B) con 55 tems cada
GFI = ,92) como B (RMSR = 0,016; GFI una, de los cuales 31 son tems anclas y
= ,87) presentan un ajuste adecuado a los 24 tems libres.
datos. El coeficiente punto-biserial pre-
sent valores entre ,11 a ,53 para la for- Paso d. Los test se administraron a una
ma A, y entre ,15 a ,55 para la forma B. muestra de 170 personas, 102 de sexo
En lo que respecta a la fiabilidad se ob- femenino (60%) y 68 de sexo masculino
tuvieron valores de KR-20 de ,90 para la (40%), con edades comprendidas entre
forma A y ,89 para la forma B. Por lti- los 19 y 60 aos (M = 24,59; DT = 6,22),
mo los parmetros a y b muestran que en considerando un N = 85 por forma.
la forma A, los ndices de b variaron
entre -2,10 a 0,56; mientras que los ndi- Paso e. El AFNL solo se realiz con los
ces de discriminacin variaron entre 0,08 31 tems anclas. Los resultados indican
y 1,35. En la forma B los ndices de b (RMSR = 0,013; GFI = ,92) que los tems
variaron entre -3,79 y 0,69, en lo que miden una sola dimensin. El 59% de los
respecta a los valores a, ellos variaron tems presenta un nivel de dificultad mo-
entre -0,42 y 2,00. derado y el 41% presenta niveles muy
bajos o muy altos. El coeficiente punto-
Dominio de leyes biserial present valores entre ,02 a ,42
para la forma A; y ,03 a ,51 para la forma
Paso a. Se recolectaron 36 programas B. Por su parte, el KR-20 arroj un ndice
pertenecientes a la Facultad de Derecho y de ,76 para la forma A y ,54 para la forma
Ciencias Sociales, de la carrera de Abo- B. Por ltimo, el parmetro b present
gaca de la UNC. Cada material fue orga- valores entre 5,61 y -4,45, mientras que
nizado por programa, ao de cursado (n = los ndices de discriminacin variaron
6), unidades (n = 305) en que se divide entre -0,09 a 0,73.

Revista de Psicologa
12 2016, 25(2), 1-18
Banco de tems: evaluacin de conocimiento

Tabla 1
ndices de dificultad y discriminacin desde la TCT y desde la TRI de los tems de los seis
dominios
Nivel del
Punto
dominio de Forma N p-valor q-valor KR-20 b a
biserial
conocimiento
Literatura 1 A 303 ,07 a ,86 ,14 a ,84 ,07 a ,56 ,89 -3,50 a 4,09 -0,16 a 1,06
B 305 ,10 a ,84 ,16 a ,90 ,00 a ,50 ,85 -5,88 a 7,94 -0,17 a 0,6
Psicologa 1 A 300 ,06 a ,94 ,06 a ,94 ,01 a ,32 ,77 -3,50 a 2,61 -0,11 a 0,79
B 300 ,07 a ,86 ,14 a ,93 ,02 a ,40 ,77 -4,39 a 7,73 0,15 a 0,76
C 300 ,09 a ,86 ,14 a ,91 ,04 a ,47 ,85 -5,73 y 10,4 0,01 y 1,01
Biologa 1 A 304 ,10 a ,94 ,06 a ,90 ,03 a ,49 ,80 8,74 a 7,13 -1,26 a 0,96
B 311 ,18 a ,89 ,11 a ,91 ,00 a ,54 ,81 -4,54 a 5,35 -0,93 a 1,16
Historia 0 A 306 ,11 a ,97 ,03 a ,89 ,01 a ,48 ,85 -9,68 a 7,38 0,06 a 0,90
B 312 ,23 a ,95 ,05 a ,77 ,06 a ,48 ,82 -5,26 y 4,38 0,08 a 0,86
Historia 1 A 192 ,14 a ,95 ,05 a ,86 ,02 a ,45 ,74 -7,14 a 3,04 -0,02 a 1,26
B 192 ,10 a ,95 ,05 a ,90 ,01 a ,49 ,75 -4,37 a 4,70 -0,08 a 1,06

Leyes 1 A 74 ,16 a ,97 ,03 a ,84 ,02 a ,42 ,76 5,61 y 4,45 0,09 a 0,73
Economa 1 A 299 ,31 a ,91 ,09 a ,69 ,11 a ,53 ,90 -2,10 a 0,56 0,08 a 1,35
B 330 ,27 a ,93 ,07 a ,73 ,15 a ,55 ,89 -3,79 y 0,69 -0,42 y 2,00
Nota: TCT = teora clsica de los tests; TRI = teora de respuesta al tem; p = proporcin de
respuestas correctas; q = proporcin de respuestas incorrectas; Punto biserial = ndice de dis-
criminacin; K-20 = ndice de fiabilidad; b: ndice de dificultad y a: ndice de discriminacin.

Discusin y conclusiones que responda a la especificidad de cada


unidad acadmica y que, por lo tanto, con-
El rendimiento acadmico del estudiante temple dichas diferencias. A razn de ello
universitario constituye un factor impres- en la UNC, se est construyendo un Test
cindible en el abordaje de la calidad de la de Conocimiento General que busca eva-
educacin superior, debido a que es un luar el conocimiento de los estudiantes en
indicador que permite una aproximacin a diferentes dominios de conocimiento. Con-
la realidad educativa (Garbanzo Vargas, tar con este amplio sistema de evaluacin,
2007). La evaluacin de la educacin sur- permitira saber el nivel de conocimiento
gi como respuesta a una necesidad perci- con el que ingresan los estudiantes, cmo
bida por muchos pases. Actualmente en evolucionan y con qu nivel finalizan.
nuestro medio, las evaluaciones destinadas Adems, contar con un banco de tems en
a la valoracin del sistema educativo no distintos dominios de conocimiento intro-
pueden ser aplicadas en distintas institu- duce flexibilidad en la evaluacin en el
ciones acadmicas, ya que las mismas pre- campo psicolgico y educativo, ya que
sentan la limitacin de no tener en cuenta posibilita la construccin de test basndose
la variacin y diversidad de los contenidos nicamente en consideraciones prcticas de
que conforman el currculum. carcter especfico, relacionadas con las
necesidades de evaluacin que, en un mo-
Debido a esto, es de suma importancia mento determinado, exigen el desarrollo de
contar con un instrumento estandarizado un test concreto. La segunda ventaja tiene

Revista de Psicologa
2016, 25(2), 1-18 13
Cupani, Ghio, Leal, Giraudo, Castro Zamparella, Piumatti, Casalotti, Ramrez, Arranz, Faraz, Padilla, & Barrionuevo

que ver con el uso eficiente de las respues- los residuos estimados de lo que se en-
tas de los sujetos a los tems: cualquier tiende que el modelo se ajusta. Sin em-
conjunto de datos se puede incorporar al bargo, el ndice de Tanaka de bondad de
sistema para una actualizacin peridica de ajuste fue, para algunos dominios, inferior
las estimaciones de los parmetros de los al punto de corte recomendado (,90); este
tems (Van der Linden & Glas, 2000). resultado indicara que puede haber uno o
ms factores que explican la varianza
Para evaluar la adecuacin de los tems, restante (Yen, 1993).
desde la teora clsica de los test se eva-
lu la calidad de las respuestas de los su- No obstante, como se trata de una prueba
jetos a los tems y del total del test. Se que mide un factor general compuesto por
observ que de los 1.526 tems distribui- factores ms especficos es esperable ob-
dos en seis dominios (psicologa, biolo- tener una estructura factorial compleja
ga, leyes, economa, literatura e historia), (Tate, 2003). A futuro, se planifica la re-
68% presenta dificultad moderada y el visin de aquellos tems que no se ajusta-
32% restante un ndice de dificultad alto o ron al modelo mediante nuevos estudios
bajo. En lo que respecta a los ndices de de expertos en el rea; igualmente se con-
confiabilidad en la mayora de los domi- sidera que los resultados obtenidos para
nios se obtuvieron valores satisfactorios los tems del nivel I son alentadores.
superiores a ,70, a excepcin del nivel 1
del dominio de leyes (forma B) y del ni- Se proyecta completar los anlisis de los
vel 3 del dominio de biologa (forma C). tems de todos los dominios desde la TRI,
Modelo de Rasch. Ya que, a saber, aun-
De los resultados obtenidos se concluye que en principio tanto la TCT como la
la necesidad de revisar los tems que no TRI pueden trabajar con bancos de tems,
cumplieron estos criterios y de ampliar la la TCT presenta limitaciones. Pues bien,
muestra de los tems. Se ha podido identi- dado que en la TCT los parmetros de los
ficar algunos inconvenientes en la repre- tems dependen de la muestra de sujetos
sentatividad del contenido del test. Los que ha sido utilizada para estimarlos, es
tems redactados no cubren todo el domi- difcil conseguir que los valores estima-
nio de inters, por lo cual, se planifica dos para los parmetros de todos los tems
ampliar el banco de tems con preguntas sean estrictamente comparables.
de los niveles de dificultad extremos para
de esta manera poder discriminar entre Por el contrario, la invarianza de los par-
buenos y malos desempeos. metros del tem en la TRI convierte a esta
teora en el marco adecuado para trabajar
Por su parte, los resultados obtenidos con bancos de tems, ya que permite dis-
desde la TRI permitieron superar algunas poner de una escala comn para los par-
limitaciones de la TCT, ya que la primera metros de todos los tems. En la aplicacin
se interesa ms en las propiedades de los de la TRI un paso insoslayable es optar por
tems individuales que en las propiedades un modelo terico que suministre una bue-
globales del test. Puede decirse que uno na representacin del rendimiento de los
de los supuestos fundamentales de la teo- tems. Dentro de ellos, el Modelo de
ra se cumple, a saber, la mayora de los Rasch, de un parmetro, plantea que la
tems miden solo una aptitud o rasgo probabilidad de acertar un tem depende
(unidimensionalidad). En todos los domi- solamente del nivel de dificultad de dicho
nios el RMSR es menor al error tpico de tem y del nivel del individuo en la varia-

Revista de Psicologa
14 2016, 25(2), 1-18
Banco de tems: evaluacin de conocimiento

ble medida. El modelo de Rasch presenta Entonces, entre los beneficios que ofrece
ventajas fundamentales que hace que sea la construccin de este instrumento se
ampliamente utilizado en la validacin de encuentra la adecuacin del plan de estu-
pruebas educativas. En particular los bene- dios a los requerimientos y necesidades
ficios de dicho modelo para el anlisis de de los estudiantes (Fuentes Navarro,
pruebas educativas pueden aplicarse a las 2006). Es decir, la enseanza se vera
pruebas PISA, a las pruebas de diagnstico favorecida si los contenidos y la dificul-
o bien a pruebas de certificacin (Montero, tad de la instruccin fueran acordes al
Rojas, & Zamora, 2014). conocimiento y habilidades del sujeto,
optimizando el proceso de enseanza
Tambin se planifica utilizar test adaptati- (Rolfhus & Ackerman, 1999).
vos informatizados (TAI), lo que propicia-
ra minimizar el error estndar de medicin Asimismo, dicha evaluacin posibilitara la
y la posibilidad de medidas de longitud sin valoracin de calidad de la instruccin de
prdida de precisin y fiabilidad, mejoran- los educadores. Contar con herramientas de
do la posibilidad de diagnstico con eva- medicin correctamente elaboradas repre-
luaciones ms breves y precisas (Olea & sentara un avance en la evaluacin del
Ponsoda, 2003). Esto ayudara a realizar un aprendizaje de los sistemas educativos. En
seguimiento longitudinal del conocimiento conclusin, el aporte de este trabajo es sig-
de un alumno, generar un diagnstico de la nificativo en el campo de la medicin y
cantidad y calidad de contenido adquirido, evaluacin en nuestro medio. El presente
especificar qu contenido terico dado proyecto permitira mejorar las trayectorias
resulta ms dificultoso e incorporar nuevas acadmicas, el desempeo acadmico y
alternativas de aprendizaje. disminuir la desercin universitaria.

Referencias
Attorresi, H. F., Lozzia, G. S., Abal, F. J. P., Galibert, M. S., & Aguerri, M. E. (2009). Teora
de respuesta al tem. Conceptos bsicos y aplicaciones para la medicin de constructos
psicolgicos. Revista Argentina de Clnica Psicolgica, 18(2), 179-188. Recuperado de
http://www.redalyc.org/articulo.oa?id=281921792007
De Ayala, R. J. (2009). The theory and practice of item response theory. New York, New
York: The Guilford Press. Recuperado de
http://psycnet.apa.org/psycinfo/2009-01904-000
Bravo Urrutia, D., Bosch Cartagena, M. A., Del Pino Manresa, G., Donoso Retamales, G.,
Manzi Astudillo, J., Martnez Martnez, M., & Pizarro Snchez, R. (2010). Validez dife-
rencial y sesgo de predictividad de las pruebas de admisin a las universidades chile-
nas. Santiago, Chile: CTA-PSU. Recuperado de
https://is.gd/zv0Dkm
Cols, E. (2009). Introduccin. La evaluacin de los aprendizajes como objeto de estudio y
campo de prcticas. Archivos de Ciencias de la Educacin, 3(3), 11-14. Recuperado de
http://www.memoria.fahce.unlp.edu.ar/art_revistas/pr.4079/pr.4079.pdf
Cupani, M., Zalazar-Jaime, M. F., Garrido, S., Gross, M., & Tavella, J. (Octubre, 2012).
Construccin de un test de conocimiento general. Trabajo presentado en el X Congreso
Latinoamericano de Sociedades de Estadstica, Crdoba, Argentina.

Revista de Psicologa
2016, 25(2), 1-18 15
Cupani, Ghio, Leal, Giraudo, Castro Zamparella, Piumatti, Casalotti, Ramrez, Arranz, Faraz, Padilla, & Barrionuevo

Delich, A., Iaies, G., Savransky, N., & Galliano, M. (2009). Hacia un nuevo debate de los
resultados de las evaluaciones de calidad educativa en la Argentina. Buenos Aires, Ar-
gentina: Centro de estudios en Polticas Pblicas. Recuperado de
https://is.gd/cK8UWp
Downing, S. M. & Haladyna, T. M. (2006). Handbook of test development. Mahwah, New
Jersey: Lawrence Erlbaum Associates.
Froemel, J. E. (2009). La efectividad y la eficacia de las mediciones estandarizadas y de las
evaluaciones en educacin. Revista Iberoamericana de Evaluacin Educativa, 2(1), 10-
28. Recuperado de
http://www.rinace.net/riee/numeros/vol2-num1/art1.pdf
Fuentes Navarro, R. (2006). La constitucin cientfica del campo acadmico de la comuni-
cacin en Mxico y en Brasil: anlisis comparativo. Revista Latinoamericana de Cien-
cias de la Comunicacin, 5, 48-55. Recuperado de
http://www.eca.usp.br/associa/alaic/revista/r5/art_04.pdf
Garbanzo Vargas, G. M. (2007). Factores asociados al rendimiento acadmico en estudian-
tes universitarios, una reflexin desde la calidad de la educacin superior pblica. Edu-
cacin, 31(1), 43-63.
http://dx.doi.org/10.15517/revedu.v31i1.1252
Gvirtz, S., Larripa, S., & Oelsner, V. (2006). Problemas tcnicos y usos polticos de las
evaluaciones nacionales en el sistema educativo argentino. Archivos Analticos de Polti-
cas Educativas, 14(18), 1-24. Recuperado de
http://www.redalyc.org/articulo.oa?id=275020543018
Haladyna, T. M., Downing, S. M., & Rodrguez, M. C. (2002). A review of multiple-choice
item writing guidelines. Applied Measurement in Education, 15(3), 309-334.
http://dx.doi.org/10.1207/S15324818AME1503_5
Kaplan, R. M. & Saccuzzo, D. P. (2006). Pruebas psicolgicas: principios, aplicaciones y
temas. Mxico, Distrito Federal., Mxico: Thomson.
Kuncel, N. R., Cred, M., & Thomas, L. (2005). The validity of self-reported grade point
averages, class ranks, and test scores: A meta-analysis and review of the literature. Re-
view of Educational Research, 75(1), 63-82. Recuperado de
http://people.uncw.edu/caropresoe/EDN523/article.pdf
Lafuente, M. (2009). La experiencia del sistema nacional de evaluacin del proceso educa-
tivo, SNEPE, en Paraguay: aprendizajes y desafos. Revista Iberoamericana de Evalua-
cin Educativa, 2(1), 49-73. Recuperado de
http://hdl.handle.net/10486/661545
Larripa, S. (2009). Reflexiones sobre las funciones de los sistemas de evaluacin educativa
de gran escala. Archivos de Ciencias de la Educacin, 3(3), 69-78. Recuperado de
http://www.memoria.fahce.unlp.edu.ar/art_revistas/pr.4083/pr.4083.pdf
Long, C., Wendt, H., & Dunne, T. (2011). Applying Rasch measurement in mathematics
education research: Steps towards a triangulated investigation into proficiency in the
multiplicative conceptual field. Educational Research and Evaluation, 17(5), 387-407.
http://dx.doi.org/10.1080/13803611.2011.632661

Revista de Psicologa
16 2016, 25(2), 1-18
Banco de tems: evaluacin de conocimiento

Lpez Jimnez, N. E. & Puentes Velsquez, A. V. (Septiembre, 2010). La evaluacin de la


calidad de la educacin en Colombia. Estado del Arte. Trabajo presentado en el Congre-
so Iberoamericano de Educacin, Buenos Aires, Argentina. Recuperado de
https://is.gd/p6ISFc
Martnez Rizo, F. (2009). Evaluacin formativa en aula y evaluacin a gran escala: hacia
un sistema ms equilibrado. Revista Electrnica de Investigacin Educativa, 11(2), 1-18.
Recuperado de
https://is.gd/qDyHTq
McDonald, R. P. (1989). An index of goodness-of-fit based on noncentrality. Journal of
Classification, 6(1), 97-103.
http://dx.doi.org/10.1007/BF01908590
Montero, E., Rojas, S., & Zamora, E. (2014). Quinto informe del estado de la educacin.
Costa Rica: Conare. Recuperado de
https://is.gd/57Hj0M
Moreno, R., Martnez, R. J., & Muiz, J. (2004). Directrices para la construccin de tems
de eleccin mltiple. Psicothema, 16(3), 490-497.
Muiz Fernndez, J. (2010). Las teoras de los tests: teora clsica y teora de respuesta a
los tems. Papeles del Psiclogo, 31(1), 57-66. Recuperado de
https://dialnet.unirioja.es/servlet/articulo?codigo=3150824
Navas, L., Sampascual, G., & Santed M. A. (2003). Prediccin de las calificaciones de los
estudiantes: la capacidad explicativa de la inteligencia general y de la motiva-
cin. Revista de Psicologa General y Aplicada, 56(2), 225-237. Recuperado de
https://dialnet.unirioja.es/servlet/articulo?codigo=760681
Olea, J. & Ponsoda, V. (2003). Test adaptativos informatizados. Madrid, Espaa: UNED.
Recuperado de
https://is.gd/M94CiT
Tiana, A. y Santngelo, H. (1994). Evaluacin de la calidad de la educacin. Revista Ibe-
roamericana de Educacin, 10. VII Reunin Ordinaria de la Asamblea General de la
OEI, Octubre 1994. Buenos Aires. Recuperado de
http://www.rieoei.org/oeivirt/rie10a09.htm
Rolfhus, E. L. & Ackerman, P. L. (1999). Assessing individual differences in knowledge:
knowledge, intelligence, and related traits. Journal of Educational Psychology, 91(3),
511-526.
http://dx.doi.org/10.1037/0022-0663.91.3.511
Rodrguez-Ayn Mazza, M. N. (2007). Anlisis multivariado del desempeo acadmico de
estudiantes universitarios de qumica (Tesis doctoral, Universidad Autnoma de Madrid,
Madrid, Espaa). Recuperada de
https://repositorio.uam.es/bitstream/handle/10486/1800/5491_rodriguez_ayan.pdf
Simner, M. L. (2000). A joint position statement by the Canadian Psychological Associa-
tion and the Canadian Association of School Psychologist on the Canadian press cover-
age of the province-wide achievement test results. Canadian Journal of School
Psychology, 16(1), 1-14. Recuperado de
https://is.gd/DGrjuL

Revista de Psicologa
2016, 25(2), 1-18 17
Cupani, Ghio, Leal, Giraudo, Castro Zamparella, Piumatti, Casalotti, Ramrez, Arranz, Faraz, Padilla, & Barrionuevo

Smits, N., Mellenbergh, G. J., & Vorst, H. C. M. (2002) Alternative missing data tech-
niques to grade point average: Imputing unavailable grades. Journal of Educational
Measurement, 39(3), 187-206. Recuperado de
http://onlinelibrary.wiley.com/doi/10.1111/j.1745-3984.2002.tb01173.x/abstract
Tanaka, J. S. (1993). Multifaceted conceptions of fit in structural equation models. En K.
A. Bollen & J. S. Long (Eds.), Testing structural equation models (pp. 10-39). Newbury
Parks, California: Sage.
Tate, R. (2003). A comparison of selected empirical methods for assessing the structure of
responses to test items. Applied Psychological Measurement, 27(3), 159-203.
http://dx.doi.org/10.1177/0146621603027003001
Van der Linden, W. J. & Glas, C. A. W. (2000). Capitalization on item calibration error in
adaptive testing. Applied Measurement in Education, 13(1), 35-53.
http://dx.doi.org/10.1207/s15324818ame1301_2
Velandrino, A. (1998). Anlisis de datos en ciencias sociales. Murcia, Espaa: DM Editora.
Vlaz de Medrano Ureta, C. (2006). Presentacin. Una visin integral de las evaluaciones
del PISA (OCDE) con especial atencin a la participacin en Espaa [Edicin extraordi-
naria]. Revista de Educacin, 13-18. Recuperado de
http://www.revistaeducacion.mec.es/re2006/re2006.pdf
Volwerk J. J. & Yindal, G. (2012). Documenting student performance: An alternative to the
traditional calculation of grade point averages. Journal of College Admission, 216, 16-
23. Recuperado de
http://files.eric.ed.gov/fulltext/EJ992990.pdf
Yen, W. M. (1993). Scaling performance assessments: Strategies for managing local item
dependence. Journal of Educational Measurement, 30(3), 187-214.
http://dx.doi.org/10.1111/j.1745-3984.1993.tb00423.x
Young, F. W. & Bann, C. M. (1996). ViSta: The visual statistics system. Research Memo-
randum, 94(1), 1-13. Recuperado de
http://147.156.1.4/~prodat/ViSta/vista-frames/pdf/YoungBann.pdf

Fecha de recepcin: 20 de septiembre de 2016


Fecha de aceptacin: 2 de diciembre de 2016

Revista de Psicologa
18 2016, 25(2), 1-18

También podría gustarte