Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Evaluación y Políticas Educativas en Guatemala PDF
Evaluación y Políticas Educativas en Guatemala PDF
223-242
223
224
225
226
cohorte, pero no para compararlos contra un criterio externo (i.e., las evaluaciones eran
referidas a la norma).
Durante el perodo 1997 a 2000 se utilizaron siempre procedimientos de anlisis
similares, tanto para la muestra total como para submuestras, con el objeto de estudiar
mejor a los grupos vulnerables. Los resultados fueron consistentes entre aos (ver de
Baessa, 1997, 1998, 1999a, 1999b, 2000a, 2000b, 2001a, 2001b). Los nios obtuvieron
mejores resultados que las nias, tanto en lectura como en matemtica. Los estudiantes
con sobreedad (estudiantes que han repetido grado) tienden a obtener resultados por
debajo del promedio nacional. Los resultados del rea urbana muestran una desviacin
estndar por arriba de las reas rurales. Las poblaciones mayas mostraron resultados por
debajo de los obtenidos por los estudiantes ladinos, pero en las evaluaciones en espaol
los resultados en matemtica mostraron mayor semejanza a la tendencia nacional que
los resultados en lectura.
Debido a limitaciones financieras no hubo evaluacin en los aos 2002 y 2003.
El prstamo del Banco Mundial que financi la fundacin del programa de evaluacin
haba caducado. Sin embargo, la administracin 2004-2008 decidi establecer un sistema
de aseguramiento de la calidad que requera que los estudiantes fueran evaluados. Con
ocasin de la nueva adopcin de la evaluacin se hizo una revisin de instrumentos y
procedimientos en preparacin a la publicacin del nuevo currculo. Esta fue la primera
ocasin en la que los estudiantes inscritos en el primer grado fueron evaluados con un
instrumento que compara su rendimiento con el de un estndar de lo que se considera
aceptable (i.e., evaluaciones referidas al criterio) (Crocker & Algina, 1986).
El currculo para los niveles de primaria se public en el ao 2005. La nueva tarea
era alinear las pruebas con este currculo para que los resultados informaran acerca de
los logros en las competencias establecidas por el mismo. Para esto las pruebas deben
tener un grupo suficientemente grande de tems para representar con exactitud el rea
curricular bajo evaluacin. Se elaboraron diferentes formas de pruebas que contienen
tems comunes para poder realizar comparaciones entre ellas. El nmero de tems relacionados con cada dominio se torn muy grande para que un solo estudiante los pudiera
responder todos. Por tanto, se realiz un procedimiento de administracin en espiral.
Esto se refiere a la distribucin de ms de una forma de la evaluacin entre estudiantes,
para asegurar que todos los tems de un dominio sean respondidos, al tiempo que se
evita que un solo estudiante tenga que responder a instrumentos de demasiada extensin
(Dings, Childs & Kingston, 2002). Al procedimiento se le denomina de espiral debido
a que las versiones se entregan en orden consecutivo a estudiantes que se sientan continuo
o detrs del estudiante previo, iniciando nuevamente con la primera forma en cuanto se
ha repartido la ltima, creando as un espiral en las filas de los estudiantes.
Rev. Pensamiento Educativo, Vol. 43, 2008. pp.223-242
Evaluacin y polticas educativas en Guatemala: promoviendo una postura comn
lvaro M. Fortin Morales,Ype H. Poortinga, Fons J. R. van de Vijver
227
Bajo estas condiciones el anlisis psicomtrico clsico que se utiliz en aos anteriores es inadecuado. El anlisis clsico se basa en la frecuencia relativa de respuestas
correctas en un tem y la puntuacin de varios tems en una combinacin lineal. Las
puntuaciones totales se estiman sumando el resultado en tems individuales (Nunnally &
Bernstein, 1995). Para este tipo de anlisis es adecuado trabajar con medias y puntuaciones de consistencia interna. Esto es insuficiente cuando grupos de estudiantes diferentes
responden pruebas con diferentes tems, porque esto no permite las comparaciones entre
versiones y grupos. Dado que dichas comparaciones son importantes para modelar
programas educativos, fue necesario encontrar una metodologa alterna.
La Teora de Respuesta al tem (TRI) fue introducida para responder al problema
antes planteado. La TRI estima el patrn de respuesta de estudiantes de diferentes
niveles de habilidad, aun cuando los estudiantes no responden al mismo grupo de
tems. El supuesto es que una variable latente comn es subyacente a todos los tems.
Dicha suposicin provee un marco de referencia para comparar el desempeo de los
evaluados que han tomado pruebas diferentes o que se encuentran a niveles diferentes
de desempeo (Crocer & Algina, 1986). En Guatemala se utiliz TRI para aparear las
formas utilizadas en el ao 2006.
Tambin se busc un mtodo para detectar el nivel del logro de los estudiantes con
relacin a los logros planteados por el currculo. Los estndares educativos fueron publicados en el ao 2006 (Ministerio de Educacin de Guatemala & Programa Estndares
e Investigacin Educativa USAID, 2006). La primera fase incluy la definicin de
condiciones para la redaccin de tems y el ensamblaje de las pruebas. Despus se
asignaron niveles de desempeo con base al procedimiento Bookmark2, que se basa
en consultas de expertos. En este caso los expertos eran docentes en servicio, a quienes se les solicit que indicaran el nivel de desempeo aceptable en tems especficos
(MacCann & Gordon, 2004; Buckendahl, Smith, Impara & Plake, 2000; Kiplinger,
1997). Este procedimiento permiti establecer el punto de corte para identificar a los
estudiantes que alcanzaron el estndar.
Los hallazgos para 2006, analizados con este mtodo, fueron consistentes con
reportes previos. Las reas rurales, estudiantes femeninos y grupos indgenas obtuvieron los desempeos ms desfavorables, tanto en lectura como en matemtica (Moreno
Grajeda, Glvez-Sobral, Bedregal & Roldn, 2008). En el ao 2006 los datos tambin
fueron utilizados en un esfuerzo sistemtico por comunicar y utilizar los resultados al
nivel local. Cada escuela evaluada recibi un manual y una tabla de los resultados de
2
228
229
hasta el ao 2004. Entre los aos 2004 y 2005 un nuevo sistema se estableci en respuesta a una iniciativa nacional. En esta ocasin el margen de tiempo provisto para la
creacin de la unidad de evaluacin fue tambin de menos de un ao. Plantear un sistema adecuado en un tiempo tan corto genera grandes presiones sobre las capacidades
tcnicas, organizacionales, financieras y operativas de todos los involucrados (Ferrer
& Arregui, 2002).
Las polticas buscan resultados positivos, pero una hueste de factores adicionales
influyen para que esto se concrete o no, en particular en sociedades donde hay grandes
disparidades. La influencia de las polticas educativas en los resultados es compleja y
tambin se encuentra constreida por factores administrativos y presupuestarios. Un
resultado ptimo requiere negociacin y balance de las consideraciones tcnicas (en
este caso psicomtricas), polticas y contextuales (Haddad & Demsky, 1995). Una
comunicacin asertiva puede prevenir que los encargados de la poltica pblica tomen
decisiones que afecten negativamente la calidad psicomtrica de la evaluacin.
Para los psicometristas, la evaluacin es un medio de medir y monitorear los
resultados educativos. Sin embargo, la evaluacin tambin puede volverse parte de un
proceso poltico por varias razones secundarias. Por ejemplo, grupos de presin pueden
exigir cambios en la estructura de las evaluaciones sin consideracin a los principios
psicomtricos. Tambin son susceptibles a otras influencias, por ejemplo cuando los
administradores operan cambios en los mtodos de administracin de las evaluaciones
por razones puramente financieras. Estos son riesgos permanentes porque la evaluacin
tiene implicaciones presupuestarias, recibe atencin de los medios de comunicacin y
pueden, incluso, convertirse en tema de debate nacional.
230
ser las mismas para todas las poblaciones. Esto debido a que la equidad exige que el
sistema tome las medidas necesarias para asegurar que todos los estudiantes cuenten con
las condiciones que les permitirn llenar los estndares, siendo la evaluacin la nica
manera de detectar cundo esto se ha logrando. He all cmo la validez se ve afectada
por las posibles interpretaciones que puedan darse a los resultados.
La definicin tradicional de la validez de un instrumento es su capacidad para
medir lo que pretende medir y se ha clasificado como predictiva (o referida al criterio),
de contenido y de constructo (Crocker & Algina, 1986; Nunnally & Bernstein, 1995;
Brualdi, 1999). El modelo predictivo se basa en la correlacin entre los resultados de las
evaluaciones y un criterio externo que es reflejo de la puntuacin real del criterio. Los
estudios de validez de contenido buscan establecer el vnculo entre los procedimientos utilizados para generar las puntuaciones de criterio y la interpretacin propuesta,
tomando como referencia una muestra de desempeos de alguna rea de actividad, la
cual es un estimador de la habilidad general. El modelo basado en el constructo ha
evolucionado, pero actualmente alude a la acumulacin de evidencia para elaborar una
teora que bosqueja la supuesta naturaleza del constructo o dominio. Esta forma de
concebir la validez fue sometido a anlisis crtico durante la dcada de 1980, cuando
surgieron propuestas de un modelo unificado que tomara en cuenta las implicaciones de
dar ciertos significados a las puntuaciones. Esta nueva perspectiva enfatiza la influencia
que las interpretaciones tienen sobre las decisiones que se toman, las cuales conllevan
consecuencias sociales (Messick, 1994; Brualdi, 1999; Kane, 2006).
Esta perspectiva, la cual tiene implicaciones sociales ms amplias, ha ganado terreno, aun cuando todava hay debates al respecto (e.g., ver Reckase, 1998 and Markus,
1998). Bajo esta concepcin, la validez de constructo incluye la evidencia del constructo
y reconoce el papel de los supuestos que subyacen a la interpretacin de las puntuaciones
(Kane, 2006). Estos supuestos deben ser evaluados con base a argumentos slidos, dado
que tambin pueden ser disputados. Se utilizan, entonces, seis criterios para corroborar
la validez: (i) contenido, (ii) factores substantivos, (iii) estructura en relacin con manifestaciones conductuales inherentes al constructo, (iv) capacidad de generalizacin, (v)
sustentacin externa de la consistencia entre la observacin emprica y los significados
asignados a las puntuaciones y (vi) consecuencias que resultan de la interpretacin
propuesta (Messick, 1994). Existen dos amenazas principales a la validez de una prueba
(Brualdi, 1999). La primera es la subrepresentacin del constructo, en donde la prueba
no contiene una muestra representativa de las conductas que componen el constructo.
La segunda es la varianza por factores que no son relevantes para el constructo. Esta se
genera cuando los evaluados muestran variaciones en las puntuaciones que no pueden
ser explicadas por sus diferencias en el constructo.
Esta concepcin amplia de validez enfatiza la conexin que existe entre las polticas educativas y el desarrollo de las pruebas con las que se evala su impacto. Las
Rev. Pensamiento Educativo, Vol. 43, 2008. pp.223-242
Evaluacin y polticas educativas en Guatemala: promoviendo una postura comn
lvaro M. Fortin Morales,Ype H. Poortinga, Fons J. R. van de Vijver
231
232
233
234
235
Discusin y conclusiones
Recientemente se ha dado mucha atencin y apoyo a la evaluacin. Las demandas y expectativas de lo que se debiera lograr con ella probablemente aumentarn, potencialmente
incrementando las tensiones entre los consumidores y productores de esa informacin.
Para que la evaluacin pueda contribuir a la calidad educativa, debe ser tanto factible
como vlida. Factibilidad implica aqu que la evaluacin pueda llevarse a cabo logstica
y financieramente, al tiempo que conserva las caractersticas que la hacen relevante
(e.g., especificaciones del muestreo, procedimientos de administracin). La validez
implica que la evaluacin se basa en un argumento lgico consistente y que vincula las
herramientas y procedimientos con los dominios bajo evaluacin. No es sencillo lograr
que las evaluaciones sean tiles para los encargados de las polticas educativas.
Las polticas influirn sobre la evaluacin porque requerirn que los expertos
desarrollen tcnicas especficas para las necesidades de inters. Se presentaron varios
ejemplos en la breve historia de la evaluacin guatemalteca. Los estndares fueron
creados para responder a un nuevo currculo en el cual las competencias se convirtieron en la expresin de las metas educativas. Fue necesario desarrollar instrumentos
que tuvieran mayor representacin del dominio, requiriendo mltiples formas y administracin en distribucin en espiral. Esto condujo a adoptar anlisis basados en
TRI. Lamentablemente, la influencia de los actores claves tambin puede ser menos
constructiva. El caso de la resistencia ejercida por las escuelas privadas y su impacto
en la muestra es un ejemplo.
236
237
valores. Estas posiciones sugieren que la validacin debe verse como un argumento
que consolida evidencia e intenta contrarrestar las fuentes de invalidez (ver Kane,
2006; Messick, 1994, 1998). El investigador debiera establecer los modos y canales
para comunicar de manera clara el razonamiento que da cuerpo a la evaluacin y a
su generalizacin. Esto slo puede hacerse por medio de una perspectiva comn que
vincula la explicacin de los efectos de cierta poltica sobre objetivos concretos, con el
razonamiento que explica cmo una evaluacin especfica refleja los dominios evaluados, con la justificacin que torna las puntuaciones de esa evaluacin en indicadores,
con las posibles interpretaciones que se pueden hacer de los datos. Si no se sigue este
camino, las medidas de poltica estarn desarticuladas de sus indicadores de xito o
fracaso, los cuales provienen de la evaluacin. Bajo dicho escenario, los actores clave
locales tambin tendrn dificultades para vincularse a la poltica nacional. Es necesario
asegurar la consistencia de perspectivas en la poltica, evaluacin y acciones locales.
Estas ideas y temas no son nuevos y pueden parecer autoevidentes. Sin embargo,
recalcarlos est en orden. No es inusual en muchos pases latinoamericanos encontrar
una falta de continuidad y consistencia entre los esfuerzos de poltica y los tcnicos. La
continuidad no puede definirse slo como la adopcin de declaraciones de polticas que
sintcticamente son similares y trascienden una gestin en particular. La continuidad est
dada por la conservacin consistente del razonamiento y argumentacin que sustentan
a las polticas educativas, las estrategias de evaluacin de su logro y la implementacin
local. En ningn otro lugar es esto ms relevante que en el sector educativo, en donde
el xito se basa en procesos que consumen tiempo y demandan esfuerzos consistentes
y sistemticos.
Bibliografa
lvarez, H. & Schiefelbein, E. (2007, diciembre). Informe integrado del sector educacin: Informe final. (Reporte financiado por el Banco Interamericano de Desarrollo
y la Agencia Sueca para el Desarrollo Internacional como insumos para la estrategia
en Armonizacin y Alineacin de Polticas). Guatemala: Ministerio de Educacin
(BID/MINEDUC / ASDI).
Antilln Milla, J. (1997). La educacin. En Asociacin Amigos del Pas (Ed.) Historia
General de Guatemala: Vol. VI. poca contempornea, de 1945 a la actualidad
(pp.591-612). Guatemala: Asociacin de Amigos del Pas, Fundacin para la Cultura
y el Desarrollo.
Beckett, M. & Pebley, A. R. (2003). Ethnicity, language, and economic well-being in rural
Guatemala. Rural sociology, 68, 3, 434-458.
Brualdi, A. (1999). Traditional and modern concepts of validity (Research Report No. RR94-95). Washington, DC: ERIC Clearinghouse on Assessment and Evaluation. (ERIC
Document Reproduction Service NED435714).
238
Buckendahl, Ch. W.; Smith, R. W.; Impara, J. C. & Plake, B. S. (2000, October). A comparison of the Angoff and Bookmark standard setting methods. Paper presented at the
annual meeting of the Mid-Western Educational Research Association in Chicago, IL.
CCRE (Comisin Consultiva para la Reforma Educativa. (1996). Diseo de reforma educativa. Guatemala: Ministerio de Educacin.
Chesterfield, R.; Rubio, F. E.; Vsquez, R. (2003, April). Study of bilingual education
graduates in Guatemala. Guatemala: Jurez & Associates, Inc., MEDIR Project.
(Prepared under task order to the Improving of Educational Quality II, Project # 5365858, USAID/G-CAP).
Crocker, L. & Algina, J. (1986). Introduction to classical & modern test theory. Orlando,
FL: Harcourt Jovanovich College Publishers.
de Baessa, Y. (1997). Resultados del Programa Nacional de Evaluacin del Rendimiento
Escolar: 1997. (Reporte de la Universidad del Valle de Guatemala de la evaluacin
del ao 1997 bajo contrato con el Ministerio de Educacin de Guatemala) Guatemala:
Universidad del Valle de Guatemala / Ministerio de Educacin.
de Baessa, Y. (1998). Informe de Resultados del Programa Nacional de Evaluacin del
Rendimiento Escolar de 1998. (Reporte de la Universidad del Valle de Guatemala de la
evaluacin del ao 1998 bajo contrato con el Ministerio de Educacin de Guatemala)
Guatemala: Universidad del Valle de Guatemala / Ministerio de Educacin.
de Baessa, Y. (1999a). Informe de Resultados del Programa Nacional de Evaluacin del
Rendimiento Escolar: 1999. (Reporte de la Universidad del Valle de Guatemala de la
evaluacin del ao 1999 bajo contrato con el Ministerio de Educacin de Guatemala)
Guatemala: Universidad del Valle de Guatemala / Ministerio de Educacin.
de Baessa, Y. (1999b). Informe sobre los Resultados de la Aplicacin de Pruebas en
Idiomas Mayas en Tercer Grado Primaria: 1999. (Reporte de la Universidad del
Valle de Guatemala de la evaluacin del ao 1999 bajo contrato con el Ministerio de
Educacin de Guatemala) Guatemala: Universidad del Valle de Guatemala / Ministerio
de Educacin.
de Baessa, Y. (2000a). Informe de Resultados del Programa Nacional de Evaluacin del
Rendimiento Escolar: Ao 2000. (Reporte de la Universidad del Valle de Guatemala de
la evaluacin del ao 2000 bajo contrato con el Ministerio de Educacin de Guatemala)
Guatemala: Universidad del Valle de Guatemala / Ministerio de Educacin.
de Baessa, Y. (2000b). Informe sobre los Resultados de la Aplicacin de Pruebas en Idiomas
Mayas en Tercer Grado Primaria: Diciembre 2000. (Reporte de la Universidad del
Valle de Guatemala de la evaluacin del ao 2000 bajo contrato con el Ministerio de
Educacin de Guatemala) Guatemala: Universidad del Valle de Guatemala / Ministerio
de Educacin.
de Baessa, Y. (2001a). Informe de Resultados del Programa Nacional de Evaluacin del
Rendimiento Escolar: Ao 2001 (Reporte de la Universidad del Valle de Guatemala de
la evaluacin del ao 2001 bajo contrato con el Ministerio de Educacin de Guatemala)
Guatemala: Universidad del Valle de Guatemala / Ministerio de Educacin.
Rev. Pensamiento Educativo, Vol. 43, 2008. pp.223-242
Evaluacin y polticas educativas en Guatemala: promoviendo una postura comn
lvaro M. Fortin Morales,Ype H. Poortinga, Fons J. R. van de Vijver
239
240
241
Ravela, P.; Wolfe, R.; Valverde, G. & Esquivel, J. M. (2006). Los prximos pasos: Cmo
avanzar en la evaluacin de aprendizajes en Amrica Latina? In P. Arregui (Ed.), Sobre
estndares y evaluaciones en Amrica Latina (pp. 52-121).
Reckase, M. D. (1998). The interaction of values and validity assessment: Does a tests level
of validity depend on a researchers values? Social Indicators Research, 45, 45-54.
Reimers, F. & McGinn, N. (1997). Informed dialogue: Using research to shape education
policy around the world. CT: Praeger.
Richards, M. (2003). Atlas lingstico de Guatemala. Guatemala: SEPAZ, UVG, URL,
USAID.
United Nations Development Programme (2006). Human development report 2006;
Beyond scarcity: Power, poverty and the global water crisis. New York: United Nations
Development Programme.
Van de Vijver, F. and Leung, K. (1997). Methods and data analysis of comparative research.
In J.W. Berry, Y.H. Poortinga, and J. Pandey (Eds.). Handbook of cross-cultural psychology, volume 1: Theory and method (2nd ed.). Boston: Allyn and Bacon.
Van de Vijver, F. J. R. & Poortinga, I. (2005). Conceptual and methodological issues
in adapting tests. In R. K. Hambleton, P. F. Merenda & Ch. D. Spielberger (Eds.),
Adapting educational and psychological tests for cross-cultural assessment (pp. 3963). Mahwah, NJ: Lawrence Erlbaum Associates, Publishers.
Van de Vijver, F. & Tanzer, N. K. (2004). Bias and equivalence in cross-cultural assessment:
An overview. Revue Europenne de Psychologie Applique, 54, 119-135.
Wolff, L. (2006). Las evaluaciones educacionales en Amrica Latina: Avance actual y
futuros desafos. En P. Arregui (Ed.), Sobre estndares y evaluaciones en Amrica
Latina (pp. 13-52).
World factbook. (2007). USA: CIA. Retrieved May 27, 2008, from https://www.cia.gov/
library/publications/the-world-factbook
Fecha de Recepcin: 5 de octubre de 2008
242