Está en la página 1de 41

ESCUELA NORMAL DE LICENCIATURA EN EDUCACIÓN

PREESCOLAR Y PRIMARIA DEL ESTADO TONALÁ

CLAVE:
07ENL0009O

CURSO

EVALUACIÓN PARA EL APRENDIZAJE

PRESENTAN LOS ALUMNOS (AS):


 JESSICA GUADALUPE AGUILAR OCAMPO
 JOSE LEYDER ALVAREZ DE LA CRUZ
 FRANCISCO JAVIER CABRERA CASTILLEJOS
 EMBER HIMANOL CASTAÑEDA VELAZQUEZ
 JOCSAN ALFREDO CORDOVA PEÑA
 MARIA LEYDI DE LOS SANTOS HERNANDEZ
 NANCY CHELY ESCOBAR RAMOS
 KEVIN ISMAEL ESCOBAR CRUZ
 MARCOS ALEJANDRO FARRERA NATAREN
 ALINA DEL ROSARIO GONGORA ORDAZ
 TANIA PAULINA GUTIERREZ OLVERA
DEL CUARTO SEMESTRE
DOCENTE:

HÉCTOR PINEDA PÉREZ

TONALÁ, CHIAPAS. 22 FEBRERO DE 2018.


UNIDAD 1
 Foucaul,m(1977). el examen en :vigilar y castigar ( pp.189-198). mexico : siglo xxi
editores

 Escudero t.(2003. desde los tests hasta la investigacion evalutiva actual . un siglo, el siglo, el
xx, de inteso dessarrollo de la evaluacion en la educacion revista electronica relieve 9 (1) 11-
43
 Santos m, a, (1988, patologia general de la evaluacion educacativa , infancia y aprendizaje
41,143-158
Unidad de aprendizaje I.
¿Evaluar el aprendizaje
para normalizar o para
desarrollar potencial en
los estudiantes?
Dimensión histórica y
sociocultural del
aprendizaje escolar.

Propósito:
Analizar los referentes y experiencias
de vida de los participantes del curso
sobre la evaluación.
VIGILAR Y CASTIGAR POR: MICHEL FOUCAUL.
Vigilar y castigar. Nacimiento de la prisión (en francés, Surveiller et Punir: Naissance
de la prison) es un libro del filósofo e historiador francés Michel Foucault, publicado
originalmente en 1975. Es un examen de los mecanismos sociales y teóricos que hay
detrás de los cambios masivos que se produjeron en los sistemas
penales occidentales durante la era moderna.

Vigilar y castigar está dividido en cuatro partes: Suplicio, Castigo, Disciplina y Prisión.

Según Foucault, desde la Edad Media el suplicio era un riguroso modelo de


demostración penal, cuyo objetivo era el de manifestar la verdad que se había obtenido
gracias al resto del proceso penal, y que hacía del culpable el pregonero de su propia
condena al llevar el castigo físicamente sobre su propio cuerpo (paseo por las calles,
cartel, lectura de la sentencia en los cruces...). Además, el suplicio también consistía
en un ritual político, ya que en el derecho de la edad clásica el crimen suponía sobre
todo un ataque al soberano, que era aquel del que emanaba la ley. Por tanto,
la pena no sólo debía reparar el daño que se había cometido, sino que suponía
también una venganza a la ofensa que se había hecho al rey.

Sin embargo, entre los siglos XVII y XIX comienzan a desaparecer los suplicios,
debido básicamente a dos procesos:

La desaparición del espectáculo punitivo. Los días de ejecución y de suplicio eran


momentos propicios para que se cometieran desórdenes entre el público. Además,
con frecuencia el condenado llegaba a convertirse en objeto de admiración. A partir
del siglo XIX, el castigo pasa a ser la parte más oculta del proceso penal.

El relajamiento de la acción sobre el cuerpo del delincuente. Aunque las nuevas


penas (trabajos forzados, prisión...) también son “físicas”, el cuerpo se toma en ellas
como un medio para privar al delincuente de la libertad. El objeto de la operación
punitiva deja de ser fundamentalmente el cuerpo y pasa a ser el alma. Deja de juzgarse
simplemente un hecho delictivo para pasar a juzgarse toda una serie de pasiones,
instintos, anomalías, inadaptaciones, etc. con las que se califica a los individuos, los
“delincuentes”, «no ya sobre lo que han hecho, sino sobre lo que son, serán y pueden
ser».1 Esto, además, supondrá la aparición de toda una serie de expertos
(psiquiatras, educadores, funcionarios...) alrededor del castigo.

Castigo.
A partir de la segunda mitad del siglo XVIII aparecen numerosas protestas en contra
de los suplicios, que se consideran tanto vergonzosos como peligrosos. Estas críticas
se basan sobre todo en el concepto de “humanidad” como algo que se debe respetar
incluso en el peor de los asesinos. Sin embargo, según Foucault, estas críticas
esconden algo más profundo: la búsqueda de una nueva “economía del castigo”.

Los cambios sociales del siglo XVIII, y fundamentalmente el aumento de la riqueza,


suponen una disminución de los crímenes de sangre y un aumento de los delitos contra
la propiedad. En este contexto, la burguesía emergente siente la necesidad de un
ejercicio más escrupuloso de la justicia, que castigue toda pequeña delincuencia que
antes dejaba escapar y para la que el suplicio resulta totalmente desmedido. Por lo
tanto, lo que piden los reformadores a lo largo de todo el siglo XVIII es «castigar con
una severidad atenuada, quizá, pero para castigar con más universalidad y
necesidad».

En este contexto, se considera que el delito ataca a la sociedad entera, que tiene el
derecho de defenderse de él y de castigarlo. El castigo ya no puede concebirse como
una venganza, sino que se justifica a partir de la defensa de la sociedad y de su utilidad
para el cuerpo social (aparece, así, la importancia de la prevención del delito). Este
nuevo poder de castigar se basa en seis reglas básicas:

 Regla de la cantidad mínima: Se comete un crimen porque se espera


obtener ventajas. Por tanto, el castigo tiene que superar, pero sólo un poco,
esas ventajas.
 Regla de la idealidad suficiente: La eficacia de la pena descansa en la
desventaja que se espera de ella. Por tanto, el castigo tiene que basarse,
sobre todo, en la representación que el posible delincuente hace de él.

 Regla de los efectos laterales: Los efectos más intensos no se deben


producir en el culpable, sino en los que pudieran llegar a serlo.

 Regla de la certidumbre absoluta: Debe tenerse una seguridad de que el


delito va a ser castigado y no quedar impune. Por tanto, el aparato de justicia
debe ir unido a un órgano de vigilancia: la policía y la justicia deben ir juntas.

 Regla de la verdad común: Siguiendo las reglas del método científico, la


investigación abandona el antiguo modelo inquisitorial para adoptar el de
la investigación empírica.

 Regla de la especificidad óptima: Es necesario que todas las infracciones


estén especificadas. Además, debe haber una individualización de las
penas, para que se acomoden a las características de cada delincuente, que
se percibe como un individuo al que es necesario conocer. Aquí tendrán
acomodo las ciencias humanas y sociales aplicadas a la penalidad.

Las nuevas penas que se buscan para desarrollar esta nueva tecnología del
castigo tienen que cumplir varias condiciones:

 Deben ser lo menos arbitrarias posible: el vínculo entre delito y castigo debe ser
inmediato.
 Hay que basarse en los intereses del posible delincuente: si el interés es la
fuerza que mueve al delito, hay que utilizar esa misma fuerza para evitarlo.
 Es necesaria una modulación temporal: Una pena definitiva supondría que
el trabajo que se invierte en el delincuente sería desaprovechado, pues el
delincuente regenerado no volvería a la sociedad
 El castigo afecta sobre todo a los posibles delincuentes; el culpable no es
más que uno de sus blancos. Además, los castigos pueden ser considerados
como una retribución que el culpable da a cada uno de sus conciudadanos
por el crimen que los ha perjudicado a todos.
 El castigo público debe ser como un libro de lectura, en donde puedan leerse
las propias leyes; los castigos deben ser una escuela y no una fiesta.
 Hay que acabar con la gloria ambigua de los criminales, como la que
aparecía en los romances populares.

Disciplina
En esta tercera parte, Foucault pasa a hacer un análisis de los cambios aparecidos en
instituciones como hospitales, cuarteles, escuelas, etc., con el fin de relacionar las
nuevas formas de control de los individuos que aparecen en estos escenarios con el
análisis de la economía del castigo.

Las disciplinas

A partir del siglo XVIII hay un descubrimiento de técnicas que permiten un control
minucioso del cuerpo y le imponen docilidad y que se recogen en reglamentos
militares, escolares y hospitalarios. Foucault denomina a estas técnicas “disciplinas”.

Vigilancia jerárquica: La vigilancia debe ser una mirada que vea sin ser vista. Por
ejemplo, empezarán a construirse edificios que no estén hechos para ser vistos
(palacios) ni para ver el exterior (fortalezas), sino para permitir un control interior. De
esta forma se van constituyendo el hospital-edificio (como instrumento de la acción
médica), la escuela-edificio (como máquina-pedagógica), etc.

Castigo disciplinario:

 En todos los sistemas disciplinarios funciona algún tipo de mecanismo penal: sus
propias leyes, sus castigos especificados, sus normas de sanción...
 Lo que la disciplina castiga realmente son las desviaciones. Los castigos
disciplinarios están para hacer respetar un orden artificial (un reglamento), pero
también un orden “natural”, definido por unos procesos naturales y observables,
como la duración de un aprendizaje o el nivel de aptitud alcanzado.
 Dado que el castigo disciplinario tiene por función reducir las desviaciones, debe
ser fundamentalmente correctivo.
 Todas las conductas y las cualidades se califican a partir de los dos polos del bien
y el mal, y sobre ello se puede establecer una cuantificación que permite obtener
un balance. De esta forma, lo que se califica ya no son las acciones, sino a los
individuos mismos.
 Esta contabilidad de premios y sanciones permite establecer con exactitud el rango
de cada uno, de modo que la disciplina es capaz de premiar simplemente
concediendo ascensos y de castigar degradando.
 Por tanto, el castigo del poder disciplinario no tiende a la expiación, sino a la
normalización.

Examen: El examen «es una mirada normalizadora, una vigilancia que permite
calificar, clasificar y castigar».3 El examen, que va a ser absolutamente esencial en
la constitución de las ciencias humanas y sociales, se basa en los siguientes
mecanismos:

 Tradicionalmente, el poder es lo que se ve, y aquello sobre lo que se ejerce


permanece en la sombra. Sin embargo, el poder disciplinario se ejerce haciéndose
invisible, y en cambio ejerce sobre quienes se ejerce una visibilidad obligatoria.
 El examen va acompañado de un sistema de registro y de acumulación
documental. De esta forma, el individuo se constituye en objeto descriptible,
analizable, que se estudia en sus rasgos particulares y en su evolución individual;
y por otra parte se constituye un sistema comparativo que permite el estudio de
fenómenos globales y la descripción de grupos.
 El examen hace de cada individuo un “caso”. Antes, el ser descrito y seguido
detalladamente era un privilegio; con el examen, en cambio se hace de esta
descripción detallada un medio de control y dominación.
Todo esto supone una construcción distinta de la individualización. En el Antiguo
Régimen, cuanto mayor poderío se tiene más marcado se está como individuo
(mediante rituales, representaciones...). En cambio, en un régimen disciplinario el
poder se vuelve más anónimo y funcional y por el contrario se individualiza más a
aquellos sobre los que el poder se ejerce con más fuerza. Es precisamente el que se
sale de la norma (el niño, el enfermo, el loco, el condenado) el que se describe y
registra más rigurosamente.

Panoptismo.

Según Foucault, los principios anteriores se materializan en el panóptico que Jeremy


Bentham diseñó como edificio perfecto para ejercer la vigilancia. El efecto más
importante del panóptico es inducir en el detenido un estado consciente y permanente
de visibilidad que garantiza el funcionamiento automático del poder, sin que ese poder
se esté ejerciendo de manera efectiva en cada momento, puesto que el prisionero no
puede saber cuándo se le vigila y cuándo no. El panóptico sirve también
como laboratorio de técnicas para modificar la conducta o reeducar a los individuos,
por lo que no sólo es un aparato de poder, sino también de saber.

El panóptico permite perfeccionar el ejercicio del poder, ya que permite reducir el


número de los que lo ejercen y multiplicar el de aquellos sobre los que se ejerce.
Además, permite actuar incluso antes de que las faltas se cometan, previniéndolas.
Sin otro instrumento que la arquitectura, actúa directamente sobre los individuos.

De esta manera aparece una “sociedad disciplinaria” debido a la extensión de


las instituciones disciplinarias:

 Anteriormente se pedía a la disciplinas sobre todo que ejercieran un papel de


neutralización del peligro para la sociedad o para el soberano. Ahora, en cambio,
lo que se pide de ellas es aumentar la utilidad de los individuos. Por eso tienden
a implantarse en los sectores más centrales y productivos de la sociedad.
 Los mecanismos disciplinarios tienden a salir de los ámbitos concretos en los que
funcionaban para aparecer en todo el entramado social. Además, las instituciones
dejan de ejercer una vigilancia únicamente interna y comienzan a ejercer un
control también sobre el exterior (los hospitales ejercen la vigilancia de la salud
general de la población, por ejemplo).
 Hay una tendencia a la nacionalización de los mecanismos de disciplina. Para
ejercerse, el poder debe apropiarse de instrumentos de vigilancia permanente,
exhaustiva, omnipresente.

Por tanto, como señala Foucault, «la “disciplina” no puede identificarse ni con una
institución ni con un aparato. Es un tipo de poder y una modalidad para ejercerlo».4

Prisión

Aunque la prisión no era algo nuevo, en el paso del siglo XVIII al XIX comienza a
imponerse como castigo universal debido a que presenta ciertas ventajas respecto a
las anteriores formas de pena:

 En una sociedad en la que la libertad es el bien por excelencia, su privación


también aparece como un mal para todos, por lo que aparece como un castigo
“igualitario”.
 La prisión permite cuantificar exactamente la pena mediante la variable de tiempo.
 La prisión asume un papel de aparato para transformar los individuos y para ello
reproduce, acentuados, todos los mecanismos disciplinarios que aparecen en la
sociedad.

Los principios fundamentales sobre los que se asienta la prisión para poder
ejercer una educación total sobre el individuo son los siguientes:

El aislamiento del condenado, que garantiza que el poder se ejercerá sobre él


con la máxima intensidad, ya que no podrá ser contrarrestado por ninguna otra
influencia.

El trabajo, que está definido como un agente de la transformación penitenciaria.


No es la producción en sí lo que se considera intrínsecamente útil, sino los efectos
que ejerce sobre el penado, que se ha de transformar en un individuo que sigue
las normas generales de la sociedad industrial.
La modulación de la pena, que permite cuantificar exactamente las penas y
graduarlas según las circunstancias. Además, la duración de la pena debe
ajustarse a la transformación del recluso a lo largo de dicha pena. Ahora bien, esto
implica que tiene que haber una autonomía del personal que administra la pena: el
director de la prisión, el capellán, y más adelante psicólogos o asistentes sociales.
Es su juicio, en un sentido de diagnóstico científico, el que debe llevar a la
modulación o incluso suspensión de la pena.

De esta manera aparece dentro de la prisión un modelo técnico-médico de la curación


y de la normalización. La prisión se convierte fundamentalmente en una máquina de
modificar el alma de los individuos. Lo penal y lo psiquiátrico se entremezclan. La
delincuencia se va a considerar como una desviación patológica que puede analizarse
como otro tipo de enfermedades. A partir de aquí puede establecerse el conocimiento
“científico” de los criminales: aparece la criminología como ciencia. Así, la prisión se
convierte en una especie de observatorio permanente de la conducta: en un aparato
de saber.

Foucault señala que la crítica a la prisión comienza ya a principios del siglo XIX, y
utiliza los mismos argumentos que podemos encontrarnos hoy en día: las prisiones no
disminuyen la tasa de la criminalidad, la detención provoca la reincidencia e incluso
fabrica delincuentes, los ex-presos van a tener mucha dificultad para que la sociedad
los acepte, la prisión hace caer en la miseria a la familia del detenido… Ahora bien, a
pesar de estas críticas, la prisión se ha seguido defendiendo como el mejor
instrumento de pena siempre que se mantengan ciertos principios (que ya aparecían
a mediados del siglo XVIII):

Principio de la corrección: La detención penal debe tener como función esencial


la transformación del comportamiento del individuo.

Principio de la clasificación: Los detenidos deben estar repartidos según criterios


como su edad, sus disposiciones, las técnicas de corrección que se van a utilizar
con ellos y las fases de su transformación.
Principio de la modulación de las penas: El desarrollo de las penas debe poder
modificarse de acuerdo con la individualidad de los detenidos.

Principio del trabajo como obligación y como derecho: El trabajo debe ser uno
de los elementos esenciales de la transformación y de la socialización progresiva
del detenido.

Principio de la educación penitenciaria: La educación del detenido es una


precaución en interés de la sociedad a la vez que una obligación frente al detenido.

Principio del control técnico de la detención: El régimen de la prisión debe ser


controlado por un personal especializado que posea la capacidad moral y técnica
para velar por la buena formación de los individuos.

Principio de las instituciones anejas: La prisión debe ir seguida de medidas de


control y de asistencia hasta la readaptación definitiva del antiguo detenido.

Según Foucault, progresivamente las técnicas de la institución penal se


transportan al cuerpo social entero, lo que tiene varios efectos importantes:

 Se produce una gradación continua entre el desorden, la infracción y la desviación


respecto de la regla. En realidad, la desviación y la anomalía (que lleva consigo el
desorden, el crimen, la locura) obsesionan a las distintas instituciones (escuela,
hospital, prisión...).
 Aparecen una serie de canales a través de los cuales se recluta a los
“delincuentes”, que con frecuencia pasan a lo largo de sus vidas por las
instituciones que están destinadas precisamente a prevenir y evitar el delito:
reformatorios, instituciones de asistencia, cárceles...

 En la gradación continua de los aparatos de disciplina, la prisión no supone más


que un grado suplementario en la intensidad del mecanismo que actúa ya desde
las primeras sanciones. «En su función, este poder de castigar no es esencialmente
diferente del de curar o el de educar».5
 En todas partes nos encontramos jueces de la normalidad: el profesor-juez, el
médico-juez, el trabajador social-juez...
 El tejido carcelario de la sociedad es a la vez el instrumento para la formación del
saber que el poder necesita. Las ciencias humanas han sido posibles porque se
acomodaban a esta forma específica de poder.
DESDE LOS TESTS HASTA LA INVESTIGACIÓN EVALUATIVA
ACTUAL. UN SIGLO, EL XX, DE INTENSO DESARROLLO DE LA
EVALUACIÓN EN EDUCACIÓN.

Autor: Tomás Escudero Escorza.


Precedentes: Antes de los «tests» y de la medición
Desde la antigüedad se han venido creando y usando procedimientos instructivos en
los que los profesores utilizaban referentes implícitos, sin una teoría explícita de
evaluación, para valorar y, sobre todo, diferenciar y seleccionar a estudiantes. Dubois
(1970) y Coffman (1971) citan los procedimientos que se empleaban en la China
imperial, hace más de tres mil años, para seleccionar a los altos funcionarios. Otros
autores como Sundbery (1977) hablan de pasajes evaluadores en la Biblia, mientras
Blanco (1994) se refiere a los exámenes de los profesores griegos y romanos. Pero
según McReynold (1975), el tratado más importante de evaluación de la antigüedad
es el Tetrabiblos, que se atribuye a Ptolomeo. También Cicerón y San Agustín
introducen en sus escritos conceptos y planteamientos evaluadores.
En la Edad Media se introducen los exámenes en los medios universitarios con
carácter más formal. Hay que recordar los famosos exámenes orales públicos en
presencia de tribunal, aunque sólo llegaban a los mismos los que contaban con el visto
bueno de sus profesores, con lo que la posibilidad de fracaso era prácticamente
inexistente. En el Renacimiento se siguen utilizando procedimientos selectivos y
Huarte de San Juan, en su Examen de ingenios para las ciencias, defiende la
observación como procedimiento básico de la evaluación (Rodríguez y otros, 1995).
En el siglo XVIII, a medida que aumenta la demanda y el acceso a la educación, se
acentúa la necesidad de comprobación de los méritos individuales y las instituciones
educativas van elaborando e introduciendo normas sobre la utilización de exámenes
escritos (Gil, 1992).
Entrado el siglo XIX se establecen los sistemas nacionales de educación y aparecen
los diplomas de graduación, tras la superación de exámenes (exámenes del Estado).
Según Max Weber (Barbier, 1993), surge un sistema de exámenes de comprobación
de una preparación específica, para satisfacer las necesidades de una nueva sociedad
jerárquica y burocratizada. En los Estados Unidos, en 1845, Horace Mann comienza a
utilizar las primeras técnicas evaluativas del tipo «tests» escritos, que se extienden a
las escuelas de Boston, y que inician el camino hacia referentes más objetivos y
explícitos con relación a determinadas destrezas lecto-escritoras. Sin embargo, no se
trata todavía de una evaluación sustentada en un enfoque teórico, sino más bien, algo
que responde a prácticas en buena medida rutinarias y con frecuencia basadas en
instrumentos poco fiables.
Al final del siglo XIX, en 1897, aparece un trabajo de J. M. Rice, que se suele señalar
como la primera investigación evaluativa en educación (Mateo y otros, 1993). Se
trataba de un análisis comparativo en escuelas americanas sobre el valor de la
instrucción en el estudio de la ortografía, utilizando como criterio las puntuaciones
obtenidas en los tests.
Los tests psicométricos.
En el contexto anterior, a finales del siglo XIX, se despierta un gran interés por la
medición científica de las conductas humanas. Esto es algo que se enmarca en el
movimiento renovador de la metodología de las ciencias humanas, al asumir el
positivismo de las ciencias físico-naturales. En este sentido, la evaluación recibe las
mismas influencias que otras disciplinas pedagógicas relacionadas con procesos de
medición, como la pedagogía experimental y la diferencial (Cabrera, 1986).
La actividad evaluativa se verá condicionada de forma decisiva por diversos factores
que confluyen en dicho momento, tales como:
a) El florecimiento de las corrientes filosóficas positivistas y empíricas, que
apoyaban a la observación, la experimentación, los datos y los hechos como fuentes
del conocimiento verdadero. Aparece la exigencia del rigor científico y de la objetividad
en la medida de la conducta humana (Planchard, 1960) y se potencian las pruebas
escritas como medio para combatir la subjetividad de los exámenes orales (Ahman y
Cook, 1967).
b) La influencia de las teorías evolucionistas y los trabajos de Darwin, Galton y
Cattel, apoyando la medición de las características de los individuos y las diferencias
entre ellos.
c) El desarrollo de los métodos estadísticos que favorecía decisivamente la
orientación métrica de la época (Nunnally, 1978).
d) El desarrollo de la sociedad industrial que potenciaba la necesidad de encontrar
unos mecanismos de acreditación y selección de alumnos, según sus conocimientos.
Consecuentemente con este estado de cosas, en este periodo entre finales del siglo
XIX y principios del XX, se desarrolla una actividad evaluativa intensa conocida como
«testing», que se define por características como las siguientes:
• Medición y evaluación resultaban términos intercambiables. En la práctica sólo
se hablaba de medición.
• El objetivo era detectar y establecer dife-rencias individuales, dentro del modelo
del rasgo y atributo que caracterizaba las elaboraciones psicológicas de la época
(Fernández Ballesteros, 1981), es decir, el hallazgo de puntuaciones diferenciales,
para determinar la posición relativa del sujeto dentro de la norma grupal.
• Los tests de rendimiento, sinónimo de eva-luación educativa, se elaboraban
para establecer discriminaciones individuales, olvidándose en gran medida la
representatividad y congruencia con los objetivos educativos. En palabras de Guba y
Lincoln (1982), la evaluación y la medida tenían poca relación con los programas
escolares. Los tests informaban algo sobre los alumnos, pero no de los programas con
los que se les había formado.
En el campo educativo destacan algunos instrumentos de aquella época, como las
escalas de escritura de Ayres y Freeman, de redacción de Hillegas, de ortografía de
Buckingan, de cálculo de Wood, de lectura de Thorndike y McCall y de aritmética de
Wood y McCall (Planchard, 1960; Ahman y Cook, 1967; Ebel, 1977).
Sin embargo, fue en los tests psicológicos donde los esfuerzos tuvieron mayor
impacto, siendo probablemente la obra de Thorndike (1904) la de mayor influencia en
los comienzos del siglo XX. En Francia destacan los trabajos de Alfred Binet, después
revisados por Terman en la Universidad de Stanford, sobre tests de capacidades
cognitivas. Ahora hablamos del Stanford-Binet, uno de los tests más conocidos en la
historia de la psicometría.
Años más tarde, con las necesidades de reclutamiento en la Primera Guerra Mundial,
Arthur Otis dirige un equipo que construye tests colectivos de inteligencia general (Alfa
para lectoescritores y Beta para analfabetos) e inventarios de personalidad (Phillips,
1974).
Tras la contienda, los tests psicológicos se ponen al servicio de fines sociales. La
década entre 1920 y 1930 marca el punto más alto del «testing», pues se idean
multitud de tests estandarizados para medir toda clase de destrezas escolares con
referentes objetivos externos y explícitos, basados en procedimientos de medida de la
inteligencia, para utilizar con grandes colectivos de estudiantes.
Estas aplicaciones estandarizadas se acogen muy bien en los ámbitos educativos y
McCall (1920) propone que los profesores construyan sus propias pruebas objetivas,
para no tener que confiar exclusivamente en las propuestas por especialistas externos.
Este movimiento estuvo vigente en paralelo al proceso de perfeccionamiento de los
tests psicológicos con el desarrollo de la estadística y del análisis factorial. El fervor
por el «testing» decreció a partir de los años cuarenta e, incluso, empezaron a surgir
algunos movimientos hipercríticos con estas prácticas.
Guba y Lincoln (1989) se refieren a esta evaluación como a la primera generación, que
puede legítimamente ser denominada como la generación de la medida. El papel del
evaluador era técnico, como proveedor de instrumentos de medición. Según estos
autores, esta primera generación permanece todavía viva, pues todavía existen textos
y publicaciones que utilizan de manera indisoluble evaluación y medida (Gronlund,
1985).

El nacimiento de la verdadera evaluación educativa: La gran reforma «tyleriana»

Antes de que llegara la revolución promovida por Ralph W. Tyler, en Francia se inicia
en los años veinte una corriente independiente conocida como docimología (Pieron,
1968 y 1969; Bonboir, 1972), que supone un primer acercamiento a la verdadera
evaluación educativa. Se criticaba, sobre todo, el divorcio entre lo enseñado y las
metas de la instrucción. La evaluación se dejaba, en último término, en manos de una
interpretación totalmente personal del profesor. Como solución se proponía: a)
elaboración de taxonomías para formular objetivos, b) diversificación de fuentes de
información, exámenes, expedientes académicos, técnicas de repesca y tests, c)
unificación de criterios de corrección a partir del acuerdo entre los correctores de las
pruebas y d) revisión de los juicios de valoración mediante procedimientos tales como
la doble corrección, o la media de distintos correctores. Como puede verse, se trata de
criterios en buena medida vigentes actualmente y, en algún caso, incluso avanzados.
Pero quien es tradicionalmente considerado como el padre de la evaluación educativa
es Tyler (Joint Committee, 1981), por ser el primero en dar una visión metódica de la
misma, superando desde el conductismo, muy en boga en el momento, la mera
evaluación psicológica. Entre 1932 y 1940, en su famoso Eight-Year Study of
Secondary Education para la Progressive Education Association, publicado dos años
después (Smith y Tyler, 1942), plantea la necesidad de una evaluación científica que
sirva para perfeccionar la calidad de la educación. La obra de síntesis la publica unos
años después (Tyler, 1950), exponiendo de manera clara su idea de «curriculum», e
integrando en él su método sistemático de evaluación educativa, como el proceso
surgido para determinar en qué medida han sido alcanzados los objetivos previamente
establecidos (véase también Tyler, 1967 y 1969).
El «currículum» viene delimitado por las cuatro cuestiones siguientes:
a) ¿Qué objetivos se desean conseguir?
b) ¿Con qué actividades se pueden alcanzar?
c) ¿Cómo pueden organizarse eficazmente estas experiencias?
d) ¿Cómo se puede comprobar si se alcanzan los objetivos?
Y la buena evaluación precisa de las siguientes condiciones:
a) Propuesta clara de objetivos.
b) Determinación de las situaciones en las que se deben manifestar las conductas
esperadas.
c) Elección de instrumentos apropiados de evaluación.
d) Interpretación de los resultados de las pruebas.
e) Determinación de la fiabilidad y objetividad de las medidas.
Esta evaluación ya no es una simple medición, porque supone un juicio de valor sobre
la información recogida. Se alude, aunque sin desarrollar, a la toma de decisiones
sobre los aciertos o fracasos de la programación, en función de los resultados de los
alumnos, algo que retomarán otros importantes evaluadores como Cronbach y
Sufflebeam unos años después.
Para Tyler, la referencia central en la evaluación son los objetivos preestablecidos, que
deben ser cuidadosamente definidos en términos de conducta (Mager, 1962), teniendo
en cuenta que deben marcar el desarrollo individual del alumno, pero dentro de un
proceso socializador.
El objeto del proceso evaluativo es determinar el cambio ocurrido en los alumnos, pero
su función es más amplia que el hacer explícito este cambio a los propios alumnos,
padres y profesores; es también un medio para informar sobre la eficacia del programa
educacional y también de educación continua del profesor. Se trata, según Guba y
Lincoln (1989), de la segunda generación de la evaluación. Desgraciadamente, esta
visión evaluativa global no fue suficientemente apreciada, ni explotada, por aquellos
que utilizaron sus trabajos (Bloom y otros, 1975; Guba y Lincoln, 1982).
A pesar de lo anterior y de que las reformas tylerianas no siempre se aplicaron de
inmediato, las ideas de Tyler fueron muy bien acogidas por los especialistas en
desarrollo curricular y por los profesores. Su esquema era racional y se apoyaba en
una tecnología clara, fácil de entender y aplicar (Guba y Lincoln, 1982; House, 1989)
y encajaba perfectamente en la racionalidad del análisis de la tarea que comenzaba a
usarse con éxito en ámbitos educativos militares (Gagné, 1971). En España, los
planteamientos de Tyler se extendieron con la Ley General de Educación de 1970.
Tras la Segunda Guerra Mundial se produce un periodo de expansión y optimismo que
Stufflebeam y Shinkfield (1987) no han dudado en calificar de «irresponsabilidad
social», por el gran despilfarro consumista tras una época de recesión. Se trata de la
etapa conocida como la de la inocencia (Madaus y otros, 1991). Se extienden mucho
las instituciones y servicios educativos de todo tipo, se producen cantidad de tests
estandarizados, se avanza en la tecnología de la medición y en los principios
estadísticos del diseño experimental (Gulliksen, 1950; Lindquist, 1953; Walberg y
Haertel, 1990) y aparecen las famosas taxonomías de los objetivos educativos (Bloom
y otros, 1956; Krathwohl y otros, 1964). Sin embargo, en esta época, la aportación de
la evaluación a la mejora de la enseñanza es escasa debido a la carencia de planes
coherentes de acción. Se escribe mucho de evaluación, pero con escasa influencia en
el perfeccionamiento de la labor instruccional. El verdadero desarrollo de las
propuestas tylerianas vino después (Taba, 1962; Popham y Baker, 1970; Fernández
de Castro, 1973).
Ralph W. Tyler murió el 18 de febrero de 1994, superados los noventa años de vida,
tras siete décadas de fructíferas aportaciones y servicios a la evaluación, a la
investigación y a la educación en general. Unos meses antes, en abril de 1993, Pamela
Perfumo, una estudiante graduada de la Universidad de Stanford, entrevistó a Tyler
con el propósito de conocer su pensamiento acerca del actual desarrollo de la
evaluación y de los temas controvertidos alrededor de la misma. Esta entrevista,
convenientemente preparada, fue presentada el 16 de abril de 1993 en la Conferencia
de la AERA que tuvo lugar en Atlanta. Horowitz (1995) analiza el contenido y el
significado de la citada entrevista, destacando, entre otros, los siguientes aspectos en
el pensamiento de Tyler al final de sus días:
a) Necesidad de analizar cuidadosamente los propósitos de la evaluación, antes
de ponerse a evaluar. Los actuales planteamientos de evaluaciones múltiples y
alternativas deben ajustarse a este principio
b) El propósito más importante en la evalua-ción de los alumnos es guiar su
aprendizaje, esto es, ayudarles a que aprendan. Para ello es necesaria una evaluación
comprensiva de todos los aspectos significativos de su rendimiento; no basta con
asegurarse que hacen regularmente el trabajo diario.
c) El «portfolio» es un instrumento valioso de evaluación, pero depende de su
contenido. En todo caso, hay que ser cauteloso ante la preponderancia de un solo
procedimiento de evaluación, incluyendo el «portfolio», por su incapacidad de abarcar
todo el espectro de aspectos evaluables.
d) La verdadera evaluación debe ser idiosin-crásica, adecuada a las
peculiaridades del alumno y el centro. En rigor, la comparación de centros no es
posible.
e) Los profesores deben rendir cuentas de su acción educativa ante los padres de
los alumnos. Para ello, es necesario interaccionar con ellos de manera más frecuente
y más informal.
Medio siglo después de que Tyler revolucionara el mundo de la evaluación educativa,
se observa la fortaleza, coherencia y vigencia de su pensamiento. Como acabamos de
ver, sus ideas básicas, convenientemente actualizadas, se entroncan fácilmente en las
corrientes más actuales de la evaluación educativa.

El desarrollo de los sesenta.


Los años sesenta traerán nuevos aires a la evaluación educativa, entre otras cosas
porque se empezó a prestar interés por algunas de las llamadas de atención de Tyler,
relacionadas con la eficacia de los programas y el valor intrínseco de la evaluación
para la mejora de la educación.
En esa época surge un cierto conflicto entre la sociedad americana y su sistema
educativo, sobre todo porque los rusos iban por delante en la carrera especial, tras el
lanzamiento del Sputnik por la URSS en 1957. Aparece un cierto desencanto con la
escuela pública y crece la presión por la rendición de cuentas (MacDonald, 1976;
Stenhouse, 1984). En 1958 se promulga una nueva ley de defensa educativa que
proporciona muchos programas y medios para evaluarlos. En 1964 se establece el
Acta de educación primaria y secundaria (ESEA) y se crea el National Study Comitte
on Evaluation, creándose una nueva evaluación no sólo de alumnos, sino orientada a
incidir en los programas y en la práctica educativa global (Mateo y otros, 1993;
Rodríguez y otros, 1995).
(1982), la Evaluación Democrática de MacDonald (1976), la Evaluación
Iluminativa de Parlett y Hamilton (1977) y la Evaluación como crítica artística de
Eisner (1985).
En líneas generales, este segundo grupo de modelos evaluativos enfatiza el papel de
la audiencia de la evaluación y de la relación del evaluador con ella. La audiencia
prioritaria de la evaluación en estos modelos no es quien debe tomar las decisiones,
como en los modelos orientados a la toma de decisiones, ni el responsable de elaborar
los currículos u objetivos, como en los modelos de consecución de metas. La audiencia
prioritaria son los propios participantes del programa. La relación entre el evaluador y
la audiencia en palabras de Guba y Lincoln (1982) debe ser «transaccional y
fenomenológica». Se trata de modelos que propugnan una evaluación de tipo
etnográfica, de aquí que la metodología que consideran más adecuada es la propia de
la antropología social (Parlett y Hamilton, 1977; Guba y Lincoln, 1982; Pérez 1983).
Este resumen de modelos de la época de eclosión es suficiente para aproximarnos al
amplio abanico conceptual teórico y metodológico que hoy se relaciona con la
evaluación. Ello explica que cuando Nevo (1983 y 1989) pretende realizar una
conceptualización de la evaluación, a partir de la revisión de la literatura especializada,
atendiendo a los tópicos ¿qué es la evaluación? ¿qué funciones tiene? ¿cuál es el
objeto de evaluación?... no encuentra una única respuesta a estas cuestiones. Es
fácilmente comprensible que las exigencias que plantea la evaluación de programas
de una parte, y la evaluación para la toma de decisiones sobre los individuos de otra,
conducen a una gran variedad de esquemas evaluativos reales utilizados por
profesores, directores, inspectores y administradores públicos. Pero también es cierto
que bajo esta diversidad subyacen diferentes concepciones teóricas y metodológicas
sobre la evaluación. Diferentes concepciones que han dado lugar a una apertura y
pluralidad conceptual en el ámbito de la evaluación en varios sentidos (Cabrera, 1986).
A continuación destacamos los puntos mas sobresalientes de esta pluralidad
conceptual.
a) Diferentes conceptos de evaluación. Por una parte existe la clásica definición
dada por Tyler: la evaluación como el proceso de determinar el grado de congruencia
entre las realizaciones y los objetivos previamente establecidos, a la que corresponden
los modelos orientados hacia la consecución de metas. Contrasta esta definición con
aquella más amplia que se propugna desde los modelos orientados a la toma de
decisiones: la evaluación como el proceso de determinar, obtener y proporcionar
información relevante para juzgar decisiones alternativas, defendida por Alkin (1969),
Stufflebeam y otros (1971), MacDonald (1976) y Cronbach (1982).
Además, el concepto de evaluación de Scriven (1967), como el proceso de estimar el
valor o el mérito de algo, es retomado por Cronbach (1982), Guba y Lincoln (1982), y
House (1989), con objeto de señalar las diferencias que comportarían los juicios
valorativos en caso de estimar el mérito (se vincularía a características intrínsecas de
lo que se evalúa) o el valor (se vincularía al uso y aplicación que tendría para un
contexto determinado).
b) Diferentes criterios. De las definiciones apuntadas anteriormente se desprende
que el criterio a utilizar para la valoración de la información también cambia. Desde la
óptica de la consecución de metas, una buena y operativa definición de los objetivos
constituye el criterio fundamental. Desde la perspectiva de las decisiones y situados
dentro de un contexto político, Stufflebeam y colaboradores, Alkin y MacDonald llegan
a sugerir incluso la no valoración de la información por parte del evaluador, siendo el
que toma las decisiones el responsable de su valoración.
Las definiciones de evaluación que acentúan la determinación del «mérito» como
objetivo de la evaluación, utilizan criterios estándares sobre los que los expertos o
profesionales están de acuerdo. Se trata de modelos relacionados con la acreditación
y el enjuiciamiento profesional (Popham, 1980).
Los autores (Stake, 1975; Parlett y Hamilton, 1977; Guba y Lincoln, 1982; House,
1983) que acentúan el proceso de evaluación al servicio de determinar el «valor» más
que el «mérito» de la entidad u objeto evaluado, abogan por que el criterio de
valoración fundamental sean las necesidades contextuales en las que ésta se inserta.
Así, Guba y Lincoln (1982) refieren los términos de la comparación valorativa; de un
lado, las características del objeto evaluado y, de otro, las necesidades, expectativas
y valores del grupo a los que les afecta o con los que se relaciona el objeto evaluado.
c) Pluralidad de procesos evaluativos dependiendo de la percepción teórica que
sobre la evaluación se mantenga. Los modelos de evaluación citados y otros más que
pueden encontrarse en la bibliografía, representan diferentes propuestas para
conducir una evaluación.
d) Pluralidad de objetos de evaluación. Como dice Nevo (1983 y 1989), existen
dos conclusiones importantes que se obtienen de la revisión de la bibliografía sobre la
evaluación. Por un lado, cualquier cosa puede ser objeto de evaluación y ésta no
debería limitarse a estudiantes y profesores y, por otro, una clara identificación del
objeto de evaluación es una importante parte en cualquier diseño de evaluación.
e) Apertura, reconocida en general por todos los autores, de la información
necesaria en un proceso evaluativo para dar cabida no sólo a los resultados
pretendidos, sino a los efectos posibles de un programa educativo, sea pretendido o
no. Incluso Scriven (1973 y 1974) propone una evaluación en la que no se tenga en
cuenta los objetivos pretendidos, sino valorar todos los efectos posibles. Apertura
también respecto a la recogida de información no sólo del producto final, sino también
sobre el proceso educativo. Y apertura en la consideración de diferentes resultados de
corto y largo alcance. Por último, apertura también en considerar no sólo resultados
de tipo cognitivo, sino también afectivos (Anderson y Ball, 1983).
f) Pluralidad también reconocida de las funciones de la evaluación en el ámbito
educativo, recogiéndose la propuesta de Scriven entre evaluación formativa y
sumativa, y añadiéndose otras de tipo socio-político y administrativas (Nevo, 1983).
g) Diferencias en el papel jugado por el evaluador, lo que ha venido a llamarse
evaluación interna vs. evaluación externa. No obstante, una relación directa entre el
evaluador y las diferentes audiencias de la evaluación es reconocida por la mayoría
de los autores (Nevo, 1983; Weiss, 1983; Rutman, 1984).
h) Pluralidad de audiencia de la evaluación y, por consiguiente, pluralidad en los
informes de evaluación. Desde informes narrativos, informales, hasta informes muy
estructurados (Anderson y Ball, 1983).
i) Pluralidad metodológica. Las cuestiones metodológicas surgen desde la
dimensión de la evaluación como investigación evaluativa, que viene definida en gran
medida por la diversidad metodológica.
El anterior resumen recoge las aportaciones a la evaluación en los años setenta y
ochenta, la época que se ha denominado época de la profesionalización (Stufflebeam
y Skinkfield, 1987; Madaus y otros, 1991; Hernández, 1993; Mateo y otros, 1993), en
la que además de los innumerables modelos de los setenta, se profundizó en los
planteamientos teóricos y prácticos y se consolidó la evaluación como investigación
evaluativa en los términos antes definida. En este contexto, lógicamente, aparecen
muchas nuevas revistas especializadas como Educational Evaluation and Policy
Analysis, Studies in Evaluation, Evaluation Review, New Directions for Program
Evaluation, Evaluation and Program Planning, Evaluation News,..., se fundan
asociaciones científicas relacionadas con el desarrollo de la evaluación y las
universidades empiezan a ofrecer cursos y programas de investigación evaluativa, no
sólo en postgrados y programas de doctorado, sino también en planes de estudio para
titulaciones de primer y segundo ciclos.

El nuevo impulso alrededor de Stufflebeam.


Para terminar este recorrido analíticohistórico desde los primeros intentos de medición
educativa hasta la actual investigación evaluativa en educación, queremos recoger las
recomendaciones que más recientemente nos viene ofreciendo una de las figuras
señeras de este campo en la segunda mitad del siglo XX.
Nos estamos refiriendo a Daniel L. Stufflebeam, proponente del modelo CIPP (el más
utilizado) a finales de los sesenta, desde 1975 a 1988 presidente del «Joint Committee
on Standars for Educational Evaluation» y actual director del «Evaluation Center» de
la Western Michigan University (sede del Joint Committee) y del CREATE (Center for
Research on Educational Accountability and Teacher Evaluation), centro auspiciado y
financiado por el Departamento de Educación del gobierno americano.
Recogiendo estas recomendaciones (Stufflebeam, 1994, 1998, 1999, 2000 y 2001),
en las que se han ido integrando ideas de diversos evaluadores también notables, no
sólo ofrecemos una de las últimas aportaciones a la actual concepción de la
investigación evaluativa en educación, sino que completamos en buena medida la
visión del panorama actual, rico y plural, tras analizar la cuarta generación de Guba y
Lincoln.
Se parte de los cuatro principios del Joint Committee (1981 y 1988), esto es, de la idea
de que cualquier buen trabajo de investigación evaluativa debe ser: a) útil, esto es,
proporcionar información a tiempo e influir, b) factible, esto es, debe suponer un
esfuerzo razonable y debe ser políticamente viable, c) apropiada, adecuada, legítima,
esto es, ética y justa con los implicados, y d) segura y precisa a la hora de ofrecer
información y juicios sobre el objeto de la evaluación. Además, la evaluación se ve
como una «transdisciplina», pues es aplicable a muchas disciplinas diferentes y a
muchos objetos diversos (Scriven, 1994).
Stufflebeam invoca a la responsabilidad del evaluador, que debe actuar de acuerdo a
principios aceptados por la sociedad y a criterios de profesionalidad, emitir juicios
sobre la calidad y el valor educativo del objeto evaluado y debe asistir a los implicados
en la interpretación y utilización de su información y sus juicios. Sin embargo, es
también su deber, y su derecho, estar al margen de la lucha y la responsabilidad
política por la toma de decisiones y por las decisiones tomadas.
Para evaluar la educación en una sociedad moderna, Stufflebeam (1994) nos dice que
se deben tomar algunos criterios básicos de referencia como los siguientes:
• Las necesidades educativas. Es necesario preguntarse si la educación que se
proporciona cubre las necesidades de los estudiantes y de sus familias en todos los
terrenos a la vista de los derechos básicos, en este caso, dentro de una sociedad
democrática (Nowakowski y otros, 1985).
• La equidad. Hay que preguntarse si el sistema es justo y equitativo a la hora de
proporcionar servicios educativos, el acceso a los mismos, la consecución de metas,
el desarrollo de aspiraciones y la cobertura para todos los sectores de la comunidad
(Kellagan, 1982).
• La factibilidad. Hay que cuestionar la eficiencia en la utilización y distribución de
recursos, la adecuación y viabilidad de las normas legales, el compromiso y
participación de los implicados y todo lo que hace que el esfuerzo educativo produzca
el máximo de frutos posibles.
• La excelencia como objetivo permanente de búsqueda. La mejora de la calidad,
a partir del análisis de las prácticas pasadas y presentes es uno de los fundamentos
de la investigación evaluativa.
Tomando el referente de estos criterios y sus derivaciones, Stufflebeam sumariza una
serie de recomendaciones para llevar a cabo buenas investigaciones evaluativas y
mejorar el sistema educativo. Estas recomendaciones son las siguientes:
1) Los planes de evaluación deben satisfacer los cuatro requerimientos de utilidad,
factibilidad, legitimidad y precisión (Joint Committee, 1981 y 1988).
2) Las entidades educativas deben examinarse por su integración y servicio a los
principios de la sociedad democrática, equidad, bienestar, etc.
3) Las entidades educativas deben ser valoradas tanto por su mérito (valor
intrínseco, calidad respecto a criterios generales) como por su valor (valor extrínseco,
calidad y servicio para un contexto particular) (Guba y Lincoln, 1982; Scriven, 1991),
como por su significación en la realidad del contexto en el que se ubica. Scriven (1998)
nos señala que usando otras denominaciones habituales, mérito tiene bastante
equivalencia con el término calidad, valor con el de relación coste-eficacia y
significación con el de importancia. En todo caso, los tres conceptos son dependientes
del contexto, sobre todo significación, de manera que entender la diferencia entre
dependencia del contexto y arbitrariedad es parte de la comprensión de la lógica de la
evaluación.
4) La evaluación de profesores, instituciones educativas, programas, etc, debe
relacionarse siempre con el conjunto de sus deberes, responsabilidades y obligaciones
profesionales o institucionales, etc. Quizás uno de los retos que deben abordar los
sistemas educativos es la definición más clara y precisa de estos deberes y
responsabilidades. Sin ello, la evaluación es problemática, incluso en el terreno
formativo (Scriven, 1991a).
5) Los estudios evaluativos deben ser capaces de valorar hasta qué medida los
profesores y las instituciones educativas son responsables y rinden cuentas del
cumplimiento de sus deberes y obligaciones profesionales (Scriven, 1994).
6) Los estudios evaluativos deben proporcionar direcciones para la mejora, porque
no basta con emitir un juicio sobre el mérito o el valor de algo.
7) Recogiendo los puntos anteriores, todo estudio evaluativo debe tener un
componente formativo y otro sumativo.
8) Se debe promover la autoevaluación profesional, proporcionando a los
educadores las destrezas para ello y favoreciendo actitudes positivas hacia ella
(Madaus y otros, 1991)
9) La evaluación del contexto (necesidades, oportunidades, problemas en un
área,...) debe emplearse de manera prospectiva, para localizar bien las metas y
objetivos y definir prioridades. Asimismo, la evaluación del contexto debe utilizarse
retrospectivamente, para juzgar bien el valor de los servicios y resultados educativos,
en relación con las necesidades de los estudiantes (Madaus y otros, 1991; Scriven,
1991) 10) La evaluación de las entradas (inputs) debe emplearse de manera
prospectiva, para asegurar el uso de un rango adecuado de enfoques según las
necesidades y los planes.
11) La evaluación del proceso debe usarse de manera prospectiva para mejorar el
plan de trabajo, pero también de manera retrospectiva para juzgar hasta qué punto la
calidad del proceso determina el por qué los resultados son de un nivel u otro
(Stufflebean y Shinkfield, 1987).
12) La evaluación del producto es el medio para identificar los resultados buscados
y no buscados en los participantes o afectados por el objeto evaluado. Se necesita una
valoración prospectiva de los resultados para orientar el proceso y detectar zonas de
necesidades. Se necesita una evaluación retrospectiva del producto para poder juzgar
en conjunto el mérito y el valor del objeto evaluado (Scriven, 1991; Webster y Edwards,
1993; Webster y otros, 1994).
13) Los estudios evaluativos se deben apoyar en la comunicación y en la inclusión
sustantiva y funcional de los implicados (stakeholders) con las cuestiones claves,
criterios, hallazgos e implicaciones de la evaluación, así como en la promoción de la
aceptación y el uso de sus resultados (Chelimsky, 1998). Más aún, los estudios
evaluativos deben conceptualizarse y utilizarse sistemáticamente como parte del
proceso de mejora educativa a largo plazo (Alkin y otros, 1979; Joint Committee, 1988;
Stronge y Helm, 1991; Keefe, 1994) y de fundamento para la acción contra las
discriminaciones sociales (Mertens, 1999). (Mertens, 1999). La evaluación para el
desarrollo (empowerment evaluation), que defiende Fetterman (1994), es un
procedimiento, de base democrática, de participación de los implicados en el programa
evaluado, para promover la autonomía de los mismos en la resolución de sus
problemas. Weiss (1998) nos alerta de que la evaluación participativa incrementa la
probabilidad de que se utilicen los resultados de la evaluación, pero también la de que
sea conservadora en su concepción, pues es difícil pensar que los responsables de
una organización pongan en cuestión el fundamento y el sistema de poder de la misma.
Generalmente su interés es el cambio de cosas pequeñas.
14) Los estudios evaluativos deben emplear múltiples perspectivas, múltiples
medidas de resultados, y métodos tanto cuantitativos como cualitativos para recoger y
analizar la información. La pluralidad y complejidad del fenómeno educativo hace
necesario emplear enfoques múltiples y multidimensionales en los estudios
evaluativos (Scriven, 1991) 15) Los estudios evaluativos deben ser evaluados,
incluyendo metaevaluaciones formativas para mejorar su calidad y su uso y
metaevaluaciones sumativas para ayudar a los usuarios en la interpretación de sus
hallazgos y proporcionar sugerencias para mejorar futuras evaluaciones (Joint
Committee, 1981 y 1988; Madaus y otros, 1991; Scriven, 1991; Stufflebeam, 2001).
Estas quince recomendaciones proporcionan elementos esenciales para un enfoque
de los estudios evaluativos que Stufflebeam denomina objetivista y que se basa en la
teoría ética de que la bondad moral es objetiva e independiente de los sentimientos
personales o meramente humanos.
Sin entrar en el debate sobre estas valoraciones finales de Stufflebeam, ni en análisis
comparativos con otras propuestas, por ejemplo con las de Guba y Lincoln (1989), nos
resulta evidente que las concepciones de la investigación evaluativa son diversas,
dependiendo del origen epistemológico desde el que se parte, pero apareciendo claros
y contundentes algunos elementos comunes a todas las perspectivas como la
contextualización, el servicio a la sociedad, la diversidad metodológica, la atención,
respeto y participación de los implicados, etc., así como una mayor profesionalización
de los evaluadores y una mayor institucionalización de los estudios (Worthen y
Sanders, 1991).
Volviendo a los denominados modelos de los setenta y a sus clasificaciones, podemos
recoger algunas de las aparecidas en la última década en nuestro entorno académico,
apoyándose en distintos autores. Así, por ejemplo, Arnal y otros (1992) ofrecen una
clasificación de lo que denominan diseños de la investigación evaluativa, revisando las
de diversos autores (Patton, 1980; Guba y Lincoln, 1982; Pérez, 1983; Stufflebeam y
Shinkfield, 1987).
PATOLOGÍA GENERAL DE LA EVALUACIÓN
EDUCATIVA.

Autor: Miguel Ángel Santos Guerra.

“La patología que afecta a la evaluación afecta a todas y cada una de sus vertientes:
por qué se evalúa (y para qué), quién evalúa, cómo se evalúa, para quién se evalúa,
cuándo se evalúa, qué se evalúa, a quién se evalúa, con qué criterios se evalúa, cómo
se evalúa la misma evaluación, etc.” … (Santos, 1999).

“Santos” en el siguiente escrito habla acerca de los tipos de evaluacion y destaca 6


patologias mas importantes que son: se evalúa sólo al alumno, se evalúan solamente
los resultados, se evalúan los conocimientos, se evalúa cuantitativamente, se utilizan
instrumentos inadecuados y se evalúa de forma incoherente con el proceso de
enseñanza aprendizaje, este escrito realizado por “Santos” se enfoca en las
problemáticas que ocurren a la hora de evaluar y se basa en los puntos que se
descuidan al emplear la misma.
El desarrollo curricular, en cualquiera de sus niveles, está recorrido por un proceso
evaluador de triple naturaleza: la evaluación diagnóstica, la evaluación procesual y la
evaluación de término. En el buen entendido de que el proceso es circular, no
meramente lineal, dinámico en su entraña.
La toma de decisiones, inicial o de proceso, nace de una valoración precisa y de un
análisis del planteamiento, de la acción, del contexto y condiciones de la misma y
—en su caso— de los resultados.

En el complejo mundo de la educación, por tantos motivos particular y cambiante,


se realizan diversos procesos evaluadores del curriculum que están afectados de
las patologías más diversas.

Cada uno de los desórdenes que afectan a ese proceso (en el marco de referencia
macrocurricular = sistema, mesocurricular = centro y microcurricular = aula) puede
ser estudiado en sus signos, en sus síntomas y en su fisiopatología, es decir, en el
mecanismo por el que se produce esa «enfermedad».
Hablamos de patología general porque nos interesa el estudio global que siente las
bases de cualquier posterior subdivisión analítica. Podríamos hablar también, sensu
strictu, de patología social (término introducido por la escuela organicista) de la
evaluación, ya que se trata de desórdenes de procesos que afectan a colectivos y a
relaciones entre individuos.

La evaluación (tanto la de carácter funcional como la investigadora) puede ser


manejada para servir los intereses del evaluador ya que éste puede llamar
«evaluación» a la operación que desee, puede evaluar aquello que le interese, en
las formas y momentos que determine, con los instrumentos que considere
oportunos y —desde luego— para utilizarla en los fines que su particular
interpretación aconseje.

El poder que dimana del- proceso evaluador es tan grande que permite atribuir
causalidades arbitrariamente, catalogar éticamente, justificar decisiones y clasificar
realidades...

La apariencia de rigor se convierte en una amenaza de perfiles contundentes. los


ribetes científicos disminuyen la capacidad de crítica y prestan un peligroso aval. Si
entendemos/practicamos la evaluación como un proceso difícilmente
contestable en su concepción, en su desarrollo, en su utilización, difícilmente podrán
ser discutidas las conclusiones: «Este alumno ha suspendido», «este centro escolar
es malo», «esta experiencia educativa es excelente», «esta actividad tiene que
desaparecer», «estas personas tienen que ser excluidas»...

Los criterios que se aplican para la evaluación no siempre se ajustan a patrones


rigurosamente elaborados. Y así, una reforma puede considerarse «buena» porque
aumenta el número de los conocimientos de los alumnos, un centro puede
etiquetarse como «estupendo» porque aprueba la selectividad un porcentaje alto de
alumnos presentados y un alumno es considerado «excelente» porque ha
contestado correctamente una prueba objetiva.

Más aun, de una evaluación superficial pueden nacer explicaciones


explícitas/implícitas que consagran una determinada realidad, estableciendo nexos
causales gratuitos. «Este alumno suspende porque no estudia», «ese programa de
renovación no funciona porque los profesores son incompetentes», «ese centro
tiene eficacia educativa porque posee grandes instalaciones»...

La patología que afecta a la evaluación afecta a todas y cada una de sus vertientes:
por qué se evalúa (y para qué), quién evalúa, cómo se evalúa, para quién se evalúa,
cuándo se evalúa, qué se evalúa, a quién se evalúa; con qué criterios se evalúa,
cómo se evalúa la misma evaluación, etc.

Algunas patologías lo son en cuanto hipertrofian un aspecto o dimensión que,


planteado en su justa medida, sería positivo. Valorar los conocimientos, por ejemplo,
no es un error, pero sí lo puede ser el valorar exclusivamente, obsesivamente, los
conocimientos, sin tener en cuenta su naturaleza, su importancia, su Interés, su
adecuación, su coordinación con otros conocimientos, etc.

Otras patologías se deben a la atrofia de funciones que son consustanciales con un


estado de salud educativa. No se desarrolla, por ejemplo, un tipo de evaluación
democrática (Stenhouse, Elliot, McDonald) en la que tanto el proceso de evaluación
como el manejo de la información resultante es responsabilidad directa de los
protagonistas de la experiencia educativa.

Hay también carencias, disfunciones... La gravedad de la anomalía dependerá, en


parte, de su misma naturaleza y, desde luego, de su intensidad.

Solo se evalúa al alumno

En este sentido sí es protagonista el alumno. Se le examina siguiendo una


temporalización determinada. Se le dan los resultados, prácticamente inapelables y,
en general, se le considera único responsable de los mismos.

No parece concebirse el curriculum sin la evaluación del alumno, pero sí sin la


evaluación genérica del mismo. los argumentos —cargados de lógica— que se utilizan
para avalar la ineludible necesidad de la evaluación del alumno no se aplican a otros
elementos del curriculum.
A cada alumno se le asigna en el expediente un valor numérico (al menos,
cuantificado) que parece ser de su exclusiva responsabilidad. La calificación del
alumno —para muchos padres, profesores y para los mismos alumnos— es el
resultado de su capacidad y de su falta o derroche de esfuerzos. En el caso de fracasar
será el quien deberá pagar las «consecuencias». Sólo él deberá cambiar. Lo demás,
podrá seguir como estaba. La evaluación se convierte así en un proceso conservador.

La distinción socorrida de evaluación suficiente y evaluación satisfactoria viene a poner


de manifiesto otro flanco de la patología. Porque se utiliza como criterio referencial
fáctico la consecución de unos conocimientos mínimos (será el profesor quien lo
compruebe según sus particulares criterios), estableciendo en la gama de
puntuaciones una comparación con el resto de los escolares a todas luces discutible.

¿Qué es lo que se ha comparado para colocar a los individuos en la escalera de


suspensos/aprobados/notables/sobresalientes/matrículas...? No se sabe si se
comparan las capacidades de los sujetos, los esfuerzos realizados, los conocimientos
adquiridos o la suerte de que han gozado. 1.1) cierto es que la etiquetación que nace
de la evaluación educativa figura estampada en impresos, debidamente rubricada por
la autoridad académica y refrendada por los sellos oficiales.

Este ejercicio enmascara una injusticia grande, no sólo por la arbitrariedad de


asignación, por el capricho atributivo (agravado por la apariencia de rigor científico),
sino por la desigualdad radical de condiciones naturales y contextuales. Partir de
situaciones desiguales y pretender comparar los resultados utilizando los mismos
raseros es una forma radicalmente injusta de ejercitar una aparente justicia.

Lo cierto es que, en este mecanismo, sólo se incluye al alumno, quiera o no, quedando
muchos otros responsables del proceso educativo sin esa consideración evaluadora y
sin las consecuencias que llevaría aparejadas.

Se evalúan solamente los resultados.


los resultados han de ser tenidos en cuenta dentro del proceso evaluador. Pero no
solamente los resultados. los presupuestos de los que se parte, las condiciones que
se tienen, las estrategias que se ponen en marcha, los procesos que se
desencadenan, los ritmos de consecución, la proporción rendimiento/esfuerzo...,
son también elementos que deben evaluarse. No sólo porque la consecución/no
consecución de unos resultados (y el grado de su logro) está supeditada a aquellos
factores sino porque ellos mismos constituyen el objetivo de la mirada evaluadora.

En definitiva, no sólo importa qué es lo que se ha conseguido, sino el cómo, a qué


precio, con qué ritmo, con qué medios, con cuántos esfuerzos, a qué costa, para
qué fines...

Analizar sólo los resultados obtenidos es, cuando menos, parcial. Y la parcialidad
suele ir acompañada de imprecisión y de tergiversaciones.

Se evalúan solo los conocimientos

El proceso de enseñanza/aprendizaje se realiza sobre un cuerpo de


conocimientos más o menos estructurados, más o menos interesantes, más o
menos conexionados con la práctica, más o menos «autónomos» (los grados de
libertad del curriculum pueden ser variables). No se puede aprender en el vacío.
Cuando hablamos de «aprender a aprender» —dejando al margen los
conocimientos— estamos haciendo meras piruetas mentales.
Aprender a aprender es un slogan tan utilizado como desprovisto de sentido real.
Porque sólo se aprende aprendiendo.

No se puede, pues, rechazar el aprendizaje de contenidos. Porque son necesarios


para articular el pensamiento, para adaptarse a la realidad y para poder manejarla.

Otra cosa es la selección de los contenidos, su articulación, su significación de


organizadores del pensamiento.

Ahora bien, limitarse a la evaluación de conocimientos supone un reduccionismo


escandaloso. Existen otra serie de pretendidos logros (véase cualquier formulación
curricular, véase incluso la legislación de cualquier rango que defina objetivos
educativos del sistema) que no se contemplan debidamente en el proceso
evaluador: actitudes, destrezas, hábitos, valores...

Una persona que adquiriese un abundante caudal de conocimientos para me. jor
destruir/oprimir a los otros, un alumno que llenase su cabeza de conocimientos pero
que odiase la sabiduría, un individuo con un gran almacén de datos en la cabeza,
pero incapaz de comunicarse..., no estaría auténticamente formado.

luego veremos que la evaluación de estas otras facetas no es tarea fácil. Muchos
profesores no tienen conciencia profesional de que se trata de aspectos educativos
relevantes. Otros no conocen las formas de acercarse a una evaluación adecuada
de los mismos. La Administración, conocedora de esas limitaciones, nacidas de una
deficiente formación del profesorado, desconfiando de que puedan realizar
espontáneamente estas tareas, pretende implantarlas a golpe de «B.O.E.» Es más
barato que una larga y concienzuda formación. Pero es totalmente ineficaz. ¿De qué
sirvió implantar la evaluación continua cuando los profesores seguían instalados en
sus viejas prácticas evaluadoras? Sencillamente, para repetir continuamente
aquellas prácticas de evaluación memorística.

Se evalúa principalmente la vertiente negativa.

En la práctica habitual del docente la evaluación está marcada por las correcciones.
El mismo lenguaje descubre la actitud predominante: «corregir» significa «enmendar
lo errado». El subrayado de las faltas de ortografía es mucho más frecuente que la
explícita valoración de las palabras bien escritas.

Sirva esta anécdota de punto de referencia para referirnos a esa actitud no solamente
mala por negativita sino por lo parcializaste.

Una evaluación rigurosa requiere un tratamiento holístico de los fenómenos y de los


productos. La comprensión de un proceso adquiere sentido en un análisis
estructurado y estructurante en el que la interconexión de todos los elementos permite
la explicación y el significado.
El desequilibrio de perspectiva hace que la escuela esté más atenta a los errores que
a los aciertos de los alumnos y que los equipos de evaluación externa se apresten
más a describir problemas y deficiencias que a resaltar valores y logros.

Además de factores actitudinales puede influir en esta dinámica selectiva la mayor


facilidad que existe de describir la tensión que la calma, el error que el acierto, la
guerra que la paz.

Se evalúan descontextualizadamente.

Bertalanffy (1976, 1978) plantea la necesidad de tener en cuenta un contexto amplio


cuando se pretende comprender la realidad de un sistema actuante.

Pretender dar significado a la actuación de un alumno desde la óptica y el código del


evaluador, prescindiendo de las claves de interpretación del contexto, es vaciar de
contenido la realidad (Oates, 1975).

Encasillar un Centro dentro de la plantilla elaborada por el evaluador con unos criterios
genéricos de pretendida validez, es negarse a entender todo lo que sucede en el
mismo.

Una calificación sobresaliente puede ser considerada «algo despreciable» en un


contexto determinado. Una clase indisciplinada puede estar en el eje de la admiración
de la mayoría de los alumnos de un Centro. Una experiencia pedagógica «modélica»
puede ser valorada en su contexto de forma negativa...

Si el evaluador, en aras de una pretendida objetividad, busca la creación y realiza la


aplicación de instrumentos de medida fiables y válidos técnicamente y no tiene en
cuenta la realidad viva, compleja y dinámica de ese todo, de ese sistema organizativo
que tiene en sí mismo los códigos sintácticos y semánticos, se verá enredado en un
caudal de datos muertos y desprovistos de auténtico significado.

la actuación de un alumno podrá ser atendida e interpretada justamente (con justeza


y con justicia) en el marco de innumerables redes codificadoras que se producen en el
sistema del aula que, a su vez, está en conexión con el sistema del Centro que, a su
vez...

«La optimización de un sistema es posible, siempre y cuando nos acerquemos a las


peculiaridades específicas de la estructura y comportamiento de cada sistema, y en
función precisamente de ese conocimiento específico» (Pérez Gómez, 1985).

Se evalúa estereotipadamente.

IDS profesores repiten una y otra vez sus esquemas de evaluación. Cada año los
alumnos se preocupan de saber cuál es la costumbre evaluadora del profesor.

De forma casi automática, el profesor repite sus fórmulas. Ni siquiera negocia con los
alumnos el planteamiento habitualmente practicado. Al comienzo de curso fija el
número, el momento, la forma y los matices.

¿Ha sometido a evaluación sus propios mecanismos de evaluación? No de una forma


rigurosa. Cuando ha pensado en ello ha sido para confirmar los estereotipos.

En un curso con cinco asignaturas un alumno deberá «someterse» a cinco proyectos


diferentes de evaluación. los profesores evalúan de formas muy diferen-

tes. Pero cada profesor, en los diferentes cursos en que imparte docencia, evalúa de
una forma idéntica.

Se multiplican los trabajos sobre evaluación, pero no son los protagonistas —los
propios profesores— los que emprenden esta labor. Stenhouse (1984) dice que lo que
mejora la acción educativa no es tanto la investigación sobre los profesores sino la de
los profesores que analizan su propia actividad.

En los Centros, la mecánica de la confección de las Memorias tiende a convertirlas en


pura rutina. Y, en la medida que se establezcan pautas «generalizables», esas rutinas
serán similares en casi todos los Centros. Tan similares como inútiles.

No se evalúa éticamente
Además de los problemas técnicos acechan al proceso evaluador numerosos
conflictos de carácter ético.

La evaluación puede convertirse en un instrumento de opresión. ¿Que sucedería en


las aulas si el profesor estuviese desprovisto del «arma» de la evaluación? Cuando se
articula el proceso de enseñanza/aprendizaje sobre el resultado de la evaluación —
más que sobre la riqueza y profundidad del saber— se corre el riesgo de la
manipulación y el sometimiento del alumno. La «hora de la verdad» no es la del
aprendizaje sino la de la evaluación. Cuando es el profesor quien lo decide todo
respecto a ese momento decisivo, todo el poder des-cansa en sus manos.

La evaluación ha sido un instrumento de control, de amenaza e, incluso, de venganza,


respecto a algunos alumnos que se han permitido ejercitar el derecho a la crítica, a
la discrepancia o la indisciplina.

Cuando, apoyándose en la evaluación, se establecen nexos causales poco rigurosos,


habrá que pensar cuáles son las intenciones y los intereses que motivan la
manipulación.

En la evaluación institucional se plantean numerosos problemas de carácter ético. Uno


de ellos es la confidencialidad de los informes. ¿De quién son los datos? ¿Para quién
son los datos? No puede revelarse el contenido de informes identificables, tanto por lo
que respecta a su emisor como al destinatario de los juicios.

La independencia de los equipos que realizan evaluación externa al servicio de la


Administración o de entidades que financian los proyectos, no siempre está
garantizada. John Elliot, Helen Simon y Savel Kousner insisten (Elliot et alt., 1986) en
la necesidad de conseguir la independencia de los técnicos frente a las posibles
exigencias del poder (académico, político, financiero, etc).

A nadie se le oculta que una evaluación puede ser dirigida, condicionada o manipulada
al servicio de unos intereses determinados, o de unas decisiones pretendidas: retirar
subvenciones, modificar proyectos, sustituir personas, clausurar centros, cortar
experiencias, etc.
Se evalúa para controlar

La evaluación en educación, paradójicamente, no suele ser educativa. No


repercute en la mejora del proceso. La evaluación se cierra sobre sí misma, constituye
un punto final.

Se habla de «calificación final». Cuando es justamente un momento más en el


momento de mejora. No se debe confundir control con evaluación, aunque las dos
funciones pueden ser necesarias. El poder sancionador de la evaluación no
constituye su esencia más rica, más dinámica.

Cuando los profesores se niegan a explicar a sus alumnos (o se muestran reticentes


a hacerlo, por pensar que se trata de una pérdida de tiempo) de dónde proceden las
calificaciones que les han atribuido, están desaprovechando un buen elemento de
aprendizaje.

Disparar con los ojos vendados sobre una diana sin saber dónde se ha producido el
impacto, hace imposible la mejora de la puntería en ensayos posteriores. Solamente
conociendo el resultado se puede mejorar en próximos disparos. Pero, no solamente
será preciso conocer y analizar lo que ha sucedido, sino planificar los nuevos procesos
en función de aquello que se ha descubierto como fracaso o acierto.

Ese efecto retroalimentado se suele perder en las evaluaciones educativas. Y así, la


evaluación que suponen las memorias finales de los Centros, en nada iluminan el
nuevo proyecto del curso siguiente. Los puentes de la eficacia están volados por la
falta de análisis, la inercia inveterada y la despreocupación de muchos profesionales.

El mundo educativo está lleno de situaciones en las que no se aprovecha esta riqueza
potencial que lleva en su interior el proceso evaluador. bs profesores/alumnos repiten
los mismos errores casi con obstinación, los cursos que finalizan una especialidad en
nada benefician con el análisis de su historia a los cursos siguientes, los Centros no
aprenden de la reflexión rigurosa sobre su experiencia...

«La evaluación es el proceso de diseñar, obtener y proporcionar información útil para


juzgar alternativas de decisión», dice Stuffelbeam (1971). Según este planteamiento,
cuando la información no repercute en la toma de decisiones perdería su misma
esencia.

La nueva decisión, al ser puesta en práctica, deberá ser también evaluada. Este
proceso dinámico, abierto, facilita el cambio y posibilita la mejora.

No se hace para evaluación

La evaluación a la que aquí nos referimos se ciñe a cuestiones de la misma índole que
'la evaluación.

Veámoslo con algunos ejemplos. Un evaluador externo analiza la eficacia de una


institución militar en la formación de sus alumnos. Y puede llegar a la comprobación
de que realmente existe un buen planteamiento en los métodos que intentan lograr
esos objetivos. Realmente se han conseguido. Supongamos que esos objetivos «no
son deseables», que esos métodos utilizados «no son éticos» y que esos logros «son
contraproducentes para la formación de la persona». ¿Termina la función evaluadora
con el informe de que el funcionamiento es bueno porque se está desarrollando el
programa de forma eficaz?

Un sistema educativo de un país totalitario incluye entre sus objetivos la formación de


los profesores y de los alumnos en la filosofía y en el proselitismo sectario. Y el análisis
del funcionamiento del sistema, permite al evaluador comprobar que se están
consiguiendo esos objetivos de forma rápida, eficaz y profunda. ¿Termina su tarea al
realizar un informe en el que se describa y analice la eficacia del sistema?

Entendemos que no. De alguna manera Scriven (1973) se refiere a esta cuestión
cuando diferencia la evaluación de la estimación del logro de los objetivos.

Nosotros pensamos que la para evaluación (para = junto a, al lado) supone un análisis
de contenidos y un juicio de valor que va más allá de la simple descripción y análisis
de la coherencia del programa y de la eficacia del mismo.