Está en la página 1de 10

CALIFICACION DE PRUEBA DE RENDIMIENTO:

Es la que sirve para comprobar la efectividad de


los procedimientos pedaggicos y la toma de decisiones sobre
estrategias que facilitan la superacin de dificultades y la correccin
de errores de los alumnos como de los maestros.
EVALUACION SUMATIVA O ACUMULATIVA.Es la que cuantifica los resultados alcanzados por el alumno en
el proceso de aprendizaje. Determina el logro de los objetivos,
efectividad del aprendizaje despus que se lo ha realizado.
EL PROCESO EVALUATIVO EN EL SISTEMA EDUCATIVO
Como producto del proceso de la enseanza, se evala el
rendimiento escolar, el mismo que consiste en las transformaciones
que en el educando se realizan como el desarrollo del pensamiento,
la adquisicin del lenguaje tcnico, la forma de actuar. De esta
manera se considera a la evaluacin como un proceso mediante el
cual se obtiene informacin que en os permite conocer la idoneidad
del proceso educativo.
LA EVALUACION COMO PROCESO
Se entiende a la evaluacin como proceso porque no se realiza es un
solo acto, sino a lo largo del tiempo. Es integral porque toma en
cuenta todos los aspectos de la personalidad del educando y no solo
los conocimientos adquiridos.
Es permanente y continua, porque no tiene un momento especial
dentro del proceso educativo. Para la evaluacin del proceso existen
tres momentos evaluativos que son:
La autoevaluacin.- Es cuando el educando realiza las distintas
experiencias de aprendizaje, mide sus posibilidades, conoce sus
logros y va elaborando un concepto de si mismo.
La coevaluacin.- Es la evaluacin mutua, se aplica generalmente
en los grupos de trabajo que el maestro organiza.
La heteroevaluacin.- Es la que realiza el maestro generalmente
con la aplicacin del tradicional examen.

Une con lineas lo correspondiente:

Validez:
En el campo de la metrologa, psicometra y estadstica,
la validez es un concepto que hace referencia a la capacidad de
un instrumento de medicin para cuantificar de forma significativa y
adecuada el rasgo para cuya medicin ha sido diseado. De esta
forma, un instrumento de medida es vlido en la medida en que las
evidencias empricas legitiman la interpretacin de las puntuaciones
arrojadas por el test.
Se dice que una prueba o test cumple con las condiciones de validez
de contenido si constituye una muestra adecuada y representativa de
los contenidos y alcance del constructo o dimensin a evaluar. En los
casos en los que la materia objeto de medicin se puede precisar con
facilidad, la poblacin de contenidos que se pretende evaluar est
bien definida, por lo que la seleccin de los tems del test no ofrece
mayores dificultades, pudindose recurrir a mtodos estadsticos
de muestreo aleatorio para obtener una muestra representativa de
tems. No obstante, en el campo de la psicologa no siempre es
posible disponer de poblaciones de contenidos bien definidas (por
ejemplo, si se pretenden medir variables psicolgicas clsicas, como
la extraversin, la inteligencia o el liderazgo). En estos casos suele
recurrirse a un anlisis racional de tems, consistente en la
evaluacin de los contenidos del test por parte de un grupo de
expertos en el rea a tratar.6 La validez de contenido es esencial a la
hora de realizar inferencias o generalizaciones a partir de los
resultados del test.

Un caso particular de la validez de contenido es la denominada


validez aparente. Una prueba posee una validez aparente
adecuada cuando produce en los sujetos a los que se aplica la
impresin de que efectivamente es una prueba adecuada. Es un tipo
peculiar de validez de contenido, pero que tiene su parte de
importancia al poder influir sobre la motivacin de los participantes,
que pueden mostrar una actitud negativa ante la prueba si no
perciben que sta tenga el sentido que se le supone .
En sentido general, la validez se refiere a la capacidad que tiene todo
instrumento para medir lo que pretende medir. Se dice que la
validez es inherente al uso y no al instrumento en s, porque puede
utilizarse un instrumento de excelente construccin, pero si no se le
da el uso para el cual fue destinado, no tiene validez. Un martillo,
por ejemplo, puede estar construido con los mejores materiales del
mundo, pero si se quiere utilizar para cortar papel, ese instrumento
no es vlido.
Clases de Validez:
En relacin a las pruebas para medir el rendimiento acadmico por
parte del profesor, se consideran tres clases de validez: Emprica, De
Contenido y de Constructo.
Validez Emprica:
La validez emprica es aquella que puede medirse por mtodos
estadsticos; comprende dos clases: Concurrente y Predictiva.
La validez Concurrente se refiere al grado de correlacin que tiene
una prueba con algn criterio de validacin, (generalmente otra
prueba), por lo cual, algunos autores la llaman tambin de Criterio
Conexo. Este tipo de validez se utiliza sobre todo en Psicologa. Por
ejemplo: Si se elabora una prueba para medir inteligencia, el autor
desear medir su validez de criterio, para lo cual, establecer el
grado de correlacin que tiene con pruebas de rendimiento
acadmico de los mismos estudiantes de los mismos estudiantes.
Una correlacin alta positiva indicara que la nueva prueba tiene
validez de criterio conexo.

La validez de prediccin sirve para determinar hasta qu punto una


prueba puede predecir desempeos futuros. Se aplica en el campo de
la Pedagoga para predecir el desempeo acadmico de un
estudiante en una materia, grado o nivel; su aplicacin al campo de
la Psicologa se utiliza para orientacin vocacional o laboral para
determinar el desempeo futuro en una profesin, o un empleo
determinado. Por ejemplo: un profesor de matemticas en el primer
ao de la carrera de Ingeniera, elabora una prueba de
conocimientos en la materia y la aplica como diagnstico al inicio del
curso. Al final del ao pasa su examen y establece la correlacin que
hay entre la prueba inicial y la final. Luego de correlacionar, realiza
un anlisis de regresin, lo cual le sirve para poder predecir con
cierto nivel de confiabilidad el desempeo de los estudiantes que
ingresen al siguiente curso, si la correlacin ha sido positiva y alta.
Validez de Contenido:
La validez de Contenido es bsicamente pedaggica y se refiere a la
prueba que el profesor elabora para medir el rendimiento en una
materia determinada. Esa prueba tiene validez de Contenido, si las
preguntas que hace el profesor en el examen son una muestra
representativa de los contenidos expuestos durante el semestre.
Esa representatividad no se refiere slo a los contenidos expuestos
sino tambin a los niveles de conocimiento que evala la prueba. Si
un examen slo se refiere a preguntas memristicas, no tiene validez
de Contenido, debido a que excluye otros procesos importantes
como: comprensin, aplicacin, anlisis, sntesis y evaluacin, etc.
La validez de Contenido no se mide en forma cuantitativa sino
cualitativa, a travs de la Tabla de Especificaciones.
Valides de Constructo:
Esta clase de validez se refiere sobre todo a pruebas psicolgicas.
Cuando se miden cualidades o variables intangibles como
motivacin, intereses, actitudes, etc., hay que recurrir a indicadores
observables, sin embargo, esas cualidades no se pueden ver
fsicamente, slo disponemos de conductas que manifiestan la
existencia o no de esas disposiciones individuales. Es entonces que el
psicometrista debe recurrir a una teora que explica y fundamenta el

aspecto que se va a medir. Con base en esa teora, se construye una


serie de indicadores que, segn la teora nos manifiestan la
existencia o ausencia de la variable medida. A ese conjunto de
indicadores se le llama Constructo o Construccin Hipottica, de lo
cual deviene el nombre a este tipo de validez.
Como es obvio, esta validez no se puede medir cuantitativamente,
sino en forma cualitativa, recurriendo al anlisis de la teora y de las
tcnicas empleadas en la determinacin de los indicadores, de lo
cual depender que se le d o no la validez respectiva al instrumento.
LA CONFIABILIDAD:
En relacin a las pruebas, ser confiable, aquella que en aplicaciones
sucesivas da resultados equivalentes, estables y consistentes.
La Confiabilidad se puede medir estadsticamente, con diversas
tcnicas, entre ellas, los coeficientes de correlacin. Existen varias
clases de confiabilidad: Estabilidad, Equivalencia, Consistencia
Interna y Homogeneidad.
La Estabilidad se refiere a aquella prueba que en aplicaciones
sucesivas da resultados semejantes, es decir, que discrimina entre
estuiantes de alto, medio y bajo rendimiento. Si se aplicara muchas
veces la misma prueba a los estudiantes, debera dar resultados que
correlacionan. Como es imposible, se recurre a mtodos estadsticos
para determinarlo.
La tcnica que se utiliza es la TestRetest, y consiste en aplicar
dos veces la misma prueba a los mismos estudiantes en diferente
tiempo. Esto se logra pasando por segunda vez la prueba no antes de
una semana ni despus de quince das, para evitar la memoria
inmediata y el efecto de maduracin. (aprendizaje suplementario
que se da en el tiempo).
Si los resultados de ambas pruebas correlacionan alto y
positivamente, esa prueba tiene estabilidad.
La Equivalencia se aplica cuando se hacen diferentes pruebas para
evaluar el mismo contenido o el mismo aspecto. Si se exige en la
Universidad que se hagan dos o ters pruebas para el examen final,
esas pruebas deben ser equivalentes. Para garantizar la

Equivalencia, todas las formas deben elaborarse con base en la


misma Tabla de Especificaciones.
Se emplea la tcnica de Pruebas Paralelas, que consiste en aplicar las
dos formas a los mismos individuos en diferente tiempo. Si
correlacionan alto y positivo, esas pruebas son equivalentes.
Consistencia Interna, es la cualidad de construccin que tiene una
prueba en la cual todos sus elementos(preguntas) estn elaboradas
en forma congruente(de lo fcil a lo difcil, por ejemplo) y tienen la
misma calidad, es decir: el instrumento es consistente en cuanto el
material con que est elaborado.
Para establecer la Consistencia Interna se emplea la tcnica llamada
De las Mitades, y consiste en dividir la prueba en dos partes,
correlacionando ambas. Una vez que se obtiene la correlacin (rip),
se aplica la frmula:
LA PRACTICIDAD:
La practicidad no es realmente una caracterstica mtrica, sino
que se relaciona con el costo de la prueba en cuanto a recursos, esto
es, si se necesita mucho papel, multicopias, etc., y en cuanto al
tiempo que necesita, de elaboracin, aplicacin y correccin. As
entonces las pruebas de ejecucin y las orales son poco prcticas de
aplicacin, porque se administran por alumno, en forma
individual, y el profesor debe esperar que ste responda o ejecute y
observarlo. Se usa mucho tiempo al tener un curso numeroso. No
obstante, hay objetivos donde no sirve otra prueba y es necesario
usarla. La prueba de ensayo es rpida de elaboracin y aplicacin,
pero el profesor demora mucho tiempo en corregirla. Todas las
pruebas en general son poco prcticas en algn sentido.
Ejemplo : Un profesor puede tener mucho cuidado al hacer una
prueba, toma en cuenta los objetivos, elabora preguntas muy
especficas, relaciona objetivos e tems y valida las preguntas con
un colega. Esa prueba puede carecer de objetividad de
construccin porque la elabor el docente solo y no en conjunto con
otros. Las reuniones por asignatura o por departamento pueden
ser utilizadas para elaborar pruebas en conjunto.

COMPARABILIDAD:

COEFICIENTES DE PERSONAS
El coeficiente intelectual, tambin conocido como cociente
intelectual, es un nmero que resulta de la realizacin de una
evaluacin estandarizada que permite medir las habilidades
cognitivas de una persona en relacin con su grupo de edad. Este
resultado se abrevia como CI o IQ, por el concepto ingls
Como estndar, se considera que el CI medio en un grupo de edad es
100. Esto quiere decir que una persona con un CI de 110 est por
sobre la media entre las personas de su edad. Lo ms normal es que
la desviacin tpica de los resultados sea de 15 o 16 puntos, ya que las
pruebas se disean de tal forma que la distribucin de los resultados
sea aproximadamente una distribucin normal. Se considera como
sper dotado a aquellos que se sitan por encima del 98% de la
gente.
Servira mucho definir previamente qu es la inteligencia. Para el
trmino inteligencia existen muchas definiciones. La que estableci
la American Psychological Association asegura que consiste en la
habilidad a travs de la cual los individuos son capaces de
comprender cosas complejas y de enfrentar y resolver ciertas
complicaciones a travs del razonamiento; de acuerdo a la capacidad
de cada persona se dice que es ms o menos inteligente que otra.
Cabe aclarar que segn esta definicin las capacidades intelectuales
de cada individuo varan al tiempo que lo hacen los problemas a los
que debe enfrentarse.
El Mainstream Science on Intelligence propuso una segunda
definicin, corroborada por ms de 50 investigadores. En ella se

postula que la inteligencia incluye las habilidades de razonar,


resolver problemas, pensar de forma abstracta, planear.
La inteligencia no se trata de la facultad para aprender de los libros,
nicamente, sino tambin de la destreza para resolver conflictos y
saber qu es lo que hay que hacer a cada momento.
Para poder establecer las facultades intelectuales de una persona se
deben realizar varios tipos de pruebas. En estas pruebas se incluyen
problemas con palabras o nmeros, formas y diseos, a fin de poder
definir la capacidad individual del CI del individuo.
Por otro lado, es necesario definir la inteligencia emocional para
comprender las diferencias entre CI de diferentes individuos. La IE
incluye habilidades como percepcin de los sentimientos (propios y
de las emociones del entorno), utilizacin de las emociones
(dominar los sentimientos con el fin de facilitar una actividad
cognitiva), entendimiento de las emociones (comprender el lenguaje
de los sentimientos y reconocer cmo evolucionan en el tiempo) y
control de las emociones (habilidad para manejar los sentimientos
propios en funcin de las necesidades, para alcanzar las metas que
se ha propuesto).
Segn algunos estudios desarrollados en la University College de
Londres, para saber si el CI se mantiene indeleble al paso del tiempo
o si se modifica, se ha descubierto que el valor del CI de una persona
cambia significativamente a medida que esta crece; en algunos casos
aumenta su valor y en otros disminuye.
Se descubri tambin que los cambios en el CI relacionado con el
lenguaje, se encuentran asociados con las variaciones en una
determinada regin del cerebro, ms precisamente en la corteza
motora izquierda. Por su parte, en lo referente a las pruebas no
verbales, se sabe que puede deberse a un aumento de la materia gris
que reside en el cerebelo anterior (la que controla la parte sensitiva y
motora del organismo).
Se sabe tambin que existen diferencias en el CI entre hombres y
mujeres, esto no significa claramente que uno sea ms inteligente
que otro, sino que poseen habilidades cognitivas diversas; lo mismo
ocurre en personas pertenecientes a unas y otras culturas, porque

ms all del aprendizaje social hay una determinada predisposicin


a desarrollar de una forma especfica el CI.

METODOS DEL TEST-RETEST


En el marco de la teora clsica de los tests, segn el modelo lineal
clsico propuesto por Charles Spearman (1904, 1907, 1913); la
puntuacin emprica (X) que obtiene un sujeto en un test, es la suma
de dos componentes: la puntuacin verdadera (V) y el inevitable
error de medida asociado al instrumento.3 Es decir, si a la
puntuacin emprica (obtenida en la prueba) se le elimina el error de
medida, se obtendr la puntuacin verdadera. En este contexto, la
fiabilidad hace referencia a la proporcin de la varianza verdadera,
es decir, la parte de la varianza total que los tems discriminan por lo
que tienen en comn.4 Siguiendo este razonamiento, obtendramos:

\rho_{xx'} = \frac{{\sigma}^2_V}{{\sigma}^2_X} = 1 - \frac{


\sigma^2_E }{ \sigma^2_X }
donde \rho_{xx'} es el smbolo de la fiabilidad de las puntuaciones
observadas (X); y \sigma^2_X, \sigma^2_V, y \sigma^2_E son las
varianzas de las puntuaciones empricas, verdaderas y de error,
respectivamente. Dado que no existe modo alguno de determinar la
puntuacin verdadera directamente, existe una serie de mtodos
para realizar una estimacin de la fiabilidad.
Test-retest
Con este mtodo el coeficiente de fiabilidad se calcula pasando
mismo test dos veces a los mismos sujetos. Se pueden pasar
inmediatamente, o dejando un intervalo de tiempo entre el test y el
retest. Despus se calcula la correlacin de Pearson entre las
puntuaciones de ambas aplicaciones, y el resultado obtenido ser el
coeficiente de fiabilidad. Se considera un caso especfico de formas
paralelas, dado que evidentemente un test es paralelo a s mismo. Al
resultado obtenido se le denomina coeficiente de estabilidad, al
servir de indicador de hasta qu punto son estables las mediciones
realizadas durante la primera aplicacin del test. Las diferencias en

los resultados se atribuyen al grado de consistencia interna o


muestreo de los tems de la prueba en el caso de pasar el retest de
forma inmediata, y se le suman las fluctuaciones en el tiempo en el
caso del intervalo temporal.
Dejar transcurrir un espacio de tiempo excesivo entre ambas
aplicaciones puede suponer una amenaza a la validez interna por las
posibles influencias externas a la que pueden estar expuestos los
sujetos durante el intervalo, y que pueden afectar a su desempeo en
la segunda aplicacin. En el extremo opuesto, una aplicacin
demasiado apresurada del retest podra afectar igualmente a la
validez interna, en este caso por los posibles efectos del recuerdo
reciente de la primera aplicacin. La eleccin del intervalo de tiempo
adecuado entre ambas aplicaciones depender en gran medida del
tipo de test, ya que en funcin de su formato puede ser ms sensible
al efecto de una u otra amenaza.2
A diferencia de los anteriores, este mtodo slo requiere una
aplicacin del test. Tras obtener las puntuaciones obtenidas por los
sujetos en cada una de las dos mitades en que se habr dividido, se
procede a calcular la correlacin entre las dos puntuaciones. El
resultado obtenido ser un indicador de la covariacin entre ambas
mitades, es decir, de la consistencia interna del test. La principal
dificultad de este sistema es asegurarse de que ambas mitades sean
efectivamente paralelas. Un sistema habitual es dividir el test entre
los tems pares y los impares; no es recomendable dividirlo sin ms
por la mitad, dado que muchos tests muestran un incremento
gradual de la dificultad de sus tems .

También podría gustarte