Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Manual de Medición y Evaluación Psicologica
Manual de Medición y Evaluación Psicologica
Lewis R. Aiken:
La utilizacin ms rentable del mtodo estadstico ha sido la construccin,
aplicacin y evaluacin de las pruebas psicolgicas, particularmente debido a las funciones
que estas tienen: de diagnstico, de seleccin, de ubicacin y promocin, de decisiones
prcticas y de investigacin.
Como nota histrica interesante: en 1991, la cifra total de ventas para los tests
estandarizados aplicados en los grados, desde el jardn de nios hasta el bachillerato, se
calcul, segn la Asociacin Americana de Editores, en 134 millones de dlares!
Frederick G. Brown
Las personas difieren en sus caractersticas de personalidad y en sus habilidades
psicolgicas. As, los trminos usados en psicologa para describir a las personas se refieren
entonces a caractersticas que varan mucho unas de otras: inteligencia, agresividad,
habilidades para las matemticas, intereses mecnicos, introversin, etc.
Gloria Benedito
Habiendo una importacin de las matemticas a la psicologa, Basta con esa
importacin para decir que la psicologa ha adquirido cientificidad? An ahora prevalece
una suposicin de que la cientificidad de una disciplina depende del mtodo que sta
emplee (y ms si se trata de la cuantificacin). Esta suposicin tiene su origen en el
positivismo, movimiento filosfico fundado en 1844 por Augusto Comte, quien postulaba
ciertos principios para concebir a un conocimiento como cientfico, tales como un modelo
acumulativo, observacin de hechos, formulacin de leyes, precisin racional y dogma
progresista, que en conjunto definan lo que era ciencia, a saber: representacin formal del
objeto dado empricamente expresado a travs de un cdigo matemtico.
Anastasi Urbina
Un baremo es el resultado que se espera de una persona de determinada edad y que
pertenece a determinado grupo, construido segn procedimientos estadsticos que, a partir
de muestras representativas, determinan cules son los rendimientos tpicos o promedios de
ese grupo que servir de patrn de comparacin.
Ejemplo: al querer medir la memoria es preciso hacer una comparacin entre el
rendimiento de un sujeto respecto a esa facultad y el obtenido por el resto de los individuos
que integran el grupo al que pertenece.
Utilidad
Sobreestimacin. Posicin cmoda porque no hay que sopesar una gran variedad de
factores.
Desvalorizacin. Se cree en la inutilidad de las mismas porque depender de ellas
puede traer como consecuencia tomar decisiones erradas.
Las pruebas como algo antidemocrtico y como una intrusin en la vida privada. Se
cree que ciertas caractersticas de personalidad no se relacionan necesariamente con
el xito y que las actitudes de un individuo son un asunto exclusivamente suyo.
Las pruebas
Muestras. Los reactivos de la prueba son una muestra de todos los reactivos
posibles en un dominio particular.
Signos. Enfatizan la naturaleza de la caracterstica que se mide.
Predictoras. Predicen una conducta a futuro.
TIPOS DE PRUEBAS
Factores a considerar
Una prueba mide slo la conducta registrada por ella, esto es, las respuestas dadas
por una persona a los reactivos de la prueba.
Una prueba contiene solamente una muestra de todos los reactivos posibles.
Ninguna prueba incluye todos los reactivos que podran desarrollarse para medir lo
que, a partir de ahora, denominaremos dominio conductual: agrupacin hipottica
de todos los reactivos posibles que cubren una determinada rea.
Exmenes
Tipo de
instrumento
Trabajo invertido
en la elaboracin
de un test
De capacidad
y personalidad
Propsitos
Planeacin del contenido antes de
redactar reactivos
Tests de observacin
Poblacin destino: quienes solicitan empleo
Incluye un anlisis de puestos: especificacin de los componentes de un puesto de
trabajo para desarrollar los reactivos del instrumento, y predecir con ellos, el
desempeo del empleado.
El instrumento resultante es una muestra representativa de los comportamientos que
resultan importantes para ocupar un puesto de trabajo determinado
Tests de inteligencia
Sus reactivos se desarrollan:
De acuerdo a una teora especfica del comportamiento inteligente
Refirindose a los tipos de tareas que se supone las personas ms inteligentes
realizan con mayor eficacia que aquellas menos inteligentes
Tests de rendimiento
Evalan y motivan a los estudiantes y proporcionan informacin sobre el grado de avance
de los objetivos educativos
En cuanto a las pruebas de rendimiento, mejor conocidas como exmenes (las pruebas
escolares que se aplican en las instituciones educativas) deben considerarse varios
aspectos: objetivos educativos basados en taxonomas; tabla de especificaciones;
contexto curricular, en el cual, este tipo de pruebas se hayan circunscritas; aspectos
prcticos, etc.
CONOCER
COMPRENDER
EVALUAR
OBJETIVOS
COGNOSCITIVOS
SINTETIZAR
APLICAR
ANALIZAR
10
VERBOS
SIGNIFICADO
REACTIVO
Definir,
Recuerdo de hechos
Menciona las seis categoras
Identificar,
especficos
principales de la taxonoma de
Mencionar,
Bloom
Nombrar, etc.
Comprensin Convertir,
Entendimiento del
Explique lo que quiere decir el
Explicar, significado o propsito de revisor de pruebas cuando dice
Resumir, etc.
algo
que una prueba no es confiable
Aplicacin
Calcular,
Uso de informacin e Calcule la media y la desviacin
Determinar,
ideas en nuevas
estndar del siguiente grupo de
Resolver, etc.
situaciones
calificaciones
Anlisis
Diferenciar, Dividir algo para revelar
Analiza esta unidad de
Relacionar, etc.
su estructura y la
instrucciones en las distintas
interrelacin de sus partes categoras conductuales y de
contenido
Sntesis
Disear,
Combinar los distintos
Disee una tabla de
Desarrollar,
elementos de un todo
especificaciones para una
Formular,
estructural
prueba sobre estadstica
Planear, etc.
elemental
Evaluacin
Comparar,
Realizar un juicio con
Evala el procedimiento
Criticar,
base al razonamiento utilizado para la estandarizacin
Evaluar, etc.
de esta prueba
OBJETIVOS
Conocimiento
TEMAS
Tendencias
sociales
Eventos polticos
nacionales
Mtodos de
investigacin
Principales
aspectos polticos
Total de
preguntas
HABILIDADES EVALUADAS
Comprender
Hacer
Localizar
Interpretar Total de
conceptos generalizaciones informacin
grficas preguntas
4
4
1
1
10
2
10
15
10
14
10
40
11
MOTIVACIN
EXMENES
FUENTE
DE
INFORMACIN
Con relacin a los exmenes deben considerarse diferentes factores, todos ellos
relacionados con los objetivos educativos del programa de estudio de que se trate.
Temas y subtemas
Las preguntas que deben de hacerse
El docente, al momento de hacer
una prueba, deber considerar los
siguientes factores
El formato
Cundo, dnde y cmo
Forma de calificar
Objetivos
educativos
12
En cualquier caso, uno como docente debe atender siempre a los propsitos que el
programa de estudios plantea con relacin a los temas y subtemas que se vern en el curso,
porque los primeros expresan lo que pretende lograrse en los estudiantes con la revisin de
los segundos.
Exmenes con reactivos que midan los temas y subtemas segn el nivel
sealado por el programa de estudios
14
Pruebas orales.
Ventajas:
Situacin social interactiva
Respuestas a un nivel intelectual ms alto
Prctica en la comunicacin oral
Revisin ms detallada del material
El tiempo de evaluacin es pequeo
Desventajas:
Ineficaces
Falta de exactitud psicomtrica
Consumen mucho tiempo
Muestra limitada de respuestas
Mal planeadas
15
Retro-alimentacin
Una vez que se califican las pruebas y se hace entrega de los resultados, resulta
ms til explicarles a los estudiantes en qu se equivocaron en lugar de explicarles en qu
acertaron, pero resulta todava ms til explicarles por qu se equivocaron. Por qu?
Porque de ese modo pueden aprender estrategias ms convenientes para la prxima vez.
Preguntas gua para
mejorar
la comunicacin de la
retro-alimentacin
RETROALIMENTACIN
Cul es el error?
Cul es la razn probable por la que el alumno
comete ese error?
Cmo puedo guiar al alumno para evitar el error en
el futuro?
Qu hizo bien el alumno que se pueda hacer notar?
Comentarios especficos
sobre errores o estrategias
negativas
16
TIPOS DE REACTIVOS
Preparacin de los reactivos del Instrumento. Todos los reactivos de pruebas representan
procedimientos para obtener informacin sobre los individuos, pero la cantidad y clase de
informacin varia de acuerdo con la naturaleza de las tareas que implican los distintos tipos
de reactivos. Pedir a los sujetos que comparen la Batalla Bulges con la Batalla de Hastings
exige una clase de respuesta diferente que aquella que se obtiene cuando slo se les pide
que indiquen, de entre una serie de eventos, aquellos que ocurrieron en cada batalla. El
primer reactivo o tem requiere de capacidades complejas de integracin y organizacin, en
tanto que para contestar el segundo solo se necesita memoria cognoscitiva.
Se han sugerido distintos mtodos para clasificar los reactivos de acuerdo con el
formato, o la forma en que se requiere la respuesta. Completamiento o llenado contra
seleccin, recuerdo contra conocimiento y construccin de respuesta contra identificacin
son maneras de diferenciar entre los reactivos en los cuales se requiere que los sujetos
escriban o elaboren una respuesta y aquellos en los cuales se les pide indiquen cul es la
alternativa correcta. Otro mtodo popular para clasificar los reactivos es ensayo contra
objetivo. Todos los reactivos de ensayo son del tipo de completamiento o llenado porque la
respuesta del sujeto es una respuesta construida.
Sin embargo, los reactivos objetivos pueden ser del tipo de llenado,
completamiento, de seleccin, dependiendo de si los sujetos deben elaborar una respuesta o
slo seleccionar la mejor respuesta de una serie de alternativas. El rasgo crucial de los
reactivos objetivos no es la forma de respuesta, sino qu tan objetivamente pueden
calificarse. Con frecuencia, dos o ms calificadores de un reactivo de ensayo estn en
desacuerdo hasta cierto punto sobre lo correcto de una respuesta determinada y cuntos
puntos debe recibir. Pero, a excepcin de los errores de oficina, los distintos calificadores
de una prueba objetiva darn la misma calificacin a un reactivo dado.
Ejemplos de distintos tipos de reactivos de prueba
I. Reactivos de ensayo: escriba una respuesta de media pgina para cada reactivo.
1. Compare las ventajas y desventajas de los reactivos de ensayo y objetivos para pruebas.
2. Explique las razones para realizar un anlisis de reactivos de una prueba aplicable en el
saln de clases.
II. Reactivos objetivos
A. Respuesta corta: escriba la (s) palabras (s) apropiada (s) en cada espacio.
1. Lo nico que es objetivo sobre una prueba objetiva es el _____________________.
2. Cul es el primer paso formal en la elaboracin de una prueba para predecir el grado
de xito en un trabajo en particular? ________________________________.
17
F
F
A. Binet
B. Darwin
C. Galton
D. Otis
E. Pearson
F. Rorschach
G. Spearman
H. Strong
I. Woodworth
Los adverbios como nunca, a veces y siempre, que revelan la respuesta a una
persona sin informacin sobre la materia del reactivo, se llaman
A.
C.
generalidades brillantes
adverbios de enlace
2.
Jimmy, que tiene 8 aos 4 meses de edad, obtiene una calificacin de edad mental
de 9 aos 5 meses. De acuerdo con el texto, cul es su CI promedio?
A.
C.
88
90
B.
D.
B.
D.
grupos de respuestas
determinantes especficos
113
120
tal vez no proporcionen un muestreo adecuado del conocimiento sobre la materia que
tienen las personas. Otras desventajas de estos instrumentos son que la calificacin es
subjetiva; toma mucho tiempo y son susceptibles al engao por parte de sujetos con
facilidad de palabra, pero que carecen de informacin.
Un profesor de historia que conozco, en una ocasin inform haber aplicado un
instrumento de ensayo que inclua la pregunta, Cules fueron las causas y consecuencias
de la Batalla de Hastings? Un alumno flojo que no haba tenido tiempo de llegar mas atrs
del siglo XVI al estudiar la historia de Inglaterra empez la respuesta a esta pregunta con la
afirmacin, No puedo comentar sobre la Batalla de Hastings, pero prestemos atencin a la
Guerra de los Cien Aos. Este es un ejemplo bastante flagrante de la tendencia que
presentan personas que no cuentan con informacin suficiente al responder de manera
ligeramente diferente a la pregunta hecha con objeto de enfatizar lo que s saben, en lugar
de lo que no conocen.
Por regla general, no deben utilizarse los reactivos de ensayo cuando es posible
realizar la misma evaluacin con reactivos objetivos. Si se hacen preguntas de ensayo, la
persona que redacta los reactivos debe tratar de realizar las preguntas objetivas. Esto puede
lograrse al 1) definir la tarea y redactar los reactivos en forma clara, por ejemplo, pidiendo
al sujeto que compare y explique en lugar de que analice; 2) utilizar una cantidad
reducida de reactivos, debern responder todas las personas; 3) estructurar los reactivos de
manera que los expertos en la materia estn de acuerdo en que una respuesta es mejor que
otra de forma demostrable y 4) pedir a las personas que respondan cada reactivo en una
hoja de papel separada.
Una forma de manejar este problema, aunque representa mucho trabajo tanto para las
personas que presentan la prueba como para quienes la califican, es el famoso
procedimiento chino para los exmenes en el que se pide a los sujetos que escriban todo
lo que saben!
19
cuidado de omitir las claves irrelevantes para la respuesta correcta y evitar reactivos que se
interrelacionen y se entrelacen. Los reactivos se interrelacionan cuando la redaccin de uno
de estos ofrece una clave para la respuesta de otro. Los reactivos se entrelazan cuando es
necesario saber la respuesta correcta de uno con objeto de contestar otro en forma correcta.
3. Reactivos de falso y verdadero. Uno de los tipos de reactivos para pruebas que son ms
sencillos de elaborar, pero que quiz sean los que menos agradan a los profesionales que
aplican las pruebas, son los de falso y verdadero. Estos reactivos pueden redactarse y
leerse con rapidez y, por tanto, permiten un muestreo extenso del contenido. Una
desventaja importante de estos reactivos es que, con frecuencia, se ocupan de informacin
trivial o se elaboran con afirmaciones que se toman al pie de la letra de los libros de texto.
Como consecuencia, se dice que alientan el aprendizaje de memoria. Otro motivo de crtica
para los reactivos de falso y verdadero es que con frecuencia son ambiguos, no pueden
utilizarse para medir objetivos de enseanza ms complejos y, al basarse en el aprendizaje
de memoria, dan una direccin errnea a los esfuerzos por aprender; adems, ya que la
calificacin total de una prueba de falso y verdadero puede verse afectada por la tendencia
del sujeto a adivinar cuando tiene duda o a estar de acuerdo (o en desacuerdo), el
significado de sta puede ponerse en entredicho.
20
21
8. Haga que las respuestas incorrectas sean ms atractivas al redactar los reactivos de
modo que la lgica superficial, los errores populares y los determinantes especficos
sugieran que las respuestas errneas son correctas. Las afirmaciones falsas que parecen
verdaderas tambin pueden hacer que se equivoquen las personas sin conocimientos.
5. Reactivos de opcin mltiple. Nadie sabe quien elabor el primer reactivo de prueba de
opcin mltiple, pero desde el punto de vista de la evaluacin psicolgica se trat de un
22
evento importante. Los reactivos de opcin mltiple son los ms verstiles de todos los
reactivos para las pruebas objetivas en el sentido que pueden utilizarse para medir los
objetivos de aprendizaje complejos y sencillos en todos los niveles y en cualquier materia.
A pesar de que la elaboracin de una respuesta para un reactivo de ensayo quiz requiera de
mayor habilidad para la organizacin que la respuesta para un reactivo de opcin mltiple,
responder en forma correcta un reactivo de opcin mltiple bien elaborado, requiere de
gran capacidad para la discriminacin y no slo para reconocer o recordar la respuesta
adecuada. Las calificaciones para este tipo de reactivos se ven menos afectadas por la
adivinacin y otros grupos de respuesta que las calificaciones para otros tipos de reactivos
objetivos. Adems, puede obtenerse informacin de diagnstico til a partir de un anlisis
de las opciones incorrectas (distractores) que eligen las personas.
Entre las desventajas de los reactivos de opcin mltiple se encuentra que: 1) es
difcil elaborar los reactivos adecuados, en especial aquellos donde todas las opciones
tengan el mismo atractivo para los sujetos que no conocen 1a respuesta correcta; 2)
enfatizan el reconocimiento ms que el recuerdo y organizacin de la informacin; y 3)
requieren de ms tiempo para contestarse y quizs ofrecen una muestra menos adecuada del
rea de la materia que los reactivos de falso y verdadero. Tambin se establece, aunque no
se ha comprobado, que las pruebas de opcin mltiple favorecen a los lectores astutos,
ingeniosos y rpidos y afectan a las personas que piensan con mayor profundidad las
respuestas (Hoffman, 1962).
Los lineamientos siguientes deben facilitar la elaboracin de reactivos de opcin
mltiple de alta calidad:
1. Debe utilizarse como tronco una pregunta o afirmacin incompleta, pero se prefiere el
formato de pregunta. En una afirmacin incompleta, coloque el espacio en blanco al
final del reactivo.
2. Establezca en el tronco, el problema especfico de la pregunta o afirmacin incompleta
de manera clara y en un nivel apropiado para las personas; evite tomar al pie de la letra
preguntas o afirmaciones de los libros de texto.
3. Coloque la mayor parte del reactivo en el tronco. No tiene caso repetir las mismas
palabras en todos los conceptos. Para las personas es menos difcil revisar las opciones
ms cortas.
4. Emplee pocas preguntas de opinin; cuando las utilice, cite la fuente o el libro de texto
de donde proviene la opinin.
5. Por lo general se utilizan cuatro o cinco opciones, pero tambin pueden redactarse slo
dos o tres opciones.
6. Si las opciones tienen un orden natural, como fechas o pocas, se recomienda
ordenarlos de acuerdo con ste. De otra manera, ordene las opciones de modo aleatorio
o alfabticamente (si esta ultima no proporciona alguna clave para las respuestas
correctas).
Es probable que el crdito por la creacin del formato de reactivos de opcin mltiple
corresponda a Arthur Otis, quien al parecer, lo utiliz por primera vez en su prueba de
inteligencia en grupo en 1916-1917.
23
7. Redacte todas las opciones de respuesta de modo que tengan una longitud, ms o menos
igual, que sean correctas en el aspecto gramatical y que sean apropiadas en relacin con
el tronco. Sin embargo, no permita que el tronco revele la opcin correcta mediante
asociaciones verbales u otras claves.
8. Haga que todas las opciones sean posibles para las personas que no conocen la
respuesta correcta, pero que slo una opcin sea la correcta o "la mejor".
9. Al elaborar cada distractor, formule una razn por la cual un sujeto que no conoce la
respuesta correcta podra seleccionarlo.
10. Evite, o por lo menos reduzca al mnimo, el uso de expresiones como no tanto en el
tronco como en las opciones.
11. A pesar de que es apropiada cierta cantidad de originalidad e incluso humor y puede
servir para interesar y motivar a las personas, no deben utilizarse troncos y opciones
ambiguas ni capciosas.
12. Use poco las expresiones ninguna de las anteriores, todas las anteriores o ms de
una de las anteriores. Tambin evite los determinantes especficos como siempre o
nunca.
13. Coloque las opciones en formato (prrafo) de grupo en lugar de una tras otra; utilice
nmeros para designar los reactivos y letras para las opciones.
14. Prepare la cantidad correcta de reactivos para el grado o nivel de edad que se pondr a
prueba, haciendo que cada reactivo sea independiente de los dems (que no se
entrelacen ni se interrelacionen).
Con slo seguir estos lineamientos, que son sobre todo producto de la lgica y la
experiencia ms que de la investigacin, no asegura la elaboracin de una prueba de opcin
mltiple adecuada; en lugar de obedecer a ciegas un conjunto de reglas, la capacidad para
redactar reactivos adecuados depende tanto o ms del conocimiento de la materia que
abarca la prueba, de entender lo que los alumnos deben saber sobre la materia, del arte o la
habilidad para hacer preguntas, etc. An cuando los lineamientos no se sigan con precisin,
los reactivos de opcin mltiple tienden a ser bastante eficaces para medir el conocimiento
y la comprensin1.
Pueden encontrarse ejemplos de esta clase de reactivos en Woolfolk, Anita E. (1999), Psicologa educativa.
Prentice Hall: Mxico.
24
c. psicomtrico
d. social
25
a. 2.00
b. 0.50
c. 0.50
d. 2.00
4. Falso y verdadero mltiple. El examinando decide si una, todas o ninguna de las dos
o ms condiciones o afirmaciones mencionadas en el tronco es (son) correcta (s):
Es cierto que 1) Alfred Binet es el padre de las pruebas de inteligencia y 2) su
primera prueba de inteligencia se public en 1916?
a. ambas, 1 y 2
b. 1 pero no 2
c. 1 no, pero 2 s
d. ni 1 ni 2
c. Carl Jung
d. Carl Rogers
_________________________________________________________________________
Tomado textualmente de: Aiken, Lewis R. (1996). Tests psicolgicos y Evaluacin.
Mxico: Prentice Hall, pginas 29 a 37.
26
35
38 43 45 50
57
Mo = 35
Ejercicio 1. Hallar la moda en los siguientes datos:
16
18
15 20 16
a) No. Impar: N + 1 / 2
Para calcularla
b) No. Par: Media de los valores
centrales
Ejemplos:
Habindose ordenado los datos en forma creciente (o decreciente), se aplica
la frmula del inciso a dado que el nmero de datos es impar.
27
24 31 35 35
38 43 45 50
Mdn = 9 + 1 / 2 = 5
57
La mediana es 38
10 10 12 13
15
M = 10 +12 / 2 = 11
La mediana es 11
30
28 26 32
Ejemplo:
10
8 6 5
10
M = 10 + 8 + 6 + 5 + 10 + 7 / 6 = 8
Cuando los datos estn agrupados en intervalos, la media se calcula as:
1. Se obtiene el punto medio de cada intervalo.
2. Se multiplica cada punto medio por las frecuencias correspondientes.
3. Se aplica la siguiente frmula: M = fx / N
Ejemplo:
28
INTERVALOS
fx
13 15
10 12
79
46
1-3
3
4
9
2
1
N = 19
14
11
8
5
2
42
44
72
10
2
fx = 170
M = 170 / 19 = 8.95
Ejercicio 3. Con la siguiente distribucin de frecuencias, que muestra
espesores en pulgadas de recipientes de acero, hallar la media aritmtica.
Espesores en
pulgadas
0.327 0.330
0.323 0.326
0.319 0.322
0.315 0.318
0.311 0.314
0.307 0.310
f
1
14
22
5
5
3
MEDIDAS DE DISPERSIN
4 5
5 5 6
7 20
R = 16
2
4 6 7
9 12 14
15
R = 13
20
25 30 35,
el cual, presenta una M de 20. La desviacin de cada uno de esos datos con
respecto a su media los presentamos en el siguiente cuadro:
X
XM=d
5
5 - 20
- 15
10
10 - 20
- 10
15
15 - 20
-5
20
20 - 20
0
25
25 - 20
5
30
30 - 20
10
35
35 - 20
15
(X M)2 / N
30
Procedimiento:
1.
2.
3.
4.
Ejemplo:
Las calificaciones en Teora de la medida.
M = 40 / 7 = 5.71
X
9
7
6
6
5
4
3
X = 40
s=
(X M)2
10.82
1.66
0.08
0.08
0.50
2.92
7.34
(X M)2 = 23.40
X-M
3.29
1.29
0.29
0.29
- 0.71
- 1.71
- 2.71
23.40 / 7 = 1.83
s2 = 3. 34
Ejercicio 4. Siendo su M de 9.5, hallar la desviacin estndar y la varianza de
la siguiente serie de datos:
10 18
15
12 3
6 5 7
31
f (X M)2 / N
Ejemplo:
M = 8.95
INTERVALOS
13 15
10 12
79
46
13
s=
f
3
4
9
2
1
N = 19
180.9475 / 19
X
14
11
8
5
2
9.5235
X -M
5.05
2.05
- 0.95
- 3.95
- 6.95
(X M)2
25.5025
4.2025
0.9025
15.6025
48.3025
f (X M)2
76.5075
16.81
8.1225
31.205
48.3025
f (X M)2
= 180.9475
= 3.08
s2 = 9.48
Ejercicio 5. Siendo su M de 26.04, hallar la desviacin estndar y la varianza
para la siguiente distribucin de frecuencias.
INTERVALOS
34 - 39
28 33
22 27
16 21
10 15
f
6
10
13
8
2
32
CASO PRCTICO:
Supngase que se utiliz una escala de actitudes para medir la actitud hacia
el presidente entre dos grupos pertenecientes a una misma nacin, en la cual,
se utilizaron 18 reactivos con un rango potencial de 1 a 5:
Actitud
totalmente
desfavorable
Actitud
totalmente
favorable
1
Grupo B:
- variable: la misma
- Moda: 1
- Mediana: 1.5
- Media: 1.3
- Desviacin estndar: 0.4
- Puntuacin mxima: 3.0
- Puntuacin mnima: 1.0
Rango: 2
33
CIGARROS
(X)
0
0
0
10
13
20
27
35
35
44
53
60
297
DAS
(Y)
1
3
8
10
4
14
5
6
12
16
10
16
105
X2
Y2
XY
0
0
0
100
169
400
729
1225
1225
1936
2809
3600
12193
1
9
64
100
16
196
25
36
144
256
100
256
1203
0
0
0
100
52
280
135
210
420
704
530
960
3391
34
Espesores en
pulgadas
fX
0.327 0.330
0.323 0.326
0.319 0.322
0.315 0.318
0.311 0.314
0.307 0.310
1
14
22
5
5
3
N=50
0.3285
0.3245
0.3205
0.3165
0.3125
0.3085
0.3285
4.5430
7.0510
1.5825
1.5625
0.9255
fX=15.9930
M = 15.9930 / 50 = 0.3199
4.
X
10
18
15
12
3
6
5
7
X = 8
s = 190 / 8 = 4.87 s2 = 23.75
5.
INTERVALOS
f
34 - 39
6
28 33
10
22 27
13
16 21
8
10 15
2
N =39
s=
1693 / 39 = 6.6
(X M)2
0.25
72.25
30.25
6.25
42.25
12.25
20.25
6.25
(X M)2 = 190
X-M
0.5
8.5
5.5
2.5
- 6.5
- 3.5
- 4.5
- 2.5
X
36.5
30.5
24.5
18.5
12.5
(X M)2
109.4116
19.8916
2.3716
56.8516
183.3316
X -M
10.46
4.46
- 1.54
- 7.54
-13.54
f (X M)2
656.5
168.1
46.9
454.8
366.7
f (X M)2 =
1693
s2 = 43.4
Mo 4
Mdn
3.9
M 4.2
R3
Promedio de desviacin (s) 0.7
Mo 1
Mdn
1.5
M 1.3
R2
Promedio de desviacin (s) 0.4
35
- Parte 1 de 2 Dado un conjunto de datos que se distribuyen en forma normal, con media (M) y
desviacin estndar (s), se convierte el dato X en dato z2, mediante la expresin:
Z=X-M/s
S X > M, z es positivo. S X = M, z = 0. Si X < M, z es negativo.
Por ejemplo, si M = 70 y s = 10, la conversin de los valores 60, 70 y 80 en datos z es la
siguiente:
z = 60 - 70 / 10 = -1
z = 70 - 70 / 10 = 0
z = 80 - 70 / 10 = 1
2
Las calificaciones brutas se transforman con frecuencia a otras escalas, para facilitar el anlisis y
la interpretacin. Estas calificaciones, como sucede en el caso de las calificaciones estndar, se
llaman derivadas o transformadas. Una calificacin estndar (z) expresa la ejecucin de una
persona en funcin de su desviacin de la media en unidades de desviacin estndar. Estas
calificaciones derivadas en particular tienen varias ventajas:
1. Miden en una escala de intervalos (al expresar la ejecucin en trminos de unidades de
desviacin estndar se transforman las calificaciones brutas en una escala de unidades de igual
medida), y
2. Nos permiten comparar calificaciones de varias pruebas en forma directa, incluso cuando
tengan medias y desviaciones estndar diferentes. Un ejemplo ilustrar mejor esta ventaja:
Tenemos el caso donde se desea comparar una distribucin obtenida en una preprueba con otra
obtenida en una postprueba (en un contexto experimental). Supongamos que se trata de un
estmulo que incrementa la productividad. Un trabajador obtuvo en la preprueba una
productividad de 130 (la media del grupo fue de 122.5 y la desviacin estndar de 10). Y en la
postprueba obtuvo 135 (la media del grupo fue de 140 y la desviacin estndar de 9.8). Mejor
la productividad del trabajador? Aparentemente la mejora no es considerable. Sin transformar
las 2 calificaciones en puntuaciones "z" no podemos asegurarlo porque los valores no
pertenecen a la misma distribucin. Entonces transformamos ambos valores a puntuaciones "z"
donde la comparacin es vlida. El valor de 130 en productividad es en trminos de unidades de
desviacin estndar igual a:
z = 130 - 122.5 / 10 = 0.75
Y el valor de 135 corresponde a una puntuacin "z" de:
z = 135 - 140 / 9.8 = 0.51
Como podemos observar, en trminos absolutos 135 es una mejor puntuacin que 130, pero no
en trminos relativos (en relacin a sus respectivas distribuciones).
36
la media y un valor
es aproximadamente
la media y un valor
es aproximadamente
Por ejemplo:
3
En resumen, z indica el nmero de desviaciones estndar que hay entre un valor dado y la media;
por arriba de la media si z es positivo y por abajo si z es negativo.
4
Simblicamente: entre X y M + 2s se encuentra el 47.72% del total de datos y entre X y M + 3s se
encuentra el 49.87% del total de datos.
37
PROBLEMA:
38
Resuelto este caso observe que, entre los nmeros M - 3s y M +3s se encuentra el 99.74% de los
datos.
39
- Parte 2 de 2 -
Para el mismo conjunto de 500 datos que se distribuyen en forma normal con
M = 65 y s = 11, tambin pueden darse los siguientes casos:
1.
2.
3.
4.
5.
6.
7.
40
41
APENDICE
TABLA DE REAS BAJO LA CURVA NORMAL
z
0.0
0.1
0.2
0.3
0.4
0.00
0.0000
0.0398
0.0793
0.1179
0.1554
.01
0.0040
0.0438
0.0832
0.1217
0.1591
.02
0.0080
0.0478
0.0871
0.1255
0.1628
.03
0.0120
0.0517
0.0910
0.1293
0.1664
.04
0.0160
0.0557
0.0948
0.1331
0.1700
.05
0.0199
0.0596
0.0987
0.1368
0.1736
.06
0.0239
0.0636
0.1026
0.1406
0.1772
.07
0.0279
0.0675
0.1064
0.1443
0.1808
.08
0.0319
0.0714
0.1103
0.1480
0.1844
.09
0.0359
0.0754
0.1141
0.1517
0.1879
0.5
0.6
0.7
0.8
0.9
0.1915
0.2258
0.2580
0.2881
0.3159
0.1950
0.2291
0.2612
0.2910
0.3186
0.1985
0.2324
0.2642
0.2939
0.3212
0.2019
0.2357
0.2673
0.2967
0.3238
0.2054
0.2389
0.2704
0.2996
0.3264
0.2088
0.2422
0.2734
0.3023
0.3289
0.2123
0.2454
0.2764
0.3051
0.3315
0.2157
0.2486
0.2794
0.3078
0.3340
0.2190
0.2518
0.2823
0.3106
0.3365
0.2224
0.2549
0.2852
0.3133
0.3389
1.0
1.1
1.2
1.3
1.4
0.3413
0.3643
0.3849
0.4032
0.4192
0.3438
0.3665
0.3869
0.4049
0.4207
0.3461
0.3686
0.3888
0.4066
0.4222
0.3485
0.3708
0.3907
0.4082
0.4236
0.3508
0.3729
0.3925
0.4099
0.4251
0.3531
0.3749
0.3944
0.4115
0.4265
0.3554
0.3770
0.3962
0.4131
0.4279
0.3577
0.3790
0.3980
0.4147
0.4292
0.3599
0.3810
0.3997
0.4162
0.4306
0.3621
0.3830
0.4015
0.4177
0.4319
1.5
1.6
1.7
1.8
1.9
0.4332
0.4452
0.4554
0.4641
0.4713
0.4345
0.4463
0.4564
0.4649
0.4719
0.4357
0.4474
0.4573
0.4656
0.4726
0.4370
0.4484
0.4582
0.4664
0.4732
0.4382
0.4495
0.4591
0.4671
0.4738
0.4394
0.4505
0.4599
0.4678
0.4744
0.4406
0.4515
0.4608
0.4686
0.4750
0.4418
0.4525
0.4616
0.4693
0.4756
0.4429
0.4535
0.4625
0.4699
0.4761
0.4441
0.4545
0.4633
0.4706
0.4767
2.0
2.1
2.2
2.3
2.4
0.4772
0.4821
0.4861
0.4893
0.4918
0.4778
0.4826
0.4864
0.4896
0.4920
0.4783
0.4830
0.4868
0.4898
0.4922
0.4788
0.4834
0.4871
0.4901
0.4925
0.4793
0.4838
0.4875
0.4904
0.4927
0.4798
0.4842
0.4878
0.4906
0.4929
0.4803
0.4846
0.4881
0.4909
0.4931
0.4808
0.4850
0.4884
0.4911
0.4932
0.4812
0.4854
0.4887
0.4913
0.4934
0.4817
0.4857
0.4890
0.4916
0.4936
2.5
2.6
2.7
2.8
2.9
0.4938
0.4953
0.4965
0.4974
0.4981
0.4940
0.4955
0.4966
0.4975
0.4982
0.4941
0.4956
0.4967
0.4976
0.4982
0.4943
0.4957
0.4968
0.4977
0.4983
0.4945
0.4959
0.4969
0.4977
0.4984
0.4946
0.4960
0.4970
0.4978
0.4984
0.4948
0.4961
0.4971
0.4979
0.4985
0.4949
0.4962
0.4972
0.4979
0.4985
0.4951
0.4963
0.4973
0.4980
0.4986
0.4952
0.4964
0.4974
0.4981
0.4986
3.0
3.1
3.2
3.3
3.4
0.4987
0.4990
0.4993
0.4995
0.4997
0.4987
0.4991
0.4993
0.4995
0.4997
0.4987
0.4991
0.4994
0.4995
0.4997
0.4988
0.4991
0.4994
0.4996
0.4997
0.4988
0.4992
0.4994
0.4996
0.4997
0.4989
0.4992
0.4994
0.4996
0.4997
0.4989
0.4992
0.4994
0.4996
0.4997
0.4989
0.4992
0.4995
0.4996
0.4997
0.4990
0.4993
0.4995
0.4996
0.4997
0.4990
0.4993
0.4995
0.4997
0.4998
3.5
3.6
3.7
3.8
3.9
0.4998
0.4998
0.4999
0.4999
0.5000
0.4998
0.4998
0.4999
0.4999
0.5000
0.4998
0.4999
0.4999
0.4999
0.5000
0.4998
0.4999
0.4999
0.4999
0.5000
0.4998
0.4999
0.4999
0.4999
0.5000
0.4998
0.4999
0.4999
0.4999
0.5000
0.4998
0.4999
0.4999
0.4999
0.5000
0.4998
0.4999
0.4999
0.4999
0.5000
0.4998
0.4999
0.4999
0.4999
0.5000
0.4998
0.4999
0.4999
0.4999
0.5000
42
A. De la parte 1:
1. 41.31%
2. En una distribucin normal, arriba y debajo de la media se encuentra el 50% del total de
datos. Por tanto, 50% de los datos son valores mayores que 65.
3. El 49.87% del total de datos son valores comprendidos entre 65 y 98.
B. De la parte 2:
1. Como el 38.10% son valores comprendidos entre 52 y 65 y como el 42.65% son valores
comprendidos entre 65 y 82, entonces la suma de estos porcentajes es el porcentaje de
datos entre 52 y 81. Por tanto, el 80.75% son valores comprendidos entre 52 y 81
(38.10 + 42.65 = 80.75).
2. Como el 46.56% son valores entre 65 y 85 y como el 17.36% son valores entre 65 y 70,
entonces la diferencia entre estos porcentajes es el porcentaje de datos entre 70 y 85.
Por tanto, el 29.20% son valores comprendidos entre 70 y 85 (46.56 - 17.36 = 29.20).
3. Como el 47.19% son valores comprendidos entre 44 y 65 y como el 23.89% son valores
comprendidos entre 58 y 65, entonces la diferencia entre estos porcentajes es el
porcentaje de datos entre 44 y 58. Por tanto, el 23.30% son valores comprendidos entre
44 y 58 (47.19 - 23.89 = 23.30).
Bibliografia
43
Otras consideraciones:
adivinar,
E
R
R
O
R
E
S
Tipos de
valoracin
Para una prueba formada por partes con diferentes contenidos o reactivos no slo
debe considerarse la obtencin de calificaciones para cada una de esas partes, sino
tambin la obtencin de una calificacin, que implique a todas esas partes como un
todo. De ah el presupuesto de que, el puntaje dado debe variar segn el tipo de
reactivo y la calidad de las respuestas.
S = R W
K1
S = R
W
2(K1)
Donde:
S = Calif. Corregida
R = Nmero de reactivos contestados correctamente
W = No. de reactivos contestados incorrectamente
K = Cantidad de opciones por reactivo
La primera ha sido criticada por las bajas calificaciones que produce en personas poco
familiarizadas con el material de prueba y por las altas calificaciones que produce en el
caso contrario.
La segunda representa, con relacin a la anterior, una alternativa
Se recomienda su uso cundo:
La cantidad de reactivos sin responder vara mucho en cada persona
Cuando ciertos reactivos son ms susceptibles a la adivinacin que otros
Se califican pruebas de falso y verdadero o rpidas
Calificaciones derivadas
Las calificaciones que se obtienen directamente de la aplicacin de una prueba
(brutas o crudas) suelen cambiarse en otras formas para hacerlas ms significativas
Anlisis de reactivos
Cualquier tipo
de prueba
MEJORA DE
LA PRUEBA
Revisin o
eliminacin
de los reactivos
que no son
Anlisis
posterior de
reactivos
Lo que SI son: pruebas para determinar la posicin de cada persona con respecto a
ciertos objetivos educativos
OE
Pruebas de dominio
Total de
reactivos
Rango limitado de
capacidades cognoscitivas
Diferencias individuales
Prueba para
el
desempeo
Estudiante
Trabajador
C
R
I
T
E
R
O
S
Logro en la escuela
(Notas de los
profesores)
Medida de desempeo
(Calificaciones de los
supervisores)
48
Los reactivos con ndices de validez altos pero correlaciones bajas entre s se
prefieren porque realizan una contribucin independiente a la prediccin de las
calificaciones de criterio
PROBLEMAS
1. Correccin para la adivinacin
Ejemplo 1: Prueba de opcin mltiple con 50 reactivos de 4 opciones cada uno, de los
cuales:
- 30 reactivos fueron contestados correctamente,
- 16 reactivos fueron contestados incorrectamente y
- 4 no fueron contestados,
Cul es la calificacin total de la prueba, tanto con correccin para adivinar como sin sta?
S = R W
K1
S = R
W
2 ( K 1)
Donde:
S = Calif. Corregida
R = Nmero de reactivos contestados correctamente
W = No. De reactivos contestados incorrectamente
K = Cantidad de opciones por reactivo
S = 30 16 / 4 1
= 30 16 / 3
= 30 5.3 = 24.7 (Con correccin)
S = 30 16 / 2 (4 -1)
= 30 16 / 2 (3)
= 30 16 /6
= 30 2.6 = 27.4 (Con correccin)
Sin correccin: 30 (reactivos contestados correctamente)
Ejemplo 2: Si todos los reactivos fueran del tipo falso y verdadero y se obtuviera en ellos
la misma cantidad de respuestas correctas e incorrectas que antes se mencion, Cul sera
su calificacin total, tanto con correccin por adivinar como sin esta? (K = 2)
S = 30 16 / 2 1
= 30 16 / 1
= 30 16 = 14 (Con correccin)
S = 30 16 / 2 (2 1)
= 30 16 / 2
= 30 8 = 22 (Con correccin)
49
Ejercicio: Prueba de opcin mltiple con 30 reactivos de 3 opciones cada uno, de los
cuales:
- 20 reactivos fueron contestados correctamente,
- 6 reactivos fueron contestados incorrectamente y
- 4 no fueron contestados,
Cul es la calificacin total de la prueba, tanto con correccin para adivinar como sin sta?
50
51
Un caso prctico
Como parte de las prcticas que realizamos a nivel universitario en una materia donde se
revisa, principalmente, el aspecto tcnico de los instrumentos de medicin en psicologa y
educacin se solicita a los estudiantes analizar los ndices de dificultad y de discriminacin
de algunas pruebas de rendimiento escolar con el propsito de valorar, desde el punto de
vista estadstico, en qu casos los reactivos de esta clase de pruebas deben ser aceptados,
rechazados o revisarse, nuevamente, para su mejora.
A continuacin se presenta, paso a paso, cmo se calcula Idf y Idc para una prueba de
rendimiento escolar de 9 reactivos [2] aplicada a 14 estudiantes:
1. Con una matriz como la que se muestra en la Tabla 1, se anota el puntaje que los
estudiantes obtuvieron en cada uno de los 9 reactivos, asignando 1 a las respuestas
correctas y 0 a las respuestas incorrectas y procurando que la posicin que ocupen
los sujetos se ordene, de forma descendente, de acuerdo al total de respuestas
correctas que cada uno obtuvo en la prueba, de tal suerte que el sujeto A sea quien
tenga el mayor puntaje, en este caso 9 (equivalente al total de reactivos de la
prueba), el sujeto B quien tenga el mismo o menor puntaje, y as sucesivamente,
52
SUJETOS
A
B
C
D
E
F
G
H
I
J
K
L
M
N
1
1
1
1
1
1
1
1
0
0
1
1
0
1
0
2
1
1
1
1
1
1
1
1
0
1
1
1
0
0
3
1
1
1
1
1
1
1
1
1
1
0
1
0
1
REACTIVOS
4 5 6 7
1 1 1 1
1 1 1 1
1 1 1 1
1 1 1 1
1 1 1 1
1 1 1 1
1 1 1 1
1 1 1 1
1 1 1 1
0 1 1 1
0 1 1 1
0 1 1 0
0 1 1 0
0 1 0 0
8
1
1
1
1
1
1
1
1
1
0
1
0
0
0
TP
9
1 9
1 9
1 9
1 9
1 9
1 9
0 8
1 8
0 6
0 6
0 6
1 5
0 3
0 2
Tabla 2
53
Sujetos
A
B
C
D
E
F
G
H
I
J
K
L
M
N
1
1
1
1
1
1
1
1
0
0
1
1
0
1
0
2
1
1
1
1
1
1
1
1
0
1
1
1
0
0
3
1
1
1
1
1
1
1
1
1
1
0
1
0
1
Reactivos
4 5 6
1 1 1
1 1 1
1 1 1
1 1 1
1 1 1
1 1 1
1 1 1
1 1 1
1 1 1
0 1 1
0 1 1
0 1 1
0 1 1
0 1 0
7
1
1
1
1
1
1
1
1
1
1
1
0
0
0
8
1
1
1
1
1
1
1
1
1
0
1
0
0
0
9
1
1
1
1
1
1
0
1
0
0
0
1
0
0
PC
9
9
9
9
9
9
8
8
6
6
6
5
3
2
Grupos
SUPERIOR
INFERIOR
Tabla 3
54
Reactivos
1
2
3
4
5
6
7
8
9
Reactivos
1
2
3
4
5
6
7
8
9
5. Falta todava lo ms importante. Hasta ahora slo hemos hecho, por separado, el clculo
de Idf y Idc y la valoracin de acuerdo a un criterio de aceptacin para cada uno de los
reactivos de la prueba, pero falta que comparemos los resultados que obtuvimos con ambos
ndices y las valoraciones que hicimos de cada reactivo segn el criterio de aceptacin que
elegimos, con el propsito final de determinar si cada reactivo es un buen indicador del
atributo que la prueba mide como un todo. Para ello basta con posicionar, uno junto a otro,
los resultados que obtuvimos y decidir si aceptamos, rechazamos o consideramos que
deben volverse a revisar cada uno de los reactivos de la prueba, de acuerdo a las siguientes
consideraciones:
SI + SI = SI, el reactivo se acepta
SI + NO o NO + SI = NO, el reactivo debe revisarse nuevamente
NO + NO = NO, el reactivo se rechaza
La Tabla 6 muestra cmo queda est ltima etapa en el caso que hemos estado revisando:
Reactivos
1
2
3
4
5
6
7
8
9
Idf y
valoracin
0.25
SI
0.25
SI
0.25
SI
0.5
SI
0
NO
0.125 NO
0.375
SI
0.375
SI
0.375
SI
Idc y
valoracin
0.5
SI
0.5
SI
0.5
SI
1
SI
0
NO
0.25
SI
0.75
SI
0.75
SI
0.75
SI
Valoracin
final
SI
SI
SI
SI
NO
NO
SI
SI
SI
Tabla 6
De acuerdo a los resultados que tenemos en la tabla anterior, podemos concluir que de los
reactivos analizados:
a) Los reactivos 1, 2, 3, 4, 7, 8 y 9 podemos aceptarlos porque cumplen con los criterios
que establecimos con relacin al grado de dificultad y de discriminacin que tales
reactivos deben tener.
b) El reactivo 5, en cambio, debemos rechazarlo porque no cumple con tales criterios de
acuerdo a los resultados que obtuvimos en el anlisis final
c) Finalmente el reactivo 6, por el anlisis efectuado, debe revisarse nuevamente si
queremos incluirlo, posteriormente, entre los reactivos con un nivel aceptable de
dificultad y de discriminacin.
56
conveniente que sta posea, pero, evidentemente, estos procedimientos atienden solamente
a un aspecto de la construccin ms adecuada de esta clase de instrumentos.
D = Up Lp
U L
a) Grupo superior (U): sujetos cuyas calificaciones en la prueba cumplen con los criterios
de dominio.
b) Grupo inferior (L): sujetos cuyas calificaciones totales en la prueba no cumplen con
los criterios de dominio.
Que la forma cmo se contesta un reactivo no sea la misma para dos grupos no
significa necesariamente que el reactivo muestre una inclinacin por alguno de ellos
Notas:
[1] En algunos casos Idf y Idc pueden encontrarse como p y D, respectivamente.
[2] Es necesario aclarar que los 9 reactivos correspondientes a esta prueba,
originalmente, formaban parte de una prueba ms extensa (de 40 reactivos) que, para fines
prcticos y didcticos, fue dividida y sus partes distribuidas entre varios equipos para su
57
Referencias
Canudas Gonzlez, Matilde (2005). Manual para el Curso-taller Estrategias para la
Evaluacin en la Educacin Superior. Mxico: Asociacin Nacional de Universidades e
Instituciones de Educacin Superior.
Aiken, Lewis R. (1996). Tests psicolgicos y evaluacin. Mxico: Prentice Hall.
Anastasi, A. (1998). Tests psicolgicos. Madrid: Aguilar.
Brown F. (1998). Principios de la medicin en psicologa y educacin. Mxico: El
Manual Moderno.
PROBLEMAS
1. Anlisis estadstico de reactivos (ndices de dificultad y discriminacin).
Con los datos que se presentan en la siguiente matriz, obtn los ndices de dificultad y
discriminacin de una prueba de 9 reactivos que se aplic a 14 sujetos, determinando cules
reactivos pueden ser aceptados, cules deben revisarse nuevamente y cules deben
rechazarse:
Sujetos
A
B
C
D
E
F
G
H
I
J
K
L
M
N
1
1
1
1
1
1
1
1
0
0
1
1
0
1
0
2
1
1
1
1
1
1
1
1
0
1
1
1
0
0
3
1
1
1
1
1
1
1
1
1
1
0
1
0
1
Reactivos
4 5 6
1 1 1
1 1 1
1 1 1
1 1 1
1 1 1
1 1 1
1 1 1
1 1 1
1 1 1
0 1 1
0 1 1
0 1 1
0 1 1
0 1 0
7
1
1
1
1
1
1
1
1
1
1
1
0
0
0
8
1
1
1
1
1
1
1
1
1
0
1
0
0
0
9
1
1
1
1
1
1
0
1
0
0
0
1
0
0
58
2.
Idf
0,25
0,25
0,25
0,5
0
0,125
0,375
0,375
0,375
SI
SI
SI
SI
NO
NO
SI
SI
SI
Idc
Valoracin
0,5 SI
SI
0,5 SI
SI
0,5 SI
SI
1
SI
SI
0 NO
NO
0,25 SI
NO
0,75 SI
SI
0,75 SI
SI
0,75 SI
SI
59
CONSISTENCIA Y VALIDEZ
INTRODUCCION
La interpretacin precisa de los resultados individuales se hace conociendo
qu caractersticas mide una prueba y que lo haga de un modo consistente.
La consistencia y validez estn enmarcados aqu por el error de medida.
Hay dos tipos:
1. Errores al azar: se producen cuando una variable implica la falta de
consistencia en la ejecucin de la prueba de unas situaciones a otras (son
importantes para la confiabilidad7).
2. Errores constantes: producen efectos sistemticos sobre la ejecucin,
pero son irrelevantes para los propsitos de la medicin (son importantes
para la validez8).
La consistencia y la validez son trminos genricos; se pueden evaluar
por varios mtodos. La eleccin del mtodo depender de la pregunta a la que
se desee responder o de los orgenes de error que se deben controlar. Son
caractersticas que informan sobre la cualidad y eficiencia de una prueba para un
grupo de personas9.
DESARROLLO
Una prueba debe caracterizarse por ser confiable (consistencia con la
que la prueba mide lo que debe medir) y vlida (exactitud con la que la prueba
mide lo que tiene que medir).
60
X = T + E12
X (Calificacin obtenida)
T (Calificacin real hipottica)
E (Error de estimacin)
10
La validez determina qu tanto de la ejecucin se debe a una variabilidad relevante (variable que tratamos
de medir) y que tanto representa una variabilidad irrelevante (efectos de las variables irrelevantes).
11
Los resultados de las pruebas se ven afectados con mayor facilidad por condiciones extraas.
12
Representa la contribucin de cualquier variable que produzca inconsistencias en las mediciones. El error
de estimacin puede ser positivo, si la calificacin real de la persona se sobrestima mediante la calificacin
obtenida, o negativo, si se subestima su calificacin real. Hay que mencionar que los efectos de los errores
son al azar.
61
La confiabilidad:
13
62
Habamos dicho que el error es cualquier efecto irrelevante para los fines de
la medicin. Ahora bien, una variable introduce error s:
A. Dentro de la prueba:
Cualquier aspecto que haga que un sujeto responda a un reactivo sobre bases
distintas de los conocimientos de la respuesta correcta, podr introducir error.
El muestreo de reactivos que componen la prueba15.
Por regla se procura que cada uno de los reactivos deba medir el mismo
rasgo16.
B. Aplicacin de la prueba:
Este punto es particularmente importante cuando se trabaja con formas equivalentes de una prueba. Estas
formas se deben comparar en cuanto al contenido y la dificultad de cada reactivo.
16
La mayora de los reactivos no son medidas puras de un solo rasgo, y aunque lo fueran, los sujetos podran
no reaccionar de la misma forma en cada reactivo.
17
Principalmente en el caso de pruebas con instrucciones complejas a las que se somete un gran nmero de
personas.
63
C. El examinado:
18
relevante se refiere a lo que es atribuible a la variable que mide la prueba, que puede ser un
rasgo o atributo, o alguna medida observada independientemente
19
Al respecto se dice que, los resultados de una prueba adquieren sentido cuando se relacionan con otras
variables.
64
o sea:
ST2 = SV2 + SI2
Varianza confiable,
pero irrelevante.
Varianza confiable
relevante (Vlida).
APENDICE: Qu es la varianza?
66
Prueba
Grupo
Forma A
Mitad 1
Forma B
Mitad 2
PRIMERA
APLICACIN
Dependiendo de
la importancia
que se le otorgue
a la variable
tiempo, el
coeficiente de
equivalencia
puede ser tambin
un coeficiente de
estabilidad y
equivalencia.
Prueba
Grupo
Forma B
Mitad 1
Forma A
Mitad 2
SEGUNDA
APLICACIN
67
Este coeficiente toma en cuenta los diferentes momentos de aplicacin y los distintos
reactivos de la prueba.
3. Coeficientes de consistencia interna: Como generar la forma paralela de una prueba con
frecuencia puede resultar costoso y difcil, se desarroll un mtodo menos directo para
tomar en cuenta los efectos sobre la confiabilidad de las muestras de diferentes reactivos de
la prueba. Se trata de los mtodos de la consistencia interna. Algunos de ellos son: mtodo
de divisin por mitades, frmula de profeca de Spearman-Brown y el mtodo de KuderRichardson. Detalle: los errores de medicin que provocan las diferentes condiciones o
momentos de la aplicacin no se reflejan en estos mtodos, debido a lo cual, no suele
equiparrseles con los coeficientes anteriormente vistos.
3.1 Divisin por mitades (par-impar): Se divide la prueba en dos partes como si se trataran
de formas equivalentes que miden el mismo rasgo, de manera que la correlacin entre ellas,
sea un coeficiente de confiabilidad de formas paralelas.
3.2 Frmula de profeca de SpearmanBrown: Hecho el procedimiento anterior, y
suponiendo que ambas mitades sean equivalentes en lo que respecta a sus medias y a sus
varianzas, la confiabilidad de la prueba como un todo puede calcularse con base a este
procedimiento.
EJEMPLO EN CLASE: Calcule los coeficientes de confiabilidad de a) Divisin por mitades
(par-impar)21:
rxy = xy (x) (y)
N
[x2 (x)2] [y2 (y)2]
N
N
y b) Formula de profeca de SpearmanBrown:
rxx = (2) (rxy)
1 + rxy
en las siguientes respuestas por parte de 10 sujetos a 10 reactivos de una prueba (donde 1
indica la respuesta correcta y 0 la incorrecta):
21
En esta frmula: N es igual al nmero de sujetos que contestan los reactivos, x es igual a reactivos
impares y y es igual a reactivos pares.
68
Matriz 1
REACTIVOS
SUJETOS
I
II III IV V VI VII VIII
1
1
1
1
1
1
1
1
A
1
0
1
1
0
1
0
1
B
0
0
1
1
1
1
1
1
C
1
0
1
0
1
0
1
0
D
1
0
1
0
0
1
0
1
E
0
1
0
1
0
1
0
1
F
1
0
1
0
0
1
1
0
G
0
0
0
1
0
0
1
0
H
1
0
0
0
0
0
0
1
I
0
1
0
0
0
0
1
0
J
6
3
6
5
3
6
6
6
fi
Media de las calificaciones totales = 5.30 y Varianza = 5.21
rxy = 75 (27)(26)
10
IX
1
1
0
1
1
1
0
1
0
0
6
X
1
1
1
1
1
0
0
0
1
0
6
X
10
7
7
6
6
5
4
3
3
2
53
= 0.22
69
EJERCICIO 1: Calcule los coeficientes de confiabilidad de a) Divisin por mitades (parimpar) y b) Formula de profeca de SpearmanBrown, en las siguientes respuestas por parte
de 20 sujetos a 8 reactivos de una prueba (donde 1 indica la respuesta correcta y 0 la
incorrecta):
Matriz 2
REACTIVOS
SUJETOS
I
II III IV V VI VII VIII
1
0
0
0
0
0
0
0
A
1
1
1
1
0
0
1
1
B
1
0
1
0
0
0
0
0
C
1
1
1
1
1
1
1
0
D
1
1
1
1
0
0
0
0
E
1
1
0
0
0
0
0
0
F
1
0
1
1
1
1
0
0
G
1
1
1
0
0
0
0
0
H
1
1
1
0
1
1
1
0
I
1
0
0
1
1
1
0
0
J
1
1
1
1
1
1
0
1
K
1
1
0
1
1
0
1
0
L
1
1
1
1
1
1
0
0
M
0
1
1
1
1
0
0
0
N
1
1
1
0
0
0
0
0
1
1
1
0
1
0
0
0
O
1
1
0
1
0
0
0
0
P
1
1
1
1
1
1
1
1
Q
1
1
1
1
0
1
0
0
R
1
1
1
1
1
0
0
0
S
19 16 15 13 11
8
5
3
fi
Media de las calificaciones totales = 4.5 y Varianza = 3.2
X
1
6
2
7
4
2
5
3
6
4
7
5
6
4
3
4
3
8
5
5
90
3.3 Mtodo de Kuder-Richardson: Existen muchas formas diferentes de dividir una prueba
en dos mitades. Debido a que cada forma puede producir un valor distinto de r11, no est
claro qu estrategia de divisin da como resultado el mejor clculo de la confiabilidad.
Solucin: Considerar el promedio de los coeficientes de confiabilidad obtenidos de todas
las divisiones a la mitad como el clculo de la confiabilidad general.
La media de todos los coeficientes de divisin por mitades puede calcularse con la frmula
21 de Kuder-Richardson, la cual, se basa en la suposicin de que todos los reactivos de la
prueba tienen la misma dificultad.
r11 =
K
(K 1)
1 M (K M)
Ks2
70
Donde:
K = Cantidad de reactivos de la prueba
M = Media de las calificaciones totales de la prueba
s2 = Varianza de las calificaciones totales de la prueba
Ejemplo: Para una prueba que contiene 75 reactivos, una media de 50 y una varianza de
100, calcule su confiabilidad general.
K = 75
M = 50
s2 = 100
r11 = ?
r11 =
75
(75 1)
EJERCICIO 2: Con los datos del ejemplo que se hizo en clase para practicar los mtodos
de divisin por mitades y de profeca de Spearman-Brown (Matriz 1, correspondiente a los
incisos 3.1 y 3.2), calcula la confiabilidad de dicha prueba usando el mtodo de KuderRichardson.
3.4 Mtodo de Kuder-Richardson. Frmula 20: Pero, Qu pasa cuando al calcular la media
de todos los coeficientes de divisin por mitades se trabaja con reactivos que tienen
distintos grados de dificultad? La alternativa es la frmula 20 de Kuder-Richardson:
r11 =
K
(K 1)
S2x - piqi
S2x
En donde:
K = Cantidad de reactivos de la prueba
S2x = Varianza de las calificaciones totales de la prueba
pi = Proporcin de personas que contestaron correctamente el reactivo
qi = Proporcin de personas que contestaron incorrectamente el reactivo
La frmula 20 de Kuder-Richardson, a diferencia de la frmula 21, es que: 1) Produce un
resultado menos conservador que la frmula 21 y b) Es ms difcil de calcular.
Para el clculo de este coeficiente de consistencia interna es necesario contar con datos
previos como la media de las calificaciones totales de la prueba (M) y la varianza de las
calificaciones totales de la prueba (S2x), cuyas frmulas son:
71
M=x
N
S2x = (x M)2
N
Donde:
M = Media de las calificaciones totales de la prueba
x = Nmero de aciertos por sujeto
N = Total de sujetos que contestaron la prueba
EJEMPLO EN CLASE: Con los datos del ejemplo que se hizo en clase para practicar los
mtodos de divisin por mitades y de profeca de Spearman-Brown (Matriz 1,
correspondiente a los incisos 3.1 y 3.2), calcula la media de todos los coeficientes de
divisin por mitades considerando los distintos grados de dificultad de los reactivos de la
prueba.
M=x
N
M = 53 = 5.3
10
52.1
S2x = (x M)2
N
S2x = 52.1 = 5.21
10
r11 =
K
(K 1)
S2x - piqi
S2x
10
10 - 1
5.21 - 2.35
5.21
= 0.59
72
fi22
pi
qi
piqi
6
0.6
0.4
0.24
3
0.3
0.7
0.21
6
0.6
0.4
0.24
5
0.5
0.5
0.25
qi = 1 - pi
3
0.3
0.7
0.21
6
0.6
0.4
0.24
6
0.6
0.4
0.24
6
0.6
0.4
0.24
6
0.6
0.4
0.24
6
0.6
0.4
0.24
piqi
2.35
EJERCICIO 3: Ahora con los datos del ejercicio que se dej en clase para practicar los
mtodos de divisin por mitades y de profeca de Spearman-Brown (Matriz 2,
correspondiente a los incisos 3.1 y 3.2), calcula la media de todos los coeficientes de
divisin por mitades considerando los distintos grados de dificultad de los reactivos de la
prueba.
Confiabilidad y variabilidad
Debido a que la varianza de la calificacin de la prueba est relacionada con la
extensin de la prueba, un mtodo para incrementar la confiabilidad es hacer que
la prueba sea ms extensa al agregarle reactivos. La frmula general de
Spearman-Brown es una expresin del efecto que tiene en la confiabilidad este
hecho de hacer ms extensa una prueba al agregar reactivos del mismo tipo. Una
generalizacin de esta frmula es:
rmm =
mr11
1 + (m 1) r11
Donde:
m = Factor por el cual la prueba se hace ms extensa
r11 = Confiabilidad de la prueba original (sin extensin)
rmm = Confiabilidad estimada de la prueba ms extensa
EJEMPLO: Si una prueba con 20 reactivos y con un coeficiente de confiabilidad de
0.70 se hace 3 veces ms extensa al agregar 40 reactivos ms, Cul ser su
confiabilidad estimada?
m=3
r11 = 0.70
rmm = ?
22
73
rmm =
(3)(0.70)
= 0.87
1 + (3 1)(0.70)
rmm (1 - r11)
r11 (1 - rmm)
Donde:
r11 = Confiabilidad conocida
rmm = Confiabilidad deseada
EJEMPLO: Una prueba de 40 reactivos tiene un coeficiente de confiabilidad de
0.80. Aproximadamente, Cuntos reactivos ms del mismo tipo general deben
agregarse a la prueba para aumentar su confiabilidad a 0.90?
r11 = 0.80
rmm = 0.90
m = 0.90 (1 0.80) = 0.18 = 2.25
0.80 (1 0.90) 0.08
Al multiplicar n (cantidad de reactivos que originalmente tiene la prueba) por m
obtenemos 40 2.25 = 90. Por tanto, a fin de aumentar el coeficiente de
confiabilidad de la prueba a 0.90, deben agregrsele 50 reactivos ms del mismo
tipo general.
EJERCICIO 4: Resuelve los siguientes problemas
1. Cul ser la confiabilidad de una prueba con un r11 de 0.62 despus de que
su longitud se incrementa: a) 4 veces, b) 5 veces y c) 6 veces.
2. Una prueba de 50 reactivos tiene un coeficiente de confiabilidad de 0.75.
Cuntos reactivos ms del mismo tipo general deben agregarse a la prueba
para aumentar su confiabilidad a 0.85?
Adems de depender de la cantidad de reactivos que comprende una prueba, la
varianza y la confiabilidad de una prueba se ven afectadas por la heterogeneidad
del grupo de personas que la presentan. Cuanto ms amplio sea el rango de
diferencias individuales en una caracterstica determinada, mayor ser la varianza
de las calificaciones en una medida de esa caracterstica. Como consecuencia, el
coeficiente de confiabilidad de una prueba u otro instrumento de evaluacin ser
mayor en un grupo heterogneo, que tiene una varianza de calificacin ms alta,
74
que un grupo homogneo que tiene una varianza de calificacin menor. El hecho
de que la confiabilidad de una prueba vare con la naturaleza del grupo que se
somete a la prueba se refleja en la prctica de reportar distintos coeficientes de
confiabilidad para los grupos con edades, grados, sexo y nivel socioeconmico
diferentes.
Respuestas a los ejercicios:
1. a) 0.59 y b) 0.74
3. 0.58
2. 0.61
4. a) 0.89 y b) 0.90
75
sm = sx
1 - r11
23
Recordemos que, cualquier calificacin obtenida es una funcin de las calificaciones reales ms las de error
y que, las calificaciones obtenidas pueden sobrestimar, subestimar o igualar a las reales.
76
sm = 2.46
1 - 0.90 = 0.78
X 1.96 sm
y, al hacer las substituciones adecuadas con los valores.del
.ejemplo,
Interpretacin de sm
Con el sm puede conocerse el rango de valores de las calificaciones que, con una
probabilidad dada, incluir a las calificaciones reales. Puede escogerse cualquier
nivel de probabilidad; pero en general, se usa el nivel de confianza de 95%. La
eleccin de dicho nivel asegura que el rango de calificaciones incluir a las reales
en un 95% de los casos.
Puede demostrarse as, que hay una probabilidad de 0.95 de que las
calificaciones reales caigan dentro del rango:
(X 1.96 sm) T (X + 1.96 sm);
es decir, la probabilidad es de aproximadamente 0.95 de que T caiga dentro de
1.96sm de la calificacin obtenida (X). El rango de valores que abarca a las
calificaciones reales se denomina intervalo de confianza y los lmites del intervalo
se denominan lmites de confianza. Los intervalos de confianza y los lmites de
confianza tienen un nivel de probabilidad.
Para quien analiza tcnicamente la prueba, sm le informa acerca de 2 cosas: a) La
cantidad de variabilidad (diferencia en los resultados) que se puede esperar en la
reaplicacin y b) El rango dentro del cual caer probablemente la calificacin real.
EJERCICIO: Calcule el error estndar de medicin (sm) de una prueba que tiene
una desviacin estndar de 10 y un coeficiente de confiabilidad de formas
paralelas de 0.84. Despus, utilice el valor de sm obtenido para encontrar el
intervalo de confianza de 68% y de 95% para las calificaciones reales que
corresponden a las calificaciones obtenidas de a) 40, b) 50 y c) 60.
Respuestas del ejercicio:
a) 36 44 y 32.16 47.84
b) 46 54 y 42.16 57.84
c) 56 64 y 52.16 67.84
BIBLIOGRAFIA
Brown F., Principios de la medicin en psicologa y educacin, Ed. El Manual
Moderno, Mxico, 1998.
Aiken, Lewis R., Tests psicolgicos y evaluacin, Ed. Prentice Hall, Mxico,
1996.
78
VALIDEZ
INTRODUCCIN
La validez de un instrumento es la exactitud con que pueden hacerse
medidas significativas y adecuadas con l, en el sentido que miden realmente los
rasgos que se pretenden medir.
La validez de un instrumento rara vez es un problema cuando tratamos
medidas fsicas, pero con los instrumentos usados para medir variables
psicolgicas es necesario probar empricamente que el instrumento es vlido en
todos los casos.
Debe mantenerse el requerimiento de que la validez de cualquier mtodo
tiene que probarse empricamente en las diferentes situaciones donde va a
usarse.
Debe tenerse presente que una alta confiabilidad es un requerimiento
necesario, pero no suficiente para una alta validez.
Cuando estimamos la validez de una prueba, necesitamos saber que rasgo
deseamos que mida. Este rasgo se llama variable de criterio. Nos interesa saber
qu tan bien corresponden las posiciones de los individuos en la distribucin de
los puntajes obtenidos a sus posiciones en el continuo que representa la variable
de criterio. La validez es tradicionalmente estimada por un coeficiente de
correlacin, llamado coeficiente de validez, el cual, indica la relacin que hay
entre los datos obtenidos con la prueba y los datos que usamos, con un grado
conocido de certeza, como ndices para los puntajes del individuo en la variable de
criterio.
Una prueba no tiene un coeficiente fijo de validez que sirva para cualquier
fin y cualquier grupo de individuos para los cuales pudiera usarse. La validez de la
prueba vara de acuerdo con el propsito que se use y el grupo dentro del cual
discrimina. En todo proceso de validacin la cuestin crucial es: Para quin y
para qu es vlido el test? Necesitamos por consiguiente criterios diferentes para
diferentes propsitos de la prueba.
Cuando estimamos la validez, rara vez tenemos acceso a los criterios que
son expresiones confiables y vlidas de la variable criterio. Por ello, debemos
distinguir entre los criterios "verdaderos" y los criterios intermedios disponibles. El
criterio asequible puede seleccionarse de entre varias posibilidades (el tamao
del coeficiente de validez depende en cierto grado de la posibilidad escogida).
Debemos esperar encontrar deficiencias de confiabilidad y validez en los datos de
criterio que usamos para estimar la validez de la prueba. Se debe tomar en cuenta
79
TIPOS DE VALIDEZ
Hay diferentes tipos de validez:
80
PREDICCIN
Podemos hacer una prediccin de una variable a otra con ayuda del
coeficiente de correlacin. Si conocemos la correlacin entre los puntajes de las
variables X y Y, necesitamos solamente obtener el puntaje de un individuo en X
para poder predecir el puntaje probable del mismo individuo en Y.
81
zy1 = rxy zx
(1)
y1 . = rxy x .
sy
sx
(2)
y1 = rxy sy x
sx
(3)
y1 = rxy sy (X - Mx) + My
sx
(4)
82
Syx = Sy 1 rxy2
(5)
EJEMPLO:
Se conoce el puntaje de un alumno en una prueba de inteligencia y deseamos
predecir su xito como estudiante expresado por las estimaciones del profesor al
terminar sus estudios. Supongamos que el C.I. del alumno es de 120 en una
escala donde M = 100 y s = 16. Las estimaciones del profesor se dieron en una
escala de 9 puntos donde M = 5 y s = 2. El coeficiente de validez es de 0.50.
Cul es ahora la mejor estimacin del xito, expresada por las estimaciones del
profesor, para el alumno con un C.I. de 120?
Datos
Mx = 100
Sx = 16
My = 5
Sy = 2
rxy = 0.50
X = 120
Y1 = ?
83
El puntaje que obtiene el alumno en las estimaciones cae con 68% de certeza en
el rango:
6.25 1.74 = 4.51 y 7.99 (Lmites de confianza)
y con 95% de certeza en el rango:
6.25 3.4124 = 2.84 y 9.66
EJERCICIOS:
1. Calcular el puntaje de criterio que sea la mejor prediccin a partir de los
puntajes predictores: a) -1.0, b) 0.0, c) 0.75 y d) 1.4, si el coeficiente de validez
es de 0.70. Los puntajes de criterio y el predictor se dan como puntajes
estndar.
2. En la seleccin para un curso escolar los aspirantes son estimados despus de
ser entrevistados en una escala de 9 puntos (1 9). Las estimaciones se
distribuyeron normalmente con M = 5 y s = 2. Despus de completar el curso,
los mismos individuos fueron estimados en una escala de 19 puntos (1 19)
con M = 10 y s = 3. La correlacin entre las dos estimaciones fue de 0.35. Un
estudiante obtuvo un puntaje de 4 en la entrevista, Cul es su mejor
estimacin final? Dentro de cul estimacin de puntajes caer su puntaje
obtenido con un a) 68% y b) 95% de seguridad?
3. La correlacin entre los puntajes de un examen de admisin y las calificaciones
finales es de 0.60. Los puntajes del examen de admisin son transformados a
puntajes T (M = 50 y s = 10). Las calificaciones finales tienen M = 4.0 y s = 1.2.
El individuo A tiene un puntaje de 55 en el examen de admisin. Prediga su
calificacin final.
4. Un predictor se mide sobre la escala 1 21 (M = 11 y s = 3) y la variable de
criterio se mide en la escala 1 11 (M = 6 y s = 2). El coeficiente de validez es
de 0.66. Arriba de cul puntaje de criterio se encontrarn, aproximadamente,
el 2.5% de estos individuos, si tienen un puntaje predictor de 7? Encuentre el
resultado usando un 95% de seguridad y dibuje la figura correspondiente.
24
84
85
Calificacin
en lgebra
(Criterio)
El siguiente cuadro muestra el diagrama de dispersin que indica la relacin entre las
calificaciones de la prueba y las calificaciones obtenidas en lgebra. Los resultados de la
prueba de razonamiento matemtico sirven como predictores; el criterio es el de las
calificaciones obtenidas en lgebra.
Y
4
3
2
1
0
A
B
C
D
E
2
6
14 26
1
2
10 16 25
5
1
1
7
20 30
9
3
2
7
20 28 15
1
1
6 25 15
6
1
1
2
3
4
5
6
7
Prueba de razonamiento matemtico
(Predictor)
86
1. Para obtener n se suman todos los valores dentro del cuadro de doble entrada. As, en
nuestro ejemplo n es igual a 305 datos.
2. Para obtener Mx, se multiplica cada rengln de datos por los nmeros correspondientes a
los reactivos del predictor, se suman los productos obtenidos por cada rengln y estas
sumas parciales se suman entre s. En nuestro ejemplo queda as:
6 + 50 + 45 +24 + 5
2 + 14 + 60 + 112 + 75 + 6 + 7
1 + 2 + 21 + 80 + 150 + 54 + 21
2 + 6 + 40 + 80 + 150 + 35
8 + 30 +84 + 182
=
=
=
=
=
=
130
276
319
313
304
1352
(x Mx)2
n
87
Obsrvese a continuacin, la forma cmo se aplica esta frmula a los datos con el ejemplo
que venimos desarrollando:
Sx = 9(1 - 4.43)2 + 34(2 - 4.43)2 + 44(3 - 4.43)2 + 66(4 - 4.43)2 + 68(5 - 4.43)2 + 49(6 - 4.43)2 + 35(7 - 4.43)2 = 1.60
305
Donde:
9, 34, 44, 66, 68, 49 y 35 son la sumatoria de cada columna de datos;
1, 2, 3, 4, 5, 6 y 7 son los nmeros de cada reactivo;
4.43 es Mx, y
305 es n.
4. Para obtener My, se multiplica cada rengln de datos por el valor de la variable de
criterio correspondiente, se suman los productos obtenidos por cada rengln y estas sumas
parciales se suman entre s. Aplicndolo a nuestro ejemplo tenemos:
0
2 + 7 +20 + 28 +15 + 1 + 1
2 + 2 + 14 + 40 + 60 + 18 + 6
3 + 6 + 30 + 48 + 75 + 15
8 + 24 + 56 + 104
=
=
=
=
=
=
0
74
142
177
192
585
(y My)2
n
Obsrvese a continuacin, el modo cmo se aplica esta frmula a los datos con el ejemplo
que nos ocupa:
Sy = 53(0 1.91)2 + 74(1 - 1.91)2 + 71(2 - 1.91)2 + 59(3 - 1.91)2 + 48(4 - 1.91)2 = 1.324
305
88
Donde:
53, 74, 71, 59 y 48 son la sumatoria de cada rengln de datos;
0, 1, 2, 3 y 4 son las calificaciones en la variable de criterio;
1.91 es My, y
305 es n.
6. Para obtener xy se multiplica cada nmero de los reactivos del predictor por cada
nmero de las calificaciones de la variable de criterio por la frecuencia de cada caso dentro
del cuadro de doble entrada:
106
112
121
2 0 25
217
221
231
3 0 15
3 1 20
327
332
406
4 1 28
4 2 20
4 3 10
442
501
5 1 15
5 2 30
5 3 16
546
611
629
6 3 25
6 4 14
711
723
735
7 4 26
0
=
=
2
=
2
=
0
= 14
4
=
=
6
=
0
= 60
= 42
= 18
=
0
= 112
= 160
= 120
= 32
=
0
= 75
= 300
= 240
= 120
=
6
= 108
= 450
= 336
=
7
= 42
= 105
= 728
= 3089
89
Mx = 4.43
sy = 1.324
sx= 1.60
xy = 3089
Interpretacin de rxy.
Hay varios modos de interpretar y evaluar los coeficientes de validez. Probablemente el
mtodo ms comn sea el comparativo: el utilizar la prueba con el coeficiente ms elevado
de validez. As, si en una situacin dada, los coeficientes de validez son de 0.40 para la
prueba A y 0.50 para la B, se adoptar esta ltima ya que es ms vlida en esas
circunstancias. Por consiguiente, lo que se considera como una buena validez, depender
de cada situacin especfica.
Los coeficientes de validez se pueden interpretar tambin en funcin del porcentaje de
varianza en el criterio, justificado por las diferencias en las calificaciones predictoras. El
porcentaje de varianza que se explica en esa forma, se obtiene elevando al cuadrado el
coeficiente de correlacin. As, si rxy = 0.78 como en nuestro ejemplo, podremos decir que
60% de la varianza (0.782 = 0.6084 100 = 60.84 = 60%) lo comparten las dos medidas o
que el 60% de la varianza en los resultados del criterio es atribuible a variaciones en las
calificaciones predictoras.
90
EJERCICIO:
En el cuadro que se muestra a continuacin, se expone el diagrama de dispersin que indica
la relacin entre las calificaciones de un predictor y las calificaciones de una medida de
criterio. Se asign, como en el ejemplo anterior, un valor numrico a cada calificacin: A =
4, B = 3, C = 2, D = 1 y E = 0. Con la frmula para obtener el coeficiente de validez, es
decir,
rxy = xy / n (Mx)(My)
(sx)(sy)
Criterio
A
B
C
D
E
4
8
8
1
8
11
1
2
1
26
8
1
3
2
8
3 14 20
42 29
9
6
3
1
1
4
5
6
Predictor
7
8
2
7
2
91
Muestra de
estandarizacin
R
e
p
r
e
s
e
n
t
a
t
i
v
i
d
a
d
Poblacin meta
Para que la
muestra sea
representativa
de la poblacin
meta es
necesario
seleccionar la
muestra con
detenimiento
Proceso de estandarizacin
Cuando la calificacin
de una prueba se
convierta, refirindose
a un cuadro de
normas, hay que
considerar:
93
Tambin se
utiliza el
muestreo
aleatorio simple
Normas
nacionales,
regionales y
locales
94
Normas de edad y
grado
Normas de edad
modal
Normas
de edad
mental
Normas
percentiles
CI = 100 x EM / EC
Donde EM es la edad mental del sujeto y EC
es la edad cronolgica en meses
Cociente educativo: es la relacin de
la edad educativa (norma de edad en una
prueba de aprovechamiento educativa) con la
edad cronolgica en meses
Cociente de aprovechamiento: es la
relacin de la edad educativa con la edad
mental
M = fX / N y s = f (X M)2 / N
Donde N equivale al total de las calificaciones
que se consideren (frecuencia)
97
Escala
de
Estanina
1
Punto
medio
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
2
z
6
T
7
Estanina
100
EJERCICIO. Complete el cuadro con los datos que correspondan a los puntos
medios de cada uno de los intervalos, que agrupan las 30 calificaciones de la
siguiente distribucin de frecuencias:
Intervalo
de calif.
96 98
93 95
90 92
87 89
84 86
81 83
78 80
75 77
72 74
69 71
Frecuencia
acumulada
abajo del X
Rango
percentil
z Z CEEB
zn T Estanina
101
EJERCICIO RESUELTO
Rango
z
Z
percentil
Intervalo
de calif.
Frecuencia
acumulada
abajo del X
CEEB
zn
Estanina
96 98
97
29.5
98.33
1.98
69.8
698
2.13
71.3
8.96
93 95
94
28
93.33
1.52
65.2
652
1.50
65
8.04
90 92
91
25.5
85.00
1.07
60.7
607
1.04
60.4
7.14
87 89
88
21.5
71.67
0.61
56.1
561
0.57
55.7
6.22
84 86
85
16
53.33
0.15
51.5
515
0.08
50.8
5.3
81 83
82
11
36.67
- 0.30
47
470
- 0.34
46.6
4.4
78 80
79
23.33
- 0.76
42.4
424
- 0.73
42.7
3.48
75 77
76
13.33
-1.22
37.8
378
- 1.11
38.9
2.56
72 74
73
6.67
- 1.68
33.2
332
- 1.50
35
1.64
69 71
70
0.5
1.67
- 2.14
28.6
286
- 2.13
28.7
0.72
102
X
97
94
91
88
85
82
79
76
73
70
f
1
2
3
5
6
4
4
2
2
1
fx
97
188
273
440
510
328
316
152
146
70
= 2520
Clculo:
M = fx / N = 2520 / 30 = 84
103
X
97
94
91
88
85
82
79
76
73
70
X-M
13
10
7
4
1
-2
-5
-8
- 11
- 14
(X M)2
169
100
49
16
1
4
25
64
121
196
f(X M)2
169
200
147
s=
80
6
16
=
100
128
242
196
= 1284
Clculo:
f (X M)2 / N =
1284 / 30
42.8 = 6.54
104
15.54
0.5
0.6
0.7
0.8
0.9
1.0
1.1
1.2
1.3
1.4
1.5
1.6
.09
33.15
40.66
44.52
105
INTERVALO DE
CLASE
96-98
93-95
90-92
87-89
84-86
81-83
78-80
75-77
72-74
69-71
66-68
63-65
60-62
57-59
PUNTO
INTERMEDIO
FRECUENCIA
FRECUENCIA
ACUMULADA ABAJO DEL
PUNTO INTERMEDIO
RANGO
PERCENTILAR
Zn
CEEB
ESTATINA
1
1
20
36
78
160
122
90
84
68
28
10
4
2
106
RANGO PERCEN-TILAR
98.33
93.33
85.00
71.67
53.33
36.67
23.33
13.33
6.67
1.67
1.95
1.50
1.05
0.60
0.15
-0.30
-0.75
-1.20
-1.65
-2.10
Zn
CEEB
107
96-98
93-95
90-92
87-89
84-86
81-83
78-80
75-77
72-74
69-71
66-68
63-65
60-62
57-59
FRECUENCIA
ACUMULADA
ABAJO DEL
PUNTO
INTERMEDIO
RANGO
PERCENTILAR
Zn
CEEB
ESTATINA
1
2
19
37
77
160
121
91
83
69
27
11
4
2
108
Los captulos del uno al cuatro tratan los antecedentes, metodologa y condicin
profesional de los tests psicolgicos y educativos. En las prximas dos secciones se
estudiarn las clases especificas de instrumentos cognoscitivos y afectivos, as como lo
que miden. Las pruebas de rendimiento, que en el Reino Unido se conocen como
pruebas de logro, se analizan en este captulo. Los captulos seis y siete se ocupan de
otros instrumentos cognoscitivos, tests de inteligencia general y capacidades especiales.
La evaluacin afectiva, incluyendo las medidas de inters, actitud, valor y personalidad
se analizan en los captulos nueve y diez.
LAS PRUEBAS DE APROVECHAMIENTO EN PERSPECTIVA
Las pruebas de aprovechamiento, que se definen como el nivel de conocimientos,
habilidad o logro en un rea de desempeo, son las ms populares de todas las clases de
pruebas. Si consideramos todas las pruebas que se aplican en el saln de clases y que
elaboran los profesores, as como las pruebas estandarizadas que se venden a las
escuelas y otras organizaciones, la cantidad de pruebas de logro aplicadas sobrepasa con
facilidad los otros tipos de medidas psicolgicas y educativas. La mayor parte de las
pruebas de logro estandarizadas se ocupan de reas de lectura y el lenguaje, aunque
cada ao tambin se invierten millones de dlares en pruebas de matemticas, ciencias
sociales y otras materias.
Cualquier prueba de habilidad (inteligencia general, capacidades especiales o
rendimiento) en realidad mide aquello que logran los individuos. Los reactivos en las
pruebas de inteligencia y capacidades especiales, al igual que los de pruebas de
aprovechamiento, requieren que los sujetos demuestren ciertos logros. Las
calificaciones obtenidas en las pruebas de aprovechamiento tambin pueden utilizarse
para muchos de los mismos propsitos que aquellas obtenidas en pruebas de
capacidades generales o especificas. Estos propsitos incluyen no slo la evaluacin
global y de diagnostico de capacidades individuales, sino tambin la evaluacin de
efectividad en la enseanza o de un programa educativo especifico. Por ltimo, las
pruebas de aprovechamiento con frecuencia son mejores indicadores de las notas
escolares que las pruebas de inteligencia o capacidades especiales. Sin embargo, esto no
significa que las pruebas de aprovechamiento en una materia especfica puedan
reemplazar por completo a las pruebas de inteligencia o capacidades especiales. Los
logros que miden las pruebas de inteligencia general casi siempre son ms amplios y se
producen por experiencias de aprendizaje menos formales y supuestamente menos
recientes que aqullos que miden las pruebas de aprovechamiento estandarizadas. Por lo
regular, las pruebas de aprovechamiento evalan el conocimiento sobre algo que se
enseo de manera explicita. Como consecuencia, las calificaciones obtenidas en estas
pruebas tienden a estar influidas ms por la preparacin que las calificaciones de las
pruebas de inteligencia.
Tambin puede hacerse una distincin entre las pruebas de aprovechamiento y las de
inteligencia y capacidades especiales en trminos del nfasis que poseen.
109
110
S.A. Courtis en 1909 y la escala de Caligrafa para nios de Thorndike en el mismo ao.
Las demostraciones de falta de confiabilidad de las calificaciones que asignaban los
maestros, incluso en las materias ms exactas como las matemticas (Starcha y Elliot),
1913), llevaron a un aumento del inters por las pruebas estandarizadas objetivas. Para
fines de la dcada de los 20, estaban disponibles numerosas pruebas de
aprovechamiento estandarizadas, incluyendo las bateras de medicin como la Prueba
de Aprovechamiento de Stanford (1923) para los alumnos de primaria y el Examen de
Contenido de la Iowa High School (1924). El nuevo formato de opcin mltiple, junto
con la invencin de las mquinas de calificacin automatizada, llevaron a un rpido
incremento en el uso de las pruebas estandarizadas para evaluar el aprovechamiento de
los alumnos.
En el lugar de estar motivado slo por las preocupaciones educativas y cientficas, el
crecimiento de la aplicacin de pruebas de aprovechamiento en Estados Unidos se
atribuye en parte al hecho de que ambos puntos de vista, el educativo y el cientfico en
un debate poltico sobre las escuelas pblicas encontraron que el propsito y los
resultados de las pruebas eran tiles para sus argumentos (Levine, 1976). Como puede
verse en la ponencia sobre los exmenes de aprovechamiento estandarizados en todo el
pas por parte del presidente George Bush, incluso en la actualidad la aplicacin de
pruebas estandarizadas, en las escuelas, sigue teniendo implicaciones polticas
significativas.
A pesar del paso del tiempo y de cientos de estudios de investigacin, nunca se ha
establecido por completo el aspecto de los meritos relativos de las pruebas de ensayo y
objetivas. De hecho, con frecuencia escuchamos el planteamiento de que los maestros se
han excedido en el uso de pruebas objetivas en detrimento de las habilidades de
composicin por parte de los alumnos. No obstante, est claro que las pruebas objetivas
que se disean con detenimiento pueden medir no slo la memoria para los hechos,
sino adems muchos de los objetivos de la educacin ms compleja que antes, se crea,
que se evaluaban slo mediante exmenes de ensayo. En aos recientes, ha existido una
tendencia muy marcada por las pruebas que miden objetivos de enseanza de orden ms
elevado, como aplicacin, anlisis y evaluacin. Otra tendencia ha sido alejarse de las
pruebas de aprovechamiento estandarizadas que tratan de evaluar los objetivos
educativos amplios y acercarse a las pruebas que estn diseadas en forma especfica
para libros de texto y programas de enseanza particulares. Por ltimo, como respuesta
a las crticas que afirman que las pruebas objetivas fomentan malos hbitos de escritura
y autoexpresin, en la actualidad se da ms importancia a las pruebas de ensayo
estandarizadas de expresin escrita.
Usos de las pruebas de aprovechamiento
La funcin bsica de las pruebas de aprovechamiento es determinar cunto sabe una
persona sobre cierto tema o qu tan bien pueden poner en prctica determinadas
habilidades. Los resultados de las pruebas de aprovechamiento informan a los alumnos,
a padres y maestros, acerca de los logros y deficiencias acadmicas de los estudiantes.
Esas pruebas tambin pueden motivas a los alumnos para que aprendan, proporcione a
los maestros y personal. Como es obvio, las calificaciones obtenidas en las pruebas
111
113
formativa, las pruebas y otros mtodos de evaluacin del progreso educativo ocurren de
manera continua durante el proceso de enseanza.
Un resultado directo del concepto de evaluacin formativa es el desarrollo de unidades
de enseanza que incluyen pruebas como parte integral y contina de la enseanza, y no
como una culminacin del proceso. En la prctica, el desempeo del alumno se observa
de manera continua durante el proceso de aprendizaje y puede servir como gua para el
estudio y el aprendizaje posterior.
Medidas con referencia a normas y criterios. Por tradicin, las medidas educativas
no slo han sido de suma; sino que adems han sido con referencias a normas ms que a
criterios. Como se describi en el capitulo cuatro, la calificacin que una persona
obtiene en una prueba con referencias a normas se interpreta al compararlas con la
distribucin de las calificaciones obtenidas de algn grupo de norma (estandarizacin).
Pero la calificacin que obtiene una persona en una prueba con referencias a criterios se
interpreta al compararla con un estndar o criterio de desempeo efectivo ya
establecido. Este estndar puede derivarse del consenso de personas que se ocupan de la
educacin: trminos de su contenido, las pruebas con referencia a criterios se interpreta
al compararla con un estndar o criterio de desempeo efectivo ya establecido. Este
estndar puede derivarse del consenso de personas que se ocupan de la educacin:
maestros y personal administrativo de las escuelas, padres, expertos en medicin y
polticos. En trminos de su contenido, las pruebas con referencias a normas por lo
regular son ms amplias y comprenden tareas ms complejas que las pruebas con
referencias a criterios. Como consecuencia, el rango de diferencias individuales en las
calificaciones obtenidas en una prueba con referencias a normas tiende a ser mayor que
aquel que presentan las pruebas con referencias a criterios.
A pesar de las diferencias en el propsito y diseo de pruebas con referencias a normas
y criterios, una prueba de aprovechamiento en particular puede funcionar como
instrumento con referencias a normas y criterios. La cantidad de material que ha
aprendido un alumno (funcin con referencias a criterios) y la manera en que su
desempeo se compara con el de otros estudiantes (funcin con referencias a normas)
con frecuencia pueden determinarse con la misma prueba (Carver, 1974).
Entre las muchas pruebas con referencias a criterios para una sola materia que se
encuentran disponibles en el mercado estn la Prueba de Lectura para el Diagnostico de
California y la Prueba de Matemticas para el Diagnostico de California (ambas de
CTB/ Macmillan/McGraw-Hill).
Tambin pueden compararse bateras de pruebas con referencias a criterios, como la
Serie de Estudios Nacionales de Aprovechamiento y La Prueba de Alfabetismo Cultural
(de Riverside Publishing Company). Otro producto que ofrecen ciertas compaas que
se dedican a las pruebas son las pruebas de una sola materia combinadas con estrategias
de enseanza apropiadas para sta. Algunos ejemplos son las pruebas de Matemticas
CRC y de la Lectura CRC (De The Psychological Corporatio). Varias compaas
tambin preparan pruebas con referencias a criterios en varias materias. Estas pruebas
114
115
116
diferencia de las pruebas de estudio, que se concentran en las calificaciones totales, las
pruebas de diagnostico producen calificaciones en cada una de varias subhabilidades.
Debido a que las diferencias entre las calificaciones obtenidas en diversas partes de la
prueba se interpretan al realizar el diagnostico, la cantidad de reactivos para medir una
subhabilidades en particular debe ser suficiente (10 o ms) para asegurar que las
diferencias entre las calificaciones de las partes sean confiables. Por desgracia, la
cantidad de reactivos que forman las calificaciones de las partes con frecuencia es
reducida y estas calificaciones se correlacionan entre s, dando como resultado distintas
calificaciones con una confiabilidad baja.
La mayor parte de las pruebas de diagnostico se aplican en el rea de la lectura, pero se
han diseado pruebas de diagnostico para matemticas y ortografa. Una prueba de
diagnostico contiene mayor variedad de reactivos y por lo regular su aplicacin toma
ms tiempo que las pruebas de estudio en la misma materia. Tambin puede
comprender varios aparatos, como un taquistoscopio para exponer el material de lectura
slo durante un periodo de tiempo breve y una cmara de movimientos oculares para
rastrear la direccin en la cual se mueven los ojos al leer.
La aplicacin de una batera de pruebas de estudio es el primer paso lgico en un
programa de pruebas porque proporciona un panorama general de la posicin del sujeto
en las distintas materias. Si se necesita una segunda evaluacin del aprovechamiento de
una persona en un rea en particular, puede aplicarse una prueba sencilla en esa materia.
Por ltimo, si se desea realizar un anlisis detallado de la incapacidad de un individuo
en lectura o matemticas y determinar las causas de sta, debe aplicarse una prueba de
diagnstico.
Pruebas de pronstico. Las pruebas de pronstico, que estn diseadas para predecir el
aprovechamiento en las materias escolares especficas, contienen una variedad ms
amplia de reactivos que las pruebas de logro de estudio en la misma materia. Son
similares a las pruebas de aptitud en su funcin como indicadores del aprovechamiento
posterior. Por ejemplo, el propsito de una prueba de preparacin para la lectura que se
aplica a un alumno de jardn de nios o de primer grado es predecir si el nio esta
preparado para aprovechar la enseanza de la lectura. En un grado ms alto, las pruebas
de pronstico en matemticas (lgebra, geometra) e idioma extranjeros esta diseada
para predecir la facilidad para el aprendizaje de esas materias.
Seleccin de una prueba de aprovechamiento estandarizada.
Al igual que la elaboracin de una prueba de aprovechamiento aplicable en saln de
clases, la seleccin de una prueba de logro estandarizada bsicamente es una cuestin de
encontrar una prueba que tenga la dificultad apropiada y un contenido que vaya de
acuerdo con los objetivos de enseanza de la organizacin, grupo, escuela o sistema
escolar en particular. Esto significa que el nivel de conocimiento o capacidad de los
sujetos y el contenido y objetivos del plan de estudios deben determinarse antes de
decidir qu prueba(s) aplicar, Adems, deben tomarse en cuenta las razones que se
tienen para someter a prueba y la forma en que van a utilizarse las calificaciones; no
tiene mucho sentido aplicar una prueba por el solo hecho de parecer adecuada y
despus archivar los resultados intiles en un cajn.
117
118
119
120
121
accidentes, sino que adems tienen limitaciones en su capacidad para superarse en una
organizacin (Fewer Firms Testing Employee Literacy, 1992).
Pruebas de Lectura
Muchas de las dificultades para el aprendizaje que experimentan los nios se relacionan
con los problemas en la lectura y esta es una razn por la que con frecuencia se refiere a
un nio para una evaluacin psicoeducativa. Ya que los problemas con la lectura se
acumulan y afectan el desempeo en casi todo el trabajo escolar, es importante evaluar
el nivel de lectura y diagnosticar las deficiencias en esta materia de manera oportuna y
regular. Debido a sus muchos usos se aplican ms pruebas de lectura que a cualquier
otro tipo de prueba de aprovechamiento. De hecho existen tantas de lectura diferentes
que se dedica un volumen completo de la serie Buros, Reading Tests and Reviews II
(Buros, 1975). Pueden encontrarse distintos tipos de pruebas de lectura; las tres
categoras principales son las pruebas de estudio, pruebas de diagnostico y pruebas de
preparacin para la lectura. Otras formas de clasificar las pruebas e lectura son con
referencias a normas contra referencias a criterios (o ambas) y lectura en silencio contra
lectura oral.
Pruebas de lecturas de estudio. El propsito principal de la aplicacin de una prueba de
lectura de estudios es determinar la capacidad general de la persona para la lectura. Las
pruebas de este tipo contienen secciones de reactivos de vocabulario y secciones de
prrafos o pasajes sobre los que se hacen preguntas. Una medida del conocimiento de
las palabras se obtiene de los reactivos de vocabulario, en tanto que la velocidad y el
nivel de comprensin de la lectura se miden a partir de los prrafos. Algunos ejemplos
importantes de pruebas de lectura de estudio son las Pruebas de Lectura de GatesMacGinitie. La Prueba de Lectura de Nelson Denny, las Pruebas de Lectura Oral de
Gray, Revisadas y las Pruebas de Aprovechamiento Metropolitanas, sexta edicin,
Estudio de Lectura. La Riverside Publishing Company publica las primeras dos pruebas
y The Psychological Corporation publica las dos ltimas.
Pruebas de diagnostico de lectura. Las pruebas de lectura de diagnostico, que son por
mucho el tipo de prueba de diagnostico mas comn, intentan evaluar muchos factores
diferentes que afectan la lectura: coordinacin ojo-mano, percepcin visual y auditiva,
comprensin de los conceptos e incluso la motivacin. Contiene subpruebas de
reconocimiento de palabras, lectura de pasajes, fontica y pronunciacin, lectura en
silencio y oral, ortografa y discriminacin de sonidos, todos con el propsito de
descubrir las causas de la incapacidad que tiene un estudiante en la lectura. Ya que, con
frecuencia, las correlaciones entre estas subpruebas son sustanciales, las distintas
habilidades que miden las pruebas de lectura de diagnostico no necesariamente son
independientes. Adems la confiabilidad de las subpruebas y de la prueba en general
casi nunca es tan alta como se deseara. Algunas pruebas representativas de esta
categora son las pruebas de lectura para el diagnostico de California (publicada por
CTB/Macmillan/McGraw-Hill), el anlisis de Durell de dificultad para la lectura y las
pruebas de Lectura para el diagnostico de Stanford (ambas publicadas por The
123
Pruebas de preparacin para la lectura. Como medida del grado en el que un nio
posee las habilidades y conocimientos necesarios para aprender a leer, una prueba de
preparacin para a lectura con frecuencia predice el logro en el primer ao mejor que
una prueba de inteligencia general. Por esta razn, las pruebas de preparacin para la
lectura, que casi siempre se llevan menos tiempo en su aplicacin que las de
inteligencia, pueden aplicarse a iqueos de jardn de nios y de primer ao cuando no se
tienen disponibles calificaciones de pruebas de inteligencia. Ciertas pruebas de lectura
contienen componentes tanto de diagnostico como de pronostico. Por ejemplo, las
Pruebas de Dominio de la Lectura de Woodcock no solo constituyen una prueba de
lectura para el diagnostico sino que adems contienen una prueba de preparacin para la
lectura. Adems, las pruebas de preparacin para la lectura contienen muchos de los
mismos tipos de reactivos que las pruebas de lectura para el diagnostico: medidas de
discriminacin visual, combinacin y discriminacin auditiva, vocabulario,
reconocimiento de letras y coordinacin visual-motriz. Algunas pruebas ilustrativas son
la Prueba de Preparacin CTBS (CTB/Macmillan/McGraww-Hill), La Conciencia
Lingstica en la Preparacin para la Lectura (American Guidance Service) y las
Pruebas de Preparacin Metropolitanas (The Psychological Coporation). Esta ltima es
nica porque combina una prueba de preparacin para la lectura con una prueba de
preparacin para las matemticas.
Pruebas de matemticas
De manea similar a las pruebas de aprovechamiento en lectura, las pruebas de
aprovechamiento de matemticas pueden clasificarse como de estudio, diagnostico y
pronostico.
Pruebas de matemticas de estudio. Debido a que el rea de la educacin en las
matemticas ha combinado en gran medida durante los ltimos 30 aos, las pruebas de
matemticas actuales representan una variedad de planteamiento para la enseanza.
Ciertas pruebas estn diseadas para abarcar los nfasis tradicional y moderno en los
planes de estudio de matemticas y estn disponibles instrumentos que reflejan
planteamientos de enseanza mas especializados desde la escuela primaria hasta la
universidad. En general, las pruebas de matemticas de estudio contienen reactivos que
requieren los sujetos demuestren una comprensin de los conceptos y operaciones
cuantitativos, as como la capacidad de aplicar esta comprensin en la resolucin de
problemas. Algunos ejemplos de pruebas de matemticas con referencias de normas del
tipo de estudio son las Pruebas de Estudio de Stanford (ambas publicadas por The
Psychological Coporation) la Prueba de Capacidades para las Matemticas y la Prueba
de Primeras Capacidades Matemticas (ambas publicadas por Publishers Test Service).
124
Pruebas para el diagnostico en matemticas. Aunque se utilizan menos que las pruebas
de lectura para el diagnostico, las pruebas de diagnostico en matemticas tambin
representan los intentos por dividir una materia compleja, que comprende una variedad
de habilidades, en los elementos que la constituyen. Los reactivos de las pruebas de
diagnostico de aritmtica y matemticas se basan en un anlisis de las habilidades y
errores en la materia. Estas pruebas comprenden las habilidades y el conocimiento
requerido para las aplicaciones que comprenden numeracin, fracciones, algebra y
geometra. Dos ejemplos de pruebas para el diagnostico de matemticas son la Prueba
de Diagnostico de Matemticas de Stanford y KeyMath. La primera, que publica The
Psychological Corporation, es una prueba de grupo desarrollada para diagnosticar las
fortalezas y debilidades especficas en los conceptos y operaciones de matemticas
bsicos en los nios del primer al decimosegundo grado. El KeyMath, Revisado: un
Inventario de Diagnostico de Matemticas Esenciales es una prueba aplicada
individualmente que publica The American Guidance Service y esta diseada para
medir la comprensin y aplicacin de los conceptos de matemticas bsicos y las
habilidades desde el jardn de nios hasta el noveno grado.
Pruebas de pronstico en matemticas. Se han diseado varias pruebas para predecir el
desempeo en cursos de matemticas especficos; pero, en comparacin con las pruebas
de pronostico de lectura (pruebas de preparacin para la lectura), no se utilizan
comnmente. Un ejemplo de una prueba de pronstico en matemticas es la Prueba de
Prognosis de lgebra de Orlens-Hanna, Revisada (The Psychological Corporation).
Diseada para identificar, antes de empezar la enseanza, que alumnos tendrn xito y
cuales enfrentaran dificultades en el aprendizaje del algebra, la prueba de OrleansHanna evala la aptitud y el aprovechamiento as como el inters y motivacin en
algebra de los alumnos del primer y ultimo aos de educaron superior. Para terminar el
cuestionario y los reactivos de muestra en la prueba se necesitan 40 minutos. El rango
percentilares y las normas de calificaciones estaninas se basan en tres grupos de
estudiantes: aquellos que terminaron las matemticas de sptimo grado, los que
terminaron las matemticas de octavo grado y aquellos de los primeros dos grupos que
terminaron un curso de un ao de algebra en el ao siguiente.
Pruebas de lenguaje
En forma general, el lenguaje se refiere a cualquier medio de comunicacin a pesar de
que las pruebas de lenguaje son principalmente de tipo verbal, tambin se han
desarrollado medidas para la comunicacin no verbal para utilizarse con personas que
tienen una incapacidad auditiva y, en pocas mas recientes, en personas con capacidad
auditiva normal.
El lenguaje oral y escrito se ensea en todos los niveles y estn disponibles pruebas
apropiadas para todos los grados. La falta de comprensin de ciertos conceptos puede
actuar como un obstculo entre el alumno de primer grado y el maestro y, como
consecuencia, tener un efecto grave en el aprendizaje del nio en la escuela. Al
reconocer esta hecho, la Prueba e Boehm de Conceptos Bsicos, Revisada (para los
grados de jardn de nios a segundo) y la Prueba de Boehm de Conceptos Bsicos:
Versin para Preescolar (para edades de 3 a 5 aos) se disearon para medir el dominio
125
de los nios pequeos en los conceptos bsicos de espacio, cantidad y tiempo (vase la
figura 5-4). The Psychoogical Corporation tambin pone a su disposicin un equipo de
materiales para ayudar al nio a dominar los conceptos que miden las pruebas, la
Boehm Resource Guide for Basic Concept Teaching.
A pesar de la existencia de pruebas como las de Boehm, la mayor parte de las pruebas
de aprovechamiento mencionadas en la categora del lenguaje estn diseadas para
estudiantes de secundaria y universidad. Estos instrumentos, que incluyen pruebas de
ingles e idiomas extranjeros, se aplican frecuentemente en secundaria y universidades
con el propsito de ubicar a los estudiantes en los cursos de ingles o de algn idioma
extranjero apropiado para su nivel de competencia.
Pruebas de Ingls. Algunas de las criticas mas severas de las pruebas objetivas
provienen de los maestros de ingles, pero en general e reconoce que esas pruebas
realizan un trabajo bastante eficiente al medir el conocimiento de gramtica,
vocabulario y, hasta cierto punto, las habilidades en expresin oral y escrita. Las
habilidades para el ingls se evalan como parte de las bateras de prueba de
aprovechamiento, pero existen tambin muchas pruebas separadas de aprovechamiento
en ingls. Algunos ejemplos son la Prueba de Ingles para Educacin Superior de
Purdue, la Prueba de Ingles para los Negocios y la Prueba de Ingles de Colocacin en la
Universidad (todas de la Riverside Publishing Co.). Estas pruebas evalan el
conocimiento de vocabulario, gramtica, sintaxis y ortografa. Tambin estn
disponibles pruebas de ortografa por separado, como ola Prueba de Ortografa Escrita 2
(pro ed).
Como es obvio, las habilidades para escuchar, habla y escribir son parte del uso del
ingls y varias pruebas se han desarrollado para medir esta habilidades. Un buen
ejemplo de prueba para escuchar es la Batera de Pruebas de Habilidades Auditivas de
Goldman-Friscoe-Woodcock (de American Guidance Service). Entre las medidas e las
habilidades en los estudiantes para articular sonidos del lenguaje estn la prueba de
Desempeo de la Articulacin (pro. ed) y la Prueba de Articulacin de GoldmanFriscoe (American Guidance Service). La comprensin y uso significativo de la
palabras habladas por parte de un nio, diversos aspectos de la gramtica y la capacidad
de pronunciar las palabras de manera correcta, as como distinguir entre palabras entre
sonidos similares pueden evaluarse mediante la Prueba de Desarrollo del Lenguaje
Primario e Intermedio (de American Guidance Service y pro. ed). Algunos ejemplos de
pruebas de escritura son la Prueba del Lenguaje Escrito (pro ed) y la Prueba de Escritura
de la Prueba de Logro Metropolitana. Sexta edicin (The Psychological Corporation).
Estas dos pruebas de escritura, para alumnos del segundo al decimosegundo grados, son
medidas de respuesta libre y muestras de trabajo mediante las cuales los sujetos escriben
historias sobre un grupo de ilustraciones que se les muestran (vase la figura 5-5). Las
historias pueden calificarse de acuerdo con diversas variables, que incluyen tema,
vocabulario, sintaxis, ortografa y estilo. Muchas otras pruebas de aprovechamiento
disponibles en el mercado, como las Pruebas Avanzadas de Ubicacin del Consejo de
Exmenes para la Admisin a la Universidad, tambin contienen un componente escrito
(ensayo).
126
127
Pruebas de ciencias
La enseanza en ciencias, al igual que en las matemticas, ha cambiado tanto desde
principios de la dcada de los 60 que muchas de las pruebas antiguas son inapropiadas
para el plan de estudios de ciencias actual. El Estudio del Plan de ciencias Biolgicas
(BSCS) y el Comit de Estudios de Ciencias Fsicas (PSSC) llevaron al diseo de
pruebas especficas en biologa y fsica. Los programas de pruebas comprensivas en
otras ciencias, como las Pruebas Cooperativas de Qumica de la American Chemical
Society, tambin reflejan los planteamientos modernos para la educacin de las
ciencias. Muchas de las pruebas mas antiguas se han revisado e un intento por evaluar el
desempeo ya sea en un programa de ciencias moderno o tradicional. Algunos ejemplos
de pruebas de la efectividad en la enseanza de las ciencias especficas son las Pruebas
de fin de Cursos en Biologa, Qumica y fsica (CTB/Macmillan/McGraw-Hill) para
estudiantes del ltimo ao de educacin superior.
Pruebas para la educacin superior y las profesiones
Muchas instituciones de educacin superior permiten que los alumnos obtengan crditos
por cursos universitarios al obtener calificaciones aceptables en pruebas de
aprovechamiento estandarizadas como aquellas que aplica el Programa Avanzado de
Colocacin (APP) de la Junta Universitaria, el Programa de Exmenes del Nivel
Universitario /CLEP) y el Programa de Exmenes de Aprovechamiento ACT. Adems,
las universidades y escuelas profesionales utilizan las calificaciones en las pruebas de
aprovechamiento estandarizadas como criterios para la seleccin de estudiantes. Por lo
general, estas pruebas estn restringidas o aseguradas, en el sentido de que se
venden o alquilan solo a ciertas organizaciones para la aplicacin en conjunto a
programas educativos especficos.
Un conjunto de 15 pruebas de aprovechamiento estandarizado que utilizadas para
seleccionar estudiantes en los programas de graduados son las Pruebas de Materias de
los Exmenes de Registro de Graduados (GRE). Las Pruebas de Materias GRE, que
consisten para las principales reas de trabajo universitario, pueden aplicarse, con la
Prueba General GRE, , a estudiantes universitarios de ultimo ao que desean solicitar
ingreso a una escuela de posgrado. Otros ejemplos de pruebas estandarizadas para la
admisin a escuelas de posgrado o profesionales son el Examen Nacional para Maestros
(NTE), la Prueba de Admisin a la Facultad de Medicina (MCAT), la Prueba de
admisin a la facultad de Derecho (LSAT), las Pruebas NLN de Aprovechamiento en
Enfermera y la Prueba de Aptitudes de Administracin de Graduados (GMAT). La
obtencin del certificado o titulo como contador publico titulado, medico, abogado,
enfermera titulada o profesional en ciertas reas tambin depende de las clasificaciones
en una serie de pruebas de aprovechamiento (exmenes de consejo, exmenes de
abogados) en esta rea en particular.
128
129
Tales fases o juicios deben expresar slo una relacin lgica; adems, es muy
recomendable que no excedan de 20 palabras.
_______________________________________________
EJEMPLO:
Objetivo de actitud medido
El voto
Afirmacin
votar es una obligacin de
De ciudadano responsable
_______________________________________________
En este caso, la afirmacin incluye ocho palabras y expresa una sola relacin lgica
(X-Y). Las opciones de respuesta o puntos de la escala son cinco e indican cunto se
est de acuerdo con la afirmacin correspondiente. Las opciones ms comunes se
presenten en la siguiente tabla. Debe recordarse que a cada una de ellas se le asigna un
valor numrico y slo puede marcarse una respuesta. Se considera un doto invlido si se
marcan dos o ms opciones.
Afiliacin
Alternativa 1:
Muy de acuerdo
Alternativa 2:
Totalmente de
acuerdo
De acuerdo
Ni de acuerdo
Ni en desacuerdo
Afirmacin
En desacuerdo
Muy en
desacuerdo
De acuerdo
Neutral
En desacuerdo
Totalmente en
desacuerdo
Afiliacin
Alternativa 3:
Siempre
Alternativa 4:
Completamente
verdadero
La mayora de las
voces s
Algunas veces s
algunas veces no
Afiliacin
La mayora de las
veces no
Nunca
verdadero
Ni falso
ni malo
Falso
Completamente
falso
) Muy de acuerdo
) De acuerdo
) Ni de acuerdo ni en desacuerdo
) En desacuerdo
) Muy en desacuerdo
131
Es indispensable sealar que el nmero de categoras de respuesta debe ser igual para
todas las afirmaciones. Pero siempre respetando el mismo orden o jerarqua de
presentacin de las opciones para todas las frases.
132
_____________________________________
EJEMPLO
El Ministerio de Hacienda al contribuyente a resolver sus problemas en al pago de
impuestos
_______________________________________________
En este ejemplo, si estamos muy de acuerdo con la afirmacin implica una actitud
ms favorable hacia el Ministerio de Haciendo que si estamos solamente de acuerdo.
En cambio, si estamos muy en desacuerdo implica una actitud muy desfavorable. Por
lo tanto, cuando las afirmaciones son positivas se califican comnmente de la siguiente
manera:
(5) Muy de acuerdo
(4) De acuerdo
(3) Ni de acuerdo, ni en desacuerdo
(2) En desacuerdo
(1) Muy en desacuerdo
Es decir, en este ejemplo, estar ms de acuerdo implica una puntuacin mayor.
Pero, si la afirmacin es negativa, significa que califica desfavorablemente al objeto de
actitud, y cuando ms de acuerdo estn los participantes con la afirmacin, significa
que su actitud es menos favorable, esto es, ms desfavorable.
EJEMPLO
El Ministro de Haciendo se caracteriza por obstaculizar por obstaculizar al
contribuyente en el pago de impuestos.
______________________________________________
En este nuevo ejemplo, si estamos muy de acuerdo implica una actitud ms
desfavorable que si estamos de acuerdo, y as en forma sucesiva. En contraste, si
estamos muy en desacuerdo implica una actitud favorable hacia el Ministro de
133
Totalmente de acuerdo
De acuerdo
Ni de acuerdo, ni en desacuerdo
En desacuerdo
Muy en desacuerdo
A continuacin, se presenta un ejemplo de una escala Liket para medir la actitud hacia
un organismo tributario.
Las afirmaciones que voy a leer son opciones con las que algunas personas estn de
acuerdo y otras en desacuerdo.
Voy a pedirle que me diga, por favor, qu tan de acuerdo est usted con cada una de
estas opiniones:
1. El personal de la Direccin General de Impuestos Nacionales es grosero al atender al pblico.
1. Muy de acuerdo
4. En desacuerdo
2. De acuerdo
5. Muy en desacuerdo
3. Ni de acuerdo, ni en desacuerdo
2. La Direccin General de Impuestos Nacionales se caracteriza por la deshonestidad de sus funciones.
1. Muy de acuerdo
4. En desacuerdo
2. De acuerdo
5. Muy en desacuerdo
3. Ni de acuerdo, ni en desacuerdo
3. Los servicios que presta la Direccin General de Impuestos Nacionales en general son muy buenos.
1. Muy de acuerdo
2. De acuerdo
3. Ni de acuerdo, ni en desacuerdo
4. En desacuerdo
5. Muy en desacuerdo
4. La Direccin General de Impuestos Nacionales informa claramente sobre cmo, dnde y cundo pagar
los impuestos.
1. Muy de acuerdo
2. De acuerdo
3. Ni de acuerdo, ni en desacuerdo
4. En desacuerdo
5. Muy en desacuerdo
4. En desacuerdo
5. Muy en desacuerdo
6. La Direccin General de Impuestos Nacionales informa oportunamente sobre cmo, dnde y cundo
pagar los impuestos.
1. Muy de acuerdo
4. En desacuerdo
2. De acuerdo
5. Muy en desacuerdo
3. Ni de acuerdo, ni en desacuerdo
134
7. La Direccin General de Impuestos Nacionales tiene normas y procedimientos bien definidos para el
pago de impuestos.
1. Muy de acuerdo
4. En desacuerdo
2. De acuerdo
5. Muy en desacuerdo
3. Ni de acuerdo, ni en desacuerdo
8. La Direccin General de Impuestos Nacionales tiene malas relaciones con la gente porque cobra
impuestos muy altos.
1. Muy de acuerdo
2. De acuerdo
3. Ni de acuerdo, ni en desacuerdo
4. En desacuerdo
5. Muy en desacuerdo
135
6. La Direccin General de Impuestos Nacionales informa oportunamente sobre cmo, dnde y cundo
pagar los impuestos.
5. Muy de acuerdo
2. En desacuerdo
4. De acuerdo
1. Muy en desacuerdo
3. Ni de acuerdo, ni en desacuerdo
7. La Direccin General de Impuestos Nacionales tiene normas y procedimientos bien definidos para el
pago de impuestos.
5. Muy de acuerdo
2. En desacuerdo
4. De acuerdo
1. Muy en desacuerdo
3. Ni de acuerdo, ni en desacuerdo
8. La Direccin General de Impuestos Nacionales tiene malas relaciones con la gente porque cobra
impuestos muy altos.
1. Muy de acuerdo
4. En desacuerdo
2. De acuerdo
5. Muy en desacuerdo
3. Ni de acuerdo, ni en desacuerdo
Valor = 1+2+1+3+1+1+2+1=12
La persona del ejemplo obtuvo 12. Su actitud hacia el organismo tributario es ms bien
bastante desfavorable; vemoslo grficamente:
_______________________________________________
EJEMPLO
8
12
16
Actitud muy
Desfavorable
24
32
40
Actitud muy
favorable
_______________________________________________
EJEMPLO
0
1.5
2
Actitud muy
Desfavorable
5
Actitud muy
favorable
La escala Likert es, en sentido estricto, una medicin ordinal; sin embargo, es comn
que se le trabaje como si fuera de intervalo. Creswell (2005) seala que debe
considerarse en un nivel de medicin por intervalos porque ha sido probada en mltiples
ocasiones. Asimismo, a veces se utiliza un intervalo de 0 a 4 o de -2 a +2, en lugar de 1
136
EJEMPLO
(4) Totalmente de acuerdo)
(3) De acuerdo
(1) En desacuerdo
(0) Totalmente
en desacuerdo
0
1
(2) Totalmente de acuerdo)
(-1) En desacuerdo
-2
(2) Ni de acuerdo
ni en desacuerdo
3
(1) De acuerdo
4
(0) Ni de acuerdo
ni en desacuerdo
(-2) Totalmente
en desacuerdo
-1
+1
+2
_______________________________________________
Simplemente se ajusta el marco de referencia: pero el rango se mantiene y las categoras
continan siendo cinco.
EJEMPLO
(1)
De acuerdo
(0)
(3)
De acuerdo
(2) Ni de acuerdo,
ni en desacuerdo
(1)
(6)
(2)
En desacuerdo
En desacuerdo
De acuerdo
En desacuerdo
_______________________________________________
Si los participantes tienen poca capacidad de discriminar se puedan considerar dos o tres
categoras. Por el contrario, si son personas con un nivel educativo elevado y gran
137
EJEMPLO
Cmo considera usted al conductor que aparece en los protagonistas?
(5) Muy buen conductor
(4) Buen conductor
(3) Regular
(2) Mal conductor
(1) Muy mal conductor
La escala en la pregunta
En ocasiones la escala se incluye en la pregunta. Mertens (2005) las denomina
preguntas actitudinales, por ejemplo:
Est usted fuertemente a favor, ms bien a favor, ms bien a favor en contra o
fuertemente en contra del aborto cuando la mujer ha sido violada?
138
EJEMPLO
De tarjeta de respuestas
Indispensable
Sumamente
importante
Medianamente
Poco
importante
importante
No se toma
en cuente
_______________________________________________
Al construir una escala Likert, debemos asegurarnos de que las afirmaciones y
alternativas de respuestas sern comprendidas por los sujetos a los que se les aplicar y
que stos tendrn la capacidad de discriminacin requerida. Ellos se evala
cuidadosamente en la prueba piloto.
139