Manual de Medición y Evaluación Psicologica

Elaborado por
Psic. Fernando Reyes Baos

1
ALGUNAS APROXIMACIONES A LA MEDICIN EN PSICOLOGA

Mara Luisa Morales:
Con la psicometra se intenta comprender la naturaleza de las personas a travs de la
medicin de la conducta del ser humano (y de los animales).
Tiene su origen en el estudio de las diferencias individuales, es decir, en trabajos
que investigan en qu difieren las personas y en qu se parecen.
Lo que en psicologa se mide son los atributos, caractersticas, habilidades o rasgos
que en las personas se expresan conductualmente de manera externa y observable, para lo
cual se usan modelos, esto es, representaciones simplificadas que contienen las
caractersticas del fenmeno estudiado, que sirven de gua para identificar los elementos del
mundo real con los elementos que a estos caractericen.
En psicologa, por ejemplo, se usa como gua el modelo matemtico para la
medicin de la conducta; para ello, se siguen los siguientes pasos: a) Identificacin del
objeto que va a ser medido; b) Identificacin de las propiedades o conducta que va hacer
medida, y c) Identificacin de las reglas, mediante las cuales, asignamos un nmero a tales
propiedades o conducta.
En conclusin, podemos decir que medicin es: un procedimiento, mediante el cual,
asignamos nmeros a las propiedades, atributos o caractersticas de los objetos,
estableciendo las reglas especficas sobre las que se fundamentan tales asignaciones.
Lewis R. Aiken:
La utilizacin ms rentable del mtodo estadstico ha sido la construccin,
aplicacin y evaluacin de las pruebas psicolgicas, particularmente debido a las funciones
que estas tienen: de diagnstico, de seleccin, de ubicacin y promocin, de decisiones
prcticas y de investigacin.
Como nota histrica interesante: en 1991, la cifra total de ventas para los tests
estandarizados aplicados en los grados, desde el jardn de nios hasta el bachillerato, se
calcul, segn la Asociacin Americana de Editores, en 134 millones de dlares!
Frederick G. Brown
Las personas difieren en sus caractersticas de personalidad y en sus habilidades
psicolgicas. As, los trminos usados en psicologa para describir a las personas se refieren
entonces a caractersticas que varan mucho unas de otras: inteligencia, agresividad,
habilidades para las matemticas, intereses mecnicos, introversin, etc.
Un problema para el psiclogo es: Cmo descubrir la naturaleza y la amplitud de

esas diferencias individuales en forma precisa y exacta?
En la descripcin de las caractersticas de los individuos se ha llegado a identificar
ms de 40,000 trminos, por lo que los psiclogos, han tratado de reducir su cantidad a un
nmero ms manejable.
Una solucin a esto fue la Teora de los rasgos: trmino que describe a un grupo de
conductas que tienden a producirse juntas. El proceso para identificar un rasgo es hacer que
un grupo de personas respondan a un gran nmero de reactivos, para luego analizar
estadsticamente los datos, y poder ver as, cules son los reactivos que se agrupan.
Ejemplo: inters mecnico en una prueba que cubra actividades vocacionales.
Para que los rasgos resulten tiles como construcciones descriptivas tienen que ser
relativamente estables en el tiempo y en diferentes situaciones. Debido a esta estabilidad
relativa, autores como Burt y Jensen sostienen que los rasgos se determinan genticamente.
Una alternativa a esta opinin es la de Ferguson, quien sostiene que los rasgos son modos
habituales de reaccin, es decir, patrones de conducta que se han aprendido tan bien que
las personas se conducen de manera similar en muchas situaciones.
Sin embargo hay quienes opinan, Brown por ejemplo, que los rasgos NO SON
caractersticas tangibles y directamente mensurables, y por ello, las mediciones
psicolgicas son siempre indirectas.
En cuanto a la naturaleza de las mediciones psicolgicas, estas son ms bien
relativas que absolutas porque comparamos la ejecucin de un individuo con la de otros y
no con un estndar absoluto; en otras palabras, tenemos un continuo de conductas y
tratamos de situar a cada individuo en el lugar que le corresponde a lo largo de l.
Dos cosas que se deben de observar siempre: 1) Los numerosos grados de variacin
de cualquier rasgo, y 2) Que la medicin se har siempre con relacin a algn grupo de
comparacin. Lo que si es definitivo es que, en psicologa no hay estndares absolutos.
Gloria Benedito
Habiendo una importacin de las matemticas a la psicologa, Basta con esa
importacin para decir que la psicologa ha adquirido cientificidad? An ahora prevalece
una suposicin de que la cientificidad de una disciplina depende del mtodo que sta
emplee (y ms si se trata de la cuantificacin). Esta suposicin tiene su origen en el
positivismo, movimiento filosfico fundado en 1844 por Augusto Comte, quien postulaba
ciertos principios para concebir a un conocimiento como cientfico, tales como un modelo
acumulativo, observacin de hechos, formulacin de leyes, precisin racional y dogma
progresista, que en conjunto definan lo que era ciencia, a saber: representacin formal del
objeto dado empricamente expresado a travs de un cdigo matemtico.
Sin embargo, a la suposicin de que la dimensin cuantitativa es inherente a la

naturaleza de los fenmenos y que por lo mismo es susceptible de ser extrada aplicando
el mtodo cuantitativo a los datos obtenidos por la experimentacin, se opone la idea de que
la cuantificacin es posible porque antes est el nmero como objeto formal, el cual, es
producto de la prctica cientfica de la matemtica.
En cuanto a la medicin, los elementos distinguibles en su proceso son: a) Un
instrumento o escala de medida; b) Una tcnica de medicin que est en funcin del
instrumento y de las propiedades del objeto a medir; c) El sistema de nmeros, y d)
Interpretacin de los datos.
Se justifica la cuantificacin en psicologa por la eleccin de un objeto de estudio
que, supuestamente, lo posibilita: la conducta, pero es precisamente por ello que entonces
se omiten ciertos factores que son imprescindibles para el estudio psicolgico del hombre:
la concepcin de un proceso de sujetacin, de un aparato psquico, de un modo de
produccin, de un conflicto, etc. Descartar esto equivale a hablar de una prctica
ideolgica, de una reproduccin de lo aparente.
Una justificacin ms certera para introducir en psicologa la medicin como parte
de una prctica cientfica es la elaboracin de un objeto formal que aluda a una explicacin
del fenmeno que se mide y que se constituya por la construccin de una teora, proceso
que reconoce dos momentos: 1) Trabajo terico-conceptual, y 2) Trabajo conceptualexperimental, eligindose entonces el mtodo apropiado a esa prctica cientfica. Para ello,
Gastn Bachelar sugiere tres tipos de vigilancia epistemolgica: a) Vigilancia de Primer
Grado, ejercida en el campo de lo emprico; b) Vigilancia al Cuadrado, cuidado de la
rigurosidad y correccin, y c) Vigilancia al cubo, supervisin de la eleccin.
Finalmente cabe una ltima pregunta: Por qu se utiliza el mtodo estadstico en
psicologa? Porque se considera a la conducta humana como un fenmeno de tipo
probabilstico.
Hernndez Sampieri y otros

Se dice que medir es asignar nmeros a objetos y eventos de acuerdo con reglas
(Stevens, 1951), pero esta definicin no es apropiada, segn Sampieri, para las ciencias
sociales, ya que varios de los fenmenos que son medidos en estas no pueden caracterizarse
como objetos o eventos, puesto que son demasiado abstractos para ello.
Se sugiere entonces definir a la medicin como proceso de vincular conceptos
abstractos con indicadores empricos, proceso que se realiza sistemticamente para
clasificar y cuantificar los datos disponibles en trminos del concepto que el investigador
tiene en mente.
As, el instrumento de medicin o de recoleccin de datos juega un papel central.
ste queda definido entonces, como el dispositivo que permite registrar datos observables
que representan, verdaderamente, los conceptos que el investigador tiene en mente.
4
Kathia Ma. Costa Neiva

Un instrumento de medicin en psicologa es un conjunto de operaciones que nos
permite llegar a obtener, objetivamente y con la mayor certeza posible, informacin acerca
de la expresin de los fenmenos que se suceden en esa unidad biolgica, social,
psicolgica, etc., que es la conducta humana.
Una prueba psicolgica es un instrumento de medicin que posee tres caractersticas
fundamentales:
1. Sirve de estmulo para extraer un segmento de la conducta de un sujeto.
2. Es rigurosamente estandarizado, es decir, se construye, se administra y se califica
segn reglas preestablecidas.
3. Permite comparar estadsticamente la conducta de un sujeto con un grupo de sujetos
de una poblacin definida.
La medicin de una conducta implica la utilizacin de ciertos procedimientos,
segn reglas especficas, para obtener como resultado la asignacin de valores numricos a
la ejecucin de una persona
Anastasi Urbina
Un baremo es el resultado que se espera de una persona de determinada edad y que
pertenece a determinado grupo, construido segn procedimientos estadsticos que, a partir
de muestras representativas, determinan cules son los rendimientos tpicos o promedios de
ese grupo que servir de patrn de comparacin.
Ejemplo: al querer medir la memoria es preciso hacer una comparacin entre el
rendimiento de un sujeto respecto a esa facultad y el obtenido por el resto de los individuos
que integran el grupo al que pertenece.
SOBRE LAS PRUEBAS
Utilidad
Para la seleccin. Se identifica a los solicitantes ms prometedores (los que tengan

mayores probabilidades de xito). La decisin es la de rechazar o aceptar.
Para la clasificacin. La meta es la de hacer coincidir los individuos y las
alternativas que haya de manera ptima.
Para el diagnstico. Se compara la ejecucin de un individuo en varios campos para
determinar sus puntos fuertes y dbiles. Estos procedimientos implican la
identificacin de los campos de incapacidad de un individuo y la aplicacin de un
programa de correccin.
Para la prueba de hiptesis en las investigaciones psicolgicas, para la construccin
de hiptesis durante una asesora y para la evaluacin en las instituciones escolares.
Actitudes hacia las pruebas
Sobreestimacin. Posicin cmoda porque no hay que sopesar una gran variedad de
factores.
Desvalorizacin. Se cree en la inutilidad de las mismas porque depender de ellas
puede traer como consecuencia tomar decisiones erradas.
Las pruebas como algo antidemocrtico y como una intrusin en la vida privada. Se
cree que ciertas caractersticas de personalidad no se relacionan necesariamente con
el xito y que las actitudes de un individuo son un asunto exclusivamente suyo.
Las pruebas
Son mtodos para la observacin sistemtica de la conducta.

Son una muestra de todos los reactivos posibles, por lo que se debe determinar si la
prueba contiene una muestra adecuada de reactivos del universo de reactivos
posibles.
Las pruebas pueden servir como
Muestras. Los reactivos de la prueba son una muestra de todos los reactivos
posibles en un dominio particular.
Signos. Enfatizan la naturaleza de la caracterstica que se mide.
Predictoras. Predicen una conducta a futuro.
TIPOS DE PRUEBAS
1. Segn la conducta que miden:

- De inteligencia,
- De habilidades,
- De personalidad,
- De intereses y valores,
- Psicomotoras,
- De rendimiento,
- Etc.
2. Segn el objetivo:
- De ejecucin mxima. Exigen del examinado su mximo rendimiento en las distintas
tareas que componen la prueba.
- De ejecucin tpica. Llamadas tambin de clasificacin tipolgica o cualitativa.
3. Segn el tipo de respuesta exigida:
- Objetivas. El examinado elige una respuesta entre varias alternativas.
- Subjetivas. El sujeto proporciona libremente la respuesta.
4. Segn la forma de administracin:
- De aplicacin individual,
- De aplicacin colectiva y
- Autoadministrables.
5. Segn la forma de dar las instrucciones:
- Orales y
- Escritas.
6. Segn la libertad de ejecucin:
- De poder. Exigen que el sujeto emplee toda su capacidad. El tiempo lmite a veces es
controlado.
- De velocidad. Exigen que el sujeto ejecute la tarea asignada lo ms rpido posible. La
duracin de la prueba es rigurosamente controlada.
7. Segn el material utilizado:
- De papel y lpiz,
- Completamente verbal,
- De ejecucin y
- Mixtas.
7
8. Segn la forma de calificacin:

- Manual e
- Informatizada.
9. Segn la poblacin a la que se destina:
- Para bebs,
- Para nios preescolares y escolares,
- Para adolescentes,
- Para adultos,
- Las que pueden aplicarse a dos o ms etapas del desarrollo.
Factores a considerar
La estandarizacin sirve para:
a) Reducir al mnimo la posible influencia de variables personales y situaciones

irrelevantes.
b) Comparar directamente las calificaciones dadas a diferentes personas.
Una prueba mide slo la conducta registrada por ella, esto es, las respuestas dadas
por una persona a los reactivos de la prueba.
Una prueba contiene solamente una muestra de todos los reactivos posibles.
Ninguna prueba incluye todos los reactivos que podran desarrollarse para medir lo
que, a partir de ahora, denominaremos dominio conductual: agrupacin hipottica
de todos los reactivos posibles que cubren una determinada rea.
DISEO Y ELABORACIN DE TESTS
Exmenes
Tipo de
instrumento
Trabajo invertido
en la elaboracin
de un test
De capacidad
y personalidad
Propsitos
Planeacin del contenido antes de
redactar reactivos
Definicin de constructos que se desean medir y establecimiento

del contenido
Tests de observacin
Poblacin destino: quienes solicitan empleo
Incluye un anlisis de puestos: especificacin de los componentes de un puesto de
trabajo para desarrollar los reactivos del instrumento, y predecir con ellos, el
desempeo del empleado.
El instrumento resultante es una muestra representativa de los comportamientos que
resultan importantes para ocupar un puesto de trabajo determinado
Tests de inteligencia
Sus reactivos se desarrollan:
De acuerdo a una teora especfica del comportamiento inteligente
Refirindose a los tipos de tareas que se supone las personas ms inteligentes
realizan con mayor eficacia que aquellas menos inteligentes
Escalas o inventarios de personalidad

Se basa en planteamientos tales como:
Sentido comn
Teoras de la personalidad
Investigacin emprica
Tests de rendimiento
Evalan y motivan a los estudiantes y proporcionan informacin sobre el grado de avance
de los objetivos educativos
En cuanto a las pruebas de rendimiento, mejor conocidas como exmenes (las pruebas
escolares que se aplican en las instituciones educativas) deben considerarse varios
aspectos: objetivos educativos basados en taxonomas; tabla de especificaciones;
contexto curricular, en el cual, este tipo de pruebas se hayan circunscritas; aspectos
prcticos, etc.
Objetivos educativos: taxonomas

Preparar una prueba para medir objetivos educativos especficos resulta ms
efectivo cuando los comportamientos a evaluar se definen con claridad en la etapa
preliminar
Existen diferentes sistemas de clasificacin para los objetivos educativos. Veamos un
ejemplo:
CONOCER
COMPRENDER
EVALUAR
OBJETIVOS
COGNOSCITIVOS
SINTETIZAR
APLICAR
ANALIZAR
10
VERBOS
SIGNIFICADO
REACTIVO
Definir,
Recuerdo de hechos
Menciona las seis categoras
Identificar,
especficos
principales de la taxonoma de
Mencionar,
Bloom
Nombrar, etc.
Comprensin Convertir,
Entendimiento del
Explique lo que quiere decir el
Explicar, significado o propsito de revisor de pruebas cuando dice
Resumir, etc.
algo
que una prueba no es confiable
Aplicacin
Calcular,
Uso de informacin e Calcule la media y la desviacin
Determinar,
ideas en nuevas
estndar del siguiente grupo de
Resolver, etc.
situaciones
calificaciones
Anlisis
Diferenciar, Dividir algo para revelar
Analiza esta unidad de
Relacionar, etc.
su estructura y la
instrucciones en las distintas
interrelacin de sus partes categoras conductuales y de
contenido
Sntesis
Disear,
Combinar los distintos
Disee una tabla de
Desarrollar,
elementos de un todo
especificaciones para una
Formular,
estructural
prueba sobre estadstica
Planear, etc.
elemental
Evaluacin
Comparar,
Realizar un juicio con
Evala el procedimiento
Criticar,
base al razonamiento utilizado para la estandarizacin
Evaluar, etc.
de esta prueba
OBJETIVOS
Conocimiento
Dentro de la planeacin de un instrumento es importante contar con una tabla de

especificaciones, que sirva como gua para elaborar los reactivos. Al respecto:
Ejemplo de una tabla de especificaciones: unidad referente al gobierno
TEMAS
Tendencias
sociales
Eventos polticos
nacionales
Mtodos de
investigacin
Principales
aspectos polticos
Total de
preguntas
HABILIDADES EVALUADAS
Comprender
Hacer
Localizar
Interpretar Total de
conceptos generalizaciones informacin
grficas preguntas
4
4
1
1
10
2
10
15
10
14
10
40
11
Se sugiere redactar inicialmente ms reactivos de los necesarios

La objetividad de los reactivos denominados objetivos radica en su calificacin
La informacin que se obtenga de los sujetos depender de las tareas implicadas en
cada reactivo
Hablando propiamente de exmenes

Si concebimos los exmenes como parte integral y formativa del proceso educativo
(Pansza y Hernndez, 1990) en lugar de pensar en ellos como una actividad desagradable,
que debemos de anexar inevitablemente a dicho proceso, podemos comenzar a
vislumbrarlos como herramientas tiles para evaluar el aprendizaje en los estudiantes.
MOTIVACIN
EXMENES
FUENTE
DE
INFORMACIN
Con relacin a los exmenes deben considerarse diferentes factores, todos ellos
relacionados con los objetivos educativos del programa de estudio de que se trate.
Temas y subtemas
Las preguntas que deben de hacerse
El docente, al momento de hacer
una prueba, deber considerar los
siguientes factores
El formato
Cundo, dnde y cmo
Forma de calificar
Objetivos
educativos
12
En cualquier caso, uno como docente debe atender siempre a los propsitos que el
programa de estudios plantea con relacin a los temas y subtemas que se vern en el curso,
porque los primeros expresan lo que pretende lograrse en los estudiantes con la revisin de
los segundos.
Objetivos educativos planteados por el plan de estudios.
Objetivos educativos planteados por el programa de estudios.
Nivel al que se pretende que los estudiantes aprendan los temas y

subtemas: Conocer, comprender, aplicar, analizar, sintetizar o evaluar.
Exmenes con reactivos que midan los temas y subtemas segn el nivel
sealado por el programa de estudios
Otras consideraciones acerca de los exmenes

Extensin de la prueba, Cuntos reactivos deben incluirse en una prueba?: Eso
depende de
Los lmites de tiempo
El Grado de lectura de los sujetos
La Extensin y dificultad de los reactivos
Si tomamos en cuenta las diferencias individuales entre los estudiantes, debemos estar
al tanto adems de otra clase de factores:
Su Preparacin
Su Personalidad
Su Estado emocional y fsico
La Naturaleza del contenido de la prueba
El Entorno en que se aplica
Ordenamiento de las preguntas: Se hacen las siguientes sugerencias:
Los reactivos de opcin mltiple y falso y verdadero se ordenan de manera que las
respuestas no sigan ningn patrn establecido
Los reactivos de respuesta corta se colocan en grupos de 5 o una cantidad similar
13
Cuando sean reactivos de aparejamiento, que todas las opciones aparezcan en la

misma pgina
Otorgar espacio suficiente para responder reactivos de respuesta corta y de ensayo
Las instrucciones: Es importante que expresemos las instrucciones de la prueba o
de cada una de las partes que la conforman lo ms claramente posible, haciendo
mencin de cmo debern los estudiantes registrar sus respuestas. En algunas
ocasiones podemos agregar, si se juzga conveniente, cmo sern calificados cada
uno de los reactivos.
Procedimiento general alternativo para calificar exmenes: Para pruebas
objetivas conformadas por reactivos con n opciones de respuesta puede utilizarse la
siguiente frmula de correccin:
Aciertos - Errores
N
Donde N equivale al nmero de preguntas dividido entre 10
Ahora bien, para usar un procedimiento como ste es recomendable
contemplar criterios de acreditacin y de evaluacin. Vase el siguiente ejemplo:
Un profesor, despus de haber utilizado el procedimiento anterior, determin para la
acreditacin y evaluacin de sus alumnos en un examen, los siguientes criterios:
a) Acreditacin: puntuacin igual o superior a 6 en el examen
b) Un ejemplo de baremo de la nota final:
-
Hasta 5.99 = Malo

De 6 a 7.5 = Regular
De 7.6 a 8.5 = Bien
De 8.6 a 10 = Muy Bien
Sugerencias para calificar pruebas de ensayo.- Calificar la pregunta como un todo

o asignar valores distintos a cada uno de los componentes que conforman al
reactivo, considerar la extensin asignada para la tarea que se solicita y su
importancia, redactar con anticipacin una respuesta ideal para cada reactivo para
poder hacer comparaciones, calificar las pruebas sin el conocimiento del nombre del
examinado y evitar errores como: dar ms importancia a la cantidad que a la calidad
de la respuesta, dar por buena una respuesta demasiado general y calificar bien un
reactivo slo porque el estudiante obtuvo calificaciones altas en otros reactivos (o
porque ha tenido buenos promedios anteriormente).
14
En cuanto a las hojas de respuesta:

En los primeros aos escolares se pide a los alumnos que marquen sus respuestas en
los folletos de las pruebas.
Posteriormente, pueden utilizarse hojas separadas, que pueden calificarse manual o
automticamente
Para administrar una prueba se recomienda:

Que el aplicador lea las instrucciones generales antes de distribuir los folletos de la
prueba
Luego, que distribuya las hojas de respuestas y lea en voz alta las indicaciones para
marcar estas
Despus, que distribuya los folletos de la prueba volteados y pida a los alumnos
verlos solamente hasta que indique que pueden empezar
Finalmente, el aplicador debe expresar las instrucciones de la prueba lo ms claramente

posible, refirindose a:
El propsito de la prueba
Los lmites del tiempo
Cmo deben registrarse las respuestas
Cmo se va a calificar
Pruebas orales.
Ventajas:
Situacin social interactiva
Respuestas a un nivel intelectual ms alto
Prctica en la comunicacin oral
Revisin ms detallada del material
El tiempo de evaluacin es pequeo
Desventajas:
Ineficaces
Falta de exactitud psicomtrica
Consumen mucho tiempo
Muestra limitada de respuestas
Mal planeadas
15
Retro-alimentacin
Una vez que se califican las pruebas y se hace entrega de los resultados, resulta
ms til explicarles a los estudiantes en qu se equivocaron en lugar de explicarles en qu
acertaron, pero resulta todava ms til explicarles por qu se equivocaron. Por qu?
Porque de ese modo pueden aprender estrategias ms convenientes para la prxima vez.
Preguntas gua para
mejorar
la comunicacin de la
retro-alimentacin
RETROALIMENTACIN
Cul es el error?
Cul es la razn probable por la que el alumno
comete ese error?
Cmo puedo guiar al alumno para evitar el error en
el futuro?
Qu hizo bien el alumno que se pueda hacer notar?
Comentarios especficos
sobre errores o estrategias
negativas
Sugerencias sobre cmo

mejorar
y comentarios sobre
aspectos positivos
16
TIPOS DE REACTIVOS
Preparacin de los reactivos del Instrumento. Todos los reactivos de pruebas representan
procedimientos para obtener informacin sobre los individuos, pero la cantidad y clase de
informacin varia de acuerdo con la naturaleza de las tareas que implican los distintos tipos
de reactivos. Pedir a los sujetos que comparen la Batalla Bulges con la Batalla de Hastings
exige una clase de respuesta diferente que aquella que se obtiene cuando slo se les pide
que indiquen, de entre una serie de eventos, aquellos que ocurrieron en cada batalla. El
primer reactivo o tem requiere de capacidades complejas de integracin y organizacin, en
tanto que para contestar el segundo solo se necesita memoria cognoscitiva.
Se han sugerido distintos mtodos para clasificar los reactivos de acuerdo con el
formato, o la forma en que se requiere la respuesta. Completamiento o llenado contra
seleccin, recuerdo contra conocimiento y construccin de respuesta contra identificacin
son maneras de diferenciar entre los reactivos en los cuales se requiere que los sujetos
escriban o elaboren una respuesta y aquellos en los cuales se les pide indiquen cul es la
alternativa correcta. Otro mtodo popular para clasificar los reactivos es ensayo contra
objetivo. Todos los reactivos de ensayo son del tipo de completamiento o llenado porque la
respuesta del sujeto es una respuesta construida.
Sin embargo, los reactivos objetivos pueden ser del tipo de llenado,
completamiento, de seleccin, dependiendo de si los sujetos deben elaborar una respuesta o
slo seleccionar la mejor respuesta de una serie de alternativas. El rasgo crucial de los
reactivos objetivos no es la forma de respuesta, sino qu tan objetivamente pueden
calificarse. Con frecuencia, dos o ms calificadores de un reactivo de ensayo estn en
desacuerdo hasta cierto punto sobre lo correcto de una respuesta determinada y cuntos
puntos debe recibir. Pero, a excepcin de los errores de oficina, los distintos calificadores
de una prueba objetiva darn la misma calificacin a un reactivo dado.
Ejemplos de distintos tipos de reactivos de prueba
I. Reactivos de ensayo: escriba una respuesta de media pgina para cada reactivo.
1. Compare las ventajas y desventajas de los reactivos de ensayo y objetivos para pruebas.
2. Explique las razones para realizar un anlisis de reactivos de una prueba aplicable en el
saln de clases.
II. Reactivos objetivos
A. Respuesta corta: escriba la (s) palabras (s) apropiada (s) en cada espacio.
1. Lo nico que es objetivo sobre una prueba objetiva es el _____________________.
2. Cul es el primer paso formal en la elaboracin de una prueba para predecir el grado
de xito en un trabajo en particular? ________________________________.
17
B. Falso y verdadero: encierre en un crculo la V si la afirmacin es verdadera; encierre

en un crculo la F si se trata de una afirmacin falsa.
V
V
F
F
1. El sistema de clasificacin de pruebas ms comprensivo es el de The

Mental Measurements Yearbooks.
2. El grupo de respuestas de conveniencia social es la tendencia a dar una
calificacin alta a una persona en un rasgo o caracterstica solo porque
se le califica as en otra caracterstica.
C. Aparejamiento: escriba la letra que corresponde al nombre correcto en el espacio

adecuado del margen.
_____ 1. Prueba de inteligencia de grupo
_____ 2. Prueba de inteligencia individual
_____ 3. Inventario de intereses
_____ 4. Inventario de personalidad
_____ 5. Correlacin producto-momento
_____ 6. Pruebas sensoriomotrices
A. Binet
B. Darwin
C. Galton
D. Otis
E. Pearson
F. Rorschach
G. Spearman
H. Strong
I. Woodworth
D. Opcin mltiple: escriba la letra de la opcin correcta en el espacio del margen

antes del tem o reactivo.
1.
Los adverbios como nunca, a veces y siempre, que revelan la respuesta a una
persona sin informacin sobre la materia del reactivo, se llaman
A.
C.
generalidades brillantes
adverbios de enlace
2.
Jimmy, que tiene 8 aos 4 meses de edad, obtiene una calificacin de edad mental
de 9 aos 5 meses. De acuerdo con el texto, cul es su CI promedio?
A.
C.
88
90
B.
D.
B.
D.
grupos de respuestas
determinantes especficos
113
120
1. Reactivos de ensayo. La ventaja ms importante de los reactivos de ensayo es que

pueden medir la capacidad para organizar, relacionar y comunicar, comportamientos que no
evalan con facilidad los reactivos objetivos; adems, un instrumento de ensayo requiere
menos tiempo para prepararse y es poco probable que los sujetos contesten en forma
correcta, los reactivos de ensayo mediante la adivinacin. Una desventaja de los
instrumentos de ensayo es que la cantidad de preguntas que pueden responderse en un
tiempo de clase regular (aproximadamente seis respuestas de media pgina en 50 minutos)
18
tal vez no proporcionen un muestreo adecuado del conocimiento sobre la materia que
tienen las personas. Otras desventajas de estos instrumentos son que la calificacin es
subjetiva; toma mucho tiempo y son susceptibles al engao por parte de sujetos con
facilidad de palabra, pero que carecen de informacin.
Un profesor de historia que conozco, en una ocasin inform haber aplicado un
instrumento de ensayo que inclua la pregunta, Cules fueron las causas y consecuencias
de la Batalla de Hastings? Un alumno flojo que no haba tenido tiempo de llegar mas atrs
del siglo XVI al estudiar la historia de Inglaterra empez la respuesta a esta pregunta con la
afirmacin, No puedo comentar sobre la Batalla de Hastings, pero prestemos atencin a la
Guerra de los Cien Aos. Este es un ejemplo bastante flagrante de la tendencia que
presentan personas que no cuentan con informacin suficiente al responder de manera
ligeramente diferente a la pregunta hecha con objeto de enfatizar lo que s saben, en lugar
de lo que no conocen.
Por regla general, no deben utilizarse los reactivos de ensayo cuando es posible
realizar la misma evaluacin con reactivos objetivos. Si se hacen preguntas de ensayo, la
persona que redacta los reactivos debe tratar de realizar las preguntas objetivas. Esto puede
lograrse al 1) definir la tarea y redactar los reactivos en forma clara, por ejemplo, pidiendo
al sujeto que compare y explique en lugar de que analice; 2) utilizar una cantidad
reducida de reactivos, debern responder todas las personas; 3) estructurar los reactivos de
manera que los expertos en la materia estn de acuerdo en que una respuesta es mejor que
otra de forma demostrable y 4) pedir a las personas que respondan cada reactivo en una
hoja de papel separada.
Reactivos de respuesta corta, falso y verdadero y comparacin. Los reactivos objetivos

no se limitan a las cuatro formas tradicionales (respuesta corta o terminacin, falso y
verdadero, comparacin y opcin mltiple), pero estas son las ms populares. Algunas de
las ventajas que presentan las pruebas objetivas son que pueden calificarse con facilidad y
de manera objetiva y que, como se necesita menos tiempo para responder cada reactivo,
permiten un muestreo ms extenso del material que las pruebas de ensayo. En la
preparacin de pruebas objetivas, debe ponerse especial cuidado en lograr que los reactivos
sean claros, precisos y correctos en el aspecto gramatical. Deben redactarse con un lenguaje
apropiado para el nivel de lectura del grupo que presentar la prueba. Deben incluir en el
reactivo todos los datos y requerimientos necesarios para seleccionar una respuesta
razonable, omitiendo las palabras y frases intiles o estereotipadas.
A pesar de que puede existir una tendencia a elaborar los reactivos objetivos con el
uso de afirmaciones de los libros de texto u otras fuentes, esto da mayor importancia al
aprendizaje de memoria. Las personas que redactan los reactivos tambin deben tener
Una forma de manejar este problema, aunque representa mucho trabajo tanto para las
personas que presentan la prueba como para quienes la califican, es el famoso
procedimiento chino para los exmenes en el que se pide a los sujetos que escriban todo
lo que saben!
19
cuidado de omitir las claves irrelevantes para la respuesta correcta y evitar reactivos que se
interrelacionen y se entrelacen. Los reactivos se interrelacionan cuando la redaccin de uno
de estos ofrece una clave para la respuesta de otro. Los reactivos se entrelazan cuando es
necesario saber la respuesta correcta de uno con objeto de contestar otro en forma correcta.
2. Reactivos de respuesta corta. Un reactivo de respuesta corta es una tarea de tipo de

completamiento, en la cual, se pide a las personas que completen o llenen uno o ms
espacios en blanco de una afirmacin incompleta con las palabras o frases correctas o que
den una respuesta breve a una pregunta. En trminos de la longitud de la respuesta
elaborada, los reactivos de respuesta corta se encuentran entre los reactivos de ensayo y de
conocimiento. Se cuentan entre los reactivos que se elaboran con mayor facilidad, ya que
requieren que las personas den la respuesta correcta en lugar de limitarse a reconocerla. A
pesar de que los reactivos de respuesta corta son en especial tiles para evaluar el
conocimiento de la terminologa, tienen serias limitaciones. No son apropiados para medir
objetivos de enseanza complejos y, ya que puede haber ms de una respuesta correcta, la
calificacin no siempre es por completo objetiva.
En la elaboracin de reactivos de respuesta corta debe seguirse los lineamientos
siguientes:
1. Se prefieren las preguntas a las afirmaciones incompletas.
2. Si se utiliza una afirmacin incompleta, debe redactarse de manera que el espacio en
blanco quede al final de sta.
3. Evitar varios espacios en blanco en el mismo concepto, en especial, si hacen que el
significado de la tarea no sea claro.
3. Reactivos de falso y verdadero. Uno de los tipos de reactivos para pruebas que son ms
sencillos de elaborar, pero que quiz sean los que menos agradan a los profesionales que
aplican las pruebas, son los de falso y verdadero. Estos reactivos pueden redactarse y
leerse con rapidez y, por tanto, permiten un muestreo extenso del contenido. Una
desventaja importante de estos reactivos es que, con frecuencia, se ocupan de informacin
trivial o se elaboran con afirmaciones que se toman al pie de la letra de los libros de texto.
Como consecuencia, se dice que alientan el aprendizaje de memoria. Otro motivo de crtica
para los reactivos de falso y verdadero es que con frecuencia son ambiguos, no pueden
utilizarse para medir objetivos de enseanza ms complejos y, al basarse en el aprendizaje
de memoria, dan una direccin errnea a los esfuerzos por aprender; adems, ya que la
calificacin total de una prueba de falso y verdadero puede verse afectada por la tendencia
del sujeto a adivinar cuando tiene duda o a estar de acuerdo (o en desacuerdo), el
significado de sta puede ponerse en entredicho.
La tendencia a estar de acuerdo cuando se tienen dudas (conformidad) es un ejemplo de

un grupo de respuestas. Un grupo de respuestas es la tendencia por parte de la persona que
presenta la prueba a contestar los reactivos con base a su forma, es decir, en la manera que
estn redactados, en lugar de su contenido.
20
En promedio, los sujetos respondern en forma correcta 50 por ciento de los

reactivos de una prueba de falso y verdadero con slo adivinar. Las calificaciones pueden
aumentar an ms cuando los reactivos contienen determinantes especficos; palabras como
todos, siempre, nunca y slo, que indican que es probable que la afirmacin sea falsa, o con
frecuencia, algunas veces y por lo general, que indican que es probable que la afirmacin
sea verdadera.
A pesar de estas desventajas, los reactivos de falso y verdadero no tienen que ser
triviales ni ambiguos y no necesariamente dan una direccin errnea a los esfuerzos por
aprender. En defensa de los reactivos de falso y verdadero, Ebel (1970) sostiene que el
grado del dominio por parte de los alumnos de un rea del conocimiento en particular est
indicado por su xito al juzgar lo cierto o falso de las propuestas que se relacionan con
sta". Ebel argumentaba que estas propuestas son expresiones del conocimiento verbal, que
considera, la esencia del logro educativo.
La defensa por parte de Ebel de los reactivos de falso y verdadero puede ponerse en
duda, pero no se pone en duda el hecho de que los reactivos de falso y verdadero puedan
medir algo ms que el aprendizaje de memoria, por ejemplo, al incluir dos conceptos,
condiciones o eventos en un reactivo de falso y verdadero, la persona que administra la
prueba puede preguntar si es cierto que estn relacionados de manera estrecha a moderada.
(Diekhoff, 1984). Otras posibilidades son preguntar si: 1) un concepto, condicin o evento
implica (es consecuencia de) otro; 2) un concepto, condicin o evento es un subgrupo,
ejemplo o categora de otro, o 3) ambos conceptos, condiciones o eventos son verdaderos.
Estos reactivos pueden medir la comprensin, as como el conocimiento significativo de
los conceptos y eventos.
Cualesquiera que sean los objetivos de una prueba de falso y verdadero, se aconseja
tomar en cuenta las sugerencias siguientes al elaborar reactivos de este tipo:
1. Asegrese de que las afirmaciones planteen asuntos importantes (no triviales).
2. Redacte las afirmaciones relativamente cortas y verdaderas o falsas sin lugar a dudas.
3. Evite los reactivos en forma negativa, en especial aquellos que contienen doble
negacin.
4. Evite los reactivos ambiguos y capciosos.
5. Como regla general, evite los determinantes especficos. Si se utilizan determinantes
especficos para hacer que cometan errores las personas sin conocimientos pero hbiles,
deben incluirse en los reactivos verdaderos con tanta frecuencia como en los falsos.
6. En las afirmaciones de opinin, cite la fuente o el texto del que provienen.
7. Redacte las afirmaciones verdaderas y falsas ms o menos con la misma longitud y
procure que la cantidad de afirmaciones verdaderas sea aproximadamente igual a la
cantidad de afirmaciones falsas. Puede argumentarse que, debido a que las afirmaciones
falsas tienden a ser ms discriminantes que las verdaderas, la cantidad de afirmaciones
falsas debera ser mayor que las verdaderas. Sin embargo, si el maestro sigue esta
prctica en pruebas subsecuentes, es probable que los alumnos se den cuenta de ello y
empiecen a responder falso cuando tengan duda sobre la respuesta.
21
8. Haga que las respuestas incorrectas sean ms atractivas al redactar los reactivos de
modo que la lgica superficial, los errores populares y los determinantes especficos
sugieran que las respuestas errneas son correctas. Las afirmaciones falsas que parecen
verdaderas tambin pueden hacer que se equivoquen las personas sin conocimientos.
4. Reactivos de aparejamiento. En cierto sentido, tanto los reactivos de falso y verdadero

como los de opcin mltiple son una variedad de los reactivos de aparejamiento. En estos
tres tipos de reactivos, se compara un grupo de opciones de respuesta a un grupo de
opciones de estmulo (premisas). La diferencia es que los reactivos de falso y verdadero y
de opcin mltiple tienen una sola opcin de estmulo (el tronco de la respuesta) y dos o
ms opciones de respuesta, en tanto que los reactivos de aparejamiento pueden tener
opciones de estmulo y de respuesta mltiples.
La tarea en un reactivo de aparejamiento es indicar qu opciones de respuesta
corresponden a cules opciones de estmulo. Por lo general, la comparacin es de una a uno
(una respuesta por estmulo), pero tambin puede ser de una a varios, de varias a uno o de
varias a varios. Desde luego, los sujetos deben estar informados sobre cuales de estos
procedimientos se aplican a un reactivo en particular.
Los reactivos de aparejamiento son fciles de elaborar y cubren el material con ms
eficacia que otros tipos de reactivos, pero por lo regular miden slo el aprendizaje de
memoria de los hechos; adems, la necesidad de hacer que las opciones sean homogneas
(todas las opciones de la misma clase, como fechas, lugares o nombres) limita el tipo de
material que puede adaptarse en un contexto de comparacin. Los siguientes son algunos
lineamientos para la elaboracin de reactivos de aparejamiento:
1. Ordene las opciones de estmulo (premisas) y respuesta en un formato de columnas
claro y lgico, con las opciones de estmulo en la columna izquierda y las opciones de
respuesta en la columna derecha.
2. Numere las opciones de estmulo en forma sucesiva y coloque letras (a, b, c, etctera)
antes de las opciones de respuesta.
3. Utilice entre seis y 15 opciones de estmulo, que tengan de dos a tres opciones de
respuesta ms que las opciones de estmulo.
4. Especifique con claridad las bases de la comparacin.
5. Coloque todos los reactivos de este mismo tipo en una sola pgina.
Un tipo especial de reactivo de aparejamiento es el reactivo de reordenamiento o
jerarquizacin, en el cual se pide a las personas que clasifiquen un grupo de opciones en
una cantidad fija de categoras determinadas previamente. Un tipo particular de reactivo de
jerarquizacin es el reactivo de rango, en el cual, se ordena un conjunto de opciones de
acuerdo con el rango de primera a ltima.
5. Reactivos de opcin mltiple. Nadie sabe quien elabor el primer reactivo de prueba de
opcin mltiple, pero desde el punto de vista de la evaluacin psicolgica se trat de un
22
evento importante. Los reactivos de opcin mltiple son los ms verstiles de todos los
reactivos para las pruebas objetivas en el sentido que pueden utilizarse para medir los
objetivos de aprendizaje complejos y sencillos en todos los niveles y en cualquier materia.
A pesar de que la elaboracin de una respuesta para un reactivo de ensayo quiz requiera de
mayor habilidad para la organizacin que la respuesta para un reactivo de opcin mltiple,
responder en forma correcta un reactivo de opcin mltiple bien elaborado, requiere de
gran capacidad para la discriminacin y no slo para reconocer o recordar la respuesta
adecuada. Las calificaciones para este tipo de reactivos se ven menos afectadas por la
adivinacin y otros grupos de respuesta que las calificaciones para otros tipos de reactivos
objetivos. Adems, puede obtenerse informacin de diagnstico til a partir de un anlisis
de las opciones incorrectas (distractores) que eligen las personas.
Entre las desventajas de los reactivos de opcin mltiple se encuentra que: 1) es
difcil elaborar los reactivos adecuados, en especial aquellos donde todas las opciones
tengan el mismo atractivo para los sujetos que no conocen 1a respuesta correcta; 2)
enfatizan el reconocimiento ms que el recuerdo y organizacin de la informacin; y 3)
requieren de ms tiempo para contestarse y quizs ofrecen una muestra menos adecuada del
rea de la materia que los reactivos de falso y verdadero. Tambin se establece, aunque no
se ha comprobado, que las pruebas de opcin mltiple favorecen a los lectores astutos,
ingeniosos y rpidos y afectan a las personas que piensan con mayor profundidad las
respuestas (Hoffman, 1962).
Los lineamientos siguientes deben facilitar la elaboracin de reactivos de opcin
mltiple de alta calidad:
1. Debe utilizarse como tronco una pregunta o afirmacin incompleta, pero se prefiere el
formato de pregunta. En una afirmacin incompleta, coloque el espacio en blanco al
final del reactivo.
2. Establezca en el tronco, el problema especfico de la pregunta o afirmacin incompleta
de manera clara y en un nivel apropiado para las personas; evite tomar al pie de la letra
preguntas o afirmaciones de los libros de texto.
3. Coloque la mayor parte del reactivo en el tronco. No tiene caso repetir las mismas
palabras en todos los conceptos. Para las personas es menos difcil revisar las opciones
ms cortas.
4. Emplee pocas preguntas de opinin; cuando las utilice, cite la fuente o el libro de texto
de donde proviene la opinin.
5. Por lo general se utilizan cuatro o cinco opciones, pero tambin pueden redactarse slo
dos o tres opciones.
6. Si las opciones tienen un orden natural, como fechas o pocas, se recomienda
ordenarlos de acuerdo con ste. De otra manera, ordene las opciones de modo aleatorio
o alfabticamente (si esta ultima no proporciona alguna clave para las respuestas
correctas).
Es probable que el crdito por la creacin del formato de reactivos de opcin mltiple
corresponda a Arthur Otis, quien al parecer, lo utiliz por primera vez en su prueba de
inteligencia en grupo en 1916-1917.
23
7. Redacte todas las opciones de respuesta de modo que tengan una longitud, ms o menos
igual, que sean correctas en el aspecto gramatical y que sean apropiadas en relacin con
el tronco. Sin embargo, no permita que el tronco revele la opcin correcta mediante
asociaciones verbales u otras claves.
8. Haga que todas las opciones sean posibles para las personas que no conocen la
respuesta correcta, pero que slo una opcin sea la correcta o "la mejor".
9. Al elaborar cada distractor, formule una razn por la cual un sujeto que no conoce la
respuesta correcta podra seleccionarlo.
10. Evite, o por lo menos reduzca al mnimo, el uso de expresiones como no tanto en el
tronco como en las opciones.
11. A pesar de que es apropiada cierta cantidad de originalidad e incluso humor y puede
servir para interesar y motivar a las personas, no deben utilizarse troncos y opciones
ambiguas ni capciosas.
12. Use poco las expresiones ninguna de las anteriores, todas las anteriores o ms de
una de las anteriores. Tambin evite los determinantes especficos como siempre o
nunca.
13. Coloque las opciones en formato (prrafo) de grupo en lugar de una tras otra; utilice
nmeros para designar los reactivos y letras para las opciones.
14. Prepare la cantidad correcta de reactivos para el grado o nivel de edad que se pondr a
prueba, haciendo que cada reactivo sea independiente de los dems (que no se
entrelacen ni se interrelacionen).
Con slo seguir estos lineamientos, que son sobre todo producto de la lgica y la
experiencia ms que de la investigacin, no asegura la elaboracin de una prueba de opcin
mltiple adecuada; en lugar de obedecer a ciegas un conjunto de reglas, la capacidad para
redactar reactivos adecuados depende tanto o ms del conocimiento de la materia que
abarca la prueba, de entender lo que los alumnos deben saber sobre la materia, del arte o la
habilidad para hacer preguntas, etc. An cuando los lineamientos no se sigan con precisin,
los reactivos de opcin mltiple tienden a ser bastante eficaces para medir el conocimiento
y la comprensin1.
Elaboracin de distractores. Un proceso crucial para determinar la efectividad de los

reactivos de opcin mltiple es la seleccin o elaboracin de distractores (opciones
incorrectas). En la seleccin de reactivos puede emplearse un planteamiento racional o
emprico. El planteamiento racional requiere que la persona que elabora la prueba realice
juicios personales con respecto de los distractores apropiados. Por el contrario, el
planteamiento emprico consiste en seleccionar distractores de acuerdo con la cantidad de
respuestas que se dan al tronco del reactivo cuando se aplican como afirmaciones abiertas.
No existe un consenso con respecto de qu planteamiento da como resultado mejores
distractores, pero el juicio de la persona que aplica el examen parece ser por lo menos tan
efectivo como el planteamiento emprico (Owens, Hanna y Coppedge, 1970; Hanna y
Jonhson. 1978).
Pueden encontrarse ejemplos de esta clase de reactivos en Woolfolk, Anita E. (1999), Psicologa educativa.
Prentice Hall: Mxico.
24
Elaboracin de reactivos complejos. Los creadores de pruebas por lo general tienen ms

problemas al elaborar los reactivos para medir la comprensin y el pensamiento que
aquellos que miden el conocimiento directo de la materia de la prueba. Se han propuesto
distintas formas de componer reactivos objetivos para evaluar objetivos de enseanza ms
complejos. Las opciones como todas las anteriores, ninguna de las anteriores, dos de
las anteriores y "todas las anteriores menos una pueden hacer que la eleccin sea ms
difcil; adems, hacer que todas las opciones sean correctas (o incorrectas) y pedir que las
personas seleccionen la mejor o la opcin ms apropiada para cada reactivo complica la
tarea. Otras formas de hacer que la decisin del sujeto sea ms difcil son: 1) incluir
reactivos de opcin mltiple en los cuales una cantidad variable de opciones sea correcta y
en los que la persona deba indicar cules opciones son correctas o incorrectas (en caso de
haberlas); 2) hacer que seleccionen una respuesta y la mejoren, y 3) pedir que identifiquen
el planteamiento correcto (como por ejemplo una ecuacin o mtodo de solucin) para las
tareas de solucin de problemas.
A continuacin se ilustran procedimientos adicionales para aumentar la complejidad
de los reactivos de opcin mltiple. Todas estas tcnicas se disearon para hacer que la
eleccin de la opcin correcta sea un proceso analtico y que requiera del pensamiento en el
cual se emplean distintas capacidades mentales, en lugar de un simple proceso de memoria
de reconocimiento.
Algunas formas complejas de reactivos de opcin mltiple
1. Clasificacin. El examinando clasifica una persona, objeto o condicin en una de las
varias categoras mencionadas en el tronco:
Jean Piaget se caracteriza mejor como un psiclogo ________________
a. clnico
b. del desarrollo
c. psicomtrico
d. social
2. Condiciones si-entonces. El examinando debe decidir la consecuencia correcta de

una o ms condiciones presentes:
Si la varianza real de una prueba aumenta pero la varianza de error permanece
constante, cul de las situaciones siguientes se presenta?
a. aumenta la confiabilidad
b. disminuye la confiabilidad observada
c. disminuye la varianza observada

d. no cambian ni la confiabilidad ni la varianza
3. Condiciones mltiples. El examinando utiliza dos o ms condiciones o afirmaciones

mencionadas en el tronco para llegar a una conclusin:
Suponiendo que la calificacin bruta de Mary en una prueba es 60, la medida de la
prueba es 59 y la desviacin estndar es 2, cul es la calificacin z de Mary?
25
a. 2.00
b. 0.50
c. 0.50
d. 2.00
4. Falso y verdadero mltiple. El examinando decide si una, todas o ninguna de las dos
o ms condiciones o afirmaciones mencionadas en el tronco es (son) correcta (s):
Es cierto que 1) Alfred Binet es el padre de las pruebas de inteligencia y 2) su
primera prueba de inteligencia se public en 1916?
a. ambas, 1 y 2
b. 1 pero no 2
c. 1 no, pero 2 s
d. ni 1 ni 2
5. Falta de correspondencia. El Examinando indica cul de las opciones no pertenece

al mismo grupo que las otras:
Cul de los nombres siguientes no corresponde con los otros?
a. Alfred Adler
b. Sigmund Freud
c. Carl Jung
d. Carl Rogers
_________________________________________________________________________
Tomado textualmente de: Aiken, Lewis R. (1996). Tests psicolgicos y Evaluacin.
Mxico: Prentice Hall, pginas 29 a 37.
26
BREVE REPASO DE ALGUNOS TRMINOS ESTADSTICOS

MEDIDAS DE TENDENCIA CENTRAL
Una caracterstica de la distribucin de datos es su tendencia a acumularse

hacia el centro de la misma. Esta caracterstica se denomina tendencia central.
Las ms importantes, al menos para la segunda parte de este curso sobre
Teora de la Medida, son: la moda, la mediana y la media.
MODA, el valor ms frecuente (Mo)

Es la puntuacin que ocurre con mayor frecuencia. La moda puede ser no
nica e inclusive no existir. Ejemplo:
24 31 35
35
38 43 45 50
57
Mo = 35
Ejercicio 1. Hallar la moda en los siguientes datos:
16
18
15 20 16
MEDIANA, el valor central (Mdn)

Es el valor que divide a la distribucin por la mitad, o dicho de otra forma, el
punto central de una serie de datos
a) No. Impar: N + 1 / 2
Para calcularla
b) No. Par: Media de los valores
centrales
Ejemplos:
Habindose ordenado los datos en forma creciente (o decreciente), se aplica
la frmula del inciso a dado que el nmero de datos es impar.
27
24 31 35 35
38 43 45 50
Mdn = 9 + 1 / 2 = 5
57
La mediana es 38
Ordenndose previamente los datos, se calcula la media de los valores

centrales dado que el nmero de datos es par.
7
10 10 12 13
15
M = 10 +12 / 2 = 11
La mediana es 11
Ejercicio 2. Hallar la mediana de los siguientes datos.

25
30
28 26 32
MEDIA, promedio aritmtico de una distribucin (M)

Se trata de la suma de todos los valores divididos por el nmero de casos.
Frmula: M = X / N
Ejemplo:
10
8 6 5
10
M = 10 + 8 + 6 + 5 + 10 + 7 / 6 = 8
Cuando los datos estn agrupados en intervalos, la media se calcula as:
1. Se obtiene el punto medio de cada intervalo.
2. Se multiplica cada punto medio por las frecuencias correspondientes.
3. Se aplica la siguiente frmula: M = fx / N
Ejemplo:
28
INTERVALOS
fx
13 15
10 12
79
46
1-3
3
4
9
2
1
N = 19
14
11
8
5
2
42
44
72
10
2
fx = 170
M = 170 / 19 = 8.95
Ejercicio 3. Con la siguiente distribucin de frecuencias, que muestra
espesores en pulgadas de recipientes de acero, hallar la media aritmtica.
Espesores en
pulgadas
0.327 0.330
0.323 0.326
0.319 0.322
0.315 0.318
0.311 0.314
0.307 0.310
f
1
14
22
5
5
3
MEDIDAS DE DISPERSIN
Estas medidas indican la tendencia de los datos a dispersarse en torno al

centro de la distribucin. Las ms importantes, para la segunda parte del curso
en cuestin, son: el rango, la desviacin estndar y la varianza.
RANGO, amplitud o recorrido (R)

Es la diferencia entre el dato mayor y el dato menor de un conjunto de datos.
Su frmula es: R = X mx. X mn.
Ejemplos:
29
4 5
5 5 6
7 20
R = 16
2
4 6 7
9 12 14
15
R = 13
DESVIACIN ESTNDAR (s) Y VARIANZA (s2)

Considrese el siguiente conjunto de datos:
5 10 15
20
25 30 35,
el cual, presenta una M de 20. La desviacin de cada uno de esos datos con
respecto a su media los presentamos en el siguiente cuadro:
X
XM=d
5
5 - 20
- 15
10
10 - 20
- 10
15
15 - 20
-5
20
20 - 20
0
25
25 - 20
5
30
30 - 20
10
35
35 - 20
15
Considerando lo anterior, la desviacin estndar es un promedio de las

desviaciones de las puntuaciones de una distribucin con respecto a su media.
Se define como: la raz cuadrada de los cuadrados de las desviaciones de los
valores de la variable con relacin a su media. Cuanto mayor es la dispersin
de los datos alrededor de la media, mayor es la desviacin estndar.
En lo que respecta a la varianza, sta es el cuadrado de la desviacin estndar.
Frmula de la desviacin estndar: s =
(X M)2 / N
30
Procedimiento:
1.
2.
3.
4.
Se ordenan las puntuaciones.

Se calcula la media.
Se determina la desviacin de cada puntuacin con respecto a la media.
Se eleva al cuadrado cada desviacin y se obtiene la sumatoria de las
desviaciones elevadas al cuadrado.
5. Se aplica la frmula antes citada.
Ejemplo:
Las calificaciones en Teora de la medida.
M = 40 / 7 = 5.71
X
9
7
6
6
5
4
3
X = 40
s=
(X M)2
10.82
1.66
0.08
0.08
0.50
2.92
7.34
(X M)2 = 23.40
X-M
3.29
1.29
0.29
0.29
- 0.71
- 1.71
- 2.71
23.40 / 7 = 1.83
s2 = 3. 34
Ejercicio 4. Siendo su M de 9.5, hallar la desviacin estndar y la varianza de
la siguiente serie de datos:
10 18
15
12 3
6 5 7
Cuando los datos estn agrupados en una distribucin de frecuencias:

1. Se obtiene el punto medio de cada intervalo y se determina la media de
la distribucin (con la frmula para los datos agrupados M = fx / N).
31
2. Se determina la desviacin de cada puntuacin con respecto a la media

(restando a los puntos medios lo que se haya obtenido como media).
3. Se eleva al cuadrado cada desviacin
4. Se multiplica el cuadrado de cada desviacin por las frecuencias
correspondientes
5. Se obtiene la sumatoria de las desviaciones elevadas al cuadrado y
multiplicadas por las frecuencias.
6. Se aplica la siguiente frmula:
s=
f (X M)2 / N
Ejemplo:
M = 8.95
INTERVALOS
13 15
10 12
79
46
13
s=
f
3
4
9
2
1
N = 19
180.9475 / 19
X
14
11
8
5
2
9.5235
X -M
5.05
2.05
- 0.95
- 3.95
- 6.95
(X M)2
25.5025
4.2025
0.9025
15.6025
48.3025
f (X M)2
76.5075
16.81
8.1225
31.205
48.3025
f (X M)2
= 180.9475
= 3.08
s2 = 9.48
Ejercicio 5. Siendo su M de 26.04, hallar la desviacin estndar y la varianza
para la siguiente distribucin de frecuencias.
INTERVALOS
34 - 39
28 33
22 27
16 21
10 15
f
6
10
13
8
2
32
CASO PRCTICO:
Supngase que se utiliz una escala de actitudes para medir la actitud hacia
el presidente entre dos grupos pertenecientes a una misma nacin, en la cual,
se utilizaron 18 reactivos con un rango potencial de 1 a 5:
Actitud
totalmente
desfavorable
Actitud
totalmente
favorable
1
Al promediarse los resultados, se obtuvieron los siguientes datos para cada

uno de los grupos encuestados:
Grupo A:
- variable: actitud hacia el presidente
- Moda: 4.0
- Mediana: 3.9
- Media: 4.2
- Desviacin estndar: 0.7
- Puntuacin mxima: 5.0
- Puntuacin mnima: 2.0
- Rango: 3
Grupo B:
- variable: la misma
- Moda: 1
- Mediana: 1.5
- Media: 1.3
- Desviacin estndar: 0.4
- Puntuacin mxima: 3.0
- Puntuacin mnima: 1.0
Rango: 2
PREGUNTA: Haciendo una comparacin entre ambos casos, En cual de los

dos se obtuvieron promedios que reflejaran una actitud ms favorable hacia el
presidente?
CORRELACIN (DE PEARSON)
Mide la magnitud y la direccin de la relacin existente entre dos variables. Se

dice que hay correlacin entre dos variables cuando stas cambian de tal modo
que los valores que toma una de ellas son, hasta cierto punto, predecibles a
partir de los que toma la otra.
Su frmula es:
33
rxy = xy (x) (y)

N
[x2 (x)2] [y2 (y)2]
N
N
Ejemplo: Un investigador realiz un estudio entre la relacin del consumo de
cigarro y las enfermedades. Determin, para ello, la cantidad de cigarros
consumidos diariamente y los das de ausencia en el trabajo durante el ltimo
ao debido a una enfermedad de 12 sujetos. Para calcular la correlacin entre
estas dos variables, basndose en la frmula de Pearson, dicho investigador
llevo a cabo el siguiente procedimiento:
SUJETOS
1
2
3
4
5
6
7
8
9
10
11
12
CIGARROS
(X)
0
0
0
10
13
20
27
35
35
44
53
60
297
DAS
(Y)
1
3
8
10
4
14
5
6
12
16
10
16
105
X2
Y2
XY
0
0
0
100
169
400
729
1225
1225
1936
2809
3600
12193
1
9
64
100
16
196
25
36
144
256
100
256
1203
0
0
0
100
52
280
135
210
420
704
530
960
3391
rxy = 3391 (297) (105)

12
[12193 (297)2] [12032 (105)2]
12
12
rxy = 0.67
RESPUESTAS A LOS EJERCICIOS:
1. Mo = 16
2. Mdn = 28
3.
34
Espesores en
pulgadas
fX
0.327 0.330
0.323 0.326
0.319 0.322
0.315 0.318
0.311 0.314
0.307 0.310
1
14
22
5
5
3
N=50
0.3285
0.3245
0.3205
0.3165
0.3125
0.3085
0.3285
4.5430
7.0510
1.5825
1.5625
0.9255
fX=15.9930
M = 15.9930 / 50 = 0.3199
4.
X
10
18
15
12
3
6
5
7
X = 8
s = 190 / 8 = 4.87 s2 = 23.75
5.
INTERVALOS
f
34 - 39
6
28 33
10
22 27
13
16 21
8
10 15
2
N =39
s=
1693 / 39 = 6.6
(X M)2
0.25
72.25
30.25
6.25
42.25
12.25
20.25
6.25
(X M)2 = 190
X-M
0.5
8.5
5.5
2.5
- 6.5
- 3.5
- 4.5
- 2.5
X
36.5
30.5
24.5
18.5
12.5
(X M)2
109.4116
19.8916
2.3716
56.8516
183.3316
X -M
10.46
4.46
- 1.54
- 7.54
-13.54
f (X M)2
656.5
168.1
46.9
454.8
366.7
f (X M)2 =
1693
s2 = 43.4
Respuesta a la pregunta. Es en el grupo A donde se obtuvieron promedios que reflejan

una actitud ms favorable hacia el presidente. Para verificarlo, observa la comparacin
grfica que se hace de ambos casos a continuacin:
Grupo A: Actitud favorable
Grupo B: Actitud muy desfavorable
Mo 4
Mdn
3.9
M 4.2
R3
Promedio de desviacin (s) 0.7
Mo 1
Mdn
1.5
M 1.3
R2
Promedio de desviacin (s) 0.4
35
USO DE LA TABLA DE AREAS BAJO LA CURVA NORMAL
- Parte 1 de 2 Dado un conjunto de datos que se distribuyen en forma normal, con media (M) y
desviacin estndar (s), se convierte el dato X en dato z2, mediante la expresin:
Z=X-M/s
S X > M, z es positivo. S X = M, z = 0. Si X < M, z es negativo.
Por ejemplo, si M = 70 y s = 10, la conversin de los valores 60, 70 y 80 en datos z es la
siguiente:
z = 60 - 70 / 10 = -1
z = 70 - 70 / 10 = 0
z = 80 - 70 / 10 = 1
2
Las calificaciones brutas se transforman con frecuencia a otras escalas, para facilitar el anlisis y
la interpretacin. Estas calificaciones, como sucede en el caso de las calificaciones estndar, se
llaman derivadas o transformadas. Una calificacin estndar (z) expresa la ejecucin de una
persona en funcin de su desviacin de la media en unidades de desviacin estndar. Estas
calificaciones derivadas en particular tienen varias ventajas:
1. Miden en una escala de intervalos (al expresar la ejecucin en trminos de unidades de
desviacin estndar se transforman las calificaciones brutas en una escala de unidades de igual
medida), y
2. Nos permiten comparar calificaciones de varias pruebas en forma directa, incluso cuando
tengan medias y desviaciones estndar diferentes. Un ejemplo ilustrar mejor esta ventaja:
Tenemos el caso donde se desea comparar una distribucin obtenida en una preprueba con otra
obtenida en una postprueba (en un contexto experimental). Supongamos que se trata de un
estmulo que incrementa la productividad. Un trabajador obtuvo en la preprueba una
productividad de 130 (la media del grupo fue de 122.5 y la desviacin estndar de 10). Y en la
postprueba obtuvo 135 (la media del grupo fue de 140 y la desviacin estndar de 9.8). Mejor
la productividad del trabajador? Aparentemente la mejora no es considerable. Sin transformar
las 2 calificaciones en puntuaciones "z" no podemos asegurarlo porque los valores no
pertenecen a la misma distribucin. Entonces transformamos ambos valores a puntuaciones "z"
donde la comparacin es vlida. El valor de 130 en productividad es en trminos de unidades de
desviacin estndar igual a:
z = 130 - 122.5 / 10 = 0.75
Y el valor de 135 corresponde a una puntuacin "z" de:
z = 135 - 140 / 9.8 = 0.51
Como podemos observar, en trminos absolutos 135 es una mejor puntuacin que 130, pero no
en trminos relativos (en relacin a sus respectivas distribuciones).
36
Obsrvese que la distancia entre la media 70 y el valor 80 es de una desviacin

estndar a la derecha de la media. La distancia entre 60 y la media tambin es de una
desviacin estndar pero por debajo de la media. La distancia entre el valor 70 y la media
es cero.
El valor z que corresponde a un valor X mide la distancia que hay entre la media y
el valor X. Esa distancia se mide en desviaciones estndar3. Por ejemplo, si M = 70 y s =
10, entonces la distancia que hay entre 70 y 85 es de 1.5 desviaciones estndar a la derecha
de la media, ya que
z = 85 - 70 / 10 = 1.5
Cuando una distribucin de frecuencias es de forma normal, el porcentaje de datos
cuyos valores estn comprendidos entre la media y un valor arriba de la media, a una
distancia de una desviacin estndar, es aproximadamente igual al 34.13 %. Esto es, si la
distribucin normal tiene media y desviacin estndar, entonces el 34.13% de la totalidad
de los datos 4 son valores comprendidos entre X y M + s.
Por ejemplo, las siguientes distribuciones normales tienen diferentes medias y
desviaciones estndar, pero las distancias entre los valores dados y la media es de una
desviacin estndar:
a) Si M = 24 y s = 7, entre 24 y 31 se encuentra el 34.13%, ya que la distancia entre 24 y
31 es de una desviacin estndar.
z = 31 - 24 / 7 = 1
b) Si M = 100 y s = 25, entre 100 y 125 se encuentra el 34.13%, ya que la distancia entre
100 y 125 es de una desviacin estndar.
z = 125 - 100 / 25 = 1
Para el caso en que la distancia entre la media y un valor dado sea de dos o tres
desviaciones estndar, se tiene lo siguiente:
El porcentaje de datos cuyos valores estn comprendidos entre

arriba de la media, a una distancia de dos desviaciones estndar
igual al 47.72%.
El porcentaje de datos cuyos valores estn comprendidos entre
arriba de la media a una distancia de tres desviaciones estndar,
igual al 49.87%.
la media y un valor
es aproximadamente
la media y un valor
es aproximadamente
Por ejemplo:
3
En resumen, z indica el nmero de desviaciones estndar que hay entre un valor dado y la media;
por arriba de la media si z es positivo y por abajo si z es negativo.
4
Simblicamente: entre X y M + 2s se encuentra el 47.72% del total de datos y entre X y M + 3s se
encuentra el 49.87% del total de datos.
37
a) Si M = 30 y s = 8, entre 30 y 46 se encuentra el 47.72%, ya que la distancia entre 30 y

46 es de dos desviaciones estndar.
z = 46 - 30 / 8 = 2
b) Si M = 30 y s = 8, entre 30 y 54 se encuentra el 49.87%, ya que la distancia entre 30 y
54 es de tres desviaciones estndar.
z = 54 - 30 / 8 = 3
Los porcentajes de 34.13%, 47.72% y 49.87% correspondientes a los valores z = 1,
z = 2 y z = 3, respectivamente, han sido obtenidos de la tabla de reas bajo la curva
normal. En esta tabla se encuentran los diferentes porcentajes que corresponden a los
diferentes valores de z (consltese el apndice al final de este texto). Dicha tabla est
constituida por un arreglo de nmeros dispuestos en filas y columnas. La primera columna
y el primer rengln dan los valores de z desde 0.00 hasta 3.095. En la tabla Uso de la tabla
de reas bajo la curva normal (ubicada en las pginas finales de este material) se indica
cmo encontrar los porcentajes que corresponden a los valores de z = 0.4, z = 0.96, z = 1.32
y z = 1.6, los cuales son respectivamente, 15.54%, 33.15%, 40.66% y 44.52%.
En una distribucin normal el 34.13% del total de datos son valores comprendidos
entre X y M + s. Como la curva es simtrica, el mismo 34.13% del total de datos son
valores comprendidos entre M - s y X.
En general, el porcentaje de datos que se encuentra entre X y M + zs es el mismo
que se da entre M - zs y X.
Por ejemplo, si M = 15 y s = 4, el porcentaje de datos entre 15 y 21 y entre 9 y 15 es
de 43.32%, ya que
z = 21 - 15 / 4 = 1.5, y
z = 9 - 15 / 4 = -1.5
lo cual significa que tanto 21 como 9 tienen la misma distancia en desviaciones estndar a
la media, el primero por arriba de la media y el segundo por debajo de ella.
PROBLEMA:
Para un conjunto de 500 datos que se distribuyen en forma normal con M = 65 y s =

11, Qu porcentaje de 500 son valores comprendidos entre 65 y 80? He aqu los pasos
para dar respuesta a dicho cuestionamiento:
1. Se calcula la distancia en desviaciones estndar que hay entre 65 y 80 (z = 80 - 65 / 11
= 1. 36),
Algunas tablas incluyen valores de z mayores que 3.09.
38
2. Se busca en la tabla de reas bajo la curva normal el porcentaje que corresponde a z.

Para esto se localiza la interseccin del rengln 1.3 y la columna .06. En esta
interseccin se encuentra el nmero 41.31 (otras tablas tienen .4131). Por tanto, el
41.31% de los 500 datos son valores comprendidos entre 65 y 80. Como el 41.31% de
500 es 206.55 (500 x 41.31 = 20655 / 100 = 206.55); entonces alrededor de 206 o 207
datos son valores entre 65 y 80.
Con base a lo anterior, resulvanse los siguientes casos:
1. Qu porcentaje de los datos son valores comprendidos entre 50 y 65?
2. Qu porcentaje de los datos son valores mayores que 65?
3. Qu porcentaje del total de datos son valores comprendidos entre la media y

98?6
Resuelto este caso observe que, entre los nmeros M - 3s y M +3s se encuentra el 99.74% de los
datos.
39
USO DE LA TABLA DE AREAS BAJO LA CURVA NORMAL
- Parte 2 de 2 -
Para el mismo conjunto de 500 datos que se distribuyen en forma normal con
M = 65 y s = 11, tambin pueden darse los siguientes casos:
1.
2.
3.
4.
5.
6.
7.
Calcular el porcentaje arriba de un valor mayor que la media.

Calcular el porcentaje arriba de un valor menor que la media.
Calcular el porcentaje abajo de un valor mayor que la media.
Calcular el porcentaje abajo de un valor menor que la media.
Calcular el porcentaje entre un valor menor que la media y otro mayor que la media.
Calcular el porcentaje entre dos valores mayores que la media.
Calcular el porcentaje entre dos valores menores que la media.
Se resolvern a continuacin los primeros cuatro casos con la intencin de que se

conviertan en una especie de gua para el educando, quien posteriormente intentar
resolver los ltimos tres casos:
Caso 1. Qu porcentaje son valores mayores que 78?
R. Primero: convierta 78 en dato z.
z = 78 - 65 / 11 = 1.18
Segundo: localice en la tabla de reas bajo la curva normal, el porcentaje que
corresponde a z = 1.18. Este porcentaje es de 38.10 y es el porcentaje de valores entre la
media 65 y 78.
Tercero: como arriba de la media existe el 50% de los valores y como entre la media y
78, el 38%, entonces la diferencia de estos porcentajes es el porcentaje de datos mayores
que 78. Por tanto, el 11.90% son valores mayores que 78 (50.00 - 38.10 = 11.90).
Caso 2. Qu porcentaje son valores mayores que 45?
R. Primero: convierta 45 en dato z.
z = 45 - 65 / 11 = -1.82
Segundo: localice en la tabla del apndice A, el porcentaje que corresponde a z = -1.82.
Este porcentaje es 46.56 y es el porcentaje de valores entre 45 y la media 65.
Tercero: como 46.56% es el porcentaje entre 45 y la media y como el 50% de los
valores son mayores que la media, entonces la suma de estos porcentajes es el porcentaje de
datos mayores que 45. Por tanto, el 96.56% son valores mayores que 45 (46.56 + 50.00 =
96.56).
40
Caso 3. Qu porcentaje son valores menores que 72?

R. Primero:
z = 72 - 65 / 11 = .64
Segundo: el porcentaje entre la media 65 y 72, que corresponde a z = .64 es 23.89.
Tercero: como el 50% son valores menores que la media y como entre la media y 72 se
encuentra el 23.89%, entonces la suma de estos porcentajes es el porcentaje de datos
menores que 72. Por tanto, el 73.89% son valores menores que 72 (50.00 + 23.89 = 73.89).
Caso 4. Qu porcentaje son valores menores que 50?
R. Primero:
z = 50 - 65 / 11 = -1.36
Segundo: el porcentaje entre 50 y 65, que corresponde a z = -1.36, es 41.31.
Tercero: como el 50% son valores menores que la media y como entre 50 y 65 se
encuentra el 41.31%, entonces la diferencia de estos porcentajes es el porcentaje de datos
menores que 50. Por tanto, el 8.69% son valores menores que 50 (50.00 - 41.31 = 8.69).
Resuelva de la misma manera los ltimos tres casos:
1. Caso 5: Qu porcentaje son valores comprendidos entre 52 y 81?
R.

R

R
41
APENDICE
TABLA DE REAS BAJO LA CURVA NORMAL
z
0.0
0.1
0.2
0.3
0.4
0.00
0.0000
0.0398
0.0793
0.1179
0.1554
.01
0.0040
0.0438
0.0832
0.1217
0.1591
.02
0.0080
0.0478
0.0871
0.1255
0.1628
.03
0.0120
0.0517
0.0910
0.1293
0.1664
.04
0.0160
0.0557
0.0948
0.1331
0.1700
.05
0.0199
0.0596
0.0987
0.1368
0.1736
.06
0.0239
0.0636
0.1026
0.1406
0.1772
.07
0.0279
0.0675
0.1064
0.1443
0.1808
.08
0.0319
0.0714
0.1103
0.1480
0.1844
.09
0.0359
0.0754
0.1141
0.1517
0.1879
0.5
0.6
0.7
0.8
0.9
0.1915
0.2258
0.2580
0.2881
0.3159
0.1950
0.2291
0.2612
0.2910
0.3186
0.1985
0.2324
0.2642
0.2939
0.3212
0.2019
0.2357
0.2673
0.2967
0.3238
0.2054
0.2389
0.2704
0.2996
0.3264
0.2088
0.2422
0.2734
0.3023
0.3289
0.2123
0.2454
0.2764
0.3051
0.3315
0.2157
0.2486
0.2794
0.3078
0.3340
0.2190
0.2518
0.2823
0.3106
0.3365
0.2224
0.2549
0.2852
0.3133
0.3389
1.0
1.1
1.2
1.3
1.4
0.3413
0.3643
0.3849
0.4032
0.4192
0.3438
0.3665
0.3869
0.4049
0.4207
0.3461
0.3686
0.3888
0.4066
0.4222
0.3485
0.3708
0.3907
0.4082
0.4236
0.3508
0.3729
0.3925
0.4099
0.4251
0.3531
0.3749
0.3944
0.4115
0.4265
0.3554
0.3770
0.3962
0.4131
0.4279
0.3577
0.3790
0.3980
0.4147
0.4292
0.3599
0.3810
0.3997
0.4162
0.4306
0.3621
0.3830
0.4015
0.4177
0.4319
1.5
1.6
1.7
1.8
1.9
0.4332
0.4452
0.4554
0.4641
0.4713
0.4345
0.4463
0.4564
0.4649
0.4719
0.4357
0.4474
0.4573
0.4656
0.4726
0.4370
0.4484
0.4582
0.4664
0.4732
0.4382
0.4495
0.4591
0.4671
0.4738
0.4394
0.4505
0.4599
0.4678
0.4744
0.4406
0.4515
0.4608
0.4686
0.4750
0.4418
0.4525
0.4616
0.4693
0.4756
0.4429
0.4535
0.4625
0.4699
0.4761
0.4441
0.4545
0.4633
0.4706
0.4767
2.0
2.1
2.2
2.3
2.4
0.4772
0.4821
0.4861
0.4893
0.4918
0.4778
0.4826
0.4864
0.4896
0.4920
0.4783
0.4830
0.4868
0.4898
0.4922
0.4788
0.4834
0.4871
0.4901
0.4925
0.4793
0.4838
0.4875
0.4904
0.4927
0.4798
0.4842
0.4878
0.4906
0.4929
0.4803
0.4846
0.4881
0.4909
0.4931
0.4808
0.4850
0.4884
0.4911
0.4932
0.4812
0.4854
0.4887
0.4913
0.4934
0.4817
0.4857
0.4890
0.4916
0.4936
2.5
2.6
2.7
2.8
2.9
0.4938
0.4953
0.4965
0.4974
0.4981
0.4940
0.4955
0.4966
0.4975
0.4982
0.4941
0.4956
0.4967
0.4976
0.4982
0.4943
0.4957
0.4968
0.4977
0.4983
0.4945
0.4959
0.4969
0.4977
0.4984
0.4946
0.4960
0.4970
0.4978
0.4984
0.4948
0.4961
0.4971
0.4979
0.4985
0.4949
0.4962
0.4972
0.4979
0.4985
0.4951
0.4963
0.4973
0.4980
0.4986
0.4952
0.4964
0.4974
0.4981
0.4986
3.0
3.1
3.2
3.3
3.4
0.4987
0.4990
0.4993
0.4995
0.4997
0.4987
0.4991
0.4993
0.4995
0.4997
0.4987
0.4991
0.4994
0.4995
0.4997
0.4988
0.4991
0.4994
0.4996
0.4997
0.4988
0.4992
0.4994
0.4996
0.4997
0.4989
0.4992
0.4994
0.4996
0.4997
0.4989
0.4992
0.4994
0.4996
0.4997
0.4989
0.4992
0.4995
0.4996
0.4997
0.4990
0.4993
0.4995
0.4996
0.4997
0.4990
0.4993
0.4995
0.4997
0.4998
3.5
3.6
3.7
3.8
3.9
0.4998
0.4998
0.4999
0.4999
0.5000
0.4998
0.4998
0.4999
0.4999
0.5000
0.4998
0.4999
0.4999
0.4999
0.5000
0.4998
0.4999
0.4999
0.4999
0.5000
0.4998
0.4999
0.4999
0.4999
0.5000
0.4998
0.4999
0.4999
0.4999
0.5000
0.4998
0.4999
0.4999
0.4999
0.5000
0.4998
0.4999
0.4999
0.4999
0.5000
0.4998
0.4999
0.4999
0.4999
0.5000
0.4998
0.4999
0.4999
0.4999
0.5000
42
RESPUESTAS DE LOS EJERCICIOS
A. De la parte 1:
1. 41.31%
2. En una distribucin normal, arriba y debajo de la media se encuentra el 50% del total de
datos. Por tanto, 50% de los datos son valores mayores que 65.
3. El 49.87% del total de datos son valores comprendidos entre 65 y 98.
B. De la parte 2:
1. Como el 38.10% son valores comprendidos entre 52 y 65 y como el 42.65% son valores
comprendidos entre 65 y 82, entonces la suma de estos porcentajes es el porcentaje de
datos entre 52 y 81. Por tanto, el 80.75% son valores comprendidos entre 52 y 81
(38.10 + 42.65 = 80.75).
2. Como el 46.56% son valores entre 65 y 85 y como el 17.36% son valores entre 65 y 70,
entonces la diferencia entre estos porcentajes es el porcentaje de datos entre 70 y 85.
Por tanto, el 29.20% son valores comprendidos entre 70 y 85 (46.56 - 17.36 = 29.20).
3. Como el 47.19% son valores comprendidos entre 44 y 65 y como el 23.89% son valores
comprendidos entre 58 y 65, entonces la diferencia entre estos porcentajes es el
porcentaje de datos entre 44 y 58. Por tanto, el 23.30% son valores comprendidos entre
44 y 58 (47.19 - 23.89 = 23.30).
Bibliografia
Portilla Chimal, E. (1998). Estadstica, primer curso. Mxico: McGraw-Hill.
Brown F. (1998). Principios de la medicin en psicologa y educacin. Mxico: El

Manual Moderno.
Hernndez Sampieri, R., C. Fernndez Collado, y P. Baptista Lucio (1998).

Metodologa de la investigacin. Mxico: McGraw-Hill.
43
CALIFICACIN DE LAS PRUEBAS
Para una prueba

formada por partes con
diferentes contenidos o
reactivos debe
considerarse si se
obtienen calificaciones
separadas o una
calificacin como un
todo
Otras consideraciones:
-Restar aciertos por

Qu
Procedimiento
de calificacin
Utilizar?
adivinar,
-Reportar los resultados

en forma de calificacin
bruta o convertirlos de
alguna manera
Calificacin de pruebas de ensayo

Para estos se sugiere estructurar claramente la tarea solicitada
E
R
R
O
R
E
S
Escritura & Calidad de la respuesta (Evaluacin)

Ser demasiado general (Error de indulgencia)
Calificar bien un reactivo slo porque el sujeto
obtuvo calificaciones altas en otros (efecto de halo)
Recomendaciones para calificar pruebas de ensayo

Calificar la pregunta como un todo (calif. general o global) o asignar valores
distintos a cada uno de los componentes que conforman al reactivo (procedimiento
analtico)
Consideracin de la extensin asignada y de la importancia de la respuesta
Redaccin de respuesta ideal
44
Calificacin de las pruebas sin el conocimiento del nombre del examinado
Pruebas objetivas & Pruebas de ensayo (Calificacin)
Calificacin con mquina & Calificacin a mano
Errores cuando califican las personas

Mal interpretacin de las instrucciones para calificar
Percepcin del examinador al examinado como una persona afectuosa
Clculo errneo al convertir las calificaciones brutas a derivadas
Ponderacin de calificaciones para reactivos de opcin mltiple y falso y verdadero

Presupuesto: el puntaje dado debe variar segn el tipo de reactivo y la calidad de las
respuestas
Tipos de
valoracin
Convencional: otorgar la misma cantidad de puntos

a los distintos reactivos
Anticipada: otorgar diferentes cantidades de puntos
a los distintos tipos de reactivos
Para una prueba formada por partes con diferentes contenidos o reactivos no slo
debe considerarse la obtencin de calificaciones para cada una de esas partes, sino
tambin la obtencin de una calificacin, que implique a todas esas partes como un
todo. De ah el presupuesto de que, el puntaje dado debe variar segn el tipo de
reactivo y la calidad de las respuestas.
Correccin para la adivinacin

Cuestionamiento: La calificacin bruta en una prueba representa la posicin real de
un sujeto o sta aument debido a las adivinaciones exitosas del sujeto?
Si el sujeto ignora la respuesta correcta y todas las opciones son igualmente
atractivas, las probabilidades de que elija la respuesta correcta por adivinacin son:
100 / K de 100, donde K es igual a la cantidad de opciones por reactivo
45
Qu probabilidades de adivinar la respuesta correcta hay en reactivos de falso y verdadero

y de opcin mltiple?
Frmulas de calificacin para corregir la adivinacin:
S = R W
K1
S = R
W
2(K1)
Donde:
S = Calif. Corregida
R = Nmero de reactivos contestados correctamente
W = No. de reactivos contestados incorrectamente
K = Cantidad de opciones por reactivo
La primera ha sido criticada por las bajas calificaciones que produce en personas poco
familiarizadas con el material de prueba y por las altas calificaciones que produce en el
caso contrario.
La segunda representa, con relacin a la anterior, una alternativa
Se recomienda su uso cundo:
La cantidad de reactivos sin responder vara mucho en cada persona
Cuando ciertos reactivos son ms susceptibles a la adivinacin que otros
Se califican pruebas de falso y verdadero o rpidas
Calificaciones derivadas
Las calificaciones que se obtienen directamente de la aplicacin de una prueba
(brutas o crudas) suelen cambiarse en otras formas para hacerlas ms significativas
Calificaciones de pruebas orales: factores para propiciar su objetividad

Atencin al diseo de los reactivos
Elaboracin previa de respuestas modelo
Empleo de varios calificadores
46
Capacitacin de los examinadores

Grabacin electrnica, si es posible, de las respuestas de los sujetos
Anlisis de reactivos
Cualquier tipo
de prueba
MEJORA DE
LA PRUEBA
Revisin o
eliminacin
de los reactivos
que no son
Anlisis
posterior de
reactivos
La efectividad de una prueba tambin depende de sus propsitos

Pruebas con referencia de criterio
Lo que NO son: pruebas para descubrir las calificaciones de las personas con
relacin a las calificaciones de otros individuos.
Lo que SI son: pruebas para determinar la posicin de cada persona con respecto a
ciertos objetivos educativos
OE
Pruebas de dominio
Tipo particular de prueba con referencia de criterio

Diseadas para medir el logro de un rango limitado de capacidades cognoscitivas
47
La calificacin en estas pruebas se expresa como un porcentaje equivalente a la

cantidad total de reactivos respondidos correctamente. Ejemplo: una calificacin
perfecta indica un dominio del 100% del material de la prueba
Total de
reactivos
Rango limitado de
capacidades cognoscitivas
Diferencias individuales
Comnmente, la calificacin de una prueba se compara con las calificaciones de

otras personas
Con las pruebas se evalan las diferencias entre las personas en cuanto a sus
caractersticas cognoscitivas y afectivas
Entre mejor se midan las diferencias en capacidad y personalidad entre las personas,
con mayor exactitud podr predecirse el comportamiento
Se trata de idear reactivos que hagan una diferencia entre los individuos en trminos
de lo que se mide, lo cual:
a) Aumenta la variedad en las calificaciones totales, y
b) Determinada calificacin se convierte en un indicador de la posicin de un sujeto
con respecto al resto de la gente
Validez de los reactivos
Para evaluar la utilidad de un reactivo como medida de diferencias individuales

suele recurrirse a una medida de criterio externo
Prueba para
el
desempeo
Estudiante
Trabajador
C
R
I
T
E
R
O
S
Logro en la escuela
(Notas de los
profesores)
Medida de desempeo
(Calificaciones de los
supervisores)
La validez de un reactivo puede determinarse por la correlacin entre las

calificaciones del reactivo y las correspondientes a la medida de criterio
Por medio de coeficientes de correlacin, por ejemplo el biserial puntual, puede
calcularse el poder de un reactivo para predecir una medida de criterio externo
48
Los reactivos con ndices de validez altos pero correlaciones bajas entre s se
prefieren porque realizan una contribucin independiente a la prediccin de las
calificaciones de criterio
PROBLEMAS
1. Correccin para la adivinacin
Ejemplo 1: Prueba de opcin mltiple con 50 reactivos de 4 opciones cada uno, de los
cuales:
- 30 reactivos fueron contestados correctamente,
- 16 reactivos fueron contestados incorrectamente y
- 4 no fueron contestados,
Cul es la calificacin total de la prueba, tanto con correccin para adivinar como sin sta?
S = R W
K1
S = R
W
2 ( K 1)
Donde:
S = Calif. Corregida
R = Nmero de reactivos contestados correctamente
W = No. De reactivos contestados incorrectamente
K = Cantidad de opciones por reactivo
S = 30 16 / 4 1
= 30 16 / 3
= 30 5.3 = 24.7 (Con correccin)
S = 30 16 / 2 (4 -1)
= 30 16 / 2 (3)
= 30 16 /6
= 30 2.6 = 27.4 (Con correccin)
Sin correccin: 30 (reactivos contestados correctamente)
Ejemplo 2: Si todos los reactivos fueran del tipo falso y verdadero y se obtuviera en ellos
la misma cantidad de respuestas correctas e incorrectas que antes se mencion, Cul sera
su calificacin total, tanto con correccin por adivinar como sin esta? (K = 2)
S = 30 16 / 2 1
= 30 16 / 1
= 30 16 = 14 (Con correccin)
S = 30 16 / 2 (2 1)
= 30 16 / 2
= 30 8 = 22 (Con correccin)
49
Ejercicio: Prueba de opcin mltiple con 30 reactivos de 3 opciones cada uno, de los
cuales:
- 20 reactivos fueron contestados correctamente,
- 6 reactivos fueron contestados incorrectamente y
- 4 no fueron contestados,
Cul es la calificacin total de la prueba, tanto con correccin para adivinar como sin sta?
50
Anlisis estadstico de reactivos de pruebas de rendimiento escolar

Analizar las respuestas que un grupo de sujetos da a los reactivos de una prueba tiene la
funcin de ayudar a mejorar sta, debido a que con la revisin de sus reactivos puede
determinarse cun efectivos son cada uno de ellos para medir el atributo que la prueba
pretende medir como un todo.
Para las pruebas de rendimiento escolar (los exmenes que se aplican en el saln de clases)
no hay, generalmente, criterios con los cuales poder determinar la validez de los reactivos
(que implicara, como es de suponerse, la correlacin entre el porcentaje de sujetos que
contestan correctamente cada reactivo con alguna medida de criterio externo), motivo por
el cual, se utiliza un procedimiento denominado de consistencia interna con el que se
sustituye el criterio externo por las calificaciones totales de la misma.
El propsito de analizar los reactivos de una prueba de rendimiento escolar es que los
reactivos que se seleccionen para su versin definitiva sean indicadores adecuados de lo
que la prueba mide como un todo; para ello, cada uno de los reactivos que integran la
prueba deber evaluarse para determinar cun difciles son y en qu grado sirven para
diferenciar entre quienes presentan un rendimiento alto y bajo en la prueba, lo cual ser
posible, gracias al clculo de sus ndices de dificultad y de discriminacin.
ndices de dificultad (Idf) y de discriminacin (Idc) [1]
Mientras que Idf seala la proporcin de personas que respondieron correctamente el
reactivo de una prueba, Idc indica qu tan bien discrimina cada reactivo de la prueba entre
las personas con un buen desempeo general en ella y aquellas que tuvieron un desempeo
deficiente. Veamos a continuacin, ms detenidamente, cada uno de estos ndices.
Idf tiene un rango de 0.00 a 1.00. Cuando el Idf de un reactivo es igual a 0.00 significa que
ningn sujeto lo contest correctamente, mientras que si el Idf de un reactivo es igual a
1.00, significa que ste fue respondido por todos los sujetos correctamente. Cul es el
valor ptimo de Idf? Eso depende, principalmente, de dos factores: los propsitos de la
prueba y la cantidad de opciones de respuesta de sus reactivos. Por ejemplo: si la prueba
busca identificar un porcentaje reducido de estudiantes que represente a quienes tuvieron el
mejor aprovechamiento durante un curso escolar, entonces la prueba debe tener un grado de
dificultad tal que Idf tenga un valor medio bajo; en cambio si el propsito de la prueba es
abarcar tambin a un reducido porcentaje de quienes obtuvieron un aprovechamiento por
debajo de la media, entonces convendra que Idf tuviera un valor ms elevado. Otro
ejemplo: dependiendo de la cantidad de opciones de respuesta que tengan los reactivos,
estos sern ms o menos difciles, o para decirlo con mayor precisin: a mayor nmero de
opciones de respuesta, mayor grado de dificultad del reactivo; por ello, si un reactivo tiene
slo dos opciones de respuesta tendr, en promedio, 0.85 de dificultad, uno con tres
opciones tendr 0.77 de dificultad, uno de cuatro opciones 0.74, uno de cinco 0.69, etc.
51
Idc mide la efectividad de un reactivo para discriminar entre quienes obtienen

calificaciones altas y bajas en una prueba. Cuanto mayor sea Idc, mayor ser la efectividad
del reactivo para discriminar entre los estudiantes con calificaciones altas y bajas en la
prueba como un todo, de manera que cuando Idc vale 1 (situacin, ciertamente, muy
improbable), significa que todos los estudiantes del grupo con mejor rendimiento en las
calificaciones totales de la prueba y ninguno del grupo con el ms bajo rendimiento
respondi el reactivo correctamente. Pero, cul es el valor ptimo de Idc? Generalmente,
se considera que un reactivo tiene un valor adecuado de Idc si ste es igual o mayor a 0.30;
hay que considerar, no obstante, que Idf y Idc no son ndices independientes y que el valor
mnimo aceptable de Idc variar segn sea el valor de Idf. Respecto al valor que puede
adoptar Idc se han propuesto diferentes clasificaciones de rangos para interpretar la
efectividad que presentan los reactivos de una prueba para discriminar. La Tabla 1 es un
ejemplo de estas clasificaciones:
Idc = de .60 a 1.00

Idc = de .40 a .59
Muy buena discriminacin

Buena discriminacin
Moderada discriminacin (Debe mejorarse el
Idc = de .20 a .39
reactivo)
No discrimina (El reactivo debe mejorarse o
Idc = de - .19 a .19
eliminarse)
Fuerte discriminacin negativa (Es necesario revisar
Idc = de -.20 a -1.00 el reactivo para identificar problemas: Est mal la
clave?, Permite dos respuestas correctas?, etc.
Tabla 1
Un caso prctico
Como parte de las prcticas que realizamos a nivel universitario en una materia donde se
revisa, principalmente, el aspecto tcnico de los instrumentos de medicin en psicologa y
educacin se solicita a los estudiantes analizar los ndices de dificultad y de discriminacin
de algunas pruebas de rendimiento escolar con el propsito de valorar, desde el punto de
vista estadstico, en qu casos los reactivos de esta clase de pruebas deben ser aceptados,
rechazados o revisarse, nuevamente, para su mejora.
A continuacin se presenta, paso a paso, cmo se calcula Idf y Idc para una prueba de
rendimiento escolar de 9 reactivos [2] aplicada a 14 estudiantes:
1. Con una matriz como la que se muestra en la Tabla 1, se anota el puntaje que los
estudiantes obtuvieron en cada uno de los 9 reactivos, asignando 1 a las respuestas
correctas y 0 a las respuestas incorrectas y procurando que la posicin que ocupen
los sujetos se ordene, de forma descendente, de acuerdo al total de respuestas
correctas que cada uno obtuvo en la prueba, de tal suerte que el sujeto A sea quien
tenga el mayor puntaje, en este caso 9 (equivalente al total de reactivos de la
prueba), el sujeto B quien tenga el mismo o menor puntaje, y as sucesivamente,
52
hasta llegar al sujeto N, con un puntaje de 2, el cual, lo posiciona en el ltimo lugar

de la matriz. Ntese que en la Tabla 2 estamos incluyendo una columna con TP [3]
(Total Puntaje) como encabezado, para anotar el total de respuestas correctas que
cada estudiante obtuvo en los 9 reactivos.
SUJETOS
A
B
C
D
E
F
G
H
I
J
K
L
M
N
1
1
1
1
1
1
1
1
0
0
1
1
0
1
0
2
1
1
1
1
1
1
1
1
0
1
1
1
0
0
3
1
1
1
1
1
1
1
1
1
1
0
1
0
1
REACTIVOS
4 5 6 7
1 1 1 1
1 1 1 1
1 1 1 1
1 1 1 1
1 1 1 1
1 1 1 1
1 1 1 1
1 1 1 1
1 1 1 1
0 1 1 1
0 1 1 1
0 1 1 0
0 1 1 0
0 1 0 0
8
1
1
1
1
1
1
1
1
1
0
1
0
0
0
TP
9
1 9
1 9
1 9
1 9
1 9
1 9
0 8
1 8
0 6
0 6
0 6
1 5
0 3
0 2
Tabla 2
2. Una vez que vaciamos, contabilizamos y ordenamos esta informacin en la matriz,

debemos dividir la poblacin que contest los reactivos de la prueba en 3 grupos: a) El
grupo superior, constituido por quienes obtuvieron el mayor nmero de respuestas correctas
en la prueba; b) El grupo intermedio, formado por quienes tuvieron un rendimiento
promedio en la prueba; y c) El grupo inferior, compuesto por quienes obtuvieron el menor
nmero de respuestas correctas en la prueba; para hacer esta divisin y obtener estos tres
grupos, se sugiere aplicar la siguiente frmula: N x 27 / 100, donde N es el nmero total
de sujetos que presentaron la prueba y 27 equivale al porcentaje que, de manera
convencional, suele darse a los grupos superior e inferior.
En el caso que nos ocupa ahora, la poblacin que contest los reactivos de la prueba est
integrada por 14 sujetos, siendo el resultado igual a 4, porque 14 x 27 / 100 = 3.78, que
redondeado es igual a 4; por tanto, nuestros grupos superior e inferior estn constituidos por
los 4 primeros estudiantes de la matriz (sujetos A, B, C y D) y por los ltimos 4 estudiantes
(sujetos K, L, M y N), respectivamente. Pero, qu pasa con el grupo intermedio? Para la
obtencin de Idf y Idc no necesitamos utilizar el 46% restante, correspondiente a quienes
obtuvieron un rendimiento promedio, porque lo que nos interesa es discriminar entre
quienes obtuvieron calificaciones altas y bajas en la prueba como un todo.
La matriz, despus de determinarse los grupos superior e inferior de la poblacin que
contest los reactivos, debe quedar como se demuestra en la Tabla 3:
53
Sujetos
A
B
C
D
E
F
G
H
I
J
K
L
M
N
1
1
1
1
1
1
1
1
0
0
1
1
0
1
0
2
1
1
1
1
1
1
1
1
0
1
1
1
0
0
3
1
1
1
1
1
1
1
1
1
1
0
1
0
1
Reactivos
4 5 6
1 1 1
1 1 1
1 1 1
1 1 1
1 1 1
1 1 1
1 1 1
1 1 1
1 1 1
0 1 1
0 1 1
0 1 1
0 1 1
0 1 0
7
1
1
1
1
1
1
1
1
1
1
1
0
0
0
8
1
1
1
1
1
1
1
1
1
0
1
0
0
0
9
1
1
1
1
1
1
0
1
0
0
0
1
0
0
PC
9
9
9
9
9
9
8
8
6
6
6
5
3
2
Grupos
SUPERIOR
INFERIOR
Tabla 3
3. Para determinar Idf, se recomienda aplicar la siguiente frmula:

(A + B) / N
Donde:
A es el nmero de respuestas incorrectas del grupo superior en un reactivo,
B es el nmero de respuestas incorrectas del grupo inferior en un reactivo y
N es el nmero total de sujetos que integran el grupo superior e inferior.
Para saber qu reactivo ser aceptado, rechazado o considerado como candidato para otra
revisin, cada reactivo deber ser valorado de acuerdo a un criterio de aceptacin
determinado, que en nuestro caso (por ser una prueba de rendimiento escolar), un criterio
adecuado sera: si el resultado se encuentra entre 0.20 y 0.80, entonces el reactivo ser
aceptado.
En nuestro caso, la aplicacin de la frmula (A + B) / N en cada reactivo de la prueba y la
valoracin de los mismos de acuerdo al criterio de aceptacin establecido arrojara como
resultado una matriz como la que se muestra en la Tabla 4:
54
Reactivos
1
2
3
4
5
6
7
8
9
ndices de dificultad (Idf):

Frmula para calcular el
Cumple con el criterio (0.20Idf
0.80)?
(0 + 2) / 8 = 0.25
SI
(0 + 2) / 8 = 0.25
SI
(0 + 2) / 8 = 0.25
SI
(0 + 4) / 8 = 0.5
SI
(0 + 0) / 8 = 0
NO
(0 + 1) / 8 = 0.125
NO
(0 + 3) / 8 = 0.375
SI
(0 + 3) / 8 = 0.375
SI
(0 + 3) / 8 = 0.375
SI
Tabla 4
4. Para determinar Idc, se recomienda aplicar la siguiente frmula:

(A - B) / (N / 2)
Donde
A es el nmero de respuestas correctas del grupo superior en un reactivo,
B es el nmero de respuestas correctas del grupo inferior en un reactivo y
N es el nmero total de sujetos pertenecientes a los grupos superior e inferior.
Nuevamente, cada reactivo deber ser valorado de acuerdo a un criterio de aceptacin
determinado. El criterio para valorar cada reactivo y determinar si debemos aceptarlo,
rechazarlo o considerarlo candidato para otra revisin ser, en nuestro caso, que el valor de
Idc sea, en cada reactivo, superior a 0.
La matriz que presentamos en la Tabla 5 es el resultado de aplicar la frmula (A - B) / (N /
2) a cada reactivo de la prueba y de valorar estos de acuerdo al criterio de aceptacin que
establecimos en esta ocasin:
Reactivos
1
2
3
4
5
6
7
8
9
ndices de discriminacin (Idc)

Frmula para calcular el Idc Cumple con el criterio (Superior a 0)?
(4 - 2) / (8 / 2) = 0.5
SI
(4 - 2) / (8 / 2) = 0.5
SI
(4 - 2) / (8 / 2) = 0.5
SI
(4 - 0) / (8 / 2) = 1
SI
(4 - 4) / (8 / 2) = 0
NO
(4 - 3) / (8 / 2) = 0.25
SI
(4 - 1) / (8 / 2) = 0.75
SI
(4 - 1) / (8 / 2) = 0.75
SI
(4 - 1) / (8 / 2) = 0.75
SI
Tabla 5
55
5. Falta todava lo ms importante. Hasta ahora slo hemos hecho, por separado, el clculo
de Idf y Idc y la valoracin de acuerdo a un criterio de aceptacin para cada uno de los
reactivos de la prueba, pero falta que comparemos los resultados que obtuvimos con ambos
ndices y las valoraciones que hicimos de cada reactivo segn el criterio de aceptacin que
elegimos, con el propsito final de determinar si cada reactivo es un buen indicador del
atributo que la prueba mide como un todo. Para ello basta con posicionar, uno junto a otro,
los resultados que obtuvimos y decidir si aceptamos, rechazamos o consideramos que
deben volverse a revisar cada uno de los reactivos de la prueba, de acuerdo a las siguientes
consideraciones:
SI + SI = SI, el reactivo se acepta
SI + NO o NO + SI = NO, el reactivo debe revisarse nuevamente
NO + NO = NO, el reactivo se rechaza
La Tabla 6 muestra cmo queda est ltima etapa en el caso que hemos estado revisando:
Reactivos
1
2
3
4
5
6
7
8
9
Idf y
valoracin
0.25
SI
0.25
SI
0.25
SI
0.5
SI
0
NO
0.125 NO
0.375
SI
0.375
SI
0.375
SI
Idc y
valoracin
0.5
SI
0.5
SI
0.5
SI
1
SI
0
NO
0.25
SI
0.75
SI
0.75
SI
0.75
SI
Valoracin
final
SI
SI
SI
SI
NO
NO
SI
SI
SI
Tabla 6
De acuerdo a los resultados que tenemos en la tabla anterior, podemos concluir que de los
reactivos analizados:
a) Los reactivos 1, 2, 3, 4, 7, 8 y 9 podemos aceptarlos porque cumplen con los criterios
que establecimos con relacin al grado de dificultad y de discriminacin que tales
reactivos deben tener.
b) El reactivo 5, en cambio, debemos rechazarlo porque no cumple con tales criterios de
acuerdo a los resultados que obtuvimos en el anlisis final
c) Finalmente el reactivo 6, por el anlisis efectuado, debe revisarse nuevamente si
queremos incluirlo, posteriormente, entre los reactivos con un nivel aceptable de
dificultad y de discriminacin.
Analizar, estadsticamente, los reactivos de una prueba de rendimiento escolar permite

mejorar la prueba en cuanto al grado de dificultad y fineza discriminativa que resulta
56
conveniente que sta posea, pero, evidentemente, estos procedimientos atienden solamente
a un aspecto de la construccin ms adecuada de esta clase de instrumentos.
Reactivos de pruebas con referencia al criterio
Los ndices p y D tambin pueden calcularse para esta clase de reactivos

p = Up + Lp
U+L
D = Up Lp
U L
Up = Cantidad en el grupo superior que responde el

reactivo correctamente
Lp = Cantidad en el grupo inferior que responde el
reactivo correctamente
Los sujetos se dividen en dos grupos
a) Grupo superior (U): sujetos cuyas calificaciones en la prueba cumplen con los criterios
de dominio.
b) Grupo inferior (L): sujetos cuyas calificaciones totales en la prueba no cumplen con
los criterios de dominio.
Diferencias de grupo en pruebas rpidas
Lo que resulta de analizar reactivos vara frecuente y significativamente segn el

grupo especfico con el que se pongan a prueba
Que la forma cmo se contesta un reactivo no sea la misma para dos grupos no
significa necesariamente que el reactivo muestre una inclinacin por alguno de ellos
Un reactivo muestra una inclinacin cuando mide una caracterstica diferente en

alguno de los dos grupos
Si las calificaciones de los reactivos reflejan verdaderas diferencias con relacin a la

caracterstica que miden, el reactivo es tcnicamente imparcial
Notas:
[1] En algunos casos Idf y Idc pueden encontrarse como p y D, respectivamente.
[2] Es necesario aclarar que los 9 reactivos correspondientes a esta prueba,
originalmente, formaban parte de una prueba ms extensa (de 40 reactivos) que, para fines
prcticos y didcticos, fue dividida y sus partes distribuidas entre varios equipos para su
57
anlisis estadstico. El anlisis que se presenta en este artculo es el resultado de unos de

esos trabajos.
[3] Originalmente, en lugar de TP, tenamos PC, es decir, Puntaje Crudo, que en
psicometra hace referencia a las calificaciones que se obtienen, directamente, de las
pruebas despus de su aplicacin, sin someterlas a ninguna clase de transformacin
estadstica, como por ejemplo, convertirlas a puntajes z, Z, T, etc.
Referencias
Canudas Gonzlez, Matilde (2005). Manual para el Curso-taller Estrategias para la
Evaluacin en la Educacin Superior. Mxico: Asociacin Nacional de Universidades e
Instituciones de Educacin Superior.
Aiken, Lewis R. (1996). Tests psicolgicos y evaluacin. Mxico: Prentice Hall.
Anastasi, A. (1998). Tests psicolgicos. Madrid: Aguilar.
Brown F. (1998). Principios de la medicin en psicologa y educacin. Mxico: El
Manual Moderno.
PROBLEMAS
1. Anlisis estadstico de reactivos (ndices de dificultad y discriminacin).
Con los datos que se presentan en la siguiente matriz, obtn los ndices de dificultad y
discriminacin de una prueba de 9 reactivos que se aplic a 14 sujetos, determinando cules
reactivos pueden ser aceptados, cules deben revisarse nuevamente y cules deben
rechazarse:
Sujetos
A
B
C
D
E
F
G
H
I
J
K
L
M
N
1
1
1
1
1
1
1
1
0
0
1
1
0
1
0
2
1
1
1
1
1
1
1
1
0
1
1
1
0
0
3
1
1
1
1
1
1
1
1
1
1
0
1
0
1
Reactivos
4 5 6
1 1 1
1 1 1
1 1 1
1 1 1
1 1 1
1 1 1
1 1 1
1 1 1
1 1 1
0 1 1
0 1 1
0 1 1
0 1 1
0 1 0
7
1
1
1
1
1
1
1
1
1
1
1
0
0
0
8
1
1
1
1
1
1
1
1
1
0
1
0
0
0
9
1
1
1
1
1
1
0
1
0
0
0
1
0
0
58
2. ndices de dificultad y discriminacin para reactivos de pruebas con referencia al

criterio
Ejemplo: Calcule los ndices de dificultad y de discriminacin de una prueba con referencia
al criterio que presentaron 50 personas, 30 de las cuales, obtuvieron una calificacin en el
nivel de criterio o ms arriba y 20 obtuvieron una calificacin por debajo del nivel de
criterio. De aquellas que recibieron una calificacin en el nivel de criterio o ms arriba, 20
contestaron el reactivo en forma correcta y de aquellas que presentaron una calificacin por
debajo del nivel de criterio, 10 respondieron bien el reactivo.
p = Up + Lp
U+L
D = Up Lp
U
L
Up = Cantidad en el grupo superior que responde el reactivo

correctamente
Lp = Cantidad en el grupo inferior que responde el reactivo
correctamente
U = 30, L = 20, Up = 20, Lp = 10, p = ? y D = ?

p = 20 + 10 / 30 + 20
= 30 / 50 = 0.6
D = 20 / 30 10 / 20
= 0.67 0.5 = 0.17
Ejercicio: Calcule los ndices de dificultad y de discriminacin de una prueba con

referencia al criterio que presentaron 40 personas, 25 de las cuales, obtuvieron una
calificacin en el nivel de criterio o ms arriba y 15 obtuvieron una calificacin por debajo
del nivel de criterio. De aquellas que recibieron una calificacin en el nivel de criterio o
ms arriba, 20 contestaron el reactivo en forma correcta y de aquellas que presentaron una
calificacin por debajo del nivel de criterio, 7 respondieron bien el reactivo.
Respuestas:
1.
Los resultados son los siguientes:

Reactivos
1
2
3
4
5
6
7
8
9
2.
Idf
0,25
0,25
0,25
0,5
0
0,125
0,375
0,375
0,375
SI
SI
SI
SI
NO
NO
SI
SI
SI
Idc
Valoracin
0,5 SI
SI
0,5 SI
SI
0,5 SI
SI
1
SI
SI
0 NO
NO
0,25 SI
NO
0,75 SI
SI
0,75 SI
SI
0,75 SI
SI
59
CONSISTENCIA Y VALIDEZ
INTRODUCCION
La interpretacin precisa de los resultados individuales se hace conociendo
qu caractersticas mide una prueba y que lo haga de un modo consistente.
La consistencia y validez estn enmarcados aqu por el error de medida.
Hay dos tipos:
1. Errores al azar: se producen cuando una variable implica la falta de
consistencia en la ejecucin de la prueba de unas situaciones a otras (son
importantes para la confiabilidad7).
2. Errores constantes: producen efectos sistemticos sobre la ejecucin,
pero son irrelevantes para los propsitos de la medicin (son importantes
para la validez8).
La consistencia y la validez son trminos genricos; se pueden evaluar
por varios mtodos. La eleccin del mtodo depender de la pregunta a la que
se desee responder o de los orgenes de error que se deben controlar. Son
caractersticas que informan sobre la cualidad y eficiencia de una prueba para un
grupo de personas9.
DESARROLLO
Una prueba debe caracterizarse por ser confiable (consistencia con la
que la prueba mide lo que debe medir) y vlida (exactitud con la que la prueba
mide lo que tiene que medir).
Estas caractersticas pueden considerarse mediante la examinacin de las

variables que influyen en los resultados de las pruebas. Cualquier variable que
produce resultados inexactos introduce error. Hemos considerado ya 2 tipos
de error: al azar (falta de consistencia en los resultados de la prueba de una
La confiabilidad se puede definir como la proporcin de variabilidad en el conjunto de calificaciones de

una prueba, que representa diferencias "reales" entre las personas; esto es, la proporcin no atribuible a
errores de medicin.
8
Con la validez queremos saber qu rasgo mide la prueba o que resultados predice.
9
Los datos de la consistencia y validez se obtienen siempre de un grupo dado de personas que se someten a la
prueba en particulares circunstancias evaluando los resultados mediante algunos de los mtodos disponibles.
60
ocasin a otra) y sistemticos (producen efectos irrelevantes para los fines de la

medicin, aunque sean efectos consistentes10).
Debido a que la conducta humana flucta de una situacin a otra es

importante estudiar la consistencia. El muestreo de reactivos, las
circunstancias en que se aplica la prueba y las caractersticas del sujeto son
factores que pueden introducir errores11.
Hay 2 grupos de problemas en la confiabilidad:

1. Grado de consistencia de las calificaciones de las pruebas
2. Causas de discrepancia entre las calificaciones de las pruebas
Qu es una calificacin real? La calificacin que obtendra una persona en
el caso de que el instrumento efectuara sus mediciones sin error, es decir:
La calificacin que obtendra una persona si respondiera a todos los reactivos

del dominio, y
La calificacin promedio de una persona en un gran nmero (tericamente
infinito) de formas equivalentes de una prueba.
La calificacin que obtiene una persona en una prueba es funcin tanto de

su calificacin real como de los errores incluidos en las mediciones.
X = T + E12
X (Calificacin obtenida)
T (Calificacin real hipottica)
E (Error de estimacin)
Hay 2 suposiciones sobre el error:
Si se promedia a lo largo de muchas aplicaciones o sobre un grupo de

personas, el error promedio ser cero, y
10
La validez determina qu tanto de la ejecucin se debe a una variabilidad relevante (variable que tratamos
de medir) y que tanto representa una variabilidad irrelevante (efectos de las variables irrelevantes).
11
Los resultados de las pruebas se ven afectados con mayor facilidad por condiciones extraas.
12
Representa la contribucin de cualquier variable que produzca inconsistencias en las mediciones. El error
de estimacin puede ser positivo, si la calificacin real de la persona se sobrestima mediante la calificacin
obtenida, o negativo, si se subestima su calificacin real. Hay que mencionar que los efectos de los errores
son al azar.
61
Que las calificaciones reales y el error de medicin son independientes (no

estn correlacionados)
Como la confiabilidad es una propiedad de la prueba, necesitamos una

ecuacin13 para su aplicacin a un grupo de personas:
SX2 = ST2 + SE2
La confiabilidad queda definida como la razn de la varianza real de un

conjunto de calificaciones de una prueba con la varianza total.
rxx = ST2 / SX2
La confiabilidad:
Se refiere a la consistencia dentro de un conjunto de mediciones
Es una propiedad del conjunto de calificaciones y no de una calificacin

individual
Nunca se puede determinar con precisin. Slo es posible estimarla a partir de

un conjunto de datos obtenidos14.
Hay varios tipos de confiabilidad dependiendo de las fuentes de error que

ms nos interesan:
1. Coeficiente de estabilidad: cuando deseamos saber de la consistencia entre

las calificaciones obtenidas en una prueba y una reaplicacin en una fecha
posterior.
2. Coeficiente de equivalencia: cuando nos interesa la correspondencia entre
los resultados obtenidos en 2 formas supuestamente equivalentes de una
prueba.
13
Donde la varianza de las calificaciones observadas ( SX2 ) es igual a la

varianza de las calificaciones reales ( ST2 ) ms la varianza de error ( SE2 ).
14
La confiabilidad es una construccin, es decir, propiedad hipottica de las calificaciones de las pruebas.
62
3. Coeficiente de equivalencia y estabilidad: para determinar la consistencia

entre los resultados de 2 formas equivalentes de una prueba separadas por un
intervalo de tiempo.
4. ndices de homogeneidad: es cuando se desea determinar si todos los
reactivos de la prueba miden el mismo rasgo o la misma caracterstica.
Lo que se busca con las pruebas es que, las calificaciones observadas

reflejen las calificaciones reales con tan poco error como sea posible. Para
ello, se deben controlar las variables que influyen en las calificaciones observadas.
La meta es entonces, reducir al mnimo el error de medicin y maximizar la
varianza real en las calificaciones de las pruebas.
Habamos dicho que el error es cualquier efecto irrelevante para los fines de
la medicin. Ahora bien, una variable introduce error s:
No tiene que ver con la finalidad de la medicin.
Produce falta de consistencia en las calificaciones de una situacin a otra.
Algunos errores son:
A. Dentro de la prueba:
Cualquier aspecto que haga que un sujeto responda a un reactivo sobre bases
distintas de los conocimientos de la respuesta correcta, podr introducir error.
El muestreo de reactivos que componen la prueba15.
Por regla se procura que cada uno de los reactivos deba medir el mismo
rasgo16.
B. Aplicacin de la prueba:
El aplicador debe considerar las condiciones que puedan producir

calificaciones inexactas17.
En las pruebas de ensayo o de respuesta libre es esencial un ndice de
acuerdo entre los calificadores (confiabilidad de jueces).
15
Este punto es particularmente importante cuando se trabaja con formas equivalentes de una prueba. Estas
formas se deben comparar en cuanto al contenido y la dificultad de cada reactivo.
16
La mayora de los reactivos no son medidas puras de un solo rasgo, y aunque lo fueran, los sujetos podran
no reaccionar de la misma forma en cada reactivo.
17
Principalmente en el caso de pruebas con instrucciones complejas a las que se somete un gran nmero de
personas.
63
C. El examinado:
Cuando una persona o un subgrupo de personas tienen una motivacin

diferente que la mayora de los sujetos examinados.
Cuando un individuo recibe un adiestramiento especfico para una prueba o
cuando en el tiempo transcurrido entre 2 pruebas, algunas personas reciben un
adiestramiento.
Experiencia con las pruebas.
Ansiedad debida a las pruebas.
Variables fisiolgicas.
Direccin o asesoramiento.
Con respecto a la validez, sta se ocupa de qu es lo que mide la

prueba y hasta que punto mide la prueba lo que dice medir.
Algunas preguntas con las que se puede dar expresin a esta propiedad
son:
Qu rasgos mide la prueba?

Mide la prueba el rasgo para el que fue construida?
Qu porcentaje de la varianza en las calificaciones de la prueba se puede
atribuir a la variable que se mide?
Qu se puede predecir con las calificaciones de la prueba?, etc.
Por ser la validez especfica de las situaciones, al utilizar muestras distintas
o mtodos diferentes de anlisis se obtendrn resultados diversos.
La proporcin de varianza real que es relevante para los fines del
examen18se define ya sea por, la extensin con que la prueba mide un rasgo o la
relacin entre las calificaciones de la prueba y alguna medida de criterio externo19.
SX2 = ST2 + SE2
Si la validez es la proporcin de varianza relevante, la varianza real se

puede dividir en:
Una varianza confiable y relevante, y

Otra varianza confiable, pero irrelevante.
18
relevante se refiere a lo que es atribuible a la variable que mide la prueba, que puede ser un
rasgo o atributo, o alguna medida observada independientemente
19
Al respecto se dice que, los resultados de una prueba adquieren sentido cuando se relacionan con otras
variables.
64
o sea:
ST2 = SV2 + SI2
Varianza confiable,
pero irrelevante.
Varianza confiable
relevante (Vlida).
En otras palabras, la varianza estable en las calificaciones de la prueba

se compone de: lo atribuible a la variable que mide la prueba (variable
relevante) y lo atribuible a otras causas (variable confiable e irrelevante).
SX2 = SV2 + SI2 + SE2
La variabilidad en un conjunto de calificaciones se determina por medio de

la varianza vlida, la atribuible a causas confiables, pero irrelevantes (errores
constantes) y la varianza de error de medicin.
Al disminuir la varianza de error, aumenta la proporcin de la varianza
potencialmente vlida, pero como la varianza restante puede ser relevante o no, la
baja varianza de error no garantiza una elevada validez.
CONCLUSIN
Como punto final diremos que, los errores al azar son factores importantes
para el clculo de la confiabilidad, en tanto que, los errores sistemticos son
factores importantes para el clculo de la validez20.
APENDICE: Qu es la varianza?
En muchos trabajos de estadstica se utiliza este estadgrafo como medida

de la dispersin. Se trata del cuadrado de la desviacin estndar, que puede
expresarse mediante la frmula:
S2 = x2 / N
20
La validez siempre estar limitada por la confiabilidad.

65
La varianza es una medida de la cantidad total de variabilidad en un

conjunto de calificaciones.
Posee la propiedad de la aditividad, lo que permite determinar la proporcin
de variabilidad de un conjunto de calificaciones que sea atribuible a cada una de
las diversas variables. As, se podrn hacer afirmaciones respecto a la influencia
relativa de cada variable (es decir, la cantidad total de variabilidad en un conjunto
de calificaciones se podr dividir y distribuir entre diversos efectos
La varianza es un procedimiento til para conceptualizar ciertas
propiedades de las pruebas (confiabilidad y validez) y para determinar los efectos
de las diversas condiciones de la ejecucin de las mismas.
66
ALGUNOS MTODOS PARA CALCULAR LA CONFIABILIDAD

La confiabilidad va de 0.00 a 1.00. Si r11 = 1.00, confiabilidad perfecta y si r11 = 0.00, total
falta de confiabilidad. Ya que la varianza de las calificaciones reales no puede calcularse
directamente, la confiabilidad se calcula al analizar los efectos de las variaciones en las
condiciones de aplicacin y el contenido de la prueba en las calificaciones.
La confiabilidad est influenciada por los cambios no sistemticos que tienen efectos
diferentes en los distintos sujetos. Estos factores no sistemticos influyen en la varianza de
error de la prueba y, por tanto, en su confiabilidad. Cada mtodo para calcular la
confiabilidad: test-retest, formas paralelas y consistencia interna, toma en cuenta
condiciones diferentes que pueden dar lugar a estos cambios no sistemticos en las
calificaciones.
1. Coeficiente test-retest (Coeficiente de estabilidad): Se encuentra al correlacionar las
calificaciones que obtiene un grupo de personas en una primera aplicacin de la prueba con
las calificaciones que obtienen en una segunda aplicacin. Este procedimiento toma en
cuenta los errores de medida que resultan de las diferencias en las condiciones asociadas en
las dos ocasiones en que se aplica el instrumento. La magnitud de este coeficiente tiende a
ser mayor cuando el intervalo entre la primera aplicacin de la prueba y su segunda
aplicacin es breve (unos das o semanas) en lugar de prolongado (meses o aos).
2. Coeficiente de formas paralelas (Coeficiente de equivalencia): Cuando el intervalo entre
la primera aplicacin de la prueba y su segunda aplicacin es breve, regularmente, los
sujetos recuerdan muchas respuestas de la prueba. Si todos los sujetos recordaran la misma
cantidad de respuestas la confiabilidad de la prueba no cambiara, pero casi siempre
algunos sujetos recuerdan ms respuestas que otros, lo cual, reduce la correlacin entre las
calificaciones obtenidas en la primera y la segunda aplicacin. Este problema se corrige
usando una prueba paralela de la prueba, una que consista en reactivos similares, pero no
iguales. A continuacin presentamos un esquema que describe el procedimiento que suele
realizarse para estar en condiciones de aplicar este coeficiente:
Prueba
Grupo
Forma A
Mitad 1
Forma B
Mitad 2
PRIMERA
APLICACIN
Dependiendo de
la importancia
que se le otorgue
a la variable
tiempo, el
coeficiente de
equivalencia
puede ser tambin
un coeficiente de
estabilidad y
equivalencia.
Prueba
Grupo
Forma B
Mitad 1
Forma A
Mitad 2
SEGUNDA
APLICACIN
67
Este coeficiente toma en cuenta los diferentes momentos de aplicacin y los distintos
reactivos de la prueba.
3. Coeficientes de consistencia interna: Como generar la forma paralela de una prueba con
frecuencia puede resultar costoso y difcil, se desarroll un mtodo menos directo para
tomar en cuenta los efectos sobre la confiabilidad de las muestras de diferentes reactivos de
la prueba. Se trata de los mtodos de la consistencia interna. Algunos de ellos son: mtodo
de divisin por mitades, frmula de profeca de Spearman-Brown y el mtodo de KuderRichardson. Detalle: los errores de medicin que provocan las diferentes condiciones o
momentos de la aplicacin no se reflejan en estos mtodos, debido a lo cual, no suele
equiparrseles con los coeficientes anteriormente vistos.
3.1 Divisin por mitades (par-impar): Se divide la prueba en dos partes como si se trataran
de formas equivalentes que miden el mismo rasgo, de manera que la correlacin entre ellas,
sea un coeficiente de confiabilidad de formas paralelas.
3.2 Frmula de profeca de SpearmanBrown: Hecho el procedimiento anterior, y
suponiendo que ambas mitades sean equivalentes en lo que respecta a sus medias y a sus
varianzas, la confiabilidad de la prueba como un todo puede calcularse con base a este
procedimiento.
EJEMPLO EN CLASE: Calcule los coeficientes de confiabilidad de a) Divisin por mitades
(par-impar)21:
rxy = xy (x) (y)
N
[x2 (x)2] [y2 (y)2]
N
N
y b) Formula de profeca de SpearmanBrown:
rxx = (2) (rxy)
1 + rxy
en las siguientes respuestas por parte de 10 sujetos a 10 reactivos de una prueba (donde 1
indica la respuesta correcta y 0 la incorrecta):
21
En esta frmula: N es igual al nmero de sujetos que contestan los reactivos, x es igual a reactivos
impares y y es igual a reactivos pares.
68
Matriz 1
REACTIVOS
SUJETOS
I
II III IV V VI VII VIII
1
1
1
1
1
1
1
1
A
1
0
1
1
0
1
0
1
B
0
0
1
1
1
1
1
1
C
1
0
1
0
1
0
1
0
D
1
0
1
0
0
1
0
1
E
0
1
0
1
0
1
0
1
F
1
0
1
0
0
1
1
0
G
0
0
0
1
0
0
1
0
H
1
0
0
0
0
0
0
1
I
0
1
0
0
0
0
1
0
J
6
3
6
5
3
6
6
6
fi
Media de las calificaciones totales = 5.30 y Varianza = 5.21
rxy = 75 (27)(26)
10
IX
1
1
0
1
1
1
0
1
0
0
6
X
1
1
1
1
1
0
0
0
1
0
6
X
10
7
7
6
6
5
4
3
3
2
53
= 0.22
[ 93 (27)2] [90 (26)2 ]

10
10
rxx = (2) (0.22) = 0.36
1 + 0.22
fi = Total de aciertos por reactivo
69
EJERCICIO 1: Calcule los coeficientes de confiabilidad de a) Divisin por mitades (parimpar) y b) Formula de profeca de SpearmanBrown, en las siguientes respuestas por parte
de 20 sujetos a 8 reactivos de una prueba (donde 1 indica la respuesta correcta y 0 la
incorrecta):
Matriz 2
REACTIVOS
SUJETOS
I
II III IV V VI VII VIII
1
0
0
0
0
0
0
0
A
1
1
1
1
0
0
1
1
B
1
0
1
0
0
0
0
0
C
1
1
1
1
1
1
1
0
D
1
1
1
1
0
0
0
0
E
1
1
0
0
0
0
0
0
F
1
0
1
1
1
1
0
0
G
1
1
1
0
0
0
0
0
H
1
1
1
0
1
1
1
0
I
1
0
0
1
1
1
0
0
J
1
1
1
1
1
1
0
1
K
1
1
0
1
1
0
1
0
L
1
1
1
1
1
1
0
0
M
0
1
1
1
1
0
0
0
N
1
1
1
0
0
0
0
0
1
1
1
0
1
0
0
0
O
1
1
0
1
0
0
0
0
P
1
1
1
1
1
1
1
1
Q
1
1
1
1
0
1
0
0
R
1
1
1
1
1
0
0
0
S
19 16 15 13 11
8
5
3
fi
Media de las calificaciones totales = 4.5 y Varianza = 3.2
X
1
6
2
7
4
2
5
3
6
4
7
5
6
4
3
4
3
8
5
5
90
3.3 Mtodo de Kuder-Richardson: Existen muchas formas diferentes de dividir una prueba
en dos mitades. Debido a que cada forma puede producir un valor distinto de r11, no est
claro qu estrategia de divisin da como resultado el mejor clculo de la confiabilidad.
Solucin: Considerar el promedio de los coeficientes de confiabilidad obtenidos de todas
las divisiones a la mitad como el clculo de la confiabilidad general.
La media de todos los coeficientes de divisin por mitades puede calcularse con la frmula
21 de Kuder-Richardson, la cual, se basa en la suposicin de que todos los reactivos de la
prueba tienen la misma dificultad.
r11 =
K
(K 1)
1 M (K M)
Ks2
70
Donde:
K = Cantidad de reactivos de la prueba
M = Media de las calificaciones totales de la prueba
s2 = Varianza de las calificaciones totales de la prueba
Ejemplo: Para una prueba que contiene 75 reactivos, una media de 50 y una varianza de
100, calcule su confiabilidad general.
K = 75
M = 50
s2 = 100
r11 = ?
r11 =
75
(75 1)
1 50(75 50) = 0.84

(75)(100)
EJERCICIO 2: Con los datos del ejemplo que se hizo en clase para practicar los mtodos
de divisin por mitades y de profeca de Spearman-Brown (Matriz 1, correspondiente a los
incisos 3.1 y 3.2), calcula la confiabilidad de dicha prueba usando el mtodo de KuderRichardson.
3.4 Mtodo de Kuder-Richardson. Frmula 20: Pero, Qu pasa cuando al calcular la media
de todos los coeficientes de divisin por mitades se trabaja con reactivos que tienen
distintos grados de dificultad? La alternativa es la frmula 20 de Kuder-Richardson:
r11 =
K
(K 1)
S2x - piqi
S2x
En donde:
K = Cantidad de reactivos de la prueba
S2x = Varianza de las calificaciones totales de la prueba
pi = Proporcin de personas que contestaron correctamente el reactivo
qi = Proporcin de personas que contestaron incorrectamente el reactivo
La frmula 20 de Kuder-Richardson, a diferencia de la frmula 21, es que: 1) Produce un
resultado menos conservador que la frmula 21 y b) Es ms difcil de calcular.
Para el clculo de este coeficiente de consistencia interna es necesario contar con datos
previos como la media de las calificaciones totales de la prueba (M) y la varianza de las
calificaciones totales de la prueba (S2x), cuyas frmulas son:
71
M=x
N
S2x = (x M)2
N
Donde:
M = Media de las calificaciones totales de la prueba
x = Nmero de aciertos por sujeto
N = Total de sujetos que contestaron la prueba
EJEMPLO EN CLASE: Con los datos del ejemplo que se hizo en clase para practicar los
mtodos de divisin por mitades y de profeca de Spearman-Brown (Matriz 1,
correspondiente a los incisos 3.1 y 3.2), calcula la media de todos los coeficientes de
divisin por mitades considerando los distintos grados de dificultad de los reactivos de la
prueba.
M=x
N
M = 53 = 5.3
10
Para el clculo de (x M)2

xM
(x M)2
x
10
4.7
22.09
7
1.7
2.89
7
1.7
2.89
6
0.7
0.49
6
0.7
0.49
0.3
5
0.09
1.3
4
1.69
2.3
3
5.29
2.3
3
5.29
3.3
2
10.89
52.1
S2x = (x M)2
N
S2x = 52.1 = 5.21
10
r11 =
K
(K 1)
S2x - piqi
S2x
10
10 - 1
5.21 - 2.35
5.21
= 0.59
72
Para el clculo de piqi

Para el clculo de qi:
Para el clculo de pi:

Pi =
Aciertos en cada reactivo

Total de aciertos en los reactivos
fi22
pi
qi
piqi
6
0.6
0.4
0.24
3
0.3
0.7
0.21
6
0.6
0.4
0.24
5
0.5
0.5
0.25
qi = 1 - pi
3
0.3
0.7
0.21
6
0.6
0.4
0.24
6
0.6
0.4
0.24
6
0.6
0.4
0.24
6
0.6
0.4
0.24
6
0.6
0.4
0.24
piqi
2.35
EJERCICIO 3: Ahora con los datos del ejercicio que se dej en clase para practicar los
mtodos de divisin por mitades y de profeca de Spearman-Brown (Matriz 2,
correspondiente a los incisos 3.1 y 3.2), calcula la media de todos los coeficientes de
divisin por mitades considerando los distintos grados de dificultad de los reactivos de la
prueba.
Confiabilidad y variabilidad
Debido a que la varianza de la calificacin de la prueba est relacionada con la
extensin de la prueba, un mtodo para incrementar la confiabilidad es hacer que
la prueba sea ms extensa al agregarle reactivos. La frmula general de
Spearman-Brown es una expresin del efecto que tiene en la confiabilidad este
hecho de hacer ms extensa una prueba al agregar reactivos del mismo tipo. Una
generalizacin de esta frmula es:
rmm =
mr11
1 + (m 1) r11
Donde:
m = Factor por el cual la prueba se hace ms extensa
r11 = Confiabilidad de la prueba original (sin extensin)
rmm = Confiabilidad estimada de la prueba ms extensa
EJEMPLO: Si una prueba con 20 reactivos y con un coeficiente de confiabilidad de
0.70 se hace 3 veces ms extensa al agregar 40 reactivos ms, Cul ser su
confiabilidad estimada?
m=3
r11 = 0.70
rmm = ?
22
Nmero de aciertos por reactivo
73
rmm =
(3)(0.70)
= 0.87
1 + (3 1)(0.70)
Si teniendo una prueba con una confiabilidad determinada (r11) deseamos

determinar cun extensa debe ser sta para que tenga una confiabilidad ms
adecuada (rmm), podemos hacer esta estimacin resolviendo la frmula anterior
para m:
m=
rmm (1 - r11)
r11 (1 - rmm)
Donde:
r11 = Confiabilidad conocida
rmm = Confiabilidad deseada
EJEMPLO: Una prueba de 40 reactivos tiene un coeficiente de confiabilidad de
0.80. Aproximadamente, Cuntos reactivos ms del mismo tipo general deben
agregarse a la prueba para aumentar su confiabilidad a 0.90?
r11 = 0.80
rmm = 0.90
m = 0.90 (1 0.80) = 0.18 = 2.25
0.80 (1 0.90) 0.08
Al multiplicar n (cantidad de reactivos que originalmente tiene la prueba) por m
obtenemos 40 2.25 = 90. Por tanto, a fin de aumentar el coeficiente de
confiabilidad de la prueba a 0.90, deben agregrsele 50 reactivos ms del mismo
tipo general.
EJERCICIO 4: Resuelve los siguientes problemas
1. Cul ser la confiabilidad de una prueba con un r11 de 0.62 despus de que
su longitud se incrementa: a) 4 veces, b) 5 veces y c) 6 veces.
2. Una prueba de 50 reactivos tiene un coeficiente de confiabilidad de 0.75.
Cuntos reactivos ms del mismo tipo general deben agregarse a la prueba
para aumentar su confiabilidad a 0.85?
Adems de depender de la cantidad de reactivos que comprende una prueba, la
varianza y la confiabilidad de una prueba se ven afectadas por la heterogeneidad
del grupo de personas que la presentan. Cuanto ms amplio sea el rango de
diferencias individuales en una caracterstica determinada, mayor ser la varianza
de las calificaciones en una medida de esa caracterstica. Como consecuencia, el
coeficiente de confiabilidad de una prueba u otro instrumento de evaluacin ser
mayor en un grupo heterogneo, que tiene una varianza de calificacin ms alta,
74
que un grupo homogneo que tiene una varianza de calificacin menor. El hecho
de que la confiabilidad de una prueba vare con la naturaleza del grupo que se
somete a la prueba se refleja en la prctica de reportar distintos coeficientes de
confiabilidad para los grupos con edades, grados, sexo y nivel socioeconmico
diferentes.
Respuestas a los ejercicios:
1. a) 0.59 y b) 0.74
3. 0.58
2. 0.61
4. a) 0.89 y b) 0.90
75
ERROR ESTANDAR DE MEDICIN (sm)

Un coeficiente de confiabilidad no da una indicacin directa de la cantidad
de variabilidad (error) que se espera en las calificaciones de un individuo en una
medicin. Sin embargo, en muchas situaciones prcticas, nos interesa saber hasta
donde se puede esperar que varen las calificaciones de un individuo al repetir la
medicin (reaplicacin). Nuestro problema consiste en estimar las calificaciones
reales (T) de una persona y la magnitud del componente de error.23
Hipotticamente, podemos someter a examen a una persona un nmero
infinito de veces y calcular la media y la desviacin estndar de la distribucin de
sus calificaciones (obtenidas). En esta distribucin hipottica, la media sera la
calificacin real del individuo y la desviacin estndar sera un ndice de la
magnitud de los errores de medicin. Como es obvio, este procedimiento es
inaplicable, pero se puede realizar una estimacin de la varianza de error,
utilizando el nivel de ejecucin de un grupo de sujetos en dos aplicaciones de la
misma prueba psicolgica como substitucin de mediciones repetidas del mismo
sujeto. Al hacer esto, las diferencias en las calificaciones individuales en las dos
mediciones sern errores de medicin. A continuacin, podramos desarrollar una
distribucin de esas calificaciones errneas. La desviacin estndar de esta
distribucin es el error estndar de medicin, el cual, se puede estimar
directamente a partir de las calificaciones obtenidas en la prueba, mediante la
frmula:
sm = sx
1 - r11
en donde sm es el error estndar de medicin, sx es la desviacin estndar de la

distribucin de las calificaciones obtenidas y r11 es el coeficiente de confiabilidad
del instrumento de medicin. As, al conocer la desviacin estndar de las
calificaciones obtenidas y la confiabilidad de la prueba psicolgica, se puede
estimar la magnitud de error en las calificaciones individuales.
23
Recordemos que, cualquier calificacin obtenida es una funcin de las calificaciones reales ms las de error
y que, las calificaciones obtenidas pueden sobrestimar, subestimar o igualar a las reales.
76
1. De las calificaciones de una prueba psicolgica se obtuvieron los

siguientes resultados: una media de 9.95, una desviacin estndar de
2.46 y un coeficiente de confiabilidad de 0.90.
2. Para calcular el error estndar de medicin utilizaremos la frmula
anteriormente citada. Substituyendo los valores apropiados en la ecuacin
y resolviendo para sm, se tiene:
sm = 2.46
1 - 0.90 = 0.78
3. Supongamos que un individuo obtuviera una calificacin de 12 en esta

prueba psicolgica y que deseamos conocer los lmites de confianza de
95% para su calificacin real. Los lmites son:
X 1.96 sm
y, al hacer las substituciones adecuadas con los valores.del
.ejemplo,
12 (1.96)(0.78) = 12 1.53 = 10.47 - 13.53

podremos decir que hay una probabilidad de 0.95 de que la .calificacin
real de un individuo con X = 12 est entre 10.5 y .13.5 puntos, o bien,
redondeando, entre 10 y 14.
Veamos otro ejemplo. Supongamos que la desviacin estndar de una prueba es

6.63 y el coeficiente de confiabilidad del test-retest 0.85; entonces
sm = 6.63 1 - 0.85 = 2.57
Si la calificacin bruta de Juan en la prueba es 40, se puede llegar a la conclusin
con 68% de confianza que Juan es uno de un grupo de personas con calificacin
observada de 40 cuyas calificaciones reales se encuentran entre 40 - 2.57 = 37.43
y 40 + 2.57 = 42. 57. O bien, se puede llegar a la conclusin con 95% de confianza
que Juan es uno de un grupo de sujetos con una calificacin observada de 40
cuyas calificaciones reales en la prueba se encuentran entre 40 - 1.96 (2.57) =
34.96 y 40 + 1.96 (2.57) = 45.04.
El error estndar de medicin se incrementa conforme se reduce la
confiabilidad. Cuando r11 = 1.00, no existe ningn error al calcular la calificacin
real de una persona a partir de su calificacin observada; cuando r11 = 0.00, el
error de medicin es el mximo y es igual a la desviacin estndar de las
77
calificaciones observadas. Desde luego, una prueba que tiene un coeficiente de

confiabilidad cercano a 0.00 es intil porque lo acertado de cualquier decisin
tomada basndose en las calificaciones no es mayor que la probabilidad.
Interpretacin de sm
Con el sm puede conocerse el rango de valores de las calificaciones que, con una
probabilidad dada, incluir a las calificaciones reales. Puede escogerse cualquier
nivel de probabilidad; pero en general, se usa el nivel de confianza de 95%. La
eleccin de dicho nivel asegura que el rango de calificaciones incluir a las reales
en un 95% de los casos.
Puede demostrarse as, que hay una probabilidad de 0.95 de que las
calificaciones reales caigan dentro del rango:
(X 1.96 sm) T (X + 1.96 sm);
es decir, la probabilidad es de aproximadamente 0.95 de que T caiga dentro de
1.96sm de la calificacin obtenida (X). El rango de valores que abarca a las
calificaciones reales se denomina intervalo de confianza y los lmites del intervalo
se denominan lmites de confianza. Los intervalos de confianza y los lmites de
confianza tienen un nivel de probabilidad.
Para quien analiza tcnicamente la prueba, sm le informa acerca de 2 cosas: a) La
cantidad de variabilidad (diferencia en los resultados) que se puede esperar en la
reaplicacin y b) El rango dentro del cual caer probablemente la calificacin real.
EJERCICIO: Calcule el error estndar de medicin (sm) de una prueba que tiene
una desviacin estndar de 10 y un coeficiente de confiabilidad de formas
paralelas de 0.84. Despus, utilice el valor de sm obtenido para encontrar el
intervalo de confianza de 68% y de 95% para las calificaciones reales que
corresponden a las calificaciones obtenidas de a) 40, b) 50 y c) 60.
Respuestas del ejercicio:
a) 36 44 y 32.16 47.84
b) 46 54 y 42.16 57.84
c) 56 64 y 52.16 67.84
BIBLIOGRAFIA
Brown F., Principios de la medicin en psicologa y educacin, Ed. El Manual
Moderno, Mxico, 1998.
Aiken, Lewis R., Tests psicolgicos y evaluacin, Ed. Prentice Hall, Mxico,
1996.
78
VALIDEZ
INTRODUCCIN
La validez de un instrumento es la exactitud con que pueden hacerse
medidas significativas y adecuadas con l, en el sentido que miden realmente los
rasgos que se pretenden medir.
La validez de un instrumento rara vez es un problema cuando tratamos
medidas fsicas, pero con los instrumentos usados para medir variables
psicolgicas es necesario probar empricamente que el instrumento es vlido en
todos los casos.
Debe mantenerse el requerimiento de que la validez de cualquier mtodo
tiene que probarse empricamente en las diferentes situaciones donde va a
usarse.
Debe tenerse presente que una alta confiabilidad es un requerimiento
necesario, pero no suficiente para una alta validez.
Cuando estimamos la validez de una prueba, necesitamos saber que rasgo
deseamos que mida. Este rasgo se llama variable de criterio. Nos interesa saber
qu tan bien corresponden las posiciones de los individuos en la distribucin de
los puntajes obtenidos a sus posiciones en el continuo que representa la variable
de criterio. La validez es tradicionalmente estimada por un coeficiente de
correlacin, llamado coeficiente de validez, el cual, indica la relacin que hay
entre los datos obtenidos con la prueba y los datos que usamos, con un grado
conocido de certeza, como ndices para los puntajes del individuo en la variable de
criterio.
Una prueba no tiene un coeficiente fijo de validez que sirva para cualquier
fin y cualquier grupo de individuos para los cuales pudiera usarse. La validez de la
prueba vara de acuerdo con el propsito que se use y el grupo dentro del cual
discrimina. En todo proceso de validacin la cuestin crucial es: Para quin y
para qu es vlido el test? Necesitamos por consiguiente criterios diferentes para
diferentes propsitos de la prueba.
Cuando estimamos la validez, rara vez tenemos acceso a los criterios que
son expresiones confiables y vlidas de la variable criterio. Por ello, debemos
distinguir entre los criterios "verdaderos" y los criterios intermedios disponibles. El
criterio asequible puede seleccionarse de entre varias posibilidades (el tamao
del coeficiente de validez depende en cierto grado de la posibilidad escogida).
Debemos esperar encontrar deficiencias de confiabilidad y validez en los datos de
criterio que usamos para estimar la validez de la prueba. Se debe tomar en cuenta
79
tambin cun estrechamente est relacionado el criterio usado con el verdadero y

con la confiabilidad de las medidas de criterio obtenidas.
Los datos que en una situacin son usados como datos de criterio pueden
en otra situacin emplearse como datos de prediccin, y necesitamos entonces,
probar su validez.
TIPOS DE VALIDEZ
Hay diferentes tipos de validez:
Validez Predictiva: cuando deseamos usar la prueba para predecir las

posiciones de los individuos sobre una distribucin de la que slo
podemos disponer ms tarde. La prueba predice cierto resultado despus de
un tiempo dado. La validez predictiva, calculada a travs de un coeficiente de
validez, se usa en las pruebas para orientacin vocacional y para la seleccin y
clasificacin de los individuos para propsitos de adiestramiento o trabajo.
Validez Concurrente: cuando se dispone de la medida de la variable de

criterio en el momento en que se obtienen los resultados de la prueba.
Este tipo de validez se expresa tambin por un coeficiente de validez. Se usa
para pruebas en situaciones de diagnstico. Cuando evaluamos los
coeficientes de validez concurrente, debemos recordar que los criterios usados
varan grandemente en calidad.
Tanto la validez predictiva como la concurrente se determinan

calculando la
correlacin entre los puntajes de la prueba y las medidas de la variable de criterio,
y la validez se expresa en ambos casos por un coeficiente de correlacin. En la
validez concurrente, la cuestin es si la prueba mide lo que se intenta medir y el
coeficiente de validez indica que tan adecuados son los datos del test como base
para el diagnstico. En la validez predictiva, la cuestin es la exactitud con que la
prueba predice lo que se intenta predecir. Hay que decir que, una buena
capacidad predictiva presupone una buena capacidad de diagnstico. Si algo no
puede medirse exactamente, no puede usarse como base de predicciones vlidas.
Dos observaciones ms:
a) Un alto coeficiente para la relacin entre la prueba y el criterio no significa
necesariamente que la prueba mida lo que creemos que mide.
b) Cuando calculamos los coeficientes de validez es necesario que los datos
del test y los del criterio se determinen en forma independiente.
Validez de Contenido: es aplicable cuando estimamos el grado en que una

prueba escolar, por ejemplo, abarca algn campo de estudio. Se determina
por el grado en que la muestra de reactivos de la prueba es representativa
80
de la poblacin total. A diferencia de la validez predictiva y concurrente, la

validez de contenido no puede expresarse por un coeficiente de validez.
Validez de construccin: no se expresa por un solo coeficiente que represente

la correlacin entre la prueba y las medidas de criterio. Es especialmente til en
relacin con las pruebas que miden rasgos para los cuales no hay un criterio
externo. Si el resultado de una serie de tales pruebas es el esperado, entonces
se dice que el test tiene validez de construccin para la variable que se
examina.
Esta validez se determina mostrando que las consecuencias que pueden
predecirse sobre la base de la teora con respecto a los datos del test pueden,
en lo fundamental, confirmarse por una serie de pruebas.
El procedimiento para probar la validez de construccin es el mismo que el
del mtodo deductivo. Es una aplicacin de este mtodo al problema de
evaluar la exactitud de las predicciones basndose en un test. Esta evaluacin
se efecta segn el procedimiento clsico: teora-deduccin-hiptesis-prueba
experimental-datos que desmienten o confirman la hiptesis.
PREDICCIN
Podemos hacer una prediccin de una variable a otra con ayuda del
coeficiente de correlacin. Si conocemos la correlacin entre los puntajes de las
variables X y Y, necesitamos solamente obtener el puntaje de un individuo en X
para poder predecir el puntaje probable del mismo individuo en Y.
81
Cuando conocemos el puntaje estndar observado en X (zx) de un individuo y el

coeficiente de correlacin entre los puntajes de la distribucin X y los de la distribucin Y,
podemos obtener la mejor prediccin posible del puntaje estndar del individuo sobre y1
multiplicando zx por el coeficiente de correlacin:
zy1 = rxy zx
(1)
Si en lugar de expresar las posiciones de los individuos en las distribuciones como

puntajes estndar las expresamos como desviaciones
de las medias de las respectivas distribuciones (y = y1 My1, y x = X - Mx), obtenemos:
y1 . = rxy x .
sy
sx
(2)
Multiplicando ambos lados por sy obtenemos:
y1 = rxy sy x
sx
(3)
La expresin para calcular el puntaje crudo ms probable de la variable y para un

individuo con un puntaje crudo dado de la variable x, es:
y1 = rxy sy (X - Mx) + My
sx
(4)
La exactitud de la prediccin depende directamente de rxy, el tamao de la

correlacin. Cuando rxy = 1.0, la prediccin ser perfectamente exacta. Si rxy = 0,
la prediccin ser completamente al azar.
La incertidumbre de la prediccin aumenta cuando la correlacin entre las
variables disminuye. Cuando predecimos de la variable x a la variable Y tenemos
una expresin directa de esta incertidumbre en la distribucin de los puntajes y
alrededor
82
del puntaje predicho (y1) correspondiente a cada puntaje x. Cuando conocemos la

desviacin estndar de esta distribucin, tenemos una expresin numrica con la
que podemos calcular el intervalo dentro del que se encuentra el puntaje y de un
individuo con un grado conocido de certidumbre, cuando su puntaje predicho es
de una magnitud dada.
Es posible derivar una ecuacin general para estimar la desviacin estndar
de los errores que cometemos en la prediccin de los puntajes y a partir de los de
x:
Syx = Sy 1 rxy2
(5)
EJEMPLO:
Se conoce el puntaje de un alumno en una prueba de inteligencia y deseamos
predecir su xito como estudiante expresado por las estimaciones del profesor al
terminar sus estudios. Supongamos que el C.I. del alumno es de 120 en una
escala donde M = 100 y s = 16. Las estimaciones del profesor se dieron en una
escala de 9 puntos donde M = 5 y s = 2. El coeficiente de validez es de 0.50.
Cul es ahora la mejor estimacin del xito, expresada por las estimaciones del
profesor, para el alumno con un C.I. de 120?
Datos
Mx = 100
Sx = 16
My = 5
Sy = 2
rxy = 0.50
X = 120
Y1 = ?
y1 = rxy sy (X - Mx) + My = y1 = (0.50) 2 (120 - 100) + 5 = 6.25

sx
16
La mejor de las estimaciones del profesor para este alumno en las condiciones
dadas ser de 6.25, pero Cun grande es la incertidumbre de estimar que el
puntaje es de 6.25? Para calcularlo usamos la ecuacin del error estndar de
medicin (frmula 5):
Syx = Sy 1 rxy2 = 2 1 (0.50)2 = 1.74
83
El puntaje que obtiene el alumno en las estimaciones cae con 68% de certeza en
el rango:
6.25 1.74 = 4.51 y 7.99 (Lmites de confianza)
y con 95% de certeza en el rango:
6.25 3.4124 = 2.84 y 9.66
EJERCICIOS:
1. Calcular el puntaje de criterio que sea la mejor prediccin a partir de los
puntajes predictores: a) -1.0, b) 0.0, c) 0.75 y d) 1.4, si el coeficiente de validez
es de 0.70. Los puntajes de criterio y el predictor se dan como puntajes
estndar.
2. En la seleccin para un curso escolar los aspirantes son estimados despus de
ser entrevistados en una escala de 9 puntos (1 9). Las estimaciones se
distribuyeron normalmente con M = 5 y s = 2. Despus de completar el curso,
los mismos individuos fueron estimados en una escala de 19 puntos (1 19)
con M = 10 y s = 3. La correlacin entre las dos estimaciones fue de 0.35. Un
estudiante obtuvo un puntaje de 4 en la entrevista, Cul es su mejor
estimacin final? Dentro de cul estimacin de puntajes caer su puntaje
obtenido con un a) 68% y b) 95% de seguridad?
3. La correlacin entre los puntajes de un examen de admisin y las calificaciones
finales es de 0.60. Los puntajes del examen de admisin son transformados a
puntajes T (M = 50 y s = 10). Las calificaciones finales tienen M = 4.0 y s = 1.2.
El individuo A tiene un puntaje de 55 en el examen de admisin. Prediga su
calificacin final.
4. Un predictor se mide sobre la escala 1 21 (M = 11 y s = 3) y la variable de
criterio se mide en la escala 1 11 (M = 6 y s = 2). El coeficiente de validez es
de 0.66. Arriba de cul puntaje de criterio se encontrarn, aproximadamente,
el 2.5% de estos individuos, si tienen un puntaje predictor de 7? Encuentre el
resultado usando un 95% de seguridad y dibuje la figura correspondiente.
24
1.74 1.96 = 3.41 equivalente al 95% de certeza
84
RESPUESTA A LOS EJERCICIOS:

1. a) -0.7, b) 0, c) 0.52 y d) 0.98
2. y1 = 9.47, syx = 2.81, a) 6.66 12.28 (68%) y b) 3.96 14.98 (95%)
3. 4.36
4. y1 = 4.2 syx = 1.50 95% = 2.7 5.7
BIBLIOGRAFA
Brown F., Principios de la medicin en psicologa y educacin, Ed. El Manual

Moderno, Mxico, 1998.
Downie, N. M. y R. W. Heath, Mtodos estadsticos aplicados, Ed. Harper &
Row Publishers Inc., Mxico, 1998.
85
CLCULO DEL COEFICIENTE DE VALIDEZ

El mtodo que se utiliza con mayor frecuencia para determinar la validez de una prueba es
correlacionar los resultados de la prueba con un criterio. El procedimiento incluye 5 etapas:
1) Seleccin de un grupo apropiado de estudio; 2) Aplicacin de la prueba predictora; 3)
Aplicacin del tratamiento relevante; 4) Reunin de los datos del criterio y 5) Correlacin
de las calificaciones de la prueba y el criterio. Grficamente:
Prueba ----------- (Tratamiento) ----------- Criterio
Correlacin
La correlacin resultante, denominada coeficiente de validez (rxy), es una medida de la
exactitud con la que se puede predecir la ejecucin en el criterio (Y) a partir de los
resultados de la prueba (X).
Ejemplo: Supongamos que un profesor de matemticas de secundaria descubre que cierta
proporcin de sus alumnos tienen dificultades con el lgebra de primer ao. Le agradara
identificar a esos alumnos, para impartirles un curso distinto de matemticas. Decide
efectuar un estudio para ver si puede establecer diferencias entre los estudiantes que tengan
diversos grados de xito en lgebra. Puesto que cree que los alumnos que tienen
dificultades en lgebra carecen de capacidad para razonar de manera matemtica, desarrolla
una prueba breve (de siete preguntas) sobre razonamiento matemtico y la aplica a todos
los alumnos el primer da de clases. Para evitar la contaminacin de sus datos, no califica
las pruebas, sino que las archiva para su uso posterior. Al final del curso, despus de
asignar las calificaciones, califica las pruebas iniciales y decide calcular un coeficiente de
validez para ver si la prueba es o no un predictor vlido.
Calificacin
en lgebra
(Criterio)
El siguiente cuadro muestra el diagrama de dispersin que indica la relacin entre las
calificaciones de la prueba y las calificaciones obtenidas en lgebra. Los resultados de la
prueba de razonamiento matemtico sirven como predictores; el criterio es el de las
calificaciones obtenidas en lgebra.
Y
4
3
2
1
0
A
B
C
D
E
2
6
14 26
1
2
10 16 25
5
1
1
7
20 30
9
3
2
7
20 28 15
1
1
6 25 15
6
1
1
2
3
4
5
6
7
Prueba de razonamiento matemtico
(Predictor)
86
Para su anlisis, el profesor asigna un valor numrico a cada calificacin: de 4 para A, de 3

para B, de 2 para C, de 1 para D y de 0 para E; y a continuacin realiza los clculos
estadsticos necesarios, incluyendo el clculo del coeficiente de validez.
Veamos a continuacin, paso por paso, cmo obtuvo el profesor el resultado de este
coeficiente.
Una frmula til que pudo haber empleado para calcular el coeficiente de validez es la
siguiente:
rxy = xy / n (Mx)(My)
(sx)(sy)
Para aplicar esta frmula, primero deben obtenerse los datos correspondientes a n, Mx, sx,
My, sy y xy.
Veamos, caso por caso, cmo se obtienen estos datos:
1. Para obtener n se suman todos los valores dentro del cuadro de doble entrada. As, en
nuestro ejemplo n es igual a 305 datos.
2. Para obtener Mx, se multiplica cada rengln de datos por los nmeros correspondientes a
los reactivos del predictor, se suman los productos obtenidos por cada rengln y estas
sumas parciales se suman entre s. En nuestro ejemplo queda as:
6 + 50 + 45 +24 + 5
2 + 14 + 60 + 112 + 75 + 6 + 7
1 + 2 + 21 + 80 + 150 + 54 + 21
2 + 6 + 40 + 80 + 150 + 35
8 + 30 +84 + 182
=
=
=
=
=
=
130
276
319
313
304
1352
Luego, se aplica la siguiente frmula:

Mx = x / n
O en el ejemplo en cuestin:
Mx = 1352 / 305 = 4.43
3. Para obtener sx se aplican a los datos la siguiente frmula:

sx =
(x Mx)2
n
87
Obsrvese a continuacin, la forma cmo se aplica esta frmula a los datos con el ejemplo
que venimos desarrollando:
Sx = 9(1 - 4.43)2 + 34(2 - 4.43)2 + 44(3 - 4.43)2 + 66(4 - 4.43)2 + 68(5 - 4.43)2 + 49(6 - 4.43)2 + 35(7 - 4.43)2 = 1.60
305
Donde:
9, 34, 44, 66, 68, 49 y 35 son la sumatoria de cada columna de datos;
1, 2, 3, 4, 5, 6 y 7 son los nmeros de cada reactivo;
4.43 es Mx, y
305 es n.
4. Para obtener My, se multiplica cada rengln de datos por el valor de la variable de
criterio correspondiente, se suman los productos obtenidos por cada rengln y estas sumas
parciales se suman entre s. Aplicndolo a nuestro ejemplo tenemos:
0
2 + 7 +20 + 28 +15 + 1 + 1
2 + 2 + 14 + 40 + 60 + 18 + 6
3 + 6 + 30 + 48 + 75 + 15
8 + 24 + 56 + 104
=
=
=
=
=
=
0
74
142
177
192
585
Luego, se aplica la siguiente frmula:

My = y / n
O en nuestro caso:
My = 585 / 305 = 1.91
5. Para obtener sy se aplican a los datos la siguiente frmula:

sy =
(y My)2
n
Obsrvese a continuacin, el modo cmo se aplica esta frmula a los datos con el ejemplo
que nos ocupa:
Sy = 53(0 1.91)2 + 74(1 - 1.91)2 + 71(2 - 1.91)2 + 59(3 - 1.91)2 + 48(4 - 1.91)2 = 1.324
305
88
Donde:
53, 74, 71, 59 y 48 son la sumatoria de cada rengln de datos;
0, 1, 2, 3 y 4 son las calificaciones en la variable de criterio;
1.91 es My, y
305 es n.
6. Para obtener xy se multiplica cada nmero de los reactivos del predictor por cada
nmero de las calificaciones de la variable de criterio por la frecuencia de cada caso dentro
del cuadro de doble entrada:
106
112
121
2 0 25
217
221
231
3 0 15
3 1 20
327
332
406
4 1 28
4 2 20
4 3 10
442
501
5 1 15
5 2 30
5 3 16
546
611
629
6 3 25
6 4 14
711
723
735
7 4 26
0
=
=
2
=
2
=
0
= 14
4
=
=
6
=
0
= 60
= 42
= 18
=
0
= 112
= 160
= 120
= 32
=
0
= 75
= 300
= 240
= 120
=
6
= 108
= 450
= 336
=
7
= 42
= 105
= 728
= 3089
89
Habiendo obtenido estos valores:

n = 305
My = 1.91
Mx = 4.43
sy = 1.324
sx= 1.60
xy = 3089
Finalmente, se hace la sustitucin en la frmula para calcular el coeficiente de validez de

nuestro predictor:
rxy = 3089 / 305 (4.43)(1.91) = 0.78
(1.60)(1.324)
De esta manera, el profesor descubre un valor de 0.78 para su coeficiente de validez. Puesto
que la correlacin es positiva y moderadamente alta, se confirma su creencia de que la
capacidad de razonamiento matemtico puede ser importante para determinar las
calificaciones en el curso (Evidentemente, se incluyen otros factores, puesto que la
correlacin no es perfecta).
Interpretacin de rxy.
Hay varios modos de interpretar y evaluar los coeficientes de validez. Probablemente el
mtodo ms comn sea el comparativo: el utilizar la prueba con el coeficiente ms elevado
de validez. As, si en una situacin dada, los coeficientes de validez son de 0.40 para la
prueba A y 0.50 para la B, se adoptar esta ltima ya que es ms vlida en esas
circunstancias. Por consiguiente, lo que se considera como una buena validez, depender
de cada situacin especfica.
Los coeficientes de validez se pueden interpretar tambin en funcin del porcentaje de
varianza en el criterio, justificado por las diferencias en las calificaciones predictoras. El
porcentaje de varianza que se explica en esa forma, se obtiene elevando al cuadrado el
coeficiente de correlacin. As, si rxy = 0.78 como en nuestro ejemplo, podremos decir que
60% de la varianza (0.782 = 0.6084 100 = 60.84 = 60%) lo comparten las dos medidas o
que el 60% de la varianza en los resultados del criterio es atribuible a variaciones en las
calificaciones predictoras.
90
EJERCICIO:
En el cuadro que se muestra a continuacin, se expone el diagrama de dispersin que indica
la relacin entre las calificaciones de un predictor y las calificaciones de una medida de
criterio. Se asign, como en el ejemplo anterior, un valor numrico a cada calificacin: A =
4, B = 3, C = 2, D = 1 y E = 0. Con la frmula para obtener el coeficiente de validez, es
decir,
rxy = xy / n (Mx)(My)
(sx)(sy)
Criterio
calcula rxy para el presente caso:

Y
4
3
2
1
0
A
B
C
D
E
4
8
8
1
8
11
1
2
1
26
8
1
3
2
8
3 14 20
42 29
9
6
3
1
1
4
5
6
Predictor
7
8
2
7
2
Respuesta del ejercicio:

rxy = 0.60
91
NORMAS Y ESTANDARIZACIN DE PRUEBAS
Muestra de
estandarizacin
R
e
p
r
e
s
e
n
t
a
t
i
v
i
d
a
d
Poblacin meta
Para que la
muestra sea
representativa
de la poblacin
meta es
necesario
seleccionar la
muestra con
detenimiento
Proceso de estandarizacin
Propsito: determinar la distribucin de calificaciones brutas en el

grupo de estandarizacin (grupo de norma)
Las calificaciones brutas que se obtienen se convierten en
calificaciones derivadas o normas
Los manuales de las pruebas contienen CUADROS DE NORMAS
que enlistan las calificaciones brutas y las calificaciones convertidas
correspondientes
92
El desempeo de alguien en una prueba se evala al referirse al

cuadro de normas apropiado y encontrar las calificaciones convertidas
equivalentes a las calificaciones brutas
Las normas sirven como marco de referencia para
interpretar las calificaciones brutas
Las normas indican el desempeo del sujeto en la prueba con respecto
a la distribucin de las calificaciones que obtuvieron personas con la
misma edad cronolgica, grado, sexo, etc.
SELECCIN DE UNA MUESTRA DE ESTANDARIZACIN
Las normas que se usan para interpretar las calificaciones de las

pruebas deben de ser apropiadas para el grupo o individuo que se
evala
Cuando la calificacin
de una prueba se
convierta, refirindose
a un cuadro de
normas, hay que
considerar:
Naturaleza del grupo de norma en

particular e incluir esta
informacin en el informe
Cundo se obtuvieron las normas
Eleccin de una muestra de estandarizacin de la poblacin meta
93
Como la aleatoriedad no asegura la representatividad de la muestra, se

usa:
Muestreo aleatorio estratificado (se

categoriza la poblacin meta en una
serie de variables demogrficas, que
se supone que pueden relacionarse,
con las calificaciones que se
obtienen en la prueba)
Tambin se
utiliza el
muestreo
aleatorio simple
Y para reducir costos, se utiliza el muestreo de grupos. Otras

estrategias menos costosas para determinar las normas de las pruebas
son los muestreos de reactivos y de individuos: distintas muestras de
reactivos se aplican a muestras de sujetos diferentes que se eligen de
manera aleatoria
TIPOS DE NORMAS
Normas
nacionales,
regionales y
locales
Las normas que se publican en los

manuales de las pruebas son tiles para
comparar la calificacin de un sujeto con
aquellas de una muestra de personas de
distintas localidades (escuela, sistema
escolar, estado, regin, seccin del pas, etc.)
Cuando nos interesa limitar las
calificaciones de la prueba en una escuela en
particular, debemos convertir las
calificaciones brutas en normas locales por
medio de ciertos procedimientos
94
Normas de edad y
grado
Normas de edad
modal
Normas
de edad
mental
Norma de edad: es la calificacin

mediana que obtienen en una prueba, los
sujetos de una edad cronolgica
determinada. Se expresa en aos y 12
intervalos de un mes
Norma de grado: es la calificacin
mediana que obtienen los sujetos en el nivel
de un grado determinado. Se expresa en 10
intervalos de un mes.
Desventajas: el crecimiento en las
caractersticas cognoscitivas, psicomotrices y
afectivas no es uniforme en todo el rango de
edades y grados.
En realidad, las unidades de edad y de
grado se reducen progresivamente con el
aumento de edad o nivel de grado. Ya que
estas normas suponen de manera incorrecta,
que el ndice de aumento en las capacidades
sometidas a prueba es constante a travs de
los aos, no se apoya su uso
Para proporcionar un ndice ms preciso de
la calificacin promedio de los alumnos en
un nivel de grado determinado, las
calificaciones de los estudiantes que son
mucho mayores o menores que la edad
modal en ocasiones se omiten y la
calificacin mediana se calcula slo con base
en los alumnos que tienen la edad apropiada
para ese grado
La calificacin de la edad mental de un sujeto en particular

corresponde a la edad cronolgica del subgrupo de nios en el grupo
de estandarizacin cuya calificacin mediana en la prueba fue la
misma que la del sujeto
95
Cociente intelectual: se convierte la

norma de edad del sujeto en un cociente
dividiendo la calificacin de la edad mental
entre la edad cronolgica de la persona y
multiplicando el resultado por 100. En la
escala de Stanford-Binet se defini as:
Cocientes
Normas
percentiles
CI = 100 x EM / EC
Donde EM es la edad mental del sujeto y EC
es la edad cronolgica en meses
Cociente educativo: es la relacin de
la edad educativa (norma de edad en una
prueba de aprovechamiento educativa) con la
edad cronolgica en meses
Cociente de aprovechamiento: es la
relacin de la edad educativa con la edad
mental
Consisten en un cuadro de porcentajes que corresponden a las

calificaciones brutas particulares. Las calificaciones brutas se conocen como
percentiles y el porcentaje del grupo de normas que se encuentra debajo de
una calificacin en particular es el rango percentil de esa calificacin
Para muchos instrumentos psicomtricos se reportan cuadros de
normas percentiles en los grupos de grados, edades, sexo, ocupaciones y
otros
El problema de las unidades de calificaciones desiguales queda sin
resolver. Las unidades de rango percentilar no son iguales en todas las partes
de la escala. Los rangos percentilares son medidas de nivel ordinal en lugar
de nivel de intervalo. A pesar de que las diferencias numricas entre los
rangos son las mismas, el tamao de la unidad del rango percentilar se
vuelve cada vez menor hacia el centro de la escala. La tendencia que
presentan las unidades del rango percentilar a agruparse en el centro y
extenderse en los extremos de la escala provoca la dificultad en la
interpretacin de los cambios y diferencias en las normas percentiles. Por
ello, debemos recordar dar un mayor valor relativo a las diferencias del
rango percentilar en los extremos que aquellas que se encuentran hacia el
centro de la escala
96
Procedimientos para obtener los rangos percentiles

1
2
3
4
5
Intervalo Punto frecuencia
Frecuencia
Rango percentil
medio
acumulada
(del punto medio
debajo del
de un intervalo
punto
determinado)
medio
X
X
Para calcularla Puede calcularse
XX
al dividir la
X
X
para un
XX
intervalo en
frecuencia
X
XX
X
acumulada
X
X
particular, se
XX
X
X
suman todas las debajo del punto
XX
medio de un
frecuencias en
X
X
XX
intervalo entre el
todos los
X
X
XX
intervalos hasta nmero total de
X
X
XX
calificaciones (n)
ste, y a esta
X
X
XX
suma, se agrega y multiplicar el
X
X
XX
una mitad de la cociente
X
X
XX
resultante por
frecuencia de
X
X
XX
100
ese intervalo
X
X
XX
Representan las medidas en una escala
de intervalo. Son calificaciones convertidas
que tienen cualquier media y desviacin
estndar que se desee. Existen muchos tipos:
Normas de
calificacin
estndar
Calificaciones z: se determinan con la

frmula z = X M / s, donde: X = Una
calificacin bruta determinada, M = La media
aritmtica y s = La desviacin estndar
NOTA. Frmulas para calcular M y s:
M = fX / N y s = f (X M)2 / N
Donde N equivale al total de las calificaciones
que se consideren (frecuencia)
97
Al transformar la distribucin de las

calificaciones brutas en calificaciones z se obtiene
una nueva distribucin que tiene la misma forma,
pero una media y una desviacin estndar diferentes
a aquellas de la distribucin de las calificaciones
brutas. La media de las calificaciones z es 0 y la
desviacin estndar es 1.
Calificaciones Z: que las calificaciones z
puedan ser nmeros decimales negativos o positivos
crea cierta dificultad al manipular estas
calificaciones. Este problema se resuelve al
multiplicar las calificaciones z por una constante y
sumar otra constante a los productos. Si las
calificaciones z se multiplican por 10 y se suma a
los productos 50, se produce un nuevo conjunto de
calificaciones, las calificaciones Z, que tienen una
media de 50 y una desviacin estndar de 10.
Calificaciones CEEB: se obtienen al
multiplicar las calificaciones z correspondientes por
las medidas
una escala
100 y sumarRepresentan
500 al resultado;
de estaenmanera
se
de intervalo.
calificaciones
convertidas
produce,
una nuevaSon
distribucin
de calificaciones
que una
tienen
cualquier
desviacin
que tiene
media
de 500media
y unaydesviacin
estndar
que se desee. Existen muchos tipos:
estndar
de 100.
Calificaciones
z: (Prueba
se determinan
con la
Calificaciones
AGCT
de
frmula General
z=XM
s, donde:yXWechsler:
= Una
Clasificacin
del/ Ejrcito)
la
calificacin
= La media
primera,
tiene unabruta
mediadeterminada,
de 100 y unaMdesviacin
aritmtica
s = La
desviacin
estndar
de 20, yy con
la segunda,
lasestndar
calificaciones
brutas de las subpruebas se transformaron para
NOTA.
Frmulas
para
calcular
M y s: estndar
obtener
una media
de 10
y una
desviacin
2
fX / N y las
s =calificaciones
f (X M)totales
/ N de
de 3 yMse=convirtieron
DondedeNnormas
equivalepara
al total
las calificaciones
los grupos
quede
tuvieran
una media
que
se
consideren
(frecuencia)
aritmtica de 100 y una desviacin estndar de 15.
98
Para hacer que las calificaciones de pruebas

diferentes sean comparables ms directamente,
existe un procedimiento de transformacin que no
slo afecta la media y la desviacin estndar, sino
que tambin, cambia la forma de la distribucin de
las calificaciones brutas a una distribucin normal.
Calificaciones
estndar
normalizadas
(zn)
Escala
de
Estanina
La conversin de un grupo de calificaciones

brutas a Calificaciones estndar normalizadas
(zn) empieza con el clculo de los rangos percentiles
de las calificaciones brutas, continua con la
conversin de esos rangos percentilares en
proporciones; para finalmente, encontrar la
calificacin z que corresponde a cada uno de esos
rangos, a partir de una tabla de reas bajo la curva
normal.
A fin de eliminar los puntos decimales y
nmeros negativos, estas calificaciones zn se pueden
transformar a Calificaciones T por medio de la
frmula T = 10 zn + 50. La nueva distribucin
normal de las calificaciones T tiene una media
aritmtica de 50 y una desviacin estndar de 10.
Escala de calificaciones estndar normalizadas con una M de 5 y una

s de 2 (aproximadamente). Frmula: (2)(z) + 5.
Esta escala tiene 9 rangos que estn representados por los nmeros
del 1 al 9 y cierto porcentaje de personas se encuentra en el intervalo
representado por una estanina determinada; sin embargo, no es una
escala de calificaciones estndar real porque el 1 y el 9 valor son
abiertos. El ancho de las estaninas del 2 al 8 son iguales, indicando
unidades de calificacin estndar iguales, pero el 1 y el 9 son mucho ms
anchos que los dems. Una ventaja de esta propiedad es que representan
rangos en lugar de puntos especficos, lo cual, ayuda a combatir la
tendencia a considerar las calificaciones de las pruebas como medidas
exactas y sin variacin de las diferencias individuales.
99
1
Punto
medio
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
2
z
Procedimientos para obtener las dems calificaciones

3
4
5
Z
CEEB
zn
6
T
7
Estanina
(10)(z) + 50 (100)(z) + 500 1. Se calculan los (10)( zn) + 50 (2)(z) + 5

Rangos percentiles
Donde:
correspondientes a
X
los puntos medios
corresponde
de cada intervalo,
a una
2. Se convierten
determinada
los Rangos
calificacin
percentilares
bruta (en
resultantes a
este caso, al
proporciones,
punto
dividindolos entre
medio de
100
cada
3. Se busca la
intervalo)
calificacin z
correspondiente a
cada uno de los
rangos en una
tabla de reas bajo
la curva normal.
XM/s
100
EJERCICIO. Complete el cuadro con los datos que correspondan a los puntos
medios de cada uno de los intervalos, que agrupan las 30 calificaciones de la
siguiente distribucin de frecuencias:
Intervalo
de calif.
96 98
93 95
90 92
87 89
84 86
81 83
78 80
75 77
72 74
69 71
Frecuencia
acumulada
abajo del X
Rango
percentil
z Z CEEB
zn T Estanina
101
EJERCICIO RESUELTO
Rango
z
Z
percentil
Intervalo
de calif.
Frecuencia
acumulada
abajo del X
CEEB
zn
Estanina
96 98
97
29.5
98.33
1.98
69.8
698
2.13
71.3
8.96
93 95
94
28
93.33
1.52
65.2
652
1.50
65
8.04
90 92
91
25.5
85.00
1.07
60.7
607
1.04
60.4
7.14
87 89
88
21.5
71.67
0.61
56.1
561
0.57
55.7
6.22
84 86
85
16
53.33
0.15
51.5
515
0.08
50.8
5.3
81 83
82
11
36.67
- 0.30
47
470
- 0.34
46.6
4.4
78 80
79
23.33
- 0.76
42.4
424
- 0.73
42.7
3.48
75 77
76
13.33
-1.22
37.8
378
- 1.11
38.9
2.56
72 74
73
6.67
- 1.68
33.2
332
- 1.50
35
1.64
69 71
70
0.5
1.67
- 2.14
28.6
286
- 2.13
28.7
0.72
102
OPERACIONES RESUELTAS DEL CLCULO DE LA M PARA LA OBTENCIN DE z:
X
97
94
91
88
85
82
79
76
73
70
f
1
2
3
5
6
4
4
2
2
1
fx
97
188
273
440
510
328
316
152
146
70
= 2520
Clculo:
M = fx / N = 2520 / 30 = 84
103
OPERACIONES RESUELTAS DEL CLCULO DE LA s PARA LA OBTENCIN DE z:
X
97
94
91
88
85
82
79
76
73
70
X-M
13
10
7
4
1
-2
-5
-8
- 11
- 14
(X M)2
169
100
49
16
1
4
25
64
121
196
f(X M)2
169
200
147
s=
80
6
16
=
100
128
242
196
= 1284
Clculo:
f (X M)2 / N =
1284 / 30
42.8 = 6.54
104
USO DE LA TABLA DE REAS BAJO LA CURVA NORMAL

.00
.01
.02
.03
.04
.05
.06
.07
.08
0.0
0.1
0.2
0.3
0.4
15.54
0.5
0.6
0.7
0.8
0.9
1.0
1.1
1.2
1.3
1.4
1.5
1.6
.09
33.15
40.66
S z es igual a 0.4, 0.96, 1.32 y 1.6, los

porcentajes correspondientes a tales valores
dentro de la tabla de reas bajo la curva normal,
se encuentran en la interseccin entre la 1
columna a la izquierda y el 1 rengln de arriba;
en este caso, los porcentajes son 15.54 %, 33.15
%, 40.66 % y 44.52 %, respectivamente.
44.52
105
INSTRUCCIONES: Completa la siguiente tabla de calificaciones.
INTERVALO DE
CLASE
96-98
93-95
90-92
87-89
84-86
81-83
78-80
75-77
72-74
69-71
66-68
63-65
60-62
57-59
PUNTO
INTERMEDIO
FRECUENCIA
FRECUENCIA
ACUMULADA ABAJO DEL
PUNTO INTERMEDIO
RANGO
PERCENTILAR
Zn
CEEB
ESTATINA
1
1
20
36
78
160
122
90
84
68
28
10
4
2
106
INSTRUCCIONES: Completa la siguiente tabla de calificaciones.
RANGO PERCEN-TILAR
98.33
93.33
85.00
71.67
53.33
36.67
23.33
13.33
6.67
1.67
1.95
1.50
1.05
0.60
0.15
-0.30
-0.75
-1.20
-1.65
-2.10
Zn
CEEB
107
III. INSTRUCCIONES: Completa la siguiente tabla de calificaciones.
INTERVALO PUNTO FRECUENDE CLASE INTERCIA

MEDIO
96-98
93-95
90-92
87-89
84-86
81-83
78-80
75-77
72-74
69-71
66-68
63-65
60-62
57-59
FRECUENCIA
ACUMULADA
ABAJO DEL
PUNTO
INTERMEDIO
RANGO
PERCENTILAR
Zn
CEEB
ESTATINA
1
2
19
37
77
160
121
91
83
69
27
11
4
2
108
PRUEBAS DE APROVECHAMIENTO ESTANDARIZADAS
Los captulos del uno al cuatro tratan los antecedentes, metodologa y condicin
profesional de los tests psicolgicos y educativos. En las prximas dos secciones se
estudiarn las clases especificas de instrumentos cognoscitivos y afectivos, as como lo
que miden. Las pruebas de rendimiento, que en el Reino Unido se conocen como
pruebas de logro, se analizan en este captulo. Los captulos seis y siete se ocupan de
otros instrumentos cognoscitivos, tests de inteligencia general y capacidades especiales.
La evaluacin afectiva, incluyendo las medidas de inters, actitud, valor y personalidad
se analizan en los captulos nueve y diez.
LAS PRUEBAS DE APROVECHAMIENTO EN PERSPECTIVA
Las pruebas de aprovechamiento, que se definen como el nivel de conocimientos,
habilidad o logro en un rea de desempeo, son las ms populares de todas las clases de
pruebas. Si consideramos todas las pruebas que se aplican en el saln de clases y que
elaboran los profesores, as como las pruebas estandarizadas que se venden a las
escuelas y otras organizaciones, la cantidad de pruebas de logro aplicadas sobrepasa con
facilidad los otros tipos de medidas psicolgicas y educativas. La mayor parte de las
pruebas de logro estandarizadas se ocupan de reas de lectura y el lenguaje, aunque
cada ao tambin se invierten millones de dlares en pruebas de matemticas, ciencias
sociales y otras materias.
Cualquier prueba de habilidad (inteligencia general, capacidades especiales o
rendimiento) en realidad mide aquello que logran los individuos. Los reactivos en las
pruebas de inteligencia y capacidades especiales, al igual que los de pruebas de
aprovechamiento, requieren que los sujetos demuestren ciertos logros. Las
calificaciones obtenidas en las pruebas de aprovechamiento tambin pueden utilizarse
para muchos de los mismos propsitos que aquellas obtenidas en pruebas de
capacidades generales o especificas. Estos propsitos incluyen no slo la evaluacin
global y de diagnostico de capacidades individuales, sino tambin la evaluacin de
efectividad en la enseanza o de un programa educativo especifico. Por ltimo, las
pruebas de aprovechamiento con frecuencia son mejores indicadores de las notas
escolares que las pruebas de inteligencia o capacidades especiales. Sin embargo, esto no
significa que las pruebas de aprovechamiento en una materia especfica puedan
reemplazar por completo a las pruebas de inteligencia o capacidades especiales. Los
logros que miden las pruebas de inteligencia general casi siempre son ms amplios y se
producen por experiencias de aprendizaje menos formales y supuestamente menos
recientes que aqullos que miden las pruebas de aprovechamiento estandarizadas. Por lo
regular, las pruebas de aprovechamiento evalan el conocimiento sobre algo que se
enseo de manera explicita. Como consecuencia, las calificaciones obtenidas en estas
pruebas tienden a estar influidas ms por la preparacin que las calificaciones de las
pruebas de inteligencia.
Tambin puede hacerse una distincin entre las pruebas de aprovechamiento y las de
inteligencia y capacidades especiales en trminos del nfasis que poseen.
109
Las pruebas de aprovechamiento se concentran ms en el presente, es decir, en lo que la

persona sabe o puede realizar en este momento; mientras que las pruebas de inteligencia
y capacidades especiales centran la atencin en el futuro. Miden la aptitud para el
aprendizaje, lo que una persona debe poder lograr con mayor educacin o capacitacin.
Panorama histrico
Aunque la primera vez que se utilizaron las pruebas escritas con propsitos educativos
fue en Cambridge, Inglaterra, en 1702, no fue sino hasta 1845 cuando esas pruebas se
aplicaron a gran escala en Estados Unidos, la cantidad de estudiantes haba aumentado
en forma considerable para la aplicacin peridica de exmenes orales, hasta la ltima
mitad del siglo XIX, este tipo de pruebas constitua el principal mtodo utilizado para
evaluar el aprovechamiento de los alumnos en ese pas. A mediados del siglo XIX, el
educador de Boston Horace Mann argument en forma persuasiva que los exmenes
escritos, que se aplicaban y calificaban en condiciones uniformes, eran medidas de
aprovechamiento ms vlidas que los exmenes orales. Con la influencia de Mann, las
escuelas de la ciudad de Boston empezaron a aplicar pruebas escritas a los alumnos cada
ao. Se esperaba que en esta prctica ayudara a determinar la condicin, mejoramiento
o deterioro de nuestras escuelas (Fish 1941, pgina23). A pesar de los esfuerzos de
Horace Mann y otros educadores, durante muchos aos, los exmenes escritos los
reemplazaron en forma gradual.
La primera prueba objetiva de aprovechamiento que pudo calificarse de manera
confiable, fue una escala de caligrafa que elabor en 1864 George Fisher, un ingls.
Veinticinco aos despus, J. M. Rice (1897) dio otro paso importante, al inventar la
prueba comparativa y convertirse as en el padre de la investigacin educativa en
Estados Unidos (Ross y Stanley, 1954, pgina 38). Las primeras pruebas de Rice fueron
pruebas objetivas de ortografa que se disearon para el estudio clsico de las
capacidades de ortografa por parte de los nios en las escuelas. Las investigaciones con
estas pruebas revelaron poca relacin entre la cantidad de tiempo invertido todo los das
en ejercicios de ortografa con 50 palabras a 33,000 nios llevaron a Rice a la
conclusin de que, en ortografa, se aprenda los mismo en 15 que en 40 minutos de
enseanza diaria. En estudios posteriores, Rice evalu las capacidades del lenguaje de
8,000 nios y los logros en aritmtica de 6,000 nios.
E.L. Thorndike y otros psiclogos educativos se basaron en los fundamentos de Rice,
cuyo trabajo por lo general se considera precursor de las pruebas de aprovechamiento
estandarizadas.
Bajo la direccin de Thorndike, a quien se considera el padre del movimiento de
pruebas educativas (Ross y Stanley, 1954, pgina 39), varias pruebas de
aprovechamiento estandarizadas se publicaron durante los primeros aos del siglo xx.
stas incluan la Prueba de Aritmtica para las Operaciones Fundamentales y la Prueba
del Razonamiento Aritmtico de C.L. Stone en 1908, la serie de Pruebas Aritmticas de
110
S.A. Courtis en 1909 y la escala de Caligrafa para nios de Thorndike en el mismo ao.
Las demostraciones de falta de confiabilidad de las calificaciones que asignaban los
maestros, incluso en las materias ms exactas como las matemticas (Starcha y Elliot),
1913), llevaron a un aumento del inters por las pruebas estandarizadas objetivas. Para
fines de la dcada de los 20, estaban disponibles numerosas pruebas de
aprovechamiento estandarizadas, incluyendo las bateras de medicin como la Prueba
de Aprovechamiento de Stanford (1923) para los alumnos de primaria y el Examen de
Contenido de la Iowa High School (1924). El nuevo formato de opcin mltiple, junto
con la invencin de las mquinas de calificacin automatizada, llevaron a un rpido
incremento en el uso de las pruebas estandarizadas para evaluar el aprovechamiento de
los alumnos.
En el lugar de estar motivado slo por las preocupaciones educativas y cientficas, el
crecimiento de la aplicacin de pruebas de aprovechamiento en Estados Unidos se
atribuye en parte al hecho de que ambos puntos de vista, el educativo y el cientfico en
un debate poltico sobre las escuelas pblicas encontraron que el propsito y los
resultados de las pruebas eran tiles para sus argumentos (Levine, 1976). Como puede
verse en la ponencia sobre los exmenes de aprovechamiento estandarizados en todo el
pas por parte del presidente George Bush, incluso en la actualidad la aplicacin de
pruebas estandarizadas, en las escuelas, sigue teniendo implicaciones polticas
significativas.
A pesar del paso del tiempo y de cientos de estudios de investigacin, nunca se ha
establecido por completo el aspecto de los meritos relativos de las pruebas de ensayo y
objetivas. De hecho, con frecuencia escuchamos el planteamiento de que los maestros se
han excedido en el uso de pruebas objetivas en detrimento de las habilidades de
composicin por parte de los alumnos. No obstante, est claro que las pruebas objetivas
que se disean con detenimiento pueden medir no slo la memoria para los hechos,
sino adems muchos de los objetivos de la educacin ms compleja que antes, se crea,
que se evaluaban slo mediante exmenes de ensayo. En aos recientes, ha existido una
tendencia muy marcada por las pruebas que miden objetivos de enseanza de orden ms
elevado, como aplicacin, anlisis y evaluacin. Otra tendencia ha sido alejarse de las
pruebas de aprovechamiento estandarizadas que tratan de evaluar los objetivos
educativos amplios y acercarse a las pruebas que estn diseadas en forma especfica
para libros de texto y programas de enseanza particulares. Por ltimo, como respuesta
a las crticas que afirman que las pruebas objetivas fomentan malos hbitos de escritura
y autoexpresin, en la actualidad se da ms importancia a las pruebas de ensayo
estandarizadas de expresin escrita.
Usos de las pruebas de aprovechamiento
La funcin bsica de las pruebas de aprovechamiento es determinar cunto sabe una
persona sobre cierto tema o qu tan bien pueden poner en prctica determinadas
habilidades. Los resultados de las pruebas de aprovechamiento informan a los alumnos,
a padres y maestros, acerca de los logros y deficiencias acadmicas de los estudiantes.
Esas pruebas tambin pueden motivas a los alumnos para que aprendan, proporcione a
los maestros y personal. Como es obvio, las calificaciones obtenidas en las pruebas
111
educativas no constituyen el nico medio para evaluar la afectividad de la enseanza,

pero s ofrecen una medida de la calidad de la educacin y, de esa forma, contribuyen
con su mejoramiento.
En realidad, las pruebas de aprovechamiento no evalan todos los objetivos o metas que
proponen los filsofos educativos. Por ejemplo, no miden en forma directa variables
efectivas como el placer y la confianza en el pensamiento, el inters por la materia
educativa, el placer de poner en prctica las habilidades, la diversin que proporciona la
lectura, aprender a aprender y manejar el cambio o el desarrollo de las habilidades
sociales e interpersonales, sin embargo, lo que estas pruebas pueden medir y con una
precisin mucho mayor que las calificaciones por parte de los maestros u otros juicios
subjetivos, es el grado en el cual los sujetos han logrado ciertos objetivos cognoscitivos
de enseanza (Levine.1976).
Pruebas elaboradas por maestros y estandarizadas. Las funciones de las pruebas de
aprovechamiento descritas en los prrafos anteriores se adjudican tanto a las pruebas
que se aplican en el saln de clases y que preparan los maestros como a las
estandarizadas que elaboran los profesionales en medidas educativas. Pero las pruebas
que crean los profesores difieren de las estandarizadas en ciertos aspectos importantes.
Una prueba elaborada por un maestro es ms especfica, para un profesor, grupo unidad
de estudios particulares y es mas fcil mantenerla al da, como consecuencia, las
pruebas que elaboran los maestros es mas probable que reflejen los objetivos
educativos actuales de una escuela o profesor. Por otra parte las pruebas estandarizadas
se elaboran alrededor de un ncleo de objetivos educativos comunes para muchas
escuelas distintas. Estos objetivos representan elaboracin de pruebas y en el desarrollo
de stas. Las pruebas de aprovechamiento estandarizadas tambin se concentran ms en
los procesos de comprensin y pensamiento que en el conocimiento sobre reas
especificas. De manera clara, las pruebas elaboradas por los maestros y las
estandarizadas se complementan entre s en lugar de remplazarse. Miden aspectos
diferentes pero igualmente importantes y , dependiendo de los objetivos del grupo o
escuela en particular, ambas clases de pruebas deben emplearse. Cuando una prueba
estandarizada determinada no evala los objetivos educativos de un sistema escolar en
especial, deben tomarse en cuenta otras pruebas estandarizadas e incluso algunas
elaboradas por los maestros.
Adems de estar elaboradas con mayor detenimiento y tener un contenido con
cobertura ms amplia que las pruebas elaboradas por los maestros, las pruebas de
aprovechamiento estandarizadas son en particular tiles para comparar a los alumnos de
manera individual con propsitos de ubicacin en los grupos y de evaluacin de los
distintos planes de estudio por medio de la evaluacin de los logros relativos de
diversos grupos o escuelas. Tanto las pruebas elaboradas por maestros como las
estandarizadas pueden cumplir con la funcin de diagnostico de una prueba, en la que se
determinan las capacidades e incapacidades de una persona en cierta materia o rea,
aunque las pruebas estandarizadas son de alguna de manera mas efectiva para este
propsito. Las decisiones con respecto de la individualizacin de la enseanza, la
ubicacin en niveles de enseanza particulares y la enseanza teraputica por lo regular
tambin se toman con base en las calificaciones obtenidas en las pruebas estandarizadas
ms que en aquellas que elaboran los maestros.
112
Responsabilidad y contrato del desempeo. Las calificaciones de las pruebas se

utilizan no slo para evaluar el desempeo de los alumnos, sino tambin para evaluar a
los profesores y escuelas.
La responsabilidad, o hacer que los maestros se responsabilicen del grado de xito que
tienen al ensear a los alumnos, ha sido un tema que ha provocado controversias en la
educacin durante varios aos. Cuando los alumnos pueden lograr los objetivos de
enseanza, se debe premiar a los maestros, a quienes por lo regular no se le permite
elegir a sus alumnos sino que deben tratar de educar a cualquier persona que se les
asigne, y est bien castigarlos cuando los objetivos no se alcanzan? Como resultado de
la preocupacin, cada vez mayor, por parte de pblico porque las escuelas no realizan
un trabajo adecuado al educar a ciertos estudiantes, en aos recientes se ha prestado
especial atencin a la responsabilidad por la efectividad de la enseanza. En muchos
sistemas escolares, se han hecho esfuerzos por especificar el grado de competitividad
que deben alcanzar los alumnos a fin de completar un grado determinado, curso de
estudio o graduarse de la educacin superior, As, la evaluacin de la efectividad de la
enseanza est basada en el logro de esta competitividad.
La responsabilidad y la enseanza con base en la competitividad se relacionan con el
contrato del desempeo, es decir, hacer que lo salarios de los profesores se establezcan
de acuerdo con el grado de xito que tengan al educar a los estudiantes. Si las pruebas
van utilizarse como medio para determinar el grado en el cual un maestro cumple con su
contrato para ensear el material del curso a los alumnos, pueden aplicarse las mismas
pruebas al principio y al final del curso. Como consecuencia, cuanto mayores sean los
avances en el aprovechamiento de los alumnos entre una y otra prueba, el salario del
maestro ser ms alto.
Cuando se combinan con otras medidas del desempeo, las calificaciones de las pruebas
de aprovechamiento pueden y deben contribuir en las decisiones con respecto de la
responsabilidad. Sin embargo, tienen limitaciones bien definidas cuando se utilizan con
este propsito. Una limitacin estadstica importante es que la confiabilidad de las
diferencias entre las calificaciones de ambas pruebas es menor que aquella de las
calificaciones en las pruebas.
Evaluacin sumativa y formativa. La prctica tradicional requiere de la aplicacin de
una prueba de aprovechamiento al final de una unidad o curso de estudio para
determinar si los alumnos alcanzaron los objetivos de enseanza. Tcnicamente, este
procedimiento se conoce como evaluacin sumativa: la calificacin de una prueba se
considera el producto final, o suma, de extensas unidades de experiencias educativa. En
contraste con la evaluacin sumativa, la necesidad de una evaluacin formativa es una
consecuencia de la creencia de que los procesos de enseanza y evaluacin deben estar
integrados. El propsito de la evaluacin formativa es ayudar tanto al alumno como al
profesor a concentrarse en el aprendizaje particular necesario para avanzar hacia el
dominio (Bloom, Hastings y Madaus. 1971, pgina61). Cuando la evaluacin es
113
formativa, las pruebas y otros mtodos de evaluacin del progreso educativo ocurren de
manera continua durante el proceso de enseanza.
Un resultado directo del concepto de evaluacin formativa es el desarrollo de unidades
de enseanza que incluyen pruebas como parte integral y contina de la enseanza, y no
como una culminacin del proceso. En la prctica, el desempeo del alumno se observa
de manera continua durante el proceso de aprendizaje y puede servir como gua para el
estudio y el aprendizaje posterior.
Medidas con referencia a normas y criterios. Por tradicin, las medidas educativas
no slo han sido de suma; sino que adems han sido con referencias a normas ms que a
criterios. Como se describi en el capitulo cuatro, la calificacin que una persona
obtiene en una prueba con referencias a normas se interpreta al compararlas con la
distribucin de las calificaciones obtenidas de algn grupo de norma (estandarizacin).
Pero la calificacin que obtiene una persona en una prueba con referencias a criterios se
interpreta al compararla con un estndar o criterio de desempeo efectivo ya
establecido. Este estndar puede derivarse del consenso de personas que se ocupan de la
educacin: trminos de su contenido, las pruebas con referencia a criterios se interpreta
al compararla con un estndar o criterio de desempeo efectivo ya establecido. Este
estndar puede derivarse del consenso de personas que se ocupan de la educacin:
maestros y personal administrativo de las escuelas, padres, expertos en medicin y
polticos. En trminos de su contenido, las pruebas con referencias a normas por lo
regular son ms amplias y comprenden tareas ms complejas que las pruebas con
referencias a criterios. Como consecuencia, el rango de diferencias individuales en las
calificaciones obtenidas en una prueba con referencias a normas tiende a ser mayor que
aquel que presentan las pruebas con referencias a criterios.
A pesar de las diferencias en el propsito y diseo de pruebas con referencias a normas
y criterios, una prueba de aprovechamiento en particular puede funcionar como
instrumento con referencias a normas y criterios. La cantidad de material que ha
aprendido un alumno (funcin con referencias a criterios) y la manera en que su
desempeo se compara con el de otros estudiantes (funcin con referencias a normas)
con frecuencia pueden determinarse con la misma prueba (Carver, 1974).
Entre las muchas pruebas con referencias a criterios para una sola materia que se
encuentran disponibles en el mercado estn la Prueba de Lectura para el Diagnostico de
California y la Prueba de Matemticas para el Diagnostico de California (ambas de
CTB/ Macmillan/McGraw-Hill).
Tambin pueden compararse bateras de pruebas con referencias a criterios, como la
Serie de Estudios Nacionales de Aprovechamiento y La Prueba de Alfabetismo Cultural
(de Riverside Publishing Company). Otro producto que ofrecen ciertas compaas que
se dedican a las pruebas son las pruebas de una sola materia combinadas con estrategias
de enseanza apropiadas para sta. Algunos ejemplos son las pruebas de Matemticas
CRC y de la Lectura CRC (De The Psychological Corporatio). Varias compaas
tambin preparan pruebas con referencias a criterios en varias materias. Estas pruebas
114
con especificaciones poseen la ventaja de estar diseadas para los objetivos de un

sistema escolar particular, pero tambin presentan varias desventajas. Adems del
problema de decidir sobre una calificacin aceptable para aprobar o tener un nivel de
dominio en cada prueba, la necesidad de gran cantidad de subpruebas para medir
distintos objetivos educativos requiere que cada prueba sea relativamente corta y, por
tanto, su confiablidad es bastante baja. Adems, no se ha resuelto del todo el problema
de la forma en que deben determinarse la confiablidad y validez de las diferentes
subpruebas y de la prueba general.
La Evaluacin Nacional del Progreso Educativo. Un planteamiento de referencias a
criterios gua a la Evaluacin Nacional del Progreso Educativo (NAEP), un estudio
continuo que se realiza en todo el pas sobre el conocimiento, habilidades, comprensin
y actitudes de los jvenes estadounidenses. La NAEP, que en la actualidad est
financiada por el Instituto Nacional de Educacin y est basado en el Servicio de
Pruebas Educativas de Princeton, Nueva Jersey, comprende la evaluacin peridica de
extensas muestras de personas en cuatro grupos de edad (9, 13, 17, y 25 a 35 aos) en
10 reas (arte, desarrollo profesional y ocupacional, civismo, literatura, matemticas,
msica, lectura, ciencias, ciencias sociales y escritura). Dos o tres materias se evalan
en un ao determinado y se vuelven a evaluar en un ciclo de 3 a 6 aos.
La NAEP emplea un procedimiento de muestreo aleatorio estratificado al seleccionar a
los sujetos: determinado nmero de personas del mismo sexo, nivel socioeducativo y
raza se elige de manera aleatoria de cuatro regiones geogrficas y cuatro tipos de
comunidades. A pesar de que se formulan gran cantidad de preguntas con respecto de
cada tema, el procedimiento de muestreo, tanto de los sujetos como de los reactivos,
hace que slo sea necesario un periodo relativamente corto de prueba (50 minutos) para
cada persona. Los adultos se evalan en forma individual y los jvenes se evalan tanto
de manera individual como en grupo. Ya que los resultados se expresan en trminos de
porcentajes de porcentajes de personas en cada nivel, que poseen ciertos conocimientos
y habilidades, los nombres de esas personas no aparecen en las pruebas.
La Evaluacin Nacional se plane como un programa continuo para proporcionar al
pblico estadounidense, en especial a legisladores y educadores, informacin sobre la
condicin y el crecimiento de los logros educativos en Estados Unidos (La Boleta de
Calificaciones del Pas), as como el grado en el cual se alcanzan los objetivos
educativos de toda la nacin. Estos estudios no se disearon, como algunas personas
temen, para evaluar los logros de escuelas o distritos escolares especficos ni como un
medio de control federal para los planes de estudio de las escuelas pblicas.
Sin embargo, los descubrimientos se analizan por rea geogrfica, tamao y tipo de
comunidad, sexo, educacin de los padres y raza. Los anlisis de los efectos del apoyo
federal y de os tipos especficos de programa sobre el aprovechamiento educativo son
de especial inters.
115
Tipos de pruebas de aprovechamiento estandarizadas.

Existen cuatro tipos generales de pruebas de aprovechamiento estandarizadas: batera de
pruebas de estudio, pruebas de estudio en materias especficas, pruebas de diagnstico y
pruebas de pronstico. Algunas de stas estn diseadas para aplicarse individualmente
a una persona a la vez, pero a la gran mayora son pruebas de grupo. El mercado para
las pruebas altamente especializadas en un rea particular es ms bien limitado, de
modo que por lo regular las pruebas de aprovechamiento estandarizadas cubren reas de
contenido amplias y se ocupan de aspectos de conocimiento general. Ya que el plan de
estudios se vuelve ms especializado en los niveles de grados superiores, la aplicacin
de pruebas de aprovechamiento estandarizadas es menos comn despus de la
secundaria.
Bateras de pruebas de estudio. La forma ms apropiada de evaluar el
aprovechamiento es con la aplicacin de una batera de pruebas de estudio, un grupo de
pruebas sobre una materia diseado para niveles de grados particulares. El propsito
principal de la aplicacin de una batera de pruebas es determinar la posicin general de
un individuo dentro de un grupo, en lugar de sus fortalezas y debilidades especficas.
Como consecuencia, cada prueba en una batera de estudio contiene una muestra
bastante limitada del contenido y las habilidades en cierta materia. Ya que las distintas
pruebas en una batera se estandarizan con base en el mismo grupo de sujetos y las
calificaciones se expresan en la misma escala numrica, el desempeo de una persona
en diversas materias puede compararse de manera directa.
A pesar de que proporcionan una evaluacin ms adecuada del aprovechamiento del
alumno que las pruebas sencillas, la batera de pruebas se presenta varias desventajas. A
pesar de que el tiempo de aplicacin es ms prolongado, las pruebas que forman una
batera son ms breves que las pruebas de estudio sencillas y, por tanto, tienden a
presentar una confiabilidad menor. Desde luego, no es necesario aplicar todas las
pruebas en una batera a un grupo determinado de alumnos; el examinador puede elegir
cualquier prueba que produzca informacin relevante con respecto de los objetivos de
evaluacin.
Pruebas de estudio sencillas. Adems de las pruebas individuales sobre una materia, el
examinador puede elegir varias pruebas sencillas. Estas pruebas de estudio por lo
general son ms extensas y detalladas que las de una batera y, por tanto, permiten una
evaluacin ms profunda del aprovechamiento en un rea especfica. Sin embargo, las
pruebas de estudio sencillas casi siempre producen una sola calificacin general y quiz
un par de subcalificaciones y no determinan las causas especficas del bajo o alto
desempeo en la materia. Debido a que existe mayor uniformidad entre las distintas
escuelas con respecto de la enseanza de la lectura y las matemticas que en otras
materias, las pruebas estandarizadas en estas dos reas tienden a ser ms vlidas que,
por ejemplo, las pruebas de estudio en ciencias y ciencias sociales.
Pruebas de diagnstico. Ciertas pruebas tienen la funcin de diagnostico para
identificar dificultades especificas en el aprendizaje de una materia. Para elaborar una
prueba de diagnostico en una habilidad bsica como lectura, aritmtica u ortografa, es
preciso analizar el desempeo en la materia como un todo en subhabilidades y despus
grupos de reactivos diseados para medir el desempeo en estas subhabilidades. A
116
diferencia de las pruebas de estudio, que se concentran en las calificaciones totales, las
pruebas de diagnostico producen calificaciones en cada una de varias subhabilidades.
Debido a que las diferencias entre las calificaciones obtenidas en diversas partes de la
prueba se interpretan al realizar el diagnostico, la cantidad de reactivos para medir una
subhabilidades en particular debe ser suficiente (10 o ms) para asegurar que las
diferencias entre las calificaciones de las partes sean confiables. Por desgracia, la
cantidad de reactivos que forman las calificaciones de las partes con frecuencia es
reducida y estas calificaciones se correlacionan entre s, dando como resultado distintas
calificaciones con una confiabilidad baja.
La mayor parte de las pruebas de diagnostico se aplican en el rea de la lectura, pero se
han diseado pruebas de diagnostico para matemticas y ortografa. Una prueba de
diagnostico contiene mayor variedad de reactivos y por lo regular su aplicacin toma
ms tiempo que las pruebas de estudio en la misma materia. Tambin puede
comprender varios aparatos, como un taquistoscopio para exponer el material de lectura
slo durante un periodo de tiempo breve y una cmara de movimientos oculares para
rastrear la direccin en la cual se mueven los ojos al leer.
La aplicacin de una batera de pruebas de estudio es el primer paso lgico en un
programa de pruebas porque proporciona un panorama general de la posicin del sujeto
en las distintas materias. Si se necesita una segunda evaluacin del aprovechamiento de
una persona en un rea en particular, puede aplicarse una prueba sencilla en esa materia.
Por ltimo, si se desea realizar un anlisis detallado de la incapacidad de un individuo
en lectura o matemticas y determinar las causas de sta, debe aplicarse una prueba de
diagnstico.
Pruebas de pronstico. Las pruebas de pronstico, que estn diseadas para predecir el
aprovechamiento en las materias escolares especficas, contienen una variedad ms
amplia de reactivos que las pruebas de logro de estudio en la misma materia. Son
similares a las pruebas de aptitud en su funcin como indicadores del aprovechamiento
posterior. Por ejemplo, el propsito de una prueba de preparacin para la lectura que se
aplica a un alumno de jardn de nios o de primer grado es predecir si el nio esta
preparado para aprovechar la enseanza de la lectura. En un grado ms alto, las pruebas
de pronstico en matemticas (lgebra, geometra) e idioma extranjeros esta diseada
para predecir la facilidad para el aprendizaje de esas materias.
Seleccin de una prueba de aprovechamiento estandarizada.
Al igual que la elaboracin de una prueba de aprovechamiento aplicable en saln de
clases, la seleccin de una prueba de logro estandarizada bsicamente es una cuestin de
encontrar una prueba que tenga la dificultad apropiada y un contenido que vaya de
acuerdo con los objetivos de enseanza de la organizacin, grupo, escuela o sistema
escolar en particular. Esto significa que el nivel de conocimiento o capacidad de los
sujetos y el contenido y objetivos del plan de estudios deben determinarse antes de
decidir qu prueba(s) aplicar, Adems, deben tomarse en cuenta las razones que se
tienen para someter a prueba y la forma en que van a utilizarse las calificaciones; no
tiene mucho sentido aplicar una prueba por el solo hecho de parecer adecuada y
despus archivar los resultados intiles en un cajn.
117
Propsitos y consideraciones prcticas. Con frecuencia, el manual que viene con la

prueba explica con detalle sus posibles usos (evaluacin del alumno, ubicacin,
diagnstico de incapacidades para el aprendizaje, preparacin para aprender, evaluacin
del plan de estudios) y hace referencia a las evidencias de apoyo. Como consecuencia,
antes de elegir una prueba, deben estar claras las formas especficas en que van a
utilizarse las calificaciones y es necesario consultar los manuales para determinar cules
son las pruebas apropiadas para el propsito. Adems de leer el manual, los
compradores deben analizar una copia de la prueba e incluso resolverla a fin de
determinar si es adecuada para el uso que se le va a dar. La mayor parte de las
compaas que se dedican a la elaboracin de pruebas editan muestras de stas que
consisten en un folleto de prueba, una hoja de respuestas, un manual, una clave para la
calificacin y otros materiales relacionados; tambin pueden pedirse catlogos de
pruebas. Estos materiales son valiosos al tomar las decisiones sobre las pruebas que van
a aplicarse.
Otra consideracin al seleccionar una prueba es el grado de cooperacin que puede
esperarse por parte del personal de la escuela al aplicarla e interpretar los resultados.
Tambin son importantes los aspectos prcticos como costo y tiempo de aplicacin,
calificacin y anlisis de los resultados. Los servicios de calificacin por medio de una
mquina que ofrecen las empresas dedicadas a las pruebas, facilitan en gran medida la
calificacin y los procesos de anlisis y, por lo general, tienen precios muy razonables.
Adems de las pruebas de diagnostico en materias especificas como lectura y
matemticas, ciertas pruebas de estudio o globales que se aplican de manera
individual se utilizan para el diagnostico educativo en lectura, matemticas y ortografa.
Algunos ejemplos son la Prueba de Kaufman de Logros Educativos y la Prueba de logro
Individual de Peabody, Revisada ambas publicadas por American Guidance Service.
An ms global en sus objetivos de diagnostico es la batera Psicoeducativa de
woodcock-Johnson,(Teaching Resoources Corporation, 50 Pond Rd., Hingham, MA
02043), una batera de habilidades mltiples que se aplica individualmente diseada
para evaluar la capacidad cognoscitiva, aptitud acadmica, aprovechamiento acadmico
e inters de personas de 3 a 80 aos de edad.
Confiabilidad, validez y normas. Aunque con frecuencia no se toman en cuenta al
seleccionar una prueba, las caractersticas estadsticas de sta son muy importantes. La
confiabilidad de la mayor parte de las pruebas de aprovechamiento se encuentran entre
.80 y .90, pero el significado de estos coeficientes elevados depende de los
procedimientos por medio de los cuales se obtienen. Un coeficiente de formas paralelas
es preferible que un coeficiente test-retest o de consistencia interna porque es probable
que estos ltimos sean demasiado altos. Cuando una prueba de aprovechamiento se
aplica con el propsito de predecir un logro posterior, como en el caso de una prueba de
preparacin o de pronstico, es importante la evidencia con respecto de su validez del
contenido casi siempre tiene mayor contenido con los objetivos del programa de
enseanza. Un manual de prueba preparado adecuadamente describe el sistema para
118
clasificar el contenido y los objetivos conductuales utilizados en la elaboracin de la

prueba y los compradores deben decidir si estos objetivos corresponden a los suyos.
Otra caracterstica estadstica que se debe analizarse al seleccionar cualquier prueba es
si las normalmente se estandarizan con base en muestras representativas nacionales, en
ocasiones se estratifican de acuerdo con la edad, sexo regin geogrfica, nivel
socioeconmico y otras variables relevantes.
Los compradores de pruebas que planean reportar calificaciones en trminos de estas
normas deben asegurar que las caractersticas del grupo de norma sean similares a
aquellas de los estudiantes que van a presentar la prueba. Para los propsitos de
ubicacin y otras comparaciones en una escuela o sistema escolar determinados, las
normas locales pueden ser an ms importantes que las nacionales.
Los usuarios de las pruebas necesitan comprender que, al delinear el avance acadmico
de un estudiante por medio de calificaciones de normas en una prueba de
aprovechamiento estandarizada que se aplica en grados sucesivos, supone que los
grupos con diferentes niveles sobre los cuales se estandariz la prueba son
equivalentes. Si hay alguna razn para creer que existen diferencias significativas entre
los grupos de normas en las variables, aparte de aquellas relacionadas con el
crecimiento, entonces las calificaciones de normas, de rangos de percentilares y
estndar que un alumno obtiene en una prueba no pueden compararse con los distintos
grados.
Otra advertencia para la adquisicin de pruebas es ser precavido al seleccionar una
prueba de acuerdo con su nombre. Los usuarios de pruebas que tienen experiencia estn
conscientes de que es un error suponer que los instrumentos con el mismo nombre
miden lo mismo y que aquellos que tienen nombres diferentes miden reas distintas.
Antes de decidir qu pruebas de aprovechamiento deben comprar, tanto los
examinadores novatos como experimentos deben consultar los volmenes de Then
Mental Measurements Yearbook y las revisiones de las pruebas en las publicaciones
profesionales.
BATERAS DE PRUEBAS DE APROVECHAMIENTO
Las bateras de pruebas de aprovechamiento, que en ocasiones se conocen como
pruebas de desarrollo educativo general (GED), representan los esfuerzos por medir las
amplias habilidades y capacidades cognoscitivas producidas mediante experiencias
educativas bsicas en las reas principales. Estas bateras de pruebas de niveles
mltiples evalan las habilidades bsicas en lectura, matemticas, lenguaje, en niveles
de grado apropiados, en las habilidades para el estudio, ciencias sociales y ciencia. Una
batera de pruebas llamada Pruebas de Desarrollo Educativo General (GED), publicada
por el American Council on Education, se diseo para medir los logros educativos de
personas graduadas en la escuela de educacin superior. Muchas universidades y
organizaciones de negocios, as como las fuerzas armadas estadounidenses, aceptan a
119
aquellas personas que obtienen calificaciones suficientes altas en estas pruebas de

diploma de equivalencia general basndose en lo mismo que para aceptar a los
graduados de educacin superior.
Los programas de pruebas de muchas escuelas se basan en bateras de pruebas de
aprovechamiento aplicadas durante el otoo o la primavera a los alumnos de escuelas,
con el propsito de medir el crecimiento y los logros educativos generales. Esas pruebas
tienen muchos usos diferentes: agrupacin (ubicacin), identificacin de los individuos
para estudios ms detallados, evaluacin del plan de estudios y planeacin de ste
ltimo. Los resultados de las pruebas son interesantes para los maestros, padres,
consejeros en planes de estudio y, desde luego, para los mimos alumnos. Una limitacin
del planteamiento de las bateras es que algunas de las pruebas no corresponden con los
objetivos particulares de la escuela o el sistema escolar. Adems, no todas las pruebas
en una batera tienen confiabilidad ni validez de contenido iguales.
Normas de bateras
Las distintas pruebas que constituyen el nivel particular de una batera de pruebas de
aprovechamiento de estandarizan en forma simultnea con base en el mismo grupo de
sujetos. Como consecuencia, el conjunto de normas unificado que resulta permite una
evaluacin directa del aprovechamiento relativo de un sujeto en varias reas. Ya que los
diversos niveles de grado de una batera de pruebas se estandarizan con base en grupos
comparables de sujetos, el crecimiento acadmico de los estudiantes puede diagramarse
al comparar las calificaciones obtenidas en las pruebas durante un periodo de varios
aos; sin embargo, esto no se debe hacer si existe alguna duda sobre la equivalencia o
capacidad de comparacin de las distintas muestras de nivel de los estudiantes con base
en los que Se estandariz la batera de pruebas. Adems, las normas con las cuales se
comparan las calificaciones de los alumnos deben obtenerse de la aplicacin de la(s) al
grupo de estandarizacin durante la misma poca del ao (otoo o primavera) que a los
alumnos cuyas calificaciones se evalan.
Contenido de las bateras de pruebas de aprovechamiento
Nivel de escuela primaria. Debido a la mayor uniformidad de contenido de la enseanza
en la escuela primaria, las bateras de pruebas de aprovechamiento se aplican con ms
frecuencia en este nivel. Una batera de escuela primaria consiste en subpruebas para
medir vocabulario de lectura de compresin, uso del lenguaje, ortografa, bases de
aritmtica y comprensin de aritmtica. Tambin pueden incluirse subpruebas para
medir las habilidades para el estudio, ciencias sociales y ciencia, pero en el nivel de
escuela primaria se hace nfasis en la medicin del aprovechamiento en las habilidades
verbales y cuantitativas bsicas. La figura 5-1, que ofrece una divisin de las
calificaciones que obtuvo un alumno de cuarto ao en la Prueba de aprovechamiento de
Stanford, ilustra la variedad de habilidades lingsticas y cuantitativas que mide una
batera de pruebas de aprovechamiento en el nivel de escuela primaria. Otras bateras de
pruebas de aprovechamiento populares en este nivel son las Pruebas de
Aprovechamiento de California, la Prueba Comprensiva de Habilidades Bsicas, las
120
Pruebas de Iowa de Habilidades Bsicas y las Pruebas de Aprovechamiento

Metropolitanas. Estas bateras tambin contienen niveles de pruebas para jardn de nios
y escuela secundaria.
Nivel de escuela secundaria. Debido a la mayor variacin en los programas acadmicos
de los distintos alumnos de educacin superior, las bateras de pruebas de
aprovechamiento son menos tiles en este nivel. Las bateras de pruebas para la escuela
secundaria siguen haciendo nfasis en las habilidades bsicas en lectura, lenguaje y
aritmtica, pero tambin son comunes las pruebas de ciencias sociales, ciencia y
habilidades para el estudio. Tanto en el nivel de escuela primaria como en de escuela
secundaria, las pruebas de aprovechamiento enfatizan el desarrollo educativo general y
no se relacionan con cursos especficos en las escuelas particulares. En la figura 5-2 se
muestran reactivos ilustrativos que aparecen en niveles sucesivos de cinco de las
pruebas en una batera de aprovechamiento, las Pruebas Comprensivas de Habilidades
Bsicas. En el nivel de educacin superior, tambin son interesantes las bateras de
pruebas como las Pruebas Universitarias Estadounidenses (ATC), que se aplican cada
ao con propsitos de admisin a universidades. En realidad la ACT es una batera de
pruebas de aprovechamiento, pero en cierto modo es similar a una prueba de aptitud
debido a que su amplio rango de contenido se relaciona menos con experiencias
escolares especficas que la mayor parte de las pruebas de logro.
121
PRUEBAS DE APROVECHAMIENTO EN AREAS ESPECFICAS
La aplicacin de una batera de pruebas de aprovechamiento tiene prioridad en un

programa escolar de pruebas tpico. Cuando se desea tener ms informacin sobre el
aprovechamiento de los alumnos en una materia en particular, el procedimiento comn
es aplicar una prueba especfica sobre alumnos en una materia despus de una batera.
Estas pruebas de aprovechamiento especficas tienen ciertas ventajas sobre las pruebas
comparables en una batera. Por ejemplo, el hecho de que una prueba sobre una materia
especifica consista en mas reactivos y cuente con un contenido de la materia mas amplio
que una prueba de una batera de aprovechamiento hace que sea probable que la primera
represente de manera mas adecuada los objetivos de enseanza de un amplio rango de
grupos y escuelas.
La antigua cancin Reading and writing and rithmetic, taught to the tune of a hickory
stick, es un testimonio de la importancia que han tenido a travs el tiempo estas
materias en el plan de estudios de la escuela primaria, -- pero en la actualidad con
menos nfasis para el castigo corporal. Estn disponibles cientos de pruebas sobre
materias especficas en lectura, matemticas, lenguaje, ciencia, ciencias sociales,
profesiones, negocios y comercio. Otras reas en las cuales se han elaborado pruebas de
aprovechamiento estandarizadas son: salud, economa del hogar, artes industriales, uso
de las bibliotecas, literatura, la Biblia, msica, oratoria, ortografa, y educacin vial.
Adems del estudio con referencias a normas e instrumentos de diagnostico y
pronostico tradicionales, existen muchas pruebas con referencias a criterios en materias
especificas. Adems, el nfasis que en la actualidad se da a las pruebas de competencia
en habilidades bsicas para graduarse de la escuela de educacin superior ha llevado a la
publicacin de muchas pruebas de aprovechamiento para evaluar el conocimiento y las
habilidades de los alumnos del primer y ultimo ao de educacin superior en lectura,
escritura y matemticas. Estas habilidades de supervivencia, como se les llama, se
consideran esenciales para manejar las exigencias de la vida diaria.
Estudio con referencias a normas e instrumentos de diagnostico y pronostico
tradicionales, existen muchas pruebas con referencias a criterios en materias especificas.
Adems, el nfasis que en la actualidad se da a las pruebas de competencia en
habilidades bsicas para graduarse de la escuela de educacin superior ha llevado a la
publicacin de muchas pruebas de aprovechamiento para evaluar el conocimiento y las
habilidades de los alumnos del primer y ultimo ao de educacin superior en lectura,
escritura y matemticas. Estas habilidades de supervivencia, como se les llama, se
consideran esenciales para manejar las exigencias de la vida diaria.
A pesar de la disponibilidad de esas pruebas de habilidades bsicas para adultos, un
estudio reciente de 595 compaas estadounidenses y canadienses descubri que solo
una tercera parte, aproximadamente, de estas hace que sus empleados se sometan a
pruebas de alfabetismo. Como consecuencia por lo menos uno de cada cuatro
empleados es analfabeta en el aspecto funcional y debe simular desempear un
trabajo que requiere de habilidades de lectura. Otro estudio de 1328 patrones descubri
que 63 % sabe que tiene empleados que no pueden leer, escribir, realizar clculos, ni
entender el ingls. Los empleados analfabetas no solo son mas propensos a sufrir
122
accidentes, sino que adems tienen limitaciones en su capacidad para superarse en una
organizacin (Fewer Firms Testing Employee Literacy, 1992).
Pruebas de Lectura
Muchas de las dificultades para el aprendizaje que experimentan los nios se relacionan
con los problemas en la lectura y esta es una razn por la que con frecuencia se refiere a
un nio para una evaluacin psicoeducativa. Ya que los problemas con la lectura se
acumulan y afectan el desempeo en casi todo el trabajo escolar, es importante evaluar
el nivel de lectura y diagnosticar las deficiencias en esta materia de manera oportuna y
regular. Debido a sus muchos usos se aplican ms pruebas de lectura que a cualquier
otro tipo de prueba de aprovechamiento. De hecho existen tantas de lectura diferentes
que se dedica un volumen completo de la serie Buros, Reading Tests and Reviews II
(Buros, 1975). Pueden encontrarse distintos tipos de pruebas de lectura; las tres
categoras principales son las pruebas de estudio, pruebas de diagnostico y pruebas de
preparacin para la lectura. Otras formas de clasificar las pruebas e lectura son con
referencias a normas contra referencias a criterios (o ambas) y lectura en silencio contra
lectura oral.
Pruebas de lecturas de estudio. El propsito principal de la aplicacin de una prueba de
lectura de estudios es determinar la capacidad general de la persona para la lectura. Las
pruebas de este tipo contienen secciones de reactivos de vocabulario y secciones de
prrafos o pasajes sobre los que se hacen preguntas. Una medida del conocimiento de
las palabras se obtiene de los reactivos de vocabulario, en tanto que la velocidad y el
nivel de comprensin de la lectura se miden a partir de los prrafos. Algunos ejemplos
importantes de pruebas de lectura de estudio son las Pruebas de Lectura de GatesMacGinitie. La Prueba de Lectura de Nelson Denny, las Pruebas de Lectura Oral de
Gray, Revisadas y las Pruebas de Aprovechamiento Metropolitanas, sexta edicin,
Estudio de Lectura. La Riverside Publishing Company publica las primeras dos pruebas
y The Psychological Corporation publica las dos ltimas.
Pruebas de diagnostico de lectura. Las pruebas de lectura de diagnostico, que son por
mucho el tipo de prueba de diagnostico mas comn, intentan evaluar muchos factores
diferentes que afectan la lectura: coordinacin ojo-mano, percepcin visual y auditiva,
comprensin de los conceptos e incluso la motivacin. Contiene subpruebas de
reconocimiento de palabras, lectura de pasajes, fontica y pronunciacin, lectura en
silencio y oral, ortografa y discriminacin de sonidos, todos con el propsito de
descubrir las causas de la incapacidad que tiene un estudiante en la lectura. Ya que, con
frecuencia, las correlaciones entre estas subpruebas son sustanciales, las distintas
habilidades que miden las pruebas de lectura de diagnostico no necesariamente son
independientes. Adems la confiabilidad de las subpruebas y de la prueba en general
casi nunca es tan alta como se deseara. Algunas pruebas representativas de esta
categora son las pruebas de lectura para el diagnostico de California (publicada por
CTB/Macmillan/McGraw-Hill), el anlisis de Durell de dificultad para la lectura y las
pruebas de Lectura para el diagnostico de Stanford (ambas publicadas por The
123
Psychological Corporation) y las Pruebas de Dominio de la Lectura de Woodcock

(publicadas por American Guidance Service).
Pruebas de preparacin para la lectura. Como medida del grado en el que un nio
posee las habilidades y conocimientos necesarios para aprender a leer, una prueba de
preparacin para a lectura con frecuencia predice el logro en el primer ao mejor que
una prueba de inteligencia general. Por esta razn, las pruebas de preparacin para la
lectura, que casi siempre se llevan menos tiempo en su aplicacin que las de
inteligencia, pueden aplicarse a iqueos de jardn de nios y de primer ao cuando no se
tienen disponibles calificaciones de pruebas de inteligencia. Ciertas pruebas de lectura
contienen componentes tanto de diagnostico como de pronostico. Por ejemplo, las
Pruebas de Dominio de la Lectura de Woodcock no solo constituyen una prueba de
lectura para el diagnostico sino que adems contienen una prueba de preparacin para la
lectura. Adems, las pruebas de preparacin para la lectura contienen muchos de los
mismos tipos de reactivos que las pruebas de lectura para el diagnostico: medidas de
discriminacin visual, combinacin y discriminacin auditiva, vocabulario,
reconocimiento de letras y coordinacin visual-motriz. Algunas pruebas ilustrativas son
la Prueba de Preparacin CTBS (CTB/Macmillan/McGraww-Hill), La Conciencia
Lingstica en la Preparacin para la Lectura (American Guidance Service) y las
Pruebas de Preparacin Metropolitanas (The Psychological Coporation). Esta ltima es
nica porque combina una prueba de preparacin para la lectura con una prueba de
preparacin para las matemticas.
Pruebas de matemticas
De manea similar a las pruebas de aprovechamiento en lectura, las pruebas de
aprovechamiento de matemticas pueden clasificarse como de estudio, diagnostico y
pronostico.
Pruebas de matemticas de estudio. Debido a que el rea de la educacin en las
matemticas ha combinado en gran medida durante los ltimos 30 aos, las pruebas de
matemticas actuales representan una variedad de planteamiento para la enseanza.
Ciertas pruebas estn diseadas para abarcar los nfasis tradicional y moderno en los
planes de estudio de matemticas y estn disponibles instrumentos que reflejan
planteamientos de enseanza mas especializados desde la escuela primaria hasta la
universidad. En general, las pruebas de matemticas de estudio contienen reactivos que
requieren los sujetos demuestren una comprensin de los conceptos y operaciones
cuantitativos, as como la capacidad de aplicar esta comprensin en la resolucin de
problemas. Algunos ejemplos de pruebas de matemticas con referencias de normas del
tipo de estudio son las Pruebas de Estudio de Stanford (ambas publicadas por The
Psychological Coporation) la Prueba de Capacidades para las Matemticas y la Prueba
de Primeras Capacidades Matemticas (ambas publicadas por Publishers Test Service).
124
Pruebas para el diagnostico en matemticas. Aunque se utilizan menos que las pruebas
de lectura para el diagnostico, las pruebas de diagnostico en matemticas tambin
representan los intentos por dividir una materia compleja, que comprende una variedad
de habilidades, en los elementos que la constituyen. Los reactivos de las pruebas de
diagnostico de aritmtica y matemticas se basan en un anlisis de las habilidades y
errores en la materia. Estas pruebas comprenden las habilidades y el conocimiento
requerido para las aplicaciones que comprenden numeracin, fracciones, algebra y
geometra. Dos ejemplos de pruebas para el diagnostico de matemticas son la Prueba
de Diagnostico de Matemticas de Stanford y KeyMath. La primera, que publica The
Psychological Corporation, es una prueba de grupo desarrollada para diagnosticar las
fortalezas y debilidades especficas en los conceptos y operaciones de matemticas
bsicos en los nios del primer al decimosegundo grado. El KeyMath, Revisado: un
Inventario de Diagnostico de Matemticas Esenciales es una prueba aplicada
individualmente que publica The American Guidance Service y esta diseada para
medir la comprensin y aplicacin de los conceptos de matemticas bsicos y las
habilidades desde el jardn de nios hasta el noveno grado.
Pruebas de pronstico en matemticas. Se han diseado varias pruebas para predecir el
desempeo en cursos de matemticas especficos; pero, en comparacin con las pruebas
de pronostico de lectura (pruebas de preparacin para la lectura), no se utilizan
comnmente. Un ejemplo de una prueba de pronstico en matemticas es la Prueba de
Prognosis de lgebra de Orlens-Hanna, Revisada (The Psychological Corporation).
Diseada para identificar, antes de empezar la enseanza, que alumnos tendrn xito y
cuales enfrentaran dificultades en el aprendizaje del algebra, la prueba de OrleansHanna evala la aptitud y el aprovechamiento as como el inters y motivacin en
algebra de los alumnos del primer y ultimo aos de educaron superior. Para terminar el
cuestionario y los reactivos de muestra en la prueba se necesitan 40 minutos. El rango
percentilares y las normas de calificaciones estaninas se basan en tres grupos de
estudiantes: aquellos que terminaron las matemticas de sptimo grado, los que
terminaron las matemticas de octavo grado y aquellos de los primeros dos grupos que
terminaron un curso de un ao de algebra en el ao siguiente.
Pruebas de lenguaje
En forma general, el lenguaje se refiere a cualquier medio de comunicacin a pesar de
que las pruebas de lenguaje son principalmente de tipo verbal, tambin se han
desarrollado medidas para la comunicacin no verbal para utilizarse con personas que
tienen una incapacidad auditiva y, en pocas mas recientes, en personas con capacidad
auditiva normal.
El lenguaje oral y escrito se ensea en todos los niveles y estn disponibles pruebas
apropiadas para todos los grados. La falta de comprensin de ciertos conceptos puede
actuar como un obstculo entre el alumno de primer grado y el maestro y, como
consecuencia, tener un efecto grave en el aprendizaje del nio en la escuela. Al
reconocer esta hecho, la Prueba e Boehm de Conceptos Bsicos, Revisada (para los
grados de jardn de nios a segundo) y la Prueba de Boehm de Conceptos Bsicos:
Versin para Preescolar (para edades de 3 a 5 aos) se disearon para medir el dominio
125
de los nios pequeos en los conceptos bsicos de espacio, cantidad y tiempo (vase la
figura 5-4). The Psychoogical Corporation tambin pone a su disposicin un equipo de
materiales para ayudar al nio a dominar los conceptos que miden las pruebas, la
Boehm Resource Guide for Basic Concept Teaching.
A pesar de la existencia de pruebas como las de Boehm, la mayor parte de las pruebas
de aprovechamiento mencionadas en la categora del lenguaje estn diseadas para
estudiantes de secundaria y universidad. Estos instrumentos, que incluyen pruebas de
ingles e idiomas extranjeros, se aplican frecuentemente en secundaria y universidades
con el propsito de ubicar a los estudiantes en los cursos de ingles o de algn idioma
extranjero apropiado para su nivel de competencia.
Pruebas de Ingls. Algunas de las criticas mas severas de las pruebas objetivas
provienen de los maestros de ingles, pero en general e reconoce que esas pruebas
realizan un trabajo bastante eficiente al medir el conocimiento de gramtica,
vocabulario y, hasta cierto punto, las habilidades en expresin oral y escrita. Las
habilidades para el ingls se evalan como parte de las bateras de prueba de
aprovechamiento, pero existen tambin muchas pruebas separadas de aprovechamiento
en ingls. Algunos ejemplos son la Prueba de Ingles para Educacin Superior de
Purdue, la Prueba de Ingles para los Negocios y la Prueba de Ingles de Colocacin en la
Universidad (todas de la Riverside Publishing Co.). Estas pruebas evalan el
conocimiento de vocabulario, gramtica, sintaxis y ortografa. Tambin estn
disponibles pruebas de ortografa por separado, como ola Prueba de Ortografa Escrita 2
(pro ed).
Como es obvio, las habilidades para escuchar, habla y escribir son parte del uso del
ingls y varias pruebas se han desarrollado para medir esta habilidades. Un buen
ejemplo de prueba para escuchar es la Batera de Pruebas de Habilidades Auditivas de
Goldman-Friscoe-Woodcock (de American Guidance Service). Entre las medidas e las
habilidades en los estudiantes para articular sonidos del lenguaje estn la prueba de
Desempeo de la Articulacin (pro. ed) y la Prueba de Articulacin de GoldmanFriscoe (American Guidance Service). La comprensin y uso significativo de la
palabras habladas por parte de un nio, diversos aspectos de la gramtica y la capacidad
de pronunciar las palabras de manera correcta, as como distinguir entre palabras entre
sonidos similares pueden evaluarse mediante la Prueba de Desarrollo del Lenguaje
Primario e Intermedio (de American Guidance Service y pro. ed). Algunos ejemplos de
pruebas de escritura son la Prueba del Lenguaje Escrito (pro ed) y la Prueba de Escritura
de la Prueba de Logro Metropolitana. Sexta edicin (The Psychological Corporation).
Estas dos pruebas de escritura, para alumnos del segundo al decimosegundo grados, son
medidas de respuesta libre y muestras de trabajo mediante las cuales los sujetos escriben
historias sobre un grupo de ilustraciones que se les muestran (vase la figura 5-5). Las
historias pueden calificarse de acuerdo con diversas variables, que incluyen tema,
vocabulario, sintaxis, ortografa y estilo. Muchas otras pruebas de aprovechamiento
disponibles en el mercado, como las Pruebas Avanzadas de Ubicacin del Consejo de
Exmenes para la Admisin a la Universidad, tambin contienen un componente escrito
(ensayo).
126
Los estudiantes extranjeros que solicitan su admisin a las universidades de Estados

Unidos y cuyo idioma materno no es el ingls por lo regular presentan la Prueba de
Ingles como Idioma Extranjero (TOEFL). El TOEFL es un examen de opcin mltiple
que dura 3 horas (del Servicio de Pruebas Educativas) consiste en tres partes:
Comprensin del Lenguaje, que mide la capacidad para entender el ingles hablado:
Estructura y Expresin Escrita, que mide la capacidad para reconocer el lenguaje que no
es apropiado para el ingles escrito estndar; y Vocabulario y Lectura de Comprensin,
que mide la capacidad para entender el material de lectura no tcnico.
Pruebas de idiomas extranjeros. Las pruebas de estudio de aprovechamiento en un

idioma extranjero por lo regular consisten en diferentes formas para los estudiantes que
terminaron distintos niveles de capacitacin en el idioma. Ciertas pruebas reflejan el
planeamiento gramatical ms tradicional par al enseanza del idioma, en tanto que otras
resaltan la comprensin del idioma hablado y escrito. Adems de las pruebas de estudio
(ubicacin) en idiomas extranjeros, existen varias pruebas de pronstico. El contenido
de estas pruebas, que estn diseadas para predecir el xito en el aprendizaje de un
idioma extranjero, vara de acuerdo con el instrumento particular. Una prueba tpica
incluye medidas de aprendizaje de memoria, el inters por estudiar un idioma
extranjero, la sensibilidad a la estructura gramatical y la habilidad para relacionar
sonidos y smbolos. Un ejemplo de pruebas de idiomas extranjeros del tipo de estudios
son las Pruebas Cooperativas MLA de Idiomas Extranjeros. Estas pruebas, publicadas
por la Modern Language Association of America y el Educational Tedting Service y
distribuidas por CTB/Macmillan/McGraw-Hill, estn disponibles en francs, alemn,
espaol, ruso e italiano. Algunos ejemplos de pruebas de pronstico en idiomas
extranjeros son la Batera de Aptitudes para el Lenguaje de Pimsleur y la Prueba
Moderna de Aptitudes para el Lenguaje, ambas publicadas por The Psychological
Corporation. Estas dos pruebas, que consisten en ejercicios en el aprendizaje de
vocabulario y gramtica de un idioma artificial, estn diseadas para predecir con que
facilidad y rapidez pueden progresar los estudiantes que hablan ingls en un programa
de idiomas extranjero tpico.
Pruebas de ciencias sociales

Los temas en ciencias sociales, historia economa y ciencias polticas por lo general se
relacionan con la escuela secundaria y los planes de estudio de las universidades. Las
ciencias sociales, quiz en un sentido menos formal, tambin se ensean en los grados
de escuela primaria. Algunas pruebas representativas de las pruebas de
aprovechamiento en ciencias sociales en el nivel de escuela secundaria son las Pruebas
CAT de Fin de Cursos en Historia Mundial, Historia de Estados Unidos y Economa del
Consumidor (CTB/Macmillan/McGraw-Hill) y la Prueba de Emporios del Gobierno de
Estados Unidos (Bureau of Educational Measurements).
127
Pruebas de ciencias
La enseanza en ciencias, al igual que en las matemticas, ha cambiado tanto desde
principios de la dcada de los 60 que muchas de las pruebas antiguas son inapropiadas
para el plan de estudios de ciencias actual. El Estudio del Plan de ciencias Biolgicas
(BSCS) y el Comit de Estudios de Ciencias Fsicas (PSSC) llevaron al diseo de
pruebas especficas en biologa y fsica. Los programas de pruebas comprensivas en
otras ciencias, como las Pruebas Cooperativas de Qumica de la American Chemical
Society, tambin reflejan los planteamientos modernos para la educacin de las
ciencias. Muchas de las pruebas mas antiguas se han revisado e un intento por evaluar el
desempeo ya sea en un programa de ciencias moderno o tradicional. Algunos ejemplos
de pruebas de la efectividad en la enseanza de las ciencias especficas son las Pruebas
de fin de Cursos en Biologa, Qumica y fsica (CTB/Macmillan/McGraw-Hill) para
estudiantes del ltimo ao de educacin superior.
Pruebas para la educacin superior y las profesiones
Muchas instituciones de educacin superior permiten que los alumnos obtengan crditos
por cursos universitarios al obtener calificaciones aceptables en pruebas de
aprovechamiento estandarizadas como aquellas que aplica el Programa Avanzado de
Colocacin (APP) de la Junta Universitaria, el Programa de Exmenes del Nivel
Universitario /CLEP) y el Programa de Exmenes de Aprovechamiento ACT. Adems,
las universidades y escuelas profesionales utilizan las calificaciones en las pruebas de
aprovechamiento estandarizadas como criterios para la seleccin de estudiantes. Por lo
general, estas pruebas estn restringidas o aseguradas, en el sentido de que se
venden o alquilan solo a ciertas organizaciones para la aplicacin en conjunto a
programas educativos especficos.
Un conjunto de 15 pruebas de aprovechamiento estandarizado que utilizadas para
seleccionar estudiantes en los programas de graduados son las Pruebas de Materias de
los Exmenes de Registro de Graduados (GRE). Las Pruebas de Materias GRE, que
consisten para las principales reas de trabajo universitario, pueden aplicarse, con la
Prueba General GRE, , a estudiantes universitarios de ultimo ao que desean solicitar
ingreso a una escuela de posgrado. Otros ejemplos de pruebas estandarizadas para la
admisin a escuelas de posgrado o profesionales son el Examen Nacional para Maestros
(NTE), la Prueba de Admisin a la Facultad de Medicina (MCAT), la Prueba de
admisin a la facultad de Derecho (LSAT), las Pruebas NLN de Aprovechamiento en
Enfermera y la Prueba de Aptitudes de Administracin de Graduados (GMAT). La
obtencin del certificado o titulo como contador publico titulado, medico, abogado,
enfermera titulada o profesional en ciertas reas tambin depende de las clasificaciones
en una serie de pruebas de aprovechamiento (exmenes de consejo, exmenes de
abogados) en esta rea en particular.
128
Pruebas para negocios y oficios.

La administracin es una materia escolar por si misma y las pruebas de educacin en
administracin estn diseadas para evaluar el conocimiento que un alumno tiene de la
materia. Adems de evaluar el grado de aprovechamiento en una materia escolar, las
pruebas de aprovechamiento se utilizan en los negocios y la industria con propsitos de
seleccin, ubicacin y ascenso. Las pruebas de eficiencia en mecanografa, archivo,
procesamiento de palabras, computacin y otras habilidades de oficina son quiz las
ms populares de estas medidas. Algunos ejemplos de pruebas en esta categora son las
Habilidades de Oficina (vase la figura 5-6) y la Batera de Evaluacin para Procesador
de Palabras (que ofrece London House).
Las pruebas de conocimiento y habilidad en un oficio en particular (pruebas de
oficios) se utilizan por lo regular con propsitos de seleccin, ubicacin y autorizacin
de empleados. Una prueba de oficio puede consistir en una serie de preguntas que deben
contestarse en forma oral o escrita, o bien puede ser una tarea de muestra de trabajo que
requiere que el sujeto demuestre una habilidad en especial. Algunos ejemplos de
pruebas de oficios, o competencia ocupacional, son aquellas que se desarrollen en el
programa de Competencia Ocupacional Nacional del Educational Testing Service. Este
programa es responsable del desarrollo de docenas de pruebas ocupacionales. Entre
estas se incluyen los exmenes de eficiencia para mecnica automotriz, cantineros,
cosmetlogos, distribuidores de lentes de contacto, bomberos funcionarios del servicio
exterior, oficiales de polica, jugadores profesionales de golf y muchas otras
especialidades. Muchas de estas pruebas comprenden un desempeo muy diferente del
que requieren los exmenes tradicionales de lpiz y papel. En las pruebas para los
funcionarios de servicio exterior, por ejemplo, hay un da de evaluacin en el cual se
evala la capacidad del candidato para tomar acciones apropiadas en cada uno de un
grupo de minutas y otros comunicados del tipo de los que por general se encuentran en
la charola de un ejecutivo, as como su habilidad para manejar una entrevista de
negociacin de grupo sin lder. Como es obvio, alunas de estas tareas van mas all del
dominio de las pruebas de capacidad y penetran en el mundo de la evaluacin de las
actitudes y la personalidad.
129
Escalas para medir las actitudes

Una actitud es una predisposicin aprendida para responder cohererntemente de una
manera favorable o desfavorable ante un objeto, ser vivo, actividad, concepto, persona o
sus smbolos (Fishbein y Ajzen, 1975; Oskamp, 1991; Eagly y Chaiken, 1993). As, los
seres humanos tenemos actitudes hacia muy diversos objetos, smbolos, etc.; por
ejemplo, actitudes hacia el aborto, la poltica econmica, la familia, un profesor,
diferentes grupos tnicos, la ley, nuestro trabajo, una nacin especfica, los osos, el
nacionalismo, nosotros mismos, etctera.
Las actitudes estn relacionadas con el comportamiento que mantenemos en torno a los
objetos a que hacen referencia. Si mi actitud hacia el aborto es desfavorable,
probablemente no abortara o no participara en un aborto. Si mi actitud es favorable a
un partido poltico, lo mas probable es que vote por el en las prximas elecciones.
Desde luego, las actitudes slo son un indicador de la conducta, pero no la conducta en
si. Por ello, las mediciones de actitudes deben interpretarse como sntomas y no como
hechos (Papua, 2000). Si detecto que la actitud de un grupo hacia la contaminacin es
desfavorable, esto no significa que las personas estn tomando acciones para evitar
contaminar el ambiente, aunque s es un indicador de que pueden adoptarlas en forma
paulatina. La actitud es como una semilla que bajo ciertas condiciones suele
germinar en comportamiento.
Las actitudes tienen diversas propiedades, entre las que destacan: direccin (positiva o
negativa) e intensidad (alta o baja); estas propiedades forman parte de la medicin.
Los mtodos ms conocidos para medir por escalas las variables que constituyen
actitudes son: el mtodo de escalamiento Likert, el diferencial semntica y la escala de
Guttman. A continuacin examinamos las primeras dos, que son las utilizadas con
mayor frecuencia.
Escalamiento tipo Liket

Este mtodo fue desarrollado por Rensis Liket en 1932; sin embargo, se trata de un
enfoque vigente y bastante popularizado. Consiste en un conjunto de tems presentado
entorna de afirmaciones o juicios, ante los cuales se pide la reaccin de los
participantes. Es decir, se presenta cada afirmacin y se solicita al sujeto que externe su
reaccin eligiendo uno de los cinco puntos o categoras de la escala. A cada punto se le
asigna un valor numrico. As, el participante obtiene una puntuacin respecto de la
afirmacin y al final su puntuacin final su puntuacin total, sumando las puntuaciones
obtenidas en relacin con todas las afirmaciones.
Las afirmaciones califican al objeto de actitud que se esta midiendo. El objeto de actitud
puede ser cualquier cosa fsica (un vestido, un automvil), un individuo (el
presidente, un lider historico, mi madre, mi sobrino Alex, un candidato a una
eleccin) un concepto o smbolo (patria, sexualidad, la mujer vallenata Colombia-,
el trabajo), una marca (Adidas, BMW), una actividad (comer, beber caf), una
profesin, un edificio, etc. Por ejemplo, Kafer et al. (1989) generaron varias escalas
para medir las actitudes hacia los animales.
130
Tales fases o juicios deben expresar slo una relacin lgica; adems, es muy
recomendable que no excedan de 20 palabras.
_______________________________________________
EJEMPLO:
Objetivo de actitud medido
El voto
Afirmacin
votar es una obligacin de
De ciudadano responsable
_______________________________________________
En este caso, la afirmacin incluye ocho palabras y expresa una sola relacin lgica
(X-Y). Las opciones de respuesta o puntos de la escala son cinco e indican cunto se
est de acuerdo con la afirmacin correspondiente. Las opciones ms comunes se
presenten en la siguiente tabla. Debe recordarse que a cada una de ellas se le asigna un
valor numrico y slo puede marcarse una respuesta. Se considera un doto invlido si se
marcan dos o ms opciones.
Afiliacin
Alternativa 1:
Muy de acuerdo
Alternativa 2:
Totalmente de
acuerdo
De acuerdo
Ni de acuerdo
Ni en desacuerdo
Afirmacin
En desacuerdo
Muy en
desacuerdo
De acuerdo
Neutral
En desacuerdo
Totalmente en
desacuerdo
Afiliacin
Alternativa 3:
Siempre
Alternativa 4:
Completamente
verdadero
La mayora de las
voces s
Algunas veces s
algunas veces no
Afiliacin
La mayora de las
veces no
Nunca
verdadero
Ni falso
ni malo
Falso
Completamente
falso
Las opciones de respuesta o categoras pueden colocarse de manera horizontal, como en

el caso anterior, o en forma vertical.
(
(
(
(
(
) Muy de acuerdo
) De acuerdo
) Ni de acuerdo ni en desacuerdo
) En desacuerdo
) Muy en desacuerdo
131
O bien, utilizando recuadros en lugar de parntesis:

Definitivamente s
Probablemente s
Indeciso
Probablemente no
Definitivamente no
O bien, utilizando recuadros en lugar de parntesis:
Definitivamente s
Probablemente s
Indeciso
Probablemente no
Definitivamente no
Es indispensable sealar que el nmero de categoras de respuesta debe ser igual para
todas las afirmaciones. Pero siempre respetando el mismo orden o jerarqua de
presentacin de las opciones para todas las frases.
Opciones jerrquicamente correctas e incorrectas en un ejemplo

Objeto de actitud: Mi novia
Correcto
Me gusta estar mucho con mi novia

( ) Definitivamente s
( ) Probablemente s
( ) Indeciso
( ) Probablemente no
( ) Definitivamente no
Incorrecto (no se respeta la misma

jerarqua en todos los tems)
Me gusta estar mucho con mi novia
( ) Probablemente s
( ) Indeciso
Si por m fuera, todos los das estara

con mi novia
( ) Probablemente s
( ) Indeciso
Si por m fiera, todos los das estada

con mi novia
( ) Probablemente s
( ) Indeciso
Amo demasiado a m novia

( ) Probablemente s
( ) Indeciso
Amo demasiado a m novia

( ) Probablemente s
( ) Indeciso
132
Direccin de las afirmaciones

Las afirmaciones pueden tener direccin: favorable o positiva y desfavorable o
negativa. Y esta direccin es muy importante para saber cmo se codifican las
alternativas de respuesta.
Si la afirmacin es positiva, significa que califica favorablemente al objeto de actitud;
de este modo, cuando ms de acuerdo con la afirmacin estn los participantes, su
actitud ser igual ms favorable.
_____________________________________
EJEMPLO
El Ministerio de Hacienda al contribuyente a resolver sus problemas en al pago de
impuestos
_______________________________________________
En este ejemplo, si estamos muy de acuerdo con la afirmacin implica una actitud
ms favorable hacia el Ministerio de Haciendo que si estamos solamente de acuerdo.
En cambio, si estamos muy en desacuerdo implica una actitud muy desfavorable. Por
lo tanto, cuando las afirmaciones son positivas se califican comnmente de la siguiente
manera:
(5) Muy de acuerdo
(4) De acuerdo
(3) Ni de acuerdo, ni en desacuerdo
(2) En desacuerdo
(1) Muy en desacuerdo
Es decir, en este ejemplo, estar ms de acuerdo implica una puntuacin mayor.
Pero, si la afirmacin es negativa, significa que califica desfavorablemente al objeto de
actitud, y cuando ms de acuerdo estn los participantes con la afirmacin, significa
que su actitud es menos favorable, esto es, ms desfavorable.
EJEMPLO
El Ministro de Haciendo se caracteriza por obstaculizar por obstaculizar al
contribuyente en el pago de impuestos.
______________________________________________
En este nuevo ejemplo, si estamos muy de acuerdo implica una actitud ms
desfavorable que si estamos de acuerdo, y as en forma sucesiva. En contraste, si
estamos muy en desacuerdo implica una actitud favorable hacia el Ministro de
133
Hacienda. Rechazamos la frase porque califica negativamente el objeto de actitud. Un

ejemplo cotidiano de afirmacin negativa seria: Luis es un mal amigo. Cuando ms de
acuerdo estemos con la afirmacin, nuestra actitud hacia Lus ser menos favorable. Es
decir, estar ms de acuerdo implica una puntuacin menor. Cuando las afirmaciones
son negativas se califican al contrario de las positivas.
(1)
(2)
(3)
(2)
(1)
Totalmente de acuerdo
De acuerdo
Ni de acuerdo, ni en desacuerdo
En desacuerdo
Muy en desacuerdo
A continuacin, se presenta un ejemplo de una escala Liket para medir la actitud hacia
un organismo tributario.
Las afirmaciones que voy a leer son opciones con las que algunas personas estn de
acuerdo y otras en desacuerdo.
Voy a pedirle que me diga, por favor, qu tan de acuerdo est usted con cada una de
estas opiniones:
1. El personal de la Direccin General de Impuestos Nacionales es grosero al atender al pblico.
1. Muy de acuerdo
4. En desacuerdo
2. De acuerdo
5. Muy en desacuerdo
3. Ni de acuerdo, ni en desacuerdo
2. La Direccin General de Impuestos Nacionales se caracteriza por la deshonestidad de sus funciones.
1. Muy de acuerdo
4. En desacuerdo
2. De acuerdo
3. Los servicios que presta la Direccin General de Impuestos Nacionales en general son muy buenos.
1. Muy de acuerdo
2. De acuerdo
4. En desacuerdo
4. La Direccin General de Impuestos Nacionales informa claramente sobre cmo, dnde y cundo pagar
los impuestos.
1. Muy de acuerdo
2. De acuerdo
4. En desacuerdo
5. La Direccin General de Impuestos Nacionales es muy lenta en la evolucin de impuestos pagados en

exceso.
1. Muy de acuerdo
2. De acuerdo
4. En desacuerdo
6. La Direccin General de Impuestos Nacionales informa oportunamente sobre cmo, dnde y cundo
pagar los impuestos.
1. Muy de acuerdo
4. En desacuerdo
2. De acuerdo
134
7. La Direccin General de Impuestos Nacionales tiene normas y procedimientos bien definidos para el
pago de impuestos.
1. Muy de acuerdo
4. En desacuerdo
2. De acuerdo
8. La Direccin General de Impuestos Nacionales tiene malas relaciones con la gente porque cobra
impuestos muy altos.
1. Muy de acuerdo
2. De acuerdo
4. En desacuerdo
Figura 9.14 Muestra de una escala Likert.

Como puede observarse, las afirmaciones 1, 2, 5, y 8 son negativas (desfavorables); y
las afirmaciones 3, 4, 6 y 7 son positivas (favorables).
Forma de obtener las puntuaciones

Las puntuaciones de las escalas Liket se obtienen sumando los valores alcanzados
respecto de cada frase. Por ello se denomina escala aditiva.
Una puntuacin se considera alta o baja segn el nmero de tems o afirmaciones. Por
ejemplo, en la escala para evaluar la actitud hacia el organismo tributario, la puntuacin
mnima posible es de ocho (1+1+1+1+1+1+1+1) y la mxima es de 40
(5+5+5+5+5+5+5+5), por que hay ocho afirmaciones.
1. El personal de la Direccin de Impuestos Nacionales es grosero al atender al pblico.
1. Muy de acuerdo
4. En desacuerdo
2. De acuerdo
2. La Direccin General de Impuestos Nacionales se caracteriza por la deshonestidad de sus funciones.
1. Muy de acuerdo
4. En desacuerdo
2. De acuerdo
3. Los servicios que presenta la Direccin General de Impuestos Nacionales en general son muy buenos.
1. Muy de acuerdo
4. En desacuerdo
2. De acuerdo
4. La Direccin General de Impuestos Nacionales informa claramente sobre cmo, dnde y cundo pagar
los impuestos.
5. Muy de acuerdo
2. En desacuerdo
4. De acuerdo
5. La Direccin General de Impuestos Nacionales es muy lenta en la evolucin de impuestos pagados en

exceso.
1. Muy de acuerdo
4. En desacuerdo
2. De acuerdo
135
6. La Direccin General de Impuestos Nacionales informa oportunamente sobre cmo, dnde y cundo
pagar los impuestos.
5. Muy de acuerdo
2. En desacuerdo
4. De acuerdo
7. La Direccin General de Impuestos Nacionales tiene normas y procedimientos bien definidos para el
pago de impuestos.
5. Muy de acuerdo
2. En desacuerdo
4. De acuerdo
8. La Direccin General de Impuestos Nacionales tiene malas relaciones con la gente porque cobra
impuestos muy altos.
1. Muy de acuerdo
4. En desacuerdo
2. De acuerdo
Valor = 1+2+1+3+1+1+2+1=12
La persona del ejemplo obtuvo 12. Su actitud hacia el organismo tributario es ms bien
bastante desfavorable; vemoslo grficamente:
_______________________________________________
EJEMPLO
8
12
16
Actitud muy
Desfavorable
24
32
40
Actitud muy
favorable
Si alguien hubiera tenido una puntuacin de 37 (5+5+4+5+5+4+4+5) su actividad se

calificara como sumamente favorable. En las escalas Likert a veces se califica el
promedio resultante en la escala mediante la sencilla frmula PT/NT (donde PT es la
puntuacin total en la escala y TN es el nmero de afirmaciones), y entonces una
puntuacin se analiza en el continuo 1-5 de la siguiente manera, con el ejemplo de quien
obtuvo 12 en la escala (12/8=1.5).
_______________________________________________
EJEMPLO
0
1.5
2
Actitud muy
Desfavorable
5
Actitud muy
favorable
La escala Likert es, en sentido estricto, una medicin ordinal; sin embargo, es comn
que se le trabaje como si fuera de intervalo. Creswell (2005) seala que debe
considerarse en un nivel de medicin por intervalos porque ha sido probada en mltiples
ocasiones. Asimismo, a veces se utiliza un intervalo de 0 a 4 o de -2 a +2, en lugar de 1
136
a 5. Pero esto no importa por que se cambia el marco de referencia de la interpretacin.

Vemoslo grficamente.
EJEMPLO
(4) Totalmente de acuerdo)
(3) De acuerdo
(1) En desacuerdo
(0) Totalmente
en desacuerdo
0
1
(2) Totalmente de acuerdo)
(-1) En desacuerdo
-2
(2) Ni de acuerdo
ni en desacuerdo
3
(1) De acuerdo
4
(0) Ni de acuerdo
ni en desacuerdo
(-2) Totalmente
en desacuerdo
-1
+1
+2
_______________________________________________
Simplemente se ajusta el marco de referencia: pero el rango se mantiene y las categoras
continan siendo cinco.
Otras condiciones sobre la escala Likert

A veces se disminuye o se incrementa el nmero de categoras, sobre todo cuando los
sujetos potenciales tienen una capacidad muy limitada de discriminacin o, por el
contrario, muy amplia.
EJEMPLO
(1)
De acuerdo
(0)
(3)
De acuerdo
(2) Ni de acuerdo,
ni en desacuerdo
(1)
(7) Totalmente de acuerdo
(6)
(5) Indeciso, pero ms

bien de acuerdo
(4) Indeciso ni de acuerdo,

ni en desacuerdo
(3) Indeciso, pero ms

bien de desacuerdo
(2)
(1) Totalmente en desacuerdo
En desacuerdo
En desacuerdo
De acuerdo
En desacuerdo
_______________________________________________
Si los participantes tienen poca capacidad de discriminar se puedan considerar dos o tres
categoras. Por el contrario, si son personas con un nivel educativo elevado y gran
137
capacidad de discriminacin, puede incluirse siete categoras. Pero debe de recalcarse

que el nmero de categoras de respuesta tiene que ser el mismo para todos los tems. Si
son tres, son tres categoras para todos los tems o las afirmaciones. Si son cinco
categoras para todos los tems.
En ocasiones se elimina la opcin o categora intermedia y neutral (ni de acuerdo, ni en
desacuerdo, neutral, indeciso) para comprender el sujeto o forzarlo a que se pronuncie
de manera favorable o desfavorable.
Un aspecto muy importante de la escala LIkert es que asume que los tems o las
afirmaciones miden la actitud hacia un nico concepto subyacente. En caso de que se
miden la actitudes hacia varios objetos, deber incluir incluirse una escala por objeto,
porque aunque se presenten conjuntamente, se califican por separado. En cada escala
se considera que todos los tems tienen igual peso.
Como se constituye una escala Likert

En terminos generales, una escala Likert se constituye con un elevado nmero de
afirmaciones que califiquen al objeto de actitud y se administran a un grupo piloto para
obtener las puntuaciones del grupo en cada afirmacin. Estas puntuaciones se
correlacionan con las del grupo a toda la escala (la suma de las puntuaciones de todas
las afirmaciones), y las afirmaciones, cuyas puntuaciones se correlacionen
significativamente con las puntuaciones de toda la escala, se seleccionan para integrar el
instrumento de medicin. Asimismo, debe calcularse la confiabilidad y validez de la
escala.
Preguntas en lugar de afirmaciones

En la actualidad, la escala original se ha extendido y observaciones. Como se pueda
observar en el siguiente ejemplo.
EJEMPLO
Cmo considera usted al conductor que aparece en los protagonistas?
(5) Muy buen conductor
(4) Buen conductor
(3) Regular
(2) Mal conductor
(1) Muy mal conductor
La escala en la pregunta
En ocasiones la escala se incluye en la pregunta. Mertens (2005) las denomina
preguntas actitudinales, por ejemplo:
Est usted fuertemente a favor, ms bien a favor, ms bien a favor en contra o
fuertemente en contra del aborto cuando la mujer ha sido violada?
138
En la pregunta se elimino la categora central o intermedia. Pero estas interrogantes

suelen limitarse a entrevistas de unas cuantas preguntas, porque requieren cierta
capacidad de memorizacin.
Maneras de aplicar la escala Likert

Existen dos formas bsicas de aplicar una escala Likert. La primera es de manera
autoadministrada: se le entrega la escala la participante y ste marca, respecto de cada
afirmacin, la categora que mejor describe su reaccin. Es decir, marcan su respuesta.
La segunda formula es la entrevista, donde un entrevistador lee las afirmaciones y
alternativas de respuesta al sujeto, y anota lo que ste conteste. Cuando se aplica por
medio de la entrevista, es necesario que se le entregue al entrevistado una tarjeta donde
se muestren las alternativas de respuesta o categoras. El siguiente es un ejemplo que se
aplica a la pregunta de la tabla 9.12:
EJEMPLO
De tarjeta de respuestas
Indispensable
Sumamente
importante
Medianamente
Poco
importante
importante
No se toma
en cuente
_______________________________________________
Al construir una escala Likert, debemos asegurarnos de que las afirmaciones y
alternativas de respuestas sern comprendidas por los sujetos a los que se les aplicar y
que stos tendrn la capacidad de discriminacin requerida. Ellos se evala
cuidadosamente en la prueba piloto.
139

Manual de Medición y Evaluación Psicologica

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Manual de Medición y Evaluación Psicologica

Cargado por

Copyright:

Formatos disponibles

Elaborado por

Psic. Fernando Reyes Baos

ALGUNAS APROXIMACIONES A LA MEDICIN EN PSICOLOGA

Un problema para el psiclogo es: Cmo descubrir la naturaleza y la amplitud de

Sin embargo, a la suposicin de que la dimensin cuantitativa es inherente a la

Hernndez Sampieri y otros

Kathia Ma. Costa Neiva

SOBRE LAS PRUEBAS

Para la seleccin. Se identifica a los solicitantes ms prometedores (los que tengan

Actitudes hacia las pruebas

Son mtodos para la observacin sistemtica de la conducta.

Las pruebas pueden servir como

1. Segn la conducta que miden:

8. Segn la forma de calificacin:

La estandarizacin sirve para:

a) Reducir al mnimo la posible influencia de variables personales y situaciones

DISEO Y ELABORACIN DE TESTS

Definicin de constructos que se desean medir y establecimiento

Escalas o inventarios de personalidad

Objetivos educativos: taxonomas

Dentro de la planeacin de un instrumento es importante contar con una tabla de

Se sugiere redactar inicialmente ms reactivos de los necesarios

Hablando propiamente de exmenes

Objetivos educativos planteados por el plan de estudios.

Objetivos educativos planteados por el programa de estudios.

Nivel al que se pretende que los estudiantes aprendan los temas y

Otras consideraciones acerca de los exmenes

Cuando sean reactivos de aparejamiento, que todas las opciones aparezcan en la

Hasta 5.99 = Malo

Sugerencias para calificar pruebas de ensayo.- Calificar la pregunta como un todo

En cuanto a las hojas de respuesta:

Para administrar una prueba se recomienda:

Finalmente, el aplicador debe expresar las instrucciones de la prueba lo ms claramente

Sugerencias sobre cmo

B. Falso y verdadero: encierre en un crculo la V si la afirmacin es verdadera; encierre

1. El sistema de clasificacin de pruebas ms comprensivo es el de The

C. Aparejamiento: escriba la letra que corresponde al nombre correcto en el espacio

D. Opcin mltiple: escriba la letra de la opcin correcta en el espacio del margen

1. Reactivos de ensayo. La ventaja ms importante de los reactivos de ensayo es que

Reactivos de respuesta corta, falso y verdadero y comparacin. Los reactivos objetivos

2. Reactivos de respuesta corta. Un reactivo de respuesta corta es una tarea de tipo de

La tendencia a estar de acuerdo cuando se tienen dudas (conformidad) es un ejemplo de

En promedio, los sujetos respondern en forma correcta 50 por ciento de los

4. Reactivos de aparejamiento. En cierto sentido, tanto los reactivos de falso y verdadero

Elaboracin de distractores. Un proceso crucial para determinar la efectividad de los

Elaboracin de reactivos complejos. Los creadores de pruebas por lo general tienen ms

2. Condiciones si-entonces. El examinando debe decidir la consecuencia correcta de

c. disminuye la varianza observada

3. Condiciones mltiples. El examinando utiliza dos o ms condiciones o afirmaciones

5. Falta de correspondencia. El Examinando indica cul de las opciones no pertenece

BREVE REPASO DE ALGUNOS TRMINOS ESTADSTICOS

Una caracterstica de la distribucin de datos es su tendencia a acumularse

MODA, el valor ms frecuente (Mo)

MEDIANA, el valor central (Mdn)

Ordenndose previamente los datos, se calcula la media de los valores

Ejercicio 2. Hallar la mediana de los siguientes datos.

MEDIA, promedio aritmtico de una distribucin (M)

Estas medidas indican la tendencia de los datos a dispersarse en torno al

RANGO, amplitud o recorrido (R)

DESVIACIN ESTNDAR (s) Y VARIANZA (s2)

Considerando lo anterior, la desviacin estndar es un promedio de las

Frmula de la desviacin estndar: s =

Se ordenan las puntuaciones.