Está en la página 1de 4

Paso 7.

Evaluar los reactivos

Después de que se haya desarrollado, analizado y administrado un conjunto inicial


de ítems a una muestra representativa y adecuadamente grande, es hora de
evaluar el desempeño de los ítems individuales para que se puedan identificar los
apropiados para constituir la escala.

Examen inicial del rendimiento de los reactivos


Cuando discutimos el desarrollo de ítems, nos referimos a algunas de las
cualidades que son deseables en un ítem de escala. La cualidad última que
buscamos en un ítem es una alta correlación con la puntuación real de la variable
latente. Como no podemos evaluar directamente la puntuación real, no podemos
calcular directamente sus correlaciones con los ítems. Sin embargo, podemos
hacer inferencias basadas en los modelos formales de medición que se han
discutido hasta ahora. Cuanto más confiables sean los ítems individuales, más
confiable será la escala que componen (asumiendo que comparten una variable
latente común). Entonces, la primera cualidad que buscamos en un conjunto de
ítems de escala es que estén altamente interrelacionados. Una forma de
determinar qué tan interrelacionados están los elementos es inspeccionar la matriz
de correlación.

Puntuación inversa
Si hay ítems cuyas correlaciones con otros ítems son negativas, entonces se debe
considerar la idoneidad de la puntuación inversa de esos ítems. Anteriormente,
sugerí que los elementos redactados en direcciones opuestas pueden plantear
problemas. Sin embargo, a veces, sin darnos cuenta, podemos terminar con
elementos correlacionados negativamente.
A veces, los reactivos se administran de tal manera que ya están invertidos. Por
ejemplo, se puede pedir a los sujetos que encierren en un círculo los valores
numéricos más altos para indicar que están de acuerdo con un elemento "feliz" y
los valores más bajos para respaldar uno "triste". Una forma de hacer esto es
hacer que los descriptores verbales de las opciones de respuesta (p. ej.,
"totalmente en desacuerdo", "moderadamente en desacuerdo", etc.) estén siempre
en el mismo orden para todos los elementos, pero que los números asociados con
ellos sean ascendentes o descendentes. descender, dependiendo del ítem.
Sin embargo, probablemente sea preferible alterar el orden de los descriptores (p.
ej., de "totalmente en desacuerdo" a "totalmente de acuerdo" de izquierda a
derecha para algunos ítems y al revés para otros). Otra opción es tener las
mismas descripciones verbales y sus números correspondientes para todos los
elementos, pero ingresar valores diferentes para ciertos elementos en el momento
de la codificación de datos.
El método más fácil para la puntuación inversa es hacerlo electrónicamente una
vez que los datos se hayan ingresado en una computadora. Unas pocas
declaraciones de computadora pueden manejar toda la puntuación inversa para
los datos de todos los sujetos. Si las opciones de respuesta tienen valores
numéricos y la transformación deseada es invertir el orden de los valores, se
puede utilizar una fórmula sencilla. Por ejemplo, suponga que un conjunto de
elementos de estado de ánimo formateados con una escala de Likert se calificó
del 1 al 7, donde los números más altos indican acuerdo. Suponga además que,
para facilitar la comprensión, tanto los ítems de estado de ánimo positivo como los
de estado de ánimo negativo utilizaron este mismo formato de respuesta. Sin
embargo, si se asigna una puntuación alta a los ítems de estado de ánimo
positivo, entonces la escala es esencialmente una escala de estado de ánimo
positivo. Respaldar un elemento de estado de ánimo positivo debería resultar en
un valor alto, y respaldar un elemento de estado de ánimo negativo debería
generar un valor bajo. Esto es lo que se obtendría si, para todos los ítems de
estado de ánimo negativo, las respuestas de 7 se cambiaran por 1, 6 por 2, y así
sucesivamente. Este tipo de transformación se puede lograr creando una nueva
partitura a partir de la partitura anterior con la siguiente fórmula: NUEVA = (J + 1 1)
− VIEJA, donde NUEVA y VIEJA se refieren a las partituras transformada y
original, respectivamente, y J es la número original de opciones de respuesta. En
el ejemplo presentado, J sería igual a 7 y (J + 1) sería 8. Restar una puntuación de
7 de 8 daría 1, restar 6 daría 2, y así sucesivamente.

Correlaciones de ítem-escala
Si queremos llegar a un conjunto de elementos altamente interrelacionados,
entonces cada elemento individual debe correlacionarse sustancialmente con la
colección de elementos restantes. Podemos examinar esta propiedad para cada
elemento calculando su correlación de escala de elementos. Hay dos tipos de
correlación ítem-escala. La correlación ítem-escala corregida correlaciona el ítem
que se evalúa con todos los ítems de la escala, excluyéndose a sí mismo,
mientras que la correlación ítem-escala no corregida correlaciona el ítem en
cuestión con el conjunto completo de ítems candidatos, incluido él mismo. Si se
consideraran 10 ítems para una escala, la correlación ítem-escala corregida para
cualquiera de los 10 ítems consistiría en su correlación con los otros 9. La
correlación no corregida consistiría en su correlación con los 10. En teoría, la el
valor no corregido nos dice qué tan representativo es el ítem de toda la escala. En
general, probablemente sea recomendable examinar la correlación ítem-total
corregida. Un ítem con un valor alto para esta correlación es más deseable que un
ítem con un valor bajo.

Variabilidad de los reactivos.


Otro atributo valioso para un elemento de escala es la variación relativamente alta.
Para tomar un caso extremo, si todos los individuos responden de manera idéntica
a un ítem dado, no discriminará en absoluto entre individuos con diferentes niveles
del constructo que se mide y su varianza será 0. En cambio, si la muestra de
desarrollo es diversa con respecto a el atributo de interés, entonces el rango de
puntajes obtenidos para un ítem también debe ser diverso. Esto implica una
varianza bastante alta. Por supuesto, no es deseable aumentar la varianza
agregando el componente de error. La comparación de las varianzas de los
elementos también puede ser útil, especialmente si el objetivo es desarrollar una
herramienta que cumpla con los supuestos de equivalencia esencial de tau?.
Aunque la equivalencia esencial de tau no asume varianzas iguales de ítems, sí
asume covarianzas iguales entre ítems con la puntuación verdadera. Por lo tanto,
cuando se cumplen los supuestos de este modelo, las diferencias en las varianzas
de los ítems se deben a la inconsistencia en las varianzas de los errores de los
ítems.

Medias de los reactivos.


También es deseable una media cercana al centro del rango de puntuaciones
posibles. Si, por ejemplo, las opciones de respuesta para cada elemento oscilan
entre 1 (correspondiente a “totalmente en desacuerdo”) a 7 (para “totalmente de
acuerdo”), una media de elemento cercana a 4 sería ideal. Si una media estuviera
cerca de uno de los extremos del rango, entonces el elemento podría no detectar
ciertos valores del constructo. Una acumulación de puntajes en el valor 7, por
ejemplo, sugeriría que el ítem no estaba redactado con suficiente fuerza (es decir,
que era raro encontrar a alguien que no estuviera de acuerdo con él).
Como resultado, por lo general, puede concentrarse principalmente en el patrón
de correlaciones entre elementos como indicador de su valor potencial. Sin
embargo, inspeccionar las medias y las varianzas es una doble verificación útil
una vez que se ha realizado una selección tentativa de elementos sobre la base
de las correlaciones.

Dimensionalidad
Un conjunto de elementos no es necesariamente una escala. Los elementos
pueden no tener una variable subyacente común (como en un índice o una
variable emergente) o pueden tener varias. Es fundamental determinar la
naturaleza de las variables latentes subyacentes a un conjunto de elementos. Por
ejemplo, una suposición subyacente a alfa es que el conjunto de elementos es
unidimensional. El mejor medio para determinar qué grupos de elementos, si los
hay, constituyen un conjunto unidimensional es el análisis factorial. Este tema es
lo suficientemente importante como para merecer un capítulo completo (ver
Capítulo 6). Aunque el análisis factorial requiere tamaños de muestra sustanciales,
también lo requiere el desarrollo de escalas en general. Si hay muy pocos
encuestados para el análisis factorial, todo el proceso de desarrollo de la escala
puede verse comprometido. En consecuencia, el análisis factorial de algún tipo
generalmente debería ser parte del proceso de desarrollo de la escala en esta
etapa.

Confiabilidad
Uno de los indicadores más importantes de la calidad de una escala es el
coeficiente de confiabilidad, alfa. Prácticamente todos los problemas de ítems
individuales discutidos hasta ahora (una media no central, poca variabilidad,
correlaciones negativas entre ítems, correlaciones de escala de ítems bajas y
correlaciones entre ítems débiles) tenderán a reducir el alfa y posiblemente
justificarán el uso de una alternativa, como omega.
Por lo tanto, después de que hayamos seleccionado nuestros elementos,
eliminando los malos y reteniendo los buenos, el alfa es una forma de evaluar qué
tan exitosos hemos sido, asumiendo que los elementos cumplen con los
supuestos para usar alfa. Alfa es una indicación de la proporción de variación en
las puntuaciones de la escala que es atribuible a la puntuación real. Hay varias
opciones para calcular alfa, que difieren en el grado de automatización. Algunos
paquetes de computadora tienen programas de análisis de elementos que
calculan alfa.
La fórmula de Spearman-Brown funciona con correlaciones promedio entre
elementos, y una de las implicaciones del modelo de equivalentes de tau es que
las correlaciones promedio entre elementos y la escala son iguales para cada
elemento, todavía no hay problema. No obstante, puede haber pequeñas (pero a
veces grandes) diferencias entre los valores de alfa obtenidos a partir de métodos
computacionales basados en covarianza versus métodos basados en correlación.
Debido a que la matriz de covarianza usa los datos en una forma más pura (sin
estandarización), es preferible y generalmente debe usarse.
Teóricamente, alfa puede tomar valores de 0,0 a 1,0, aunque es poco probable
que alcance alguno de estos valores extremos. Si alfa es negativo, algo anda mal.
Mis rangos de comodidad personal para las escalas de investigación son los
siguientes: por debajo de .60, inaceptable; entre .60 y .65, indeseable; entre .65
y .70, mínimamente aceptable; entre .70 y .80, respetable; entre .80 y .90, muy
bueno; y muy por encima de .90, se debe considerar acortar la escala (ver la
siguiente sección). Debo enfatizar que estas son agrupaciones personales y
subjetivas de valores alfa. No puedo defenderlos sobre bases estrictamente
racionales.
Una situación en la que los "rango de comodidad" sugeridos para alfa no se
aplican es cuando se está desarrollando una escala que requiere una precisión
crítica. Las situaciones clínicas son un ejemplo. Las pautas sugeridas son
adecuadas para instrumentos de investigación que se utilizarán con datos
grupales.
Las escalas destinadas al diagnóstico individual, el empleo, la ubicación
académica u otros propósitos importantes probablemente deberían tener una
confiabilidad considerablemente más alta, a mediados de los años 90, por
ejemplo.
La evaluación individual, especialmente cuando las decisiones importantes se
basan en esa evaluación, exige un estándar mucho más alto. Escalas destinadas
a diagnósticos individuales, empleo, ubicación académica u otros propósitos
importantes
En algunas situaciones, como cuando una escala consta de un solo elemento,
será imposible utilizar alfa como índice de fiabilidad. Si es posible, se debe realizar
alguna evaluación de confiabilidad. La correlación test-retest puede ser la única
opción en la instancia de un solo elemento.

También podría gustarte