Está en la página 1de 40

CAPÍTULO 10

Sesgos de
respuesta

Al comienzo de nuestra discusión sobre la validez, le pedimos que imaginara que


había tomado un cuestionario de personalidad como parte de un proceso de solicitud
de empleo. Revisemos ese ejemplo y le pedimos que se imagine completando el
cuestionario. Llegas a una pregunta que dice: "¿Alguna vez le has robado algo a un
empleador?" y otra que pregunta: "¿Siempre le dices la verdad a los demás? Al
pensar en estas preguntas, recuerda el momento en que "tomó prestada" una
pluma muy bonita de un lugar de trabajo anterior, pero "olvidó" devolverla.
Además, piensas en el hecho de que le dijiste a tu mejor amigo que necesitabas
trabajar el fin de semana pasado, cuando en realidad solo querías relajarte en casa
solo. Sin embargo, también piensa en el hecho de que le gustaría obtener el
trabajo, y considera las respuestas que podrían hacer que el empleador sea más
probable para contratarte Por lo tanto, a pesar del hecho de que su respuesta veraz a
la primera pregunta debería ser "Sí" y su respuesta veraz a la otra pregunta debería
ser "No", usted, como la mayoría de nosotros, podría tener la tentación de
responder, digamos " alternativa" respuestas a las dos preguntas.
¿Cómo afecta su deseo de ser contratado la calidad del cuestionario de personalidad?
El empleador podría querer interpretar sus respuestas como indicativo de
honestidad o integridad. Sin embargo, si elige hacer la respuestas alternativa,
entonces sus respuestas ya no se interpretan válidamente como indicativas de
integridad. En cambio, están sesgados por su motivación para impresionar al
empleador, y no reflejan su verdadero nivel de integridad, aunque sea un poco
imperfecto.

En este capítulo, abordamos el problema de los sesgos de respuesta y describimos


Algunas soluciones que los psicólogos han desarrollado para hacer frente al
problema. Como por mucho que podamos esperar que las respuestas a las medidas
psicológicas sean reflejos perfectamente precisos de las verdaderas características
psicológicas de los individuos, sabemos que tales respuestas pueden estar sesgadas
sistemáticamente por una variedad de razones.
Estos sesgos son importantes porque pueden dañar la calidad psicométrica de
muchos tipos de pruebas, escalas e inventarios. Más específicamente, pueden
disminuir la confiabilidad de la prueba y la validez con la que interpretamos las
medidas psicológicas, tales como inventarios de personalidad, encuestas de
actitud, pruebas de habilidad, pruebas de rendimiento y pruebas
neuropsicológicas. La disminución de la validez puede a su vez comprometer las
decisiones que se toman sobre los individuos, y puede causar problemas para
interpretar la investigación basada en esas medidas. Es decir, el daño
psicométrico causado por los sesgos de respuesta puede, a su vez, dañar
seriamente nuestra capacidad de utilizar medidas psicológicas de manera
significativa.
Ya sea que estén conscientes o inconscientes, sean maliciosos o cooperativos, se
realcen o se borren, los sesgos de respuesta son una preocupación constante en la
medición psicológica. De hecho, los sesgos de respuesta son un problema
fundamental para aquellos de nosotros que estudiamos o trabajamos con el
comportamiento humano. Además, son un problema que puede ser exclusivo del
estudio del comportamiento humano. Los científicos que estudian rocas, planetas,
insectos, productos químicos, huracanes o flores rara vez tienen preocupaciones de
que sus sujetos estén motivados para parecer particularmente inteligentes o no
inteligentes, saludables o no saludables, amigables o poderosos, competentes o
necesitados, honestos o virtuosos. Los psicólogos deben preocuparse por todos esos
problemas y más.
Conscientes de tales problemas, los psicólogos se han dedicado a identificar,
comprender, detectar y manejar los sesgos que afectan las respuestas a las
pruebas y medidas psicológicas (por ejemplo, Cronbach, 1946, 1950; Schwarz,
1999). Primero describimos algunos sesgos de respuesta que han sido de mayor
preocupación para los científicos del comportamiento. Luego pasamos a ideas y
soluciones, algunas simples y otras complejas, que se utilizan para comprender,
detectar, minimizar y hacer frente a Esos prejuicios.

Tipos de sesgos de
respuesta

La calidad de la medición psicológica puede verse afectada por una variedad de


Sesgos de respuesta. En esta sección, describimos una serie de sesgos que han
preocupado a los desarrolladores y usuarios de medidas psicológicas. Algunos de
estos sesgos se ven afectados por el contenido o el formato de una prueba,
algunos se ven afectados por factores del contexto de la prueba, otros reflejan los
esfuerzos conscientes de los encuestados para responder de manera no válida, y
otros reflejan factores inconscientes que sesgan las respuestas. Cualesquiera que
sean sus diferencias, todos los sesgos revisados en esta sección tienen el potencial
para comprometer la calidad de la medición psicológica.
Sesgo de aquiescencia ("Sí decir y decir no")
Los psicólogos y otros científicos conductuales han estado preocupados por el
sesgo de aquiescencia durante más de 80 años (por ejemplo, Block, 1965; Cady,
1923; Cloud Y Vaughn, 1970; Cronbach, 1942; Lentz, 1938; Ray, 1983; Smith,
2004). El sesgo de aceptación ocurre cuando un individuo está de acuerdo con las
declaraciones sin tener en cuenta el significado de esas declaraciones. Muchos
inventarios psicológicos incluyen declaraciones que podrían ser ciertas para un
individuo (por ejemplo, "Disfruto mi trabajo"), y se les pide a las personas que
respondan si están de acuerdo o en desacuerdo con las declaraciones. El sesgo de
aceptación puede afectar las respuestas a tales elementos, que a menudo se
encuentran en inventarios de rasgos de personalidad, cuestionarios de actitud,
inventarios de intereses, inventarios clínicos y encuestas de marketing.
El sesgo de aquiescencia y sus efectos se ilustran en la Tabla 10.1a. Imagine un
psicólogo industrial / organizacional que esté interesado en la asociación entre la
satisfacción laboral y el prestigio percibido. Ella plantea la hipótesis de que las
personas con una satisfacción laboral relativamente alta serán aquellas que perciben
sus trabajos como relativamente prestigiosos. Pide a los empleados de una empresa
que completen un cuestionario de satisfacción laboral que incluye los siguientes
cuatro elementos:

1. Realmente disfruto mi trabajo.


2. Encuentro mi trabajo personalmente satisfactorio.
3. En general, estoy satisfecho con los aspectos cotidianos de mi trabajo.
4. Hay muy poco que cambiaría sobre mi trabajo.

Además, imagine que las respuestas se realizan en una escala de 7 puntos (1 =


muy en desacuerdo, 2 = moderadamente en desacuerdo, 3 = ligeramente en
desacuerdo, 4 = neutral, 5= ligeramente de acuerdo, 6 = moderadamente de
acuerdo, 7 = muy de acuerdo). La "clave" de puntuación para este cuestionario
hipotético es tal que las respuestas de un individuo a los ítems simplemente se
suman para formar un puntaje de satisfacción laboral total, con puntajes altos que
reflejan altos niveles de satisfacción. Tabla 10.1a presenta las respuestas a estos
ítems y la puntuación total para el cuestionario de satisfacción. Examinando estos
datos, vemos que los encuestados 1, 2 y 4 tienen los puntajes más altos en el
cuestionario de satisfacción laboral, y nos gustaría interpretar que esto indica que
tienen los niveles más altos de satisfacción laboral.
La redacción de los ítems es un tema importante en este cuestionario hipotético.
Tenga en cuenta que cada elemento está redactado de manera que una respuesta de
"acuerdo" (es decir, una respuesta de 5, 6 o 7) se interprete como que el encuestado
está al menos algo satisfecho con su trabajo. Los psicometristas pueden decir que los
artículos son todos" Introducido en la dirección positiva" porque una respuesta
positiva (es decir, de acuerdo) a cada ítem refleja un nivel relativamente alto del
constructo que se está evaluando.
El hecho de que todos los ítems estén codificados en la misma dirección es
importante porque hace que el cuestionario sea particularmente susceptible a los
efectos de un sesgo de respuesta de aquiescencia. Imaginemos una vez más que
somos omniscientes y sabemos que dos participantes (Participantes 1 y 4, como
se señala en la Columna 2 de la Tabla 10.1a) exhibió un sesgo de aquiescencia
pero que los otros cuatro participantes respondían válidamente. Tenga en cuenta
que los respondedores conformes aceptaron los cuatro puntos, aunque
honestamente podrían no estar satisfechos con su trabajo. La dificultad se agrava
por el hecho de que al menos un participante adicional (Participante 2) también
estuvo de acuerdo con los cuatro puntos porque está realmente satisfecho con su
trabajo. Si no fuéramos omniscientes, si no supiéramos que los Participantes 1 y 4
respondieron inválidamente, entonces no podríamos distinguir a los que
respondieron con aquiescencia de aquellos que estaban realmente satisfechos con su
trabajo.
La respuesta aquiescente tiene implicaciones directas para los usuarios de pruebas en
psicología aplicada. Específicamente, si algunas personas se involucran en una
respuesta de aceptación mientras que otras no, entonces los usuarios de la prueba
podrían no ser capaces de usar los puntajes de la prueba de manera efectiva para
identificar qué personas tienen un alto nivel de construcción siendo evaluado Es
decir, los usuarios de la prueba podrían no ser capaces de detectar qué
encuestados tienen un alto nivel de construcción y qué encuestados simplemente
están respondiendo con un sesgo de aquiescencia.

Tabla 10.1 El sesgo de respuesta de aquiescencia puede crear una correlación


espuria
NOTA:JS = satisfacción laboral; PP = prestigio
percibido.

Por ejemplo, un gerente de recursos humanos podría administrar una escala


de Conciencia a un conjunto de solicitantes de empleo, pero podría no ser
capaz de identificar qué solicitantes realmente tienen altos niveles de
Conciencia. Si se ignora este problema, cualquier decisión que se base en
dichos puntajes de los exámenes podría estar mal informada y mal
orientada. El director de recursos humanos, por ejemplo, podría terminar
contratando varios solicitantes que simplemente responden de forma
complaciente en lugar de trabajadores verdaderamente concienzudos.
La respuesta acquiescente también tiene serias implicaciones para el
comportamiento investigación, comprometiendo la capacidad de los
investigadores para responder a sus preguntas de investigación con
precisión. Volviendo a nuestro ejemplo de satisfacción laboral, digamos
que, junto con el cuestionario de satisfacción laboral, los participantes
completan una medida de cuatro ítems de Prestigio percibido que se
responde en una escala de acuerdo de 5 puntos (1 = totalmente en desacuerdo,
2 = en desacuerdo, 3 = neutral, 4 = de acuerdo, 5 = totalmente de acuerdo).
Como se muestra enTabla 10.1a, aquellos participantes que fueron
aquiescentes mientras respondían a la escala de Satisfacción laboral (JS)
también lo fueron mientras respondían a la Escala de prestigio percibido.
Los participantes 1 y 4 responden una vez más a todas las preguntas
utilizando las opciones de "acuerdo" (4 y 5).En los seis participantes
(incluidos los respondedores válidos y los respondedores conformes), la
correlación entre la satisfacción laboral y el prestigio percibido es r = .43
(ver la Tabla 10.1). Esta correlación de "muestra total" sugiere que las dos
construcciones están relacionadas entre sí, lo que es consistente con la
hipótesis del investigador.
Sin embargo, debido a que somos temporalmente omniscientes, podemos
examinar la correlación entre la satisfacción laboral y el prestigio percibido
entre aquellos cuatro participantes que respondieron válidamente. Vemos
que esta correlación de "respondedor válido" es bastante débil, r = - .09.
Por lo tanto, de acuerdo con respuestas válidas, satisfacción y prestigio no
están asociados entre sí. Vemos que la inclusión de participantes conformes
creó una alta correlación artificial (es decir, espuria) entre las dos medidas.
Como la investigadora no es omnisciente, solo tiene acceso a la correlación
original. En base a esto, llegaría a una conclusión incorrecta sobre el vínculo
entre la satisfacción laboral y el prestigio percibido.
Por lo tanto, los respondedores conformes presentan una amenaza sutil
pero potencialmente importante para la calidad psicométrica de la medición
psicológica, que puede comprometer la práctica y la investigación del
comportamiento. Dicho brevemente, los usuarios de la prueba pueden no
ser capaces de diferenciar a los que responden con aquiescencia de los que
responden de manera válida y que tienen un alto nivel del constructo que se
está evaluando. Si todos los ítems de una medida se califican en la misma
dirección, entonces un conjunto de respuestas "positivas" podría reflejar un
conjunto válido de respuestas, o podría reflejar un sesgo de respuesta de
aquiescencia. Una consecuencia importante del sesgo de aquiescencia es que
si múltiples pruebas están "contaminadas" por el sesgo, entonces las pruebas
estarán más fuertemente correlacionadas entre sí que las construcciones
subyacentes. Esta consecuencia se produce porque los encuestados que son
aquiescentes en una prueba probablemente lo sean en la otra, lo que garantiza
que obtendrán puntajes relativamente altos en ambas pruebas. Como se
discutió en el Capítulo 3, una correlación positiva ocurre cuando las personas
que tienen puntajes relativamente altos en una variable tienden a tener
puntajes relativamente altos en otra variable.
Aunque nos hemos centrado en la aquiescencia o el sesgo de "decir sí",
también puede tomar la forma de "no decir", donde un individuo no está de
acuerdo con las declaraciones, independientemente de su significado. Un
sesgo negativo puede tener efectos similares al sesgo que dice sí. Al
asegurar que las personas que obtienen relativamente puntajes bajos en una
prueba también obtendrán puntajes relativamente bajos en otra prueba, decir
que el sesgo crea correlaciones que son artificialmente más positivas de lo
que deberían ser.
En resumen, el sesgo de respuesta de aquiescencia (incluyendo no decir) es
una amenaza para Calidad psicométrica que ha preocupado durante mucho
tiempo a los psicólogos y otros científicos del comportamiento. Aunque
algunos investigadores cuestionan la existencia o el impacto de los sesgos
de respuesta (Rorer, 1965), mucha evidencia sugiere que el sesgo de
aquiescencia existe y afecta varias formas de medición psicológica
(Knowles y Nathan, 1997; Van Herk, Poortinga y Verhallen, 2004). El
sesgo parece ocurrir con mayor frecuencia cuando los encuestados no
entienden fácilmente los ítems de la prueba, porque los ítems son complejos
o ambiguos, porque la situación de la evaluación presenta distracciones o
porque el encuestado naturalmente tiende a tener dificultades para
comprender el material. Como han ilustrado nuestros ejemplos, el sesgo
puede crear puntuaciones de prueba artificialmente altas (o bajas para el
sesgo negativo) para las pruebas en las que todos los ítems están codificados
en la misma dirección. En consecuencia, el sesgo puede afectar la
investigación al crear correlaciones que son artificialmente más positivas de lo
que deberían ser.

Respuesta extrema y moderada


Como hemos visto, muchos cuestionarios incluyen declaraciones o
preguntas que requerir que las personas respondan en términos de intensidad,
respaldo u ocurrencia. Por ejemplo, el Inventario de ansiedad por rasgos
estatales (STAI; Spielberger, 1983) es un cuestionario ampliamente utilizado
diseñado para evaluar los niveles de ansiedad de estado y ansiedad por rasgos
de los encuestados. La subescala de ansiedad de rasgo del STAI consta de 10
declaraciones sobre el nivel general de angustia psicológica. Los elementos de
esta escala incluyen declaraciones como "Me falta confianza en mí mismo" y
"Soy una persona estable" (tenga en cuenta que este item tiene una clave
negativa). Para cada declaración, los encuestados tienen cuatro opciones de
respuesta: casi nunca, a veces, a menudo y casi siempre.
En muchos de estos cuestionarios, las opciones de respuesta reflejan
diferentes grados.
de intensidad, respaldo u ocurrencia, y algunas reflejan un grado extremo y
otras opciones reflejan grados más moderados. Por ejemplo, en el STAI, la
opción casi siempre es una opción más extrema (que refleja una opción
más extrema grado de ocurrencia) que la opción a menudo. Otras escalas
incluyen opciones de respuesta que se refieren al grado de precisión de las
declaraciones o al grado en que el encuestado está de acuerdo con las
declaraciones. Por ejemplo, la personalidad internacional el conjunto de
elementos (Goldberg et al., 2006) incluye una escala de espiritualidad /
religiosidad (S / R) con elementos como "Soy una persona espiritual", y las
respuestas pueden hacerse en una escala de 5 puntos: muy inexacta,
moderadamente inexacta, ni impreciso ni preciso, moderadamente precisa y
muy precisa. En la escala S / R, la opción muy precisa es una opción más
extrema que la opción moderadamente precisa (que refleja un grado de
precisión más extremo), y la opción muy imprecisa es una opción más
extrema que la opción moderadamente imprecisa.
El problema de los sesgos de respuesta extrema y moderada (o "estilo de
respuesta extrema") se refiere a las diferencias en la tendencia a usar o
evitar opciones de respuesta extrema. En el STAI, un encuestado podría
estar mucho más dispuesto a hacer una elección de respuesta "extrema"
(por ejemplo, responder casi siempre a la afirmación "Me falta confianza
en sí mismo") que otro encuestado, incluso si esos dos encuestados tienen
el mismo nivel de respuesta. ansiedad. Del mismo modo, en la escala S / R,
un encuestado podría estar mucho más dispuesto a responder con mucha
precisión a la afirmación "Soy una persona espiritual" que otro encuestado,
incluso si los dos encuestados tienen el mismo nivel de espiritualidad. En
pocas palabras, las personas pueden diferir en su disposición a usar
opciones de respuesta extremas, y esto puede oscurecer las diferencias en
los niveles verdaderos del constructo.
Las ambigüedades creadas por las diferencias en el uso de opciones de
respuesta extrema por parte de los participantes tienen implicaciones
importantes para la práctica psicológica aplicada y para los resultados de la
investigación. Como se señaló anteriormente para el sesgo de aquiescencia, el
sesgo de las extremidades puede crear ambigüedad en los puntajes de los
encuestados, lo que puede llevar a los tomadores de decisiones a tomar
decisiones inapropiadas sobre la base de esos puntajes.
En términos de investigación conductual, el sesgo de las extremidades
puede producir resultados que conducen a conclusiones inexactas. Como
ejemplo, considere los datos en la Tabla 10.2. Imagine que un investigador
está estudiando la asociación entre espiritualidad y angustia emocional e
hipotetiza que la correlación será positiva: las personas con niveles más
altos de espiritualidad tenderán a tener niveles de angustia relativamente
altos. Para examinar esta asociación, les pide a los participantes que
completen cuatro ítem del STAI (los puntajes altos deberían indicar mayor
ansiedad y angustia), junto con una versión de cuatro ítems de la escala S / R
(los puntajes altos deberían indicar una mayor espiritualidad).
Una vez más, fingiremos ser omniscientes. En la Tabla 10.2, la columna
"Ansiedad verdadera" presenta los verdaderos niveles de ansiedad de rasgo de
los participantes. Vemos, por ejemplo, que los Participantes 1 y 2 tienen el
mismo nivel de rasgo (es decir, ambos puntajes verdaderos son 14) que los
Participantes 4 y 5 (es decir, ambos puntajes verdaderos son 6). Calcular la
correlación entre los verdaderos niveles de ansiedad y los verdaderos niveles
de espiritualidad (ver Tabla 10,2), esencialmente no encontramos asociación
(r = - .04). Así, nuestra omnisciencia nos permite darnos cuenta de que
realmente no hay tendencia para que las personas con una espiritualidad
relativamente alta tengan más o menos ansiedad que las personas con una
espiritualidad relativamente baja. Esto contradice la hipótesis del
investigador de que la alta espiritualidad está asociada con altos niveles de
angustia.

Tabla 10.2Sesgo de
extremidad

NOTA:STAI = Inventario de ansiedad por rasgos de estado; S / R = Escala de


espiritualidad / religiosidad.

Por supuesto, el investigador no conocería los verdaderos niveles de rasgos de


los participantes, teniendo acceso solo a las respuestas de la prueba. Así que
examinemos las respuestas reales de los participantes a la versión de cuatro
ítems del STAI y compárelas con sus niveles de rasgos verdaderos. Para esta
versión del STAI, el investigador utilizó lo siguiente puntuación: 1 = casi
nunca, 2 = a veces, 3 = a menudo y 4 = casi siempre. Tenga en cuenta que
el participante 1 respondió casi siempre a los cuatro ítems, para un puntaje
total de 16. También tenga en cuenta que el participante 2 respondió a
menudo a los cuatro ítems, para un puntaje total
de 12. Por lo tanto, estos dos participantes obtienen puntajes diferentes en
la medida de ansiedad, a pesar de que tienen el mismo rasgo de ansiedad.
Esta discrepancia surge porque el participante 1 estaba dispuesto a usar una
opción de respuesta más extrema que el participante 2. Como lo ilustra esta
discrepancia, el sesgo de las extremidades puede generar diferencias
artificiales entre los puntajes de los encuestados. Tenga en cuenta que esta
tendencia es estable, ya que también afecta las respuestas de los participantes
a la escala S / R.
Además de generar diferencias artificiales entre los puntajes de las pruebas de
los encuestados, el sesgo de las extremidades puede ocultar las diferencias
reales entre los encuestados en los niveles del constructo . Considere a los
participantes 2 y 3. Estos participantes tienen diferentes niveles de
ansiedad, pero los puntajes de sus exámenes son idénticos. Porque el
participante 2 es reacio a usar una opción de respuesta más extrema, su
puntaje de prueba no es tan alto como lo justifica su nivel de rasgo. Por lo
tanto, su puntaje de prueba es idéntico al de un participante con un nivel de
rasgo más bajo.
En última instancia, este tipo de problemas puede producir resultados que
conducen a conclusiones de investigación inexactas. Anteriormente, en
nuestro estado omnisciente, calculamos la correlación entre los verdaderos
niveles de ansiedad de los participantes y sus verdaderos niveles de
espiritualidad (ver Tabla 10.2), encontrando esencialmente una correlación
cero. Ahora, calculemos la correlación entre los puntajes de ansiedad medidos
de los participantes (STAIpuntajes de rasgos) y sus puntajes medidos de
espiritualidad (puntajes de escala S / R). Basado en los datos en la Tabla
10.2, esta correlación es r = .36, lo que llevaría al investigador a concluir
que la espiritualidad se asocia positivamente con la ansiedad. Obviamente,
la correlación basada en los puntajes medidos (que se ven afectados por el
problema de extremidad) es significativamente diferente de la correlación
basada en puntajes verdaderos (que solo conocemos a través de la
omnisciencia). Por lo tanto, las conclusiones psicológicas derivadas de los
análisis estadísticos de las puntuaciones medidas son incorrectas, en
comparación con la conclusión que se derivaría si el investigador tuviera
conocimiento directo de los niveles de rasgos verdaderos de los
participantes. De esta manera, el problema de las extremidades puede
contribuir a conclusiones de investigación incorrectas. En el ejemplo
actual, el investigador concluiría incorrectamente que la espiritualidad está
asociada con la angustia emocional.
Tenga en cuenta que el uso de opciones de respuesta extrema en sí mismo
no es un sesgo o un problema, ni el uso de opciones de respuesta más
moderadas. De hecho, los usuarios de prueba esperan que el uso de
opciones de respuesta refleje el nivel de rasgo de un individuo: las personas
con niveles de rasgos más extremos (es decir, particularmente altos o
particularmente bajos) deberían usar opciones de respuesta más extremas, y
las personas con niveles de rasgos más moderados deberían usar opciones de
respuesta más moderadas. Sin embargo, surgen problemas cuando (a) las
personas con niveles de construcción idénticos difieren en su tendencia a usar
opciones de respuesta moderadas y extremas o (b) cuando las personas con
niveles de construcción diferentes no difieren en su disposición a usar
moderadas y extremas opciones de respuesta
Los psicólogos y otros científicos del comportamiento han estudiado el
alcance y las fuentes del problema de las extremidades. ¿Es realmente
cierto que algunas personas están más dispuestas a usar opciones de
respuesta extrema que otras, y si es así, entonces por qué? La investigación
sugiere que efectivamente hay razones para preocuparse por el sesgo de las
extremidades. Los estudios han demostrado que las diferencias en la
tendencia a usar las opciones de respuesta extrema son bastante estables en
todas las medidas y en el tiempo (por ejemplo, Bachman y O'Malley, 1984;
Jain y Agarwal, 1977; Merrens, 1970), aunque algunos estudios no han
podido replicar este efecto. Bachman y O'Malley (1984), quienes encontraron
"diferencias individuales sustanciales y bastante consistentes en la tendencia a
usar, o evitar, las categorías de respuesta extrema" (p. 506) llevaron a cabo un
ejemplo de investigación que indica la estabilidad del efecto. , con estas
consistencias que duran intervalos de hasta 4 años.
En resumen, el sesgo de las extremidades puede disminuir la calidad de las
medidas psicológicas. Algunos encuestados están dispuestos a usar opciones
de respuesta extremas, pero otros tienden a evitar opciones de respuesta
extrema. La diferencia en los estilos de respuesta puede oscurecer las
diferencias en los niveles de rasgos verdaderos de los encuestados. Tales
efectos pueden, a su vez, comprometer la práctica psicológica y pueden
disminuir la precisión de las conclusiones de la investigación.
Deseabilidad social
El problema de la deseabilidad social ha atraído quizás la mayor atención
entre los psicólogos preocupados por los sesgos de respuesta. El sesgo de
respuesta de la deseabilidad social es la tendencia de una persona a
responder de una manera que parece socialmente atractiva,
independientemente de sus verdaderas características. Al comienzo de este
capítulo, le pedimos que se imagine a sí mismo completando un
cuestionario como parte de un proceso de contratación. En ese escenario,
destacamos la posibilidad de que se sienta tentado a proporcionar
respuestas que sean atractivas para el empleador. Es posible que sienta la
tentación de responder de una manera que mejore las cualidades deseables,
como la honestidad, la integridad, la conciencia y la estabilidad emocional.
Si las respuestas son causadas por una motivación para parecer socialmente
deseable, entonces no reflejan los verdaderos niveles de los constructos
evaluados de los encuestados. Esto puede disminuir la confiabilidad y validez
del proceso de medición.
El sesgo de deseabilidad social puede verse afectado por al menos tres
fuentes. Primero, puede verse afectado por el contenido de una prueba.
Algunas construcciones psicológicas tienen mayores implicaciones para el
atractivo social que otras, y por lo tanto, las pruebas que se centran en esas
construcciones podrían verse más negativamente afectadas por la
conveniencia social que las pruebas de Otras construcciones. Por ejemplo,
las características de la personalidad como el bienestar psicológico (frente
a la angustia psicológica) o la honestidad (frente al engaño) pueden estar
estrechamente relacionadas con la deseabilidad social, con un bienestar y
una honestidad claramente más deseables que la angustia y el engaño. Por
otro lado, características como la extraversión (vs. introversión) podrían
verse menos afectadas por tales motivaciones (John y Robins, 1993). En
segundo lugar, el sesgo de deseabilidad social podría verse afectado por el
contexto de prueba. La respuesta socialmente deseable podría ser más
probable en contextos en los que los encuestados pueden ser identificados que
en contextos en los que son anónimos. Cuando los encuestados pueden
vincularse a sus respuestas, es más probable que proporcionen respuestas que
sean socialmente atractivas. Además, la respuesta socialmente deseable podría
ser más probable en contextos en los que las consecuencias importantes
dependen de los resultados de las pruebas. El ejemplo de contratación
representa un contexto en el que las respuestas de la prueba pueden tener
implicaciones importantes: la posibilidad de que los individuos sean
contratados depende en parte de sus puntajes en las medidas psicológicas. La
respuesta socialmente deseable probablemente sea menos preocuparse si no
hay consecuencias importantes de la prueba (aunque todavía es un
problema potencial, como veremos a continuación).
Una tercera fuente potencial de respuesta socialmente deseable es la
personalidad de los encuestados Como lo demuestra la investigación que se
remonta al menos a la década de 1950,Algunas personas tienen más
probabilidades de proporcionar respuestas socialmente deseables que otras.
Nuevamente, la dificultad surge porque las diferencias en la tendencia de
los participantes a proporcionar respuestas socialmente deseables pueden
ocultar las diferencias en la verdaderos niveles de los rasgos que se evalúan.
Obviamente, existe una seria preocupación por el impacto que la
deseabilidad social puede tener en algunas áreas de la psicología aplicada.
De hecho, muchas pruebas de personalidad son bastante "transparentes" en
términos de ser obvias sobre los tipos de cualidades que se están
evaluando, y en tales pruebas es fácil "falsificar" las cualidades deseables
(Alliger y Dwight, 2000; Baer, Wetter, & Berry, 1992; Viswesvaran, &
Ones,
1999). Desafortunadamente, alguna evidencia sugiere que dicha
falsificación ocurre con bastante frecuencia, al menos en el contexto de las
solicitudes de empleo (Donovan, Dwight y Hurtz, 2003). Tal falsificación
puede, a su vez, afectar la toma de decisiones en la práctica psicológica.
Por ejemplo, si los solicitantes de empleo exageran sus cualidades positivas
y minimizan sus cualidades negativas, las decisiones de contratación
pueden verse comprometidas severamente. De hecho, se ha sugerido que
"cuando se produce la falsificación, los contratados bajo una estrategia de
selección [basada en pruebas] probablemente sean falsificadores" (Alliger &
Dwight, 2000, p. 62).
Además, la conveniencia social es una preocupación seria para los
investigadores del comportamiento también. Para comprender el sesgo de
respuesta de la deseabilidad social y su efecto en los resultados de la
investigación, imagine que un investigador examina la asociación entre
emocionalidad y calidad de relación. Ella plantea la hipótesis de que las
personas que tienden a experimentar altos niveles de emociones positivas
(o que tienden a experimentar bajos niveles de emociones negativas)
también tienden a desarrollar relaciones de alta calidad. Más técnicamente,
espera encontrar una correlación positiva entre la emocionalidad positiva y
la calidad de la relación, y espera encontrar una correlación negativa entre
la emocionalidad negativa y la calidad de la relación. Examinar en este
tema, pide a los participantes que completen el Programa de afectos positivos
y negativos (PANAS; Watson, Clark y Tellegen, 1988). El PANAS es una
medida de afectividad muy utilizada y se puede usar para medir las
diferencias de nivel de rasgo (es decir, estable) en las tendencias generales de
los encuestados a experimentar emociones positivas y emociones negativas.
El PANAS incluye dos escalas: afecto positivo (AP) y afecto negativo (NA),
cada una de las cuales incluye 10 emociones (p. Ej., Fuerte, orgulloso,
excitado, nervioso, culpable, angustiado). Aunque los investigadores usan el
PANAS de muchas maneras diferentes, imaginemos que nuestro investigador
les pidió a los participantes que leyeran cada ítem y calificaran el grado en
que generalmente se sienten cada emoción, con respuestas hechas en una
escala de 5 puntos. Las escalas PA y NA se puntuaron calculando la media
de las 10 respuestas para cada escala, por lo que las puntuaciones oscilan
entre 1 y 5, con puntuaciones más altas que reflejan una mayor tendencia a
experimentar cada tipo de afecto. Finalmente, el investigador pide a los
participantes que califiquen la calidad general de sus relaciones sociales en
una escala de 1 a 100, con mayores niveles que representan una mejor
calidad de relación.
Tenga en cuenta que estas tres construcciones: afecto positivo, afecto
negativo y
calidad de relación: se ven potencialmente afectados por sesgos de
deseabilidad social. A menos en las culturas occidentales, el alto afecto
positivo es culturalmente preferible al bajo afecto positivo, y el bajo afecto
negativo es preferible al alto afecto positivo. Es decir, las personas que
expresan fuerza, orgullo y entusiasmo generalmente se consideran
socialmente atractivas y admirables, mientras que las personas que
expresan nerviosismo, culpa y angustia generalmente se consideran
socialmente poco atractivas y no admirables. Finalmente, la mayoría de las
culturas percibirían las relaciones de alta calidad como valiosas y
deseables. Por lo tanto, un individuo que desea parecer socialmente
atractivo puede reclamar altos niveles de afecto positivo, reclamar bajos
niveles de afecto negativo e informar relaciones de alta calidad.
Imaginemos nuevamente que somos omniscientes, sabiendo que los
participantes son verdaderos niveles de afecto positivo, afecto negativo y
calidad de relación. Por ejemplo, Tabla 10.3muestra que el participante 1
tiene el nivel verdadero más alto (4.5) de afecto positivo (AP) y que el
participante 2 tiene el siguiente nivel más alto (4). Además, tenga en cuenta
que el participante 4 realmente tiene el más alto nivel de calidad de relación
(RQ). Calculando la correlación entre estos niveles verdaderos de PA y los
niveles verdaderos de RQ, encontramos un leve apoyo a la hipótesis del
investigador: una correlación positiva débil (es decir, r = .23). De manera
similar, la asociación entre el verdadero afecto negativo (NA) y el RQ
verdadero proporciona un apoyo leve adicional para la hipótesis del
investigador: una correlación negativa débil (es decir, r = - .21). Por lo
tanto, nuestra omnisciencia nos permite observar una tendencia débil a que
las personas con niveles relativamente altos de PA o niveles bajos de NA
también tengan relaciones de calidad relativamente alta.
Imaginemos también que, en nuestro estado omnisciente, sabemos el grado
de que cada participante está motivado para proporcionar respuestas
socialmente deseables. Como se muestra en la columna etiquetada "Motivo
SD" en la Tabla 10.3, El participante 2 está muy motivado para proporcionar
respuestas socialmente deseables, los participantes 3 y 5 están algo motivados
para hacerlo, pero los participantes restantes no tienen una motivación
particular para parecer más deseables de lo que son "verdaderamente".

Tabla 10.3Ejemplo del efecto del sesgo de respuesta de deseabilidad social


en
Resultados
de la
investigación

NOTA:SD = socialmente deseable; PA = escala de afecto positivo; NA = escala de afecto negativo; RQ


= calidad de relación.

Podemos ver cómo la deseabilidad social afecta la medición de los tres


constructos. Específicamente, para los participantes motivados por un sesgo
de deseabilidad social, los puntajes medidos son más hacia la dirección
"deseable" que sus niveles verdaderos. Por ejemplo, tenga en cuenta al
participante 2, que tiene un alto nivel de motivación de deseabilidad social.
La puntuación medida de este participante en la escala PA (es decir, 5) es más
alto que su verdadero nivel de PA (es decir, 4), lo que refleja un deseo de
reclamar un artificialmente alto nivel de PA. Por lo tanto, la alta
motivación de este participante para parecer socialmente deseable ha
influido en sus respuestas a algunos de los elementos de PA, lo que resulta
en una puntuación inflada en la medida de PA. Del mismo modo, su
puntaje en la escala de NA (es decir, 1) es inferior a su verdadero nivel de
NA (es decir, 2), lo que refleja un deseo de reclamar un nivel
artificialmente bajo de NA. Por lo tanto, las puntuaciones medidas en
construcciones deseables tales ya que PA y RQ se inflan artificialmente para
aquellos participantes con una motivación de deseabilidad social, y los
puntajes en construcciones "indeseables" como NA se desinflan
artificialmente. Por el contrario, para los participantes que no están motivados
por un sesgo de deseabilidad social, sus puntajes medidos son equivalentes a
sus valores reales, independientemente de la "conveniencia" de la
construcción.
Una consecuencia importante del sesgo de deseabilidad social es que los
resultados de la investigación puede ser comprometido Lo más preocupante
es la posibilidad de que las diferencias individuales en el sesgo de
deseabilidad social puedan crear correlaciones falsas o artificialmente fuertes
entre las medidas que están "contaminadas" por el sesgo. Los datos en la
Tabla 10.3ilustra este efecto. Como hemos discutido, hay al menos dos
problemas en los datos. Primero, los participantes difieren en términos de
su motivación para parecer socialmente deseables: algunos tienen una
motivación moderada o fuerte, pero otros tienen una motivación débil o
nula. Segundo, las tres variables están vinculadas a la deseabilidad social, y
por lo tanto su medición está potencialmente contaminada por motivación de
conveniencia (de hecho, las medidas en la Tabla 10.3están contaminados
por el sesgo, como hemos visto). El efecto de estos dos problemas es que
los participantes con motivación de deseabilidad social tienden a tener
puntuaciones más altas en PA y RQ (y puntuaciones más bajas en NA) que
los participantes sin motivación de deseabilidad social. Por lo tanto, el
sesgo de deseabilidad social infla el grado en que las personas que tienden
a obtener un puntaje alto en una medida también tienden a obtener un
puntaje alto en las otras medidas. Esto a su vez afecta las correlaciones
entre las medidas.
El efecto del sesgo de deseabilidad social es evidente en las correlaciones
infladas artificialmente entre las tres medidas. Tenga en cuenta que las
correlaciones entre los puntajes verdaderos son mucho más débiles que las
correlaciones entre las tres medidas. Más temprano, nuestra omnisciencia
nos permitió saber que la correlación "verdadera" entre PA y RQ fue solo
de .23 y que la correlación "verdadera" entre NA y RQ fue solo: .21. Como la
Tabla 10.3muestra, las correlaciones entre las medidas son mucho más
fuertes: la correlación entre la medida PA y la medida RQ es .51, y la
correlación entre la medida NA y la medida RQ es - .65. Por lo tanto, el sesgo
de deseabilidad social puede inflar artificialmente la correlación entre las
medidas. En nuestro ejemplo, el investigador podría interpretar las
correlaciones infladas artificialmente entre las medidas (es decir, r = .51 y r
= - .65) como evidencia de asociaciones muy fuertes entre la
emocionalidad y la calidad de la relación. Nuevamente, nuestra
omnisciencia temporal reveló que tales interpretaciones son incorrectas: las
correlaciones entre los constructos son en realidad mucho más débiles de lo
que el investigador se da cuenta. El investigador está sobreestimando
severamente el tamaño de las asociaciones debido a la invalidez de la
medición causada por el sesgo de deseabilidad social. Tales
sobreestimaciones pueden, a su vez, producir inferencias engañosas sobre las
teorías y podrían producir decisiones inapropiadas en entornos aplicados.
Como se mencionó anteriormente en esta sección, los psicólogos han
estudiado ampliamente el sesgo de respuesta de la deseabilidad social. Uno de
los investigadores más activos en esta área ha sido Del Paulhus, un psicólogo
de la personalidad que ha estado interesado en responder socialmente como
un aspecto de la personalidad. Un resultado importante del trabajo de Paulhus
ha sido el hallazgo de que puede haber múltiples formas de sesgo de
deseabilidad social. Paulhus señala dos procesos a través de los cuales
socialmente se produce una respuesta deseable. Un proceso es una gestión
de impresión consciente, donde los examinados intentan intencionalmente
parecer socialmente deseables. Por ejemplo, un solicitante de empleo puede
sentirse motivado para exagerar artificialmente características deseables y
minimizar artificialmente características indeseables mientras completa una
prueba de selección de personal. En un contexto clínico, impresión el
tratamiento a veces se denomina "simulación de bien", ya que se refiere al
subregistro de síntomas clínicos. Es decir, un encuestado podría intentar
parecer menos patológico al negar falsamente varios síntomas patológicos.
Un segundo proceso es un autoengaño inconsciente, donde los examinados
tienen puntos de vista positivos poco realistas de sí mismos, creyendo
firmemente su sobreestimación de sus características psicológicas. Paulhus
(2002) argumenta que el manejo de impresiones y los sesgos de
autoengaño difieren en términos de ser estatales frente a rasgos similares.
Sugiere que los sesgos en el manejo de impresiones son relativamente
estatales, y se producen en respuesta a demandas situacionales inmediatas.
En otras palabras, la tendencia a responder conscientemente de una manera
excesivamente deseable suele ser una reacción a contextos de medición
particulares, como completar un inventario de selección de personal. En
contraste, Paulhus sugiere que los prejuicios de autoengaño reflejan
diferencias similares a rasgos entre las personas. Es decir, a lgunas personas
están más predispuestas al autoengaño que otras, y esta diferencia puede
afectar sus respuestas en muchos contextos de medición diferentes.
A pesar de la larga preocupación por el sesgo de deseabilidad social y sus
posibles efectos sobre la calidad de los puntajes de las pruebas psicológicas,
algunos investigadores argumentan que tales preocupaciones son al menos
algo exageradas. Algunos de los mas a rgumentos convincentes para esto
surgen de datos que sugieren que "en la mayoría de las aplicaciones, los
intentos de corregir los puntajes de defensividad o SD [deseabilidad social]
no aumentan la validez" (McCrae y Costa, 1983, p. 886). Dichas
conclusiones se basan en parte en los hallazgos de que las medidas de
conveniencia social no están correlacionadas con resultados importantes
como el desempeño laboral (Viswesvaran, Ones y Hough, 2001), que las
pruebas repetidas después de no ser contratado no produce cambios
significativos en los puntajes (Hogan, Barrett y Hogan, 2007), y que controlar
estadísticamente las diferencias individuales en la deseabilidad social no
mejora la validez relacionada con los criterios de las medidas del rasgo de
personalidad (McCrae & Costa, 1983; Ones, Viswesvaran y Reiss, 1996). A
pesar de tales hallazgos, muchos psicólogos siguen preocupados por el efecto
potencial de la conveniencia social en las pruebas psicológicas y su uso.

Proceso de enfermedad

Aunque muchos psicólogos se han preocupado por la mejora artificial de


los encuestados de su conveniencia social, otros psicólogos están muy
preocupados por el problema opuesto. Específicamente, en algunos en
contextos de prueba importantes, los encuestados pueden intentar exagerar sus
problemas psicológicos. Particularmente en algunos contextos de prueba
aplicados, los encuestados podrían estar fuertemente motivados para
parecer más cognitivamente deteriorados, emocionalmente afectados,
físicamente desafiados o psicológicamente perturbados que ellos realmente
lo son. Este fenómeno se denomina simulación o falsificación, y es
reconocido por el Manual Diagnóstico y Estadístico de Trastornos
Mentales de la Asociación Estadounidense de Psiquiatría, cuarta edición
(DSM-IV, 1994) como un problema grave en la evaluación y el diagnóstico
psicológicos.
Tómese un momento para considerar por qué las personas podrían intentar
exagerar la presencia o la gravedad de sus problemas psicológicos.
Considere algunos de los contextos de prueba en los que es más probable
que ocurra simulación: audiencias de competencia criminal, evaluaciones
de discapacidad, reclamos de compensación para trabajadores y exámenes
de lesiones personales (Berry, Baer, Rinaldo y Wetter, 2002; Mittenberg,
Patton, Canyock, & Condit, 2002). En todos estos contextos, los
examinados potencialmente beneficiarse de ser diagnosticado con algún tipo
de trastorno psicológico o neuropsicológico. Los delincuentes pueden recibir
sentencias relativamente leves si se les diagnostica un trastorno mental, los
trabajadores pueden recibir pagos monetarios si se considera que han sufrido
un impedimento en el trabajo, y las víctimas de accidentes pueden recibir
beneficios monetarios si se considera que sufren problemas neuropsicológicos
como resultado de sus accidentes En suma, la simulación es una
preocupación seria en situaciones de prueba aplicadas en las cuales el
examinado tiene un incentivo para parecer perjudicado.
Probablemente sea obvio que el simulacro potencialmente compromete la
calidad de la evaluación psicológica. Por ejemplo, las habilidades
cognitivas como la atención y la memoria pueden verse afectadas por una
lesión cerebral traumática. En consecuencia, una persona involucrada en un
accidente automovilístico podría obtener grandes beneficios financieros de
acuerdos de seguro si él o ella pueden convencer a los tribunales de que él o
ella ha sufrido una lesión cerebral que compromete la capacidad cognitiva. De
hecho, muchas evaluaciones neuropsicológicas incluyen pruebas de atención
y memoria, y la persona podría tener un mal desempeño intencional (o al
menos intentarlo) para ser diagnosticada con un deterioro cognitivo.
Malingering puede tener claras consecuencias para la precisión y la equidad
de los diagnósticos, juicios y decisiones que se basan en las medidas
comprometidas.
Malingering es más que una posibilidad teórica en contextos de pruebas
aplicadas. Los investigadores (por ejemplo, Berry et al., 2002; Mittenberg et
al., 2002) estiman que la simulación se produce en 7.3% a 27% de las
evaluaciones psicológicas generales y tanto como 31% a 45% de las
evaluaciones forenses (es decir, competencia criminal, audiencias de
discapacidad, etc.). De hecho, existe evidencia de que los abogados
capacitan intencionalmente a los clientes en los métodos utilizados para
detectar simulación, como veremos más adelante (Wetter y Corrigan, 1995;
Youngjohn, 1995). Por lo tanto, la simulación es legítima preocupación en la
evaluación psicológica, y los expertos concluyen que la falta de
consideración de su influencia "potencialmente conlleva altos costos para
las aseguradoras, sistemas de discapacidad y sociedad en general ”(Berry et
al., 2002, p. 275).

Respuesta descuidada o
aleatoria
A veces los examinados brindan respuestas que son verdaderamente aleatorias
o algo aleatorias. Ya sea por descuido o por falta de motivación para
responder de manera significativa, algunos encuestados pueden elegir
respuestas de una manera completamente aleatoria o semi aleatoria que no
está relacionada con el contenido del ítem. Por ejemplo, una persona que
realiza una prueba en la que los ítems se responden en una escala de acuerdo
de 5 puntos (1 = totalmente en desacuerdo, 5 = totalmente de acuerdo) podría
simplemente competir en la prueba "recorriendo" la escala de respuesta,
marcando totalmente en desacuerdo ( 1) para el Artículo 1, en desacuerdo (2)
para el Artículo 2, neutral (3) para el Artículo 3, de acuerdo (4) para el
Artículo 4, y Totalmente de acuerdo(5) para el Ítem 5 y volver a estar
totalmente en desacuerdo (1) en el Ítem 6 para comenzar el ciclo
nuevamente. Obviamente, esto produce puntajes que no tienen sentido con
respecto al constructo que se pretende evaluar.

Adivinación
Algunas pruebas psicológicas están diseñadas para que las respuestas
específicas sean correctas y otras incorrectas. Por ejemplo, las pruebas de
rendimiento como el SAT o el Examen de registro de posgrado (GRE)
incluyen elementos que evalúan las habilidades verbales o matemáticas de un
encuestado. Cada ítem en estas pruebas tiene una única respuesta correcta, y
los encuestados obtienen puntajes altos al contestar muchos ítems
correctamente. Tales pruebas se usan a menudo en situaciones en las que las
consecuencias importantes (por ejemplo, la admisión a la universidad)
dependen en parte de los puntajes de los exámenes.
Para este tipo de pruebas utilizadas en este tipo de situaciones consecuentes,
los encuestados podrían estar motivados para adivinar. Particularmente
para las pruebas que tienen un conjunto limitado de opciones de respuesta
(por ejemplo, preguntas de opción múltiple), los encuestados pueden
adivinar una respuesta en un intento de elevar sus puntajes. De hecho,
adivinar es una ocurrencia tan probable que algunas pruebas de
rendimiento se califican de una manera que explica el efecto de adivinar
(como veremos más adelante en este capítulo).
Para los casos en que un encuestado realmente no sabe qué opción de
respuesta es probable que sea correcta, adivinar puede comprometer la calidad
y la importancia de los puntajes de las pruebas. Es decir, una suposición
correcta aumenta el puntaje de la prueba de un encuestado, inflarlo
artificialmente en comparación con el puntaje verdadero del encuestado.
Por lo tanto, las decisiones que se basan en los puntajes de los exámenes
pueden verse afectadas por las conjeturas. Del mismo modo, la suposición
diferencial podría ser una fuente de error de medición aleatorio. Si algúno
de los encuestados son "más afortunados" que otros (es decir, algunos
encuestados producen al azar más conjeturas correctas que otros
encuestados) o si algunos responden adivinan mientras que otros no,
entonces adivinar produce puntajes de prueba que son inconsistentes con el
verdaderas diferencias entre los encuestados.

Métodos para hacer frente a los sesgos de respuesta

Como hemos discutido, varios sesgos de respuesta pueden comprometer la


confiabilidad y validez de las medidas psicológicas. A su vez, la
confiabilidad y validez comprometidas tienen consecuencias importantes
para la investigación y la aplicación de medidas psicológicas. Como hemos
visto, varios sesgos de respuesta pueden llevar a decisiones inapropiadas
para los individuos en contextos de medición aplicados. Además, los
sesgos de respuesta pueden oscurecer las asociaciones entre construcciones
psicológicas, que conducen a conclusiones inapropiadas en contextos de
investigación conductual.
Conscientes de estas amenazas para la calidad psicométrica y las pruebas
aplicadas, los psicólogos utilizan una variedad de estrategias para hacer
frente a los sesgos de respuesta. En el resto de este capítulo, analizaremos
algunas de estas estrategias en relación con los objetivos específicos para
los que se utilizan, tal como se resume en la Figura 10.1. Como lo ilustra
esta figura, existen al menos tres tipos generales de estrategias: manejar el
contexto de la prueba, manejar el contenido y / o la puntuación de la
prueba, y usar pruebas de "sesgo" especialmente diseñadas. Además, hay al
menos tres objetivos generales que estas estrategias están destinadas a
lograr. Algunas soluciones están destinadas a minimizar la existencia de
sesgos de respuesta, algunas están destinadas a minimizar los efectos de los
sesgos de respuesta, y algunas están diseñadas para detectar respuestas
sesgadas, permitiendo que los usuarios de prueba intervengan de alguna
manera (que discutiremos más adelante).

Figura 10.1Ejemplos de métodos para hacer frente al sesgo de


respuesta
Minimizando la existencia de sesgos mediante la
gestión del contexto de las pruebas
Quizás la mejor manera de lidiar con los sesgos de respuesta es evitar que
ocurran. Aunque un usuario de prueba nunca esté seguro de que él o ella ha
evitado sesgos de respuesta, existen estrategias que pueden reducir la
probabilidad de varios sesgos Algunas estrategias se centran en la forma en
que un encuestado experimenta el contexto de la prueba. Es decir, la aparición
de sesgos de respuesta podría minimizarse gestionando la forma en que se
presenta la prueba a los encuestados y gestionando las demandas que se le
imponen al encuestado dentro de la situación de la prueba.
Por ejemplo, Paulhus (1991) sugiere que el sesgo de deseabilidad social
podría ser minimizado al reducir los factores situacionales que podrían
provocar socialmente deseable respondiendo En muchos contextos de
investigación, los usuarios de prueba pueden asegurar a los participantes que
sus respuestas serán anónimas. Sabiendo que no hay forma de que respuestas
para ser identificadas personalmente, los participantes pueden estar bastante
dispuestos a proporcionar respuestas honestas. Esta sugerencia se basa en la
justificación de que el anonimato permite a los encuestados sentirse
cómodos admitiendo honestamente actitudes, pensamientos,
comportamientos, sentimientos o rasgos indeseables. Aunque el anonimato
podría aumentar la respuesta honesta, existe un posible inconveniente.
Específicamente, el anonimato también podría aumentar la posibilidad de
respuesta aleatoria. Muchos participantes en la investigación conductual,
particularmente en la investigación psicológica, son estudiantes
universitarios que toman clases de psicología introductoria. Aunque los
estudiantes no están obligados a participar, algunos de ellos pueden sentirse
obligados a participar. El anonimato de un contexto de investigación puede
interactuar con cualquier sentimiento de coerción, produciendo muy poca
motivación para ser honesto y concienzudo (Lelkes, Krosnick, Marx, Judd y
Park, 2012). Por lo tanto, algunos participantes podrían aprovechar el
anonimato, respondiendo descuidadamente, rápidamente, y tal vez incluso de
forma totalmente aleatoria. Como discutiremos en una sección posterior,
podría ser posible identificar tales respuestas y excluirlas de cualquier análisis.
Otro método para gestionar el contexto de la prueba es crear una situación de
prueba que minimice la fatiga, el estrés, la distracción o la frustración de los
encuestados. Tales estados cognitivos-emocionales pueden aumentar el
potencial de sesgos de respuesta (Paulhus, 1991). Al disminuir la capacidad
de un encuestado para concentrarse o al aumentar la probabilidad de que la
motivación del encuestado disminuya, tales estados podrían provocar
respuestas aleatorias, deseabilidad social u otros sesgos. Tanto en contextos
de pruebas aplicadas como de investigación, puede ser aconsejable limitar
los períodos de prueba a un marco de tiempo que no fatigue a los
encuestados (por ejemplo, en nuestra experiencia, evitamos solicitar más de
una hora de pruebas objetivas de nuestra investigación a participantes).
Además, probablemente sea aconsejable realizar procedimientos de medición
en entornos que sean bastante silenciosos, con pocas distracciones
potenciales.
Un último ejemplo de gestión del contexto de la prueba es decirles a los
encuestados que se puede evaluar la validez de sus respuestas. Algunas
investigaciones indican que los encuestados a quienes se les dice que se puede
detectar una respuesta falsa son relativamente propensos a admitir actitudes,
comportamientos o rasgos socialmente indeseables que de otro modo podrían
permanecer ocultos (Paulhus, 1991). Esta estrategia es de particular interés
como solución para simulación. Algunas investigaciones (p. Ej., Butcher,
Morfitt, Rouse y Holden, 1997; Fink y Butcher, 1972) muestran que las
respuestas válidas en las escalas del Inventario de personalidad multifásica
de Minnesota (MMPI) aumentan cuando se informa a los encuestados que
se pueden detectar respuestas aleatorias o deshonestidad (aunque algunas
investigaciones no muestran efectos de tales advertencias, por ejemplo,
Butcher, Atlis, Y Fang, 2000). De hecho, la validez puede aumentarse si
los participantes simplemente creen esa respuesta sesgada se puede detectar.
La investigación sugiere que incluso si los usuarios de prueba en realidad no
pueden detectar respuestas sesgadas, la mera posibilidad de detección
puede convencer a algunos encuestados de ser más honestos e imparciales.

Minimizando la existencia de sesgo mediante la gestión


del contenido de la prueba
En sus intentos por hacer frente al problema de los sesgos de respuesta, los
usuarios de prueba y los desarrolladores de prueba a menudo utilizarán tipos
específicos de contenido de prueba para minimizar la existencia de sesgos de
respuesta. Al elegir tipos específicos de elementos o tipos específicos de
formatos de respuesta, los desarrolladores de pruebas podrían anular o reducir
algunos sesgos.
Como se mencionó anteriormente, la frustración de los encuestados podría
llevar a una respuesta parcial. Por lo tanto, los desarrolladores de pruebas
pueden escribir elementos de prueba que sean lo más directos y simples
posible. Si una prueba es fácil de entender y completar para los encuestados,
entonces los encuestados tienen menos probabilidades de frustrarse o
distraerse. Evitar la frustración y la distracción podría, a su vez, reducir la
tendencia hacia el descuido, la baja motivación y, en última instancia, la
respuesta sesgada.
Otra estrategia es escribir elementos que sean neutrales en términos de
deseabilidad social. Por ejemplo, una medida de "amistad" podría tener un
fuerte impulso hacia la conveniencia social: muchas personas podrían percibir
la amistad como un característica deseable, y podrían verse tentados
(conscientemente o no) a exagerar su amistad. Sin embargo, es posible que
los artículos se escriban de una manera que subestime la calidad deseable
de ser amigable y la calidad potencialmente indeseable de ser hostil. Por
ejemplo, el ítem “Soy una persona hosca y hostil” podría usarse para
reflejar el extremo hostil de la dimensión; este ítem podría generar
relativamente pocas respuestas “verdaderas” o “de acuerdo” porque es
claramente indeseable. Una alternativa podría ser "A veces estoy menos
amigable que otras personas ". Aunque no es "perfecto", expresa hostilidad de
una manera que podría hacer que los encuestados estén más dispuestos a
admitirlo. Del mismo modo, el comportamiento moral a menudo se considera
admirable y, por lo tanto, socialmente deseable. Un estudio reciente se basó
en los autoinformes de los participantes sobre la moralidad, pero los
investigadores estaban preocupados por el sesgo de deseabilidad social y la
posibilidad de que algunos participantes pueden inflar artificialmente sus
informes de comportamiento moral o minimizar artificialmente los informes
de sus tendencias inmorales (Meindl, Jayawickreme, Furr y Fleeson, 2012).
Para manejar esto, hicieron preguntas de tres maneras: una forma "no
disimulada", una forma eufemística y una forma disfemística. En cada caso,
presentaron una descripción de una persona y pidieron a los participantes
que calificaran cuánto se parecían a esas personas. Por ejemplo, para
evaluar la deshonestidad, presentaron una descripción "no disimulada" de
una persona deshonesta ("Una persona que intencionalmente dice cosas que
incluyen falsedades "), así como una descripción eufemística (" A persona
'lingüísticamente creativa' que intencionalmente dice cosas que incluyen
falsedades "). La lógica detrás de esta estrategia es que la descripción
eufemística será percibido como relativamente positivo, ya que es
"lingüísticamente creativo" podría interpretarse como una cualidad
deseable. Por lo tanto, las connotaciones positivas de la creatividad
lingüística podrían compensar las connotaciones más negativas de decir
"falsedades", componiendo así un elemento que, en general, era
relativamente neutral (es decir, menos indeseable socialmente) que el
elemento no disfrazado. De hecho, los análisis mostraron que los artículos
eufemísticos y dishemísticos fueron calificados como más neutrales, en
términos de deseabilidad, que los artículos no disfrazados.
Además de administrar el contenido de los elementos, los desarrolladores
de pruebas pueden considerar el uso de ciertos tipos de formatos de
respuesta como una forma de minimizar la presencia de sesgo de respuesta.
Los desarrolladores de pruebas han utilizado elementos de "elección
forzada" para minimizar la existencia de un sesgo de deseabilidad social.
Los items de elección forzada son artículos que presentan dos características
y requieren que los encuestados respalden una y solo una de ellas. Por
ejemplo, un ítem en una prueba de personalidad podría presentar las
características "amigable" y "asertivo", y se les pedirá a los encuestados que
identifiquen la característica que es más descriptiva de sus personalidades.
Tenga en cuenta que, en este ejemplo, ambas características son
aproximadamente igualmente socialmente deseables. Del mismo modo, un
elemento puede incluir características que son igualmente indeseable (p. ej.,
"tímido" y "argumentativo"), que nuevamente requiere que los encuestados
identifiquen cuál es más descriptivo de ellos. Debido a que cada par de
opciones se equipara en términos de conveniencia, el formato de elección
forzada evita que los encuestados simplemente elijan la opción más
deseable. Los desarrolladores de pruebas también pueden diseñar formatos
de prueba para minimizar la existencia del problema de las extremidades.
Por ejemplo, pueden proporcionar solo dos opciones para cada elemento.
Nuevamente, usando una prueba de personalidad por ejemplo, podrían
presentar una característica como "amigable" junto con solo dos opciones de
respuesta: "Sí" y "No". En cierto sentido, dicho formato evita el sesgo de las
extremidades al eliminar por completo cualquier opción de respuesta
"extrema". La desventaja de esta estrategia es que evita que las diferencias
válidas en la extremidad del rasgo se manifiesten en respuestas al ítem.
Minimizando los efectos del sesgo mediante la gestión del
contenido de la prueba o Puntuación
A pesar de nuestros mejores esfuerzos para prevenir o minimizar la aparición
de sesgos de respuesta, es probable que ocurran en algún grado. Por lo tanto,
el contenido de la prueba puede ser diseñado de una manera que reduce el
efecto de algunos sesgos de respuesta que ocurren, en términos de su
impacto en los puntajes de las pruebas. Del mismo modo, los usuarios de
prueba podrían usar procedimientos de puntuación especializados para
reducir el efecto de sesgos en algunas pruebas
El mejor ejemplo de gestión de contenido de prueba para reducir el efecto de
sesgo podría ser el uso de escalas equilibradas para hacer frente al sesgo de
aquiescencia. Como se describió anteriormente, el sesgo de aquiescencia
ocurre cuando una persona acepta una declaración sin tener en cuenta el
significado de la declaración. Como ilustramos, este sesgo es un problema
particular cuando todos los ítems en un cuestionario están codificados en la
misma dirección. Además, demostramos cómo el sesgo puede causar
estragos en el análisis de los datos del cuestionario: los encuestados con un
sesgo de aquiescencia son indistinguibles de los encuestados que realmente
tienen altos niveles de rasgos (suponiendo que los ítems están marcados en
una dirección positiva), lo que puede crear artificialmente fuerte
correlaciones entre cuestionarios. Una solución común a este problema es
crear una prueba de manera que se reduzca el efecto del sesgo, en términos
de su influencia sobre el análisis de los datos del cuestionario. La solución es
utilizar escalas "equilibradas".
Una escala equilibrada es una prueba o cuestionario que incluye algunos
elementos que están codificados positivamente y otros que están codificados
negativamente. En nuestro ejemplo anterior (ver laTabla 10.1a), imaginamos
que un investigador pide a seis empleados que respondan a los siguientes
cuatro ítems de “satisfacción laboral” (cada uno en una escala de 7 puntos,
con 1 = totalmente en desacuerdo y 7 = totalmente de acuerdo):

1. Realmente disfruto mi trabajo.


2. Encuentro mi trabajo personalmente satisfactorio.
3. En general, estoy satisfecho con los aspectos cotidianos de mi trabajo.
4. Hay muy poco que cambiaría sobre mi trabajo.

Notamos que los cuatro ítems tienen una clave positiva porque una
respuesta positiva (algún nivel de acuerdo) indica un mayor nivel de
satisfacción laboral. Para minimizar los posibles efectos del sesgo de
aquiescencia, el investigador podría usar el siguiente conjunto revisado de
elementos:

1. Realmente disfruto mi trabajo.


2. No encuentro mi trabajo personalmente satisfactorio.
3. En general, estoy satisfecho con los aspectos cotidianos de mi trabajo.
4. Hay muchas cosas que cambiaría sobre mi trabajo.

Tenga en cuenta que el cuestionario revisado incluye dos elementos que


tienen una clave negativa (o "clave inversa"). Específicamente, los ítems 2
y 4 se revisan de modo que haya una respuesta negativa (algún nivel de
negación o desacuerdo con la declaración) indica un mayor nivel de
satisfacción laboral. La escala revisada está equilibrada porque incluye dos
elementos que están codificados positivamente (es decir, donde el acuerdo
con la declaración indica alta satisfacción) y dos elementos que tienen
claves negativas (es decir, donde el desacuerdo con la declaración indica
una alta satisfacción).
Tabla 10.1b presenta las respuestas de los empleados a la escala
equilibrada. La diferencia clave entre estas respuestas y las respuestas
originales (Tabla 10.1a) es que los respondedores válidos se ajustan al
formato de elemento equilibrado, pero los respondedores conformes no.
Por ejemplo, considere al participante 2, un respondedor válido con un alto
nivel de satisfacción laboral. Este participante está de acuerdo con los
elementos con clave positiva (es decir, los elementos 1 y 3) y no está de
acuerdo con los elementos con clave negativa (es decir, los elementos 2 y
4), como se esperaría de alguien con un alto nivel de satisfacción que está
prestando atención al elemento. contenido. Por el contrario, considere al
participante 1, un respondedor de aquiescencia. Este participante está de
acuerdo con los cuatro elementos, ignorando el hecho de que algunos
acuerdos indican un alto nivel de satisfacción pero otros indican un nivel bajo.
Esto sugiere que la persona simplemente acepta los artículos sin tener en
cuenta su contenido.
Para que una escala equilibrada sea útil, debe puntuarse adecuadamente. La
clave de puntuación debe acomodar el hecho de que la escala incluye
elementos con clave positiva y elementos con clave negativa. Por lo general,
los usuarios de prueba prefieren un alto "total" la puntuación en una prueba o
cuestionario representa altos niveles de la construcción que se está
midiendo. Por ejemplo, les gustaría que un puntaje alto en la escala JS
representara un alto nivel de satisfacción laboral.
Para lograr esto, el usuario de la prueba debe "revertir la puntuación" de los
elementos con clave negativa. Para revertir el puntaje de un elemento con
clave negativa, el usuario de la prueba recodifica las respuestas de las
personas para que un valor relativamente grande represente un alto nivel de
la construcción que se está midiendo. Por ejemplo, la escala JS es una escala
de 7 puntos. Por lo tanto, el investigador recodifica una respuesta de "7"
(totalmente de acuerdo) a una respuesta de "1" (totalmente en desacuerdo),
una respuesta de "6" (moderadamente de acuerdo) a un "2" (moderadamente
en desacuerdo) y un " 5 "(ligeramente de acuerdo) a un" 3 "(ligeramente en
desacuerdo). Del mismo modo, el usuario de prueba recodifica las respuestas
de modo que un valor relativamente pequeño representa un nivel bajo de la
construcción que se está midiendo. Por lo tanto, el investigador recodifica una
respuesta original de "1" (totalmente en desacuerdo) a una respuesta de "7"
(totalmente de acuerdo), una respuesta de "2" a un "6" y un "3" a un "5". "
Este proceso de puntuación inversa recalibra lógicamente las respuestas para
que valores relativamente grandes para todos los ítems (es decir, un 7, 6 o 5)
representan niveles altos de la construcción que se está midiendo y valores
relativamente pequeños (es decir, un 1, 2 o 3) representan niveles bajos.
Tabla 10.1c presenta las respuestas de puntuación inversa a la escala
equilibrada.
Consideremos cómo las escalas equilibradas minimizan los efectos de
aquiescencia sesgo de respuesta. El beneficio más inmediato de las escalas
equilibradas es que diferenciar a los que responden con aquiescencia de los
que tienen una respuesta válida que tienen altos niveles del constructo que
se está evaluando (como nota al margen, las escalas equilibradas también
diferencian respondedores negativos de respondedores válidos que tienen
bajos niveles de construir).
Tómese un momento para examinar a los que responden aquiescentes en la
Tabla 10.1c, y observe cómo sus puntajes en las escalas equilibradas
difieren de sus puntajes en las escalas originales (Tabla 10.1una). Por
ejemplo, tenga en cuenta que el puntaje del participante 1 en la escala JS
balanceada es solo 18, mientras que su puntaje en la escala JS original fue
24. Del mismo modo, tenga en cuenta que el puntaje del participante 4 en
la escala JS balanceada es 15, mientras que su puntaje en la escala original
era 26. Por lo tanto, las escalas equilibradas aseguran que los
respondedores conformes obtengan puntuaciones cercanas al promedio de
la muestra (es decir, no extremadamente altas o bajas).
Ahora tome un momento para examinar los respondedores válidos en la
Tabla 10.1C. Por ejemplo, la puntuación del participante 2 sigue siendo alta,
la misma que en la escala original (es decir, 25). Los respondedores válidos
que tuvieron puntajes altos en la escala original todavía tienen puntajes altos
en la escala equilibrada, y los respondedores válidos que tuvieron puntajes
bajos en la escala original todavía tienen puntajes bajos en la escala
equilibrada.
Por lo tanto, los usuarios de la prueba pueden estar bastante seguros de que
los respondedores válidos son los únicos que obtendrán puntajes extremos (es
decir, particularmente altos o bajos) en la prueba. En consecuencia, hay una
pequeña posibilidad de creer erróneamente que un respondedor de
aquiescencia tiene un nivel relativamente alto (o bajo) de la construcción
que está siendo evaluada por el rasgo.
Aunque las escalas equilibradas permiten a los usuarios de prueba evitar
confundir los respondedores conformes con los respondedores válidos que
tienen altos niveles de rasgos, puede sospechar que esto simplemente crea
un nuevo problema. Probablemente lo hayas notado en la Tabla 10.1c
queahora no podemos diferenciar a los que responden con aquiescencia de los
que responden válidamente que tienen niveles de rasgos moderados. En cierto
sentido, hemos cambiado un problema por otro. Sin embargo, hemos evitado
un problema muy serio al crear un problema que es mucho menos grave, al
menos para fines de investigación. Para fines de investigación, el uso de
escalas equilibradas tiene implicaciones importantes para la precisión de los
resultados de la investigación.
Las implicaciones de la investigación del uso de escalas equilibradas se
pueden ver en la correlación entre la satisfacción laboral y el prestigio
percibido, que era el objetivo de la pregunta de investigación original.
Volviendo a las escalas originales en las que todos los ítems fueron
codificados positivamente (ver Tabla 10.1a), tenga en cuenta que la
correlación entre los seis respondedores fue r = .43. Basándose en la escala
original, el investigador concluiría que existe una asociación de moderada a
fuerte entre la satisfacción laboral y el prestigio percibido. Sin embargo,
nuevamente fingiremos ser omniscientes: sabiendo qué respondedores eran
válidos y cuáles aceptaban. Examinando los datos de los cuatro
respondedores válidos, encontramos una correlación negativa muy débil
entre satisfacción y prestigio (es decir, r = - .09). Por lo tanto, el hecho de
que dos participantes respondieron con un sesgo de aquiescencia
comprometido los resultados del análisis, haciendo que el investigador
llegue a una conclusión incorrecta sobre el vínculo entre las
construcciones.
Ahora, consideremos la correlación calculada a partir de la escala
equilibrada (Tabla 10.1C). Tenga en cuenta que la correlación entre los seis
respondedores es r = - .10. Esto está mucho más cerca de la correlación de
"respondedor válido" (es decir, r = - .09) que la correlación obtenida de las
seis respuestas a la escala original. Por lo tanto, si la investigadora usa la
escala balanceada, sus conclusiones serán mucho más precisas que si usa la
escala original (no balanceada).
En resumen, las escalas equilibradas tienen beneficios potencialmente
importantes para la investigación conductual. Aunque no evitan el sesgo de
respuesta de aquiescencia o siempre eliminan completamente sus efectos,
reducen sus efectos en los resultados de la investigación. Mediante el uso de
escalas equilibradas, los usuarios de prueba pueden estar bastante seguros de
que los resultados de su investigación no están muy comprometidos por el
sesgo de aquiescencia. Como se ilustra en la Tabla 10.1, las escalas
equilibradas pueden evitar una correlación espuria (es decir, falsa) que podría
resultar del sesgo de respuesta de aquiescencia. Los beneficios potencialmente
importantes de usar escalas equilibradas superan con creces su exiguo costo
(incurrido al generar elementos con clave negativa y puntuación inversa de
esos elementos).
Como se mencionó anteriormente, los usuarios de la prueba también
pueden usar procedimientos de calificación especializados para minimizar
el efecto del sesgo en los puntajes y el uso de la prueba. Hemos discutido
adivinar como un problema que podría afectar las pruebas de habilidad o
las pruebas de rendimiento como el SAT y el GRE. De hecho, tales pruebas
utilizan procedimientos de calificación que están destinados a ajustar los
puntajes de las pruebas para los posibles efectos de adivinar. Por ejemplo,
el SAT tiene un procedimiento de puntuación que pondera los elementos
respondidos incorrectamente de manera diferente a los elementos que
simplemente quedan sin respuesta. Específicamente, un elemento que se
responde correctamente gana 1 punto, un elemento que se responde
incorrectamente da como resultado una resta de ¼ de punto, y un elemento
que se omite no genera ningún punto. Sin entrar en detalles, el efecto de este
procedimiento de puntuación es que se minimiza el beneficio de las
suposiciones aleatorias. Curiosamente, las suposiciones educadas pueden ser
beneficiosas para los examinados SAT. Es decir, si un encuestado puede
eliminar una o más opciones de respuesta, es probable que se beneficie al
adivinar entre las opciones de respuesta restantes.

Gestión del contenido de la prueba para detectar sesgos e


intervenir
Los sesgos de respuesta pueden seguir siendo una preocupación incluso
después de que los desarrolladores de pruebas y los usuarios de pruebas
intenten minimizar su existencia y sus efectos en los puntajes de las pruebas.
A pesar de los mejores esfuerzos para prevenir o minimizar el grado en que
los sesgos afectan los puntajes de los exámenes, tales sesgos pueden
continuar afectando las respuestas, decisiones y análisis.
Como otra defensa contra los sesgos de respuesta, los usuarios de prueba
podrían detectar respuestas que están potencialmente sesgadas de varias
maneras. En esta sección y en la siguiente, discutiremos los métodos que
han sido diseñados para identificar a los participantes que parecen estar
manifestando algún tipo de sesgo de respuesta. Una vez identificados esos
participantes, los usuarios de la prueba tienen varias opciones para manejar
sus respuestas, incluido el descarte y el control estadístico.
Varias medidas bien conocidas de psicopatología y personalidad incluyen
escalas de validez. Las escalas de validez son conjuntos de elementos que
están integrados en un inventario grande y están destinados a cuantificar el
grado en que un encuestado manifiesta sesgos de respuesta específicos.
Usando estas escalas, los usuarios de prueba pueden examinar el patrón de
respuestas de un participante en el conjunto de ítems y evalúa el grado en que
el patrón de respuesta parece reflejar respuestas aleatorias, respuestas de
aquiescencia, respuestas artificialmente "buenas", respuestas artificialmente
"malas", etc. Se ha dedicado una gran cantidad de atención psicométrica a
crear y evaluar escalas de validez para medidas ampliamente utilizadas como
el MMPI, el Inventario clínico multiaxial de Millon (MCMI), el Inventario de
personalidad NEO(NEO-PI) y el Inventario Psicológico de California
(CPI).
Quizás las escalas de validez más conocidas son las del MMPI. La edición
más reciente del MMPI (el MMPI-2) incluye al menos siete escalas
destinadas a proporcionar información sobre la probabilidad de que un
encuestado haya manifestado una variedad de sesgos. Por ejemplo, la
escala L está destinada a reflejar el intento de un encuestado de presentar
una impresión demasiado positiva. De acuerdo a Graham (1990), la escala L
(a veces llamada "escala de mentiras") consta de 15 ítems que describen
"defectos y debilidades menores que la mayoría de la gente está dispuesta a
admitir" (p. 23). Las personas que niegan estas características muy comunes
obtendrán puntajes altos en la escala L. Por lo tanto, la escala L se ve como
una medida del sesgo de deseabilidad social. La escala F (a veces llamada
"escala de infrecuencia") es otra escala de validez de MMPI, que consta de 64
elementos que son respaldados (es decir, admitidos o aceptados) por muy
pocos encuestados. Un puntaje alto en la escala F representa alguna forma de
respuesta desviada, indicativa de respuesta aleatoria, simulación, un patrón de
respuesta "totalmente verdadero", un patrón de respuesta "todo falso" o
posiblemente un estado psicológico realmente perturbado. Las escalas
adicionales de validez de MMPI incluyen la escala K (para detectar
"falsificaciones"), la escala VRIN ("Inconsistencia de respuesta variable"
para detectar respuestas aleatorias) y la escala TRIN ("Inconsistencia de
respuesta verdadera" para detectar decir sí o sin decir).
Uno de nuestros ejemplos anteriores puede ayudar a ilustrar la forma en que
el patrón de una respuesta se puede utilizar para detectar la presencia de un
sesgo de respuesta particular. Si volvemos a examinar las respuestas
hipotéticas presentadas en la Tabla 10.1c, entonces podemos ver cómo el
sesgo de aquiescencia producirá un patrón muy específico de respuestas en un
escala equilibrada Volviendo a esas respuestas, nuestra omnisciencia
temporal nos permitió saber que el Participante 1 estaba respondiendo con
un sesgo de aquiescencia. Un examen cuidadoso de las respuestas de esa
persona revela que él o ella es inconsistente de una manera muy específica.
Recuerde que la escala de cuatro ítems estaba equilibrada, con dos ítems
con clave positiva (ítems 1 y 3) y dos ítems con clave negativa (ítems 2 y
4) que fueron calificados en reversa.
Basado en el proceso de puntuación inversa, esperaríamos que un
participante que está respondiendo de manera válida produzca un conjunto
de respuestas bastante consistente. Por ejemplo, un participante con un
nivel genuinamente alto de satisfacción laboral debe seleccionar respuestas
que se encuentran principalmente por encima del punto medio de la escala.
El participante 2 ilustra esta consistencia: todas las respuestas de esta
persona (es decir, 7, 5, 6 y 7) están por encima del punto medio de la escala
de 4. Por lo tanto, las respuestas de esta persona están consistentemente en la
dirección de una alta satisfacción laboral. De manera similar, vemos que las
respuestas del participante 6 son consistentemente iguales o inferiores al
punto medio de la escala, y este patrón de respuesta indica un nivel
relativamente bajo de satisfacción laboral.
Por el contrario, un participante con un sesgo de aquiescencia seleccionará
respuestas que, cuando se califica adecuadamente, son inconsistentemente
por encima y por debajo del punto medio de la escala. Por ejemplo, el
participante 1 proporcionó respuestas que, después del proceso de
puntuación inversa, se encuentran dispersas por el punto medio. Esto
contradice lo que se espera de un participante con un nivel de rasgo
verdaderamente alto o un nivel de rasgo verdaderamente bajo. Un usuario
de prueba que no es omnisciente podría ver este tipo de patrón de respuesta
inconsistente y sospechar razonablemente que el encuestado estaba
manifestando un sesgo de respuesta de aquiescencia.
Un usuario de prueba que detecta que un individuo puede estar manifestando
uno o más sesgos de respuesta tiene al menos tres opciones para usar esta
información para intervenir en el proceso de evaluación o investigación.
Primero, él o ella podrían excluir los puntajes de las pruebas del individuo de
una consideración o análisis adicional. En un contexto aplicado, el usuario de
la prueba puede pedirle a la persona que tome la prueba nuevamente o
simplemente ignorar los puntajes de la prueba. Según un experto en pruebas
aplicadas, si las respuestas de un individuo se consideran deshonestas o
hechas sin la debida consideración, entonces los puntajes del individuo
"deben considerarse inválidos y no debe interpretarse más”(Graham, 1990,
p. 22). En un contexto de investigación, el usuario de la prueba puede
descartar los datos del individuo de cualquier análisis estadístico. Una
segunda opción para manejar puntajes de pruebas sospechosas es retener
los puntajes pero usarlos con precaución. En un contexto aplicado, un
usuario de prueba puede considerar los puntajes de la prueba pero les da
poco peso en la evaluación general o diagnóstico de un individual. En un
contexto de investigación, un usuario de prueba podría retener los datos y
simplemente aceptar el hecho de que varios sesgos de respuesta podrían
estar afectando sus resultados de varias maneras. Una tercera opción para los
investigadores es retener cualquier potencial no válido datos, pero utilizan
procedimientos estadísticos para tener en cuenta el hecho de que algunos
encuestados pueden haber proporcionado respuestas no válidas.
Procedimientos tales como correlaciones parciales o regresión múltiple
permiten a los investigadores usar puntajes en escalas de validez para
"controlar estadísticamente" las respuestas potencialmente inválidas. Por
ejemplo, dichos procedimientos pueden permitir que un investigador
examine la asociación entre la satisfacción laboral y el prestigio percibido
por separado para aquellos participantes que parecen ser encuestados
válidos y aquellos que parecen ser encuestados no válidos.
Aunque las escalas de validez pueden parecer muy útiles, los
psicometristas y los usuarios de pruebas exigen evidencia que realmente
demuestre su utilidad. Algunos estudios no respaldan la utilidad de las
escalas de validez (por ejemplo, Piedmont, McCrae,Riemann y Angleitner,
2000), pero muchos estudios dan fe de la "validez de las escalas de validez".
Hahn (2005) informa un ejemplo de un estudio típico. Este estudio utilizó un
diseño "análogo" en el que los participantes representaban a varios grupos. Un
grupo fue una muestra de pacientes psiquiátricos hospitalizados. Como
ninguno de estos pacientes había buscado ninguna forma de compensación, se
suponía que eran representativos de respondedores válidos con altos niveles
de psicopatología. UNAEl segundo grupo incluyó a estudiantes
universitarios que recibieron instrucciones de proporcionar respuestas no
válidas. Se les dijo que "fingieran mal" al presentarse como severamente
perturbados, y estaban destinados a ser "análogos" para los encuestados
que intentan simular. Todos los participantes completaron el MMPI-2, y
los análisis examinaron la capacidad de las escalas de validez para detectar
cualquier diferencia entre los grupos. Los resultados mostraron que, como
era de esperar, los simuladores analógico s obtuvo una puntuación más alta
en las escalas de validez que tienen la intención de indicar que un encuestado
está proporcionando respuestas desviadas y posiblemente está simulando (por
ejemplo, la escala F). Aunque existen preocupaciones razonables sobre la
generalización excesiva de los resultados que se basan en estudiantes que
fingen ser molestados (o que pretenden ser excesivamente deseables), gran
parte de esta investigación proporciona evidencia de que las escalas de
validez realmente diferencian a dichos grupos (Baer y Miller, 2002; Rogers,
Sewell, Martin y Vitacco, 2003).
En resumen, las escalas de validez integradas son un método potencialmente
útil para detectar algunos tipos de sesgos de respuesta. Al incluir tales escalas
dentro de un conjunto mucho más grande e n las escalas que miden la
personalidad y la psicopatología, los desarrolladores de pruebas brindan a
los usuarios de la prueba la oportunidad de detectar puntuaciones de prueba
potencialmente inválidas e intervenir de alguna manera. Aunque existen
algunas preocupaciones sobre su aplicabilidad en el mundo real, un
importante cuerpo de investigación sugiere que las escalas de validez
funcionan bien cuando se usa para diferenciar "falsificadores conocidos" de
presumiblemente genuinos encuestados

Uso de pruebas especializadas para detectar


sesgos e intervenir
El método final que discutiremos para gestionar los sesgos de respuesta está
estrechamente relacionado con el método anterior. Junto con escalas de
validez integradas en largas medidas de personalidad y psicopatología, los
psicólogos han desarrollado escalas separadas para medir una variedad de
sesgos de respuesta. Al igual que con las escalas de validez integradas, se
pueden usar medidas separadas de sesgos de respuesta de varias maneras:
permiten a los usuarios de prueba identificar y eliminar respuestas
potencialmente inválidas, y permiten a los investigadores controlar
estadísticamente los efectos de los sesgos de respuesta.
Estas escalas se han utilizado al menos en dos formas adicionales. Primero,
en un esfuerzo para comprender mejor los sesgos de respuesta, los
psicólogos también han utilizado estas medidas de sesgos de respuesta para
estudiar sus posibles causas psicológicas e implicaciones. Al medir un sesgo
de respuesta y correlacionar sus puntajes con medidas de otras variables
psicológicas, conductuales o demográficas, los psicólogos pueden lograr una
comprensión más profunda de las posibles características cognitivas, factores
emocionales o motivacionales que producen el sesgo de respuesta. En
segundo lugar, los desarrolladores de pruebas y los evaluadores de pruebas
pueden usar estas escalas para medir el grado en que los puntajes de una
prueba pueden verse afectados por sesgos de respuesta. Es decir, podrían
encontrar que una puntuación en una nueva prueba está altamente
correlacionada con un sesgo de respuesta particular, y podrían usar esta
información para guiar las mejoras de la prueba o alertar a los usuarios de la
prueba de posibles problemas.
Escalas destinadas a medir diferencias individuales en la tendencia a
proporcionar respuestas socialmente deseables es un método ampliamente
utilizado para detectar sesgos de respuesta. La escala de deseabilidad social de
Marlowe-Crowne (Crowne y Marlowe, 1960) ha sido una medida
ampliamente utilizada de la deseabilidad social. La escala está destinada a
revelar el grado en que un individuo reclama virtudes poco comunes y niega
fallas comunes. Incluye 33 declaraciones, como "Antes de votar investigar a
fondo las calificaciones de todos los candidatos "(un poco común virtud) y
"En ocasiones he tenido dudas sobre mi capacidad para tener éxito en la vida"
(un defecto común). Los encuestados califican cada elemento en una escala
binaria verdadero / falso. Si un encuestado reclama muchas virtudes poco
comunes y niega muchos defectos comunes, entonces su puntaje se
interpreta como revelador de un intento de parecer socialmente deseable.
Como se mencionó en nuestra discusión anterior de la respuesta de sesgo
por deseabilidad social, el trabajo reciente indica que el sesgo es más
complejo de lo que se concibió originalmente en las décadas de 1940, 1950 y
1960 (Paulhus, 2002). Como parte de la evolución de su investigación sobre
el proceso y el contenido de la conveniencia social sesgos de respuesta,
Paulhus y sus colegas desarrollaron el Inventario breve de Respuesta
deseable (BIDR). La versión de investigación más reciente del BIDR
(Paulhus, 1991) incluye dos escalas principales: una escala de Mejora
autoengañosa de 20 ítems y una escala de Administración de impresiones
de 20 ítems (además, una escala de denegación autoengañosa de 20 ítems
está disponible a través del sitio web del autor). Los ítems incluyen
declaraciones auto-relevantes (p. Ej., "Soy una persona completamente
racional") que se responden en una escala de 7 puntos que varía de no
verdadero a muy verdadero. Los puntajes altos en las escalas reflejan
tendencias hacia una respuesta socialmente deseable. La investigación
indica que las escalas BIDR pueden ser internamente consistentes, estables
durante al menos un período de 5 semanas y medidas razonablemente
buenas de las construcciones previstas (Paulhus, 1991).
Las pruebas adicionales están destinadas a detectar simulación en términos de
deterioro cognitivo. Por ejemplo, la prueba de recuento de puntos (DCT;
Lezak, 1995) incluye 12 cartas en las que se imprimen varios números de
puntos. La mitad de las tarjetas presentan los puntos en un formato agrupado,
y la otra mitad presenta los puntos en una disposición aleatoria. A los
examinados se les pide que cuenten los puntos en cada tarjeta lo más rápido
posible, con las respuestas y los tiempos de respuesta registrados por la
prueba administrada. Presumiblemente, los examinados deben requerir más
tiempo para contar los puntos que se ordenan al azar que los puntos que se
agrupan de manera sistemática. Por lo tanto, se sospecha de simulación
cuando un examinado requiere tanto tiempo para contar los puntos en las
tarjetas agrupadas como en las tarjetas de disposición aleatoria. Aunque la
evidencia es mixta, algunas investigaciones indican que la DCT es un
método potencialmente útil para detectar el deterioro cognitivo simulado
(Binks,Gouvier y Waters, 1997; Boone et al., 2002).
Aunque las medidas de conveniencia social y simulación se usan mucho más
ampliamente que las medidas de otros sesgos de respuesta, tales medidas
existen. Por ejemplo, Couch y Keniston (1960) desarrollaron una medida de
aquiescencia; sin embargo, en su revisión de las medidas de varios sesgos de
respuesta, Paulhus (1991) concluye que "ninguno de los instrumentos que
afirman medir las tendencias generales de aquiescencia pueden recomendarse
al investigador" (p. 48). Del mismo modo, Greenleaf (1992) criticó la
literatura que examina el estilo de respuesta extrema por una preocupación
inadecuada sobre una medida estandarizada del sesgo. En efecto, Greenleaf
cita los resultados contradictorios que han surgido de los exámenes de los
correlatos de las extremidades, y señala que tal ambigüedad podría
explicarse en parte por el hecho de que cada investigador tendía a usar una
medida de extremidad diferente (y no validada). Aunque Greenleaf
presenta un artículo de 16medida del sesgo de las extremidades, concluye
que "medidas mejoradas adicionales de[el sesgo de la extremidad] vale la
pena desarrollar ”(p. 347).

Sesgos de respuesta, conjuntos de respuestas y


estilos de respuesta

Esta breve sección está destinada a aclarar la terminología que puede


encontrar. En la discusión de este capítulo sobre los sesgos de respuesta,
hemos abordado una variedad de tendencias para responder a los
cuestionarios sobre la base de factores aparte del contenido real del
cuestionario. En esta discusión, hemos señalado una variedad de factores
que contribuyen a estos sesgos. Algunos factores pueden ser temporales y
reflejar aspectos de la situación de prueba (p. Ej., Las consecuencias de la
prueba) o la prueba misma (por ejemplo, el formato de prueba o la
ambigüedad de los elementos). Tales factores a menudo se denominan
conjuntos de respuestas (Paulhus, 1991). Otros factores están más ligados a
las características estables de los individuos (por ejemplo, algunos individuos
están más preocupados en general por parecer socialmente deseables que
otros), y estos factores a menudo se denominan estilos de respuesta. Por lo
tanto, los sesgos de respuesta pueden surgir de conjuntos de respuestas (es
decir, algo sobre la situación de prueba produce sesgos) y de los estilos de
respuesta (es decir, algo sobre una persona que se está probando produce
sesgos). Sin embargo, tenga en cuenta que los psicólogos no son
consistentes en el uso de estos términos.

Resumen

Como lo ilustra este capítulo, una variedad de sesgos puede afectar las
respuestas a las medidas psicológicas, y estos sesgos tienen el potencial de
reducir la calidad psicométrica de esas medidas y el significado psicológico
de sus puntajes. Como hemos descrito, estos sesgos pueden surgir de
aspectos de las pruebas (p. Ej., Elementos confusos o anclajes de escala
ambiguos), de la naturaleza del contexto de la prueba (p. Ej., Las
consecuencias graves dependen parcialmente de los puntajes de las
pruebas) y de las características de personalidad de examinados (p. ej., una
tendencia estable hacia el autoengaño, aquiescencia o una mínima
revelación).
Los científicos del comportamiento son conscientes de estos prejuicios y sus
consecuencias para las decisiones aplicadas y para las conclusiones de la
investigación que se basan en la medición psicológica. Para hacer frente a los
problemas que pueden surgir deSesgos de respuesta, los psicólogos han
desarrollado muchas estrategias para minimizar su existencia, para
minimizar sus efectos en los puntajes de los exámenes, o para detectarlos y
manejar las respuestas que parecen estar contaminadas.
Lecturas Sugeridas

Esta es una descripción general sólida de los problemas de simulación, con


especial relevancia para las pruebas psicopatológicas:
Berry, DTR, Baer, RA, Rinaldo, JC y Wetter, MW (2002). Evaluación de simulación. En JN
Carnicero (Ed.), Evaluación de la personalidad clínica (2ª ed., Págs. 269–302). Nueva York, NY: Oxford
Prensa universitaria.

Este es un análisis clásico de la conveniencia y conveniencia social, con


respecto a
Respuestas
de MMPI:
Block, J. (1965). El desafío de los conjuntos de respuestas: significado desconcertante, aquiescencia y
conveniencia social en el MMPI. Nueva York, NY: Appleton-Century-Crofts.

Este es otro artículo clásico en la historia de la conciencia psicométrica y la


evaluación de los sesgos de respuesta:
Cronbach, LJ (1946). Conjuntos de respuestas y validez de la prueba. Medición Educativa y Psicológica,
6,
475-494.

Este es un resumen reciente de décadas de investigación y teorización


sobre la naturaleza y la evaluación de la conveniencia social:
Paulhus, DL (2002). Respuesta socialmente deseable: La evolución de una construcción. En H. Braun,
DN
Jackson, y DE Wiley (Eds.), El papel de los constructos en la medición psicológica y educativa
(págs. 67–88). Hillsdale, Nueva Jersey: Lawrence Erlbaum.

Este es un análisis de un método para evaluar el sesgo


de las extremidades:
Greenleaf, EA (1992). Medición de estilo de respuesta extrema. Public Opinion Quarterly, 56, 328–351.

Este es un examen empírico de una teoría de la base del sesgo de


aquiescencia:
Knowles, ES y Condon, CA (1999). Por qué la gente dice "sí": una teoría de aquiescencia de doble
proceso.
Revista de Personalidad y Psicología Social, 77, 379-386.

Esta es una discusión accesible de los procesos por los que pasan los
encuestados cuando toman las pruebas de autoinforme, y aborda la forma en
que los formatos de prueba pueden afectarestos procesos:
Schwarz, N. (1999). Autoinformes: cómo las preguntas dan forma a las respuestas. Psicólogo
estadounidense, 54, 93–
105)

También podría gustarte