Está en la página 1de 13

Unidad 3

1 //Escenario
Escenario25
Lectura fundamental
Fundamental

Confiablidad
Etapas de un yplan
validez:
de comunicación
mecanismos
para elaboración de pruebas
estratégica
psicológicas

Contenido

1 Concepto de confiablidad

2 Concepto de validez

Palabras clave: confiabilidad, validez, error, constructo, criterio, contenido.


Hasta el momento, se han configurado las bases históricas, conceptuales y teóricas de la psicométrica
y sus técnicas de medición, a partir de los distintos tipos y clasificación de los test. Ahora, se
trabajarán los términos de confiablidad y validez como dos elementos que aportan los mecanismos
a través de los cuales se estructuran las pruebas estandarizadas, ya que estas, para ser denominadas
como tal, deben cumplir con ciertos requisitos que permiten que se apliquen y usen con la confianza
de que miden lo que pretenden medir y lo hacen con precisión.

1. Concepto de confiablidad
En psicometría, el término confiabilidad o fiabilidad hace referencia a la propiedad matemática
que valora la consistencia y precisión de la medida (Meneses, 2013). Esta propiedad permite al
evaluador fiarse o sentirse seguro -en cierto grado- de que la prueba o test que está usando produce
puntuaciones lo más precisas posibles. Ahora bien, no hay que olvidar que las medidas perfectas o
exactas no existen, sea que se mida un objeto físico o psicológico, pues en cada campo de acción o
contexto donde se encuentra la propiedad medible, hay fuentes de error que hacen que las medidas
tomen cierto valor o dirección.

Otra forma de definir la confiabilidad es usando el termino estabilidad de las medidas, ya que lo que
se busca es que la prueba, en un proceso de medida que se repite en un mismo sujeto, arroje medidas
parecidas o poco distantes unas de otras.

Ejemplo: dentro de un proceso de selección al cargo de auxiliar contable, se aplica un test de


conocimientos para filtrar aspirantes; solo pasarán a otra fase aquellos que obtengan una puntuación
mínima de 100. De los aspirantes, dos cumplen el requisito, el aspirante A con 110 puntos y la
aspirante B con 150 puntos. Tras un par de semanas, se aplica la misma prueba bajo las mismas
condiciones, para corroborar que cuentan con los conocimientos básicos para el cargo. Lo que se
espera es que estas personas obtengan una puntuación parecida a la registrada. Los puntajes son
los siguientes: aspirante A: 120 y aspirante B: 140. Bajo estos resultados ¿es posible decir que esta
prueba de conocimientos es confiable?

Pues bien, según Prieto y Delgado (2010), si la variabilidad de los datos es muy grande entre
una y otra aplicación, se dice que los valores son imprecisos y por consiguiente poco fiables. Esa
confiablidad depende de qué tanto la prueba y el evaluador controlan las fuentes de error. Lo que se
busca con ello es que la puntuación obtenida refleje con precisión la puntuación verdadera dentro
de lo que se está midiendo. Esta condición permite que se generalice la medida, una idea que, desde
Spearman en 1904, ha sido predominante en los trabajos de estandarización.

POLITÉCNICO GRANCOLOMBIANO 2
Así mismo, Martínez (1996) define la confiabilidad como “la consistencia en un conjunto de medidas
de un atributo” (p. 17). Es la exactitud o precisión con la que un instrumento mide un atributo, en
últimas, es la ausencia de error de medición (Aragón, 2015).

Bajo estas precisiones sobre el concepto de confiabilidad, se puede decir de forma provisional que, en
el caso de la prueba de conocimiento anterior, la prueba podría ser confiable, pues las puntuaciones
obtenidas en la primera y segunda evaluación no están muy distantes unas de otras. No obstante,
para afirmar si es o no confiable una prueba se debe tener en cuenta más que la mera puntuación,
pues aquella es reflejo de un proceso de medición en el que tanto la prueba misma como su aplicación
tienen en cuenta las distintas fuentes de error que pueden incidir.

1.1. Fuentes de error

La teoría clásica de los test relaciona la confiabilidad con los errores aleatorios de medida. Ya bien
se decía que, a menor error aleatorio de medida, mayor será la confiabilidad. Pero ¿qué es un error
de medida?, pues bien, es todo aquello que, de manera constante, sistemática o no sistemática,
lleva a que la puntuación obtenida por una persona sea sistemáticamente alta o baja, sin importar la
verdadera condición del rasgo o atributo que se está midiendo (Thomas, 2015).

Ejemplo: Juan, de 10 años, ha sido sometido a una prueba de inteligencia para adolescentes, cuando
su maduración cognitiva no corresponde a esta etapa del ciclo vital. Esta situación podría arrojar
resultados que subestimen las capacidades intelectuales de Juan, pues los ítems pueden tener un
grado de dificultad mayor que no contempla su condición personal.

Este ejemplo representa un error no sistemático de medición, pues los resultados pueden ser
considerablemente bajos gracias a la complejidad de la prueba con relación a las condiciones del niño.
Un error sistemático o constante es aquel que está presente en todas las condiciones de medición,
como se puede observar en el siguiente ejemplo.

Ejemplo: en una prueba de conocimiento sobre matemáticas, Sara suele obtener buenos resultados
porque tiene habilidad para reconocer pistas en las preguntas que le ayudan a encontrar la respuesta
correcta. Como ella tiene esa condición personal, suele tener puntuaciones altas casi siempre.

POLITÉCNICO GRANCOLOMBIANO 3
Algunas fuentes de error no sistemático o aleatorio a considerarse dentro de un proceso de medición
según Aragón (2015) son:

1. La selección de los ítems. Al momento de construir y elegir los ítems, el evaluador debe asegurar que
la muestra de los reactivos contenga todos los contenidos que intenta medir y que lo haga de manera
equitativa. Es decir, el creador de la prueba debe incluir preguntas sobre los distintos típicos del
constructo que quiere medir y ubicar, en lo posible, un número igual de preguntas de cada típico.

2. La aplicación de la prueba. Toda prueba debe tener un protocolo de aplicación estándar que informe sobre
las condiciones en las cuales es recomendable o necesario realizarla. Con ello se estabilizan factores como
iluminación, ruido y mobiliario (mesas y sillas adecuadas), y se tienen en cuenta condiciones físicas de
las personas como cansancio, hambre, sueño, sed, ansiedad, preocupación y motivación, factores que,
aunque no siempre se pueden controlar, forman parte del error aleatorio de medida.

3. La calificación de la prueba. Existen test que requieren que el evaluador otorgue una puntuación a
la ejecución de la persona o califique los reactivos porque son abiertos o exigen que la acción sea
observada por el evaluador. Este proceso puede incluir valoraciones subjetivas, por lo cual algunas
pruebas contienen ejemplos de tipos de respuestas y sus posibles puntuaciones, para evitar un nivel
de error mayor al esperado.

En psicometría, es indispensable distinguir cuándo un error es sistemático o predecible y cuándo aleatorio


o impredecible, pues de esa distinción depende el control que se ejerza sobre dichos errores. No obstante,
a la confiabilidad el error que le interesa medir y controlar es el aleatorio, aquel que puede provenir de un
reactivo mal planteado, poco claro o que induce a la respuesta, o cuando una prueba mide algo distinto a lo
que pretendía medir (Aragón, 2015). Entonces, ¿Cómo se controla y mide ese error?

¿Sabía que...?
La covarianza es el término para designar el grado de variación
lineal de variables aleatorias respecto de sus propias medidas.

POLITÉCNICO GRANCOLOMBIANO 4
1.2. Tipos de confiabilidad

La confiabilidad se expresa de forma concreta en índices o coeficientes; para el caso de la


psicometría, fue trabajada por Spearman desde los planteamientos de la teoría clásica de los test.
Un coeficiente de correlación es producto de la correspondencia entre las puntuaciones obtenidas
por un grupo de personas en dos pruebas paralelas. Este estadístico calcula el nivel de variabilidad de
los datos o puntuaciones. Esa variabilidad se debe al error aleatorio, presente al momento de medir
o evaluar un atributo. La interpretación del índice es la siguiente: si el valor obtenido es cercano a 0,
denota mayor variabilidad en los datos, debido al error aleatorio; por ende, la confiablidad es baja.
Si, por el contrario, el valor es cercano a 1, la variabilidad es baja y, por ende, es bajo el nivel de error
aleatorio y alta la fiabilidad (Meneses, 2013).

Las siguientes dos figuras muestran, a través de diagramas de dispersión, la distribución de los datos
según el nivel de error aleatorio presente al momento de aplicar la prueba y que se establece con
mayor precisión, a través del coeficiente o índice de correlación.

Figura 1. Correlación lineal negativa cercana a 1


Este gráfico de dispersión indica alta confiabilidad.
Fuente: elaboración propia

POLITÉCNICO GRANCOLOMBIANO 5
Figura 2. Correlación cercana a 0 o nula
Este gráfico de dispersión muestra una baja confiabilidad.
Fuente: elaboración propia

Según Numally (1978), un valor aceptable en el coeficiente al momento de decidir usar una prueba
o no, estaría alrededor de 0.70 para contextos investigativos y 0.80 a 0.90 para contextos escolar o
clínico, debido a las implicaciones de los resultados en las personas. Lo anterior quiere decir que, en
el caso del coeficiente de 0.70, el 70 % de la puntuación obtenida por la persona es explicada por la
puntuación verdadera y el 30 % restante se debe a otras causas no determinadas. En conclusión, esta
prueba sería 70 % confiable (Aragón, 2015).

No hay que olvidar que las correlaciones pueden tener distintas direcciones. Ya se evidenció en la
Figura 1 cómo se comportan los datos cuando existe correlación, pero hay cuatro formas en las que
esta se puede expresar según Mondragón (2014, p. 99):

1. Lineal o curvilínea. Se da según la nube de puntos condensados en torno a una línea recta o una curva.

2. Positiva o directa. Se presenta cuando al aumentar una variable, aumenta la otra y viceversa.

3. Negativa o inversa. Se da cuando al aumentar o crecer una variable, la otra decrece o viceversa.

4. Funcional. Cuando existe una función tal que todos los valores de la nube de puntos la
satisfacen.

POLITÉCNICO GRANCOLOMBIANO 6
Hallar un buen índice de confiabilidad en una prueba es un proceso que tiene en cuenta
principalmente tres aspectos: la consistencia interna, la estabilidad y la equivalencia.

La consistencia interna hace referencia a que cada apartado de una misma prueba mide lo
mismo. Para establecer la congruencia o consistencia interna de un test existen dos métodos: el
de división del instrumento en dos mitades y el basado en la covarianza de los ítems. El primero
consiste en dividir en dos grupos los ítems de una misma prueba –ítems impares en un grupo y
pares en otro–, aplicarlos de manera independiente y luego establecer el índice de correlación
entre las partes, a través de la fórmula Spearman-Brown, para encontrar la asociación o
interdependencia. Lo que se busca es que los ítems de cada grupo tengan relación entre sí,
ello hablaría de una prueba en la que sus ítems miden lo mismo. La limitación de este método
recae en que se supone que cada mitad es equivalente, además solo es aplicable a pruebas de
habilidades intelectuales y no en las que miden otros atributos psicológicos. Debido a ello, el
psicólogo Lee Cronbach propuso el coeficiente de alfa de Cronbach, que permite obtener
coeficientes de confiabilidad de todas las formas posibles de dividir una prueba en dos (Aragón,
2015; Thomas, 2015).

El segundo método, el de covarianza de los ítems, es aquel en donde cada ítem es equivalente o
representa a la escala total. Lo que se hace en este caso es obtener un índice de correlación, ya
no entre las mitades, sino entre cada uno de sus reactivos (Meneses, 2013).

Por su parte, la estabilidad de la prueba o de la medida hace referencia a que, al medir un atributo
psicológico con un determinado instrumento, en dos momentos distintos con el mismo instrumento
o uno equivalente, las medidas son similares a las obtenidas en la primera aplicación. Esto querrá decir
que son estables a través del tiempo, indicando que los errores son mínimos y por lo tanto confiables.
En caso de presentarse pequeñas variaciones entre una y otra puntuación, estas se les atribuyen a
errores aleatorios asociados al proceso de medición y no a la prueba (Aragón, 2015).

Para conseguir que la prueba sea estable, se emplea el método test-retest, que consiste en
aplicar la prueba a una muestra, y un tiempo después, entre una semana y varios meses, volverla
a aplicar. Se esperaría que las puntuaciones no variaran mucho, lo cual hablaría de la consistencia
temporal de la prueba. En esta estrategia, hay que tener en cuenta que el paso del tiempo entre
una y otra aplicación puede tener efectos sobre los resultados, como maduración cognitiva,
efecto de memoria, práctica y aprendizaje, que pueden hacer que la persona obtenga mejores
resultados en la segunda ejecución (Aragón, 2015).

POLITÉCNICO GRANCOLOMBIANO 7
Por último, está la equivalencia que se utiliza cuando se quiere saber qué tan confiables son
dos instrumentos que se consideran equivalentes. El método de pruebas paralelas o formas
equivalentes consiste en aplicar, al tiempo o en momentos distintos, dos pruebas que miden el
mismo constructo, con miras a contrarrestar los efectos del método test-retest. En este caso, se
debe asegurar que las dos pruebas tengan la misma longitud y dificultad en sus ítems, pues lo que
se busca es relacionar las puntuaciones para conocer la fiabilidad.

Otra forma de hallar la equivalencia es entre evaluadores u observadores que tienen que calificar
o evaluar la ejecución. El objetivo en este caso es establecer el índice de concordancia entre los
conceptos emitidos por cada uno a través del coeficiente Kappa de Cohen (Meneses, 2013).

2. Concepto de validez
La validez hace referencia a la concordancia entre el test y lo que se pretende medir. Se dice que
un instrumento es válido si mide aquello para lo que fue creado, si mide lo que pretende medir
y no otra cosa (Thomas, 2015). Lo que se valida son las interpretaciones de los datos obtenidos
a través de un instrumento o las inferencias resultado de la ejecución de una persona en una
prueba (Martínez, 1996). Lo que la validez busca es suficiente evidencia científica que apoye
la interpretación adecuada de las puntuaciones, permitiendo así sacar conclusiones sobre el
atributo medido.

Es pertinente señalar que una prueba puede ser confiable (medir con precisión) sin ser válida
(medir lo que promete medir), pero para que un test sea válido, necesita ser confiable, aunque
esta no sea una condición suficiente para la existencia de la validez.

Ejemplo: una persona quiere saber la cantidad de agua que hay dentro de un recipiente, para
ello usa una cinta métrica. La medida que otorga la cinta es precisa, porque si el agua está en el
mismo recipiente siempre marcará el mismo valor, pero no es válida, pues la cinta métrica está
diseñada para medir longitudes, no capacidad, luego si se cambia de recipiente la misma cantidad
de agua, la medida podría ser distinta y ello no se debe a la impresión del instrumento (la cinta
métrica en este caso) sino a que no es el instrumento pertinente para medir ese atributo.

Al respecto, Aragón (2015:56) afirma que “una prueba solo es válida para la finalidad específica
para la que fue construida y para lo que es usada (…) por lo tanto no existe un solo tipo de validez”.
La validez es un elemento central en la construcción y evaluación de una prueba o cuestionario,
pues de ella depende que el uso sea el correcto y que el objetivo del psicólogo sea factible.

POLITÉCNICO GRANCOLOMBIANO 8
Así las cosas, las preguntas desde este apartado hacia el instrumento van en el sentido de saber: ¿las
puntuaciones arrojadas permiten predecir cierto comportamiento? ¿Este test es válido para identificar
la magnitud del problema estudiado? Para poder responder estos cuestionamientos, en 1999, entidades
como la American Educational Research Methods (AERA), la American Psychological Association
(APA) y el National Cuoncil on Measurement in Educational (NCME) establecieron cinco apartados
con los cuales se establece la evidencia de validez en un instrumento (Meneses, 2013).

1. Evidencia basada en la validez de contenido: los ítems representan el constructo a medir.

2. Evidencia basada en el proceso de respuesta: el proceso seguido por la persona al responder los
ítems permite extraer información de lo que se está midiendo.

3. Evidencia basada en la estructura interna del cuestionario: los ítems se relacionan entre sí de
forma coherente con el modelo teórico que define el constructo que pretenden representar.

4. Evidencia basada en la relación con otras variables: el constructo que se evalúa se relaciona con
otras variables siguiendo el marco teórico que lo define.

5. Evidencia basada en las consecuencias de la evaluación: las consecuencias positivas y negativas


producto del uso del test son las esperadas.

A continuación, se retoma lo pertinente a los tipos de validez: la validez basada en el constructo, el


contenido y el criterio.

2.1. Validez de constructo

Un constructo es un modelo teórico que pretende hacer tangible una variable intangible, algo
que no existe como dimensión de la conducta observable y que a través de la teoría se establecen
dimensiones de ese fenómeno que sí pueden ser medibles (Aragón, 2015). Un constructo es, por
ejemplo, depresión; se sabe que de manera directa la tristeza profunda no es observable, pues forma
parte de una dimensión interna de la persona, sin embargo, a través de las investigaciones respecto a
esta dificultad del estado de ánimo, se conocen sus manifestaciones y con ellas es posible saber si una
persona está o no deprimida. Así, la Hamilton Depression Rating Scale (HDRS) evalúa a través de 17
ítems la gravedad de los síntomas que podría presentar un paciente con depresión, como la actividad
psicomotora, trabajo y actividades, insomnio, sentimientos de culpa, entre otros.

POLITÉCNICO GRANCOLOMBIANO 9
Entonces, la validez de constructo hace referencia a qué tan ajustados están los ítems al constructo
que dicen representar y que pretenden medir, como lo evidencia el siguiente gráfico.

Constructo
Representación de constructo
Ajuste entre ítem y el constructo

Ítem
Varianza irrelevante

Figura 3. Validez del constructo según los ítems


Esta se obtiene a través de la puntuación y cómo esta evidencia la dimensión del constructo. En la medida en que la intersección sea mayor, mayor
validez de constructo tiene la prueba.
Fuente: elaboración propia, basada en Thomas (2015)

En suma, el objetivo de la validez de constructo es validar la teoría que soporta o explica el sistema
de evaluación de un constructo y la medida obtenida a través del instrumento (Aragón, 2015). En
consecuencia, si, por ejemplo, una prueba pretende medir la ansiedad, debe establecer un sistema de
medida acorde a las dimensiones que teóricamente componen la ansiedad (reactivos que pregunten por
esas dimensiones y no otras). Para verificar si hay un ajuste entre el reactivo y el modelo teórico, al aplicar el
instrumento en personas con diagnóstico de ansiedad, las puntuaciones deberían ser altas, mientras que, en
personas sin síntomas de ansiedad, deberían ser bajas.

2.2. Validez de contenido

La validez de contenido hace referencia al grado de ajuste que existe entre el contenido de la prueba (reactivos)
y el contenido del área de dominio (lo que se evalúa). Esta se expresa en términos de qué tan representativa es
la muestra de ítems que componen el instrumento, respecto del universo teórico que define el contenido que
constituye la propiedad psicológica que pretende representar (Martínez, 1996). Lo que busca este tipo de validez
es saber si las respuestas dadas a los ítems o estímulos y las condiciones bajo las cuales la conducta es observada
representan a todos aquellos conjuntos de estímulos, respuestas y condiciones de observación a los cuales se busca
generalizar (Aragón, 2015).

Un caso de validez de contenido se haría evidente si una prueba que se pretende aplicar para evaluar el desempeño
educativo en el área de matemáticas para grado quinto de primaria logra reflejar de forma representativa (ajustada
en términos de cantidad y cualidad) los contenidos que, según el marco teórico de matemáticas de quinto de
primaria, deberían enseñarse y por ende debería saber un niño que cursó ese grado escolar.

POLITÉCNICO GRANCOLOMBIANO 10
El proceso para asegurar la validez de contiendo arranca con la definición cuidadosa del contenido
que se desea cubrir con la prueba, por ejemplo, revisar las teorías más usadas en el campo donde
se pretende evaluar, con lo cual se elaboran cuadros con especificaciones del área de contenido.
Sin embargo, como la validez de contenido no se expresa numéricamente, no es posible establecer
coeficientes de validez, por lo que su validación se hace por medio de juicios de expertos, quienes
revisan esa pertenencia entre el ítem y el contenido.

2.3. Validez referida a criterio

Este tipo de validez hace referencia a la relación entre el desempeño en una prueba y algún criterio
que es considerado importante del constructo de interés (Thomas, 2015). Para conocer la validez
de criterio, se establece la validez predictiva, con la que se busca predecir el grado del criterio a
obtenerse en el futuro, por ejemplo, aplicar una prueba de desempeño en algún área laboral para
seleccionar un aspirante y con esa prueba predecir su desempeño real en el cargo cuando sea
contratado. Por otro lado, por medio de la validez concurrente, se establece el grado en que el
desempeño en una prueba concuerda, en un mismo momento, con el estado actual de la variable
medida, por ejemplo, cuando se determina la relación entre una prueba de ansiedad y el concepto
médico respecto del estado actual del paciente al respecto.

Una prueba necesita aportar algún grado de certeza sobre la estabilidad del atributo que está
midiendo en la persona. Para lograrlo verifique qué tanto las puntuaciones producto de la prueba
dicen del estado actual y futuro del atributo o criterio, por ejemplo, ayudar a saber si una persona
podría cometer suicidio o si tendría un desempeño laboral óptimo en ciertas condiciones, o apoyar
diagnósticos clínicos cuando de manera recurrente la prueba discrimina los síntomas que el psicólogo
ha identificado en la entrevista.

POLITÉCNICO GRANCOLOMBIANO 11
Referencias
Aragón, B. L. (2015). Evaluación psicológica: historia fundamentos teórico-conceptuales y psicometría
(Segunda edición). México, D.F.: Manual Moderno

Martínez, R. (1996). Psicometría: Teoría de los test psicológicos y educativos. Madrid: Editorial Síntesis.

Meneses, J. (2013). Psicometría. Barcelona: Editorial UOC

Mondragón, M. A. (2014). Uso de la correlación de Spearman en un estudio de intervención en


psicoterapia. Movimiento científico, 8(1), 98-104

Numally, J.C. (1978). Psychometric theory (Segunda edición). New York: McGraw-Hill

Prieto, G. y Delgado, A. (2010). Fiabilidad y validez. Papeles del psicólogo, 31(1), 67-74

Thomas, P. H. (2015). Pruebas psicológicas: una introducción práctica (Segunda edición). Distrito
Federal: Manual Moderno

POLITÉCNICO GRANCOLOMBIANO 12
INFORMACIÓN TÉCNICA

Módulo: Psicometría
Unidad 3: Elaboración de instrumentos de medición
Escenario 5: Confiablidad y validez: mecanismos para
elaboración de pruebas psicológicas

Autor: Yury Estefanía Perdomo

Asesor Pedagógico: Óscar Salazar


Diseñador Gráfico: Walter Rodriguez B.
Asistente: Alejandra Morales

Este material pertenece al Politécnico Grancolombiano.


Prohibida su reproducción total o parcial.

POLITÉCNICO GRANCOLOMBIANO 13

También podría gustarte