Está en la página 1de 6

LECTURA 4: NOCIONES DE VALIDEZ Y CONFIABILIDAD

Para poder utilizar una escala o inventario como instrumento científico


de medición es necesario cubrir una serie de etapas. Los ítems o
reactivos que van a componerlo se suelen definir a partir de la revisión
de la literatura previa (instrumentos y desarrollos teóricos sobre el
tema), entrevistas a informantes claves o mediante el criterio experto
(es decir, una persona/profesional que conoce en profundidad el tema y
tiene la autoridad como para proponer uno o varios ítems). Una vez
estipulada la versión prototípica de la escala advienen una serie de
momentos necesarios para conseguir/evaluar la objetividad del
instrumento.
Una etapa inicial abarcaría una prueba piloto del instrumento
preliminar y su aplicación a una muestra de sujetos de características
similares a la población objetivo. En esta instancia puede consultarse a
los respondientes acerca de la claridad y pertinencia de los ítems (y
realizar modificaciones en lo que hace a la redacción del mismo si es
necesario). En una segunda etapa se evaluaría la calidad psicométrica
de cada uno de los ítems que componen la prueba piloto así como del
conjunto de la misma, y finalizaría con la construcción definitiva del
instrumento. En algunos casos, existe una tercera etapa en la que se
llevaría a cabo la aplicación del test a una muestra representativa de la
población a la que va dirigido, se asignarían puntuaciones a los sujetos
para su evaluación y se llevaría a cabo el proceso de estandarización de
las puntuaciones obtenidas y el establecimiento de normas que permitan
su interpretación. Sin embargo, muchas escalas/inventarios que se
utilizan actualmente no tienen una forma de interpretación cualitativa de
los resultados numéricos y, por lo general, siguen la regla que a mayor
puntaje mayor presencia de la variable que se pretende medir en ese
sujeto/muestra, y a menor puntaje menor presencia de la variable.
Entonces, vale recalcar que los instrumentos de evaluación
psicológica responden a una teoría de la medida. Los primeros trabajos
de Spearman (entre 1904 y 1913) se centraron en encontrar un modelo
estadístico para fundamentar las puntuaciones de los tests y permitiera
estimar los errores en la medición. Este modelo se conoce como la
Teoría Clásica de los Tests (X = V + e) que sostiene que la
puntuación empírica de un sujeto es igual la puntuación verdadera (que
no se puede conocer) más el error de medición de la prueba. Entonces,
mientras más confiable sea el instrumento menor será el error y más se
acercará la puntuación empírica a la verdadera. De esta manera se
establece la necesidad de demostrar su confiabilidad y validez científica
(propiedades psicométricas).
La confiabilidad determina la precisión con que el instrumento
mide el objeto de estudio (o variable) y apunta hacia la ausencia de
errores de medición. Dadas las condiciones de los atributos psicológicos
que hemos mencionado anteriormente, surge la imposibilidad de
eliminar por completo el error. Por lo tanto, se apunta a la estabilidad
de la medida en tanto las mediciones realizadas con un determinado
instrumento son estables a través del tiempo; y a la consistencia interna
que refiere al hecho que los distintos reactivos que componen un
instrumento son congruentes entre sí a la hora de evaluar un constructo
de esta naturaleza.
Existen diversos procedimientos para calcular la confiabilidad de
un instrumento de medición. Todos utilizan fórmulas que producen
coeficientes de confiabilidad. Estos coeficientes pueden oscilar entre
cero y uno. Donde un coeficiente de cero significa nula confiabilidad y
uno representa un máximo de confiabilidad (confiabilidad total). Entre
más se acerque el coeficiente a cero, hay mayor error en la medición
(Figura 1)

Figura 1: Interpretación del Coeficiente de confiabilidad

En general, los métodos para evaluarla suelen ser sensibles a la


cantidad de ítems del instrumento (la teoría de los Test sostiene que
una dimensión/variable debe estar conformada por, al menos, tres
ítems) y a la amplitud de la muestra utilizada para este procedimiento.
En contraposición, una escala que esté conformada por un gran número
de instrumentos podría ser confiable, pero generar cansancio en el
respondiente. Entonces, se debe apuntar a que los instrumentos de
medición sean parsimoniosos, es decir, que midan correctamente el
constructo con la menor cantidad de ítems posibles.
- Coeficiente alfa de Cronbach. Requiere una sola administración del
instrumento de medición a una muestra determinada y produce
valores que oscilan entre cero y uno.

- Medida de estabilidad. Se puede medir mediante la confiabilidad


test-retest. En este procedimiento un mismo instrumento de
medición (o ítems o indicadores) es aplicado dos o más veces a un
mismo grupo de personas, después de un periodo de tiempo. Si la
correlación entre los resultados de las diferentes aplicaciones es
altamente positiva, el instrumento se considera confiable.

- Método de formas alternativas o paralelas. En este procedimiento


se administra el instrumento de medición y dos o más versiones
equivalentes (en contenido, instrucciones, duración y otras
características) a un mismo grupo de personas dentro de un
periodo de tiempo relativamente corto. El instrumento es confiable
si la correlación entre los resultados de ambas administraciones es
significativamente positiva. Los patrones de respuesta deben
variar poco entre las aplicaciones.

- Método de mitades partidas (split-halves). A diferencia de los dos


anteriores, este método requiere sólo una aplicación de la
medición. Específicamente, el conjunto total de ítems (o
componentes) es dividido en dos mitades y las puntuaciones o
resultados de ambas son comparados. Si el instrumento es
confiable, las puntuaciones de ambas mitades deben estar
fuertemente correlacionadas. Un individuo con baja puntuación en
una mitad, tenderá a tener también una baja puntuación en la
otra mitad.

La validez, por su parte, pone énfasis en el grado en que un


instrumento mide realmente lo que pretende medir con el objetivo que
la interpretación de los datos sea válida (valga la redundancia). Tal
como plantean Aragón Borja et al. (2004) existen tres tipos distintos de
validez.
La validez de contenido se refiera al grado en que los ítems que
componen el instrumento representan el contenido que el mismo trata
de evaluar. Es decir, si contempla el rasgo teórico al que refiere y sus
cualidades (sin omisiones y sin desequilibrios de contenido) en el marco
de una teoría particular. Además, busca determinar si el instrumento
mide el constructo de forma completa y nada más que se constructo.
Por tanto, la validez de contenido se basa en la definición precisa del
dominio y en el juicio sobre el grado de suficiencia con que ese dominio
se evalúa.
Si bien no existe un análisis estadístico que acompañe este tipo de
validez, suelen utilizarse cálculos descriptivos de la media y la
desviación estándar de cada uno de los ítems. Posteriormente, se
determinará un índice de validez de contenido en base a la
evaluación/juicio que señale si la puntuación de un determinado ítem es
demasiado baja como para ser incluida en la escala. Empero no hay
reglas establecidas y la decisión dependerá del juicio propio. Por lo que
se debe ser capaz de justificar la decisión tomada sobre el punto de
corte establecido y mantenerlo para todos los ítems que componen el
instrumento.
La validez de criterio hace referencia al grado en que el test
correlaciona con otras variables ajenas al mismo (criterios) con lo que
se espera por hipótesis que debe correlacionar de un modo
determinado. Entonces, se denomina coeficiente de validez a la
correlación entre el puntaje del test con dicho criterio externo. Un
mismo instrumento puede tener más de un tipo de validez o puede estar
validado con respecto a varios criterios simultáneamente. Por ejemplo,
podría pensarse que la satisfacción laboral se correlaciona fuertemente
con la felicidad en el trabajo y, por lo tanto, la aplicación de un
instrumento destinado a medir alguna de estas variables debería
obtener tales resultados (se realiza mediante mediciones simultaneas de
las variables).
Aquí se podría distinguir entre validez externa/interna, en relación
a si se valora la correlación entre el instrumento con respecto a un
criterio independiente/diferente o con respecto a un mismo rasgo
medido mediante una escala ya validada anteriormente. A su vez, se
podría realizar una distinción entre validez concurrente/predictiva que se
emplea según se utilice un criterio disponible en el momento o para
predecir la conducta futura de un individuo. Los análisis estadísticos
dependen de la cantidad de instrumentos y criterios, pero en general se
utilizan correlaciones bivariadas (mediante el cálculo del coeficiente r de
Pearson, generalmente, Figura 2) o regresión lineal simple o múltiple.
Figura 2: Interpretación del Coeficiente r de Pearson

La validez de constructo es un concepto más complejo que


depende de las características ya abordadas acerca de los conceptos
psicológicos inobservables. Es decir, se validan las cualidades o rasgos
psicológicos que mide el instrumento y se valida no solo el constructo
sino la teoría psicológica sobre la que éste descansa. Los métodos
utilizados para ello son:
- Coeficientes de correlación del test con un conjunto de
instrumentos de medida y criterios posibles. En este sentido, se
puede valorar la validez convergente que indica las correlaciones
positivas con otros instrumentos que miden lo mismo (si
tomáramos dos de las medidas descritas en la LECTURA 3 para
medir felicidad); o validez discriminante indica las correlaciones
nulas (o bajas) con instrumentos que miden aspectos diferentes o
negativas con aquellos que miden constructos opuestos (por
ejemplo, si queremos validar un instrumento para medir bienestar
en el trabajo es esperable que se correlacione negativa y
significativamente con un índice de burnout).

- Análisis factorial que permite ordenar los datos y facilita la


interpretación de las correlaciones. En este sentido, se espera un
factor explicativo del constructo con saturaciones altas del
instrumento y otros que miden aspectos similares y con
saturaciones bajas con los que miden cuestiones diferentes.

- Análisis de diferencias de medias entre las puntuaciones de la


herramienta entre muestras independientes (edades, sexo, niveles
profesionales, entre otros). Estas comparaciones deben partir de
hipótesis planteadas en función de los conocimientos previos.

- Análisis lógicos de los ítems en relación con el constructo. De ello


se desprende que aquellos ítems que se correlacionan
positivamente entre sí pertenezcan al mismo constructo. Además,
si se tiene un índice de consistencia interna bajo, probablemente
el instrumento no mida un único constructo.

También podría gustarte