0 calificaciones0% encontró este documento útil (0 votos)
17 vistas6 páginas
Este documento describe las etapas necesarias para desarrollar un instrumento de medición científico como una escala o inventario. Explica que se debe evaluar la validez y confiabilidad del instrumento mediante pruebas piloto, análisis psicométricos, y aplicaciones a muestras representativas. También cubre conceptos como validez de contenido, criterio, y constructo, así como métodos para medir la confiabilidad como el alfa de Cronbach y la estabilidad test-retest. El objetivo final es demostrar que
Este documento describe las etapas necesarias para desarrollar un instrumento de medición científico como una escala o inventario. Explica que se debe evaluar la validez y confiabilidad del instrumento mediante pruebas piloto, análisis psicométricos, y aplicaciones a muestras representativas. También cubre conceptos como validez de contenido, criterio, y constructo, así como métodos para medir la confiabilidad como el alfa de Cronbach y la estabilidad test-retest. El objetivo final es demostrar que
Este documento describe las etapas necesarias para desarrollar un instrumento de medición científico como una escala o inventario. Explica que se debe evaluar la validez y confiabilidad del instrumento mediante pruebas piloto, análisis psicométricos, y aplicaciones a muestras representativas. También cubre conceptos como validez de contenido, criterio, y constructo, así como métodos para medir la confiabilidad como el alfa de Cronbach y la estabilidad test-retest. El objetivo final es demostrar que
Para poder utilizar una escala o inventario como instrumento científico
de medición es necesario cubrir una serie de etapas. Los ítems o reactivos que van a componerlo se suelen definir a partir de la revisión de la literatura previa (instrumentos y desarrollos teóricos sobre el tema), entrevistas a informantes claves o mediante el criterio experto (es decir, una persona/profesional que conoce en profundidad el tema y tiene la autoridad como para proponer uno o varios ítems). Una vez estipulada la versión prototípica de la escala advienen una serie de momentos necesarios para conseguir/evaluar la objetividad del instrumento. Una etapa inicial abarcaría una prueba piloto del instrumento preliminar y su aplicación a una muestra de sujetos de características similares a la población objetivo. En esta instancia puede consultarse a los respondientes acerca de la claridad y pertinencia de los ítems (y realizar modificaciones en lo que hace a la redacción del mismo si es necesario). En una segunda etapa se evaluaría la calidad psicométrica de cada uno de los ítems que componen la prueba piloto así como del conjunto de la misma, y finalizaría con la construcción definitiva del instrumento. En algunos casos, existe una tercera etapa en la que se llevaría a cabo la aplicación del test a una muestra representativa de la población a la que va dirigido, se asignarían puntuaciones a los sujetos para su evaluación y se llevaría a cabo el proceso de estandarización de las puntuaciones obtenidas y el establecimiento de normas que permitan su interpretación. Sin embargo, muchas escalas/inventarios que se utilizan actualmente no tienen una forma de interpretación cualitativa de los resultados numéricos y, por lo general, siguen la regla que a mayor puntaje mayor presencia de la variable que se pretende medir en ese sujeto/muestra, y a menor puntaje menor presencia de la variable. Entonces, vale recalcar que los instrumentos de evaluación psicológica responden a una teoría de la medida. Los primeros trabajos de Spearman (entre 1904 y 1913) se centraron en encontrar un modelo estadístico para fundamentar las puntuaciones de los tests y permitiera estimar los errores en la medición. Este modelo se conoce como la Teoría Clásica de los Tests (X = V + e) que sostiene que la puntuación empírica de un sujeto es igual la puntuación verdadera (que no se puede conocer) más el error de medición de la prueba. Entonces, mientras más confiable sea el instrumento menor será el error y más se acercará la puntuación empírica a la verdadera. De esta manera se establece la necesidad de demostrar su confiabilidad y validez científica (propiedades psicométricas). La confiabilidad determina la precisión con que el instrumento mide el objeto de estudio (o variable) y apunta hacia la ausencia de errores de medición. Dadas las condiciones de los atributos psicológicos que hemos mencionado anteriormente, surge la imposibilidad de eliminar por completo el error. Por lo tanto, se apunta a la estabilidad de la medida en tanto las mediciones realizadas con un determinado instrumento son estables a través del tiempo; y a la consistencia interna que refiere al hecho que los distintos reactivos que componen un instrumento son congruentes entre sí a la hora de evaluar un constructo de esta naturaleza. Existen diversos procedimientos para calcular la confiabilidad de un instrumento de medición. Todos utilizan fórmulas que producen coeficientes de confiabilidad. Estos coeficientes pueden oscilar entre cero y uno. Donde un coeficiente de cero significa nula confiabilidad y uno representa un máximo de confiabilidad (confiabilidad total). Entre más se acerque el coeficiente a cero, hay mayor error en la medición (Figura 1)
Figura 1: Interpretación del Coeficiente de confiabilidad
En general, los métodos para evaluarla suelen ser sensibles a la
cantidad de ítems del instrumento (la teoría de los Test sostiene que una dimensión/variable debe estar conformada por, al menos, tres ítems) y a la amplitud de la muestra utilizada para este procedimiento. En contraposición, una escala que esté conformada por un gran número de instrumentos podría ser confiable, pero generar cansancio en el respondiente. Entonces, se debe apuntar a que los instrumentos de medición sean parsimoniosos, es decir, que midan correctamente el constructo con la menor cantidad de ítems posibles. - Coeficiente alfa de Cronbach. Requiere una sola administración del instrumento de medición a una muestra determinada y produce valores que oscilan entre cero y uno.
- Medida de estabilidad. Se puede medir mediante la confiabilidad
test-retest. En este procedimiento un mismo instrumento de medición (o ítems o indicadores) es aplicado dos o más veces a un mismo grupo de personas, después de un periodo de tiempo. Si la correlación entre los resultados de las diferentes aplicaciones es altamente positiva, el instrumento se considera confiable.
- Método de formas alternativas o paralelas. En este procedimiento
se administra el instrumento de medición y dos o más versiones equivalentes (en contenido, instrucciones, duración y otras características) a un mismo grupo de personas dentro de un periodo de tiempo relativamente corto. El instrumento es confiable si la correlación entre los resultados de ambas administraciones es significativamente positiva. Los patrones de respuesta deben variar poco entre las aplicaciones.
- Método de mitades partidas (split-halves). A diferencia de los dos
anteriores, este método requiere sólo una aplicación de la medición. Específicamente, el conjunto total de ítems (o componentes) es dividido en dos mitades y las puntuaciones o resultados de ambas son comparados. Si el instrumento es confiable, las puntuaciones de ambas mitades deben estar fuertemente correlacionadas. Un individuo con baja puntuación en una mitad, tenderá a tener también una baja puntuación en la otra mitad.
La validez, por su parte, pone énfasis en el grado en que un
instrumento mide realmente lo que pretende medir con el objetivo que la interpretación de los datos sea válida (valga la redundancia). Tal como plantean Aragón Borja et al. (2004) existen tres tipos distintos de validez. La validez de contenido se refiera al grado en que los ítems que componen el instrumento representan el contenido que el mismo trata de evaluar. Es decir, si contempla el rasgo teórico al que refiere y sus cualidades (sin omisiones y sin desequilibrios de contenido) en el marco de una teoría particular. Además, busca determinar si el instrumento mide el constructo de forma completa y nada más que se constructo. Por tanto, la validez de contenido se basa en la definición precisa del dominio y en el juicio sobre el grado de suficiencia con que ese dominio se evalúa. Si bien no existe un análisis estadístico que acompañe este tipo de validez, suelen utilizarse cálculos descriptivos de la media y la desviación estándar de cada uno de los ítems. Posteriormente, se determinará un índice de validez de contenido en base a la evaluación/juicio que señale si la puntuación de un determinado ítem es demasiado baja como para ser incluida en la escala. Empero no hay reglas establecidas y la decisión dependerá del juicio propio. Por lo que se debe ser capaz de justificar la decisión tomada sobre el punto de corte establecido y mantenerlo para todos los ítems que componen el instrumento. La validez de criterio hace referencia al grado en que el test correlaciona con otras variables ajenas al mismo (criterios) con lo que se espera por hipótesis que debe correlacionar de un modo determinado. Entonces, se denomina coeficiente de validez a la correlación entre el puntaje del test con dicho criterio externo. Un mismo instrumento puede tener más de un tipo de validez o puede estar validado con respecto a varios criterios simultáneamente. Por ejemplo, podría pensarse que la satisfacción laboral se correlaciona fuertemente con la felicidad en el trabajo y, por lo tanto, la aplicación de un instrumento destinado a medir alguna de estas variables debería obtener tales resultados (se realiza mediante mediciones simultaneas de las variables). Aquí se podría distinguir entre validez externa/interna, en relación a si se valora la correlación entre el instrumento con respecto a un criterio independiente/diferente o con respecto a un mismo rasgo medido mediante una escala ya validada anteriormente. A su vez, se podría realizar una distinción entre validez concurrente/predictiva que se emplea según se utilice un criterio disponible en el momento o para predecir la conducta futura de un individuo. Los análisis estadísticos dependen de la cantidad de instrumentos y criterios, pero en general se utilizan correlaciones bivariadas (mediante el cálculo del coeficiente r de Pearson, generalmente, Figura 2) o regresión lineal simple o múltiple. Figura 2: Interpretación del Coeficiente r de Pearson
La validez de constructo es un concepto más complejo que
depende de las características ya abordadas acerca de los conceptos psicológicos inobservables. Es decir, se validan las cualidades o rasgos psicológicos que mide el instrumento y se valida no solo el constructo sino la teoría psicológica sobre la que éste descansa. Los métodos utilizados para ello son: - Coeficientes de correlación del test con un conjunto de instrumentos de medida y criterios posibles. En este sentido, se puede valorar la validez convergente que indica las correlaciones positivas con otros instrumentos que miden lo mismo (si tomáramos dos de las medidas descritas en la LECTURA 3 para medir felicidad); o validez discriminante indica las correlaciones nulas (o bajas) con instrumentos que miden aspectos diferentes o negativas con aquellos que miden constructos opuestos (por ejemplo, si queremos validar un instrumento para medir bienestar en el trabajo es esperable que se correlacione negativa y significativamente con un índice de burnout).
- Análisis factorial que permite ordenar los datos y facilita la
interpretación de las correlaciones. En este sentido, se espera un factor explicativo del constructo con saturaciones altas del instrumento y otros que miden aspectos similares y con saturaciones bajas con los que miden cuestiones diferentes.
- Análisis de diferencias de medias entre las puntuaciones de la
herramienta entre muestras independientes (edades, sexo, niveles profesionales, entre otros). Estas comparaciones deben partir de hipótesis planteadas en función de los conocimientos previos.
- Análisis lógicos de los ítems en relación con el constructo. De ello
se desprende que aquellos ítems que se correlacionan positivamente entre sí pertenezcan al mismo constructo. Además, si se tiene un índice de consistencia interna bajo, probablemente el instrumento no mida un único constructo.