Material N. 2 de Fundamentos de La Medicion

CONSTRUCCIÓN DE TESTS
En psicometría, se denomina construcción de tests o construcción de pruebas

al conjunto de procedimientos de planificación, diseño, control, normalización y
estandarización de pruebas o tests psicológicos. La construcción de un test
psicológico puede enmarcarse en la teoría clásica o realizarse de acuerdo a la
teoría de respuesta al ítem (también llamada «teoría probabilística»). Si se concibe
el test como instrumento medición ajustado a criterios científicos, su construcción
es un proceso complejo, que consta de varias fases o pasos en los que se aplican
pruebas o procedimientos estadísticos. Las fases se realizan sucesivamente, de
modo que cada una se basa en los resultados obtenidos en la fase anterior.
La teoría de los tests es un área subordinada de la teoría de la medida y se

utiliza, entre otros campos, en la psicología diferencial y en el diagnóstico
psicológico.
En la psicometría, la teoría de los tests se basa en un modelo matemático que

permite esperar ciertas relaciones estadísticas entre determinadas características
y los valores empíricos medidos por los tests. Tras la administración de un test,
estas características se desprenden de sus resultados con el apoyo de la teoría.
Además la teoría aporta criterios de eficiencia en el proceso diagnóstico, que
pueden evaluarse mediante la calidad los tests. El principal campo de aplicación
de la teoría es entonces la construcción de tests, más precisamente, el diseño de
tests optimizados en correspondencia con los criterios de calidad.
Las más conocidas son la teoría clásica de los tests y la teoría probabilística de los
tests (Item-Response-Theorie).
PRINCIPIOS BÁSICOS PARA LA CONSTRUCCIÓN DE INSTRUMENTOS DE
MEDICIÓN PSICOLÓGICA
 Los tests, escalas, cuestionarios e inventarios

 El proceso de construcción de un test
 La finalidad del test
 Especificación de las características del test
 Redacción de los ítems
 Revisión crítica por un grupo de expertios
 Confección de la prueba piloto
 Aplicación de la prueba piloto
 Corrección de la prueba piloto y asignación de puntuaciones a los sujetos
ETAPAS PARA LA ELABORACIÓN DE PRUEBAS PSICOLÓGICAS.
La creación de una prueba no es una cuestión fortuita, es el producto de una

aplicación sólida de principios establecidos de elaboración de pruebas. Teniendo
en cuenta que no todas las pruebas se crean igual, el proceso de elaboración de
estas ocurre en cinco etapas:
1. Conceptualización de la prueba: simula la elaboración de un proyecto de

investigación, incluye selección de la teoría y definición de constructos. Se debe
realizar un estudio piloto con entrevistas no estructuradas. La intención es conocer
cómo medir mejor el constructo que se tiene como objetivo.
2. Construcción de la prueba: para la construcción de la prueba de debe tener

en cuenta algunos pasos como: determinación de la escala (Likert, escalograma
de Guttman, diferencial semántico), elaboración de la tabla de especificaciones,
elaboración de ítems, validez de contenido y estandarización (procedimiento para
uniformizar los criterios de aplicación, calificación e interpretación)
3. Ensayo de la prueba: en esta etapa se debe aplicar la prueba a un grupo piloto

para determinar si los ítems son comprendidos, así mismo se debe aplicar la
muestra.
4. Análisis de los reactivos: en este análisis es muy importante determinar la

validez, determinar la confiabilidad, tener en cuenta las normas de baremos,
determinar el índice de dificultad para medidas de ejecución máxima y analizar los
distractores.
5. Revisión de la prueba: en este último paso de deben seleccionar los mejores

ítems, hacer una revisión de ajuste de la prueba y tabla de especificaciones,
realizar la validación cruzada (realizar nuevamente el procedimiento de validez
con una nueva muestra de la misma población) y finalmente generar la
interpretación.
FASES EN LA CONSTRUCCIÓN DE UN TEST
Existen diversas posibilidades de definir la secuencia de tareas, pero por lo

general se partirá de una teoría ya existente (por ejemplo, la teoría de la
inteligencia, la teoría psicoanalítica de las pulsiones), a la luz de cuyos postulados
se generan las preguntas, ítems o tareas del test. Estos ítems, con la ayuda de
diversos procedimientos y pruebas estadísticas, serán estudiados estableciendo
su valor discriminatorio, su confiabilidad, su validez, etc.
Con frecuencia se realiza una agrupación hipotética (en clases) de las
características que se medirán y luego a través de procedimientos estadísticos
(por ejemplo el análisis factorial) se explora la intensidad o la frecuencia de
presentación de un rasgo estudiado en su clase.
Sin embargo, independientemente de los métodos específicos, es posible

diferenciar de manera gruesa las siguientes etapas en la construcción de un test:
Definiciones: análisis del rasgo a evaluar
Se trata de establecer el constructo no observable que se pretende medir con el

test y los factores que podrían definirlo (por ejemplo, el constructo «personalidad»
y los rasgos estructurales que la definirían; o la «inteligencia» y las funciones
cognitivas que la denotan). En esta fase se trata de delimitar los alcances de lo
que se quiere medir, definir operacionalmente el concepto, aislarlo de otros
constructos aledaños, etc. Se supone que la calidad del análisis y delimitación
clara del constructo determina en gran medida el éxito de la aplicación posterior y
la consistencia interna y externa (en términos de fiabilidad y validez) del test que
se construye.
Planificación: elaboración de los ítems
Se trata aquí de diseñar el test, determinando su estructura general y definiendo el

tipo de tareas o ítems a las que se someterá a la persona (o grupo de personas,
puesto que es importante recordar que el objeto de un test no siempre es un
individuo: puede ser un grupo social, una institución, un equipo de trabajo, una
organización laboral) que será probada. En esta fase se formulan las posibles
preguntas o instrucciones para cada una de las tareas del test. El resultado de
esta fase es un prototipo de test, es decir una versión provisonal de la
construcción propuesta. Es deseable que esta primera versión del test conste de
un número elevado de ítems sobre los que posteriormente hacer la selección final.
Anstey (1976) recomienda que se elabore una base que al menos triplique el
número de ítems de que constará el test definitivo.
Análisis de ítems
En esta etapa se establecen los criterios de adecuación de los ítems, los que más
tarde serán nuevamente controlados en la fase de validación. Principalmente se
trata aquí de explorar el grado de dificultad de las tareas o ítems que van a
conformar el test y de determinar la capacidad que estos muestran para
discriminar la variable que se estudia. Existen dos tipos de análisis posibles:
Análisis subjetivo: Realizado por un conjunto de expertos en la materia que el

test va a evaluar, se trata de un proceso de eliminación de todos aquellos ítems
que sean juzgados inconvenientes con base a una serie de criterios aparentes.
Así, se descartarán mediante este proceso aquellos ítems que reflejen
ambigüedad, constituyan una repetición innecesaria, guarden poca relación con el
constructo a evaluar o una tengan una complejidad sintáctica excesiva.
Análisis objetivo: Se realiza a partir del análisis estadístico de los ítems. Los
criterios de selección varían en función de los supuestos del modelo a utilizar en
su construcción. Si la prueba se construye con base en la Teoría clásica de los
tests, los criterios de selección a tener en cuenta serán los índices de
homogeneidad, validez y dificultad del ítem; su poder discriminativo; y el
coeficiente de fiabilidad del test. Si por el contrario, la prueba se construye bajo los
supuestos de la Teoría de respuesta al ítem, los criterios de selección, según
Hambleton y Swaminathan (1985) serán la dificultad y discriminación del ítem, la
bondad de ajuste del ítem al modelo, y el grado deseado de la función de
información del test.
Determinación de la fiabilidad
El coeficiente de confiabilidad (o fiabilidad) deberá establecer si la característica

estudiada se puede medir con el test de manera estable. Un test es confiable si
mide siempre de igual manera (o de manera estable) la característica o constructo
no observable que pretende medir. Dicho de otro modo, el test- restest debe
arrojar resultados iguales o su diferencia debe ser lo suficientemente mínima como
para desestimarse.
Determinación y control de la validez
Se trata de establecer y controlar si el test mide realmente aquella característica

que pretende medir. La prueba de esto se consigue aplicando el test a una
muestra, de donde se obtendrán los datos normalizados (la distribución de las
medidas en la muestra). Esta muestra, para que el test se considere normalizado,
tendrá que ser seleccionada desde el universo donde luego se pretende aplicar el
test.
Tipificación de los resultados
Este proceso facilita la interpretación correcta de los datos obtenidos a partir del
test. Consiste en tipificar los datos, es decir, realizar una transformación de las
puntuaciones directas (también llamadas "empíricas" u "observadas") para
posibilitar su comparación con las puntuaciones de su población de origen.
Normas de aplicación
En esta fase final, se debe redactar una serie de instrucciones que posibiliten una
correcta administración del test. Deben especificarse claramente las instrucciones
que se va a proporcionar a los sujetos que vayan a participar en la prueba,
poniendo especial énfasis en que sean lo más homogéneas posibles, de manera
que se asegure que todos los participantes en la prueba recibirán exactamente las
mismas instrucciones. De esta forma se reduce en gran medida la presencia de
sesgos que podrían afectar al resultado final.
FIABILIDAD
Conceptos de fiabilidad
En el campo de la psicología, la educación y la investigación social, la fiabilidad

(también llamada técnicamente confiabilidad) es una propiedad psicométrica que
hace referencia a la ausencia de errores de medida, o lo que es lo mismo, al grado
de consistencia y estabilidad de las puntuaciones obtenidas a lo largo de
sucesivos procesos de medición con un mismo instrumento.
Es necesario aclarar que la fiabilidad no es una propiedad de los tests en sí

mismos, sino de las interpretaciones, inferencias o usos específicos que se hagan
a partir de los datos y medidas que estos proporcionan. Asimismo, no puede
hablarse de la fiabilidad en términos absolutos; sí cabría hablar del grado de
fiabilidad que puedan presentar los instrumentos de medida en un contexto de
aplicación determinado.
Existen diversos procedimientos para calcular la confiabilidad de un instrumento

de medición. Todos utilizan fórmulas que producen coeficientes de confiabilidad.
Estos coeficientes pueden oscilar entre O y 1. Donde un coeficiente de O significa
nula confiabilidad y 1 representa un máximo de confiabilidad (confiabilidad total).
Entre más se acerque el coeficiente a cero (0), hay mayor error en la medición.
Error de medición
El error de medición se define como la diferencia entre el valor medido y el valor

verdadero. Afectan a cualquier instrumento de medición y pueden deberse a
distintas causas. Las que se pueden de alguna manera prever, calcular, eliminar
mediante calibraciones y compensaciones, se denominan determinísticos o
sistemáticos y se relacionan con la exactitud de las mediciones. Los que no se
pueden prever, pues dependen de causas desconocidas, o estocásticas se
denominan aleatorios y están relacionados con la precisión del instrumento.
Atendiendo a su naturaleza los errores cometidos en una medición admiten

una clasificación en dos grandes vertientes: errores aleatorios y errores
sistemáticos.
Error aleatorio. No se conocen las leyes o mecanismos que lo causan por su

excesiva complejidad o por su pequeña influencia en el resultado final.
Para conocer este tipo de errores primero debemos realizar un muestreo de

medidas. Con los datos de las sucesivas medidas podemos calcular su media y la
desviación típica muestral. Con estos parámetros se puede obtener la Distribución
normal característica, N[μ, s], y la podemos acotar para un nivel de confianza
dado.
Las medidas entran dentro de la campana con unos "no" márgenes determinados
para un nivel de confianza que suele establecerse entre el 95% y el 98%.
Error sistemático. Permanecen constantes en valor absoluto y en el signo al

medir, una magnitud en las mismas condiciones, y se conocen las leyes que lo
causan.
Para determinar el error sistemático de la medición se deben de realizar una serie

de medidas sobre una magnitud Xo, se debe de calcular la media aritmética de
estas medidas y después hallar la diferencia entre la media y la magnitud X0.
Error sistemático = | media - X0 |
Coeficiente e índice de fiabilidad
El coeficiente de fiabilidad es la correlación entre las puntuaciones obtenidas por

los sujetos en dos formas paralelas de un test (X y X'). Suponiendo que las dos
formas del test sean realmente paralelas (es decir, midan realmente lo mismo), las
puntuaciones de los sujetos deberían ser iguales en ambas aplicaciones. Así,
cuando la correlación es igual a 1, la fiabilidad es máxima. El grado en que el
coeficiente de fiabilidad se aleje de 1 será un indicador del grado de error aleatorio
de medida que estaremos cometiendo en la aplicación de las pruebas. El
coeficiente de fiabilidad no debe confundirse con el índice de fiabilidad, que es la
correlación entre las puntuaciones verdaderas y las empíricas, y se obtiene a partir
de la raíz cuadrada del coeficiente.
Estimación empírica del coeficiente de fiabilidad
Formas paralelas
Este procedimiento es el que se deriva naturalmente del modelo. Requiere que se

utilicen dos pruebas o instrumentos paralelos, esto es, que midan lo mismo de
forma diferente (por ejemplo, dos tests que con diferentes preguntas midan un
determinado rasgo). Después se comparan los dos tests, calculando el coeficiente
de correlación de Pearson. Esta correlación será, como hemos visto en el
apartado anterior, el coeficiente de fiabilidad. Si la correlación es alta, se considera
que hay una buena fiabilidad. Al valor obtenido también se le conoce como
coeficiente de equivalencia, en la medida en que supone un indicador del grado de
equivalencia entre las dos formas paralelas de un test.
La dificultad de este procedimiento radica en conseguir que dos instrumentos sean
realmente "paralelos", dada la dificultad que supone realizar dos pruebas que
midan exactamente lo mismo, pero con diferentes ítems. No obstante, en
condiciones ideales en las que se pueda garantizar el paralelismo de ambas
formas, este es el método más recomendable.
Test-retest
Con este método el coeficiente de fiabilidad se calcula pasando mismo test dos
veces a los mismos sujetos. Se pueden pasar inmediatamente, o dejando un
intervalo de tiempo entre el test y el retest. Después se calcula la correlación de
Pearson entre las puntuaciones de ambas aplicaciones, y el resultado obtenido
será el coeficiente de fiabilidad. Se considera un caso específico de formas
paralelas, dado que evidentemente un test es paralelo a sí mismo. Al resultado
obtenido se le denomina coeficiente de estabilidad, al servir de indicador de hasta
qué punto son estables las mediciones realizadas durante la primera aplicación del
test. Las diferencias en los resultados se atribuyen al grado de consistencia
interna o muestreo de los ítems de la prueba en el caso de pasar el retest de
forma inmediata, y se le suman las fluctuaciones en el tiempo en el caso del
intervalo temporal.
Dejar transcurrir un espacio de tiempo excesivo entre ambas aplicaciones puede

suponer una amenaza a la validez interna por las posibles influencias externas a la
que pueden estar expuestos los sujetos durante el intervalo, y que pueden afectar
a su desempeño en la segunda aplicación. En el extremo opuesto, una aplicación
demasiado apresurada del retest podría afectar igualmente a la validez interna, en
este caso por los posibles efectos del recuerdo reciente de la primera aplicación.
La elección del intervalo de tiempo adecuado entre ambas aplicaciones dependerá
en gran medida del tipo de test, ya que en función de su formato puede ser más
sensible al efecto de una u otra amenaza.2
Dos mitades
A diferencia de los anteriores, este método sólo requiere una aplicación del test.
Tras obtener las puntuaciones obtenidas por los sujetos en cada una de las dos
mitades en que se habrá dividido, se procede a calcular la correlación entre las
dos puntuaciones. El resultado obtenido será un indicador de la covariación entre
ambas mitades, es decir, de la consistencia interna del test. La principal dificultad
de este sistema es asegurarse de que ambas mitades sean efectivamente
paralelas. Un sistema habitual es dividir el test entre los ítems pares y los impares;
no es recomendable dividirlo sin más por la mitad, dado que muchos tests
muestran un incremento gradual de la dificultad de sus ítems.
Otros métodos basados en la consistencia interna
Alfa de Cronbach (1951): El coeficiente alfa (α) es un indicador de la fiabilidad de

un test basado en su grado de consistencia interna. Indica el grado en que los
ítems de un test covarían.
Coeficientes de Kuder-Richardson (1937): Se trata de dos fórmulas aplicables a

sendos casos particulares de alfa. KR20 se aplica en el caso en que los ítems del
test sean dicotómicos, y KR21, en el caso de que además de ser dicotómicos,
tengan la misma dificultad.
Método de Rulon (1939): Una estimación de la fiabilidad de un test a partir de las

puntuaciones obtenidas en sus dos mitades. Considera que la diferencia entre las
dos mitades se debe sólo al error aleatorio.
Método de Guttman/Flanagan (1945/1937): Otra fórmula basada en la

consistencia interna, equivalente a la de Rulon.
Coeficiente beta (β): Propuesto por Raju (1977) para calcular la fiabilidad de
una batería compuesta por diversos subtests. En los casos en los que se desea
calcular la fiabilidad de una batería, se trata a los distintos subtests como si fueran
los ítems de un único test y se calcula el coeficiente alfa global. El problema surge
en los casos en los que los distintos subtests no tienen el mismo número de ítems,
lo que suele ser lo más frecuente, y que repercute en una infraestimación del alfa
global. El coeficiente beta permite sortear esta infraestimación.
Coeficientes theta (θ) y omega (Ω): Basados en el análisis factorial de los ítems,
son indicadores de la consistencia interna similares al coeficiente alfa. El
coeficiente theta fue desarrollado por Carmines y Zeller (1979); y el coeficiente
omega fue desarrollado por Heise y Bohrnstedt (1970).
El error típico de medida:
La diferencia entre la puntuación empírica y la verdadera es el error aleatorio,

llamado error de medida. La desviación típica de los errores de medida recibe el
nombre de error típico de medida.
El error típico de medida permite hacer estimaciones acerca de la fiabilidad

absoluta del test, o sea, estimar cuánto error de medida afecta a una puntuación.
Factores que afectan al coeficiente de fiabilidad
Fiabilidad y variabilidad: el tipo de muestra de sujetos que se haya escogido

para calcular la fiabilidad de un test puede influir en el resultado obtenido. Entre
más “homogénea” será mejor. Esto significa que la fiabilidad ya no depende
únicamente de las características intrínsecas del test, que son tres: a) Cómo se
construye un Test; b) Cómo se aplica el mismo y c) Cómo se evalúa (codificación
y tabulación de los datos), sino también la fiabilidad es afectada por la forma en
que se seleccione la muestra de sujetos a los que se le aplique. Por lo que no se
puede decir que un mismo test tenga un coeficiente de fiabilidad fijo para todo tipo
de muestra seleccionada para su cálculo. En suma, puede afirmarse que la
fiabilidad de un test será mayor cuanta mayor variabilidad exista en la muestra de
sujetos seleccionada. Esta variabilidad no tiene nada qué ver con las
características personales y/o actitudinales de los sujetos sino que este concepto
de variabilidad indica a la desviación respecto de las medias de las distribuciones.
Fiabilidad y longitud: en términos generales, puede decirse que la fiabilidad de

un test aumenta a medida que aumenta su longitud, es decir, su número de ítems.
Ello no significa que resulte recomendable alargar innecesariamente un test en pro
de aumentar su fiabilidad, ni que cualquier test pueda convertirse en un
instrumento fiable por el único medio de aumentar indefinidamente su longitud.
Cualquier test de cierta longitud da un error al azar, que dicho error contiene
tamaño y dirección cuando es aplicado a “n” número de sujetos. Por lo cual en la
Teoría de los Test se señala claramente que la “longitud de un test” se supone que
es una función lineal del número de ítems que conforman la batería de preguntas
del mismo, por lo cual al alargar el test la varianza total (compuesta de la varianza
verdadera + la varianza de error) se ve afectada. La fórmula de Spearman-Brown
permite pronosticar el aumento de fiabilidad obtenida tras el incremento de la
longitud de un test, siempre y cuando los ítems añadidos sean paralelos a los ya
existentes.
VALIDEZ
En el campo de la metrología, psicometría y estadística, la validez es un concepto

que hace referencia a la capacidad de un instrumento de medición para cuantificar
de forma significativa y adecuada el rasgo para cuya medición ha sido diseñado.
De esta forma, un instrumento de medida es válido en la medida en que las
evidencias empíricas legitiman la interpretación de las puntuaciones arrojadas por
el test.
Desde el punto de vista psicométrico, la validez es el resultado de un proceso de

recopilación de evidencias empíricas sustentado en supuestos teóricos que, en
suma, permiten emitir un juicio valorativo que afirme la pertinencia y la suficiencia
de las interpretaciones basadas en los resultados de una prueba. Este juicio no
depende únicamente de los ítemes de la prueba, sino también de la muestra sobre
la que se efectúe el test, y del contexto de aplicación
Tipos de validez
Validez de contenido
Se dice que una prueba o test cumple con las condiciones de validez de contenido
si constituye una muestra adecuada y representativa de los contenidos y alcance
del constructo o dimensión a evaluar. En los casos en los que la materia objeto de
medición se puede precisar con facilidad, la población de contenidos que se
pretende evaluar está bien definida, por lo que la selección de los ítems del test no
ofrece mayores dificultades, pudiéndose recurrir a métodos estadísticos de
muestreo aleatorio para obtener una muestra representativa de ítems. No
obstante, en el campo de la psicología no siempre es posible disponer de
poblaciones de contenidos bien definidas (por ejemplo, si se pretenden medir
variables psicológicas clásicas, como la extraversión, la inteligencia o el liderazgo).
En estos casos suele recurrirse a un análisis racional de ítems, consistente en la
evaluación de los contenidos del test por parte de un grupo de expertos en el área
a tratar.6 La validez de contenido es esencial a la hora de realizar inferencias o
generalizaciones a partir de los resultados del test.
Un caso particular de la validez de contenido es la denominada «validez

aparente». Una prueba posee una validez aparente adecuada cuando produce en
los sujetos a los que se aplica la impresión de que efectivamente es una prueba
adecuada. Es un tipo peculiar de validez de contenido, pero que tiene su parte de
importancia al poder influir sobre la motivación de los participantes, que pueden
mostrar una actitud negativa ante la prueba si no perciben que ésta tenga el
sentido que se le supone.
Validez predictiva
También conocida como «validez criterial», «validez relativa al criterio» o «validez

de pronóstico», se refiere al grado de eficacia con que se puede predecir o
pronosticar una variable de interés (criterio) a partir de las puntuaciones en un test.
Es frecuente que en los procesos de selección de personal se utilicen
instrumentos que pretendan determinar o predecir el rendimiento futuro de los
candidatos al puesto de trabajo basándose en las respuestas obtenidas. Para ello
es necesario que se haya obtenido una evidencia empírica de que los resultados
obtenidos en la prueba correlacionen efectivamente con el rendimiento futuro en el
puesto de trabajo.
Así pues, la operacionalización del concepto se realiza a partir del denominado
coeficiente de validez, que es la correlación entre el test y el criterio. A mayor
correlación, mayor capacidad predictiva del test. Existen distintos diseños
experimentales que permiten determinar esta correlación. La elección de un
diseño u otro dependerá de las necesidades y circunstancias específicas de cada
caso:
Validez concurrente o simultánea: El test y el criterio se miden al mismo tiempo

(concurrentemente). Puede utilizarse para validar un nuevo test por comparación
con otro ya validado previamente.
Validez de pronóstico: El criterio se mide pasado un periodo de tiempo tras la

aplicación del test. Es el tipo más habitual en los procesos de selección de
personal, en los que se pretende predecir el rendimiento futuro de los sujetos.
Validez retrospectiva: El test se aplica un tiempo después del criterio que se

pretende evaluar. Útil cuando se pretende dilucidar mediante una prueba algún
aspecto del pasado que actualmente no es accesible.
Validez de constructo
A diferencia de lo que ocurre en otros campos, muchos de los conceptos

manejados en el ámbito de la psicología no son directamente observables, por lo
que requieren del apoyo de medidas indirectas. Los concepto de peso o volumen
son suficientemente tangibles como para no resultar susceptibles de
interpretaciones subjetivas al respecto de su significado, pero no ocurre lo mismo
en el caso de variables psicológicas como el neuroticismo o la introversión. Estos
conceptos precisan del acuerdo o consenso sobre sus significados para poder ser
catalogados como útiles y válidos desde un punto de vista científico. La validez de
constructo, pues, hace referencia a la recogida de evidencias empíricas que
garanticen la existencia de un constructo psicológico en las condiciones exigibles
a cualquier otro modelo o teoría científica.3 Por todo ello, la validez de constructo
se presenta como una condición indispensable a la hora de valorar la eficacia de
un instrumento de evaluación sobre una variable psicológica determinada.
Para Messick (1980; p.1015) «la validez de constructo es el concepto unificador

que integra las consideraciones de validez de contenido y de criterio en un marco
común para probar hipótesis acerca de relaciones teóricamente relevantes».
Asimismo, Cronbach (1984; p.126) refiere que «la meta final de la validación es la
explicación y comprensión, y por tanto, esto nos lleva a considerar que toda
validación es validación de constructo».
Los procedimientos metodológicos más utilizados para la obtención de datos
referentes a la validez de constructos psicológicos han sido el análisis factorial y la
matriz multirrasgo-multimétodo. Ambos sistemas son indicadores respectivos de
las denominadas "validez factorial" y "validez convergente-discriminante".
Validez factorial
El análisis factorial es una técnica del análisis multivariado que permite realizar
una estimación de los factores que dan cuenta de una serie de variables. Se trata
de una técnica de reducción de datos que permite encontrar grupos homogéneos
de variables a partir de un grupo de variables mucho más numeroso. Los criterios
de formación de grupos se basan en la necesidad de que las variables a agrupar
correlacionen entre sí, y cumplan el requisito de ser independientes. Es decir,
formarán un grupo aquellas variables que, siendo independientes entre sí,
muestren un índice de correlación elevado. Así, podremos hablar de validez
factorial de un constructo en aquellos casos en los que todas las medidas que se
hayan diseñado para evaluarlo arrojen resultados similares al ser sometidas a un
análisis factorial. Este análisis puede ser evaluatorio, si se realiza con la intención
de descubrir la posible estructura subyacente factorial de un conjunto de datos
cualesquiera; o confirmatorio, si se realiza con base en unas expectativas y teorías
previas al respecto de esa estructura.
Validez convergente-discriminante
Este tipo de validez se determina a partir de los resultados arrojados por la matriz
multirrasgo-multimétodo (diseño MRMM, sistematizado por Campbell y Fiske en
1959). El sistema consiste en realizar mediciones de varios rasgos con distintos
métodos de medición. De este modo podemos encontrarnos con varios resultados.
Validez convergente: existe validez convergente cuando las mediciones del mismo
rasgo realizadas con distintos métodos correlacionan entre sí. El hecho de que un
mismo rasgo sea detectado por igual con varias metodologías diferentes, es un
indicador fiable de la existencia real de ese rasgo. Se dice que en este caso, las
medidas convergen.
Validez discriminante: se refiere al grado de diferenciación entre distintos

constructos a partir de un único sistema de medición. Es decir, las medidas de
distintos rasgos por el mismo método muestran una baja correlación en
comparación con la que muestran las medidas del mismo rasgo con diferentes
métodos, señal de que los rasgos son independientes entre sí, e independientes al
sistema de medición empleado.

Material N. 2 de Fundamentos de La Medicion

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Material N. 2 de Fundamentos de La Medicion

Cargado por

Copyright:

Formatos disponibles

CONSTRUCCIÓN DE TESTS

En psicometría, se denomina construcción de tests o construcción de pruebas

La teoría de los tests es un área subordinada de la teoría de la medida y se

En la psicometría, la teoría de los tests se basa en un modelo matemático que

 Los tests, escalas, cuestionarios e inventarios

La creación de una prueba no es una cuestión fortuita, es el producto de una

1. Conceptualización de la prueba: simula la elaboración de un proyecto de

2. Construcción de la prueba: para la construcción de la prueba de debe tener

3. Ensayo de la prueba: en esta etapa se debe aplicar la prueba a un grupo piloto

4. Análisis de los reactivos: en este análisis es muy importante determinar la

5. Revisión de la prueba: en este último paso de deben seleccionar los mejores

FASES EN LA CONSTRUCCIÓN DE UN TEST

Existen diversas posibilidades de definir la secuencia de tareas, pero por lo

Sin embargo, independientemente de los métodos específicos, es posible

Definiciones: análisis del rasgo a evaluar

Se trata de establecer el constructo no observable que se pretende medir con el

Planificación: elaboración de los ítems

Se trata aquí de diseñar el test, determinando su estructura general y definiendo el

Análisis subjetivo: Realizado por un conjunto de expertos en la materia que el

El coeficiente de confiabilidad (o fiabilidad) deberá establecer si la característica

Determinación y control de la validez

Se trata de establecer y controlar si el test mide realmente aquella característica

Tipificación de los resultados

En el campo de la psicología, la educación y la investigación social, la fiabilidad

Es necesario aclarar que la fiabilidad no es una propiedad de los tests en sí

Existen diversos procedimientos para calcular la confiabilidad de un instrumento

El error de medición se define como la diferencia entre el valor medido y el valor

Atendiendo a su naturaleza los errores cometidos en una medición admiten

Error aleatorio. No se conocen las leyes o mecanismos que lo causan por su

Para conocer este tipo de errores primero debemos realizar un muestreo de

Error sistemático. Permanecen constantes en valor absoluto y en el signo al

Para determinar el error sistemático de la medición se deben de realizar una serie

Error sistemático = | media - X0 |

Coeficiente e índice de fiabilidad

El coeficiente de fiabilidad es la correlación entre las puntuaciones obtenidas por

Estimación empírica del coeficiente de fiabilidad

Este procedimiento es el que se deriva naturalmente del modelo. Requiere que se

Dejar transcurrir un espacio de tiempo excesivo entre ambas aplicaciones puede

Alfa de Cronbach (1951): El coeficiente alfa (α) es un indicador de la fiabilidad de

Coeficientes de Kuder-Richardson (1937): Se trata de dos fórmulas aplicables a

Método de Rulon (1939): Una estimación de la fiabilidad de un test a partir de las

Método de Guttman/Flanagan (1945/1937): Otra fórmula basada en la

El error típico de medida:

La diferencia entre la puntuación empírica y la verdadera es el error aleatorio,

El error típico de medida permite hacer estimaciones acerca de la fiabilidad

Factores que afectan al coeficiente de fiabilidad

Fiabilidad y variabilidad: el tipo de muestra de sujetos que se haya escogido

Fiabilidad y longitud: en términos generales, puede decirse que la fiabilidad de

En el campo de la metrología, psicometría y estadística, la validez es un concepto

Desde el punto de vista psicométrico, la validez es el resultado de un proceso de

Un caso particular de la validez de contenido es la denominada «validez

También conocida como «validez criterial», «validez relativa al criterio» o «validez

Validez concurrente o simultánea: El test y el criterio se miden al mismo tiempo

Validez de pronóstico: El criterio se mide pasado un periodo de tiempo tras la

Validez retrospectiva: El test se aplica un tiempo después del criterio que se

A diferencia de lo que ocurre en otros campos, muchos de los conceptos

Para Messick (1980; p.1015) «la validez de constructo es el concepto unificador

Validez discriminante: se refiere al grado de diferenciación entre distintos

También podría gustarte