Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Lectura Fundamental 3 Psicometria
Lectura Fundamental 3 Psicometria
Lectura fundamental
Contenido
Palabras clave: teorías de la medición, teoría clásica, teoría G, teoría de respuesta al ítem, medición, probabilidad.
1. Teoría de la medición
Es importante recordar que el fundamento teórico sobre el cual se explica el modelo psicométrico
que funda los test psicológicos establece que la conducta está determinada por atributos
intrapsíquicos relativamente estables; por lo tanto, la tarea evaluadora consiste en buscar las
manifestaciones externas de la conducta que sirven de indicadores del estado interno de dichos
atributos, no evaluables directamente (González, 2007).
Los fundamentos del método científico y la matemática bajo los cuales se pretendió darle carácter
de ciencia a la psicología y su labor, prosiguieron su camino y se generó así la teoría de la medida, que
según Martínez, Hernández y Hernández es “una rama de la estadística aplicada que busca describir,
categorizar y evaluar la calidad de las mediadas, mejorar su utilidad, exactitud y su significado, así como
proponer métodos para que se desarrollen nuevos y mejores instrumentos de medida” (2014, p. 13).
La teoría de la medida indica qué operaciones métricas deben realizarse a fin de asignar números a los
procesos involucrados. Las operaciones métricas deben dar cuenta de la teoría sobre la cual descansan
esos procesos que quieren ser medidos (Richaud, 2005). Cuando se quiere medir, por ejemplo, la
inteligencia, esta se debe operacionalizar, es decir, fragmentar en respuestas o conductas observables
que den cuenta, de la manera más fiel posible, del constructo teórico inteligencia; así, lo que se mide no
es directamente la inteligencia sino sus atributos observables, a saber, capacidad de resolver problemas
cotidianos, capacidad de memoria, comprensión verbal, velocidad de procesamiento, entre otros.
El paso a seguir es asignarle números a cada atributo representado en un ítem o tarea, con el fin de
establecer la relación entre las puntuaciones empíricas obtenidas y los fenómenos psicológicos que se
quieren medir. Para hacer esto de manera rigurosa, los modelos de medida se basan en la existencia
de una equivalencia entre los atributos físicos y las propiedades aditivas de los números, entonces,
desde esta perspectiva, medir consiste en asignar números a los atributos bajo dos condiciones: que el
atributo sea susceptible de orden, es decir, que sea posible determinar que el atributo presente en un
objeto es menor, igual o mayor que otro; y que se pueda demostrar empíricamente (con datos sujetos
a la realidad observable) la existencia de la aditividad mediante la manipulación empírica, esto es, que
al manipular los atributos, por ejemplo pesando dos manzanas, su peso final sea igual a la suma del
peso de cada manzana (Meneses, 2013).
POLITÉCNICO GRANCOLOMBIANO 2
Cabe recordar en este punto que la matemática se utiliza para explicar el mundo natural mediante
modelos que describen fenómenos reales. La teoría de la probabilidad, al ser parte de ella, se interesa
por el modelo matemático de cualquier fenómeno aleatorio, es decir, aquel fenómeno que depende
del azar (Juan-González, 2016). La conexión entre esta teoría y las de los test radica en que, bajo
el modelo de medida antes expuesto, que asigna números a los atributos para representar lo que
en psicología no es medible u observable directamente, se fundamentan los supuestos teóricos
y estadísticos sobre los cuales se estructuran los test que tienen el propósito de dar cuenta del
fenómeno y, con ello, explicar, predecir y controlar.
POLITÉCNICO GRANCOLOMBIANO 3
¿Sabía que...?
La estandarización es el proceso por medio del cual se normalizan los puntajes que un
test puede arrojar. Consiste en aplicar la prueba a un grupo significativo de personas con
características similares a las de la población objetivo (edad, sexo, nivel educativo, etc.)
y bajo condiciones ambientales controladas (ruido, iluminación, temperatura, etc.). Una
vez se tienen los datos, se organizan para conocer la forma como se distribuyen bajo la
lógica de normalidad de la campana de Gauss. Los datos que están dentro de la media (µ)
son llamados datos típicos o estándar y los datos fuera de la media (µ) son llamados datos
atípicos o anormales; juntos sirven de referente comparativo para futuros puntajes.
Tiene su cuna en los planteamientos de Galton, Wundt, Ebbinghauss, Pearson y Spearman, quienes
marcaron el desarrollo de la antropometría y la psicofísica (Aiken, 1996). Dentro de estos autores,
Spearman, desde la estadística correlacional, fundó las bases sobre las cuales Alfred Binet en 1970
estructuraría la estandarización, las pruebas con múltiples ítem y el uso de normas, tres elementos
esenciales dentro de la teoría clásica de los test (Escurra-Mayaute, 2011).
POLITÉCNICO GRANCOLOMBIANO 4
La TCT se centra en la puntuación obtenida a partir de un conjunto de ítems. Bajo la premisa de que
hay que relacionar las respuestas con el constructo que las inspiró, es decir, con las características
no observables, esta teoría responde al modelo de medida lineal, que dice que se debe obtener una
puntuación dentro del constructo. La premisa básica resalta que toda respuesta dada u observada
frente al ítem o pregunta, surge de una puntuación verdadera, que corresponde a la cantidad del
atributo que posee el sujeto sumado al error de medida. Esta relación entre la puntuación obtenida, la
puntuación real y el error, se expresa de la siguiente manera:
Xi = Vi + Ei
Así, en cada sujeto (i) en el que se mide un atributo, Xi (puntuación obtenida por el sujeto) y Ei (error en
la medición del sujeto – factores del ambiente que pueden alterar los resultados) son variables aleatorias,
no sistemáticas, es decir, que cambian dentro de la ecuación, pues al aplicar el test de manera repetida,
bajo las mismas condiciones, suelen aparecer diferentes puntuaciones. Por su parte, Vi (verdadero
estatus del sujeto en el constructo o puntuación verdadera) es una constante (Martínez et al., 2014).
La lógica de esta teoría establece una serie de supuestos acerca de la naturaleza de las variables implicadas
y de sus relaciones. Estos supuestos son denominados débiles, pues suelen acomodarse a las distintas
situaciones prácticas, es así como la TCT es denominada también modelo débil de la puntuación verdadera.
POLITÉCNICO GRANCOLOMBIANO 5
Las conclusiones que se derivan de los anteriores supuestos, según Allen y Yen (2002) y Muñiz
(1996, 1994), son:
1. Debido a que el valor esperado de los errores es cero, el valor esperado de la puntuación
observada es igual al valor esperado de la puntuación verdadera o teórica. Sin embargo, no la
sustituye, sino que representa la mejor aproximación disponible en el proceso de medida que es
susceptible de error.
Como bien se ve, uno de los objetivos de esta teoría es cuantificar y minimizar los errores cometidos
en los procesos de medida indirecta de los fenómenos psicológicos, centrándose en el análisis de
las puntuaciones obtenidas a través de los ítems; con ello, se asegura la precisión de las medidas. La
utilidad de la TCT radica en que, a través del modelo lineal antes expuesto, en el que es posible saber
la puntuación verdadera de un atributo a través de conocer el nivel de error presente en esa medición
y la puntuación empírica o bruta obtenida por la persona, se constituyen las bases de lo que se
comprende por confiablidad, concepto que se aborda a profundidad en la Unidad tres.
Algunos autores sitúan dentro de la teoría clásica de los test a la TG y a la construcción de los test
referidos a criterio (TRC), desarrollados a partir de la propuesta de Glaser (1963) y que pretenden
dar cuenta del dominio de un criterio concreto o campo de conocimiento, principalmente, en
ámbitos educativos o laborales. Estos no buscan, como la mayoría de los test psicológicos, discriminar
diferencias entre personas, sino evaluar en qué grado se domina un campo de conocimiento llamado
criterio (Muñiz, 2010). Esta condición surge debido a que las teorías son, de alguna manera,
complementarias y la TCT, por ser pionera, delimitó el camino por donde transitarían las otras teorías,
en busca del nivel de confiabilidad de los test, que se demostraría a través de un indicador numérico
denominado alfa de Cronbach, una forma de saber si la medición conduce a los mismos o similares
resultados, a pesar de las variantes que pudieran afectar la prueba. El rango de este coeficiente esta
entre cero (0) y uno (1), cuanto más cercano a uno (1), mayor es la confiablidad de la prueba (Zúñiga-
Brenes y Montero-Rojas, 2007).
POLITÉCNICO GRANCOLOMBIANO 6
2.2. Teoría de la generalizabilidad o teoría G (TG)
Esta teoría fue planteada por Cronbach, Gleser, Nanda y Ra-jaratnam en 1972. Constituye una
variante de la teoría clásica en la que se intenta dar tratamiento al error de medida, centrándose en
cómo los diferentes calificadores, los diferentes ítems o el examen de sujetos en distintos momentos
puede afectar el grado de confianza en las inferencias producto de las puntuaciones (Martínez et
al., 2014). Para medir el nivel de error, hace uso del estadístico para varianza denominado ANOVA
(traduce análisis de varianza), que estima el error aleatorio (foco de la TCT), tomando este como
una fuente no explicada de la variación de los datos y cuantificando la importancia de cada fuente de
variabilidad y las diferencias individuales entre los evaluados, para reducir estos errores a su mínima
expresión, cuando se recolecten datos en el futuro (Zúñiga-Brenes y Montero-Rojas, 2007).
Algunas de las innovaciones propuestas por esta teoría con respecto a la TCT, según Martínez-Arias
(1995) son:
1. Introducción del concepto de muestreo de fuentes de variación múltiples. Acá se concibe cada
situación de medida como una faceta que tiene su propia variabilidad y, por ende, distinta fuente
de error, que es tratada por medio del modelo lineal general.
Algunas fuentes de variabilidad de los datos según esta postura teórica son: las diferencias individuales
en términos de conocimientos, habilidades u otros atributos físicos o cognitivos que presentan las
personas de manera particular; la diferencia en la dificultad de los reactivos, pues algunos ítems se
consideran fáciles, intermedios o difíciles, lo cual afecta el nivel de puntajes de las personas; el nivel
educativo y las experiencias previas que las personas hayan tenido con aquello que pretende medir el
ítem; y, por último, las fuentes no identificadas o factores sistemáticos que suelen estar presentes al
momento de aplicar una prueba. Todos estos factores de variabilidad de los datos entran en juego al
momento en que una persona contesta un test o ejecuta una tarea, por ello, desde la postura teórica
de la generalizabilidad, deben tenerse en cuenta cuando se quiere inferir de ciertos resultados el
comportamiento general de un universo (Zúñiga-Brenes y Montero-Rojas, 2007).
POLITÉCNICO GRANCOLOMBIANO 7
En suma, la teoría G permite, a partir del coeficiente de generalizabilidad (que refleja el grado
de confianza que se puede tener en la generalización de la puntuación observada), estimar
separadamente distintas fuentes de error en un solo análisis y con ello ayudar al investigador a saber
la cantidad y en qué ocasiones aplicar las pruebas, qué reactivos o ítems usar, qué formas del test
y cuántos observadores o calificadores son necesarios para obtener puntuaciones precisas que
permitan generalizar los resultados (Shavelson y Webb, 1991; Brennan, 2001).
Cómo mejorar...
Hacer un breve repaso por los temas vistos en estadística ayuda a
mejorar la comprensión de los temas acá expuestos. Conceptos
como varianza, media, coeficiente de correlación, desviación típica,
normalidad, probabilidad y nivel de significancia pueden clarificar el
panorama frente a los principios estadísticos bajo los cuales operan las
distintas teorías de los test.
La teoría de respuesta al ítem es también conocida como teoría de estructura o de rasgo latente. La
origina Ferguson y Lawley, pero su desarrollo se le adjudica a Frederick Lord en 1952, en el marco de
las limitaciones que imponía el uso de la teoría clásica de los test. La TRI plantea que las puntuaciones
obtenidas en un ítem dependen directamente del grado en que la persona posea la habilidad o rasgo
medido, un rasgo que, por lo general, no es observable, por lo cual se le denomina latente. Esa
relación entre el rendimiento (puntuaciones en el ítem o el test) y el rasgo latente (habilidad de la
persona) se estima a partir del modelo de parámetro logist de Rasch, desarrollado por George Rasch
en 1960. Este modelo considera que la probabilidad de contestar correctamente un ítem está en
función de su dificultad y de la habilidad de la persona. Así pues, se concentra en estudiar la dificultad
de los ítems, pues la considera variable, mientras que otras fuentes de error posibles pueden ser
constantes o sistemáticas, como por ejemplo la habilidad de las personas (Escurra-Mayaute, 2011).
POLITÉCNICO GRANCOLOMBIANO 8
El objetivo de la TRI es permitir la construcción de instrumentos de medición con propiedades
invariantes entre poblaciones o test libres de muestra. Para lograr esa invariabilidad del ítem o del
test, se usa la curva característica del ítem (CCI). Dicha curva muestra el comportamiento del
desempeño de la persona en función del índice de discriminación del ítem, la dificultad baja, media,
alta y la probabilidad que existe de acertar al azar. La combinación de estos tres factores posibilita un
tipo particular de modelo que, a partir de funciones matemáticas, como la función logística, permite
expresar de forma numérica y gráfica la relación entre el rasgo latente y la posibilidad de emitir
la respuesta correcta a un ítem (Escurra-Mayaute, 2011). Bajo esta lógica, la TRI se propone los
siguientes supuestos básicos según Muñiz (2010).
1. Existe una relación funcional entre los valores de la variable que mide el ítem y la probabilidad
de acertarlo.
2. Los modelos TRI asumen que los ítems son unidimensionales. Esto constituye una
limitación para ciertos datos desde la psicología, pues esta disciplina suele manejar datos
multidimensionales.
3. Para utilizar los modelos de la TRI, los ítems deben ser independientes unos de otros, es decir, la
respuesta no puede estar condicionada a la respuesta dada a otros ítems.
En síntesis...
La teoría clásica de los test (TCT) busca pruebas estandarizadas, con
múltiples ítem y basadas en normas; la teoría de la generalizabilidad (TG)
busca que los test permitan generalizar los resultados obtenidos; y la teoría
de respuesta al ítem (TRI) busca test universales desde la equivalencia
de distintas versiones de una misma prueba, presentadas en idiomas
diferentes y usadas, por ejemplo, en estudios transculturales.
POLITÉCNICO GRANCOLOMBIANO 9
Referencias
Aiken, L. R. (1996). Test psicológicos y evaluación. México D. F.: Prentice Hall International.
Cronbach, L. J., Gleser, G., Nanda, H. y Rajaratnam, N. (1972). The dependability of behavioral
measurement: Theory of generalizability for scores and profiles. Nueva York: Wiley.
Glaser, R. (1963). Instructional technology and the measurement of learning outcomes: Some questions.
American Psychologist, 18, 519-521
González, F.M. (2007). Instrumentos de evaluación psicológica. La Habana: Editorial Ciencias Médicas.
Martínez-Arias, R. (1995). Psicometría: teorías de los test psicológicos y educativos. Madrid: Síntesis
Muñiz, J. (2010). Las teorías de los test: teoría clásica y de respuesta a los ítems. Papeles del psicólogo, 31(1),
57-66
Richaud, M. C. (2005). Teoría de la medición y teoría psicológica: su articulación en los test. Suma
psicológica, 12(1), 7-22
POLITÉCNICO GRANCOLOMBIANO 10
INFORMACIÓN TÉCNICA
Módulo: Psicometría
Unidad 2: Fundamentos teóricos
Escenario 3: Principios básicos de las teorías psicométricas
POLITÉCNICO GRANCOLOMBIANO 11