Está en la página 1de 11

Unidad 2 / Escenario 3

Lectura fundamental

Principios básicos de las teorías


psicométricas

Contenido

1 Teoría de la medición y probabilidad

2 Fundamentos teóricos para el diseño y la construcción de test

Palabras clave: teorías de la medición, teoría clásica, teoría G, teoría de respuesta al ítem, medición, probabilidad.
1. Teoría de la medición

Es importante recordar que el fundamento teórico sobre el cual se explica el modelo psicométrico
que funda los test psicológicos establece que la conducta está determinada por atributos
intrapsíquicos relativamente estables; por lo tanto, la tarea evaluadora consiste en buscar las
manifestaciones externas de la conducta que sirven de indicadores del estado interno de dichos
atributos, no evaluables directamente (González, 2007).

Los fundamentos del método científico y la matemática bajo los cuales se pretendió darle carácter
de ciencia a la psicología y su labor, prosiguieron su camino y se generó así la teoría de la medida, que
según Martínez, Hernández y Hernández es “una rama de la estadística aplicada que busca describir,
categorizar y evaluar la calidad de las mediadas, mejorar su utilidad, exactitud y su significado, así como
proponer métodos para que se desarrollen nuevos y mejores instrumentos de medida” (2014, p. 13).

La teoría de la medida indica qué operaciones métricas deben realizarse a fin de asignar números a los
procesos involucrados. Las operaciones métricas deben dar cuenta de la teoría sobre la cual descansan
esos procesos que quieren ser medidos (Richaud, 2005). Cuando se quiere medir, por ejemplo, la
inteligencia, esta se debe operacionalizar, es decir, fragmentar en respuestas o conductas observables
que den cuenta, de la manera más fiel posible, del constructo teórico inteligencia; así, lo que se mide no
es directamente la inteligencia sino sus atributos observables, a saber, capacidad de resolver problemas
cotidianos, capacidad de memoria, comprensión verbal, velocidad de procesamiento, entre otros.

El paso a seguir es asignarle números a cada atributo representado en un ítem o tarea, con el fin de
establecer la relación entre las puntuaciones empíricas obtenidas y los fenómenos psicológicos que se
quieren medir. Para hacer esto de manera rigurosa, los modelos de medida se basan en la existencia
de una equivalencia entre los atributos físicos y las propiedades aditivas de los números, entonces,
desde esta perspectiva, medir consiste en asignar números a los atributos bajo dos condiciones: que el
atributo sea susceptible de orden, es decir, que sea posible determinar que el atributo presente en un
objeto es menor, igual o mayor que otro; y que se pueda demostrar empíricamente (con datos sujetos
a la realidad observable) la existencia de la aditividad mediante la manipulación empírica, esto es, que
al manipular los atributos, por ejemplo pesando dos manzanas, su peso final sea igual a la suma del
peso de cada manzana (Meneses, 2013).

POLITÉCNICO GRANCOLOMBIANO 2
Cabe recordar en este punto que la matemática se utiliza para explicar el mundo natural mediante
modelos que describen fenómenos reales. La teoría de la probabilidad, al ser parte de ella, se interesa
por el modelo matemático de cualquier fenómeno aleatorio, es decir, aquel fenómeno que depende
del azar (Juan-González, 2016). La conexión entre esta teoría y las de los test radica en que, bajo
el modelo de medida antes expuesto, que asigna números a los atributos para representar lo que
en psicología no es medible u observable directamente, se fundamentan los supuestos teóricos
y estadísticos sobre los cuales se estructuran los test que tienen el propósito de dar cuenta del
fenómeno y, con ello, explicar, predecir y controlar.

No obstante, algunos principios de medida, provenientes de la física no aplicaban a todas las


propiedades psicológicas, lo que hizo necesario desarrollar modelos alternos que permitieran hacer
medible lo no observable o manipulable; de ahí surgen los modelos representacional, operacional y
clásico, expuestos en el siguiente gráfico. Sobre estos planteamientos teóricos se estructuraron las
teorías de los test de los que se habla más adelante.

Proponen que la definición de un concepto se haga a partir de las


operaciones necesarias para medirlo, sin necesidad de una relación
empírica que apoye los números que producen las operaciones.
(Bridgman, 1927; Dinge, 1950)

Asigna números a las propiedades en términos de


equivalencia y orden, lo que permitiría no solo
cuantificar, sino representar numéricamente los
hechos. Ese modelo estableció cuatro escalas de
(Stevens, 1946; Suppes, 1951) medida: Nominal, Ordinal, de Escala y de Razón

(Rozeboom,1966; Jones, 1971)

La medida es la determinación de la cantidad en la que un atributo está presente en


el objeto medido. Establece cuántas unidades del atributo están presentes sin que se
necesite una relación empírica entre los objetos

Figura 1. Antes de las teorías de los test


Fuente: elaboración propia basada en Meneses (2013)

POLITÉCNICO GRANCOLOMBIANO 3
¿Sabía que...?
La estandarización es el proceso por medio del cual se normalizan los puntajes que un
test puede arrojar. Consiste en aplicar la prueba a un grupo significativo de personas con
características similares a las de la población objetivo (edad, sexo, nivel educativo, etc.)
y bajo condiciones ambientales controladas (ruido, iluminación, temperatura, etc.). Una
vez se tienen los datos, se organizan para conocer la forma como se distribuyen bajo la
lógica de normalidad de la campana de Gauss. Los datos que están dentro de la media (µ)
son llamados datos típicos o estándar y los datos fuera de la media (µ) son llamados datos
atípicos o anormales; juntos sirven de referente comparativo para futuros puntajes.

2. Fundamentos teóricos para el diseño y construcción de test

El desarrollo de la psicometría como disciplina y rama de la psicología trajo consigo avances


metodológicos y teóricos que permitieron fundamentar pruebas o test psicométricos más precisos
y fiables, en aras de responder a las exigencias de la comunidad científica, que demandaba sustentos
contundentes, por lo general, bajo los principios matemáticos, que dieran claridad sobre lo que en
verdad podía hacer la psicometría por aportar a la explicación y comprensión de la conducta humana.
Debido a esto, surgieron una serie de teorías que, bajo preceptos positivistas, fundamentaron el
diseño y construcción de los test cuyo objetivo es predecir y clasificar.

2.1. Teoría clásica de los test (TCT)

Tiene su cuna en los planteamientos de Galton, Wundt, Ebbinghauss, Pearson y Spearman, quienes
marcaron el desarrollo de la antropometría y la psicofísica (Aiken, 1996). Dentro de estos autores,
Spearman, desde la estadística correlacional, fundó las bases sobre las cuales Alfred Binet en 1970
estructuraría la estandarización, las pruebas con múltiples ítem y el uso de normas, tres elementos
esenciales dentro de la teoría clásica de los test (Escurra-Mayaute, 2011).

POLITÉCNICO GRANCOLOMBIANO 4
La TCT se centra en la puntuación obtenida a partir de un conjunto de ítems. Bajo la premisa de que
hay que relacionar las respuestas con el constructo que las inspiró, es decir, con las características
no observables, esta teoría responde al modelo de medida lineal, que dice que se debe obtener una
puntuación dentro del constructo. La premisa básica resalta que toda respuesta dada u observada
frente al ítem o pregunta, surge de una puntuación verdadera, que corresponde a la cantidad del
atributo que posee el sujeto sumado al error de medida. Esta relación entre la puntuación obtenida, la
puntuación real y el error, se expresa de la siguiente manera:

Xi = Vi + Ei

Así, en cada sujeto (i) en el que se mide un atributo, Xi (puntuación obtenida por el sujeto) y Ei (error en
la medición del sujeto – factores del ambiente que pueden alterar los resultados) son variables aleatorias,
no sistemáticas, es decir, que cambian dentro de la ecuación, pues al aplicar el test de manera repetida,
bajo las mismas condiciones, suelen aparecer diferentes puntuaciones. Por su parte, Vi (verdadero
estatus del sujeto en el constructo o puntuación verdadera) es una constante (Martínez et al., 2014).

La lógica de esta teoría establece una serie de supuestos acerca de la naturaleza de las variables implicadas
y de sus relaciones. Estos supuestos son denominados débiles, pues suelen acomodarse a las distintas
situaciones prácticas, es así como la TCT es denominada también modelo débil de la puntuación verdadera.

Tabla 1. Supuestos débiles de la TCT

Supuesto Expresión del supuesto


El valor esperado de la variable aleatoria error de medida para una población
de personas medidas con el mismo test o para la repetición infinita de E (Ei) = 0
mediadas realizadas al mismo sujeto es igual a cero.
No existe relación entre la puntuación verdadera y el error que afecta esa
puntuación, lo que implica que la puntuación de cada sujeto se ve afectada σ Vi Ei = 0
por cantidades distintas de error.
Si se aplican dos test distintos a una población de sujetos, los errores que se
cometan al aplicar el primer test no estarán correlacionados con los errores σ Ei Ei = 0
que se cometan al aplicar el segundo.
Los errores de medida de un test no estarán correlacionados con las
puntuaciones verdaderas del otro, pues no se trataría de un error aleatorio, σ Vi Ei = 0
sino de un error relacionado con alguna dimensión medida.
Fuente: elaboración propia basada en Martínez et al. (2014)

POLITÉCNICO GRANCOLOMBIANO 5
Las conclusiones que se derivan de los anteriores supuestos, según Allen y Yen (2002) y Muñiz
(1996, 1994), son:

1. Debido a que el valor esperado de los errores es cero, el valor esperado de la puntuación
observada es igual al valor esperado de la puntuación verdadera o teórica. Sin embargo, no la
sustituye, sino que representa la mejor aproximación disponible en el proceso de medida que es
susceptible de error.

2. La varianza de las puntuaciones observadas es la suma de la varianza de las puntuaciones


verdaderas y de la varianza de los errores de medida. Así, no se espera que el tamaño de los
errores cometidos se asocie sistemáticamente al tamaño de las puntuaciones verdaderas.

3. Cada ítem es un indicador adecuado del mismo puntaje verdadero.

Como bien se ve, uno de los objetivos de esta teoría es cuantificar y minimizar los errores cometidos
en los procesos de medida indirecta de los fenómenos psicológicos, centrándose en el análisis de
las puntuaciones obtenidas a través de los ítems; con ello, se asegura la precisión de las medidas. La
utilidad de la TCT radica en que, a través del modelo lineal antes expuesto, en el que es posible saber
la puntuación verdadera de un atributo a través de conocer el nivel de error presente en esa medición
y la puntuación empírica o bruta obtenida por la persona, se constituyen las bases de lo que se
comprende por confiablidad, concepto que se aborda a profundidad en la Unidad tres.

Algunos autores sitúan dentro de la teoría clásica de los test a la TG y a la construcción de los test
referidos a criterio (TRC), desarrollados a partir de la propuesta de Glaser (1963) y que pretenden
dar cuenta del dominio de un criterio concreto o campo de conocimiento, principalmente, en
ámbitos educativos o laborales. Estos no buscan, como la mayoría de los test psicológicos, discriminar
diferencias entre personas, sino evaluar en qué grado se domina un campo de conocimiento llamado
criterio (Muñiz, 2010). Esta condición surge debido a que las teorías son, de alguna manera,
complementarias y la TCT, por ser pionera, delimitó el camino por donde transitarían las otras teorías,
en busca del nivel de confiabilidad de los test, que se demostraría a través de un indicador numérico
denominado alfa de Cronbach, una forma de saber si la medición conduce a los mismos o similares
resultados, a pesar de las variantes que pudieran afectar la prueba. El rango de este coeficiente esta
entre cero (0) y uno (1), cuanto más cercano a uno (1), mayor es la confiablidad de la prueba (Zúñiga-
Brenes y Montero-Rojas, 2007).

POLITÉCNICO GRANCOLOMBIANO 6
2.2. Teoría de la generalizabilidad o teoría G (TG)

Esta teoría fue planteada por Cronbach, Gleser, Nanda y Ra-jaratnam en 1972. Constituye una
variante de la teoría clásica en la que se intenta dar tratamiento al error de medida, centrándose en
cómo los diferentes calificadores, los diferentes ítems o el examen de sujetos en distintos momentos
puede afectar el grado de confianza en las inferencias producto de las puntuaciones (Martínez et
al., 2014). Para medir el nivel de error, hace uso del estadístico para varianza denominado ANOVA
(traduce análisis de varianza), que estima el error aleatorio (foco de la TCT), tomando este como
una fuente no explicada de la variación de los datos y cuantificando la importancia de cada fuente de
variabilidad y las diferencias individuales entre los evaluados, para reducir estos errores a su mínima
expresión, cuando se recolecten datos en el futuro (Zúñiga-Brenes y Montero-Rojas, 2007).

Algunas de las innovaciones propuestas por esta teoría con respecto a la TCT, según Martínez-Arias
(1995) son:

1. Introducción del concepto de muestreo de fuentes de variación múltiples. Acá se concibe cada
situación de medida como una faceta que tiene su propia variabilidad y, por ende, distinta fuente
de error, que es tratada por medio del modelo lineal general.

2. Sustitución del concepto de medidas paralelas por el de medidas aleatorias paralelas. Se


consideran los distintos componentes de una evaluación como una muestra aleatoria.

3. Ampliación o sustitución del concepto de fiabilidad por el de generalizabilidad o invarianza, aplicado,


ya no solo al test, sino a la población o universo, en aras de generalizar o permitir la inferencia
estadística a partir de la puntuación observada, considerada como una muestra de ese universo.

Algunas fuentes de variabilidad de los datos según esta postura teórica son: las diferencias individuales
en términos de conocimientos, habilidades u otros atributos físicos o cognitivos que presentan las
personas de manera particular; la diferencia en la dificultad de los reactivos, pues algunos ítems se
consideran fáciles, intermedios o difíciles, lo cual afecta el nivel de puntajes de las personas; el nivel
educativo y las experiencias previas que las personas hayan tenido con aquello que pretende medir el
ítem; y, por último, las fuentes no identificadas o factores sistemáticos que suelen estar presentes al
momento de aplicar una prueba. Todos estos factores de variabilidad de los datos entran en juego al
momento en que una persona contesta un test o ejecuta una tarea, por ello, desde la postura teórica
de la generalizabilidad, deben tenerse en cuenta cuando se quiere inferir de ciertos resultados el
comportamiento general de un universo (Zúñiga-Brenes y Montero-Rojas, 2007).

POLITÉCNICO GRANCOLOMBIANO 7
En suma, la teoría G permite, a partir del coeficiente de generalizabilidad (que refleja el grado
de confianza que se puede tener en la generalización de la puntuación observada), estimar
separadamente distintas fuentes de error en un solo análisis y con ello ayudar al investigador a saber
la cantidad y en qué ocasiones aplicar las pruebas, qué reactivos o ítems usar, qué formas del test
y cuántos observadores o calificadores son necesarios para obtener puntuaciones precisas que
permitan generalizar los resultados (Shavelson y Webb, 1991; Brennan, 2001).

Cómo mejorar...
Hacer un breve repaso por los temas vistos en estadística ayuda a
mejorar la comprensión de los temas acá expuestos. Conceptos
como varianza, media, coeficiente de correlación, desviación típica,
normalidad, probabilidad y nivel de significancia pueden clarificar el
panorama frente a los principios estadísticos bajo los cuales operan las
distintas teorías de los test.

2.3. Teoría de respuesta al ítem (TRI)

La teoría de respuesta al ítem es también conocida como teoría de estructura o de rasgo latente. La
origina Ferguson y Lawley, pero su desarrollo se le adjudica a Frederick Lord en 1952, en el marco de
las limitaciones que imponía el uso de la teoría clásica de los test. La TRI plantea que las puntuaciones
obtenidas en un ítem dependen directamente del grado en que la persona posea la habilidad o rasgo
medido, un rasgo que, por lo general, no es observable, por lo cual se le denomina latente. Esa
relación entre el rendimiento (puntuaciones en el ítem o el test) y el rasgo latente (habilidad de la
persona) se estima a partir del modelo de parámetro logist de Rasch, desarrollado por George Rasch
en 1960. Este modelo considera que la probabilidad de contestar correctamente un ítem está en
función de su dificultad y de la habilidad de la persona. Así pues, se concentra en estudiar la dificultad
de los ítems, pues la considera variable, mientras que otras fuentes de error posibles pueden ser
constantes o sistemáticas, como por ejemplo la habilidad de las personas (Escurra-Mayaute, 2011).

POLITÉCNICO GRANCOLOMBIANO 8
El objetivo de la TRI es permitir la construcción de instrumentos de medición con propiedades
invariantes entre poblaciones o test libres de muestra. Para lograr esa invariabilidad del ítem o del
test, se usa la curva característica del ítem (CCI). Dicha curva muestra el comportamiento del
desempeño de la persona en función del índice de discriminación del ítem, la dificultad baja, media,
alta y la probabilidad que existe de acertar al azar. La combinación de estos tres factores posibilita un
tipo particular de modelo que, a partir de funciones matemáticas, como la función logística, permite
expresar de forma numérica y gráfica la relación entre el rasgo latente y la posibilidad de emitir
la respuesta correcta a un ítem (Escurra-Mayaute, 2011). Bajo esta lógica, la TRI se propone los
siguientes supuestos básicos según Muñiz (2010).

1. Existe una relación funcional entre los valores de la variable que mide el ítem y la probabilidad
de acertarlo.

2. Los modelos TRI asumen que los ítems son unidimensionales. Esto constituye una
limitación para ciertos datos desde la psicología, pues esta disciplina suele manejar datos
multidimensionales.

3. Para utilizar los modelos de la TRI, los ítems deben ser independientes unos de otros, es decir, la
respuesta no puede estar condicionada a la respuesta dada a otros ítems.

En síntesis...
La teoría clásica de los test (TCT) busca pruebas estandarizadas, con
múltiples ítem y basadas en normas; la teoría de la generalizabilidad (TG)
busca que los test permitan generalizar los resultados obtenidos; y la teoría
de respuesta al ítem (TRI) busca test universales desde la equivalencia
de distintas versiones de una misma prueba, presentadas en idiomas
diferentes y usadas, por ejemplo, en estudios transculturales.

POLITÉCNICO GRANCOLOMBIANO 9
Referencias
Aiken, L. R. (1996). Test psicológicos y evaluación. México D. F.: Prentice Hall International.

Allen, M. J. y Yen, W. M. (2002). Introduction to measurement theory. Illinois: Waveland Press.

Brennan, R. L. (2001). Generalizability Theory. New York: Springer-Verlag.

Cronbach, L. J., Gleser, G., Nanda, H. y Rajaratnam, N. (1972). The dependability of behavioral
measurement: Theory of generalizability for scores and profiles. Nueva York: Wiley.

Escurra-Mayaute, L. (2011). Análisis psicométrico del cuestionario de Honey y Alonso de estilos de


aprendizaje (CHAEA) con los modelos de la teoría clásica de los test y de Rasch. Persona, (14), 71-109.

Glaser, R. (1963). Instructional technology and the measurement of learning outcomes: Some questions.
American Psychologist, 18, 519-521

González, F.M. (2007). Instrumentos de evaluación psicológica. La Habana: Editorial Ciencias Médicas.

Juan-González, A.M. (2016). Probabilidad. Almería: Edual

Martínez-Arias, R. (1995). Psicometría: teorías de los test psicológicos y educativos. Madrid: Síntesis

Martínez, M. R., Hernández, M. J. y Hernández, M. V. (2014). Psicometría. Madrid: Alianza Editorial.

Meneses, J. (2013). Psicometría. Barcelona: Editorial UOC

Muñiz, J. (2010). Las teorías de los test: teoría clásica y de respuesta a los ítems. Papeles del psicólogo, 31(1),
57-66

Muñiz, J. (1996). Psicometría. Madrid: Universitas.

Muñiz, J. (1994). Teoría clásica de los test. Madrid: Pirámide.

Richaud, M. C. (2005). Teoría de la medición y teoría psicológica: su articulación en los test. Suma
psicológica, 12(1), 7-22

Shavelson, R. J. y Webb, N. M. (1991). Generalizability Theory: A Primer. Newbury Park: SAGE


Publications.

Zúñiga-Brenes, M. y Montero-Rojas, E. (2007). Teoría G: un futuro paradigma para el análisis de pruebas


psicométricas. Actualidades en psicología, 21 (108), 117-144.

POLITÉCNICO GRANCOLOMBIANO 10
INFORMACIÓN TÉCNICA

Módulo: Psicometría
Unidad 2: Fundamentos teóricos
Escenario 3: Principios básicos de las teorías psicométricas

Autor: Yury Estefanía Perdomo

Asesor Pedagógico: Óscar Salazar


Diseñador Gráfico: Walter Rodríguez B.
Asistente: Alejandra Morales

Este material pertenece al Politécnico Grancolombiano.


Prohibida su reproducción total o parcial.

POLITÉCNICO GRANCOLOMBIANO 11

También podría gustarte