P Sem3

Unidad 2 / Escenario 3 Lectura fundamental
Principios básicos de las teorías

psicométricas
Contenido
1 Teoría de la medición y probabilidad
2 Fundamentos teóricos para el diseño y la construcción de test
Palabras clave: teorías de la medición, teoría clásica, teoría G, teoría de respuesta al ítem, medición,
probabilidad.
1.Teoría de la medición
Es importante recordar que el fundamento teórico sobre el cual se explica el modelo psicométrico
que funda los test psicológicos establece que la conducta está determinada por atributos
intrapsíquicos relativamente estables; por lo tanto, la tarea evaluadora consiste en buscar
las manifestaciones externas de la conducta que sirven de indicadores del estado interno de
dichos atributos, no evaluables directamente (González, 2007).
Los fundamentos del método científico y la matemática bajo los cuales se pretendió darle carácter
de ciencia a la psicología y su labor, prosiguieron su camino y se generó así la teoría de la medida,
que según Martínez, Hernández y Hernández es “una rama de la estadística aplicada que busca
describir,
categorizar y evaluar la calidad de las mediadas, mejorar su utilidad, exactitud y su significado, así
como proponer métodos para que se desarrollen nuevos y mejores instrumentos de medida”
(2014, p. 13).
La teoría de la medida indica qué operaciones métricas deben realizarse a fin de asignar números a los
procesos involucrados. Las operaciones métricas deben dar cuenta de la teoría sobre la cual
descansan esos procesos que quieren ser medidos (Richaud, 2005). Cuando se quiere medir, por
ejemplo, la inteligencia, esta se debe operacionalizar, es decir, fragmentar en respuestas o conductas
observables que den cuenta, de la manera más fiel posible, del constructo teórico inteligencia; así, lo
que se mide no es directamente la inteligencia sino sus atributos observables, a saber, capacidad de
resolver problemas cotidianos, capacidad de memoria, comprensión verbal, velocidad de
procesamiento, entre otros.
El paso a seguir es asignarle números a cada atributo representado en un ítem o tarea, con el
fin de establecer la relación entre las puntuaciones empíricas obtenidas y los fenómenos
psicológicos que se quieren medir. Para hacer esto de manera rigurosa, los modelos de medida
se basan en la existencia de una equivalencia entre los atributos físicos y las propiedades
aditivas de los números, entonces, desde esta perspectiva, medir consiste en asignar números a
los atributos bajo dos condiciones: que el atributo sea susceptible de orden, es decir, que sea posible
determinar que el atributo presente en un objeto es menor, igual o mayor que otro; y que se
pueda demostrar empíricamente (con datos sujetos a la realidad observable) la existencia de la
aditividad mediante la manipulación empírica, esto es, que al manipular los atributos, por ejemplo
pesando dos manzanas, su peso final sea igual a la suma del peso de cada manzana
(Meneses, 2013).
2
Cabe recordar en este punto que la matemática se utiliza para explicar el mundo natural
mediante modelos que describen fenómenos reales. La teoría de la probabilidad, al ser parte de
ella, se interesa por el modelo matemático de cualquier fenómeno aleatorio, es decir, aquel
fenómeno que depende del azar (Juan-González, 2016). La conexión entre esta teoría y las de
los test radica en que, bajo
el modelo de medida antes expuesto, que asigna números a los atributos para representar lo
que en psicología no es medible u observable directamente, se fundamentan los supuestos
teóricos y estadísticos sobre los cuales se estructuran los test que tienen el propósito de
dar cuenta del fenómeno y, con ello, explicar, predecir y controlar.
No obstante, algunos principios de medida, provenientes de la física no aplicaban a todas

las propiedades psicológicas, lo que hizo necesario desarrollar modelos alternos que permitieran
hacer medible lo no observable o manipulable; de ahí surgen los modelos representacional,
operacional y clásico, expuestos en el siguiente gráfico. Sobre estos planteamientos teóricos se
estructuraron las teorías de los test de los que se habla más adelante.
Proponen que la definición de un concepto se haga

a partir de las operaciones necesarias para medirlo,
sin necesidad de una relación empírica que apoye
(Bridgman, 1927; Dinge, los números que producen las operaciones.
Asigna números a las propiedades en

términos de equivalencia y orden, lo
1950) que permitiría no solo cuantificar, sino
representar numéricamente los
hechos. Ese modelo estableció cuatro
escalas de
(Stevens, 1946; Suppes, medida: Nominal, Ordinal, de Escala y de Razón
1951)
(Rozeboom,1966; Jones, 1971)
La medida es la determinación de la cantidad en la que un

atributo está presente en el objeto medido. Establece cuántas
unidades del atributo están presentes sin que se necesite una
relación empírica entre los objetos
Figura 1. Antes de las teorías de los test

Fuente: elaboración propia basada en Meneses (2013)
¿Sabía que...?
La estandarización es el proceso por medio del cual se normalizan los puntajes que un
test puede arrojar. Consiste en aplicar la prueba a un grupo significativo de personas con
características similares a las de la población objetivo (edad, sexo, nivel educativo, etc.)
y bajo condiciones ambientales controladas (ruido, iluminación, temperatura, etc.). Una
vez se tienen los datos, se organizan para conocer la forma como se distribuyen bajo la
lógica de normalidad de la campana de Gauss. Los datos que están dentro de la media
(µ) son llamados datos típicos o estándar y los datos fuera de la media (µ) son llamados
datos atípicos o anormales; juntos sirven de referente comparativo para futuros
puntajes.
2.Fundamentos teóricos para el diseño y construcción de test
El desarrollo de la psicometría como disciplina y rama de la psicología trajo consigo avances

metodológicos y teóricos que permitieron fundamentar pruebas o test psicométricos más precisos
y fiables, en aras de responder a las exigencias de la comunidad científica, que demandaba
sustentos contundentes, por lo general, bajo los principios matemáticos, que dieran claridad
sobre lo que en
verdad podía hacer la psicometría por aportar a la explicación y comprensión de la conducta
humana. Debido a esto, surgieron una serie de teorías que, bajo preceptos positivistas,
fundamentaron el diseño y construcción de los test cuyo objetivo es predecir y clasificar.
2.1. Teoría clásica de los test (TCT)
Tiene su cuna en los planteamientos de Galton, Wundt, Ebbinghauss, Pearson y Spearman, quienes
marcaron el desarrollo de la antropometría y la psicofísica (Aiken, 1996). Dentro de estos
autores, Spearman, desde la estadística correlacional, fundó las bases sobre las cuales Alfred Binet
en 1970 estructuraría la estandarización, las pruebas con múltiples ítem y el uso de normas, tres
elementos esenciales dentro de la teoría clásica de los test (Escurra-Mayaute, 2011).
La TCT se centra en la puntuación obtenida a partir de un conjunto de ítems. Bajo la premisa
de que hay que relacionar las respuestas con el constructo que las inspiró, es decir, con las
características no observables, esta teoría responde al modelo de medida lineal, que dice que
se debe obtener una puntuación dentro del constructo. La premisa básica resalta que toda
respuesta dada u observada frente al ítem o pregunta, surge de una puntuación verdadera, que
corresponde a la cantidad del
atributo que posee el sujeto sumado al error de medida. Esta relación entre la puntuación obtenida, la
puntuación real y el error, se expresa de la siguiente manera:
Xi = Vi + Ei
Así, en cada sujeto (i) en el que se mide un atributo, Xi (puntuación obtenida por el sujeto) y Ei
(error en la medición del sujeto – factores del ambiente que pueden alterar los resultados) son
variables aleatorias, no sistemáticas, es decir, que cambian dentro de la ecuación, pues al aplicar el
test de manera repetida, bajo las mismas condiciones, suelen aparecer diferentes puntuaciones.
Por su parte, Vi (verdadero estatus del sujeto en el constructo o puntuación verdadera) es una
constante (Martínez et al., 2014).
La lógica de esta teoría establece una serie de supuestos acerca de la naturaleza de las variables
implicadas y de sus relaciones. Estos supuestos son denominados débiles, pues suelen
acomodarse a las distintas situaciones prácticas, es así como la TCT es denominada también modelo
débil de la puntuación verdadera.
Tabla 1. Supuestos débiles de la TCT
Supues Expresión del

to supuesto
El valor esperado de la variable aleatoria error de medida para una
población de personas medidas con el mismo test o para la E (Ei) =
repetición infinita de mediadas realizadas al mismo sujeto es 0
igual a cero.
No existe relación entre la puntuación verdadera y el error que
afecta esa puntuación, lo que implica que la puntuación de cada σ Vi Ei =
sujeto se ve afectada por cantidades distintas de error. 0
Si se aplican dos test distintos a una población de sujetos, los errores
que se cometan al aplicar el primer test no estarán correlacionados con σ Ei Ei =
los errores que se cometan al aplicar el segundo. 0
Los errores de medida de un test no estarán correlacionados con
las puntuaciones verdaderas del otro, pues no se trataría de un error σ Vi Ei =
aleatorio, sino de un error relacionado con alguna dimensión 0
medida.
Fuente: elaboración propia basada en Martínez et al. (2014)
Las conclusiones que se derivan de los anteriores supuestos, según Allen y Yen (2002) y
Muñiz (1996, 1994), son:
1. Debido a que el valor esperado de los errores es cero, el valor esperado de la puntuación
observada es igual al valor esperado de la puntuación verdadera o teórica. Sin embargo,
no la sustituye, sino que representa la mejor aproximación disponible en el proceso de medida
que es susceptible de error.
2. La varianza de las puntuaciones observadas es la suma de la varianza de las puntuaciones

verdaderas y de la varianza de los errores de medida. Así, no se espera que el
tamaño de los errores cometidos se asocie sistemáticamente al tamaño de las
puntuaciones verdaderas.
3. Cada ítem es un indicador adecuado del mismo puntaje verdadero.
Como bien se ve, uno de los objetivos de esta teoría es cuantificar y minimizar los errores cometidos
en los procesos de medida indirecta de los fenómenos psicológicos, centrándose en el
análisis de
las puntuaciones obtenidas a través de los ítems; con ello, se asegura la precisión de las medidas.
La utilidad de la TCT radica en que, a través del modelo lineal antes expuesto, en el que es
posible saber la puntuación verdadera de un atributo a través de conocer el nivel de error
presente en esa medición y la puntuación empírica o bruta obtenida por la persona, se
constituyen las bases de lo que se comprende por confiablidad, concepto que se aborda a
profundidad en la Unidad tres.
Algunos autores sitúan dentro de la teoría clásica de los test a la TG y a la construcción de los
test referidos a criterio (TRC), desarrollados a partir de la propuesta de Glaser (1963) y que
pretenden dar cuenta del dominio de un criterio concreto o campo de conocimiento,
principalmente, en ámbitos educativos o laborales. Estos no buscan, como la mayoría de los test
psicológicos, discriminar diferencias entre personas, sino evaluar en qué grado se domina un
campo de conocimiento llamado criterio (Muñiz, 2010). Esta condición surge debido a que
las teorías son, de alguna manera, complementarias y la TCT, por ser pionera, delimitó el camino
por donde transitarían las otras teorías, en busca del nivel de confiabilidad de los test, que se
demostraría a través de un indicador numérico denominado alfa de Cronbach, una forma de
saber si la medición conduce a los mismos o similares resultados, a pesar de las variantes que
pudieran afectar la prueba. El rango de este coeficiente esta entre cero (0) y uno (1), cuanto
más cercano a uno (1), mayor es la confiablidad de la prueba (Zúñiga- Brenes y Montero-
Rojas, 2007).
2.2. Teoría de la generalizabilidad o teoría G (TG)
Esta teoría fue planteada por Cronbach, Gleser, Nanda y Ra-jaratnam en 1972. Constituye una
variante de la teoría clásica en la que se intenta dar tratamiento al error de medida,
centrándose en cómo los diferentes calificadores, los diferentes ítems o el examen de sujetos en
distintos momentos puede afectar el grado de confianza en las inferencias producto de las
puntuaciones (Martínez et
al., 2014). Para medir el nivel de error, hace uso del estadístico para varianza denominado
ANOVA (traduce análisis de varianza), que estima el error aleatorio (foco de la TCT), tomando
este como una fuente no explicada de la variación de los datos y cuantificando la importancia de
cada fuente de variabilidad y las diferencias individuales entre los evaluados, para reducir estos
errores a su mínima expresión, cuando se recolecten datos en el futuro (Zúñiga-Brenes y
Montero-Rojas, 2007).
Algunas de las innovaciones propuestas por esta teoría con respecto a la TCT, según Martínez-
Arias (1995) son:
1. Introducción del concepto de muestreo de fuentes de variación múltiples. Acá se concibe cada
situación de medida como una faceta que tiene su propia variabilidad y, por ende, distinta
fuente de error, que es tratada por medio del modelo lineal general.
2. Sustitución del concepto de medidas paralelas por el de medidas aleatorias paralelas.

Se consideran los distintos componentes de una evaluación como una muestra
aleatoria.
3. Ampliación o sustitución del concepto de fiabilidad por el de generalizabilidad o invarianza,

aplicado, ya no solo al test, sino a la población o universo, en aras de generalizar o
permitir la inferencia estadística a partir de la puntuación observada, considerada como una
muestra de ese universo.
Algunas fuentes de variabilidad de los datos según esta postura teórica son: las diferencias
individuales en términos de conocimientos, habilidades u otros atributos físicos o cognitivos
que presentan las personas de manera particular; la diferencia en la dificultad de los
reactivos, pues algunos ítems se consideran fáciles, intermedios o difíciles, lo cual afecta el nivel
de puntajes de las personas; el nivel educativo y las experiencias previas que las personas hayan
tenido con aquello que pretende medir el ítem; y, por último, las fuentes no identificadas o factores
sistemáticos que suelen estar presentes al momento de aplicar una prueba. Todos estos factores
de variabilidad de los datos entran en juego al momento en que una persona contesta un test o
ejecuta una tarea, por ello, desde la postura teórica de la generalizabilidad, deben tenerse en
cuenta cuando se quiere inferir de ciertos resultados el comportamiento general de un
universo (Zúñiga-Brenes y Montero-Rojas, 2007).
En suma, la teoría G permite, a partir del coeficiente de generalizabilidad (que refleja el
grado de confianza que se puede tener en la generalización de la puntuación observada),
estimar
separadamente distintas fuentes de error en un solo análisis y con ello ayudar al investigador a
saber la cantidad y en qué ocasiones aplicar las pruebas, qué reactivos o ítems usar, qué
formas del test
y cuántos observadores o calificadores son necesarios para obtener puntuaciones precisas que
permitan generalizar los resultados (Shavelson y Webb, 1991; Brennan, 2001).
Cómo mejorar...
Hacer un breve repaso por los temas vistos en estadística ayuda a
mejorar la comprensión de los temas acá expuestos. Conceptos como
varianza, media, coeficiente de correlación, desviación típica,
normalidad, probabilidad y nivel de significancia pueden clarificar el
panorama frente a los principios estadísticos bajo los cuales operan las
distintas teorías de los test.
2.3. Teoría de respuesta al ítem (TRI)
La teoría de respuesta al ítem es también conocida como teoría de estructura o de rasgo

latente. La origina Ferguson y Lawley, pero su desarrollo se le adjudica a Frederick Lord en
1952, en el marco de las limitaciones que imponía el uso de la teoría clásica de los test. La TRI
plantea que las puntuaciones obtenidas en un ítem dependen directamente del grado en que la
persona posea la habilidad o rasgo medido, un rasgo que, por lo general, no es observable, por
lo cual se le denomina latente. Esa relación entre el rendimiento (puntuaciones en el ítem o el
test) y el rasgo latente (habilidad de la persona) se estima a partir del modelo de parámetro
logist de Rasch, desarrollado por George Rasch en 1960. Este modelo considera que la
probabilidad de contestar correctamente un ítem está en función de su dificultad y de la
habilidad de la persona. Así pues, se concentra en estudiar la dificultad de los ítems, pues la
considera variable, mientras que otras fuentes de error posibles pueden ser constantes o
sistemáticas, como por ejemplo la habilidad de las personas (Escurra-Mayaute, 2011).
El objetivo de la TRI es permitir la construcción de instrumentos de medición con
propiedades invariantes entre poblaciones o test libres de muestra. Para lograr esa
invariabilidad del ítem o del test, se usa la curva característica del ítem (CCI). Dicha curva
muestra el comportamiento del desempeño de la persona en función del índice de discriminación
del ítem, la dificultad baja, media, alta y la probabilidad que existe de acertar al azar. La
combinación de estos tres factores posibilita un tipo particular de modelo que, a partir de funciones
matemáticas, como la función logística, permite expresar de forma numérica y gráfica la
relación entre el rasgo latente y la posibilidad de emitir
la respuesta correcta a un ítem (Escurra-Mayaute, 2011). Bajo esta lógica, la TRI se
propone los siguientes supuestos básicos según Muñiz (2010).
1. Existe una relación funcional entre los valores de la variable que mide el ítem y la
probabilidad de acertarlo.
2. Los modelos TRI asumen que los ítems son unidimensionales. Esto constituye
una limitación para ciertos datos desde la psicología, pues esta disciplina suele
manejar datos multidimensionales.
3. Para utilizar los modelos de la TRI, los ítems deben ser independientes unos de otros, es decir,
la respuesta no puede estar condicionada a la respuesta dada a otros ítems.
En síntesis...
La teoría clásica de los test (TCT) busca pruebas estandarizadas, con múltiples
ítem y basadas en normas; la teoría de la generalizabilidad (TG) busca que los
test permitan generalizar los resultados obtenidos; y la teoría de respuesta al
ítem (TRI) busca test universales desde la equivalencia
de distintas versiones de una misma prueba, presentadas en idiomas
diferentes y usadas, por ejemplo, en estudios transculturales.
Referencias
Aiken, L. R. (1996). Test psicológicos y evaluación. México D. F.: Prentice Hall
International. Allen, M. J. y Yen, W. M. (2002). Introduction to measurement theory.
Illinois: Waveland Press. Brennan, R. L. (2001). Generalizability Theory. New York:
Springer-Verlag.
Cronbach, L. J., Gleser, G., Nanda, H. y Rajaratnam, N. (1972). The dependability of behavioral
measurement: Theory of generalizability for scores and profiles. Nueva York: Wiley.
Escurra-Mayaute, L. (2011). Análisis psicométrico del cuestionario de Honey y Alonso de estilos
de aprendizaje (CHAEA) con los modelos de la teoría clásica de los test y de Rasch. Persona,
(14), 71-109.
Glaser, R. (1963). Instructional technology and the measurement of learning outcomes: Some
questions. American Psychologist, 18, 519-521
González, F.M. (2007). Instrumentos de evaluación psicológica. La Habana: Editorial Ciencias Médicas.
Juan-González, A.M. (2016). Probabilidad. Almería: Edual
Martínez-Arias, R. (1995). Psicometría: teorías de los test psicológicos y educativos. Madrid: Síntesis
Martínez, M. R., Hernández, M. J. y Hernández, M. V. (2014). Psicometría. Madrid: Alianza
Editorial. Meneses, J. (2013). Psicometría. Barcelona: Editorial UOC
Muñiz, J. (2010). Las teorías de los test: teoría clásica y de respuesta a los ítems. Papeles del
psicólogo, 31(1), 57-66
Muñiz, J. (1996). Psicometría. Madrid: Universitas.
Muñiz, J. (1994). Teoría clásica de los test. Madrid: Pirámide.
Richaud, M. C. (2005). Teoría de la medición y teoría psicológica: su articulación en los test. Suma
psicológica, 12(1), 7-22
Shavelson, R. J. y Webb, N. M. (1991). Generalizability Theory: A Primer. Newbury Park: SAGE

Publications.
Zúñiga-Brenes, M. y Montero-Rojas, E. (2007). Teoría G: un futuro paradigma para el análisis de pruebas

psicométricas. Actualidades en psicología, 21 (108), 117-144.
INFORMACIÓN TÉCNICA
Módulo: Psicometría
Unidad 2: Fundamentos teóricos
Escenario 3: Principios básicos de las teorías psicométricas
Autor: Yury Estefanía Perdomo
Asesor Pedagógico: Óscar Salazar

Diseñador Gráfico: Walter Rodríguez
B. Asistente: Alejandra Morales
Este material pertenece al Politécnico Grancolombiano.

Prohibida su reproducción total o parcial.

P Sem3

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

P Sem3

Cargado por

Copyright:

Formatos disponibles

Unidad 2 / Escenario 3 Lectura fundamental

Principios básicos de las teorías

2 Fundamentos teóricos para el diseño y la construcción de test

No obstante, algunos principios de medida, provenientes de la física no aplicaban a todas

Proponen que la definición de un concepto se haga

Asigna números a las propiedades en

(Rozeboom,1966; Jones, 1971)

La medida es la determinación de la cantidad en la que un

Figura 1. Antes de las teorías de los test

2.Fundamentos teóricos para el diseño y construcción de test

El desarrollo de la psicometría como disciplina y rama de la psicología trajo consigo avances

2.1. Teoría clásica de los test (TCT)

Tabla 1. Supuestos débiles de la TCT

Supues Expresión del

2. La varianza de las puntuaciones observadas es la suma de la varianza de las puntuaciones

3. Cada ítem es un indicador adecuado del mismo puntaje verdadero.

2. Sustitución del concepto de medidas paralelas por el de medidas aleatorias paralelas.

3. Ampliación o sustitución del concepto de fiabilidad por el de generalizabilidad o invarianza,

2.3. Teoría de respuesta al ítem (TRI)

La teoría de respuesta al ítem es también conocida como teoría de estructura o de rasgo

International. Allen, M. J. y Yen, W. M. (2002). Introduction to measurement theory.

Illinois: Waveland Press. Brennan, R. L. (2001). Generalizability Theory. New York:

Juan-González, A.M. (2016). Probabilidad. Almería: Edual

Martínez, M. R., Hernández, M. J. y Hernández, M. V. (2014). Psicometría. Madrid: Alianza

Editorial. Meneses, J. (2013). Psicometría. Barcelona: Editorial UOC

Muñiz, J. (1996). Psicometría. Madrid: Universitas.

Muñiz, J. (1994). Teoría clásica de los test. Madrid: Pirámide.

Shavelson, R. J. y Webb, N. M. (1991). Generalizability Theory: A Primer. Newbury Park: SAGE

Zúñiga-Brenes, M. y Montero-Rojas, E. (2007). Teoría G: un futuro paradigma para el análisis de pruebas

Autor: Yury Estefanía Perdomo

Asesor Pedagógico: Óscar Salazar

Este material pertenece al Politécnico Grancolombiano.

También podría gustarte