Medicion Psicologica PDF

También podría gustarte

Está en la página 1de 80

Tomás Caycho Rodríguez

Sergio Domínguez Lara

MEDICIÓN PSICOLÓGICA

TOMAS CAYCHO RODRIGUEZ


SERGIO DOMINGUEZ LARA
Tomás Caycho Rodríguez
Sergio Domínguez Lara

UNIDAD I

MEDICIÓN PSICOLÓGICA
Tomás Caycho Rodríguez
Sergio Domínguez Lara

LECCIÓN I

CONCEPTO DE MEDICIÓN Y SISTEMA NUMÉRICO

1. MEDICIÓN

1.1 Concepto

La medición es un concepto básico y fundamental en todas las


ciencias, siendo más difícil de establecer en las ciencias sociales y del
comportamiento que en las ciencias físicas. La definición más
difundida y popular acerca el concepto de medición, dice que ésta, en
un sentido amplio, es la asignación de numerales a características de
los objetos, personas o eventos de acuerdo a un conjunto de reglas
establecidas (Stevens, 1951, 1970). Por otro lado, Nunnally (1987)
hace referencia a la medición como la asignación de números para
representar las propiedades de los sistemas materiales en virtud de
leyes que rigen estas propiedades. Así por ejemplo, no medimos un
árbol en sí, más bien medimos su altura, su peso, el diámetro de su
tronco, etc. (Cortada de Kohan, 1994), es decir, medimos
propiedades de los objetos que se prestan a la observación empírica
o, mejor aún, indicadores de las propiedades de los objetos.

En resumen podemos decir que medir es brindar la magnitud de


cierta propiedad de uno o más objetos con ayuda del sistema
numérico (Magnusson, 1972). Como se observa hay muchos términos
importantes implicados en la definición de medición, los cuales
trataremos de dilucidar con más profundidad.

El concepto propiedad o atributo que caracteriza a personas y


objetos, es de importancia en el proceso de medición. En primer
lugar, cada objeto tiene variadas y diferentes propiedades; los
objetos físicos poseen propiedades como longitud, peso y volumen;
los seres humanos, además de esas propiedades, poseen, por
ejemplo, pensamiento, alegría, memoria, angustia, motivación. Así,
para que la medición pueda llevarse a cabo, es necesaria una clara
concepción de la propiedad, así como de una clasificación rigurosa y
específica de ella.

Algunas propiedades son sencillas de medir, pues sus indicadores no


ofrecen dificultad para ser identificados y en donde las reglas para
Tomás Caycho Rodríguez
Sergio Domínguez Lara

asignar números puede ser fácilmente formulados. Por ejemplo, la


longitud de un cuerpo es un atributo que puede medirse siguiendo
reglas sencillas. Caso contrario ocurre en la medición de atributos
psicológicos que requiere un mayor grado de dificultad. En este caso,
lo que se va a medir está en íntima relación con la concepción que se
tenga del atributo. Si el atributo es definido de diferentes maneras
(como es el caso de algunas variables comportamentales que son
definidas, por más de una teoría, de manera distinta) es una
consecuencia lógica que las medidas que se obtengan expresarían
esas diferencias.

Por otro lado, el término numeral hace referencia a símbolos, tales


como 1, 2, 3… I, II, III… o A, B, C; que comprenden al número,
expresando la cantidad en relación a una unidad (Alarcón, 2008). Por
otro lado, las reglas, empleadas para la asignación de los numerales,
hacen referencia a los procedimientos o lineamientos que se deben
seguir para representar numéricamente las características del objeto
que se está midiendo (Cohen & Swerdilk, 2000).

1.2 Sistema numérico empleado en la medición psicológica

El sistema numérico que se emplea en la medición es el concerniente


a los números reales, los cuales evidencian las siguientes
características:

a. Origen: La serie de números (1, 2, 3,…n) tiene un origen único


llamado cero (0). La diferencia entre cualquier par de números, en
donde el 0 es uno de los miembros es igual al número del otro
miembro. Así por ejemplo: 8-0 = 8.

b. Orden: Los números están ordenados de mayor a menor (después


del 1 viene el 2, etc., o 1 < 2 < 3, etc.).

c. Distancia: La diferencia entre dos números también se encuentran


ordenadas, es decir, la diferencia entre dos pares de números
puede ser “mayor que” (5 es mayor que 2), “igual que” (2 es igual
que 2), o “menor que” (3 es menor que 6). Por ejemplo:

6-3 > 5-3


8-6 < 8-5
6-3 = 7-4

Aún así, los fenómenos pueden no satisfacer todas las propiedades


de los números pero aún así permitir realizar ciertas operaciones con
Tomás Caycho Rodríguez
Sergio Domínguez Lara

los mismos. Es decir, existe en la medición ciertos grados de


perfección de acuerdo con la exactitud con que las variables a medir
cumplen con las propiedades lógicas de los números (Cortada de
Kohan, 1994).

De acuerdo con Cortada de Kohan (1994), son nueve postulados


básicos, agrupados en tres categorías (identidad o equivalencia,
orden jerárquico y aditividad) empleados en la medición:

a. Postulados básicos de identidad o equivalencia:

1. a = b o bien a ≠ b. Los números son iguales o diferentes.


2. Si a = b entonces b = a. Es decir, la relación de igualdad es
simétrica.
3. Si a = b y b = c, entonces a = c. Es decir, dos cosas iguales a
una tercera son iguales entre sí. A este postulado se le
denomina transitividad.

b. Postulados relativos al orden jerárquico.

4. Si a > b luego b < a. L relación “mayor que” es asimétrica.


5. Si a > b y b > c entonces a > c, estamos hablando de una
propiedad transitiva.

c. Postulados relativos a la aditividad.

6. Si a = p y b > o, entonces a + b > p, lo cual indica la


posibilidad de sumar.
7. Si a + b = b + a, evidencia que el orden de los sumandos no
afecta el resultado.
8. Si a = p y b = q, entonces a + b = p + q. Es decir, los objetos
idénticos pueden ser sustituidos.
9. (a + b) + c = a + (b + c). Es decir, el orden de las
asociaciones no produce diferencias en el resultado.

Las características y postulados del sistema numérico pueden


evidenciarse mejor con la noción de isomorfismo. Podemos establecer
una relación isomorfa cuando se establece una correspondencia
unívoca entre los elementos de dos conjuntos. Así, el conjunto A, B, C
y D, es isomorfo al conjunto 1, 2, 3 y 4 cuando ambos tienen la
misma cantidad de elementos. Asimismo, cada uno de los elementos
de un conjunto puede ser sustituido por los elementos del segundo
conjunto.
Tomás Caycho Rodríguez
Sergio Domínguez Lara

Algunos autores plantean el problema del isomorfismo en los


términos siguientes: ¿Tiene los procedimientos de medición que se
usan, correspondencia racional o empírica con la realidad? (Kerlinger,
1965). Kerlinger agrega, que la única dificultad del isomorfismo es
que pocas veces descubrimos el grado de correspondencia de
nuestras mediciones con la realidad. Lo anterior es importante, si
tenemos en cuentan que bajo el término inteligencia se midan sólo
algunos de sus factores o la totalidad de ellos.

Es posible también plantear la existencia de isomorfismo a) entre un


atributo y los indicadores que lo representan; b) entre un sistema
ordenado de ítems (test) y la conducta que se pretende medir y; c)
entre la estructura de la medición y la estructura numérica, de modo
que los números sean susceptibles de análisis por medio de
operaciones (Alarcón, 2008).

Finalmente, Cortada de Kohan (2000) muestra que la medición en


ciencia responde a la siguiente categorización:

a. La medición fundamental o medición de magnitudes. Aquí, los


números se asignan de acuerdo a las leyes naturales que
representan la propiedad misma. Así tenemos que, la longitud y el
volumen poseen un significado constitutivo y no suponen la
medida de ninguna otra variable.

b. La medición derivada. Esta categorización muestra que la


característica de una escala tiene sentido a través de leyes que
permiten relacionar una propiedad con otras. Ejemplo de esto, es
la densidad de una sustancia que es producto de la relación de la
masa y el volumen.

c. La medición por fiat. Esta referida a la definición arbitraria que


depende de relaciones supuestas entre las observaciones y el
concepto. Los índices, como el nivel socioeconómico y el cociente
intelectual, empelados en ciencias sociales y psicología
respectivamente, son adecuados ejemplos de este tipo de
categorización.

Con todo lo revisado acerca de la medición en las ciencias en general,


podemos decir que la medición de atributos psicológicos requiere mayor
grado de dificultad, ya sea porque a menudo una misma propiedad no es
definida por los mismos indicadores, o porque se pone énfasis en
algunas características a comparación de otras.
Tomás Caycho Rodríguez
Sergio Domínguez Lara

En psicología, medir es brindar magnitud a cierta propiedad o atributo,


por ejemplo, la inteligencia o el razonamiento verbal, de una o más
personas, con ayuda del sistema numérico. Así, en psicología, se busca
medir atributos que no son físicos ni directamente observables. De la
medición en psicología nos ocuparemos en la siguiente lección.

Fig. 1. Ejemplo de medición de atributos psicológicos del ser humano


Tomás Caycho Rodríguez
Sergio Domínguez Lara

LECCIÓN II

MEDICIÓN PSICOLÓGICA

"Cuando puedas medir aquello de lo


que hablas, entonces puedes pensar
que sabes algo acerca de ello”
(Thomson, 1891)

2. Medición psicológica

2.1 Psicometría

La psicometría, en sentido amplio, se define como un conjunto de


métodos, técnicas y teorías implicadas en la medición de las variables
psicológicas. Como su nombre indica, trataría de todo aquello
relacionado con la medición de lo psicológico (Muñiz 1996).

Entonces, se puede decir que la psicometría es la disciplina que se


encarga de la medición de los constructos y comportamientos
observables de naturaleza psicológica. Dicha forma de generar
conocimiento presenta dos funciones, teórica y práctica.

En lo que respecta a la función teórica, se encarga de realizar el


estudio de la medida y sus posibilidades en el campo psicológico,
justificándola y legitimándola por medio de procedimientos aceptados
por la comunidad psicológica en general. Por otro lado, la función
práctica está referida a la aplicación de esos conocimientos al estudio
de aspectos psicológicos concretos, tanto en la cuantificación como
en la instrumentación.

En resumen, en psicología, se trata de medir aspectos que no son


físicos ni directamente observables, en donde medir es brindar la
magnitud de ciertas propiedades o atributos, como la inteligencia o la
extraversión de una o más personas, con apoyo del sistema
numérico. Así, la medición en psicología, establece una serie de
condiciones o parámetros que permitirá representar los constructos o
características psicológicas por medio de indicadores objetivos y a
éstos por la asignación de números. Ahora bien, como vimos en la
lección 1, no todas las propiedades que medimos son perfectamente
isomórficas con los números, lo que puede derivar en una mayor o
Tomás Caycho Rodríguez
Sergio Domínguez Lara

menor perfección. Esto, junto con la posibilidad de que los números


pueden llevar diversa información, hace conveniente distinguir entre
los diferentes niveles de medición, los cuales se diferencian por la
cantidad de información que llevan los números que representan las
características personales a evaluar (Magnusson, 1972).

2.2. Niveles o escalas de medición

Retomando lo referido en la primera lección, se entiende a la


medición como la atribución de números a las características de los
objetos para representar cantidades de dicho atributo. En ese
sentido, la asignación de números debe estar basada en un objetivo,
el cual guíe dicho accionar y garantice un uso adecuado del sistema
numérico. Para dicho fin existen cuatro niveles o escalas de medición:
nominal, ordinal, de intervalo y de razón.

2.2.1. Escala Nominal

En este tipo de variables los números sólo se usan para


representar una relación de identidad, pertenencia o de
diferencia. Los números utilizados sólo informan de la igualdad o
desigualdad de los individuos en un atributo, pero no de posibles
ordenaciones. Por ejemplo, si para codificar el sexo en una
población al momento de analizar los datos se asigna a los
varones el valor de 1, y a las mujeres el valor de 2, esto no
implica que las mujeres tengan un valor que duplica al de los
varones. Es decir, los números no representan las cantidades, si
no son una forma de identificar las variables funcionando a
modo de etiquetas, y a su vez facilitan el análisis estadístico al
manejarse por códigos numéricos.

2.2.2. Escala Ordinal

Los números representan relaciones de orden. Esto quiere decir


que los números asignados reflejan distintos grados de la
posesión de determinado atributo o característica, lo cual se
corresponde en cierta medida con la magnitud del número. En
este sentido, se les puede asignar números a los atributos para
delimitar cual es mayor. Si se debe que asignar números a los
niveles de depresión que se hallan en una población, se les
puede atribuir de a un nivel alto el número 3; a un nivel
promedio, el número 2; y a un nivel bajo, el número 1. Con esa
asignación de números se sabe cuál es mayor, pero no en qué
medida. Es decir, al igual que en la escala nominal, no se
Tomás Caycho Rodríguez
Sergio Domínguez Lara

pueden realizar operaciones aritméticas con los números que


representan los atributos puesto que son solo indicadores de
orden, mas no de magnitud.

2.2.3. Escala de Intervalo

Esta escala es diferente de las otras dos tratadas con antelación,


puesto que permite determinar cuán lejos están dos personas o
dos cosas respecto a un atributo, debido a que permite saber la
magnitud de la diferencia. No tiene un punto “cero” fijo que
admita la ausencia de dicha variable medida, ya que es un es un
punto arbitrario en el continuo, es decir, no indica la ausencia de
una característica, sino un punto conveniente del cual se marcan
intervalos de igual magnitud. Una forma de manifestación de
esta escala en la medición psicológica se encuentra en las
puntuaciones directas de un evaluado en los test psicológicos,
como los test que evalúan el cociente intelectual (Ver tabla 1)

Tabla 1
Descripción de las puntuaciones y categorías del cociente
intelectual (elaboración propia)

CI= EM/EC x 100 CATEGORÍA

130 - más Muy superior

120 - 129 Superior

110 - 119 Normal brillante

90 - 109 Promedio

80 - 89 Normal lento

70 - 79 Fronterizo

69 - menos Deficiente mental

2.2.4. Escala de Razón

Presenta las mismas características que la escala de intervalo,


pero además posee un punto “cero” fijo, es decir, un cero
absoluto que indica la ausencia de la característica en dicha
Tomás Caycho Rodríguez
Sergio Domínguez Lara

persona u objeto. Son muy escasas las variables psicológicas


que admiten este tipo de escala, ya que la mayoría que se
sustentan bajo este punto son variables del campo de las
ciencias naturales, como las medidas de longitud, de peso, de
tiempo, etc.

Teniendo en cuenta todo lo anterior señalado, podemos decir que el


propósito de la medición en psicología es brindar una base objetiva, exacta
y comunicable que permita describir, diferenciar y clasificar diversas
características y conductas de las personas. Los instrumentos que se
utilizan en psicología para la medición de los atributos psicológicos son los
test psicológicos. Así, la medición con test psicológicos tiene como objetivo
determinar la posición de un individuo en relación con otros individuos. Este
propósito se basa en el principio de las diferencias interindividuales, que
reconoce no solamente diferencias físicas, sino también psicológicas entre
las personas.

De los test, su clasificación y funciones, consistes en medir diferencias entre


los individuos o entre las reacciones del mismo individuo en distintas
ocasiones (Anastasi, 1978), nos ocuparemos en la lección 3.
Tomás Caycho Rodríguez
Sergio Domínguez Lara

LECCIÓN III

DEFINICIÓN, OBJETIVO, CLASIFICACIÓN Y


CARACTERÍSTICAS DE LOS TESTS. APLICACIÓN DE LAS
PRUEBAS EN LA MEDICIÓN DE LA INTELIGENCIA Y
PERSONALIDAD

1. Test Psicológico

En la actualidad, cuando hablamos de evaluación casi siempre nos


referimos a la aplicación de test que brinden datos cuantitativos y que se
complementan con información derivada de la observación sistemática
de la conducta o entrevistas, ya sea individual o grupal, a niños, padres,
profesores, etc. El empleo de test hace que el proceso de evaluación sea
más objetivo.

1.1 Concepto

El primero en emplear la palabra test fue el psicólogo estadounidense


James McKeen Cattell, en un artículo publicado en 1890. El término
inglés Test puede traducirse como “prueba”, “probar”, “comprobar”.
La bibliografía especializada en medición psicológica señala diversas
definiciones, entre las que podemos señalar:

a. Una prueba o test psicológico constituye una medida objetiva y


tipificada de una muestra de conducta (Anastasi, 1978).
b. Un test psicológico es una situación estándar elaborada con el fin
de evaluar una muestra específica del comportamiento del
individuo (Kline, 1986).
c. Es un procedimiento de medición diseñado para medir una variable
(Cohen & Swerdlik, 2000).
d. Es un instrumento psicológico de medición, caracterizado por un
procedimiento sistemático y tipificado en el cual una persona
examinada se enfrenta con un conjunto de estímulos a los cuales
debe responder (Cortada de Kohan, 2000).

A partir del análisis de estas definiciones podemos considerar que un


test es un procedimiento sistemático y estandarizado, estructurado
por un conjunto de reactivos, seleccionados y organizados,
Tomás Caycho Rodríguez
Sergio Domínguez Lara

destinados a medir alguna característica, cuantitativa o cualitativa,


del comportamiento de una persona.

Veamos cada uno de los términos involucrados en el concepto de


test. Primero, cuando hablamos de un procedimiento sistemático y
estandarizado, hacemos referencia a la uniformidad en el
procedimiento de aplicación y calificación del test. Así, las condiciones
de aplicación y calificación han de ser iguales para todos. El conjunto
de reactivos hace referencia a una muestra del universo de conductas
que expresan la variable a medir. Por ejemplo, en un test de
rendimiento lógico matemático para el 5to grado de primaria, los
problemas lógicos matemáticos que se pueden presentar al niño son
muchos, de los cuales en el test solamente aparecerán un porcentaje
(40 o 50 por ejemplo) que servirán de estímulos antes los cuales el
alumno deberá responder (Cortada de Kohan, 2000). El test es más
que cada uno de sus elementos (reactivos o ítems). Así, la evaluación
de una variable, se da sobre el conjunto de ítems que integran el
test. Las respuestas a los estímulos permitirán asignarles valores
numéricos para que se puedan establecer inferencias numéricas
acerca del grado en que el examinado posee tal o cual habilidad (en
nuestro ejemplo, habilidad lógico-matemático) que el test mide
(Cortada de Kohan, 2000).

1.2 Objetivo del test psicológico

Aquí se trata de responde a la pregunta ¿qué es lo que mide el test


psicológico? Así, el objetivo básico de un test consiste en medir
diferencias entre las personas o en la misma persona en diversas
situaciones, y que son utilizados para fines diversos. La formulación
de este objetivo también se relaciona con la declaración explícita de
los límites que el test se autoimpone.

Por ejemplo, la finalidad del TSA Test de desarrollo de la


morfosintaxis en el niño (Aguado, 2005), es evaluar los elementos
sintácticos que determinan funciones semánticas secundarias
nominales (singular-plural, masculino-femenino, etc.) y verbales
(morfemas de modo y tiempo), así como algunos elementos de
superficie que unen proposiciones. También evalúa ciertos elementos
sintácticos que determinan funciones semánticas primarias
(pasividad, negación, etc.), pero sólo roza lo que ha dado en llamarse
la gramática de casos (roles de agente, paciente, poseedor, etc.).
Estos están presentes en los ítems, claro está, ya que las frases
propuestas significan algo. Pero lo que se pretende explorar es la
Tomás Caycho Rodríguez
Sergio Domínguez Lara

estructura formal de las fases en las dos vertientes de comprensión y


expresión.

1.3 Clasificación de los test psicológicos

Existen diversos tipos de test que miden una amplia gama de


características psicológicas. Podemos observar una variedad de
clasificaciones de los test sin que exista un esquema clasificatorio
finito de categorías que permita integrar los diferentes tipos, teorías y
objetivos de los test. Algunas clasificaciones emplean criterios
metodológicos para clasificar los diferentes tipos de test, mientras
que otros se basan en la finalidad, los rasgos que mide o en el
contenido.

En función del contenido que miden, Cronbach (1972) propone la


siguiente clasificación de los test:

a. Test de Rendimiento Máximo. Aquí tenemos a los test de


inteligencia, que intentan establecer la ejecución máxima del
sujeto. Este tipo de test hace referencia a los denominados test
psicométricos (siguiendo un criterio de clasificación metodológico).
Dentro de esta clasificación, se englobarían tres grandes tipos:

• Test de inteligencia general. Se basan en una concepción


unitaria de la inteligencia. Estos test pueden contener elementos
de tipo simbólico o verbal (como analogías, series de números,
vocabulario, frases incompletas, etc.), de tipo gráfico
(laberintos, comparación de rostros, trazado de líneas, etc.) o
también de tipo manipulativo (rompecabezas, repetición de
ritmos, manipulación, cubos, etc.). Estos test buscan estimar las
funciones mentales, con predominio de elementos referidos a
los procesos cognitivos superiores. Por lo general, su aplicación
es individual, y sus normas de valoración toman como referencia
la edad cronológica, de la que se extrae una puntuación global
de inteligencia (cociente intelectual, CI). Los más famosos test
de inteligencia son las escalas de Wechsler para preescolar y
primaria (WPPSI), niños (WISC) y adultos (WAIS). Otros test de
uso más reciente son el TONI-2 de Browh, Sherbeou y Johsen y
el (Tabla 1).
Tomás Caycho Rodríguez
Sergio Domínguez Lara

Tabla 2
Descripción de test utilizados para la obtención del CI (Adaptado
de Muñoz y García, 2006 p. 91)

WISC-R K-BIT TONI-2


Autores D. Wechsler A. S. Kaufman y N. L. Browh, R. L.
(2001). L. Kaufman (1999). Sherbenou y S.
K. Johsen
(1995).

Descripción Medida de la Medida de la Medida de la


inteligencia inteligencia verbal, inteligencia
general. matrices y general. general
(matrices).

Aplicación Individual. Individual. Individual y en


grupos
reducidos.

Tiempo Variable entre


20 minutos. 20 minutos.
aproximado 60 y 90 minutos.

• Test de aptitud general o aptitudes específicas. Estos test


pretenden predecir el éxito académico o profesional, siendo
empleados en su mayoría en selección de personal y orientación
vocacional. Ejemplos de estos test son el PMA o Test de
Aptitudes Mentales Primarias de Thurstone y el DAT o Test de
Aptitudes Diferenciales de Bennett, Seashore y Wesman. Los
test de aptitudes permiten medir características específicas de
la inteligencia, ya sea tomando la forma de a) test o baterías de
aptitudes generales (por ejemplo, el PMA), que suelen basarse
en teorías de la inteligencia fundamentadas en el análisis
factorial, o b) test de aptitudes específicas, que exploran
aptitudes mecánicas, burocráticas, artísticas, creativas, etc.

• Test de rendimiento académico o escolar. Estos test permiten


conocer los logros académicos del alumno, y controlar los
efectos de determinados tratamientos o programas escolares.
Entre estos test tenemos los Test de Aprendizaje Escolar para
tres niveles académicos (TEA-A, TEA-2 y TEA-3), el BADIG,
BETA y el test EVALÚA (véase tabla 2). Los test de rendimiento
máximo pueden clasificarse en test de nivel, velocidad o mixtos.
Los primeros buscan establecer el nivel máximo de dificultad al
que puede llegar la persona. Los test de velocidad, permiten una
evaluación de la rapidez para ejecutar tareas determinadas;
mientras que los mixtos, que son los más utilizados, buscan
Tomás Caycho Rodríguez
Sergio Domínguez Lara

medir los dos aspectos anteriores, estableciendo un máximo de


tiempo para la solución de los ítems o preguntas.

El diseño de una prueba de rendimiento puede responder a tres


propósitos principales: Primero, para diagnosticar las fortalezas
y debilidades referidas a ciertas capacidades. Segundo, para
evaluar, en tanto la calificación obtenida evidencia el grado de
aprendizaje y asimilación de los conocimientos a lo largo de una
asignatura. Tercero, como prerrequisito para saber si un
determinado sujeto se encuentra apto para ascender a un nivel
de mayor complejidad en el conocimiento.

Tabla 3
Evaluación de la competencia escolar mediante test (Adaptado
de Muñoz y García, 2006 pp. 92-93)

Test Autor(es) Alumnos Observaciones


1er y 2do Miden, además
Yuste
BADYG-1 grado de de los
(1999)
primaria conocimientos
3er y 4to académicos, un
Yuste
Test BADYG (Batería BADYG-2 grado de factor “g” de
(1999)
de aptitudes primaria inteligencia,
diferenciales y distinguiendo la
generales) madurez
5to y 6to
Yuste intelectual
BADYG-3 grado de
(1999) verbal y no
primaria
verbal.

Factor verbal-
educativo
(verbal,
numérico,
abstracto y
Para cada
Martín y memoria).
grado desde
Test Beta Ortega Factor técnico-
1ro hasta 6to
(1996) mecánico
de primaria
(espacial,
mecánico y
atención-
percepción).

Aportan
información del
Evaluación
potencial de
García y final de cada
aprendizaje,
EVALÚA González uno de los
competencia
(1996) grados de
curricular y
primaria.
conducta
adaptativa.
Tomás Caycho Rodríguez
Sergio Domínguez Lara

b. Test de Ejecución Típica. Aquí, el objetivo es conocer el


comportamiento habitual de una persona, basado en el supuesto
de la estabilidad de la conducta a través del tiempo y las
situaciones. Así, se solicita al sujeto que emita respuestas de
acuerdo con su comportamiento habitual. Podemos distinguir, los
siguientes tipos:

• Inventarios autodescriptivos. Dentro de este tipo podemos


encontrar: a) cuestionarios que intentan detectar sujetos para la
intervención; b) cuestionarios construidos de acuerdo a criterios
exteriores, generalmente psiquiátricos, como es el caso del
MMPI (Inventario Multifactorial de la Personalidad de
Minnessota); c) cuestionarios referidos a los rasgos,
fundamentados en el análisis factorial; d) cuestionarios de
intereses, empleados con frecuencia en orientación vocacional,
y e) cuestionarios de actitudes, que tratan de medir la
tendencia a reaccionar ante determinados estímulos.

• Test proyectivos. Este tipo de test pretende evaluar la


personalidad buscando establecer un diagnóstico mediante un
análisis cualitativo de las respuestas. Son elementos comunes
de estos test, las escenas, dibujos, manchas de tinta, colores,
palabras, etc. Siguiendo a Fernández Ballesteros (1980), dentro
de éstos test podemos encontrar:

 Test estructurales. Aquí, la persona debe interpretar


estímulos visuales poco estructurados (ejemplo, el Test de
Psicodiagnóstico de Rorschach, Test “Z” de Zulliger).
 Test temáticos. La persona debe inventar una historia
(ejemplo, el TAT o Test de Apercepción Temática para
adultos, CAT o Test de Apercepción Temática para niños).
 Test expresivos. La persona realiza generalmente un dibujo
(ejemplo, el Test de la Figura Humana de K. Machover, Test
del Árbol de Kohs).
 Test constructivos. La persona debe construir algo (ejemplo,
el Test del Pueblo).
 Test asociativos. El objetivo es asociar palabras.

Cortada de Kohan (2000), presenta una clasificación basada en las


funciones psicológicas que se miden. Este tipo de clasificación nos
permitirá estudiar los test en un orden, que es similar al orden de su
aparición histórica.

a. Test de inteligencia general.


Tomás Caycho Rodríguez
Sergio Domínguez Lara

b. Test de aptitudes específicas.


c. Test de rendimiento escolar.
d. Inventarios de intereses.
e. Test de personalidad.
f. Técnicas proyectivas.
g. Escalas de actitudes sociales.

Desde un plano netamente psicométrico podemos encontrar diversas


clasificaciones, dentro de las cuales Aliaga (2007, p. 89) nos presenta
la siguiente:

Tabla 4.
Clasificación de los Test Psicométricos (Adaptado de Aliaga,
2007, p. 89)

CRITERIO CLASIFICACIÓN
1. Por su forma de dar • Orales.
instrucciones. • Escritos (aunque en algunos casos
hay que ejemplificar lo que se quiere
que el sujeto realice en la tarea,
como en el caso de personas con
problemas auditivos.

2. Por su administración • Individual.


• Colectiva.
• Autoadministrada.

3. Por la forma o tipo de • Objetivas.


respuesta que exigen • Subjetivas.

4. Por el material de la prueba • Lápiz y papel


• Verbal completamente
• De ejecución (material, manual,
visomotor)
• De aparatos especiales
• Combinación de los tres primeros
(Ej.: WAIS)

5. Por su forma de calificación • Manual


• Electrónica

6. Por sus edades límites de • Pruebas para infantes (baby test)


aplicación • Pruebas para preescolares
• Pruebas para escolares
• Pruebas para adolescentes
• Pruebas para adultos

7. Por su libertad de ejecución • Pruebas de poder (power test)


• Pruebas de rapidez (speedy test)
Tomás Caycho Rodríguez
Sergio Domínguez Lara

1.4 Aplicación de las pruebas en la medición de la inteligencia


y la personalidad

a. Empleo de los test en la medición de la inteligencia.

La primera prueba de inteligencia publicada y que proporcionaba,


de forma organizada, instrucciones de aplicación y calificación fue
la escala Binet-Simon, elaborada en Francia por Alfred Binet y
Théodore Simon en 1905. Luego de numerosas adaptaciones y
traducciones, fue el trabajo de Lewis Madison Terman, de la
Universidad de Stanford, el que culminó con la versión más
empleada e investigada alrededor del mundo: Escala de
Inteligencia Stanford-Binet. Pasaremos revista brevemente la
escala en su versión actual.

El objetivo de la escala Stanford-Binet es obtener una medida de la


capacidad intelectual general, que incluye el razonamiento general
y el juicio social. Se puede emplear desde los 2 hasta los 23 años
aproximadamente, que contiene 15 subpruebas organizadas de tal
manera que expresan cuatro áreas de capacidad cognoscitiva:
Razonamiento verbal, razonamiento cuantitativo, razonamiento
visual y abstracto, y memoria a corto plazo (ver tabla 4). El
modelo teórico que da fundamento a la escala es la teoría de los
factores de Spearman (1932). Desde Charles Spearman publicara
su libro The Abilities of man (Spearman, 1932), se abrió un nuevo
camino para la evaluación objetiva de la inteligencia. A partir del
estudio de las correlaciones entre una serie de test, Spearman
dedujo que estas intercorrelaciones podía atribuirse a un solo
factor común, al que denominó factor general o g. De acuerdo a
su teoría de los dos factores, las puntuaciones derivadas de un test
pueden ser explicadas por dos factores: un factor general y un
factor específico. Así, pueden existir muchos factores específicos
pero un solo factor general. Cuando los test se encuentran muy
correlacionados entre sí, se encuentran muy saturados con el
factor g, mientras que cuando las correlaciones son bajas, esto se
explicaría en gran parte por los factores específicos (Cortada de
Kohan, 2000).

La capacidad mental, evaluada mediante esta escala, puede


abarcar: 1) capacidades de procesamiento de información, 2)
habilidades de planeación y organización, 3) habilidades de
razonamiento y adaptación, 4) habilidades escolares o académicas,
5) capacidades espaciales y de solución de problemas, y 6)
memoria a corto plazo. La escala ha demostrado ser importante en
Tomás Caycho Rodríguez
Sergio Domínguez Lara

la predicción del éxito académico a través de la estimación del


razonamiento y el juicio social.

Tabla 5.
Descripción de las subpruebas de la Escala de Inteligencia Stanford-
Binet (Adaptado de Cohen & Swerdilk, 2000, p. 306)

SUBPRUEBA DESCRIPCIÓN
Razonamiento
Verbal
Vocabulario Consiste en 14 reactivos de vocabulario pictóricos (en los
que la tarea del sujeto es identificar el objeto representado)
y 32 reactivos que son palabras que el sujeto define,
palabras que pueden presentarse en forma visual al igual
que oral.

Comprensión Los reactivos varían en dificultad desde identificar partes


del cuerpo hasta hacer preguntas respecto a juicio social,
razonamiento y evaluación (ejemplo, ¿Por qué deben estar
calladas las personas en un hospital?). Una vez más, los
reactivos pueden ser leídos al examinado y presentárseles
en forma visual.

Absurdos La tarea del examinado en estos reactivos es identificar lo


que está mal o es ridículo respecto a una ilustración. Este
tipo de reactivo explora las habilidades de análisis visual
del sujeto.

Relaciones Verbales Cada uno de estos reactivos presenta al examinado cuatro


palabras, y la tarea de éste es declarar lo que es parecido
respecto a las primeras tres cosas pero diferente respecto a
la cuarta. Un ejemplo: periódico, revista, libro, pero no
televisión. Una respuesta aquí indicaría que los periódicos,
revistas y libros se leen pero la televisión no.
Razonamiento
abstracto-visual

Análisis de patrones Exactamente cuáles reactivos se aplicarán en esta


subprueba variarán con el nivel de entrada del examinado;
las tareas cronometradas varían desde colocar formas
cortadas en un tablero hasta reproducir diseños complejos
con bloques.

Copiar La tarea del examinado aquí es copiar un diseño. En el


primer nivel, el diseño está hecho con bloques. En forma
subsecuente, los diseños son copiados en forma directa en
una hoja de registro.

Matrices Aquí la tarea del examinado es solucionar matrices de


dificultad creciente por medio de símbolos geométricos,
letras y objetos comunes como estímulos. Los reactivos en
esta prueba no verbal se presentan en un formato de
opción múltiple y son considerados útiles en especial para
medir la capacidad general de personas que no hablan
inglés.
Tomás Caycho Rodríguez
Sergio Domínguez Lara

Tabla 5 (continuación).
Descripción de las subpruebas de la Escala de Inteligencia Stanford-
Binet (Adaptado de Cohen & Swerdilk, 2000, p. 307)

SUBPRUEBA DESCRIPCIÓN
Doblado y cortado de Estos reactivos de opción múltiple presentan al
papel examinado la tarea de identificar cómo se vería un
pedazo de papel doblado y cortado cuando se desdobla.
Razonamiento
cuantitativo

Subprueba cuantitativa Los reactivos en esta subprueba varían de un simple


conteo al conocimiento de varios conceptos y
operaciones aritméticas.

Series numéricas La tarea del examinado es completar una oración


numérica con el siguiente número lógico en la secuencia.

Construcción de La tarea del examinado aquí es reacomodar una ecuación


ecuaciones aritmética revuelta de modo que tenga sentido. Como un
ejemplo, reordene los números y/o signos en la siguiente
ecuación para hacer una oración de números reales:
5+12=7. Una reordenación aceptable seria: 5+7=12.

Memoria a corto
plazo

Memoria de cuentas Los examinados estudian una ilustración de una


secuencia de cuentas por cinco segundos y luego deben
replicar la secuencia usando cuentas reales. Las cuentas
vienen en tres colores diferentes y cuatros formas
distintas.

Memoria de oraciones El examinador presenta en forma oral una oración y la


tarea del examinado es repetirla. La longitud de la
oración puede variar de 2 a 22 palabras dependiendo del
nivel del examinado.

Memoria de dígitos El examinador presenta en forma oral secuencias de


dígitos, hacia delante y hacia tras, y es la tarea del
examinado repetir los dígitos presentados en el mismo
orden.

Memoria de objetos Se presentan objetos familiares en intervalos de un


segundo y la tarea del examinado es recordar la
presentación en el orden correcto.

En la actualidad una de las pruebas mejor y más empleadas para la


medición de la inteligencia, son las tres escalas de Weschler, aplicadas de
manera individual con el objetivo de evaluar la capacidad intelectual de
personas desde el preescolar hasta la adultez. La escala Wechsler de
inteligencia preescolar y de primaria revisada (WPPSI-R) es empleada para
Tomás Caycho Rodríguez
Sergio Domínguez Lara

edades comprendidas entre los tres y siete años con tres meses. La escala
Wechsler de inteligencia para niños-Cuarta Edición (WISC-IV) evalúa la
capacidad intelectual entre los 6 y 16 años. Finalmente, la Escala Wechsler
de inteligencia para adultos-Tercera Edición (WAIS-III) evalúa la capacidad
intelectual entre los 16 y 89 años. Las pruebas de las tres escalas están
estructuradas de manera similar, y organizadas en una escala verbal y otra
ejecutiva (Tabla 5). Para cada una de estas pruebas se cuenta con
instrucciones claras para su aplicación.

Empleando, los cuadros de los manuales de las tres escalas, las


puntuaciones directas en cada subprueba pueden convertirse en puntajes
de escala, teniendo todas ellas una media de 10 y una desviación estándar
de 3. Con las puntuaciones de escala se puede derivar un CI, tanto verbal,
ejecutivo, como de la escala total. En cualquiera de las pruebas, un CI total
entre 85 y 115 se considerará promedio, ya que este índice presenta una
media de 100 y una desviación estándar d 15 (Cohen & Swerdilk, 2000).

Otro de los test más conocidos para la medición de la inteligencia es el de


Matrices Progresivas de Raven, publicado por primera vez en 1938. En su
primera forma se trata de una serie de figuras en las cuales se establece
algún tipo de relación que el examinado debe percibir para señalar en los
pequeños trozos alternativos mostrados cuál es el correcto para completar
la figura (Cortada de Kohan, 2000). El test puede ser de aplicación
individual o grupal. La figura 2 muestra un ejemplo de ítems del
mencionado test.

Fig. 2. Ejemplo de ítems del Test de


Matrices Progresivas de Raven

Para saber más…

http://redalyc.uaemex.mx/src/inicio/ArtPdfRed.jsp?iCve=147118212004

En este link se podrá visualizar un trabajo de investigación que tiene como objetivo
realizar un análisis de las propiedades psicométricas del test de Matrices Progresivas
Avanzadas de Raven en una muestra de 2081 estudiantes universitarios de Lima. El
promedio de edad de los evaluados fue de 21,3 años, en donde el 50,9% es de sexo
femenino y el 49,1% de sexo masculino. Los resultados indican que los ítems del test
no evidencian una adecuada calibración de acuerdo con el Modelo de Tres Parámetros.
El análisis comparativo indica diferencias estadísticas significativas por sexo pero no
de acuerdo al tipo de universidad.
Tomás Caycho Rodríguez
Sergio Domínguez Lara

Tabla 6
Descripción de las subpruebas de las escalas Wechsler (Adaptado de
Cohen & Swerdilk, 2000, p. 314)

SUBPRUEBA DESCRIPCIÓN
Información Las preguntas exploran conocimiento general y en parte
evalúan aprendizaje y memoria. Los intereses, educación,
antecedentes culturales y habilidades de lectura son algunos
factores que influyen en la puntuación de la subprueba
información.

Comprensión Estas preguntas exploran la comprensión social, la capacidad


para organizar y aplicar el conocimiento y lo que se
denomina en forma coloquial como sentido común.

Semejanzas Se presentan pares de palabras al examinado y la tarea


consiste en determinar en qué se parecen. La capacidad
para analizar relaciones y llevar a cabo un pensamiento
abstracto lógico son dos de las funciones intelectuales
exploradas.

Aritmética Se presentan problemas aritméticos, presentados y


resueltos por completo en forma verbal para quienes
responden la prueba que son mayores (en los niveles
inferiores esta prueba puede implicar un simple conteo). El
aprendizaje de la aritmética, la concentración y memoria
auditiva a corto plazo son algunas de las funciones
intelectuales exploradas en esta subprueba.

Vocabulario Se pide que definan palabras. Esta subprueba es vista como


la mejor medida de inteligencia general, aunque la
educación y la oportunidad cultural influyen también en gran
medida en las puntuaciones de las pruebas de vocabulario.

Retención de Retención de dígitos (subprueba del WISC-III) implica


dígitos/oraciones repetir de forma verbal una secuencia de números. El
equivalente de esta subprueba en el WPPSI-R es oraciones,
en donde el examinado repetirá una oración en forma literal.
Ambas subpruebas miden atención, concentración y
memoria auditiva a corto plazo, aunque oraciones parece
depender más de habilidades verbales.

Secuencia de letras La tarea es repetir una lista de números en orden


y números ascendente y las letras en orden alfabético. Esta prueba
explora la memoria de trabajo.

Figuras incompletas La tarea del examinado consiste en identificar qué parte


importante de un dibujo falta. Esta prueba se basa en
capacidades de percepción visual, alerta, memoria,
concentración, atención a los detalles y capacidad para
diferenciar los detalles esenciales de los que no lo son.
Debido a que quienes responden pueden señalar la parte
faltante, esta prueba proporciona una buena estimación no
verbal de la inteligencia. Sin embargo, el desempeño exitoso
en una prueba como ésta tiende a estar muy influido por
factores culturales.
Tomás Caycho Rodríguez
Sergio Domínguez Lara

Tabla 6 (continuación)
Descripción de las subpruebas de las escalas Wechsler (Adaptado de
Cohen & Swerdilk, 2000, p. 315)

SUBPRUEBA DESCRIPCIÓN
Ordenación de Esta prueba requiere que quien responda la prueba reordene
dibujos un conjunto revuelto de tarjetas con dibujos en ellas para
formar una historia que tenga sentido. Se considera que
esta subprueba explora la capacidad para comprender o
evaluar una situación entera. Además se explora la atención,
concentración y capacidad para ver relaciones temporales y
de causa y efecto.

Diseño de cubos Esta prueba se basa en habilidades perceptivas motoras,


velocidad psicomotora y la capacidad para analizar y
sintetizar. Los factores que pueden influir en el desempeño
en esta prueba incluyen la visión de color del examinado, su
tolerancia a la frustración y la flexibilidad rigidez en la
solución de problemas.

Composición de La tarea es armar, lo más rápido posible, un dibujo cortado


objetos de un objeto familiar. Algunas de las capacidades necesarias
aquí incluyen reconocimiento de patrones, habilidades de
armado y velocidad psicomotora.

Claves En la subprueba de claves en el WISC-IV y en la subprueba


de clavijas de animales en el WPPSI-R, la tarea es seguir
una clave. Los códigos en el WISC-IV son copiados de una
clave impresa, mientras que en el WPPSI-R, la tarea es
colocar clavijas de diferentes colores en un espacio
apropiado basado en un código de colores. Esta subprueba
explora la capacidad de aprendizaje, la capacidad de
recuerdo rutinario, la velocidad psicomotora, la
concentración y atención.

Laberintos Es una prueba complementaria (no necesaria para el cálculo


del CI) en el WISC-IV. En el WPPSI-R esta subprueba está
compuesta de laberintos por escrito. Las habilidades
perceptivos motoras, la velocidad psicomotora y las
capacidades de planeación visual son exploradas por esta
subprueba.

Diseño geométrico Esta prueba consiste de diseños geométricos que se requiere


que el niño copie con un lápiz. En general, esta subprueba
proporciona un índice de las habilidades perceptivas
motoras.

Búsqueda de La tarea es explorar en forma visual dos grupos de símbolos,


símbolos un grupo de búsqueda y un grupo objetivo, y determinar si
el símbolo que es el blanco aparece en el grupo de
búsqueda. Se supone que la prueba explora la velocidad de
procesamiento cognoscitivo.

Matrices Una tarea no verbal tipo analogías diseñada para explorar


las capacidades de organización de la percepción y el
razonamiento.
Tomás Caycho Rodríguez
Sergio Domínguez Lara

b. Empleo de los test en la medición de la personalidad.

Entender el concepto de personalidad con cierto grado de


generalidad es una empresa difícil. En, hasta ahora, la más
completa revisión de las teorías de la personalidad se concluye
que “el modo en que un individuo dado definirá la personalidad,
dependerá completamente de sus preferencias teóricas
particulares” (Hall & Lindzey, 1967, pág. 9).

Así, el término personalidad puede hace referencia a la


“organización dinámica única de las características psicológicas
estables que posee una persona y que se manifiestan en su
interacción con el ambiente” (Cortada de Kohan, 2000, pág. 181).
Esta definición toma en cuenta una serie de características, las
cuales es pertinente abordar:

1) Al decir que la personalidad es una característica que posee


una persona, se infiere que no existen dos personas idénticas,
más bien, cada uno de nosotros poseemos un conjunto de
características personales.
2) Con el término estable, hacemos referencia a que las
características personales mantienen cierta consistencia en el
tiempo y por la cual se reconoce a la persona.
3) La organización dinámica implica la existencia de una relación
específica entre cada una de las características de una persona.
4) La personalidad es un constructo psicológico, el cual inferimos
a través de ciertos comportamientos observables.

Estas características de la personalidad son muy importantes para


entender la complejidad de la evaluación objetiva de la
personalidad. Los inventarios de personalidad son test
psicológicos que suponen que el sujeto se halla en una excelente
condición para autoreportar su propia conducta o rasgo de
personalidad (Aliaga & Ponce, 2009). Así, podemos definir un
inventario de personalidad como una prueba estructurada y
objetiva de la personalidad que evalúa una serie de fenómenos o
conductas de diversa especificidad, ante las cuales el examinado
deberá responder si las encuentra o no en sí mismo (Kaplan &
Sacuzzo, 2006; Morris & Maisto, 2005).

En la actualidad existen más de 1000 cuestionarios o inventarios


de personalidad que permiten evaluar diversos rasgos de acuerdo
a diferentes ambientes de desarrollo (como la escuela, la familia,
la comunidad) y diferentes clasificaciones psiquiátricas
Tomás Caycho Rodríguez
Sergio Domínguez Lara

(introversión, extraversión, desorden psicosomático, etc.)


(Cortada de Kohan, 2000).

Entre los test más empleados en la actualidad mencionaremos


dos ejemplos. El primero es el Inventario de Personalidad de
Eysenck-Forma B, destinado a la evaluación objetiva de las
dimensiones de personalidad: introversión-extraversión y
estabilidad-neuroticismo. El inventario está conformado por 57
reactivos, en donde 24 están referidos a la dimensión
introversión-extraversión, 24 a la dimensión estabilidad-
neuroticismo. Nueve de los ítems evalúan la veracidad o no de las
respuestas del examinado. No hay un tiempo de aplicación
determinado, pero en promedio el proceso de administración dura
15 minutos, siendo su aplicación tanto individual como colectiva.

Otro instrumento de evaluación importante es el Inventario


Clínico Multiaxial de Millon-II, destinado a evaluar, mediante 175
elementos, patrones clínicos de personalidad patología grave de
personalidad, síndromes clínicos de gravedad moderada y
síndromes clínicos de gravedad severa; así mismo 4 escalas
brindan índices de validez. El inventario puede ser aplicado, de
forma individual o colectiva, a personas a partir de los 18 años
con un adecuado nivel de comprensión lectora, durando su
aplicación aproximadamente unos 25 minutos.

No es nuestro propósito en esta lección extendernos en la descripción de los


diversos inventarios y escalas de evaluación de la inteligencia y la
personalidad, ni en todo lo que es necesario para un adecuado
procedimiento que nos lleve a una medición psicológica lo más exitosa
posible. De las cuestiones generales dentro de este proceso nos
ocuparemos en la lección 4.
Tomás Caycho Rodríguez
Sergio Domínguez Lara

Tabla 7
Interpretación de las escalas del Inventario Clínico Multiaxial de
Millon-II que evalúan patrones clínicos de personalidad
(Elaboración propia)

ESCALA DESCRIPCIÓN
Escala 1: Esquizoide Personas introvertidas, solitarias, emocionalmente frías y
con poca capacidad para establecer vínculos significativos
con otras personas.

Escala 2: Fóbica Evidencian un fuerte deseo de afecto y aceptación, pero


muy sensibles al rechazo por lo que sienten temor para
establecer relaciones a no ser que estén completamente
seguros de ser aceptados incondicionalmente.

Escala 3: Dependiente Carecen de confianza en sí mismos e iniciativa. Se


Caracterizan por ceder las responsabilidad de su vida a
personas externas.

Escala 4: Histriónica Se caracterizan por ser llamativamente egocéntricas.


Buscan el aprecio y estima de los demás mediante
conductas que llamen la atención. Son manipuladores,
incluyendo amenazas suicidas o manejo de las
susceptibilidades emocionales de otras personas.

Escala 5: Narcisista Presentan un exagerado sentimiento de darse


importancia, estando absorbidos por fantasías de éxito
personal sin límites. Buscan de manera constante y de
manera exhibicionista atención constante.

Escala 6A: Antisocial Se caracterizan por su impulsividad, irresponsabilidad,


conductas antimorales e incapaces de algo más que la
gratificación inmediata. Estas características posibilitan
que exterioricen conflictos y violen las reglas que rigen el
orden social.

Escala 6B: Agresivo- Considerado una variación del comportamiento pasivo-


sádica agresivo. Tanto la hipocondría como el volverse contra sí
mismo, son mecanismos de defensa habituales a los
comportamientos agresivos –sádicos contra uno mismo.

Escala 7: Compulsiva Se caracterizan por ser concienzudos y tener altos niveles


de aspiración, mas tienden a ser perfeccionistas.

Escala 8A: Pasivo- Se caracterizan por su dependencia persistente y


agresivo desesperanza, ineficacia y malhumor. Pueden llegar a ser
provocativos ante la autoridad.

Escala 8B: Varían su humor entre estados de optimismo y estados


Autodestructiva pesimistas acompañados con ideas de daño, que pueden
tener una duración de semanas o más. Estos cambios de
humor son predecibles y sin ninguna causa aparente o
como respuesta a eventos o situaciones insignificantes.
Tomás Caycho Rodríguez
Sergio Domínguez Lara

LECCIÓN IV

PASOS Y PROCEDIMIENTOS PARA LA MEDICIÓN PSICOLÓGICA

"El desarrollo de nuestra ciencia seguirá


seguramente el modelo de toda ciencia,
haciéndose cada vez más matemática a
medida que las ideas se formulen de
manera más rigurosa"
(Thurstone, 1937)

Como ya se ha mencionado, el proceso de medición en psicología implica la


atribución de números a fenómenos psicológicos, suponiendo que la
magnitud de dicha cantidad se corresponde con la presencia del constructo
en la persona. Con ello se hace referencia al isomorfismo, concepto ya
trabajado en la primera lección de esta unidad.

En ese sentido, el evaluar un constructo en psicología conlleva


inevitablemente a la construcción de instrumentos que hagan “visible” dicha
variable. Es decir, una vez definido operacionalmente el constructo, se usan
mecanismos para sistematizar dicha operacionalización por medio de
instrumentos que cumplan con características definidas para poder hacer
mensurables los fenómenos que se intentan medir. Las características
esperables, confiabilidad y validez, serán discutidas a profundidad en
lecciones posteriores, mas en este capítulo se trabajará sobre aquellos
procesos que guían la construcción de los llamados tests psicológicos.

Proceso de construcción de instrumentos de evaluación: el modelo


psicométrico

De acuerdo con Abad, Garrido, Olea & Ponsoda (2006), la construcción de


tests psicológicos implican una serie de etapas: definición del constructo,
construcción del test provisional, aplicación a una muestra, análisis de
ítems, estudio de la confiabilidad del test, estudio de la validez del test y la
baremación.

Las cuatro primeras estrategias están orientadas, fundamentalmente, a


seleccionar aquellos reactivos que conformarán el instrumento. En esta fase
inicial se deben considerar todas aquellas limitaciones a las que se enfrenta
el investigador que desea construir el instrumento, dentro de las cuales la
Tomás Caycho Rodríguez
Sergio Domínguez Lara

que cobra mayor relevancia es la referida a la definición conceptual y


operacional del constructo, teniendo en consideración el poco consenso que
existe entre los psicólogos respecto a las variables de naturaleza
psicológica.

Tanto el estudio de la confiabilidad como de validez están guiados por


estrategias afines al constructo, tanto en lo que respecta a la estabilidad y/o
consistencia de las puntuaciones en determinada prueba (confiabilidad)
como a el grado en que la evidencia encontrada en los instrumentos apoya
las conclusiones que de ellos hagamos (validez).

Estas etapas, que serán detalladas en cada una de las lecciones siguientes,
están bajo el sustento de un modelo. El modelo psicométrico se basa en dos
postulados fundamentales (Aliaga, 2005):

a) Todos los reactivos o ítems o elementos del test miden exactamente el


mismo rasgo o dimensión.

b) La medida de la posición que tiene cada individuo en el rasgo o


dimensión puede hacerse sin ningún error.

El primero de los postulados está referido a la Unidimensionalidad que


deben poseer los instrumentos, mediante el cual cada uno de los reactivos
apunta a medir un rasgo unitario. El segundo postulado alude al concepto
de Confiabilidad, que será profundizado en capítulos posteriores.

Entonces, se puede observar que el proceso de construcción de


instrumentos de evaluación psicológica es un proceso estructurado que se
rige bajo pautas que garantizarán, si se llevan a cabo de manera adecuada,
una medición adecuada del constructo que se pretende medir.

Para saber más…

http://aprendeenlinea.udea.edu.co/lms/investigacion/file.php/39/ARCHIVOS_
2010/PDF/IntPsicometria_aristidesvara_1_.pdf

Este libro electrónico permite una aproximación inicial y didáctica al proceso de


construcción de test psicológicos. Además de contar con una variedad de ejemplos
prácticos que ayudarán a comprender a cabalidad el proceso psicométrico.
Tomás Caycho Rodríguez
Sergio Domínguez Lara

UNIDAD II

TEORÍAS Y MODELOS EN
LA MEDICIÓN
PSICOLÓGICA
Tomás Caycho Rodríguez
Sergio Domínguez Lara

LECCIÓN I

HISTORIA Y DESARROLLO DE LOS TEST Y TEORÍA CLÁSICA DE LOS


TEST

1. Historia y desarrollo de los test

Si bien desde la antigüedad, como lo señalan escritos grecolatinos, se


habían propuesto bases fisiológicas para el estudio de la personalidad y
el temperamento, no es sino hasta la época del Renacimiento que se dio
inicio a la medición de las ciencias conductuales como la reconocemos
actualmente (Cohen & Swerlik, 2001).

En 1859, con el libro Del origen de las especies por medio de la


selección natural de Charles Darwin, cobró renovado interés el estudio
de las diferencias individuales. Uno de los científicos de la época
interesados fue justamente el primo de Darwin, Francis Galton (Fig. 1),
quien con sus esfuerzos por explorar y cuantificar las diferencias
individuales contribuyó de manera importante al campo de la medición,
desarrollando numerosas herramientas de evaluación psicológica como
cuestionarios, escalas de estimación e inventarios personales. Con sus
trabajos, Galton, sentó importantes bases para el uso de un concepto
estadístico de sumo valor en el trabajo de experimentación: el
coeficiente de correlación., que fue desarrollado con más profundidad
por Karl Pearson (1857-1936) (Fig. 1).

Fig. 1. Francis Galton (izquierda) y Karl Pearson (derecha)

En el laboratorio de Wilhelm Wundt (1832-1920) en la Universidad de


Leipzig en Alemania, el interés no se ceñía a conocer las diferencias
entre los individuos, más bien el interés estaba referido al cómo los
Tomás Caycho Rodríguez
Sergio Domínguez Lara

individuos eran semejantes. Con este objetivo, se realizaron numerosas


condiciones estandarizadas para asegurar que las diferencias en las
puntuaciones son el resultado de diferencias verdaderas entre los
individuos (Cohen & Swerlik, 2001). Un discípulo de Wundt, James
McKeen Cattell, contrario a la orientación investigativa del laboratorio
alemán, realizó un trabajo referido a las diferencias individuales,
específicamente, las diferencias individuales en el tiempo de reacción.
Luego de un contacto con Francis Galton, Cattell, trabajando ya en la
Universidad de Pennsylvania en 1888, fue el primero en utilizar el
término prueba mental. Numerosos discípulos de Wundt, como Charles
Spearman, Víctor Henrí y Emil Kraepelin, por citar algunos, han dado
importantes contribuciones al campo de la medición en psicología (ver
tabla 8).

Tabla 8.
Discípulos de Wundt con importantes contribuciones a la
medición psicológica (Elaboración propia)

AUTOR CONTRIBUCIÓN
Charles Spearman Se le atribuye la creación del concepto de la
confiabilidad de una prueba.

Víctor Henrí Junto a Alfred Binet, sugeriría la manera en que


las pruebas mentales podrían medir procesos
mentales superiores.

Emil Kraepelin Considerado uno de los primeros en experimentar


con la técnica de la asociación de palabras como
prueba de evaluación formal.

Entrado el siglo XX, gran parte de las pruebas de naturaleza psicológica


estaban relacionadas con la medición de capacidades sensoriales,
tiempo de reacción y temas similares (Cohen & Swerlik, 2001). En
Francia, Alfred Binet (1857-1911) (Fig. 2) amplió el espectro de pruebas
la incluir la medición de las capacidades intelectuales, dando a conocer,
junto con Théodore Simon, una escala de medición de la inteligencia
con el objetivo de identificar niños con deficiencia mental en París (ver
lección III de la primera unidad). En la misma línea de Binet, en Estados
Unidos, David Wechsler, (Fig. 2) psicólogo del hospital Bellevue, New
York, diseñó una prueba para medir la inteligencia de los adultos. La
prueba, que originalmente se llamó Escala de Inteligencia Wechsler-
Bellevue fue, luego de ser revisada, denominada Escala Wechsler de
Inteligencia para Adultos.
Tomás Caycho Rodríguez
Sergio Domínguez Lara

Fig. 2. Alfred Binet (izquierda) y David Wechsler (derecha)

El estudio de la personalidad también influyó de manera sustantiva en


el desarrollo de las pruebas psicológicas. Un precursor de este tipo de
pruebas fue Kraepelin, quien en Alemania empleó los test de asociación
libre en pacientes normales. Los trabajos de Catell en la creación de
cuestionarios tipificados y escalas de estimación merecen también
mencionarse. Otro Hito importante en este campo es la elaboración del
Inventario Psiconeurótico de Woodworth (Woodworth Psychoneurotic
Inventory), diseñado por el psicólogo Robert Woodworth, a quien el
Comité sobre salud emocional del gobierno, le asignó la tarea de
elaborar una medida de adaptación y estabilidad emocional que pudiera
administrarse con rapidez y eficiencia a grupos de reclutas (Cohen &
Swerlik, 2001).Cabe mencionar que en el contexto de la segunda guerra
mundial, muchos psicólogos fueron reclutados con el objetivo de
elaborar pruebas psicológicas, administrarlas e interpretar sus datos. El
Inventario Psiconeurótico de Woodworth fue la primera prueba de
personalidad de corte individual empleada de forma extensa y cuyo
método replicado en las pruebas de personalidad sucesivas. Este test
tenía como objetivo la identificación de pacientes neuróticos graves que
no eran óptimos para el servicio militar. Este inventario ha servido como
modelo para la elaboración de diversos inventarios de adaptación
emocional.

Las pruebas proyectivas son también de suma importancia en la


evaluación de la personalidad. Una de las pruebas proyectivas, más
conocidas y empleadas es la Prueba de Manchas de Tinta de Rorschach,
diseñada por el psiquiatra suizo Hermann Rorschach (Fig. 3). El empleo
de dibujos como estímulos proyectivos fue popularizado, a finales del
1930, por Henry Murray y Christiana Morgan de la Clínica Psicológica de
Harvard (Cohen & Swerlik, 2001).
Tomás Caycho Rodríguez
Sergio Domínguez Lara

Fig.3. Hermann Rorschach (izquierda) y ejemplo de manchas de


tintas (derecha)

Desde 1947, el Educational Testing Service (Estados Unidos), se ha


encargado de la elaboración de una variedad de test por encargo de
universidades, organismos gubernamentales y diversas instituciones. En
la actualidad, existen numerosas pruebas psicológicas, aplicables en
diferentes áreas de la psicología, a personas de diferentes intervalos de
edad, de diferente condición social, económica y cultural; y aplicadas no
sólo por psicólogos profesionales sino también por educadores,
trabajadores sociales, médicos, enfermeras y otros. No es nuestra
intención hacer una descripción extensa de la historia de los test
psicológicos, ni de la evolución de las teorías en las que se sustentan
(para una mejor revisión ver tabla 9). En las lecciones posteriores se
ahondará en la teoría clásica de los test y la teoría de respuesta al ítem.
Además remitimos también al lector interesado a las siguientes fuentes
bibliográficas.

Para saber más…

Meliá, J. (1990) La Construcción de la Psicometría como Ciencia Teórica y Aplicada.


Valencia: Cristobal Serrano. www.uv.es/psicometria Universitat de Valencia. [ISBN:
84-404-7866-6; DL: V-2533-1990.
Extraída de http://www.uv.es/~meliajl/Research/LibroCP/CPindex.htm

El libro electrónico revisa conceptos fundamentales de psicometría, su estructura,


niveles y relaciones con otras ciencias. Además brinda una aproximación histórica a la
Psicometría.
Tomás Caycho Rodríguez
Sergio Domínguez Lara

Tabla 9.
Principales hitos de la historia psicométrica hasta el año 2000
(Adaptado de Muñiz, 2003, pp. 26-27)

Año Acontecimiento
115 a.c. En China se utilizan test para acceder a puestos en el gobierno.

1599 Los jesuitas publican unas normas precisas sobre la forma de llevar a
cabo exámenes escritos.

1883 Galton publica el libro Inquires into human faculty and its development.

1884 Galton abre el Laboratorio Antropométrico de Londres.

1891 J. McK. Cattell funda el Laboratorio de Psicología de la Universidad de


Columbia en Estados Unidos.

1894 Kraepelin propone el uso de test en psicopatología.

1896 Ebbinghaus propone el test de completar frases.

1904 Spearman publica su teoría de dos factores de la inteligencia y las


fórmulas de atenuación.
1905 Binet y Simon publican la primera escala de inteligencia.

1907 Krueger y Spearman acuñan el término Coeficiente de Fiabilidad.

1908 Se introduce el concepto de Edad Mental en la segunda edición de la


escala de Binet.

1910 Fórmula de Spearman-Brown que relaciona la fiabilidad y la longitud


de los test.

1912 Stern propone el concepto de Coeficiente Intelectual.

1916 Terman publica la revisión de Stanford de la escala de Binet-Simon.

1918 Se crean los test Army Test.

1921 Se publica el test de Rorschach.

1931 Thurstone publicaa su libro The reliability and validity of test.

1935 Se funda la Sociedad Psicométrica. Buros publica su primera revisión


de los test (Mental Measurements Year-Book).

1936 Guilford publica el libro Psychometric Methods.

1937 Kuder y Richardson publican en Psychometrika sus fórmulas KR20 y KR


21.

1938 Test Gestáltico de Bender


Test de las Matrices Progresivas de Raven
Aptitudes Mentales Primarias de Thurstone
Tomás Caycho Rodríguez
Sergio Domínguez Lara

Tabla 9.
Principales hitos de la historia psicométrica hasta el año 2000
(Adaptado de Muñiz, 2003, pp. 26-27) (continuación)

Año Acontecimiento
1939 Wechsler propone su escala para la medida de la inteligencia.

1940 Aparece el cuestionario de personalidad Minnesota Multiphasic


Personality Inventory (MMPI).

1946 Stevens propone sus cuatro escalas de medida: Nominal, ordinal,


intervalo y de razón.

1948 Se funda en Estados Unidos el Educational Testing Service (ETS).

1950 Gulliksen publica el libro Theory of Mental Test.

1951 Coeficiente Alfa de Cronbach.


Primera edición del libro Educational Measurement por Lindquist.

1954 Primera edición de los estándares técnicos sobre los test (Technical
Recommendations for Psychological test and Diagnostic Techniques).

1955 Validez de constructo de Cronbach y Meehl.

1956 Primera edición de Psicometría y Estadística de Mariano Yela.


Se funda en España la compañía editora de test TEA.
Mariano Yela publica el libro La Técnica de Análisis Factorial

1958 Torgenson publica el libro Theory and Methods of Scaling.

1959 Validez convergente discriminante de Capbell y Fiske.

1960 Rasch propone el modelo logístico de un parámetro.

1963 Concepto de test referidos al criterio, propuesto por Robert Glaser.

1966 Segunda edición de los estándares técnicos sobre los test.

1968 Lord y Novick publican el libro Statistical Theories of Mental Test


Scores.

1971 Segunda edición de Educational Measurement por Thorndike.

1974 Tercera edición de los estándares técnicos sobre los test.

1979 Programa de ordenador BICAL para estimar los parámetros en el


modelo de Rasch.

1980 Lord publica el libro Applications of Item Response Theory to practical


testing problems.

1982 Programa de ordenador LOGIST para estimar los parámetros de los


modelos de teoría de respuesta a los ítems.
Tomás Caycho Rodríguez
Sergio Domínguez Lara

Tabla 9.
Principales hitos de la historia psicométrica hasta el año 2000
(Adaptado de Muñiz, 2003, pp. 26-27) (continuación)

Año Acontecimiento
1984 Programa de ordenador BILOG para estimar los parámetros de los
modelos de teoría de respuesta a los ítems.

1985 Cuarta edición de los estándares técnicos sobre los test.


Libro de Hambleton y Swaminathan: Item Response Theory.

1989 Tercera edición de Educational Measurement por Lim.

1997 Séptima edición del libro de Anastasi: Psychological Testing


Manual de TRI editado por Van de Linden y Hambleton.

1999 Quinta dición de los estándares técnicos sobre los test.

2000 Directrices sobre el uso de los test de la Comisión Internacional de Test


(ITC).

En el Perú, la historia de los test se ha caracterizado más que por la


producción original, por la adaptación de las pruebas importadas del
exterior, especialmente España y Estados Unidos. Alarcón (2000) señala
que la psicometría, que tiene como tema la adaptación de test
extranjeros, la verificación de sus índices de validez y confiabilidad y el
desarrollo de normas y baremos, es la línea de investigación más
antigua de la psicología. Delgado, Escurra y Torres (2006) identifican
tres periodos en el desarrollo de la psicometría.

En el primer periodo, caracterizado por esfuerzos individuales y


esporádicos iniciales de estandarización de pruebas, sobresalen los
trabajos del norteamericano Mac Knight, en Puno, quien en 1912
aplicando la prueba de Binet-Simon, los trabajos psicopedagógicos de
Felipe Chueca, los estudios sobre capacidad intelectual infantil de
Hermilio Valdizan y los esfuerzos de Nemesio Rodríguez y Federico Coz
con el Test Colectivo de Terman, la Escala de Inteligencia General de
Illinois y el Test de Habilidad Mental de Otis.

El segundo periodo (1941-1970 aproximadamente) se caracteriza por


una mayor sistematización de la investigación psicométrica. Un hito
importante es la creación del Instituto Psicopedagógico Nacional, dirigido
por el psicólogo alemán Walter Blumenfeld (Fig. 4). El instituto publicaba
el Boletín del Instituto Psicopedagógico Nacional, en donde se difundían
trabajos con pruebas de inteligencia, personalidad e intereses
vocacionales, así como test de vocabulario, ortografía, aritmética y
lectura.
Tomás Caycho Rodríguez
Sergio Domínguez Lara

Fig. 4. Dr. Walter Blumenfeld

El mismo Blumenfeld, junto a Violeta Tapia, inician a principios de 1960


la Serie de Estudios Pedagógicos, muy leído en la época por los
psicopedagogos que dirigían los Departamentos Psicopedagógicos de las
Grandes Unidades Escolares y Colegios Nacionales. Importantes
profesionales como Reynaldo Alarcón, Violeta Tapia y Raúl Gonzales (Fig.
5), han dado importantes contribuciones a la investigación psicométrica.

Fig. 4. Dr. Reynaldo Alarcón (izquierda) y Dra. Violeta Tapia


(derecha)

El tercer periodo, se inicia desde 1970 hasta la actualidad,


caracterizándose por la profesionalización de la psicología. Gran parte
del trabajo psicométrico se debe a las investigaciones como requisito
para optar el título profesional. Otro hito importante ocurre a fines del
2009, cuando un grupo de psicólogos de la Universidad Nacional Mayor
de San Marcos organiza la I Jornada de Investigación Psicométrica,
Tomás Caycho Rodríguez
Sergio Domínguez Lara

convirtiéndose en el primer evento a nivel nacional de corte


estrictamente psicométrico. A la fecha la Jornada viene desarrollándose
de manera ininterrumpida por tres años seguido.

2. Teoría Clásica de los Test (TCT)

Fundada bajo los principios de Spearman, la teoría clásica de los test


puede definirse como el conjunto de principios teóricos y métodos
cuantitativos en los que se basa la construcción de test psicológicos
(Alarcón, 1998). El objetivo central del modelo clásico es la estimación
de los errores no directamente observables, cometidos al momento de
emplear los test para la medición de variables psicológicas (Muñiz,
2003). El modelo dicta que la puntuación empírica (X), obtenida por un
sujeto al contestar el test es igual a la sumatoria de la puntuación
verdadera (V), definida como la calificación obtenida por una persona al
contestar el test, y el error (E) cometido en la medición. En términos
matemáticos, el modelo expresa que el puntaje empírico (X) es una
función lineal (aditiva) de la puntuación verdadera (V) y el error de
medida (E).

X= V+E

En medición psicológica no se puede obtener la puntuación verdadera


de un sujeto en un test, sino la puntuación empírica. La puntuación
verdadera se estimará de acuerdo a tres supuestos derivado del modelo
lineal clásico (Muñiz, 2003).

Supuesto 1:

El puntaje verdadero es la esperanza matemática del puntaje empírico.


En términos matemáticos, la puntuación verdadera (V) puede definirse
como la media aritmética de los puntajes empíricos que se obtendrían
de aplicar un mismo test infinitas veces, al mismo sujeto, bajo las
mismas condiciones y asumiendo que no se contaminarán por efecto de
las prácticas sucesivas ni por variaciones del individuo (Alarcón, 1998).
Este primer supuesto, permite realizar estimaciones probabilísticas
acerca del valor de las puntuaciones verdaderas (V) a partir de las
puntuaciones empíricas (X). Es decir, la puntuación empírica es una
muestra de conducta que, a partir de determinados requisitos de medida
y de acuerdo a ciertos supuestos, permitirá realizar inferencias
probabilísticas (Muñiz, 2003).

Supuesto 2:
Tomás Caycho Rodríguez
Sergio Domínguez Lara

No existe correlación entre las puntuaciones verdaderas (V) y los errores


de medida (E). Es decir, el tamaño de los errores no se encuentran
asociados sistemáticamente al tamaño de las puntuaciones verdaderas
(Muñiz, 2003).

Supuesto 3:

Los errores de medición (E) de un test no se encuentran correlacionados


con sus errores de medición en otro test distinto. Es decir, siguiendo a
Muñiz (2003, p. 29), en el supuesto de una adecuada aplicación de los
test, “los errores serán aleatorios en cada ocasión, no existiendo razón a
priori para que covaríen sistemáticamente unos con otros”.

Tabla 10
Resumen del modelo y los supuestos de la Teoría Clásica de los
Test (Muñiz, 2003, p.28)

Modelo: X= V+E
Supuestos: 1. V = E(X)
2. p (v, e) = 0
3. p (ej, ek) = 0

Podemos concluir esta lección recordando que la Teoría Clásica de los


Test dio vida al movimiento de los test y a la medición psicológica
(Alarcón, 1998). En la lección siguiente se tratará acerca del moderno
enfoque de la Teoría de Respuesta al Item (TRI), que aparece buscando
superar las limitaciones conceptuales y aplicadas de la Teoría Clásica de
los Test. Ambos enfoques no son opuestos, más bien, son
complementarios.
Tomás Caycho Rodríguez
Sergio Domínguez Lara

LECCIÓN II

Teoría de Respuesta al Ítem: Conceptos básicos

1. Limitaciones de la Teoría Clásica de los Test

Como ya se trató en la lección anterior, si bien la Teoría Clásica de los


Test fue una respuesta inicial a los problemas de la medición psicológica,
dejó en el camino algunas limitaciones que representan un escollo para
quienes trabajan los aspectos referidos a la medición psicológica bajo el
enfoque clásico (Muñiz, 1998).

Una de dichas limitaciones se refiere a la variabilidad de mediciones


respecto a un constructo. Es decir, el mismo constructo obedece a
distintas mediciones. Esto ocurre cuando a un constructo corresponden
diferentes definiciones conceptuales (p.e. Inteligencia), cada una de las
cuales se corresponde a una definición operacional, la que se hace
presente por medio del instrumento de medición. Por ejemplo, la
inteligencia puede ser evaluada mediante el Test de Matrices Progresivas
de Raven o la Escala de Inteligencia para Adultos de Wechsler. Las dos
evalúan la inteligencia, pero evidentemente el Cociente Intelectual (CI)
de una no significa lo mismo al CI del otro instrumento.

Otra limitación está referida a la dependencia de los ítems a la muestra


de aplicación, en la medida que la propiedad del instrumento depende de
los “objetos” medidos. Esto se observa cuando los ítems están en función
de la competencia de quienes los resuelven, ya que un ítem, en el caso
de test de aptitudes, es presentado a un grupo muy capaz, este resultará
sencillo. En cambio, ese mismo ítem al presentárselo a sujeto de menor
nivel, resultaría complicado. Esto afectaría la confiabilidad del test en
cuestión, ya que dicha característica psicométrica de la prueba estaría
afectada por la variabilidad de la muestra.

La solución parcial a dichas limitaciones, que no tenían un punto de


avance en el enfoque clásico, se halla en la Teoría de Respuesta al Ítem,
la cual utiliza a los ítems como unidades centrales de análisis. Ello
constituye un excelente aporte en la medida que complementa al enfoque
clásico.

Es conveniente señalar que dicho marco no escapa a los problemas


fundamentales de la medición psicológica, que al margen del enfoque que
se use al momento de construir instrumentos, están presentes porque el
Tomás Caycho Rodríguez
Sergio Domínguez Lara

inconveniente se halla en el intento por cuantificar los fenómenos


psicológicos.

2. Teoría de Respuesta al Ítem (TRI): Aspectos fundamentales

Parte del supuesto de que las puntuaciones obtenidas en un ítem, y por


ende en un test, por un sujeto dependen directamente del grado o nivel
en que el sujeto posee la habilidad o rasgo medido. Dicha teoría cuenta
con tres postulados:

Postulado 1:
El resultado de un examinado en un ítem puede ser explicado por un
conjunto de factores llamados rasgos o aptitudes.

Postulado 2:
La relación entre la respuesta a un ítem y el rasgo latente se describe
como una función monotónica creciente que es a CCI.

Postulado 3:
En la TRI los parámetros de aptitud y de los ítems son invariantes.

3. Teoría de Respuesta al Ítem: Conceptos Básicos

Si bien es cierto los planteamientos de la teoría clásica de los test estable


aspectos más lineales en cuanto a la estimación de las puntuaciones de
los sujetos (recordar: puntuación empírica es igual a la puntuación
verdadera más un error aleatorio), los de la TRI no son tan sencillos en la
medida que trabaja en base a una función o relación matemática que
conecta la competencia de los sujetos, con la probabilidad que respondan
correctamente a los ítems (Muñiz, 1998).

4. Curva Característica del Ítem

Es la función matemática que une los niveles de competencia de los


sujetos con las probabilidades de que acierte un ítem. Cada ítem tiene
una curva característica independiente de los demás. La mayoría tiene un
parecido con el gráfico que se presenta a continuación, esto es, una
forma de “S”.
Tomás Caycho Rodríguez
Sergio Domínguez Lara

Fig. Ejemplo de curva característica del ítem

4.1 Partes de la Curva Característica del Ítem

Le eje de las abscisas hace referencia a los valores de la variable


medida (θ); el eje de las ordenadas representa la probabilidad de
acertar el ítem (P (θ)). Entonces, la información que nos da la curva
se refiere a “la probabilidad de que las personas con un valor de
aptitud “θ” determinado superen el ítem”.

Fig. Parámetros de la CCI

a: Índice de discriminación del ítem: Representa la magnitud del


cambio en la probabilidad de acertar el ítem conforme varía el
nivel de habilidad.
Tomás Caycho Rodríguez
Sergio Domínguez Lara

b: Índice de dificultad del ítem: Representa la posición de la CCI en


relación al nivel de habilidad necesario para obtener una
probabilidad de acierto.
c: Índice de pseudo-azar del ítem: Representa la probabilidad de
acertar de los sujetos que desconocen la respuesta correcta.

5. La unidimensionalidad del rasgo latente

Teóricamente, la unidimensionalidad está establecida en tanto que la


probabilidad que las personas superen un ítem está determinado por el
factor que se estudia. No obstante, como se apuntaba al inicio, los
problemas intrínsecos de la medición en psicología no permitan que se de
la unidimensionalidad en su totalidad (Muñiz, 1998).

6. La independencia local

Está referida al supuesto de que la respuesta a un reactivo no debe influir


en la respuesta de los otros. Si hubiera influencia, sería un argumento en
contra de la unidimensionalidad, ya que la variación de la probabilidad de
acertar un ítem estaría siendo afectada por factores ajenos a la habilidad
de la persona (θ).
Tomás Caycho Rodríguez
Sergio Domínguez Lara

LECCIÓN III

DEFINICIÓN TEÓRICA Y OPERACIONAL DEL CONSTRUCTO A MEDIR


UTILIZANDO LAS TABLAS DE ESPECIFICACIONES.

En medición psicológica, lo primero para la construcción de un test


psicológico consiste en definir conceptual y operacionalmente el constructo
o rasgo que pretendemos medir. Antes de entrar en detalles acerca de la
definición conceptual y operacional pasemos, de manera breve, revista al
concepto de constructo.

1. Constructo

El término constructo hace referencia a conceptos que han sido


postulados con un propósito científico. Muchas veces son llamados
constructos hipotéticos con el propósito de indicar que no son
considerados como objetos y eventos reales. Gran parte de las teorías
acerca de la conducta incluyen constructos tales como inteligencia,
motivación, aprendizaje, etc.

Al intentar construir un test psicológico, una de las primeras dificultades


que se presentan es definir de manera correcta los constructos con las que
deseamos trabajar. Esto implica indicar, de manera clara, lo que queremos
medir. En psicología, la dificultad aumenta debido a la complejidad
inherente de los procesos, en los que intervienen múltiples variables y el
esfuerzo para salvar la distancia entre lo que pretendemos medir y lo que
realmente medimos.

Existen dos formas de definir los constructos con las que trabajamos. El
primero sería utilizando palabras que expliquen en qué consiste el
fenómeno a estudiar, es decir, utilizando otros constructos en la definición.
El segundo asignaría significados al constructo, especificando las actividades
u operaciones que han de realizarse para medirla. El primer tipo de
definición se denomina conceptual o constitutiva y el segundo operativa u
operacional.

2. Definición Conceptual.

Una definición conceptual o constitutiva pretende mostrar la esencia del


constructo a evaluar, intentando presentarlo en base a sus características
fundamentales. En la medida que una variable haya sido definida
conceptualmente, la generalización se vuelve más fácil y las conclusiones
Tomás Caycho Rodríguez
Sergio Domínguez Lara

pueden transferirse a otros planteamientos científicos. Sin embargo,


existe una limitación: La validez de esas mismas conclusiones. En efecto,
¿es realmente cierto que mi test está midiendo los mismos constructos
tal como han sido definidos?

3. Definición Operacional.

Las definiciones operacionales pueden ser de dos clases: medidas y


experimentales.

Las primeras describen cómo la variable va a ser medida. Por ejemplo, la


madurez lectora puede ser definida operacionalmente como las
puntuaciones obtenidas en un test de madurez lectora de primer grado.
Por otro lado, una definición operacional experimental explica en forma
clara los detalles u operaciones de las manipulaciones que efectúa el
investigador con una variable. Por ejemplo, la inteligencia puede ser
definida como la respuesta original y efectiva que manifiesta una persona
al resolver un problema o un reactivo nuevo que se le presenta.

La tabla 11 muestra dos ejemplos de definiciones conceptuales y


operacionales.

Tabla 11
Ejemplo de definición conceptual y operacional (Elaboración propia)

Constructo Definición Conceptual Definición Operacional


Es el resultado del proceso Promedio aritmético de las
de interacción enseñanza- notas en escala vigesimal
aprendizaje, que puede ser (0-20) alcanzado por los
medido y clasificado de estudiantes en las asignaturas
Rendimiento acuerdo a niveles de que permite clasificarlos en
Académico eficiencia y calidad que cuatro niveles de rendimiento:
indican el logro de los alto (15-20); medio (13-
objetivos propuestos. 14.99); bajo (11-12.99),
deficiente (10.99 –menos).

Organización única de Es medida por el grado de


rasgos "que nos dice lo acuerdo de los sujetos con los
que una persona hará en reactivos de calificación
una situación tricotómica 2, 1 y 0 de las
determinada" (Catell, quince escalas de los rasgos
Personalidad
1975). estilísticos-temperamentales
del Cuestionario de
Personalidad 16PF de Catell,
Eber y Tatsuoka.
Tomás Caycho Rodríguez
Sergio Domínguez Lara

3. Tabla de Especificaciones

La tabla de especificaciones considera los tópicos que cubrirán el test y


las habilidades que se medirán en el mismo, junto con la importancia
relativa que se atribuye a cada categoría de contenido y habilidad. La
tabla de especificaciones especifica con claridad las relaciones entre los
objetivos (habilidades) y el contenido temático.

La tabla de especificaciones sirve para dos fines: a) en la etapa de


elaboración de reactivos, indica la cantidad y el tipo de ítems a elaborar
y, b) cuando se tiene la versión final del test, se puede comparar la
distribución real de los ítems con lo establecido en el plan de
construcción. Esta comparación nos ayudará a determinar si los
reactivos fueron un muestreo adecuado del universo temático.

Tabla 6
Tabla de especificaciones para un test de Algebra

OBJETIVOS

CONOCE COMPRENDE APLICA ANALIZA SELECCIONA TOTAL


CONTENIDOS
la principios y principios y principios técnicas y
terminología generalizaciones generalizaciones y gráficos métodos
adecuados

Conjuntos 2 6 2 - - 10

Variables 2 6 2 - - 10

Propiedades 4 2 2 2 5 15
numéricas

Operaciones 4 2 2 2 5 15
aritméticas

Razón y - - 5 5 - 10
porcentaje

Empleos de 4 2 6 8 - 20
números en la
medición

Números 4 2 6 8 - 20
reales
TOTAL 20 20 25 25 10 100
Tomás Caycho Rodríguez
Sergio Domínguez Lara

LECCIÓN IV

TÉCNICAS DE ELABORACIÓN DE PRUEBAS PSICOLÓGICAS

1. Aspectos conceptuales previos

En todo proceso de construcción de tests psicológicos, la selección de un


marco teórico, que fundamente su elaboración, cobra un rol fundamental
en dicha tarea. En esta decisión, y en relación al ámbito que se va a
evaluar, se seleccionarán los procedimientos en base a los objetivos de la
prueba que se quiere construir.

Existen diversos enfoques metodológicos que subyacen el proceso de


construcción de un test, los cuales están enfocados en el sujeto, el ítem y
en la respuesta.

El enfoque centrado en el sujeto, considera que la variación sistemática


de las puntuaciones se debe a las diferencias individuales entre los
sujetos que son evaluados. El objetivo de dicho método es escalonar
(clasificar) a los sujetos en función de sus puntuaciones totales. La
característica fundamental de estos procedimientos es seleccionar los
ítems que resalten las diferencias individuales de acuerdo al dominio
evaluado.

Este procedimiento es de uso común en nuestro medio, ya que puede


emplearse en diversas situaciones, ya sean estas de diagnóstico,
clasificación o selección.

Por otro lado, el enfoque centrado en el ítem, considera que la variación


sistemática de las respuestas de los sujetos se atribuyen a la diferencia
entre los estímulos, es decir, a la forma como se presentan estos. El
objetivo, a diferencia del enfoque anterior, es el de escalonar (clasificar)
a los estímulos en función de las respuestas de los sujetos. La aplicación
de este enfoque se observa en las Escalas de Actitudes de Intervalos
aparentemente iguales de Thurstone.

Por último, para el enfoque centrado en la respuesta, la variación


sistemática de las respuestas de los sujetos se atribuye tanto a las
variaciones de los estímulos como de los sujetos. Su aplicación más
frecuente se observa en la Técnica de Guttman para el análisis de las
escalas de actitudes
Tomás Caycho Rodríguez
Sergio Domínguez Lara

2. Aspectos preliminares en la construcción de test: Modelo


psicométrico

SUPUESTO 1

Todos los reactivos, ítems o elementos del test miden exactamente el


mismo rasgo o dimensión, lo cual está referido a la unidimensionalidad
que deben poseer los instrumentos, mediante el cual cada uno de los
reactivos apunta a medir un rasgo unitario.

SUPUESTO 2

La medida de la posición que tiene cada individuo en el rasgo o


dimensión puede hacerse sin ningún error. Aquí se hace referencia al
concepto de confiabilidad, que será tratado en capítulos posteriores.

3. Esquema genérico del proceso de construcción de un test

Todo procedimiento de elaboración de test psicológicos conlleva un


procedimiento estándar para llegar a resultados adecuados, lo cual va a
estar determinado por el tipo de test que se va a elaborar. Así, se
procede de diferente manera cuando se desea elaborar un test de
aptitudes, que cuando se construye un inventario de personalidad.

3.1. Especificación de la finalidad del test

El propósito del test debe estar sustentado en un marco teórico. La


teoría que subyace al test debe reflejarse en el contenido de los
reactivos. Para ello, como acción inicial, debe explicarse la
naturaleza del constructo, y así establecer el marco teórico que
sustentará el contenido de todos y cada uno de los reactivos.

Considerando que las teorías son representaciones de la realidad, o


por lo menos buscan representarla, el basarse en un marco teórico
servirá para dar sustento empírico a las afirmaciones, es decir,
encontrar correlatos en la vida real.

Otro aspecto importante en esta etapa es la finalidad de la prueba,


enfocada más en explicar las características de los sujetos a los
cuales va destinado el test, permitiendo regular el formato de
redacción de los reactivos, así como aquellos aspectos que se van
a explorar. Asimismo, también es importante con el fin de
determinar el uso que se les dará a las puntuaciones.
Tomás Caycho Rodríguez
Sergio Domínguez Lara

Las características de los sujetos a examinarse, como ya se ha


mencionado, es un tema importante a considerar desde un inicio,
pues las variables de diversa índole a considerar, tales como edad,
nivel intelectual, grado educativo, estrato socioeconómico, etc.;
marcarán la pauta en diversos aspectos relacionados con la
construcción del test.

3.2. Traducción del propósito en términos operacionales

El objetivo de esta etapa es hacer visible el constructo a través de


sus indicadores observables, es decir, pasar de una definición
conceptual a una operacional.

La recomendación que se hace en esta etapa es definir


adecuadamente el constructo a fin de no dejar de lado aspectos
relevantes al momento de elaborar los indicadores, es decir,
considerar que los ítems constituyan una muestra representativa
del universo de conductas que se quiere evaluar (Validez de
contenido).

El formato en el cual se va a aplicar el Test es decidido en esta


etapa. Se selecciona el tipo de test (tradicional / electrónico), tipo
de ítem (respuesta abierta / selección múltiple), si hay límite de
tiempo o no, la modalidad de aplicación (individual / colectivo),
etc.

3.3. Determinación de las características psicométricas que se


desea alcance el test

Tal como se verá en capítulos posteriores, contar con una


adecuada confiabilidad, y con las evidencias de validez suficientes,
harán de dicho test psicológico una herramienta útil en nuestro
quehacer psicológico.

3.4. Elaboración del pretest

En la etapa de elaboración de los reactivos, estos deben


representar el constructo que se está intentando evaluar, para lo
cual es indispensable una adecuada definición conceptual del
mismo (recordando que los reactivos o indicadores observables
forman parte de la definición operacional).

La elaboración adecuada de los materiales que contienen los


reactivos es fundamental en procesos de evaluación que implica
Tomás Caycho Rodríguez
Sergio Domínguez Lara

algo adicional al formato habitual (protocolo y hoja de respuesta).


Los materiales están referidos a elementos que, al ser
manipulados, brindan muestras de conducta a ser consideradas
como parte de la evaluación. Son de uso común en pruebas que
evalúan desarrollo infantil (p.e. TEPSI) o en algunos casos que
evalúan inteligencia (p.e. WAIS, Stanford-Binet).

Luego de la elaboración de los reactivos (tengan o no materiales


adicionales), la redacción de instrucciones preliminares es
importante, en tanto serán las directrices que da el investigador en
relación a las posibles respuestas del evaluado. Ante ello, cualquier
ambigüedad en la forma como se redacta alguna instrucción puede
llevar a respuestas que atentarán contra la validez del test.

La redacción del procedimiento preliminar de calificación está


referido tanto a la calificación de los ítems (que dependerá si es
“directo” o “invertido”), así como a un formato de corrección, ya
sea manual o informatizado.
Tomás Caycho Rodríguez
Sergio Domínguez Lara

UNIDAD III

Principio del Análisis de


Ítems y Validez de los test
Psicológicos
Tomás Caycho Rodríguez
Sergio Domínguez Lara

LECCIÓN I

ANÁLISIS DE ÍTEMS, ÍNDICE DE DIFICULTAD, ÍNDICE


DISCRIMINATIVO

Cuando el puntaje de un sujeto en un test es el número de respuestas


correctas, se presentan diversas relaciones entre los estadísticos del
puntaje total y de la puntuación de cada uno de los ítems que lo conforman
(Cortada de Kohan, 2000). Así, la finalidad del análisis de ítems es estudiar
el comportamiento estadístico de cada uno de los ítems, así como del
conjunto de ellos.

El análisis de ítems comprende el estudio de dos aspectos fundamentales de


los ítems: la dificultad y el poder de discriminación. De ambos nos
ocuparemos en esta lección.

1. Índice de dificultad.

El índice de dificultad permite indicar la proporción de personas que


responden correctamente o aciertan el ítem. Esquemáticamente,
podemos presentarlo de la siguiente manera:

ID = A
N

Donde A, es el número de sujetos que respondieron satisfactoriamente


el ítem, mientras que N es el número de participantes evaluados que
han intentado resolver el ítem.

En los test de personalidad no tiene sentido alguno hallar el índice de


dificultad de los ítems, pues en estos instrumentos de medida no hay
ítems difíciles ni fáciles. Este índice es común emplearlo en pruebas de
ejecución máxima.

Es necesario puntualizar que el índice de dificultad de los ítems va a


depender directamente de la muestra de sujetos con la que se está
trabajando, lo que indica que este índice no es una propiedad intrínseca
del ítem sino que va a depender del tipo de sujetos a los que se
apliquen los ítems (Muñiz, 2003). Así, si los sujetos presentan altas
competencias, los ítems les resultará fáciles, con lo cual el número de
aciertos será mayor; por el contrario, si los sujetos no son competentes,
el mismo ítem resultará difícil.
Tomás Caycho Rodríguez
Sergio Domínguez Lara

Como dijimos líneas arriba, este índice es común utilizarlos en pruebas


de ejecución máxima. En éstas, la modalidad de presentación de los
ítems es de elección múltiple, lo que incrementa la posibilidad de
acertar en la respuesta correcta por azar. Para tratar de mitigar el papel
del azar o adivinación al responder un ítem se hace necesario calcular el
índice de dificultad corrigiendo su valor mediante la siguiente fórmula:

R– W
P= O–1
N
Donde:

P: índice de dificultad corregida.


R: Número de participantes que contestaron correctamente el ítem.
W: Número de participantes que contestaron incorrectamente el ítem.
O: Número de alternativas que tiene el ítem.
N: Número total de participantes evaluados.

Una vez calculado el índice de dificultad corregido es posible jerarquizar


los ítems desde los más fáciles hasta los más difíciles, como se observa
en la tabla 7.

Tabla 7
Grado de dificultad a priori (Adaptado de Delgado, Escurra y
Torres, 2006, p. 64)

Grado de dificultad a priori


Nº Límites aproximados de los
(pretest) (antes de realizar el
aproximado índices de dificultad.
análisis de los ítems)
(MF) Muy Fáciles 10% De 0.75 a 0.99
(F) Fáciles 20% De 0.55 a 0.74
(M) Medios 40% De 0.45 a 0.54
(D) Difíciles 20% De 0.25 a 0.44
(MD) Muy Difíciles 10% De 0.05 a 0.24

Un análisis de la tabla 7 permite visualizar diversos aspectos


importantes para interpretar el índice de dificultad (ID): a) primero, se
observa que el menor valor que puede tener el ID es 0 (en donde
ningún sujeto contesta correctamente el ítem) y el máximo valor es 1
(en donde todos los sujetos que intentan responder el ítem logran
acertar); b) segundo, mientras más se acerca el ID a 0, el ítem resulta
muy difícil; si se aproxima a 1, resulta más fácil; mientras que si se
acerca a 0,5, es de dificultad media.

A nivel práctico, la tabla 7 nos permite estructurar adecuadamente


nuestro instrumento de medida. Así en las pruebas de rendimiento
Tomás Caycho Rodríguez
Sergio Domínguez Lara

máximo, los ítems más fáciles se sitúan al inicio, los de dificultad media
en la parte central, y los ítems más difíciles al final. Lo ideal es que la
mayor parte de los ítems sean de mediana dificultad.

2. Índice de Discriminación

El índice de discriminación brinda información acerca de hasta donde


un ítem logra discriminar adecuadamente entre los sujetos evaluados
(Cortada de Kohan, 2000). Un ítem tendrá poder de discriminación si
logra distinguir a los sujetos que obtiene altos y bajos puntajes, es
decir, si discrimina entre aquellos que tienen altas o bajas habilidades,
aptitudes o conocimientos (Delgado, Escurra & Torres, 2006; Muñiz,
2003).

Para el cálculo del índice de discriminación, suele emplearse la


diferencia entre el porcentaje de aciertos entre el grupo bajo y el
porcentaje de aciertos entre el grupo alto (Cortada de Kohan, 2000). Es
decir, se identifica, de manera separada, el grupo superior e inferior,
luego se obtiene para cada ítem (de cada grupo) el porcentaje de
sujetos que han respondido correctamente, ambos se retan,
obteniéndose como resultado final el poder de discriminación de cada
ítem (Cortada de Kohan, 1999, 2000). La fórmula es la siguiente:

Discr. = GS – GI

GS: Porcentaje del grupo superior que contestó de manera correcta el


ítem.
GS: Porcentaje del grupo inferior que contestó de manera correcta el
ítem.

De acuerdo a los resultados obtenidos podemos establecer una jerarquía


de la discriminación de los ítems, tal como se observa en la tabla 8.

Tabla 8
Clasificación de la discriminación de los ítems (Adaptado de
Delgado, Escurra y Torres, 2006, p. 65)

Clasificación Discriminación
Muy buena discriminación De 0.40 a 0.99
Discriminación aceptable De 0.30 a 0. 39
Discriminación intermedia De 0.20 a 0.29
Discriminación inaceptable De 0.05 a 0.19
Tomás Caycho Rodríguez
Sergio Domínguez Lara

Para que un ítem sea aceptado para ser parte del instrumento de
medida final, su poder de discriminación debe ser igual o mayor a 0.30.
Tomás Caycho Rodríguez
Sergio Domínguez Lara

LECCIÓN II

VALIDEZ

DEFINICIÓN Y MÉTODO DE CONTENIDO POR JUICIO DE EXPERTOS

Cotidianamente, escuchamos y utilizamos el término validez o válido, para


hacer referencia a una teoría válida, a un argumento válido, etc. Esto hace
referencia a lo válido como algo que es sólido, significativo o que se
encuentra fundamentado en principios o evidencia (Cohen & Swerlik, 2001).
De manera similar, en medición psicológica empelamos el término validez
cuando nos queremos referir a la significación de la puntuación de una
prueba.

1. Definición

La validez puede ser definida, en términos generales, como el grado en


que el test mide lo que debe medir (Anastasi & Urbina, 1998), lo cual
responde a la pregunta ¿qué mide el test? Pero ¿Hasta dónde podemos
estar seguros de que estamos midiendo la conducta que pretendemos
medir? Cuando medimos, por ejemplo el peso de un libro, lo llevamos a
la balanza, la cual nos arroja un peso de 3 kg, en este caso no tenemos
mayor duda de que el libro pesa 3 kg. Pero cuando intentamos medir
alguna propiedad psicológica (como la felicidad) no tenemos la plena
seguridad al respecto, a pesar de que estemos empleando, como
instrumento de medida, un test de autoestima. El problema radica aquí
en la congruencia entre el instrumento de medición y el constructo a
medir (Alarcón, 1998, 2006). Siguiendo con nuestro ejemplo, el test de
felicidad será válido cuando mida la conducta feliz y no otra.

Muñiz (2003), señala que la validez hace referencia al conjunto de


pruebas que han de emplearse para garantizar la pertinencia de las
inferencias llevadas a cabo a partir del test. Así, más que validar el test,
lo que se valida son las inferencias.

Cortada de Kohan (2000), señala que, en lugar de hablar de validez de


manera singular, se debería hablar de valideces, lo que nos lleva a
preguntarnos si un instrumento es válido para qué. Así, podemos hablar
de diferentes tipos de validez. La Asociación Psicológica Americana (APA)
ha establecido una clasificación tripartita de las diversas maneras de
estudiar la validez (Anastasi & Urbina, 1998). Es así, que podemos hablar
de validez de contenido, validez relacionada con el criterio (en donde se
Tomás Caycho Rodríguez
Sergio Domínguez Lara

encuentran la validez concurrente y predictiva) y validez de construcción.


De éstos, en esta lección nos ocuparemos de la validez de contenido.

2. Validez de contenido

Este tipo de validez puede ser definido como la adecuación del muestreo
de un determinado universo de contenido (Cortada de Kohan, 2000). Es
decir, constituye el grado en el cual los ítems o reactivos de una prueba,
constituyen una muestra representativa de todo el universo de contenido
que se estudian (Delgado, Escurra & Torres, 2006). Por ejemplo, la
validez de contenido de una prueba de rendimiento escolar se
determinará analizando la correspondencia de sus ítems con los temas
que la asignatura cubre (Alarcón, 1998). Este procedimiento para estimar
la validez puede ser empleado en pruebas de rendimiento, así como en
pruebas de adaptación y actitudes (Brown, 1993). Para los dos últimos
tipos de pruebas, este procedimiento presenta ciertas limitaciones que
son señaladas por Anastasi (1974), quien menciona que “el contenido de
los test de aptitud y de personalidad apenas sirve más que para revelar
el hipótesis que llevó al elaborador del test a escoger un determinado
contenido para medir un rasgo específico. Hay que confirmar
empíricamente estas hipótesis para establecer la validez del test”
(p. 107)

Dos son los procedimientos que reportamos a continuación para el cálculo


de este tipo de validez.

2.1 Análisis lógico de los ítems y de la estructura de la prueba

Este procedimiento consiste en un análisis lógico y racional de los


ítems, con el fin de tener fundamentos para incluirlos en la prueba
final. Aquí es común emplear cuadros y tablas que ayuden a
representar de manera clara el universo de contenido que se
analizan (Delgado, Escurra & Torres, 2006).

2.2. Análisis por criterio de jueces.

Aquí se requiere del apoyo de un conjunto de personas expertas con


amplios conocimientos en la temática evaluada, quienes analizarán
el grado de concordancia de los ítems con los planteamientos del
constructor (Delgado, Escurra & Torres, 2006), aprobando o
desaprobando la inclusión de un ítem en la prueba, tratando de
evitar el caer en arbitrariedades (Cortada de Kohan, 2000). Esta ha
sido la estrategia más utilizada para evaluar la validez de contenido
(Aiken, 1980).
Tomás Caycho Rodríguez
Sergio Domínguez Lara

El problema de este procedimiento para la estimación de la validez


radica en la dificultad para cuantificar sus resultados (Aiken, 1980).
Un primer intento para superar esta limitación es calcular el acuerdo
entre los jueces al evaluar un ítem, lo que indicaría la confiabilidad
de los juicios y por ende la confiabilidad del mismo. Este índice, ha
sido definido como la proporción que existe entre los juicios que
coinciden con la definición propuesta por el autor (acuerdo A) y el
total de juicios emitidos (acuerdos A y desacuerdos D) (Escurra,
1989), siendo la fórmula la siguiente:

IA = A/(A+D)

Guilford (1954) señala que los ítems válidos serán aquellos cuyos
valores sean iguales o mayores a 0.80.

Si bien este procedimiento es importante, tiene diversas


limitaciones, como el desconocimiento de la significación estadística
lo que indicaría que sería arbitrario trabajar bajo esta forma de
validez (Escurra, 1989).

Un procedimiento para cuantificar la validez de contenido por


criterio de jueces que busca solucionar la limitación anterior es el
coeficiente V de Aiken.

El coeficiente V de Aiken (Aiken, 1980, 1985), se calcula como la


razón de un dato obtenido sobre la suma máxima de la diferencia de
los valores posibles. Se calcula sobre la base de las valoraciones de
un conjunto de jueces en relación a un ítem o como las valoraciones
de un juez respecto a un grupo de ítem (Escurra, 1989). Estas
valoraciones puede ser dicotómicas (0 o 1) o politómicas (de 0 a 5).
Se pueden obtener valores entre 0 y 1, en donde más cercano a 1
sea el coeficiente, el ítem tendrá mayor validez de contenido. La
fórmula es la siguiente:

V= S
(n (c-1))

Donde:

S = La sumatoria de si
n = Número de jueces.
c = Número de valores de la escala de valoración.
Tomás Caycho Rodríguez
Sergio Domínguez Lara

LECCIÓN III

VALIDEZ DE LOS TEST PSICOLÓGICOS: MÉTODO CONCURRENTE Y


PREDICTIVA

De acuerdo a lo anteriormente expuesto, con relación a las evidencias de


validez, otras de las estrategias más utilizadas son la validez concurrente,
divergente y predictiva.

Se obtienen evidencias de validez convergente cuando se correlacionan los


hallazgos del test con los resultados de una prueba que también evalúa
dicho constructo. Ante tal análisis se espera que haya una correlación
directa y significativa. En este sentido, el estadístico de contraste es la r de
Pearson.

Por otro lado, se obtienen evidencias de validez divergente cuando se


correlacionan los hallazgos del test con los resultados de una prueba que no
evalúa dicho constructor, y ante tal análisis se espera que haya una
correlación inversa y significativa, o que no haya correlación. Al igual que
en el caso anterior, el estadístico de contraste es la r de Pearson.

En este sentido, a modo de ejemplo, se cita la investigación de Ocampo


(2007), quien realizó un estudio correlacional del Inventario de Depresión
Estado/Rasgo en adolescentes y universitarios de la ciudad de Medellín
(Colombia), usando como medida comparativa el Inventario de Depresión
de Beck-revisado, el Cuestionario Básico de Depresión, el Inventario de
Ansiedad Estado-Rasgo y el Inventario de Expresión de la Ira Estado-Rasgo.
Se hallaron niveles de confiabilidad elevados, así como evidencia de validez
factorial, convergente y discriminante.
Tomás Caycho Rodríguez
Sergio Domínguez Lara

Tabla 7.
Correlaciones de las puntuaciones totales ST-DEP (escalas y subescalas),
con totales de las escalas y subescalas BDI, CBD, STAI Y Staxi con una
muestra de universitarios N=278

Tomado de: Ocampo (2007)

Es así que se observan correlaciones directas y significativas entre variables


que apuntan a afectividad negativa (por ejemplo, entre Distimia y Expresión
de la ira), lo cual es un indicador de validez convergente. Por otro lado, la
evidencia de validez divergente queda sentada por las correlaciones
inversas entre aquellas variables que expresan afectividad negativa y
aquellos que no (por ejemplo, Distimia y Control interno de la ira).

Por último, se obtienen evidencias de validez predictiva cuando se


comparan los hallazgos del test en una persona con su desempeño posterior
en el dominio evaluado. Esta estrategia de validez se usa en mayor grado
en procesos de admisión, así como en procesos de Selección de Personal.

Entonces, tal como mencionan Prieto & Delgado (2010), se concluye que las
relaciones de las puntuaciones del test con otras variables externas a la
prueba constituyen una importante fuente de obtención de evidencias de
validez.
Tomás Caycho Rodríguez
Sergio Domínguez Lara

LECCIÓN IV

MÉTODO DE CONSTRUCTO: MODELO DEL ANÁLISIS FACTORIAL

Un instrumento de medición psicológica puede ser considerado una medida


o índice de un concepto, teoría o constructo psicológico (Muñiz, 2003).
Todo test basa su construcción en una teoría que el autor desarrollo o
asume (Alarcón, 1998). Así un test de dogmatismo constituiría un indicador
del constructo psicológico dogmatismo. En relación a esto, “la validez de
constructo hace referencia a la recolección de evidencia empírica garantice
la existencia de un constructo psicológico en condiciones exigibles a
cualquier otro modelo o teoría psicológica” (Muñiz, 2003, p. 154)

Cortada de Kohan (2000) señala que la validez de constructo hace


referencia a cuáles son las cualidades psicológicas que un test mide, es
decir, este tipo de validez trata de dar respuesta a la pregunta ¿qué
constructo psicológico mide la prueba?

Delgado, Escurra y Torres (2006), señalan que para estimar la validez de


constructo es necesario tener en cuenta los siguientes aspectos:

a. Definir de manera clara el constructo que se quiere medir.


b. Evaluar lo adecuado de la interpretación teórica.
c. Señalar el procedimiento experimental, así como el razonamiento
empleado para realizar las inferencias en base a diversos
procedimientos seleccionados para el estudio del constructo a evaluar.

Dos son los procedimientos que, desde la psicología, nos permiten obtener
datos acerca de la validez de constructo: el análisis factorial y la matriz
multirasgo-multimétodo, los cuales se denominan respectivamente, validez
factorial y validez convergente discriminante.

1. Validez Factorial

El análisis factorial hace referencia a un conjunto de procedimientos


matemáticos de análisis multivariado, diseñados para identificar factores
en las pueden diferir las personas (Cohen & Swerlik, 2001).

Para la estimación de la validez factorial se requiere de la aplicación de


un conjunto de pruebas que tienen como objetivo conocer los factores
que subyacen a las intercorrelaciones entre las pruebas estudiadas
(Delgado, Escurra & Torres, 2006).
Tomás Caycho Rodríguez
Sergio Domínguez Lara

En medición psicológica, es común, indagar acerca de la validez factorial


de los ítems que conforman un test. Si un test mide un rasgo unitario,
es de esperar que, luego de aplicar el análisis factorial, sus ítems se
agrupen en torno a un único factor, siendo el grado en que esto ocurre,
un indicador de la validez del test en función de sus ítems (Muñiz,
2003). Es oportuno recalcar que no siempre ocurre lo dicho
anteriormente, pues si se intenta medir rasgos psicológicos complejos,
es de esperar que los ítems evidencian también tal complejidad, lo que
ocasionaría que no siempre se articularían en torno a un sólo factor.

Podemos mencionar dos tipos de análisis factorial: exploratorio y


confirmatorio.

El primero, hace referencia a “la estimación o extracción de factores, la


decisión de cuántos factores conservar y la rotación de éstos a una
orientación interpretable” (Floyd y Widaman, 1995, p. 287). En base a
datos aún no publicados de un estudio psicométrico de la Escala de
Timidez Revisada de Check y Buss (ETR) (Caycho, 2012) se tratará de
ejemplificar el proceso del análisis factorial exploratorio.

Con la finalidad de analizar la viabilidad del empleo del análisis factorial


para la determinación de la validez de constructo de la ETR se
emplearon las medidas de Kaiser-Meyer-Olkin (K-M-O) y el Test de
Esfericidad de Barlett reportadas en la tabla 9. La medida de adecuación
K-M-O obtiene una puntuación de 0.884, calificado como meritorio,
mientras que el test de Esfericidad de Barlett presentan un valor de
647.106 significativo al .00. Estos resultados permiten continuar con el
análisis factorial.

Tabla 9
Medida de Kaiser-Meyer-Olkin de adecuación y Test de
Esfericidad de Barlett

K–M-O Test de Barlett Significación


.884 647.106 .000

Como dijimos anteriormente, el proceso de factorización evidencia la


estructura factorial que subyace a un instrumento de medida. Para
nuestro ejemplo, se ha empleado un análisis de factores de
componentes principales con rotación ortogonal mediante el método
varimax para la estimación de los factores de la Escala de Timidez
Revisada en la muestra total. El análisis de componentes principales
identificó dos componentes con valores eigen que varían de 1.08 a
4.33; el primer componente explica el 24.9% de la varianza, mientras
que el segundo componente explica el 24.2%, valores superiores a 20%
Tomás Caycho Rodríguez
Sergio Domínguez Lara

exigido como mínimo para garantizar factores suficientemente


explicativos, en tanto que los dos componentes sumados explican el
49.15 % de la varianza total. El procedimiento de rotación ortogonal
mediante el método varimax de la matriz de componentes, ha agrupado
consistentemente los 11 elementos en dos factores independientes. El
factor 1 agrupa siete ítems, mientras que el factor 2 reúne cuatro ítems
(Fig.).

Figura
Posiciones relativas en un espacio bidimensional de los ítems: siete
sobre componente 1 y cuatro sobre componente 2

Luego de la rotación, para la inclusión de un reactivo en un factor se


deben tener en cuenta dos criterios:

1. Las saturaciones (loading) deben ser iguales o superiores a 0.45.


2. Si el elemento carga en dos o más factores se le incluirá en el factor
con la saturación más elevada.

La Tabla 10 presenta las saturaciones factoriales correspondientes a los


ítems de cada factor. Los dos factores están definidos por reactivos con
cargas no inferiores a 0.50 (Nunally, 1987), a excepción del ítem 11,
evaluadas en las categorías de Bueno o Excelente con propósitos de
interpretación factorial (Comrey, 1985). Se puede observar que el peso
factorial de cada variable (ítems) se encuentra concentrada con mayor
fuerza en un solo factor, mientras, en los demás su peso es
comparativamente reducido. Este resultado evidencia la existencia de
coherencia factorial entre las variables (ítems) integrantes de cada uno
de los factores.
Tomás Caycho Rodríguez
Sergio Domínguez Lara

Los resultados permiten concluir que la Escala de Timidez Revisada -


ETR posee una adecuada validez factorial, lo que garantiza cierta
coherencia entre las mediciones referidas al constructo que se mide
(Muñiz, 2003).

El análisis factorial realizado ha logrado identificar dos factores


subyacentes tras el constructo timidez, lo que puede interpretarse en el
sentido que la timidez, de acuerdo a la definición operacional y la escala
utilizada para medirla, es un comportamiento complejo, en donde los
ítems no se articulan en torno a un único factor o componente, sino,
está integrada por dos dimensiones que se distinguen claramente. A
continuación se describen los factores identificados.

Factor 1: Conformado por los ítems 2, 3, 4, 5, 6, 9 y 11. Los ítems de


este componente, indican profunda incomodidad en reuniones sociales,
dificultad de decisión acerca de temas adecuados de conversación y
para solicitar información. Las respuestas de aceptación, a lo que
afirman las proposiciones, indican propensión a comportamientos
identificados como tímidos, que reflejan una adecuado sostenimiento de
relaciones interpersonales. En este sentido, la timidez significa un déficit
y/o inadecuación de las relaciones interpersonales.

El factor 1 tiene siete ítems, el mayor número de la Escala de Timidez


Revisada, explicando el 24.9% de la varianza total siendo sus cargas
factoriales elevadas y con una alta confiabilidad (Alfa de Cronbach =
.781). Esta sub-escala la hemos denominado Inadecuación de relaciones
interpersonales.

Factor 2: Los cuatro ítems que componen este factor (ítems 1, 7, 8 y


10) expresan, tensión, nerviosismo y evitación para el contacto con
otras personas. Expresiones como “Me resulta difícil actuar con
naturalidad cuando me encuentro con gente nueva”, “Me siento tenso
cuando estoy con gente que no conozco bien” o “Me siento nervioso
cuando tengo que hablar con alguien importante”, indican estados
subjetivos negativos que evitan contacto social de los individuos.

La sub-escala que evalúa este factor posee una alta confiabilidad (Alfa
de Cronbach = .736), explicando el 24.2% de la varianza total.
Podemos denominar esta sub-escala como Evitación de contacto social.
Tomás Caycho Rodríguez
Sergio Domínguez Lara

Tabla 10
Matriz de Factores Extraídos por Rotación Varimax y Cargas Factoriales
de los ítems

Ítem F1 F2
4 Suelo encontrarme incómodo en fiestas u otras reuniones .700
sociales
2 Me siento un poco raro socialmente .688
9 Me siento tímido cuando estoy en reuniones sociales .623
5 Cuando estoy con un grupo de personas me cuesta decidir .603
sobre los temas adecuados de que hablar
6 Necesito mucho tiempo para vencer mi timidez en .550
situaciones nuevas
3 Encuentro difícil solicitar información a otras personas .535
11 Soy más tímido con las personas del sexo opuesto .455
1 Me siento tenso cuando estoy con gente que no conozco .709
bien
7 Me resulta difícil actuar con naturalidad cuando me .760
encuentro con gente nueva
8 Me siento nervioso cuando tengo que hablar con alguien .693
importante
10 Me resulta difícil hablar con desconocidos .673
Valores eigen 4.325 1.082
Porcentaje de varianza explicada 24.9% 24.2%
Coeficiente Alfa de Cronbach .781 .736

El análisis confirmatorio, “plantea la hipótesis de una estructura


factorial en forma explícita y se prueba su ajuste con la estructura de la
covarianza observada de las variables medidas” (Floyd y Widaman,
1995, p. 287). La Tabla 11 presenta los resultados arrojados en un
estudio propio (Caycho, 2011) de la validez de constructo de una
prueba de estrategias de aprendizaje, realizado mediante el Análisis
Factorial Confirmatorio a través del programa Amos 5.0.

Los resultados evidencian que el modelo de 1 factor presenta en el test


de Bondad de Ajuste Chi-cuadrado mínimo un valor de 1.15, el cual con
1 grado de libertad alcanza una probabilidad de 0.24. Esto indica que el
modelo es adecuado. Así mismo, la revisión de los resultados de la Raíz
Cuadrada del Promedio de los Residuales que evalúa la aproximación
de la matriz de covarianzas teórica con la matriz observada alcanzó un
valor pequeño (RMR=0.05) y los análisis complementarios de la bondad
de ajuste a través del índice de ajuste (GFI=0.97) y el índice de ajuste
ponderado (AGFI=0.96) alcanzaron valores óptimos, estos hallazgos
permitieron corroborar lo pertinente de aceptar el modelo de un factor.
Estos hallazgos permiten concluir que la escala de estrategias de
aprendizaje presenta validez de constructo.
Tomás Caycho Rodríguez
Sergio Domínguez Lara

Tabla 11
Análisis de la Validez de Constructo de la Escala ACRA a través del
Análisis Factorial Confirmatorio

Datos Modelo de 1 Factor Modelo


Independiente
Parámetros 9 4
Chi-cuadrado mínimo 1.15 27.84
G.L. 1 6
P 0.24 0.000
Chi-cuadrado 1.15 4.65
mínimo/G.L.
RMR 0.05 0.13
GFI 0.97 0.89
AGFI 0.96 0.59
N=60
Tomás Caycho Rodríguez
Sergio Domínguez Lara

UNIDAD IV

PRINCIPIO DE LA
CONFIABILIDAD Y TABLAS
NORMATIVAS DE LOS TEST
PSICOLÓGICOS
Tomás Caycho Rodríguez
Sergio Domínguez Lara

LECCIÓN I

CONFIABILIDAD: DEFINICIÓN, MÉTODOS, APLICACIONES Y


FACTORES QUE LO AFECTAN.

1. Aspectos conceptuales previos

Como ya se ha revisado anteriormente, en el marco de la teoría clásica


de los tests, el puntaje observado de la escala es igual puntaje verdadero
más el error de medición, siguiendo la siguiente ecuación.

X= V + e

Al igual que la mayoría de conceptos que se guían bajo las premisas de la


teoría clásica de los tests, el concepto de confiabilidad lleva implícita la
presencia de error en el proceso de medición, es decir, todo puntaje
empírico está afectado por un error de medición.

Entonces, según la ecuación inicial, la varianza total de los puntajes


(S²X) está compuesta por la varianza de los puntajes verdaderos (S²V)
más la varianza de los puntajes de error (S²e). La ecuación resultante es
la siguiente:

S²X= S²V + S²e

Bajo el supuesto que no existe correlación entre la puntuación verdadera


de los sujetos en un test y sus respectivos errores de medida, entonces
la confiabilidad queda definida por la siguiente expresión:

S²V
rtt =
S²X

S²e
rtt = 1 -
S²v

A partir de un análisis de la expresión anterior, cuando la proporción de


varianza de error sea baja, la confiabilidad será alta. Por ejemplo, un
coeficiente de confiabilidad de 0.95 se puede interpretar como “el 95%
Tomás Caycho Rodríguez
Sergio Domínguez Lara

de la varianza de los puntajes del test corresponde a la varianza


verdadera y el 5% a la varianza del error”.

2. Definiciones

Diversos autores han brindado su punto de vista acerca del concepto de


confiabilidad. Entre ellos, Cohen & Swerdlick (2001) señalan que la
confiabilidad es la proporción de la varianza total atribuida a la varianza
verdadera, y en consecuencia, entre mayor sea la proporción de la
varianza total atribuida a la varianza verdadera, la prueba será más
confiable. Hogan (2004) menciona que la confiabilidad se relaciona con la
consistencia de las puntuaciones en la medición al margen de lo que mida
el instrumento. Esta idea deja por sentado el hecho que un instrumento
puede ser válido pero no confiable.

Por su parte, Muñiz (1994) refiere que la confiabilidad se refiere a la


estabilidad de las mediciones cuando no existan razones teóricas o
empíricas para suponer que la variable a medir haya sido modificada
diferencialmente para los sujetos.

Se puede concluir parcialmente que la confiabilidad suele estar definida


en términos de constancia temporal y en su estructura interna, es decir,
si se encuentra que los reactivos que conforman la prueba son
consistentes entre sí. Las estrategias de evaluación de validez serán
discutidas en lecciones posteriores.

3. Factores que afectan la confiabilidad

La confiabilidad es afectada por factores de diversa índole, los cuales


pueden ser controlados en la medida que el investigador tenga conciencia
de ellos y pueda identificarlos.

3.1 Características naturales del test

a. Homogeneidad contra heterogeneidad de los reactivos

Esta consideración señala que si la prueba es homogénea en sus


reactivos, sería necesario esperar un alto grado de consistencia
interna y por lo tanto, confiabilidad (Cohen & Swerdlik, 2001).
Tomás Caycho Rodríguez
Sergio Domínguez Lara

b. Características dinámicas versus las estáticas de la


variable a medir

Se tiene en cuenta las implicancias de las características


dinámicas que pueden influir en la confiabilidad de un test,
ya que estas se dan en función de las experiencias
situacionales y cognoscitivas que afrontan los sujetos.

c. Según el tipo de prueba: Pruebas de velocidad frente a


pruebas de poder

La estimación de la confiabilidad en las pruebas de velocidad va


hacia la demostración de la consistencia de velocidad de
respuesta y en tal sentido la confiabilidad en este tipo de
pruebas, no debe calcularse a partir de una sola aplicación con
un límite de tiempo único, sino tiene que hacerse en dos
periodos. Al calcular la confiabilidad mediante métodos de una
sola aplicación, como los de la consistencia interna, se obtendría
un coeficiente de confiabilidad alto, pero falso.

En contraste a lo mencionado existen las pruebas de poder, que


son aquellas que presentan un límite de tiempo bastante largo,
en donde, a diferencia de la prueba de velocidad, se es capaz
de obtener un puntuación perfecta.

3.2. Variabilidad de las muestras

El coeficiente de confiabilidad puede aumentar, al incrementarse la


variabilidad de la muestra (muestra más heterogénea). Por lo tanto,
mientras mayor sea la varianza de las puntuaciones de un test o
prueba psicológica y/o educativa, mayor será el coeficiente de
confiabilidad encontrado.

3.3. Longitud del test

Cuando se incluyen más ítems o reactivos en una prueba, más


aspectos de la variable o rasgo a medir se podrán evaluar,
evidenciando así, un incremento en la posibilidad de poseer un
mayor coeficiente de confiabilidad.

La longitud de una prueba es importante, debido a que la cantidad


de reactivos de una prueba, nos puede ayudar a predecir cuán
confiable puede ser un test, y mientras más larga sea la prueba,
más confiable podrá ser.
Tomás Caycho Rodríguez
Sergio Domínguez Lara

LECCIÓN II

CONFIABILIDAD POR EL MÉTODO TEST RETEST Y DE LA MITADES

Como vimos en la lección anterior, el concepto de confiabilidad asume que


los puntajes empíricos se encuentran afectados por las fuentes de error.
Así, en la construcción de un instrumento de medida se busca minimizar los
errores atribuibles a la prueba. Para la estimación de la confiabilidad se han
ideado numerosas fórmulas, los que en su mayoría se expresan como
coeficientes de correlación. Esto a ha dado lugar a la distinción de cuatro
tipos de coeficientes de confiabilidad: estabilidad(o test retest), método por
mitades, equivalencia (o de formas paralelas) y de consistencia. En esta
lección nos ocuparemos de los dos primeros métodos de estimación de la
confiabilidad.

1. Método de estabilidad o test retest

Se puede definir como la consistencia de los puntajes a través del


tiempo, en donde se asume que lo estudiado es estable en el tiempo. El
procedimiento básico de este método es aplicar en dos situaciones
diferentes y con un intervalo predeterminado de tiempo (T), la misma
prueba a una muestra determinada (muestra A). Finalmente, para el
cálculo del coeficiente se emplea principalmente el coeficiente r de
Pearson (Fig. ).

MUESTRA MUESTRA
A A

TEST X TEST X

Ptj A1 r de Pearson Ptj A2

Fig. Esquema del método de estabilidad o test retest (elaboración propia)


Nota: Ptj A1= Ptj A2
Tomás Caycho Rodríguez
Sergio Domínguez Lara

La doble aplicación de un mismo instrumento tiene como ventaja el


tiempo y la economía sobre el empleo de, por ejemplo dos formas
equivalentes (lección III), dada la dificultad de construirlas (Cortada de
Kohan, 2000).

Una limitación del empleo de este método es determinar el tiempo que


debe transcurrir entre ambas aplicaciones. Lo recomendable es que la
segunda aplicación no debe seguir inmediatamente a la primera, ya que
el rendimiento en la segunda aplicación puede verse afectado por el
factor memoria. Por otro lado, si el intervalo de tiempo es demasiado
amplio, los resultados pueden verse afectados por la intervención de
factores de maduración del medio ambiente. En conclusión no existe una
norma que defina el tiempo que debe pasar entre la primera y segunda
aplicación.

2. Método de división por mitades o "split half method"

Teóricamente, este método es similar al método de estimación por


formas equivalentes, con la diferencia de que aquí solamente se trabajo
con un solo instrumento, en donde los ítems son divididos en dos partes
(pares-impares; primeros-últimos, o cualquier otra forma de dividir la
prueba en dos partes).

Una vez dividida la prueba, las dos series de puntajes resultantes se


correlacionan con el coeficiente "r" de Pearson. Pero por haberse dividido
el test en dos partes, el coeficiente de correlación resultante debe ser
"corregido" para arrojar el coeficiente de correlación "r“ para todo el test.
Esta corrección se efectúa con la fórmula de profecía de Spearman-
Brown:

rxx= 2r0e
1 + r0e
Donde:

rxx: Coeficiente de Spearman-Brown.


roe: Coeficiente de Pearson de las dos mitades equivalentes.
Tomás Caycho Rodríguez
Sergio Domínguez Lara

LECCIÓN III

CONFIABILIDAD POR EL MÉTODO DE LAS PRUEBAS EQUIVALENTES


Y POR CONSISTENCIA INTERNA

1. Método de pruebas equivalentes

El método consiste en aplicar dos formas equivalentes o paralelas del test


al mismo grupo de individuos, en donde las dos series de puntajes
resultantes se correlacionan con el coeficiente producto de los momentos
de Pearson (r).

2. Estimación de la Confiabilidad por consistencia interna

Los coeficientes de consistencia internada están en relación a la


homogeneidad de la prueba en la medida de que cada uno de los
elementos mide la misma característica. Se usa para tal efecto diversas
medidas como son el Alpha de Cronbach y el coeficiente KR-20.

2.1. Alpha de Cronbach

Se trata de un índice de consistencia interna que toma valores entre


0 y 1. El coeficiente Alpha de Cronbach se basa en las magnitudes
de las covariaciones entre los ítems en relación con la varianza total
del test, en vez de considerar las correlaciones entre medidas
paralelas.

K  ∑Si 
2

α =  1− 2 
K −1  ST 

Donde K está referido al número de ítems; S²i, a la Sumatoria de
Varianzas de los Ítems; S²T, a la Varianza de la suma de los Ítems,
y el α al Coeficiente de Alfa de Cronbach

2.2. Ecuación Kuder-Richardson 20

Se trata de un caso particular del coeficiente Alfa de Cronbach


cuando los ítems que componen la escala son dicotomicos. Es decir,
cada ítem sólo admite dos opciones de respuesta, que son
Tomás Caycho Rodríguez
Sergio Domínguez Lara

exhaustivas y mutuamente excluyentes. Viene expresada por la


siguiente expresión matemática.

Donde st² representa a la varianza de cada elemento, expresada


como el producto de las probabilidades de obtener una respuesta
correcta (p) e incorrecta (q); y siendo k el número de ítems de la
escala.

3. Interpretación

De acuerdo con Oviedo & Campo-Arias (2005), el alfa de Cronbach


mínimo aceptable es de 0.70, considerando además que un indicador
entre 0.80 y 0.90 es óptimo. Cuando sobrepasa esta valla, de 0.90, se
dice que hay redundancia en los ítems.
Tomás Caycho Rodríguez
Sergio Domínguez Lara

LECCIÓN IV

TRANSFORMACIÓN DE PUNTAJES DIRECTOS A PUNTUACIONES


ESTÁNDAR Z, T Y TRANSFORMACIONES PERCENTILES

1. Elaboración de normas

Si bien es cierto el test es un elemento auxiliar en el quehacer


psicológico, el hecho de contar con indicadores de confiabilidad y validez
adecuados, le da consistencia a los hallazgos que se realicen. Pero
queda pendiente el problema de la interpretación de las puntuaciones
¿Se interpreta las puntuaciones directas de la prueba? Esa pregunta
será respondida en breve.

1.1. Proceso de elaboración de normas de un test

Para comprender este procedimiento en su real dimensión, es


necesario tratar algunos aspectos conceptuales previos.

a. Población de referencia

Está referida a personas que comparten características


comunes (edad, sexo, grado de instrucción, etc.), las que
estarán bajo criterios de inclusión y exclusión. Ejemplo: “la
población de referencia está compuesta por las estudiantes del
I al VIII ciclo de la carrera de Psicología de la UIGV”.
Atendiendo a criterios de exclusión, no formarán parte de la
muestra estudiantes varones, ni de IX ciclo de dicha carrera.

b. Grupo normativo (Muestra)

Se refiere a un grupo seleccionado de la población, el cual debe


tener tres características: 1) Debe ser definido, es decir, estar
en función de la población y cumplir las características de esta.
2) Debe ser representativo, lo cual indica que aquellos
hallazgos en la muestra, podrán ser generalizados a la
población de origen. Y por último, 3) debe ser de tamaño
suficiente, para evitar errores asociados al muestreo.

c. Norma

La norma es de suma importancia, ya que da información


acerca del desempeño de una población de referencia en un
Tomás Caycho Rodríguez
Sergio Domínguez Lara

test. El sustento de esta postura está en los cálculos


estadísticos acerca de las diferentes puntuaciones estándar que
existen.

d. Baremo o Tabla de Normas

La tabla de normas o baremo, es una tabla que sistematiza la


conversión de puntajes directos en puntajes derivados. Cabe
resaltar que las normas más recomendadas son aquellas que
se asemejan a una escala de intervalos.

e. Puntajes derivados o unidades de calificación

Son aquellos puntajes que se obtienen a partir de los puntajes


directos por medio de métodos estadísticos. Dicha conversión
tiene dos objetivos, convertir los datos en un solo tipo de
escala, y también posibilitar una mejor interpretación de los
datos.

Entonces, a partir de dichos objetivos, Tres son los tipos de


puntajes derivados más conocidos: Los puntajes percentiles,
los puntajes estándar o típicos y los puntajes estándar o típicos
normalizados

• Percentiles (Pc)

Son puntajes derivados, los cuales conforman una escala


ordinal que se expresa en función del porcentaje de
personas del grupo normativo que quedan por debajo de una
puntuación directa determinada. Indica la posición del
individuo en un grupo normativo. Es decir, indican a qué
porcentaje del grupo normativo superan. Por ejemplo,
alguien con percentil 85, superará al 85% de su población de
referencia en la variable estudiada, y es superado por un
15% en la misma variable.

• Puntaje estándar o típicos

Toman como unidad fracciones de la desviación estándar de


la distribución de puntajes del grupo normativo. Dichas
puntuaciones expresan la distancia del individuo a la media
aritmética en función de la desviación estándar.
Tomás Caycho Rodríguez
Sergio Domínguez Lara

Los puntajes típicos más usados son el Cociente intelectual


(usado en la mayoría de pruebas de inteligencia), Puntaje T,
Eneatipo (Estanino) y Decatipo (Sten)

A continuación se presenta una tabla que sistematiza las


medias aritméticas y desviaciones estándar de cada uno de
los puntajes típicos mencionados.

Con relación al cálculo, se ha propuesto una expresión


matemática que se muestra a continuación:

Donde:

X= puntaje directo
X1= media del grupo
S= DE del grupo
S2= DE del puntaje estándar elegido
X2= media del puntaje estándar elegido

• Puntaje estándar o típicos normalizados

Se obtienen a través de la conversión de los puntajes


directos en puntuaciones Z, respetando la forma inicial de
distribución de las puntuaciones.

1.2. Distribución normal y correspondencia con puntuaciones


estándar

Para dar una mejor lectura a las equivalencias, se usará la


propuesta de Seashore (1955) acerca de ello.
Tomás Caycho Rodríguez
Sergio Domínguez Lara

Fig. xx. Curva normal, percentiles y puntuaciones estándar. Tomado de Seashore (1955)

2. Aspectos Técnicos complementarios

2.1. Normas específicas o de centro

Dichas normas hacen referencia a aquellas elaboradas a partir de


grupo más específicos, en vez de amplios, es decir, con un rango
menor de acción, pero que permiten comparar a la persona con sus
futuros competidores (procesos de selección) o compañeros
(evaluación de aptitudes en determinado nivel educativo), lo cual
dará más certeza al evaluador al momento de brindar alguna
conclusión respecto al examinado en relación a su grupo inmediato
de referencia.

2.2. Obsolescencia de las normas


Tomás Caycho Rodríguez
Sergio Domínguez Lara

Esta situación, que es un problema real en nuestro medio, implica la


renovación de baremos cada cierto tiempo, ya que se experimentan
cambios en la población a consecuencia de los contextos sociales. El
tiempo para renovar las normas se estima en 10 años.

También podría gustarte