Está en la página 1de 47

RESUMEN TÉCNICAS PSICOMÉTRICAS CÁTEDRA "B"

Introducción a la Psicometría: el desafío de medir en Psicología

¿Qué significa medir?

La medición conlleva un proceso de abstracción. Este proceso nos permite operar con palabras o símbolos
sin necesidad de manipular los objetos reales. Como por ejemplo, podemos decirle a una persona "si tocas el
fuego te vas a quemar", y la persona entenderá la información sin necesidad de tener que tocar el fuego para
saber que lo quemará. Gracias a este proceso de abstracción es que podemos despegarnos de las
operaciones concretas y efectuar análisis que las trasciendan. Cuando medimos realizamos un proceso
análogo al del lenguaje, la diferencia radica que en vez de utilizar palabras, utilizaremos números.

De esta forma, la medición lleva a cabo un proceso de abstracción, mediante el cual intentamos cuantificar
(usar números para representar cantidades) y/o clasificar propiedades de la realidad. Cuenta la leyenda que el
nacimiento de los números se dio en un intento por abstraer la cantidad de ovejas que tenían los pastores.
Para chequear si todas las ovejas del rebaño habían regresado, se representaba con una piedra a cada oveja.
El pastor colocaba en una bolsa, tantas piedras como ovejas tenía, de esta manera, si al regresar había más
piedras que ovejas, significaba que había extraviado alguna o más ovejas. Se puede decir entonces que existía
un isomorfismo entre las piedras y las ovejas, es decir, elementos distintos (piedras y ovejas) mantenían "una
misma forma o estructura", en este caso representaban la misma cantidad.

El uso de piedras para representar cantidades y poder operar con ellas constituye un primer intento de
abstracción (de hecho, la palabra "cálculo" proviene del latín "cálculus" que significa "piedra"). Con el paso del
tiempo, en vez de utilizar piedras, se utilizaron símbolos para representar cantidades, dando nacimiento a los
números!!! Esta vez el isomorfismo es entre la realidad y un símbolo numérico.

Para Stevens (1949) medir consiste en asignar números en función de ciertas reglas. Según este autor puede
diferenciarse:
A. Sistema Relacional Empírico (X): hace referencia al conjunto de objetos que muestran el atributo de
interés, y las relaciones entre los mismos
B. Sistema Relacional Numérico (R): hace referencia al conjunto de números y sus relaciones.
C. Una aplicación de X en R

En síntesis: medir básicamente implica usar números para representar las relaciones observadas
entre los objetos manteniendo un isomorfismo entre ambos sistemas.
2018
Se admite la existencia de diferentes niveles de medición, dependiendo del tipo de isomorfismo que se
pretenda mantener entre el sistema empírico y numérico. Por ejemplo, podemos utilizar los números
simplemente para representar distintividad. Ejemplos

Expresión de emociones: 1-enojo 2-alegría 3-sorpresa

Género: 1-femenino 2-masculino

Vemos que podemos utilizar números para representar las distintas emociones. En este caso el isomorfismo
que queremos mantener entre el sistema empírico y numérico refiere solo a la distintividad. Por lo tanto no
podemos hacer juicios de orden o proporcionalidad. Simplemente queremos representar relaciones de
equivalencia, esto es que los objetos son equivalentes en una propiedad determinada como por ejemplo
"expresión de emociones. Este tipo de medición se denomina NOMINAL. Y exige trabajar con categorías
exhaustivas (que a cada individuo le corresponda una categoría SI O SI) y mutuamente excluyentes (que las
mismas se excluyan entre sí). En este nivel los números asignados a cada categoría no representan más que
una etiqueta

[[ RECUERDEN CHICXS! PALABRAS SIN ORDEN = NOMINAL :) ]]

U segundo nivel de medición se establece cuando además de representar distintividad, queremos representar
la existencia de un orden entre los elementos , es decir ordenados en función de una magnitud en que
poseen un atributo. Este tipo de medición se denomina ORDINAL. Ejemplos

Nivel educativo: 1-sin nivel 2-primario 3-secundario 4-universitario

Es importante señalar que este nivel de medición presenta propiedades de distintividad y orden, pero no de
proporcionalidad. Es decir que si una persona presenta un "4" de nivel educativo, posee un mayor nivel que
una persona que tiene "2" en esta variable, es decir tiene mayor nivel de educación, pero no podemos decir
que "duplica" en nivel educativo o que tiene el DOBLE de educación, simplemente tiene más! En definidas
cuentas y para concluir, sólo es lícito efectuar juicios del tipo "mayor que..." o "menor que..."

[[ RECUERDEN CHICXS! PALABRAS CON ORDEN = ORDINAL :) ]] jijeju

Finalmente existen las mediciones métricas, donde el isomorfismo no se mantiene solo para indicar la
distintividad y orden, sino también proporcionalidad. En este nivel de medición los números poseen unidades
adyacentes constantes, es decir que la distancia entre el "1" y el "2", es la MISMA DISTANCIA que hay entre
el "3" y el "4" (cosa que NO sucede en el ordinal donde carece una unidad constante de medición)

En las mediciones métricas (intervalar y proporcional) si se cuenta con una unidad constante de medida, lo
cual permite que se puedan establecer juicios no sólo sobre el orden, sino también sobre las distancias o
diferencias. Ejemplo

Supongamos que queremos comparar el nivel de alcohol consumido por una persona que consumió un vaso
de vino y otra que bebió un vaso de whisky. Pensemos que el vino tiene 10° de graduación alcohólica,
mientras que el whisky tiene 50°. Esto significa que si dos personas toman la misma cantidad (ejemplo un
vaso), el que bebió whisky bebió 5 veces más de alcohol que el que bebió vino. Este tipo de mediciones
permite efectuar juicios acerca de la proporcionalidad entre intervalos.

2018
¿Es posible medir en Psicología?

La medición en psicología conlleva una serie de dificultades, que llevan a que no siempre se puede establecer
con claridad un isomorfismo entre el sistema numérico y el empírico. El principal obstáculo radica en el hecho
de trabajar con constructos teóricos (que son inobservables!). Las emociones, la memoria o la felicidad por
ejemplo, ya que no la podemos observar directamente y por ende, no podemos efectuar una medición directa
como podríamos hacer con la longitud o el peso. En psicología abundan las mediciones indirectas (o no
lineales) Ejemplo:
Supongamos que queremos determinar si un paciente está deprimido. Este es un rasgo inobservable que no
podemos analizar mediante la percepción directa, pero podemos llegar a inferirlo a partir de una serie de
indicadores observables o empíricos. Por ejemplo podemos ver si presenta movimientos lentos o si al hablar
manifiesta sentimientos de desesperanza o inutilidad, si menciona tener problemas para dormir, o si siente que
no tiene energía o ganas para hacer actividades

Cuando efectuamos una medición en psicología lo hacemos asumiendo dos grandes supuestos o axiomas:

En primer lugar, asumimos que existen rasgos o características psicológicas reconocibles que describen
aspectos importantes de los individuos. En el ejemplo anterior, asumimos que existo algo que llamamos
"depresión"

En segundo lugar, asumimos que es posible cuantificar esos rasgos. Por ejemplo, podemos decir que se
trata de una depresión leve, moderada o severa, y otorgarle un número. Sin embargo, este proceso de
medición no está exento de dificultades.

Retomando la definición de medición de Stevens: "medir consisten en asignar números en función de ciertas
reglas". El aspecto más importante de esta definición refiere al término "según ciertas reglas", ya que la
asignación de los números debe establecerse de manera explícita y las reglas empleadas para definir una
medición debe estar exenta de ambigüedades. Esto reviste una gran dificultad cuando se trabaja con variables
inobservables (construcciones teóricas, los denominados "constructos"). Concretamente, pueden surgir al
menos 3 problemas de medición:

1. No explicitar las reglas que utilizaremos para medir el constructo. Puede ocurrir que un
psicoterapeuta establezca que un paciente posee un diagnóstico de "depresión severa", pero no
explique los criterios que utilizó para llegar a ese diagnóstico. Esto genera con frecuencia confusiones
entre los profesionales, ya que para un profesional los indicadores operaciones de la depresión pueden
2018
ser distintos a los considerados por otro profesional. Asimismo, puede ocurrir que un profesional
otorgue mayor importancia a ciertos indicadores que a otros, llevando a que en un caso se diagnostique
como "depresión severa" y en otro como "depresión leve". Esto conlleva muchos problemas de
comunicación, y en consecuencia, dificulta la posibilidad de un trabajo grupal e interdisciplinario

2. Utilizar reglas distintas para medir un constructo y posteriormente compararlas. Puede ocurrir,
por ejemplo, que dos investigadores realizan una investigación sobre los factores asociados a la
depresión. Pero al momento de realizar el estudio uno de ellos utiliza un método para medir la
depresión diferente al otro profesional que utiliza un método alternativo. El problema que surge es
determinar si las conclusiones a las que se pueda arribar son comparables entre sí. De hecho, es
habitual encontrar pruebas psicológicas que dicen evaluar el mismo constructo (por ejemplo
inteligencia) pero que utilicen metodologías radicalmente diferentes. Esto genera que muchas veces
hablemos de la misma variable, cuando en realidad estamos midiendo cosas distintas

3. Dificultades de acuerdo o convención en relación al modo en que conceptualizamos el atributo


que se pretende medir. Probablemente se trato del mayor problema de medición en psicología, ya que
en esta disciplina los constructo no pueden definirse operacionalmente de manera aislada, sino que
deben relacionarse o integrarse a una teoría. Cuando pretendemos medir un constructo teórico,
debemos definir los indicadores que utilizaremos para efectuar tal medición. Para ello, es esencial haber
definido previamente la naturaleza del atributo que pretendemos medir. La forma en que
conceptualizamos un atributo, determina que indicadores operacionales vamos a considerar. Por
ejemplo, algunos autores señalan que la "ideación suicida" (tener ideas recurrentes de muerte) no forma
parte de la depresión, sino que se trata de un constructo distinto que surge como consecuencia de la
desesperanza. Sin embargo, otros autores lo incluyen como un síntoma de la depresión,
conceptualizando que se trata de un comportamiento propio del mismo del trastorno. Por ende, en un
caso se utilizará la "ideación suicida" como indicador de depresión, mientras que en el otro no. Este es
un problema que se repite con prácticamente todos los constructos que se trabajan en psicología
(personalidad, inteligencia, depresión, etcétera). Cada vez que se pretenda medir una variable
psicológica nos encontramos con diferentes modelos teóricos que plantean diferentes
conceptualizaciones de la misma, y en consecuencia se contemplan diferentes indicadores
operacionales para medir determinado constructo ^^ :)

2018
¿Qué es la Psicometría y cuáles son sus contribuciones a la ciencia psicológica?

En 1879, el capo de Sir Francis Galton, introdujo el concepto de "psicometría", que en griego significa "medir
el alma". En términos amplios la psicometría es el área de la psicología que se ocupa de los procedimientos
de medición del comportamiento humano, e incluye dos ramas: a) La teoría de la medición, que involucra el
uso de la estadística aplicada a la construcción y análisis de instrumentos de medición, y b) Las técnicas
psicométricas, es decir, la utilización de pruebas o tests con el objetivo de medir constructos psicológicos.

La delimitación de tests psicológicos no es sencilla, y a lo largo de la historia su definición ha ido


cambiando. Actualmente la definición más aceptada es la propuesta por la APA (American Psychological
Association) quien conceptualiza a los tests como "un procedimiento por medio del cual una muestra de
comportamiento de un dominio especificado, es obtenida y posteriormente calificada, empleando un proceso
estandarizado).

Supongamos que queremos medir la "responsabilidad", la cantidad de comportamientos que indican la


existencia de este rasgo es innumerable (llegar temprano a clase, hacer las actividades que plantea el
profesor, leer los contenidos del programa, ser ordenado, etc.) Trabajamos con una muestra de
comportamiento de un dominio, para hacer generalizaciones sobre una población, en este caso los elementos
en vez de ser personas, son comportamientos representativos de un dominio o constructo.

Una vez obtenida la muestra de comportamiento, la "calificamos utilizando un proceso estandarizado".


Esto significa que utilizamos una misma consigna y escala de respuesta para calificar la muestra de
comportamientos. Por ejemplo, En determinado test sobre la personalidad, se puede usar una escala que
vaya desde "1" (muy en desacuerdo con esta descripción de mi) hasta el "5" (muy de acuerdo con esta
descripción de mi mismo)

Una vez puntuados los comportamientos seleccionados, calculamos un puntaje total mediante la suma
de los puntajes obtenidos en cada ítem. Si la muestra de comportamientos es representativa del dominio, los
resultados del test pueden inferir la posesión o magnitud del dominio. De esta forma, si al medir la
"responsabilidad" una persona tiene 30 puntos y otra tiene 15, ello implica que la primera presenta en mayor
medida el rasgo evaluado. Habíamos hablados de las limitaciones de los niveles de medición, en este caso es
de carácter ordinal, por lo que no podemos decir que el primer sujeto tenga el DOBLE de responsabilidad que
el segundo sujeto, pero si podemos decir que posee MAYOR responsabilidad

2018
A pesar de las limitaciones, el uso de los tests psicométricos nos presenta algunas ventajas respecto a la
observación natural o al uso de entrevistas abiertas. Entre las principales ventajas se encuentra la
objetividad que nos brindan la aplicación de los tests frente a la observación subjetiva. Otra ventaja es la
comunicabilidad, dado que al poseer medidas estandarizadas, se facilita la comunicación y la precisión de
los datos. La eficiencia de los tests es una ventaja que no debe pasarse por alto. La principal ventaja radica
en la posibilidad de matematizar constructos psicológicos.

Un panorama de los tests psicométricos: generalidades, clasificación y


tendencias actuales

Según Hogan (2004) existen cuatro usos principales de las pruebas psicométricas

1) En primera instancia se destaca el uso clínico, donde el terapeuta utiliza pruebas para complementar el
proceso de evaluación diagnóstica, identificar la naturaleza y gravedad de trastornos psicológicos, evaluar el
proceso terapéutico o determinar la eficacia de un tratamiento

2) En segunda uso principal es en los centros educativos, donde habitualmente se aplican pruebas para
evaluar el proceso de aprendizaje, detectar alumnos con dificultades en el aprendizaje o problemas socio-
emocionales, analizar factores motivacionales, etc.

3) Otro uso habitual es en el contexto de evaluación laboral u organizacional, donde podemos seleccionar
a los individuos más calificados para un puesto de trabajo, gestionar los recursos huymanos, analizar los
niveles de estrés y bienestar laboral, etc.

4) Finalmente, también se utiliza para la investigación, donde se utilizan pruebas para operacionalizar
variables psicológicas, caracterizar muestras, etc.

Clasificación de los Test psicométricos

Existen diversas maneras para clasificar los test psicológicos:

Según su ADMINISTRACIÓN:
 Individuales  administrar a 1 sola persona por vez
 Grupales  administrar a un grupo de personas simultáneamente

2018
Según el FORMATO y el MATERIAL:
 Lápiz y papel
 Visuales
 Auditivos
 Computarizados
Según el MODELO TEÓRICO:
 TCT: Teoría Clásica de los Tests (Recuerden que esta es más antigua y tiene un interés GLOBAL)
 TRI: Teoría de Respuesta al Ítem (Recuerden que esta es más actual y tiene un interés por los
ÍTEMS INDIVIDUALES)

Nuestro querido amigo Cronbach distinguió entre:

Ψ Test de Ejecución Máxima (Inteligencia, Aptitudes y Habilidades)

Ψ Test de Comportamiento Típico (Motivación, Actitudes y Personalidad)

Test de Ejecución Máxima:


Inteligencia, Aptitudes y Habilidades
 Demandan a los examinados que respondan de la forma más correcta posible frente a tareas
problemáticas que deba resolver
 Miden diferencias individuales en el nivel de ejecución máxima frente a diferentes tareas
 Mide variables tales como la Inteligencia, Aptitudes y Habilidades
 La delimitación de estos conceptos es uno de los problemas más controvertidos de la psicología

Según Juan-Espinosa la inteligencia refiere a un sistema complejo compuesto por numerosos procesos
cognitivos relativamente independientes pero que pueden operar conjuntamente. Este operar conjunto de
procesos independientes contribuye a la aparición de un factor GENERAL de inteligencia. La postulación de un
factor cognitivo general (g) se opone a la concepción de aptitudes relativamente independientes, también
tradicional en psicología. La existencia de un factor general de inteligencia es apoyada por investigaciones
psicométricas y de la genética del comportamiento, pero esto no implica negar la existencia de aptitudes más
específicas. En general se asocia a este factor g a la "velocidad de procesamiento cognitivo"
El neurocientífico Gardner efectuó una crítica radical al modelo de inteligencia general con su teoría de
las Inteligencias Múltiples (MI). Para este autor, los tests miden preferentemente aptitudes relacionadas con los
requerimientos académicos de la cultura occidental y por eso sólo reconocen dos o tres dimensiones de la

2018
inteligencia. Su teoría, basada principalmente en criterios neuropsicológicos, propone 8 potenciales bio-
psicológicos de procesamiento de información ("inteligencias") que permiten resolver problemas o
crear productos.
Estas inteligencias son: Lingüística, Lógico-Matemática, Espacial,
Cinestésico-Corporal, Musical, Interpersonal y Naturalista. Esta teoría,
de fuerte atractivo, constituye una fuente riquísima de hipótesis pero
que no poseen una corroboración empírica exhaustiva ni técnicas
validadas de medición de sus constructos. En efecto, los tests
diseñados para medir aspectos relacionados con las inteligencias
múltiples, tales como el MIDAS o el IAMI (Pérez, 2001, capooo!)
evalúan las habilidades Auto-percibidas o la Auto-eficacia pero no
incluyen problemas a RESOLVER relacionados con las dimensiones
de inteligencias propuestas por Gardner (1999)

También existen desarrollos teóricos contemporáneos que representan una solución de compromiso entre
ambas posturas, admitiendo la existencia de un factor g, pero también de aptitudes generales y habilidades
específicas relativamente independientes. Una de ellas es la teoría CHC (Cattell-Horn-Carrol) que propone un
modelo de tres estratos:
1. Factor g (Inteligencia General)
2. 9 Aptitudes cognitivas (Ej: Procesamiento Visual)
3. Numerosas habilidades más específicas (Ej: destrezas manuales)

Un instrumento contemporáneo basado en la teoría CHC es la batería Woodcock Johnson III (WJ-III)
Las 9 aptitudes medidas por este test en el segundo estrato son: rapidez en el procesamiento, procesamiento
visual, procesamiento auditivo, memoria a corto plazo, a largo plazo, comprensión-conocimiento, razonamiento
fluido, lectura-escritura y aptitud cuantitativa. Existen versiones de la batería WJ-III en varios idiomas (incluida
español) y con un rango de aplicación de 2 a 90 años. Este test es extenso, de aplicación individual y posee
excelentes propiedades psicométricas de estandarización, confiabilidad y validez ^^ :)

Una de las escalas más utilizadas para la evaluación de la inteligencia en nuestro medio es la elaborada por
David Wechsler en 1939, con varias actualizaciones posteriores (WISC-V y WAIS-IV). Las escalas Wechsler
comprenden subtest verbales y de ejecución.
Subtests verbales ejemplos: ¿Qué significa arrogante? o Menciona un planeta que no sea la Tierra
Los subtests no verbales consisten por ejemplo en ensamblar objetos a la manera de un rompecabezas

2018
Podemos identificar cuatro factores de inteligencia subyacentes
1. Organización perceptual 3. Comprensión Verbal
2. Memoria de Trabajo 4.Velocidad de procesamiento

En la versión del WISC-IV las puntuaciones se interpretan en función de esos cuatro factores y no en la forma
tradicional de inteligencia verbal y de ejecución. En las versiones actuales de las escalas Wechsler los ítems
están ordenados según los parámetros de dificultad y discriminación de la TRI.

Test de Aptitudes Diferenciales (DAT-5):


 Se utiliza principalmente para la Orientación de Carrera y Selección de Personal
 Está compuesto por 8 subtests (aptitud verbal, numérica, espacial, abstracta, mecánica,
administrativa, lenguaje y ortografía) que permiten obtener puntuaciones en competencias requeridas
para el éxito académico u ocupacional
 Mide  Aptitudes DIFERENCIALES en los individuos
 Sirve  la orientación de carrera y selección de personal.
 Se le criticado la falta de poder predictivo diferencial, así como la confusión de incluir aptitudes como las
administrativas, que en realidad son factores cognitivos y de la personalidad
 No obstante para fines de orientación o selección suministran información más específica que los test
de inteligencia general, y tal vez por esto radique su popularidad entre los orientadores (nosotros jaja)

Test de Aptitud Verbal "Buenos Aires"


En nuestro país, Cortada de Kohan (1998) elaboró un test de aptitud verbal denominado Buenos Aires. El
mismo consta de 98 ítems, una mitad de ellos sinónimos y la otra mitad definiciones, todos de opción
múltiple con 4 alternativas de respuesta de las cuales 1 sola es correcta. El tiempo de aplicación es libre, pero
suelen ser suficientes 25 minutos para terminar la prueba, puede ser aplicado de forma individual como
colectiva. El instrumento posee baremos para Argentina, Ecuador, Colombia y España. Posee buenas
propiedades de confiabilidad, validez y análisis de ítems y como novedad para nuestro país, se han obtenido
para todos los ítems los parámetros de dificultad y discriminación según la TRI

El test puede ser aplicado a jóvenes y adultos desde los 16 años y con al menos tres años de cursados de
educación secundaria. También existe una versión abreviada confiable y valida que puede aplicarse con un
tiempo límite de 8 minutos

2018
Evaluación Neuropsicológica:
Esta hermosa rama estudia las relaciones entre el cerebro y la conducta. El desarrollo de la neuropsicología ha
estado determinado por la necesidad de investigar y encontrar herramientas que permitieran el diagnóstico y el
tratamiento de los déficits en el rendimiento cognitivo (memoria, lenguaje, atención, etc.) después de una lesión
cerebral. La Evaluación Neuropsicológica (EN) es la herramienta que posibilita este diagnóstico

Lezak (1995) identifica cuatro aplicaciones esenciales de la EN:

1) Evaluación propiamente dicha

2) Cuidado del paciente y planificación del tratamiento

3) Rehabilitación y evaluación del tratamiento

4) Investigación

Las áreas cognitivas evaluadas por los tests neuropsicológicos son innumerables, algunas de ellas son las
siguientes: memoria, atención, discriminación visual, gnosias visuales, gnosias auditivas, discriminación de
color, lenguaje, etc.

Algunos de los tests más conocidos:

Test de la Función Mental Mínima (Mini-mental-State-Examination) utilizado como una prueba de


inspección rápida (5 min aprox) del estado cognitivo general de una persona

Test de Stroop, una prueba de atención que requiere determinar el color en el que están escritos
nombres de colores incongruentes con la palabra (por ejemplo "rojo" escrita en tinta verde)

Test de Clasificación de Cartas de Wisconsin, una prueba de flexibilidad cognitiva

Test de la Figura Compleja de Rey, un test de memoria visual y praxias constructivas

DESARROLLO INFANTIL:
Es un dominio íntimamente ligado con la prevención e intervención. Estos tests miden las áreas:

1. Motora

2. Afectiva

3. Cognitiva

4. Lenguaje
2018
Al medir estas áreas facilitan la detección precoz de posibles anomalías. La población meta de estos
instrumentos oscila desde 0 a 5 años; incluyendo la evaluación del neonato (los primeros 30 días de la vida
extrauterina); el lactante (desde 30 días hasta 24 meses de edad) y el pre-escolar (desde los 2 a 5 años)

Debe aclararse que en ningún caso estos test del desarrollo reemplazan el examen neurológico del niño, sino
que se complementan de manera mutua.

En general estas pruebas poseen menos confiabilidad y validez que otros tests de ejecución máxima. No
obstante, son útiles para el diagnóstico precoz del retraso mental, los trastornos cerebrales orgánicos y los
trastornos de aprendizaje (dislexia por ejemplo). Entre los principales instrumentos podemos destacar:

 Escalas Gesell y Amatruda, construidas para diagnosticar si los niños alcanzan parámetros adecuados
del desarrollo. Las puntuaciones de estas escalas están determinadas por la presencia o ausencia de
conductas específicas características de los niños a determinada edad, se expresan en términos de la
edad de desarrollo (ED).

 Escala Bayley del Desarrollo Infantil, la misma presenta una gran aceptación internacional, creada en
1933, cuya última revisión fue en 1993. Esta escala se organiza en 3 secciones (escala motora, social y
comportamental) y se consideran complementarias

Test de Respuesta Típica:


Intereses, Actitudes, Personalidad y Motivación
 En estos tipos de test NINGUNA respuesta es considerada CORRECTA o INCORRECTA
 Se evalúa el comportamiento típico de las personas, recurriendo a distintas afirmaciones ante las
cuales el examinado debe indicar su nivel de acuerdo o agrado
 Estos test utilizan preferentemente un formato likerT de respuesta
 Comprenden diferentes medidas como constructos afectivos y motivacionales relacionados, tales
como las actitudes, rasgos de personalidad, los intereses profesionales y las creencias de
autoeficacia

Evaluación de los Rasgos de Personalidad:


Hace referencia a tendencia afectivas básicas de una persona. Estas disposiciones le confieren relativa
estabilidad al comportamiento

2018
Según Nunnally, el estudio de la personalidad se centra en 2 grandes problemas:

1) Cuáles son los rasgos dominantes de una persona en un momento determinado de su historia personal

2) Qué factores determinan ese factor de personalidad

La medición de la personalidad tiene que ver principalmente con el primer punto, siendo el propósito de la
medición describir a los individuos en base a sus rasgos dominantes. El segundo punto se relaciona con la
herencia y la experiencia, ya que para explicar el desarrollo de la personalidad, se debe recurrir a la genética
del comportamiento y/o la teoría del aprendizaje

En algunas de las teorías contemporáneas, tales como la teoría de los cinco grandes factores (Costa y Mc
Crae, 1999), los rasgos de la personalidad se entienden como hereditarios en gran proporción, y por
consiguiente, bastante asimilables al concepto de temperamento o naturaleza emocional de las personas.
Algunas de las orientaciones temperamentales básicas, tales como emocionalidad positiva (Asimilable a
Extraversión y Amabilidad) y negativa (Asimilable a Neuroticismo), ya que pueden distinguirse en la primera
infancia. La investigación actual de la genética del comportamiento apoya esta condición hereditaria de la
reactividad emocional, aunque admite también que el entorno familiar explica parte de la variabilidad de esa
variable.

Recientemente se ha sugerido que el incremento de la actividad social, el ejercicio física y las técnicas de
relajación pueden modificar algunas tendencias emocionales básicas de las personas

Los rasgos de la personalidad se relacionan con la conducta típica de las personas, como el nivel típico de
ansiedad o amabilidad que posee una persona. En los últimos años se utilizan preferentemente los inventarios
auto-descriptivos o de auto-informe. Ejemplos de ítems típicos: "Me agradan las reuniones sociales" "Pongo
atención a los detalles" "Intento no llamar la atención" "Evito mis obligaciones"

Las alternativas de respuesta varían desde un formato dicotómico (Si-No / Verdadero-Falso) a uno de tipo
likert. Actualmente se recomienda incluir varias alternativas de respuesta (likert) con la finalidad de mejorar la
variabilidad de las respuestas y por consiguiente la confiabilidad y validez de estos tests. Estos inventarios se
utilizan en ámbitos tan diversos como la clínica psicológica, psicología ocupacional, y la investigación. Uno de
los principales inconvenientes: es que las personas falseen sus respuesta para dar una impresión
socialmente aceptable.

Podemos distinguir 2 tipos de inventarios de personalidad: NORMAL y PATOLÓGICOS

2018
RASGOS DE PERSONALIDAD PATOLÓGICOS:

PODEMOS HACER 2 GRANDES DIVISIONES, LOS QUE MIDEN VARIOS RASGOS:

 Inventario de Personalidad de Minnesota (MMPI) fue creado en 1940 con el fin de diagnosticar trastornos
psicológicos y su área principal de aplicación es la psicología clínica. Posee 550 ítems, en forma de
enunciados afirmativos, donde el sujeto clasifica en tres categorías: "verdadero", "falso" "no lo sé". Los
ítems del MMPI incluyen una AMPLIA VARIEDAD DE CONTENIDOS de actitudes sexuales, educación,
ocupación, familia, salud, entre otros. Existe una versión revisada y actualizada que se denomina MMPI-2

LOS QUE MIDEN SÓLO UN RASGO:

 Inventario de Depresión de Beck (BDI-III) (Acá pueden imaginarse alguien comiendo un chocolate
BLOCK, onda estamos depresivos nos clavamos un Block! Beck-Block jaja depresión :D :D

 Inventario de Ansiedad Rasgo-Estado (STAI; Spielberberg)

 Inventario de Expresión de la Ira (STAXI; Spielberger)

 Inventario de Situaciones y Respuestas de Ansiedad (ISRA; Miguel-Tobal y Cano-Vindel)

RASGOS DE PERSONALIDAD NORMAL:

Entre los inventarios auto-descriptivos más populares tenemos:

 Inventario de Personalidad 16PF-5 (Russel y Karol)

 Cuestionario de Personalidad EPQ (Eynseck)

 Los inventarios NEO de Costa y Mc Crae

La teoría de los cinco grandes factores de la personalidad es predominante en la construcción de los tests que
miden la personalidad normal. Esta teoría postula cinco dimensiones(factores) afectivas básicas en las cuales
diferimos los seres humanos: Estabilidad Emocional o Neuroticismo, Extraversión, Apertura,
Responsabilidad y Amabilidad (todas influidas por la herencia). Asimismo, existen modelos alternativos como
la teoría de PEN de Eynseck, proponiendo tres factores (Neuroticismo, Impulsividad o Psicoticismo,
Extraversión). Pueden establecerse relaciones entre ambas teorías, puesto que dos constructos son
perfectamente asimilables: Extraversión y Neuroticismo, y el tercer factor de la teoría de PEN, Impulsividad,
se relaciona con Responsabilidad de manera inversa. Los factores de Amabilidad y Apertura de Costa y
McCrae, son consideradas como facetas (rasgos más específicos) en la teoría de Eynseck

2018
• El NEO-PI-R (Costa y Mc Crae) es uno de los instrumentos más relevantes para medir los cinco
grandes factores de la personalidad y las 30 facetas específicas. El mismo se emplea en diferentes
ámbitos, en especial en la psicología laboral) y ha sido adaptado en España por editorial TEA. También
existe una versión abreviada que se denomina NEO-FFI que mide solamente los 5 grandes factores de
la personalidad, pero sin las 30 facetas específicas.

Los inventarios que miden los rasgos de personalidad "normales" se emplean crecientemente en
Psicología Ocupacional y Educacional, aunque también en programas preventivos, relacionadas con el
manejo de la afectividad y las relaciones interpersonales. Varias investigaciones han demostrado que
los factores Responsabilidad y Apertura son predictivos del rendimiento Académico y Ocupacional. Por
su parte, Extraversión y Neuroticismo, asociados con la satisfacción en el empleo y el bienestar
psicológico general.

Evaluación de las Actitudes:

Las actitudes se refieren a predisposiciones aprendidas para responder positiva o negativamente ante
objetos sociales particulares, es decir tipos de personas, instituciones sociales o situaciones. Para
Padua, las actitudes son tendencias individuales a reaccionar, positiva o negativamente, a un valor social. En
definidas cuentas, los inventarios de INTERESES miden sistemas de preferencias (y rechazos) por creencias e
ideologías y por consiguiente son más empleadas en la Psicología Social o Política y son usados casi siempre
por los orientadores vocaciones!;

La primera escala de actitud fue la escala de "distancia social" donde los examinados clasificaban
diferentes grupos raciales y religiosos, en orden de aceptación, y fue notable también la producción de escalas
de actitudes en la segunda posguerra mundial, como la famosa escala para medir el autoritarismo.

En la medición de escalas de estas escalas, predomina la tipo likert, las cuales se caracterizan por
afirmaciones que oscilan de 5 a 7 alternativas que indican el grado de acuerdo del examinado con cada
afirmación o ítem. La construcción de escalas de actitudes consiste, inicialmente, en elaborar un conjunto de
ítems relativos a la dimensión que se pretende medir y asignar números a las diversas alternativas de
respuesta de esos ítems. En donde los símbolos numéricos reflejan la intensidad de la actitud, positiva,
negativa que posee un sujeto frente a un objeto determinado

Algunos ejemplos de instrumentos de escalas de Actitudes

• Aiken construyó una escala de likert de actitud frente a la matemática, luego fue adaptada por Murat
para nuestro medio.

• Bem creó la escala de actitudes frente a la masculinidad y la feminidad, Cada ítem describe algunas
2018
• características típicas de los géneros, y la persona respondiente debe indicar su grado de acuerdo
empleado una escala de tipo likert de 7 puntos (7-Muy de acuerdo a 1-Muy en desacuerdo)

• En nuestro medio, Tornimbeni y Gonzales elaboraron una escala de actitud hacia la investigación, se
realizó encuestando a estudiantes y docentes de las carreras de psicología en las universidades de
Argentina. Posee alternativas también de tipo likert de 5 alternativas, desde (5-muy de acuerdo a 1-muy
en desacuerdo)

Evaluación de las Autoeficacia:


Bandura dice que la Autoeficacia se define como las: creencias en las propias capacidades para ejecutar
determinados cursos de acción.

La Autoeficacia se relaciona fuertemente con los Intereses Vocacionales puesto que las personas tienden a
interesarse por aquellas actividades en las cuales se sienten capaces de poder realizarlas. También el
concepto se relaciona con las aptitudes, puesto que las personas se sienten más seguros de emprender
aquellas actividades en las que han experimentado éxito.

La Teoría Social Cognitiva ha destacado el importante papel que pone en juego la autoeficacia
percibida entre las variables motivacionales y afectivas.

Esta teoría propone un modelo explicativo de las interrelaciones entre rasgos de personalidad, intereses y
habilidades y autoeficacia que contribuye a esclarecer el significado diferencial de esos constructos.

En nuestro medio, Pérez, construyó un Inventario de Autoeficacia, para Inteligencias Múltiples (IAMI)

con fines de Orientación Vocacional, que evalúa la confianza que los adolescentes poseen en
características asociadas con las inteligencias múltiples propuestas por Gardner. El IAMI incluye 8 escalas
obtenidas por análisis factorial y 64 ítems ("Resolver problemas numéricos", por ejemplo). El usuario de la
prueba debe responder utilizando un formato de 10 alternativas, que oscilan desde (1-"No puedo realizar esa
actividad" a 10-"Totalmente seguro de poder realizar exitosamente esa actividad"). Este inventario está incluido
en el Sistema de Orientación Vocacional Informatizado (Fogliatto y Pérez) y se ha obtenido evidencia
favorable de su confiabilidad y validez respecto a predecir el rendimiento académico y metas de elección de
carrera.

2018
Evaluación de los Intereses Vocacionales:
Los intereses vocacionales han sido definidos como perfiles de agrados y aversiones ante distintas
actividades relacionadas con carreras y ocupaciones. Se puede predecir el monto de satisfacción que una
persona experimentará en el desempeño de una ocupación. También se relacionan con la estabilidad y
compromiso de los individuos con sus carreras y ocupaciones.

Es claro que estos instrumentos poco nos dicen respecto al éxito académico u ocupacional que podrá
alcanzar una persona, pero nos ayudan a identificar carreras u ocupaciones donde puede encontrar
satisfacción. La población meta de estos test es 15-17 años en adelante

El paradigma más influyente es formulado por Holland, esta teoría avala que existen 6 tipos de personalidad:
Realista, Investigador, Artista, Social Emprendedor y Convencional) (RIASEC). Lo que a su vez determinan
patrones análogos de intereses y habilidades. Lo interesante de este paradigma, es que se puede ver una
correlación entre las diferentes tipos de personalidades y las ambientes en que viven y trabajan estas
personas, por ejemplo clasificados como "Realistas" poseen más preferencias por actividades manuales,
herramientas, máquinas y cosas, Los "Convencionales" se enfocan más en el ámbito de la organización, son
más precisos, ordenados y atentos a los detalles, y así sucesivamemente.

Los inventarios de intereses vocacionales más populares son el Self-Directed-Search (SDS), el


inventario de Strong-Campbell (más popular) y el Registro de Preferencias Kuder y Zitowsky

Todos estos tests han adoptado el modelo RIASEC para interpretar alternativamente los resultados, lo cual
permite una convergencia conceptual.

El inventario Visual de Intereses Profesional desarrollado por canadienses y basado también en el modelo
de Holland (RIASEC), pero que utiliza 80 fotografías a color, ilustrando actividades laborales en lugar de ítems
verbales, con el fin de atenuar los problemas de sesgo cultural (muy interesante)

Existen dificultades considerables cuando se utilizan test de intereses vocacionales en otros contextos
sociales. Uno de los obstáculos más significativos en la traducción y adaptación de tests son los problemas
del lenguaje. También debe considerarse el papel de los factores culturales con respecto a los diferentes que
pueden resultar las actividades de cada cultura y la dificultad de reemplazar dicha actividad, por ejemplo ítems
que mencionan actividades que en sus culturas son populares, como jugar al béisbol por ejemplo, en USA
puede ser muy utilizado y en otros países no, por lo que tendrá una significación diferente que en otros países
donde es poco practicado.

2018
Fogliatto planteó la necesidad de construir un cuestionario de intereses con características locales y más
adecuadas a las preferencias, actividades educacionales, laborales, así como el lenguaje habitual de los
jóvenes de nuestro medio. El Cuestionario de Intereses Profesionales Revisado (CIP-R) es un módulo del
Sistema de Orientación Vocacional Informatizado (SOVI), que incluye también al IAMI, así como un banco de
información académica sobre carreras

El CIP-R comprende 15 escalas y 114 ítems que describen actividades académicas o laborales y ante las
cuales el examinado debe responder empleado una escala de tres alternativas de respuesta (Agrado,
Indiferencia o Desagrado). El mismo posee buenas propiedades psicométricas de confiabilidad y validez de
criterio. Un aspecto criticable es que construcción ha sido empírica y no orientada por un modelo teórico
explícito de los intereses vocacionales, y por consiguiente, es dificultoso relacionar sus escalas con los
constructos del RIASEC por ejemplo

Nuevas tendencias en evaluación psicológica: test informatizados


En los últimos 30 años se ha observado un crecimiento exponencial en el uso de la tecnología, dando
disponibilidad de aplicaciones informatizadas en diversas áreas de la psicología. La rápida evolución de la
tecnología computacional ha jugado un rol crítico en el desarrollo de instrumentos de evaluación psicológica.
Podemos evidenciar al respecto la expansión de los test informatizados, los cuales brindan una gama de
innovaciones en el modo de presentar los ítems, estimar los puntajes de la prueba y realizar informes de los
resultados obtenidos

Estos test informatizados deben cumplir 2 requisitos para ser tratados como tales: 1) sus ítems son
presentados y respondidos mediante el uso de la computadora que también se emplea para estimar el rasgo o
rendimiento del examinado; y 2) se han evaluado las propiedades psicométricas del instrumento, de hecho,
informatizar test aporta numerosas ventajas frente a la clásica versión lápiz y papel, pero no garantiza la
bondad psicométrica del instrumento.

En general, pueden hablarse de 4 niveles o generaciones de tests informatizados.

La primera incluye los tests convencionales informatizados pero utilizando teclado y monitor. Este modo
presentó una serie de ventajas, destacándose la presentación controlada y precisa de los ítems y la corrección
automatizada de las respuestas

Un segundo nivel de informatización consiste en la elaboración de informes diagnósticos por computadora,


de esta manera se programa a la computadora para que en función de ciertos puntajes o perfiles emita un
informe correspondiente, liberando al psicólogo de tareas tediosas y proporcionando un complemento
instrumental para el diagnóstico psicológico y educativo.

2018
Los restantes dos niveles se desarrollaron gracias a los aportes de la TRI (Teoría de Respuesta al Ítem), que
permitió la creación de los tests adaptativos informatizados y la construcción automatizada de tests. La
idea fundamental de ambos avances es la de generar pruebas adaptadas al nivel de cada participante. De esta
forma, luego de generarse un banco de ítems y evaluar sus propiedades psicométricas, la computadora
selecciona aquellos que muestren mayor ajuste al nivel de competencia de la persona evaluada, logrando un
aumento en la precisión de las medidas y un ahorro en el tiempo de aplicación

Desde sus inicios, las cuatro generaciones de tests informatizados han sido utilizadas con diversos y
variados propósitos, debido principalmente a la mayor eficiencia que presentan frente a las versiones lápiz y
papel. Cabe destacar el mayor control y precisión para la administración de ítems, mayor eficiencia para la
corrección y almacenamiento de las respuestas y finalmente una elaboración rápida y eficaz de informes
psicológicos. Asimismo, estos tests ofrecen menores posibilidades de error en la carga de datos, los recursos
multimedia hacen más vistosos e interesantes los ítems para los examinados y permite al profesional ahorrar
tiempo evitando actividades rutinarias de carga y análisis de datos. Es decir estos tests nos resulta provechoso
también cuando en el ámbito de la psicología educacional, donde se deben evaluar una gran cantidad de
participantes y con cierta frecuencia

Los tests informatizados permiten otra importante ventaja: la administración a través de internet.
Dentro de las ventajas, la posibilidad de poder administrarlo desde un lugar remoto, incluir dentro de la muestra
a personas que no puedan aproximarse al lugar de evaluación, la velocidad en la recolección de datos con
muestras de gran tamaño, la reducción del tiempo en la corrección de la prueba, etc.

Los tests informatizados se convirtieron en el método de medición psicológica más recomendado en


situaciones estructuradas, ya que garantizan una mayor precisión en la corrección de las pruebas y
proporcionan un feedback inmediato a los examinados mediante el uso de representaciones gráficas o reportes
impresos. En la actualidad se observa un uso importante en la evaluación en el ámbito laboral, clínico y
neuropsicológico. Sin embargo, el uso de sistemas informatizados ha sido especialmente influyente en el
ámbito educativo

A pesar del enorme potencial que brindan los tests informatizados, debe considerarse que aparecen nuevos
problemas y situaciones que pueden alterar la confiabilidad y validez de las mediciones con respecto a los tests
convencionales. De hecho algunos factores como la familiaridad con las computadoras, la resolución y tamaño
del monitor, las características de la fuente de letra utilizada, la manipulación del teclado, la presentación de los
ítems y la posibilidad de revisar las respuestas, pueden afectar el desempeño y las respuestas brindadas por
los examinados. Por otra parte, la evaluación informatizada on-line puede generar dificultades adicionales
sobre todo en personas que experimentan ansiedad ante la tecnología, o bien que desconocen el uso de
internet. Por otra parte, la distancia que genera entre los examinados y el evaluador dificulta que éste pueda
2018
prestar ayuda si aparece alguna dificultad o error durante el proceso de evaluación.

Asimismo, la Comisión Internacional de Test (ITC) destaca la necesidad de contemplar el aumento de riesgos
que surgen con la administración por internet, ya que se dificulta controlar la autenticidad de los examinados y
garantizar el correcto resguardo de los ítems y datos del test (seguridad informática)

Frente a ello, la literatura especializada enfatiza que los investigadores no pueden asumir la
equivalencia de la versión informatizada online y la versión tradicional de lápiz y papel. Los cambios en el
formato de evaluación pueden afectar las propiedades psicométricas de los instrumentos y sesgar los
resultados. Por ello, antes de utilizar un sistema es necesario llevar a cabo una serie de directivas y normativas
técnicas, lamentablemente en muchos casos se observa un uso inadecuado de los tests informatizados. De
hecho, hay ciertas herramientas informáticas que nos permiten facilitar el proceso de informatizar pruebas de
lápiz y papel, llevando en muchos casos a un proceso de evaluación informatizada que NO garantiza la validez
y confiabilidad de las puntuaciones obtenidas por un test. Entonces puede afirmarse que junto al crecimiento de
las versiones informatizadas, también se observó un aumento en el mal uso de las mismas!

A continuación, se exponen una serie de directrices y recomendaciones a tener en cuenta para el


desarrollo y la utilización de test informatizados. Para ello se realizará una síntesis de las directrices definidas
por la AERA (American Educational Reserch), la APA (American Psychological Associatton) y la National
Council on Measurement in Education (NCME). Por otra parte, y a los fines de lograr una mayor claridad, se
tomará como ejemplo el Sistema Informatizado de la Satisfacción Académica (SESA), un desarrollo en
nuestro contexto con el objetivo de identificar estudiantes con riesgo de experimentar bajos niveles de
satisfacción durante su primer año en la universidad

Directrices para el desarrollo y utilización de Test Informatizados:


Recomendaciones de la ITC (Comisión Internacional de Test)
La Comisión Internacional de Test (International Test Commission) sugiere considerar cuatro aspectos
centrales relacionados con el uso de test informatizados: tecnología, calidad, control y seguridad.
Básicamente la ITC señala que desarrollar un test informatizado hay que tener en cuenta: 1) los aspectos
técnicos mínimos requeridos para que los examinados puedan responder al sistema, 2) garantizar que el
sistema funcionen adecuadamente y libre de errores de programación a lo largo de todo el proceso de
evaluación, 3) controlar la autenticidad de los examinados y su práctica previa, 4) resguardar tanto los
materiales del test como los datos evaluados

2018
TECNOLOGÍA: "Prestar la debida atención a los requerimientos tecnológicos de la
prueba"

 Básicamente refiere a que el test informatizado exija requerimientos mínimos a nivel de sistema,
permitiendo maximizar su accesibilidad y consistencia en la apariencia de la prueba. De esta forma, se
busca evitar el uso de gráficos complejos o utilizarlos sólo cuando su inclusión atente con la validez del
instrumento. También hay que prestar atención a la velocidad de internet, etc.

 La preocupación inicial de la ITC se centró en los requerimientos técnicos mínimos para poder
responder al test. El problema actual gira en torno a garantizar que el test mantenga su apariencia y
funcionalidad accediendo desde una computadora, tablet o celular, como ya dijimos hay factores como
que pueden afectar a la confiabilidad y validez como la manipulación del teclado, fuente de la letra,
tamaño, resolución, etc.

 Garantizar que el sistema sea lo suficientemente robusto o capaz de hacer frente a posibles fallos y
errores por parte del usuario

CALIDAD: "Garantizar adecuado funcionamiento y uso del sistema de evaluación"


 Según la ITC hay que disminuir las posibilidades de fallos del sistema durante la evaluación y procurar una
asistencia adecuada en caso de que el examinado lo requiera. El SESA-U, por ejemplo, fue equipado con
una guía para facilitar el adecuado uso del sistema y para dar otro ejemplo a posibles fallos, en caso de
que haya falla en la conexión a internet, existe de igual modo la posibilidad de que los examinados
contesten las preguntas.

 También, por ejemplo, el SESA-U propone un modo de "entrenamiento" para disminuir los niveles de
ansiedad y aumentar la confianza de los examinados en el uso del test, y por lo tanto, disminuir posibles
sesgos que atenten contra la validez y confiabilidad de los resultados

CONTROL: "Proveer adecuados niveles de control"


Existen diferentes niveles de control:

1) modo abierto, es decir, sin supervisión humana directa

2) modo controlado, la prueba solo se facilita a usuarios conocidos

3) modo supervisado, los usuarios deben poseer una contraseña para ingresar al sistema

4) modo gestionado, es el nivel de supervisión más alto, e involucra la supervisión y control humano directo

2018
SEGURIDAD: "Tomar medidas apropiadas para salvaguardar la seguridad del material
y privacidad de las respuestas"
 La idea central, entre otras, es impedir el acceso ilegítimo al sistema y controlar la posibilidad de que los
cuestionarios y respuestas de los participantes sean descargadas o copiadas por personas ajenas al
proceso de evaluación

Un uso responsable y ético de los test informatizados necesariamente implica el cumplimiento de las
directrices de tecnología, calidad, control y seguridad.

Asimismo, deben garantizarse el cumplimiento de las normas psicométricas de confiabilidad y validez,

Normas Psicométricas: Evidencias de VALIDEZ


Introducción
Hemos definido a los tests como un "procedimiento por cual una muestra de comportamiento de un dominio, es
obtenida y calificada, empleando un proceso estandarizado. Tal como señalamos el razonamiento implícito es
que, si la muestra de comportamientos seleccionados (ítems) son representativos del dominio que se
pretende medir, entonces el puntaje obtenido por un sujeto en el test, puede generalizarse a todo el dominio

Es difícil elegir los indicadores operacionales adecuados para determinado dominio o constructo, por
ejemplo, puede ocurrir que al construir un test el investigador seleccione conductas que no son propias del
dominio delimitado. Supongamos que se intenta desarrollar una prueba para evaluar el nivel de extraversión,
es decir, en qué medida una persona es sociable, le gusta asistir a fiestas, hacer bromas, conversar con otras
personas, entre otras características. Puede ocurrir que el investigador cometa el error de elegir
comportamientos que no son representativos del constructo como por ejemplo: "me gusta escuchar música y
bailar" o "cuando salgo me gusta tomar alcohol". Si bien estos comportamientos pueden estar asociados con la
extraversión, no son representativos del dominio de intereses. En consecuencia, el puntaje que se obtiene del
test no representa adecuadamente el constructo que se está midiendo, y por ende, cometeríamos un error al
generalizar los puntajes de la prueba a todo el dominio

Cuando los ítems que componen una prueba no representan adecuadamente el dominio que se intenta
medir, decimos que las puntuaciones obtenidas NO son válidas. El concepto de validez es el más importante
en la teoría de los tests, y en términos generales, hace referencia a que "el test mida lo que pretende medir"

2018
Delimitación del concepto de Validez
La definición habitual del concepto de validez es "el grado en que una prueba mide lo que pretende medir". De
esta manera puede afirmarse que "las puntuaciones de un test evidencian propiedades de validez cuando el
test evalúa una muestra representativa de comportamientos del constructo que se pretende medir,
justificando así las inferencias realizadas sobre el dominio en función de los resultados obtenidos"

Dijimos que un error puede ocurrir cuando el investigador seleccione comportamientos que no sea
representativos del dominio, esta inclusión de ítems que no reflejan el constructo genera que no se puedan
generalizar los resultados (como habíamos dicho) y seleccionar estos ítems que no provienen del constructo,
se denomina "inclusión de varianza irrelevante del constructo, ya que la variabilidad del puntaje total de la
prueba se ve influenciada por respuestas sobre procesos ajenos al verdadero propósito de la medición de un
test determinado. otro error habitual es el de seleccionar comportamientos que NO cubran la TOTALIDAD del
constructo, generando una sub-representación del constructo

Como señala la APA (1999) la sub-representación del constructo alude a que la prueba no capta aspectos de
importancia del dominio que se pretende medir. Por ejemplo, puede ocurrir que en una prueba de extraversión
sólo incluyamos comportamientos referidos a las "habilidades conversacionales", sin incluir otros
comportamientos típicos de la extraversión como tener muchos amigos, ser asertivos, buscar emociones
positivas, evitar estar solos o ser despreocupados. Este tipo de error afecta la validez de las puntuaciones.

2 aspectos importantes a tener en cuenta:

1) Es impreciso referirse a la validez de una prueba, ya que la validez es una propiedad de las
puntuaciones, siguiendo con esta línea, por ejemplo, está mal plantearse si las puntuaciones del IAMI
son o no válidas, porque dependen del propósito con que se utilicen, entonces es necesario formularse
cuestionamientos como: ¿Es válido utilizar las puntuaciones del IAMI para examinar el perfil de
autoeficacia para inteligencias múltiples?¿Las puntuaciones del IAMI permiten pronosticar la elección
de carreras de estudiantes del último año del secundario?

2) Es importante destacar que la validez es una cuestión de grado. No se valida un test en sí mismo, sino
que se brindan diferentes tipos de evidencias para verificar que las puntuaciones del test reflejan
adecuadamente el constructo que se intenta medir. Cuantas más evidencias se posean, mayores
garantías tendremos respecto a la validez de las puntuaciones

La APA define la validez como la adecuación, significación y utilidad de las inferencias específicas hechas a
partir de las puntuaciones de los tests.
2018
De esta manera, la validez sería un concepto unitario y refiere al grado en que la evidencia empírica apoya
estas inferencias.

La APA propone 5 tipos de evidencias de validez:

1. Evidencias basadas en el contenido del test

2. Evidencias basadas en la estructura interna del test

3. Evidencias basadas en el proceso de respuestas

4. Evidencias basadas en las relaciones que las puntuaciones del test presentan con variables externas

5. Evidencias relacionadas con las consecuencias de su aplicación

Evidencia basada en el Contenido del test


 Este tipo de evidencia se obtiene demostrando que el contenido del test (los ítems) son una muestra
representativa del constructo o dominio que se pretende medir

 El procedimiento más utilizado para recabar este tipo de evidencia se centra en el juicio de expertos.
Básicamente consiste en identificar expertos en el dominio que pretendemos medir y solicitar que cada uno
de ellos evalúe de forma independiente el grado en que el contenido del test es relevante y representativo
del dominio. Posteriormente, mediante un procedimiento estadístico se analiza el acuerdo de los jueces y
se determina cuáles son los ítems que representan adecuadamente el constructo de interés y cuáles no

 Los expertos por ejemplo, pueden evaluar la calidad de los reactivos utilizando una escala numérica
comprendida entre 1-Baja calidad hasta 5-Alta calidad. Finalmente, se les solicitó que analizaran aspectos
formales vinculados a la redacción de los mismos (sintácticos por ejemplo).

 Un coeficiente adecuado se denomina V de Aiken, oscila de 0 a 1, debiendo alcanzar al menos un valor de


V=.70 para ser considerado aceptable. Los ítems con puntajes inferiores fueron eliminados o reformulados,
con el fin de garantizar que el contenido de los ítems represente adecuadamente el constructo que se
pretende medir

2018
Evidencia basada en la Estructura Interna del test
 Para muchos especialistas, esta es la evidencia más importante que se debe aportar para garantizar la
validez de las puntuaciones de una prueba. Este análisis consiste en determinar si los ítems se agrupa
en las dimensiones teóricas propuestas. El procedimiento más utilizado para obtener evidencia de este
tipo es el denominado Análisis Factorial, una técnica estadística multivariada que permite analizar las
inter-relaciones entre un grupo de variables observables (ítems) e identificar factores comunes
subyacentes.

 La lógica del AF proviene de un concepto desarrollado por Galton, según este autor, el hecho de que
dos variables se encuentran relacionadas entre sí, se debe a que poseen algo en común y algo que las
diferencia. Este factor común fue denominado como "rasgo latente". De esta forma, si un conjunto de
variables se encuentran relacionadas entre sí, significa que poseen un factor o rasgo latente en común
que explica en parte la varianza de las variables

 El AF permite agrupar las variables o ítems que se correlacionan fuertemente entre sí, y cuyas
correlaciones con las variables de otros agrupamientos es menor.

 En otras palabras, la evidencia de la estructura interna (también denominada validez de constructo)


consiste en verificar estadísticamente que los ítems se agrupan tal como teóricamente se había
predicho. Por ejemplo, supongamos que estamos desarrollando un instrumento para medir Inteligencias
Múltiples. El modelo teórico respectivo señala que existen 8 tipos de inteligencia, es decir que si
llevamos a cabo el análisis factorial de los ítems, estos deberían agruparse en 8 factores

 Tomemos otro ejemplo a partir de un estudio realizado para adaptar la Escala de Afecto Positivo y
Negativo (PANAS). Tradicionalmente se han considerado a las emociones positivas y negativas como
dos polos de una misma variable, cabe aclarar que hacemos referencia a su valor hedónico, es decir
agradables o desagradables, que no debe confundirse con buenas o malas. De esta forma podríamos
pensar el Factor "Afecto Positivo", por emociones tales como alegría, entusiasmo o interés, y por otro
lado el factor "Afecto Negativo" compuesto por emociones tales como la tristeza, el miedo o la ira. Sin
embargo en la actualidad se sugiere que se tratase cada dimensión como una dimensión única, es decir
que el afecto positivo y el negativo serían dos factores independientes entre sí, por lo cual disminuir los
niveles de emociones negativas no implica necesariamente que aumenten las emociones positivas. Se
trataría entonces de un modelo bi-dimensional, y no sólo de los dos polos de una misma dimensión
que se llamaría modelo unidimensional. Por lo tanto al llevar a cabo un Análisis Factorial los ítems
deberían agruparse en 2 factores y no en 1 sólo

2018
Evidencia basada en el proceso de respuesta
Este tipo de evidencia es poco usada en relación a las anteriores. Básicamente consiste en analizar la
congruencia entre el constructo medido y la naturaleza del rendimiento o respuesta emitida por los
examinados (APA, 1999). El proceso para la obtención de este tipo de evidencia implica el uso de
entrevistas en profundidad con los entrevistados o cualquier procedimiento que permita el análisis de
las respuestas individuales a los ítem del test. El objetivo es examinar las estrategias de respuesta de
las personas y analizar su congruencia con el constructo que se pretende medir. Este proceso permitiría
esclarecer si factores irrelevantes están influyendo en las respuestas de los participantes y, por ende,
afectando la validez de las puntuaciones para reflejar el constructo en estudio

Evidencias basadas en las relaciones que las puntuaciones del test presentan
con variables externas:
Dentro de este tipo de evidencia encontramos tres procedimientos:

a) evidencias de la relación test-criterio

b) evidencias convergente-discriminante

c) grupos contrastados.

La evidencia basada en las relaciones "test-criterio" consiste en correlacionar las puntuaciones de la


prueba con un criterio externo, es decir, una medida directa e independiente que el test intenta predecir.
Por ejemplo, una medida CRITERIO para una prueba que evalúa aptitudes o inteligencia podría ser el
rendimiento académico obtenido por el alumno al final del cursado, o para una prueba que evalúa
depresión, el CRITERIO, puede ser el diagnóstico que efectúa un terapeuta mediante una entrevista
estructurada. De la misma forma, una medida criterio para una prueba que evalúa motivación laboral,
puede ser el rendimiento que reporta el supervisor del examinado. Es decir, que las medidas "criterio"
hacen referencia a una variable que puede medirse de manera independiente al test, y que
teóricamente se encuentra relacionada con el constructo de interés. De esta forma, si se corrobora que
el test se relaciona con un criterio (con el que teóricamente tiene q estar desarrollado), entonces
estamos obteniendo evidencias de que el test mide en cuestión, lo que dice que mide.

Dentro de este tipo de evidencias se pueden diferenciar dos procedimientos: uno de tipo
predictivo y otro concurrente. La diferencia entre ambos procedimientos radica sobre todo en el tiempo
2018
que trascurre entre la administración del test y la medición de criterio. Cuando se utiliza un abordaje
predictivo (también denominado validez predictiva) se espera que la prueba pronostique el valor que
tendrá la medida criterio en el futuro. Por lo tanto, debe transcurrir un tiempo entre ambas mediciones.

Por el contrario, cuando se realiza un estudio de tipo concurrente (también denominado validez
concurrente) se analiza la concordancia entre las puntuaciones obtenidas en la prueba y la condición
actual del examinado en otra variable o criterio. Es decir que la medición se realiza de forma
simultánea. Tal como señala Hogan (2004) la diferencia radica entonces en el tiempo en que se mide la
variable criterio

Un ejemplo de validez predictiva se puede observar en una investigación entre diferentes


profesionales entre los cuales se encuentra el genio de Medrano, en donde se recaban evidencias de
validez para un Cuestionario de Regulación Emocional. Este constructo refiere a toda estrategia
(voluntaria o involuntaria) que contribuye a mantener, aumentar o disminuir un estado afectivo en curso.
Así, la rumiación (pensar excesivamente sobre un evento displacentero) o la catastrofización (tener
pensamientos que agranden las consecuencias negativas de un evento) son estrategias automáticas
que pueden aumentar los niveles de ansiedad de una persona. De manera contraria, estrategias como
la reinterpretación positiva (pensamientos que otorgan un significado positivo a un evento displacentero)
o poner en perspectiva (relativizar la gravedad de un evento comparándolo con otros), pueden generar
una disminución del estado emocional desagradable. Para recabar evidencias de validez predictiva se
administró el test y varias semanas después se evaluó el nivel de ansiedad que los alumnos
presentaban ante un examen. Si la prueba efectivamente mide lo que dice que mide, entonces debería
poder pronosticarse los niveles de ansiedad a partir de las puntuaciones de la prueba. Los resultados
obtenidos al utilizar el r de Pearson, corroboran que existía una relación significativa entre los niveles de
rumiación (r=.22) y catastrofización (r=.45) con los niveles de ansiedad que experimentaban los
alumnos durante el examen. Como esto es congruente con lo esperado a nivel teórico, presenta validez

Un ejemplo de validez concurrente, se observa en un estudio realizado por Moreti, Medrano y


Basler (2015) que tuvo por objetivo aportar evidencias de validez para una escala de locus de control
del dolor. Este constructo hace referencia a la creencia que posee una persona acerca de la relación
entre su conducta y los niveles de intensidad del dolor. Se trata de una variable de importancia en
personas con dolor crónico ya que quienes poseen mayor locus de control interno (creencia de que el
nivel de dolor se asocia a mi propio comportamiento) suelen mostrar mayor proactividad en acciones
beneficiosas para la salud que incluyen conductas de autocuidado, mantenimiento de habilidades de la
vida cotidiana y, en consecuencia, menor intensidad del dolor. Por el contrario, mayor locus de control
externo (creencia de que el nivel de dolor no se asocia a mi comportamiento) se relaciona con un peor

2018
afrontamiento y malestar psicológico, aumentando los niveles de intensidad del dolor.

Para recabar evidencias de validez concurrente, se administró el test de locus de control junto a un test
que evalúa intensidad percibida del dolor. Los resultados obtenidos mediante el coeficiente de
correlación de Pearson indican que las personas que tenían puntuaciones más elevadas de locus de
control externo, también presentaban mayores niveles de dolor (r=.15). En consecuencia, se obtienen
evidencias favorables sobre la validez de las puntuaciones

Es importante señalar que el comportamiento humano resultado demasiado complejo como para
esperar que a partir de los resultados de una única prueba se logre una predicción exacta de un criterio.
Por ello las correlaciones esperables para este tipo de estudio suelen ser moderadas, es decir que con
valores desde .30 en adelante ya se consideran aceptables!

Actualmente la mayoría de las investigaciones realizadas para verificar la utilidad predictiva de las
puntuaciones de un test utilizan un enfoque multivariado puesto que permite esclarecer las
interrelaciones que existen entre un conjunto de predictores y un criterio, y no solamente las relaciones
entre la única variable predictora y un criterio.

Un ejemplo es el ARM (ANÁLISIS DE REGRESIÓN MÚLTIPLE): es un método multivariado que


permite estimar cuánto se incrementa la precisión de las predicciones cuando un test se incluye en una
batería de tests, en comparaciones con las que no se incluye. Este tipo de evidencia de validez se
denomina incremental, pero debido a su complejidad no será trabajada en el presente capítulo.

Un segundo tipo de procedimiento habitualmente utilizado para recabar evidencias mediante


variables externas es la evidencia convergente-discriminante. Básicamente consiste en correlacionar
las puntuaciones del test que se pretende validar con las obtenidas en otros test que evalúan
constructos semejantes (validez convergente) o diferentes (validez discriminante)

Ejemplo: En un estudio realizado por Medrano y Trógolo, se correlacionaron las puntuaciones


obtenidas en el cuestionario de dificultades en la Regulación Emocional con una prueba que evalúa
Extraversión y otra que evalúa Neuroticismo

Si las puntuaciones del test realmente evalúan dificultades para regular emociones, entonces las
puntuaciones deberían tener una correlación positiva con los niveles de neuroticismo (tendencia a la
inestabilidad emocional y a presentar estados emocionales displacenteros) y una correlación negativa con los
niveles de extraversión (tendencia a la sociabilidad, despreocupación y búsqueda de emociones positivas)

2018
Un último tipo de procedimiento utilizado para recabar evidencias mediante variables externas es la
evidencia mediante grupos contrastados. En este caso el criterio consiste en la pertinencia a un determinado
grupo. Este tipo de evidencia tiene sentido cuando existen argumentos teóricos como para suponer que las
puntuaciones de una prueba deberían variar entre dos o más grupos. El procedimiento consiste en administrar
la prueba en ambos grupos y luego comparar sus puntuaciones mediante un procedimiento estadístico (t de
Student o Análisis de Varianza). En caso de corroborarse la existencia de una diferencia estadísticamente
significativa en las puntuaciones de dichos grupos (y con una magnitud atendible), se obtiene evidencias de
que la prueba mide lo que dice que mide (v a l i d e z jaja)

En un estudio se compararon las puntuaciones obtenidas en el STAI (prueba que evalúa la ansiedad
rasgo-estado) entre una muestra de población general y otra de población hospitalaria, esperando mayores
niveles de ansiedad en esta última. Los resultados obtenidos fueron coherentes con los aspectos a nivel
teórico, obteniendo evidencias favorables de validez

Evidencia de las consecuencias de la aplicación:


Según la APA (1999) no basta con afirmar que la prueba es válida, sino que también debe efectuarse
un análisis sobre las consecuencias de su uso y las interpretaciones que se realizarán a partir de la
prueba. Según Hogan, el interrogante principal sería: ¿Cuáles son las consecuencias, resultados o
repercusiones que puede tener el uso de este instrumento?

Por ejemplo, cuando se creó el SESA-U (Sistema de Evaluación de Satisfacción Académica)

los autores indicaron que: "el SESA-U constituye un sistema de evaluación válido y confiable para la
población de ingresantes universitarios. Sumado a ello, al ser un sistema informatizado permite una
evaluación más eficiente del colectivo de ingresantes, facilita una administración rápida y accesible
incluso en estudiantes que estudian a distancia, genera informes diagnósticos de forma automática y
permite trabajar con grandes colectivos de alumnos. Asimismo, el SESA- sirve como punto de partida
para diagramar intervenciones apropiadas a las demandas de cada ingresante en particular. Si los
autores desean proporcionar evidencias basadas en las consecuencias de la aplicación del instrumento,
deberían desarrollar nuevos estudios tendientes a demostrar que efectivamente el SESA-U constituye
una evaluación más eficiente o que proporciona información para brindar intervenciones a ingresantes
universitarios.

2018
Si se obtienen resultados que sustentan dichas afirmaciones (por ejemplo si se corrobora que logra una
intervención más eficaz sobre los alumnos al utilizar el test), entonces se obtienen evidencias favorables de
validez.

Actualmente hay una una polémica sobre la validez de las consecuencias de la aplicación, ya que muchos
autores sostienen que las consecuencias de las aplicaciones de una prueba no afecta directamente la validez
de sus puntuaciones, mientras que otros autores consideran que es una evolución del concepto de validez.

Por lo dicho anteriormente, se considera que NO es un concepto psicométrico legítimo como los anteriores

Normas Psicométricas: CONFIABILIDAD


Introducción
Hemos definido a los tests como un "procedimiento por medio del cual una muestra de comportamiento de un
dominio, es obtenida y calificada, empleado un proceso estandarizado. Haremos hincapié en el proceso de
ADMINISTRACIÓN, CALIFICACIÓN E INTERPRETACIÓN DE UNA PRUEBA, ya que pueden ocurrir errores
que lleven a que los puntajes del test sean inestables y sesgados afectando a la CONFIABILIDAD

 La confiabilidad hace referencia al grado en que las puntuaciones de la prueba se encuentran libres
de error

 Puede que nos encontremos frente a un test cuyos ítems reflejen adecuadamente el constructo (es
decir que tenga validez) pero si el examinador comete errores al administrar la prueba, o al interpretar
sus puntuaciones, entonces los puntajes del test dejan de reflejar con precisión al constructo

 Una de las fuentes más comunes de error se encuentran en la CALIFICACIÓN de la prueba. Esto
puede ocurrir cuando la calificación es subjetiva, es decir cuando hay diferentes criterios a la hora de
puntuar una misma prueba. También puede ocurrir que el evaluador cometa errores corrigiendo, tales
como calificar accidentalmente las respuestas de una prueba de opción múltiple al utilizar una grilla
incorrecta, o por distracciones momentáneas, etc.

 Otra fuente de error pueden ser las variaciones en la ADMINISTRACIÓN, como por ejemplo si distintos
evaluadores explican una misma consigna de manera diferente, o cometen errores al dar las
instrucciones de la prueba o administran la prueba en condiciones físicas inadecuadas como un lugar
con poca luz, mucho ruido, etc.)

 Otra fuente de error son las condiciones personales temporales del examinado. Supongamos que
aplicamos la misma prueba a una misma persona en diferentes ocasiones, lo más probable es que las
puntuaciones de una ocasión a otra varíen ya que las condiciones temporales de los examinados

2018
puedan ejercer una influencia no sistemática en sus puntuaciones. Puede ocurrir por ejemplo que un día
se encuentre más cansado, o que tenga hambre, o se encuentre más enojado, triste o nervioso. Es
decir, el rasgo que se pretende medir (por ejemplo la inteligencia) no ha cambiado, las condiciones de
administración y la prueba son las mismas, pero los puntajes cambian de una ocasión a otra debido a
que la condición temporal ha influido en las puntuaciones.

Todas estas leves variaciones van introduciendo errores que afectan la precisión de la medición. El
largo camino que conduce a los actuales coeficientes estadísticos de confiabilidad comienza en la
astronomía del siglo XVII. Los astrónomos observaban que sistemáticamente aparecían diferencias
entre las observaciones que realizaban mediante sus telescopios. En función de ello se comenzó a
hipotetizar que ciertas diferencias podían deberse a fallas en las herramientas o personas que las
manejaban. Es decir, comienza a considerarse el problema de la precisión de los instrumentos.

El primer ensayo sobre "fallas en la observación" es un artículo del matemático Thomas


Simpson publicado en el año 1757. Posteriormente, a principios del siglo XIX, el matemático Gauss
recolectó una serie de registros realizados por diferentes observatorios astronómicos europeos. Su
objetivo básico era el de cuantificar la precisión de los instrumentos. A partir de sus investigaciones,
Gauss observó que las fallas de medición se distribuían de una manera normal (Campana de Gauss)

Recién en el año 1904, el psicólogo Spearman propone un modelo para abordar esta
problemática. La teoría clásica de los tests (TCT) es un modelo lineal de medición formulado por
Spearman (1927) y posteriormente consolidado por Thurstone (1935) y Guilliksen (1950).

La hipótesis fundamental de la TCT es que la puntuación observada de una persona es una función
lineal de dos componentes: su puntaje verdadero y el error de medición implícito en la prueba

PO= PV + E

Donde, PO refiere al puntaje observado, PV al puntaje verdadero y E al error de medición. Esta función
lineal indica que cuanto mayor sea el valor de E, mayor diferencia existirá entre el puntaje observado y
el verdadero. también podemos derivar de la función que el error puede ser definido como la diferencia
entre la puntuación observada y la verdadera. Refiere a todos aquellos factores aleatorios que llevan a
que la puntuación observada no refleje el rasgo o constructo psicológico que pretende medir

E= PV - PO

Según la TCT, la puntuación verdadera sería la puntuación que se obtendría de la medición del rasgo o
constructo psicológico sin la influencia de error. Matemáticamente se plantea el supuesto de que si se
aplicara la prueba infinitas veces, se obtendrían diferentes puntajes observados debido a los factores de

2018
error o de inestabilidad. La distribución de estos infinitos puntajes observados tendrían forma de
distribución normal, ya que en algunos casos las fuentes de error afectarían negativamente y en otros
casos positivamente. Teóricamente, el puntaje verdadero sería el promedio que hipotéticamente se
obtendría mediante infinitas puntuaciones observadas. En la práctica solo se obtiene la puntuación
observada y a partir de ella debemos inferir la puntuación verdadera.

El mismo Spearman es quién propone el primer método para medir la confiabilidad de un test, el
cual consiste en calcular un coeficiente de correlación entre dos conjuntos de datos obtenidos por la
aplicación repetida de una misma prueba. Es decir, si aplicamos un mismo test en dos momentos
diferentes y luego correlacionamos sus puntuaciones, obtendremos un coeficiente de confiabilidad del
mismo. Esta técnica es conocida en la actualidad como el procedimiento "test-retest", A principios de
1930, se propuso una técnica aún más sencilla. La misma consistía en aplicar en un solo test y luego
dividir al mismo por la mitad para correlacionar ambas partes. Este procedimiento conocido como
"partición en mitades" sufrió fuertes críticas por parte de numerosos psicometristas, quienes
consideraban que la división en dos partes resultaba demasiado arbitraria. De esta manera, podrían
obtenerse diferentes coeficientes de confiabilidad, según el criterio utilizado para partir en mitades la
prueba.

Los psicometristas norteamericanos Kuder y Richarson propusieron a finales de la década del


30', una técnica que superaba las limitaciones de hasta ese momento. El denominado coeficiente KR 20
propuesto por estos autores calculaba la correlación entre todas las respuestas del test, siempre y
cuando estas fueran dicotómicas. Finalmente esta última limitación fue superada por el coeficiente alfa
(α) propuesta por Cronbach en el año 1951, el cual se utiliza cuando los ítems NO son dicotómicos!

En el año 1999, la APA definió la confiabilidad como el nivel de exactitud o precisión de una
medición, es decir, en qué medida las puntuaciones de un test están libres de errores de medición. En
otras palabras, refiere a la consistencia entre los puntajes de un test, obtenidos por los mismos
individuos en distintas ocasiones o entre diferentes conjuntos de ítems equivalentes

De manera semejante a como ocurre en la validez, la confiabilidad es una cuestión de grado, y


no existe un único procedimiento que permita estimar todos los errores de una prueba. Por este motivo
consideraremos diferentes dimensiones de la confiabilidad. Las dimensiones reconocidas por la APA
son las siguientes: estabilidad, consistencia interna y confiabilidad inter-examinadores

2018
ESTABILIDAD

Se pretende evaluar el grado en que el puntaje observado está libre de errores causados por cambios
en las condiciones personales temporales del examinado (estado de ánimo, nivel de motivación o
cansancio, etc.) y por variaciones en las condiciones de administración. Cuando las puntuaciones de
una prueba no se ven seriamente afectadas por estas fuentes entonces decimos que las
puntuaciones pueden considerarse estables. Los procedimientos sugeridos son dos:

1. Test-retest

2. Método de formas equivalentes/paralelas

El método Test-retest es el más utilizado para evaluar la estabilidad. Consiste en administrar el


mismo test en dos oportunidades a la misma muestra de sujetos, con intervalo de tiempo intermedio.
Posteriormente se calcula la correlación entre los puntajes obtenidos en la primera y segunda
administración. Cuando se obtienen valores elevados de correlación (r más de .80), significa que los
puntajes obtenidos en la prueba no se alteran sustancialmente por variaciones en las condiciones
personales o por las condiciones de administración.

A modo de ejemplo, para evaluar la estabilidad del IAMI se administró la prueba a una muestra
de 119 sujetos, y un mes después los mismos sujetos respondieron nuevamente el inventario. Los
puntajes obtenidos en ambas aplicaciones fueron correlacionadas con el r de Pearson y se indicaron
niveles óptimos de estabilidad para algunas de sus escalas (valores r superiores a .80) y aceptables
para otras (valores r superiores a .70)

El intervalo entre el test y el retest es un factor crítico a considerar. Si el lapso de tiempo es


muy largo, se corre el riesgo de que las diferencias entre las puntuaciones se deban a cambios reales
en el rasgo examinado, más que a deficiencias en la confiabilidad del test. Además, debe
contemplarse el constructo que se está evaluando, por ejemplo si el constructo que se mide es
"estado de ánimo" es esperable que se observen variaciones debido a que esa variable fluctúa
temporalmente. Por el contrario, si trabajamos con rasgos estables (como personalidad o inteligencia)
los intervalos pueden ser amplios, de meses o incluso años. Asimismo, debe considerarse siempre la
población involucrada, ya que si el estudio se realiza con niños pequeños, se recomienda que el
intervalo sea breve ya que durante esta etapa el desarrollo se observan cambios a gran velocidad en
la mayoría de las variables psicológicas

2018
Un problema que presenta el método test-retest ocurre cuando se utilizan pruebas de ejecución
máxima, ya que la práctica previa con la prueba o el recuerdo de los ítems, pueden afectar el rendimiento en el
retest. Una alternativa para controlar el efecto de la práctica y la memoria es el uso de formas paralelas o
equivalentes. Este método exige contar con dos formas o versiones de la misma prueba que sean muy
similares en cuanto a la cantidad de reactivos, límites de tiempo y especificaciones de contenido, entre otros
factores. El procedimiento es semejante al método test-retest, pero en vez de administrar la misma prueba en
dos ocasiones, se administran diferentes versiones de la misma prueba en dos oportunidades.

El estudio realizado por Navarro es una adecuada ilustración de formas equivalentes. Estos autores
propusieron desarrollar versiones equivalentes del Fototest, una prueba neuropsicológica muy breve que utiliza
imágenes para detectar deterioro cognitivo o demencia. Debido a que la aplicación repetida de la misma
prueba podía inducir mejorías en el rendimiento producto de la práctica previa, desarrollaron una versión
equivalente.

Como puede observarse, los ítems de cada versión son distintos pero equivalentes entre sí. Los autores
corroboraron la equivalencia de dichas versiones, y consecuentemente, la estabilidad de las puntuaciones del
test

Cabe destacar que el método de formas equivalentes es más completo que el método de test-retest ya
que permite evaluar la influencia de mayores fuentes de inestabilidad. No solo contempla las variaciones en las
condiciones personales temporales del examinado o las variaciones en las condiciones de administración, sino
que además considera variaciones en el contenido de la prueba. Es por ello que se lo considera un método
adecuado para evaluar las dimensiones de estabilidad y consistencia interna de una prueba. A pesar de sus
ventajas es un procedimiento poco utilizado por la sencilla razón de que son pocas las pruebas que cuentan
con versiones paralelas

2018
CONSISTENCIA INTERNA
Esta dimensión de la confiabilidad consiste en determinar si las diferentes partes del test evalúan el mismo
constructo, vale decir, si son homogéneas. Tal como señala Hogan, la homogeneidad refiere al grado en que
los reactivos o ítems de una prueba son iguales en términos de lo que miden. La fuente de inestabilidad que se
intenta examinar en esta dimensión es la referida a las variaciones en el contenido de los ítems o errores en el
muestreo de ítems, y resulta especialmente relevante cuando utilizamos el puntaje total de la prueba (es decir,
la sumatoria o promedio de los ítems). Supongamos que una prueba incluye ítems que evalúan
razonablemente bien el rasgo medido, pero también incluye ítems que por variaciones en su contenido o por un
error en el muestreo examinan otro constructo. En consecuencia, al calcular el puntaje total del test
obtendremos una medida compuesta por ítems que examinan adecuadamente el rasgo e ítems que examinan
otra cosa, generando que la puntuación de la prueba pierda precisión.

Como señala Kline, es importante que una medida sea auto-consistente por la sencilla razón de que, si
las diferentes partes que componen una prueba no se relacionan entre sí, entonces es probable que estén
midiendo cosas distintas. El énfasis que se otorga a la consistencia interna implica que de no ser consistente la
prueba, sus puntuaciones reflejarán diferentes constructos y por ende no serán válidas. No obstante como
veremos más adelante, existen muchas críticas y posiciones que disienten sobre la relevancia de esta
dimensión.

Los procedimientos más utilizados para evaluar la consistencia interna son: método de formas
equivalentes, método de partición en mitades, y los métodos basados en la covariación de ítems

El método de partición en mitades fue muy popular, pero en la actualidad se encuentra prácticamente
en desuso. El mismo analiza la consistencia interna dividiendo la prueba en dos mitades comparables, y
correlacionando las puntuaciones obtenidas en ambas mitades. En caso de obtenerse correlaciones elevadas,
se corrobora que las diferentes partes de la prueba examinan el mismo constructo. Sin embargo, esta
metodología adolece dos grandes limitaciones. En primer lugar, los criterios para obtener las dos mitades son
arbitrarias, y en algunos casos la división de la prueba puede generar mitades no comparables (por ejemplo, si
se trata de una prueba de dificultad creciente). Pero la segunda limitación es aún más preocupante, ya que
como pueden establecerse diferentes criterios para dividir la prueba (ítems pares vs impares, la primera mitad
de ítems y la otra mitad, división aleatoria, etc.) podrían existir tantos coeficientes de confiabilidad como
posibilidades de división tenga la prueba. esto llevaría a que una misma prueba pueda presentar múltiples
índices de consistencia interna.

Los métodos basados en la covariación de ítems son los más utilizados en la actualidad para estimar
la consistencia interna de una escala .

2018
El coeficiente Alfa de Cronbach (para ítems politómicos) y las fórmulas Kuder-Richardson (para ítems
dicotómicos) son los procedimientos estadísticos preferidos para examinar esta dimensión. A diferencia del
partición de mitades que solo correlacionamos dos partes de la prueba, analizan la intercorrelación promedio
entre todos los reactivos. Dicho de otra manera, producen una estimación del promedio de todos los posibles
coeficientes obtenidos por partición en mitades
En la actualidad el coeficiente alfa de Cronbach es el estadístico más citado para obtener una
estimación de la consistencia interna de los tests psicológicos. Este coeficiente permite evaluar que tan
similares son el conjunto de ítems de una prueba determinada. Su rango de oscilación es desde 0 (no hay
similitud entre los reactivos) hasta 1 (los reactivos son idénticos). En general se aceptan valores de .80 o
superiores son consideradas moderadas y elevadas entre moderadas y elevadas, mientras que puntajes
cercanos a .70 resultan aceptables. Los mismos criterios se utilizan para interpretar el KR-20

ACUERDO ENTRE EXAMINADORES


En esta dimensión se analiza si el puntaje observado se ve afectado por errores asociados a la subjetividad del
evaluador. En efecto, la calificación e interpretación de las respuestas en un test deben partir de normas claras
y precisas para disminuir el componente subjetivo presente en toda evaluación. Si las puntuaciones obtenidas
en una prueba dependen de la persona que la administra, es decir, que el examinador A obtiene una
puntuación muy diferente al examinador B, utilizando la misma prueba en la misma persona, entonces la
puntuaciones del test no resultan confiables. Por contrario, los individuos deben obtener puntuaciones idénticas
independientemente de quién sea su examinador. El método adecuado para medir esta dimensión se
denomina: acuerdo entre jueces

El método consiste en realizar una prueba a la que se somete un grupo de examinados y se califica de
forma independiente por diferentes evaluadores. Posteriormente se utiliza un coeficiente estadístico para
correlacionar las calificaciones de los evaluadores (coeficiente kappa si es nominal o el coeficiente de
correlación inter-clase si es ordinal o intervalar). Los valores de dichos coeficientes se interpretan de la misma
manera que los vistos previamente en este capítulo, es decir, valores cercanos o superiores a .80 son óptimos
y alrededor de .70 son aceptables.

Normalmente esta prueba no se aplica en pruebas de auto-reporte o pruebas con formato de opción múltiple.
Sólo adquiere importancia cuando interviene el criterio del examinador en el proceso de calificación de la
prueba. Por ejemplo, la Escala de Terapia Cognitiva (CTS) constituye una prueba que evalúa competencias
generales y específicas en terapeutas. Mediante esta prueba se examina la habilidad del terapeuta para
conceptualizar los problemas del paciente desde un marco teórico específico y aplicar técnicas o metodologías
2018
terapéuticas congruentes con los objetivos del tratamiento y las características del paciente. Para calificar la
prueba el examinador debe observar una sesión terapéutica y luego puntuar los comportamientos que se
describen en cada ítem (por ejemplo, "el terapeuta trabajó con el paciente para establecer un plan apropiado
con objetivos específicos adecuados al tiempo disponible" o "el terapeuta desplegó niveles óptimos de calidez,
preocupación, confianza y autenticidad"). Mientras observa dichas conductas utiliza una escala que va desde 0
(pobre desempeño) a 6 (excelente desempeño) para calificar el desempeño observado.

En un estudio realizado por Medrano y Moretti, se filmaron sesiones de diferentes terapeutas y luego se solicitó
a 10 evaluadores que calificaran a los terapeutas evaluando de forma independiente los mismos videos.
Posteriormente se efectuó una correlación inter-clase obteniéndose resultados de .81 para la escala de
competencias generales y de .83 para las competencias específicas. Sin embargo, algunos ítems presentaron
menores niveles de acuerdo, por lo cual fueron reformulados.

Interpretación de las Puntuaciones


Introducción
Supóngase que queremos medir un proceso cognitivo llamado autoinculpación, que refiere a pensamientos que
atribuyen la causa de un evento negativo y la consecuente emoción displacentera a la propia persona.

Por medio de las siguientes preguntas trataremos de conocer en qué piensas cuando experimentas sucesos
negativos o desagradables. Examina cuidadosamente cara oración e indica utilizando la siguiente escala la
frecuencia con que realizas dichas acciones:

Escala de Respuesta

1-"Nunca o Casi Nunca" hasta 5-"Siempre o Casi Siempre"

1. Pienso en los errores que he cometido

2. Siento que soy el responsable de lo que ha pasado

3. Siento que soy el culpable de lo que pasó

4. Pienso que fundamentalmente la causa recae en mí mismo

Una vez completado el cuestionario, calcule el puntaje total sumando los ítems. Debería obtener un valor
comprendido entre 4 y 20

2018
¿Cuál es su nivel de autoinculpación? Supongamos que obtuvo un puntaje de 10 o 15 puntos. ¿El nivel de
autoinculpación es alto o bajo?¿Cómo debemos interpretar esos puntajes?

La suma de las respuestas a los ítems constituye un ejemplo de puntuación original o natural. Este es el
resultado más inmediato de calificación de una prueba. Se pueden obtener de diferentes formas, puede ser el
total de preguntas correctas, el promedio de puntuaciones de los ítems, o la sumatoria de los ítems
individuales. El problema es que la puntuación no puede interpretarse de forma directa y por ende no se le
puede otorgar un significado

Las puntuaciones naturales no pueden interpretarse directamente ya que las mediciones en psicología
poseen dos limitaciones 1) No poseen unidades constantes de medición (cada test emplea unidades de
medida diferentes), y 2) carecen de 0 absoluto (el cero no puede indicar ausencia del rasgo)

Por eso, para interpretar un puntaje nos centraremos en los dos métodos de interpretación más
utilizados: Interpretación referida a Normas e Interpretación referida a Criterios

Interpretación referida a Normas


Es la estrategia más común para interpretar las puntuaciones naturales de un test y poder otorgarles un
significado. Básicamente consiste en comparar el puntaje obtenido por el individuo con los de su grupo de
referencia. Volviendo al ejemplo anterior, supongamos que obtuvimos 10 puntos. Este valor se interpretará de
forma distinta si el promedio del grupo de referencia es 5 (lo cual indicaría que nuestros niveles de
autoinculpación son superiores al promedio), o si el promedio del grupo de referencia sería 30 (implicaría que
tengamos niveles inferiores al promedio)

Para poder realizar esta interpretación comparativa debemos conocer los valores del grupo
comparativo. Para ello se tiene que haber administrado la prueba a una muestra de gran tamaño para que sea
representativa de la población. Por ejemplo, Medrano y otros administraron esos ítems de autoinculpación a
una muestra de 359 estudiantes universitarios. El promedio obtenido fue de 12,42 (con una desviación
estándar de 3,53). Esto significa que si obtuvimos un puntaje de 10, nuestros niveles de autoinculpación son
inferiores al promedio de estudiantes universitarios.

Ahora debemos transformar los puntajes originales en puntuaciones derivadas que nos permitan indicar
la posición relativa de los puntajes directos en relación al grupo de referencia. Existen dos métodos de
transformación: a) las puntuaciones estándar (z) y, b) los rangos percentilares y percentiles

2018
Puntuación Estándar:

Conociendo la media y la desviación estándar de un conjunto de datos, podemos transformar la puntuación


natural de un individuo en puntaje z. Para ello sólo debemos aplicar la siguiente fórmula:

En el caso del ejemplo previo, Si un individuo obtuvo 10 puntos, su cálculo sería [(10-12,42) / 3,53] que resulta
z=-0,68. Que se interpreta que "el sujeto se desvía 0,68 desviaciones estándar por DEBAJO de la media"

De la misma forma podemos transformar el puntaje z cualquier otra puntuación individual. Supongamos
que otro sujeto obtuvo un puntaje bruto de 15, su cálculo sería [(15-12,42) / 3,53] y su Z= 0,73, lo que se lee
como "el sujeto se desvía 0,73 desviaciones estándar por ENCIMA de la media"

Las puntuaciones z oscilan -3,00 y +3,00. Esta transformación consiste en utilizar la desviación estándar
como unidad de medida y la media como origen. Esto permite contar ahora con una unidad constante de
medición (la desviación estándar) manteniendo las relaciones numéricas exactas de las puntuaciones
originales.

Las puntuaciones z desempeñan una función crucial en psicometría ya que permiten transformar
cualquier variable a una métrica en común

Algunas de las puntuaciones estándar más populares son las puntuaciones T (con media 50 y desviación
estándar de 10). Estas puntuaciones son habitualmente utilizadas en pruebas de personalidad

Otra transformación muy utilizada son los CI de desviación, los cuales pueden ser considerados como los
actuales coeficientes de inteligencia. Los CI poseen una media de 100 y una desviación estándar de 15

La mayor parte de las transformaciones estándar son transformaciones lineales, es decir, que
mantienen las relaciones numéricas exactas de las puntuaciones originales sin afectar su distribución original.
Sin embargo, también existen transformaciones no lineales que alteran la distribución original de las
puntuaciones para generar una distribución normal. Este es el caso de la puntuación estándar normalizada (zn)
y de las estaninas (las cuales poseen una media de 5 y desviación estándar de 2)

2018
Las puntuaciones estándar tienen el inconveniente de ser difíciles de comunicar para usuarios no
especializados. Decir a una persona que su nivel de autoinculpación es equivalente a 0,68 desviaciones
estándar por debajo de la media puede ser poco comprensible. Por este motivo, es habitual que la mayor parte
de las pruebas psicológicas utilicen rangos percentilares y percentiles

Rangos percentilares y percentiles

Existe una distinción técnica entre estos dos términos. El rango percentilar (RP) indica el % de casos en el
grupo normativo que se ubican por DEBAJO de una puntuación determinada natural. Por ejemplo, si en la
escala de autoinculpación del ejemplo, la puntuación natural de 10 equivale a un RP de 25, esto significa que el
25% de los casos del grupo normativo obtuvieron un puntaje natural inferior a 10. Por su parte, el percentil es el
punto en la escala por debajo del cual se ubica un porcentaje específico de casos. En palabras de Hogan, la
diferencia entre el percentil y el RP es que el percentil se empieza con un determinado porcentaje y luego se
busca la puntuación natural correspondiente (¿Cuál es la puntuación natural que obtuvo el 65% de la
muestra?); mientras que el RP se inicia con una puntuación natural determinada y luego halla el porcentaje de
casos que se encuentran por debajo de esa puntuación (¿Qué porcentaje de personas obtuvieron un valor
igual o inferior a 10?) En la práctica, ambos términos son tienen la misma utilización

Los percentiles indican el porcentaje de personas en el grupo normativo que se encuentran por
DEBAJO de una puntuación natural determinada

Los manuales de las pruebas psicológicas suelen proveer un baremo, es decir, una tabla de
equivalencia desde donde pueden identificarse el percentil correspondiente para cada puntuación natural u
original. De esta manera, el usuario de la prueba no requiere calcular la fórmula, sino que se limita a leer la
tabla e identificar el percentil correspondiente

Ejemplo de BAREMO de la escala de autoinculpación (obvio extraído del crack de Medrano)

ATCU

Media 12,42

Desviación Estándar 3,53

Percentiles 5 - 24 Muy Bajo 7 - 10

25 - 49 Bajo 11

50 - 74 Moderado 12 - 13

75 - 94 Alto 14 - 16

95 - 100 Muy Alto 17 o más

2018
Por ejemplo, si obtuvimos un puntaje de 10 significa que superamos solo al 25% de las personas. Esto
significa que el 75% del grupo normativo obtuvo mayor puntaje que nosotros. De esta forma podemos
interpretar que nuestro nivel de autoinculpación es muy bajo. Si obtuvimos entre 14 y 16, significa que nos
encontramos dentro del percentil 75, por lo que superamos al 75% del grupo normativo. Por lo cual nuestro
nivel de autoinculpación es alto

Los valores típicos que se suelen considerar son el percentil 50, 25 y 75. Estos dos últimos percentiles suelen
utilizarse para indicar la presencia significativamente elevada y baja (respectivamente) de un constructo.

Los percentiles tienen la desventaja de que se trata de una transformación no lineal que altera la
distribución original de las puntuaciones naturales. Este no es inconveniente cuando usamos fines
profesionales como realizar un informe psicométrico, pero si es un problema serio cuando lo utilizamos con
fines de investigación ya que al alterar la distribución original, técnicas como el Análisis Factorial o el
coeficiente de correlación pueden verse seriamente afectadas. Por este motivo, es habitual que se utilicen los
percentiles con fines de comunicación profesional, y las puntuaciones estándar con fines de investigación

Interpretación referida a Criterios


Hay situaciones donde no requerimos comparar el puntaje natural de la prueba con el de un grupo de
referencia. Como por ejemplo si una persona responde correctamente el 90% de las preguntas de una materia,
se puede decir que conoce los contenidos de misma y no hace falta compararla con el grupo de referencia, lo
mismo si una persona posee síntomas como: estado de ánimo depresivo, insomnio, fatiga, sentimientos de
inutilidad y pensamientos recurrentes de muerte, probablemente no haga falta compararla con el grupo
normativo . Entonces una forma alternativa de interpretación referidas a normas, consiste en comparar las
puntuaciones naturales con un criterio previamente especificado. Por ejemplo podemos fijar un criterio de
desempeño como un punto de corte de responder al menos 15 preguntas correctamente de un total de 30.
Aquí el marco de referencia no tiene que ver con el resto del grupo, sino con ese criterio específico (15 puntos)

Entonces repitiendo, en las interpretaciones referidas a criterio, en vez de comparar el puntaje del sujeto
con un grupo de referencia, se analiza la posición absoluta del individuo con respecto a un dominio de
conductas previamente definido. Tomemos como ejemplo la interpretación que puede realizarse del PHQ-9.
Esta prueba refleja los criterios diagnósticos de depresión establecidos por el DSM-IV.

Este cuestionario sobre la salud del paciente formula algunas afirmaciones sobre algunos probleas en donde el
examinado responde 0-Ningún día, 1-Varios días, 2-Más de la mitad de los días y 3-Casi todos los días

2018
Para la interpretación de esta prueba se ha propuesto un algoritmo en donde se establece que si el examinado
puntúa 2 o 3 en al menos dos de los primeros ítems y también puntúa 2 o 3 en al menos 5 de los últimos 9
ítems restantes, entonces corresponde el diagnóstico presumible de depresión (sin necesidad de tener que
comparar este puntaje con el de grupo de referencia)

Este método de interpretación es más habitual en contexto donde se trabaja con dominios claramente
definidos y delimitados. Su utilización es más común en la evaluación educativa y clínica, ya que la
interpretación referida a criterio puede resultar más útil para determinar si un alumno adquirió una serie de
contenidos, evaluar si una persona requiere de un tratamiento psicológico, etc.

En resumidas cuentas y repasando:

 Las puntuaciones naturales que obtenemos de un test no pueden interpretarse directamente ya que las
mediciones en psicología no poseen unidades constantes de medición y carecen de 0 absoluto. Por eso
señalamos estrategias para identificar los puntajes como referidos a normas y referidos a criterios.

 Es importante señalar que hablar de pruebas referidas a normas o pruebas referidas a criterio es
inapropiado, justamente porque no es el marco de la PRUEBA sino el marco de REFERENCIA lo que
nos dará su carácter de interpretación, de hecho, ambos tipos de interpretación pueden utilizarse en
una misma prueba

 La interpretación referidas a normas nos indican más bien la posición relativa de un sujeto en relación a
su grupo de referencia, mientras que la interpretación con referencia a criterio nos indica la posición
absoluta de un sujeto con respecto a un dominio de conductas previamente definido. Este último
método de interpretación es especialmente útil para medir cambios en los propios individuos, es decir
diferencias intraindividuales observadas como efecto de una intervención clínica o eduicativa

 Los percentiles son más fáciles de interpretar y comunicar, pero alteran la distribución original,
afectando el funcionamiento de diversos procedimientos estadísticos. Por su parte, las puntuaciones
estándar no alteran la distribución original, pero son más difíciles de comunicar para un público no
especializado. Por este motivo, es más común utilizar los percentiles con fines de uso profesional y las
puntuaciones estándar sean más comunes en contextos de investigación

2018
Construcción y Adaptación de Test Psicométricos
Introducción
El presente capítulo nos expresa de manera resumida los pasos que involucra un proceso de construcción y
adaptación de un test psicométrico. Asimismo, se pretende introducir al lector en una problemática a la que se
enfrentan psicometristas argentinos y latinoamericanos; la decisión de adaptar o construir tests. En efecto, la
utilización de tests psicológicos creados en otros contextos culturales es una práctica habitual, sobre todo en
regiones con menor desarrollo científico, tales como Latinoamérica. El uso de una prueba desarrollada en un
contexto cultural diferente genera múltiples dificultades, entre ellas el idioma, la familiaridad con los estímulos, y
la comparabilidad de las muestras de estandarización son ejemplos de fuentes de posibles sesgos en la
medición transcultural de constructos psicológicos. Esto lleva a que no puede presuponerse que las teorías e
instrumentos desarrollados en una culturas sean válidos en otra

Un debate frecuente es si los constructos psicológicos se manifiestan de manera semejante en


diferentes grupos culturales. Tenemos el enfoque "etic" que postula que los constructos psicológicos poseen un
comportamiento universal, es decir niegan los diferencias culturales, y el enfoque "emic" que por el contrario
considera que los constructos psicológicos deben indagarse considerando la particularidad de cada cultura.

En general se acuerda en considerar que la realización de una medición debe contemplar aspectos émitos y
éticos. Dado que la mayoría de las teorías psicológicas han sido desarrolladas en otros contextos culturales,
sobre todo en universidades norteamericanas, los psicometristas de países menos desarrollados se ven en la
necesidad de tener que adaptar pruebas o bien construir nuevos instrumentos para lograr mediciones válidas y
confiables para su contexto cultural.

Hablamos de sesgos cuando las diferencias observadas no reflejan diferencias reales en el rasgo medido

Hablamos de equivalencia cuando las puntuaciones de un test reflejan diferencias verdaderas en el constructo

Abordemos diferentes tipos de sesgos a continuación:

Sesgo de ÍTEM: Este sesgo consiste básicamente en que la mayor parte de los elementos de la prueba
son equivalentes en ambas culturas, pero algunos ítems tienen un significado diferente. De esta
forma, ciertos grupos culturales pueden obtener puntajes significativamente distintos en un ítem
determinado a pesar de obtener un puntaje total similar

Sesgo de CONSTRUCTO: ocurre cuando el constructo posee muchos elementos émicos y poco
componentes éticos. Es decir cuando el constructo difiere entre una cultura y otra. Por ejemplo, una
variable tan clásica como la inteligencia tiende a ser conceptualizada de muy diverso modo de unas

2018
culturas a otras; mientras que en Occidente suele asociarse a eficiencia y rapidez, en algunas culturas
del Este se asocia con actitudes reflexivas y reposadas, más que con la rapidez. Otro ejemplo sería si
medimos la EXTRAVERSIÓN en China y en Argentina, claramente podemos encontrar diferencias
significativas y podemos tener un sesgo, es decir habría que adaptar las preguntas, acá en argentina tal
vez la pregunta "saludarías con un abrazo a tus amigos" tendría muchas puntuaciones y tal vez en
China la misma pregunta tendría menos puntuaciones ya que para ellos sería "demasiado" extrovertido
tal acción, por ello habría que adaptar las preguntas, allá tal vez se podría preguntar "saludarías con un
apretón de manos a tus amigos" y tal vez ahí se controle el error (claramente es un ejemplo, no es
necesariamente así)

Finalmente, las diferencias culturales pueden introducir sesgos metodológicos. Por ejemplo, en países
árabes la lectura se realiza de derecha a izquierda, esto puede afectar la manera en que se completa
algunas pruebas, donde puede haber el elemento a completar "a la derecha" mientras que para los
árabes, debería estar "a la izquierda". El idioma también puede ser fuente de sesgo metodológico, por
ejemplo, se demostró que los individuos chino-parlantes rinden más que los sujetos japonés-parlantes
en una prueba de cálculo mental. Los autores pudieron demostrar que las diferencias estaban
relacionadas a la duración de los dígitos pronunciados, lo que está vinculado con la memoria de trabajo.
Los dígitos en el japonés tienen menor duración que los dígitos en el inglés, lo cual les proporcionaba
una ventaja a los japoneses, y a su vez, la menor duración de la pronunciación de los dígitos en chino
comparado al japonés e inglés, les daba ventaja a los chinos sobre los dos grupos restantes. Este tipo
de sesgo metodológico se suele denominar sesgo de instrumento.

Métodos y pasos implicados en la construcción de Test


El procedimiento habitual en la construcción de test implica los siguientes pasos:

1) Delimitación del dominio, características de la población a la cual va dirigido y estructura formal


del test (instrucciones, contenido y formato de respuesta a los ítems)

2) Redacción de los ítems

3) Revisión de los ítems por expertos

4) Análisis de las propiedades psicométricas (confiabilidad, validez y un método de interpretación)

5) Elaboración de los materiales definitivos de la prueba (manual, cuadernillo de ítems, hoja de


respuesta)

2018
Definición del dominio
La construcción de un test requiere previamente un exhaustivo análisis conceptual del dominio o constructo a
medir. Este análisis implica la selección y revisión de las teorías más relevantes, rigurosas y contemporáneas
en relación al constructo de interés.
Se deben obtener definiciones conceptuales ajustadas al dominio que se desea medir, así como seleccionar
los indicadores operacionales adecuados para describirlos, lo cual es una tarea muy compleja. Se han
desarrollado diferentes métodos para la elaboración de pruebas. El método de contenido o también conocido
como método lógico y racional, fue uno de los primeros en desarrollarse en psicometría. Este método no se
apela a teorías previas para la redacción de los reactivos, sino que se centra en la validez aparente y el sentido
común. En ejemplo de una prueba desarrollada con este método es el Woordworth Personal Data Sheet. Sin
embargo, en la actualidad, es un método en desuso.
Otra metodología tradicional son los métodos de clave empírica. Básicamente consiste en elegir los
reactivos en función de su capacidad para discriminar entre dos grupos de referencia. No se parte de un
modelo teórico previo, sino de un pool inicial de reactivos que serán o no incluidos en la prueba en función de
su capacidad para discriminar dos grupos (normal y clínico por ejemplo). El MMPI-II es un ejemplo de un test
desarrollado mediante este método
Con el perfeccionamiento del análisis factorial tomaron fuerza los métodos de reducción de datos
como estrategia para la elaboración de pruebas. Este método consiste en redactar ítems y examinar las
correlaciones entre los reactivos e identificar factores subyacentes . Posteriormente se asigna un nombre a los
factores identificados que describe el significado de la dimensión subyacente. El Cuestionario de Intereses
Profesionales (CIP) constituye un ejemplo de esta metodología, ya que los factores obtenidos son empíricos,
es decir, no parten de un modelo teórico previo
En la actualidad los métodos de corte empírico son "ateóricos" y se encuentran en declive. El método
más recomendado para la elaboración de pruebas consiste en partir de una clara delimitación conceptual, para
luego recabar evidencias empíricas que permitan determinar su validez. Para ello resulta indispensable partir
de un buen modelo teórico que describa con claridad no solo el constructo, sino también sus dimensiones. Las
estrategias de análisis como el análisis factorial confirmatorio, permitirán determinar si efectivamente el modelo
de medición propuesto es plausible. Por ejemplo, el Inventario de Autoeficacia para Inteligencias Múltiples
(IAMI) constituye un buen ejemplo de esta metodología, ya que parte de un modelo teórico bien delimitado (la
teoría de las 8 inteligencias propuestas por Gardner), en combinación con métodos empíricos que aportan
evidencias empíricas sobre la validez del modelo
Antes de emprender la redacción de los ítems, es necesario también delimitar aspectos
complementarios tales como: finalidad y población meta del test, modo de aplicación (individual o colectiva
por ejemplo), y tiempo de administración (duración del test), entre otras consideraciones importantes

2018
Redacción de los ítems
 Redactar ítems congruentes con el objetivo de la medición
 Evitar ítems demasiado largos (más de 20 vocablos)
 Evitar oraciones complejas con ambigüedades de sentido
 Evitar frases con dobles negaciones
 Evitar el uso de expresiones extremas (nunca, siempre, todos)
 Utilizar el nivel de dificultad del lenguaje más apropiado al nivel de maduración y educativo de la
población meta de medición

Nunnally --> Los dos errores más comunes en la redacción de ítems son la ambigüedad y la trivialidad
Bandura --> recomienda redactar ítems que consideren diferentes niveles de dificultad y evitar los
ítems multidimensionales, es decir indagar sobre más de una actividad como por ejemplo: ¿Qué tan
seguro te sentís para cantar y pintar?

Revisión de expertos
Los expertos revisarán los ítems y de los mismos revisarán tres aspectos esenciales:
a) Claridad semántica y corrección gramatical
b) Adecuado al nivel de comprensión de la población meta
c) Congruencia con el constructo o dominio a medir

Este último es el principal parámetro y hace referencia al grado de consistencia que debe existir entre un ítem
particular y los constructos a medir por el test
Además del juicio de expertos, siempre es conveniente administrar una versión preliminar de la prueba
a una muestra piloto. Esto permite confirmar si los ítems son claros y comprensibles para la población meta

Elaboración de los materiales definitivos de la prueba


Muchos investigadores obvian esta etapa, sin embargo, los psicólogos que se dedican a la construcción de
pruebas, tienen la obligación de elaborar un material (un manual, por ejemplo) que proporcione información
adecuada sobre las características técnicas del instrumento y una descripción cuidadosa del mismo. Muchas
pruebas se publican a través de editoriales se puede acceder a los ítems solo mediante la compra del material,
mientras que muchos otros investigadores prefieren poner a disposición el manual y los ítems de la prueba
para que otros usuarios e investigadores puedan acceder de forma libre

2018
Métodos y pasos implicados en la adaptación de Tests
La adaptación de un test es un proceso mucho más complejo que la mera traducción a un idioma diferente. La
adaptación de una prueba no involucra solamente la traducción de los ítems, sino que conlleva una serie de
estudios tendientes a determinar la equivalencia entre las pruebas. Concretamente los pasos involucrados en
la adaptación de tests son los siguientes:
1) Traducción de la prueba
2) Estudios de equivalencia
3) Análisis de las propiedades psicométricas
4) Elaboración de los materiales definitivos de la prueba3

Traducción de la prueba
El proceso de traducción como dijimos, es complejo e implica más que la mera traducción de un idioma al otro.
Existen dos métodos fundamentales: traducción directa e inversa.
En el método de traducción directa un grupo de traductores traducen el test original al nuevo idioma; luego otro
de traductores juzga la equivalencia entre las dos versiones
En el método de traducción inversa un grupo de traductores realiza una traducción del idioma original al nuevo
idioma; luego un segundo grupo de traductores toma el test traducido (en el nuevo idioma) y lo vuelve a traducir
al idioma original. Posteriormente, se realizan las comparaciones entre la versión original y la retraducida para
determinar su equivalencia. Este método de traducción inversa es el más utilizado
Independientemente del método de traducción que utilicemos, es importante señalar que las
traducciones deben realizarse atendiendo a una equivalencia conceptual, semántica y funcional de los
ítems, más que a una mera equivalencia literal
 La equivalencia conceptual consiste en que el ítem original y traducido evalúen el mismo
constructo teórico.
 La equivalencia semántica hace referencia a que las palabras traducidas tengan el mismo
significado tanto a nivel connotativo como denotativo. Mientras que la denotación de una palabra
puede ser la misma, su connotación o significado emocional puede ser distinto
 La equivalencia funcional se circunscribe a que las acciones involucradas en los reactivos posean
metas y dificultades semejantes en ambas culturas. Por ejemplo un ítem de una escala
norteamericana sobre Progreso de Metas Académicas incluye la meta "permanecer inscripto en la
universidad. Ej: en la UNC se puede permanecer inscripto durante años sin necesidad de aprobar
materias o rendir exámenes. En función de ello, Medrano, Pérez y Liporace optaron por traducir el
ítem como "permanecer regular en el curso", manteniendo así un nivel semejante de dificultad
2018
Estudios de equivalencia
Una vez traducida adecuadamente la prueba, debe establecerse si esta versión traducida es equivalente a la
original. Existen dos estrategias que son ampliamente utilizadas para determinar esta equivalencia. Una de
ellas es la administración del test original y traducido a individuos bilingües. En este caso se le administra
ambas versiones de un test a personas que hablen ambos idiomas. Este método posee ventajas y limitaciones.
En primer lugar permite controlar las diferencias de los participantes (inteligencia, por ejemplo)
Sin embargo, posee la desventaja de asumir que los individuos son igualmente competentes en ambos
idiomas, lo cual es difícil de sostener. Entonces puede suceder que hayan diferencias significativas entre los
resultados de ambas versiones debido a una menor capacidad de algunas personas para entender los ítems en
alguno de los dos idiomas. La segunda gran desventaja radica en que no puede asegurarse que los bilingües
posean el mismo nivel de competencia que la población general. Por el hecho de conocer otro idioma, es
probable que se trate de personas con una mayor capacidad intelectual o mejor educación
El segundo método es la administración de la versión original del test y su traducción inversa a
monolingües en el idioma original. Supongamos que traducimos una prueba de idioma inglés, la original y la
re-traducida. Este método consiste entonces en administrar ambas versiones (la original y la re-traducida) a
personas cuyo idioma natal es el inglés. La equivalencia en los ítems se determina comparando el desempeño
de cada individuo en cada ítem de ambas versiones. Nuevamente, la ventaja está en el control de las
diferencias en las características de los participantes. Una gran limitación es que este diseño no permite
obtener datos de la versión en el idioma meta del test (español en este ejemplo)

2018

También podría gustarte