Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Huánuco - Perú
2020-1
CONTENIDO
ANEXOS
CONSTRUCCIÓN DE INSTRUMENTOS PSICOLÓGICOS
A los jueces se les pide que evalúen la calidad y consistencia de los ítems y se
descartan aquellos con puntuaciones medias más bajas y con escaso grado de
acuerdo, respectivamente.
Se recomienda que los ítems seleccionados sean aquellos en que, al menos, un
60% de los jueces coinciden (Herrera Rojas, 1993)
Es útil también incluir preguntas que demanden información cualitativa sobre los
ítems lo que puede facilitar un mejoramiento en el fracaso de algunos de ellos.
Las pruebas referidas a criterios, como explica Martínez Arias (1995) se evalúan
y seleccionan los ítems de una forma particular, diferente a las pruebas referidas
a normas.
El análisis se realiza comparando los resultados de un grupo antes de aplicar un
programa de aprendizaje y después del mismo, o comparando dos grupos
similares, uno de ellos, que recibió capacitación y el otro no.
Al calcular el índice de dificultad los resultados esperados son, ítems con alta
dificultad para los grupos que no han pasado por el proceso de aprendizaje, y
baja dificultad para los que han sido sometidos al proceso de instrucción.
En cuanto al índice de discriminación, obtenido por la comparación entre grupos,
se espera máxima discriminación entre los grupos y mínima entre los individuos
de un mismo grupo.
Una vez realizada la aplicación de la prueba piloto y habiendo obtenido
resultados estadísticos sobre el comportamiento de cada ítem se podrán tomar
decisiones sobre cuáles de ellos deben integrar la forma final del test y hacer
estimaciones de su confiabilidad y validez mediante algunos de los
procedimientos ya conocidos.
La lógica de este proceso de análisis es obtener pruebas lo más homogéneas
posibles, es decir, donde todos los reactivos se relacionen con un núcleo común
de medición que es el constructo o dominio, información que se obtiene
aplicando a los reactivos de una escala el coeficiente alfa de Cronbach, por
ejemplo. El conjunto de ítems seleccionados después de examinar la correlación
ítem-total de cada uno, es analizado con este procedimiento de homogeneidad
(alfa o KR-20) y debemos asegurarnos valores de.80 o superiores.
Los ítems con correlaciones bajas con el puntaje total se pueden remover para
incrementar el valor del alfa.
Si bien un coeficiente alfa elevado es una condición necesaria de
unidimensionalidad esta propiedad solo es garantizada por el análisis factorial
(Goldberg, 1999)
El paso decisivo para asegurar la unidimensionalidad de cualquier escala
homogénea y el primer paso en un conjunto inicial de ítem heterogéneo (sin un
explícito marco teórico previo) es el análisis factorial (Martínez Arias, 1995).
Los instrumentos de evaluación psicológica son las técnicas mediante las cuales
se recogen los datos referentes a las características psicológicas de las personas
estudiadas. Son muchos los instrumentos que sirven para este fin y variadas son
también las formas que adquieren los test, su modo de presentación, el material
con que están hechos, el objetivo que persiguen, etc., es tan amplia la cantidad
de instrumentos que existen que se encuentran clasificados en diversas
categorías, y todos ellos constituyen el arsenal tecnológico y metodológico con
que cuenta nuestra ciencia para realizar sus mediciones; estos instrumentos
constituyen la base sobre la cual descansan los fundamentos de la exploración
y el análisis del comportamiento del hombre, concebidos de tal forma desde que
surge la necesidad de evaluar las diferencias humanas.
Los instrumentos psicológicos son construidos en base a teorías psicológicas
que intentan explicar el comportamiento humano. Los resultados de los mismos
se integran al proceso evaluativo y a la toma de decisiones en relación a la
persona en estudio; de forma tal, que la aplicación de los instrumentos de medida
se constituye en la fase más importante del proceso de evaluación psicológica;
igual ocurre en cualquier otro campo de la actividad humana, donde el uso
correcto o incorrecto de los instrumento de medida determinan la calidad de la
información que se obtiene, y por ende de las conclusiones finales a las que se
arriban partiendo de dichos datos.
4. INSTRUMENTOS PSICOMÉTRICOS
6. TÉCNICAS PSICOMÉTRICAS
7 TÉCNICAS PROYECTIVAS
Para la fecha en que Frank denomina a este tipo de pruebas como proyectivas
ya eran conocidas algunas técnicas cuyas características se ajustaban a dicha
descripción, como son:
• Técnica de asociación de palabras de Jung, que aparece en 1905.
• Test de las manchas de tinta de Hemann Rorschach, en 1921.
• Test de apercepción temática, el conocido TAT de Murria, de 1938.
Rapaport (1959) afirma que cuando se utiliza el concepto de proyección,
hablando de tests proyectivos, se habla en realidad de exteriorización y no de
mecanismo de defensa, expresa que lo que se entiende por proyección es lo que
Frank formuló al decir: "Cada individuo tiene un mundo privado que está
estructurado de acuerdo con los principios organizativos de su personalidad y
los tests proyectivos estudian estos principios organizativos, induciendo al sujeto
a ponerlos de manifiesto utilizando un material no estructurado, que el sujeto
incorpora a su mundo privado".
Las técnicas proyectivas parten del presupuesto de que:
• Existe una estructura básica y estable de personalidad. Tal estructura está
integrada por ciertas dimensiones o rasgos que se encuentran
organizados en forma idiosincrásica. Las respuestas de los sujetos a
estas técnicas permiten explorar esa estructura.
• Facilitan alcanzar distintos niveles de profundidad en el análisis de la
estructura de la personalidad.
• Permiten establecer una relación entre el producto de la ejecución en las
pruebas y lo inobservable de la estructura de la personalidad. El análisis
de la estructura de la personalidad obtenida de esta forma permitirá la
predicción del comportamiento.
• Toda respuesta ante el material proyectivo no es casual, sino que es
significativa y será entendida como un signo de la personalidad del sujeto.
• Cuanto más ambiguos sean los estímulos de una técnica proyectiva, tanto
más reflejarán las respuestas del sujeto, la personalidad del mismo.
• El análisis al que son sometidas las respuestas de los sujetos a las
técnicas proyectivas tiene que ser fundamentalmente cualitativo y global.
Las técnicas proyectivas tienen algunos problemas sin resolver como:
• La ausencia de un marco teórico homogéneo. El psicoanálisis ha sido el
marco teórico de mayor influencia en el uso de estas técnicas.
• Ausencia de tipificación de las consignas de aplicación, de los
procedimientos de calificación, corrección e interpretación.
• Necesidad de formación intensa y extensa para trabajar el proceso de
interpretación de las mismas.
Jamás los tests proyectivos pueden ser utilizados como medios únicos para el
diagnóstico. La información que ofrecen estas técnicas son hipótesis de trabajo
que deben ser corroboradas por otros tests cuantificables como son las pruebas
Las aptitudes de las personas no son la única causa que contribuye a diferenciar
la ejecución en las pruebas. La ejecución de los individuos está muy relacionada
con el contexto, pudiendo ser las diferentes interacciones que tienen los sujetos
con el ambiente, antes del examen, la causa de las diferencias en la ejecución.
Este tema es parte de la polémica generalidad-especificidad de la conducta que
se estudia mediante este tipo de instrumentos.
Los efectos del examinador: se refieren a la influencia del examinador y a la
interacción entre el examinador y el examinado, como causa que afecta la
ejecución del sujeto en la prueba, y por ende a los datos recogidos.
Los efectos de la situación y del examinador son variables que reducen la
fiabilidad y validez de las evaluaciones.
Las "distorsiones" o "tendencias" o "estilos de respuesta" influencian la ejecución
de los sujetos en los tests; estas variables son muy diversas, destacando: la
simulación, la deseabilidad social y las tendencias de respuesta:
La simulación, es el intento de falsear las respuestas intencionadamente,
tenemos ejemplos cotidianos, como es la simulación de varias alteraciones
comportamentales para obtener la baja laboral. Aunque se han construido
escalas dirigidas a detectar la sinceridad en algunos cuestionarios de
personalidad, el evaluador debe preocuparse de contrastar por otras fuentes, lo
más objetivas posibles, los datos obtenidos mediante los tests de personalidad.
La deseabilidad social es la tendencia a responder de acuerdo con estándares
sociales aceptables en la comunidad.
Las tendencias de respuesta son las influencias que ejerce el tipo de alternativa
de respuesta ofrecido por la prueba sobre la respuesta del individuo.
A) Sesgo de Constructo
Este sesgo se presenta cuando el constructo medido no es idéntico en diferentes
grupos culturales. Comportamientos morales que en algunas sociedades pueden
ser normales en otras pueden constituir un verdadero rasgo de rigidez y
asemejarse a una conducta obsesivo compulsiva. McCrae, Yik, Trapnell, Bond y
Paulhus (1998) encontraron, por ejemplo, importantes diferencias entre los
perfiles de personalidad de estudiantes canadienses y estudiantes chinos
utilizando versiones equivalentes del NEO PI-R. Los estudiantes chinos
obtuvieron puntajes significativamente menores en algunas facetas de la escala
Extraversión de este último test.
B) Sesgo Metodológico
Este tipo de sesgo reconoce tres formas:
I. Es sesgo de muestra, que ocurre cuando las muestras son incompatibles
entre sí. La cantidad de años de escolaridad que poseen los individuos de
una muestra constituye una variable determinante si se trata de un test de
ejecución máxima (Heaton, Grant y Matthews, 1991). Los tests de
razonamiento lógico o matemático, por ejemplo, presentan una dificultad
considerablemente mayor para las personas con baja escolaridad. El nivel
sociocultural, la motivación, el sexo y la edad de los sujetos son otras de
las variables que pueden hacer incomparables a dos muestras.
Fernandéz y Marcopulos (2004) compararon los estudios normativos de un test
de atención en diez países y advirtieron que una de las principales dificultades
para comparar los puntajes residía en las diferencias entre las muestras. Así,
observaron que la edad media de los ancianos de la muestra neozelandesa
estaba 1,6 desviaciones estándar por encima de la muestra danesa. Sin
C) Sesgo de Ítem
El sesgo del ítem se genera cuando éste último posee diferentes significados en
las culturas consideradas. Ciertos grupos culturales pueden obtener puntajes
significativamente distintos en un ítem determinado a pesar de obtener un
puntaje total similar en el test. La deseabilidad social o la relevancia cultural,
entre otros factores, pueden producir el sesgo de ítem.
Tanzer (1995), por ejemplo, demostró que, aunque la estructura factorial de un
test de autoconcepto académico era semejante en muestras de estudiantes
australianos y singapurenses, existían diferencias entre ambos colectivos
cuando se compraban los puntajes obtenidos en algunos ítems específicos.
administrar al azar una (no ambas) de las versiones del test (en español
o en inglés) a los participantes bilingües.
b) Administración de la versión original y su traducción inversa a
monolingües en el idioma original: Siguiendo nuestro ejemplo anterior,
planteado por las autoras (Tornimbeni et. Al. 2004) se le administraría la
versión original del WAIS – III y la versión obtenida de la traducción
inversa a sujetos cuyo idioma natal es el inglés. La equivalencia de los
ítems se determina comparando el desempeño de cada sujeto en cada
ítem de ambas versiones. Nuevamente, la ventaja está en el control de
las diferencias en las características de los participantes. La primer gran
desventaja está en que este diseño no permite obtener datos con la
versión en el idioma meta (target) del test (español en el ejemplo). De esta
manera no es posible obtener puntajes de sujetos que hablen el idioma al
que se intenta traducir el test. La segunda gran desventaja de este diseño
reside en el hecho de la posible falta de independencia entre los puntajes
obtenidos ya que es probable que exista un efecto de aprendizaje luego
de la administración de la primera versión de la prueba, especialmente si
la primera es la original. La administración al azar de una de las versiones
en el primer lugar puede reducir la importancia del efecto de aprendizaje.
c) Administración de la versión original a monolingües que hablan el idioma
original y de la versión traducida a monolingües que hablan el idioma al
que ha sido traducida la prueba: Siguiendo con el ejemplo enunciado por
Tornimbeni et. Al (2004), se administraría la versión en inglés del WAIS –
III a evaluados cuyo idioma natal es el español. Una posible dificultad
reside en asumir que los sujetos de ambas muestras poseen una habilidad
comparable. sin embargo, Hambleton sugiere que tal obstáculo puede
superarse si los análisis son desarrollados con la Teoría De Respuesta al
Ítem, en la cual se asume que utilizando distintos conjuntos de ítem
pueden obtenerse las mismas estimaciones de aptitud. Igualmente,
administrando esos ítems a distintas muestras de examinados las
estimaciones de parámetros obtenidas serán iguales.
Una vez obtenidos los datos por medio de los diseños revisados existen varias
posibilidades estadísticas para su análisis. Básicamente el análisis estará
destinado a identificar la existencia de Funcionamiento Diferencial de items (FDI)
es decir, ítem que se comportan en forma diferente a través de las diversas
muestras transculturales.Por ejemplo, en las investigaciones citada de Tanzer (
1995) en donde el investigador le administro dos cuestionarios sobre
autoconcepto académico de lectura y matemáticas. En los resultados pudo
observarse que a pesar de que la prueba mostraba la misma estructura factorial
para ambos grupos culturales, cuando las escalas de los ítems de competencia/
facilidad se trabajaban en forma individual podían observarse grandes
diferencias entre ambos grupos culturales. El autor especulo con que tal
diferencia se debía a un factor cultural de modestia, la cual es una virtud
3. Construcción de test
Los psicólogos que construyen y realizan investigación con test y otras técnicas
de evaluación utilizan procedimientos científicos y conocimientos profesionales
actualizados para el diseño de los test, estandarización, validación, reducción o
eliminación del sesgo, y recomendaciones de uso.
6. Personas no calificadas
Los psicólogos no promueven el uso de técnicas de evaluación psicológica por
parte de personas no calificadas.
Una cosa es que el test mida de manera precisa o estable (esta cualidad se
refiere a su fiabilidad), y otra diferente es la cuestión de qué es lo que
auténticamente está evaluando. En el ámbito psicosocial, los diferentes
constructos resultan difícilmente operativizables de manera indiscutible, y a
veces se producen dudas razonables sobre qué mide un determinado test. Una
prueba de inteligencia general tendrá un elevado grado de validez si asigna
puntuaciones altas a las personas muy inteligentes, puntuaciones medias a las
personas medianamente inteligentes y puntuaciones bajas a las personas de
poca inteligencia. Un cuestionario para evaluar el nivel de autoestima tendrá un
elevado nivel de validez si se demuestra que mide de forma exhaustiva todos los
componentes en que puede manifestarse la autoestima.
La validación es un proceso continuo, que incluye procedimientos diferentes para
comprobar si el cuestionario mide realmente lo que dice medir. Dicho de otro
modo, tiene que ver con el tipo de conclusiones o inferencias que pueden
realizarse a partir de las puntuaciones obtenidas en el test. Las inferencias
pueden ser de muy diverso tipo: ¿qué rasgo estamos midiendo realmente? ¿Qué
podemos predecir sobre el comportamiento de un sujeto que obtiene una
determinada puntuación en el test? ¿Qué consecuencias de diverso tipo tiene
esa puntuación, en contextos de evaluación o selección?
Aunque cada vez se tiende más a concebir la validez como un proceso unitario
que tiene como objetivo aportar pruebas sobre las inferencias que podemos
realizar con un test, tradicionalmente se han diferenciado varios procedimientos
de validación, alguno de los cuales incluye varios métodos diferentes de
comprobación. Los fundamentales procedimientos son denominados como
validez de contenido, de constructo y referida al criterio.
Ver anexo C:
oficialmente deben impartirse en ese nivel de estudios. Sería una prueba poco
válida si incluye demasiadas cuestiones de unos temas y muy pocas de otros.
Para justificar, aunque sólo sea racionalmente, que un test posee validez de
contenido, debe quedar bien definido el universo o dominio conductual de
referencia: especificar claramente cuáles son los contenidos de Química que
debe conocer un alumno de 4º de ESO, cuáles son los componentes que interesa
considerar en un cuestionario de cultura general, qué tipo de conocimientos y
destrezas son las pertinentes para medir el nivel básico de inglés, etc. En
definitiva, nos referimos a explicitar claramente los objetivos de la evaluación y
la importancia que se quiere dar a cada uno, lo que determinará la cantidad de
cuestiones a incluir referidas a cada uno de esos objetivos. En definitiva, la
validez de contenido es un tema particular del de muestreo: si deseamos realizar
inferencias sobre el rendimiento de las personas en una población de contenidos
determinada, el test debe incluir una muestra representativa de dichos
contenidos.
El proceso de validación de contenido es eminentemente lógico, si bien pueden
utilizarse jueces expertos en el tema para valorar la congruencia entre los
diversos items y los diversos objetivos. Existen procedimientos cuantitativos
diversos para que cada experto valore el grado en que un ítem sirve para evaluar
el objetivo al que corresponde. El procedimiento cuantitativo más sencillo sería
el siguiente:
− Especificar los diversos objetivos (v.gr. áreas diferentes de contenidos)
que se pretenden evaluar.
− Elaborar varios ítems para cada objetivo.
− Seleccionar una muestra de expertos en el contenido del test.
− Pedirles que, según su opinión, asignen cada ítem al objetivo que
pretende medir.
− Seleccionar los ítems en los que los expertos manifiestan mayor
acuerdo en sus clasificaciones.
Muy en relación con la validez de contenido se encuentra lo que se ha dado en
llamar "validez aparente", que se refiere al grado en que un test da la impresión
a los evaluados de que mide lo que se pretende. En situaciones aplicadas, es
importante que las personas perciban que los ítems del test tienen que ver con
la finalidad que se persigue con el proceso de evaluación.
test a las mismas personas bajo las mismas condiciones. Sus puntuaciones
directas en las dos aplicaciones fueron las siguientes:
De
nuevo el tope de rxx lo tenemos en 1, con lo que podemos decir que las dos
mitades del test no son muy consistentes entre sí. Únicamente un 51 % de la
varianza de las puntuaciones empíricas se debe a la varianza de las
puntuaciones verdaderas. No podríamos afirmar con suficiente certeza que
ambas mitades miden con precisión el rasgo de interés.
La razón de dividir el test en la mitad par y la impar es garantizar su equivalencia.
Los tests de rendimiento óptimo suelen tener ítems ordenados en dificultad, de
tal forma que se comienza a responder los ítems más fáciles hasta llegar a los
situados al final del test, que son los más difíciles. Si realizásemos la partición
en dos mitades atendiendo a su disposición en la prueba (la primera mitad
formada por los primeros n/2 ítems, la segunda por los n/2 ítems últimos)
difícilmente podría cumplirse que ambas tuvieran la misma media.
expresión que α depende del grado de covariación de los ítems: tendrá un valor
alto (cercano a 1) cuando los ítems covaríen fuertemente entre sí; asumirá
valores cercanos a cero si los ítems son linealmente independientes (si covarían
de forma escasa). Matemáticamente, α puede asumir valores negativos.
Insistimos en que el coeficiente alfa no es un coeficiente de fiabilidad si, como
ocurre en la práctica totalidad de los tests, los ítems no son paralelos. Suele
considerarse una "estimación por defecto" del coeficiente de fiabilidad, lo que
significa que es igual al coeficiente (si los ítems son paralelos) o menor (cuando
no lo son). Debe interpretarse como un indicador del grado de covariación entre
los ítems, y es aconsejable complementarlo con otras técnicas estadísticas (por
ejemplo, Análisis Factorial) antes de interpretarlo como una medida de
unidimensionalidad.
Ejemplo:
En este caso, el coeficiente α obtenido representa un valor medio, que nos indica
que no existe un elevado grado de covariación entre los ítems. No podemos
afirmar con rotundidad que este test mide un rasgo unitario.
El coeficiente α puede obtenerse también entre diferentes grupos de ítems
(subtests). En ese caso, k será el número de subtests y ΣS2j la suma de las
varianzas de los subtests. Un coeficiente α bajo indicará que los diferentes
subtests miden rasgos o constructos diferentes.
No es común diseñar una forma paralela de un test para obtener datos sobre su
fiabilidad. Cuando se diseñan (tarea por otra parte difícil) es porque van a
utilizarse en determinados trabajos que requieren 2 aplicaciones sucesivas de
un test que se puede recordar con facilidad.
Por ejemplo, para evaluar la eficacia de ciertos programas cortos de
enriquecimiento cognitivo o motivacional, conviene utilizar antes y después del
entrenamiento pruebas equivalentes, aunque con contenidos diferentes (formas
paralelas) para evitar los efectos del recuerdo.
mental (EM) entre la edad cronológica (EC) del sujeto; para evitar decimales el
resultado se multiplica por 100, de tal manera que se puede obtener a partir de
la fórmula:
ANEXOS
▪ Solicitud de validación
▪ Validación de instrumento
▪ Matriz de variable
__________________________
FIRMA/SELLO
DEL EVALUADOR
MATRIZ DE VALIDACIÓN
CRITERIOS DE
DIMENSIÓN
EVALUACIÓN
1 SI NO A B C
INDICADOR 1
2 SI NO A B C
D1
3 SI NO A B C
INDICADOR 2
4 SI NO A B C
5 SI NO A B C
INDICADOR 3
6 SI NO A B C
D2
7 SI NO A B C
INDICADOR 4
8 SI NO A B C
9 SI NO A B C
10 SI NO A B C
D3
*
11 SI NO A B C
* SI NO A B C