Está en la página 1de 24

1.

Defina y relacione los siguientes términos de manera precisa: Evaluación


Psicológica, Medición y Escala

Fernández Ballesteros define la evaluación Psicológica…”Es aquella disciplina de la psicología científica que se ocupa de
la exploración y el análisis del comportamiento ( a los niveles de complejidad que se estime oportunos) de un sujeto
humano o grupo especificado de sujetos con distintos objetivos básicos o aplicados (descripción, diagnostico,
selección, predicción, explicación, cambio y/o valoración) a través de un proceso de toma de decisiones en el que se
encardinan la aplicación de una serie de dispositivos, tests y técnicas de medida y/o evaluación.
La EP es una rama específica de la psicología que se desarrolla en distintos ámbitos: clínico, educacional, comunitario,
laboral, etc. LA EP propone estrategias metodológicas específicas con el objetivo central de poder verificar o estimar en
qué medida se alcanzan las metas de las acciones propuestas o se accede a la obtención de datos de un constructo o
variables bajo estudio. Las tareas en la EP clínica incluyen todos los procesos relacionados con el estudio de individuos,
grupos o comunidades en relación al proceso de salud-enfermedad
Uno con la información que tiene trata de ordenarla para entenderla, el nivel de medición sirve simplemente para
interpretar los datos
La medición es un proceso que permite identificar y ubicar atributos de una variable con respecto a un marco de
referencia, ese marco de referencia puede ser el numérico. Cuando los números cumplen sólo una función simbólica,
que sirve para categorizar, estamos en el nivel nominal de medición. En el SCL 90 R la variable que podemos encontrar
en este nivel son el sexo, el estado civil, etc. Cuando se puede establecer una relación de mayor y menor, posibilita una
diferenciación y un ordenamiento jerárquico según categorías, este es el nivel ordinal. Por ejemplo en e SCL, las
variable miedo a desmayarme, sentirme culpable, o sentirme triste, responden a este nivel de medición. El nivel de
medición intervalar cuanta con un cero relativo, o sea no indica ausencia del atributo. En el SCL la variable que se
encuentra en este nivel es la fecha que se tomó.
Medir en psicología es observar conductas y clasificarlas. Asignar números a propiedades de objetos y acontecimientos
y conductas, de acuerdo con ciertas reglas.
Escalas o niveles de medición: NOMINAL: para categorizar, clasificar, valores arbitrarios excluyentes (sintió malestar
ultimas 2 semanas si no)
ORDINAL establece relaciones de grado, de mayor a menor, ICV muy satisfecho mas o menos poco nada
DE INTERVALOS relación entre el valor y la medida, el 0 es arbitrario, se pueden realizar operaciones aritméticas. EJ
prueba de inteligencia
de COCIENTES Y RAZONES: el 0 implica ausencia del atributo Ejemplo: nivel de ingresos del sujeto en la prueba LISRES.

2. ¿Cuáles son los pasos para alcanzar una adecuada adaptación de los tests psicológicos que provienen de otros
contextos culturales?

Según Mikulic en la ficha F2; Los efectos de las diferencias que no sean relevantes para los objetivos centrales del
estudio deben minimizarse en la medida de lo posible.
Debería de evaluarse la cuantía del solapamiento de los constructos en las poblaciones de interés.
Adaptación de los tests:
Los constructores/editores deberían;
De asegurarse que el proceso de adaptación tiene en cuenta las diferencias lingüísticas y culturales entre las
poblaciones a las que se dirigen las versiones adaptadas de los tests; proporcionar datos que garanticen que el
lenguaje utilizado en las instrucciones, en los propios ítem y en el manual del tests, son apropiados para todas las
poblaciones culturales e idiomáticas a la que va dirigido el tests; de aportar evidencias de que las técnicas de
evaluación elegidas, los formatos de los ítems, las reglas de los tests y los procedimientos son familiares a todas las
poblaciones a las que van dirigidos.
De facilitar evidencia de que el contenido de los ítems y de los materiales de los estímulos son familiares. A todas las
poblaciones a las que van dirigidos.
De aportar una justificación racional sistemática, tanto lingüística como psicológica, para mejorar la precisión del
proceso de adaptación, así como reunir datos acerca de la equivalencia de todas las versiones en los distintos idiomas.
De asegurarse que el diseño de recogida de datos permite el uso de técnicas estadísticas apropiadas para establecer la
equivalencia entre los ítems correspondientes a las diferentes versiones idiomáticas del tests
Aplicar técnicas estadísticas apropiadas para; 1) establecer la equivalencia entre las diferentes versiones de un tests e
2) identificar componentes problemáticos o aspectos del tests que puedan ser inadecuados para alguna de las
poblaciones a las que va destinado el test
De proporcionar información sobre la evaluación de la validez en todas las poblaciones objetivo a la que va dirigido el
test adaptado.
De aportar datos estadísticos sobre la equivalencia de los tests para todas las poblaciones a las que van dirigidos
No deben utilizarse preguntas no equivalentes en todas las versiones dirigidas a diferentes poblaciones cuando se
prepara una escala común, o cuando se comparan estas poblaciones. Sin embargo, pueden ser útiles para reforzar la
validez de contenido de las puntuaciones de cada población por separado.

3. Se suele afirmar que la entrevista es un instrumento poco confiable. Discuta esta afirmación desde el concepto de
confiabilidad presentado por Hogan y considerando las particularidades de la entrevista como instrumento de
recolección de datos.

La validez se relaciona con lo que mide una prueba, específicamente si mide lo que pretende medir, en tanto que la
confiabilidad solo se relaciona con la consistencia de la medición, al margen de lo que mida exactamente. Una
medición puede ser confiable sin ser valida; por ej., una prueba de química puede ser muy confiable, pero tal vez sea
un indicador de habilidad matemática que de conocimiento sobre química. Aunque una prueba puede ser confiable sin
ser valida, no puede ser valida a menos que sea confiable.
En segundo lugar, el termino confiabilidad se distingue de el de uso cotidiano. La confiabilidad de las pruebas tiene un
sentido más técnico y cualitativo. Los mejores sinónimos en psicología del término técnico de confiabilidad son
consistencia, replicabilidad y fiabilidad. Una prueba confiable, en sentido psicométrico, es la que consistentemente
genera la misma puntuación o una similar en el caso de un individuo. La calificación puede replicarse (o reproducirse)
al menos con cierto margen de error. Podemos fiarnos (o depender) de que una prueba confiable genere en buena
medida la misma puntuación en un individuo.
En 3° lugar debe distinguirse entre cambio real en el rasgo medido y fluctuaciones atribuibles a los cambios fugaces en
las circunstancias personales, la “suerte de sorteo” en cuanto ala forma en que se toma una prueba, o las diferencias
debidas a quien califica la prueba. Los cambios reales en el rasgo medido no son fuente de inestabilidad (o falta de
confiabilidad). Los otros factores mencionados se considerarían normalmente fuentes de inestabilidad, aunque no lo
serian si uno trata de medir cambios en el estado anímico y emocional. No hay una demarcación clara entre cambios
temporales de corto plazo, pero la distinción es conceptualmente importante.
En 4° lugar, es indispensable distinguir entre errores constantes y errores no sistemáticos en las mediciones. Un error
constante es aquel que genera una puntuación sistemáticamente elevada o baja en una persona al margen de la
constancia que haya en la condición de la persona en el rasgo medido. Por ej., considere el nivel de inteligencia de un
niño cuyo idioma materno es el español, pero a quien se le evalúa en ingles; el nivel de inteligencia del menor,
probablemente se subestime y esta subestimación tal vez sea relativamente constante, ya sea que al niño lo evalúen el
martes o el jueves. La confiabilidad no explica estos errores constantes, solo se relaciona con errores no sistemáticos.
Observe que lo que se denomina errores “constantes” no constituye realmente factores constantes sino tendencias
que desplazan las puntuaciones en cierta dirección.
FALTA MECHARLO CON ENTREVISTA

4. Defina y relacione los siguientes conceptos: Psicodiagnóstico, Test y Análisis


Ecoevaluativo

Según a. Blanco El psicodiagnóstico... Es la asignatura que capacita para el conocimiento, comprensión y aplicación de
la conducta de un sujeto y que permite la orientación y predicción, orientación y/o tratamiento del sujeto individual
con datos procedentes de la confluencias de fuentes múltiples y con dependencia de la intervención psicológica que se
realice en ella”…
. El psicodiagnóstico es un proceso a través del cual los clínicos obtienen necesaria comprensión del paciente para
poder tomar decisiones. Ávila (1992) dice que el psicodiagnóstico es una disciplina específica relacionada con la
psicología como ciencia, que no puede resumirse en una mera tecnología psicológica. El psicodiagnóstico brinda el
estudio descriptivos, comprensivo, y explicativo de los comportamientos de los sujetos o grupos humanos en relación
con los contextos socioculturales. Se llama psicodiagnóstico a algo que tiene como variable el proceso salud-
enfermedad.
Siguiendo a Anastasi y Urbina, un test es un instrumento de evaluación cuantitativa de los atributos psicológicos de un
individuo. La Asociación de Psicólogos Americanos (1999), propone una conceptualización abarcativa y exhaustiva al
definir un test como un procedimiento evaluativo por medio del cual una muestra de comportamiento de un dominio
especificado es obtenida y posteriormente evaluada y puntuada empleando un proceso estandarizado.
La evaluación psicológica ha vivenciado una evolución de tipo centrífugo e integrativa, desde el interior del sujeto hacia
el análisis de sus contextos. Esta evolución ha sido expansiva a partir del sujeto, (Forns y Santacana, 1993), y ha
incorporado el triple análisis de la realidad:
⇒ Como externa al sujeto: Análisis de las circunstancias externas como entidades que por su relación funcional con el
individuo creaban cambios o mantenían la conducta de un sujeto;
⇒ Como interactiva y constructiva con el individuo: proceso de mutua determinación en la interacción sujeto y objeto

⇒ Como sustantiva en sí misma: análisis de contextos y análisis de la incidencia de las acciones psicosociales ejercidas
sobre la conducta de los sujetos.
Hemos arribado a una evaluación ecológica, multicontextual y que se focaliza en plurivariables personales, enfocada
desde una perspectiva interaccional, lo que hace al afán por buscar las modulaciones de unas variables sobre otras y
las pistas causales, entre variables.
Este análisis eco psicológico, se caracteriza por ser (Forns, 1993):
∗ Plurivariable: se analizan las características de un sujeto, considerándolo en sí mismo como un contexto con
multiplicidad de variables de distinta naturaleza: es el contexto intrapersonal.
∗ Ecológico: se analiza la conducta del sujeto en el propio contexto en que se produce.
∗ Interaccional: se analizan las relaciones de interdependencia entre las variables, en busca de las líneas de causalidad
de la conducta.
∗ Multicontextual: se analizan variables macrocontextuales físicas, afectivas-emocionales, creencias y valores, etc.; las
exigencias contextuales y la variabilidad situacional y temporal entre tales contextos.
A nivel tecnológico en esta área se ha pasado de la simple descripción, clasificación, predicción y explicación de la
conducta de sujetos a evaluar dimensiones ambientales que permitan la evaluación de las relaciones hombre-medio y
la evaluación de contextos, ambientes o situaciones específicos. El psicólogo evaluador ha incorporado a su rol el de
valorador de intervenciones la importancia del contexto (ámbito geográfico, histórico y social) en la valoración misma.
Tipos de evaluación
Evaluación del sujeto en su contexto
Aquí nos interesa fundamentalmente: a) Evaluar los ambientes significativos para el sujeto en función de los objetivos
de evaluación; b) Evaluar cómo perciben los sujetos las variables ambientales y contrastar si sus percepciones son
concordantes con las de otros habitantes de dicho contexto; c) Analizar las relaciones funcionales entre los
comportamientos del sujeto y su entorno; d) Obtener datos sobre las variables ambientales funcionalmente
relacionada con los comportamientos-criterio y que se manipularán si se requiere una intervención; e) El ambiente se
evalúa en cada valoración de programas de acción propuestos. El ambiente real es tan importante como el ambiente
percibido, a la hora de considerar el contexto en su complejidad.
Evaluación de contextos: El ambiente puede ser estudiado desde una perspectiva ideográfica, o sea, un concreto
contexto según como lo percibe el sujeto. Esta evaluación esta sustentada desde cuatro orientaciones teóricas:
Psicología ecológica que plantea el estudio de los escenarios de conducta.
La ecología social cuyo exponente principal es R. Moos, centra su interés en variables ecológicas, dimensiones
estructurales de la organización, características de los habitantes del contexto y dimensiones psicosociales de grupos e
instituciones. Sus objetivos son descriptivos y clasificatorios y su concepto fundamental es el de "clima social"
El enfoque conductista-ecológico focaliza en el análisis de las relaciones funcionales entre el ambiente y la conducta
El enfoque cognitivo-perceptivo se centra en el estudio del ambiente percibido y, a través de él, pretende llegar a
formular una psicología ambiental descriptiva y clasificatoria.
Evaluación valorativa de intervenciones en contextos debido a que el ambiente tiene una dimensión diacrónica
relevante, es fundamental en la evaluación de intervenciones que se desarrolla en un tiempo determinado, tener en
cuenta que el contexto sufre una serie de modificaciones, no controladas, que pueden influir en los resultados. Por ello
coincidimos con R. Fernandez Ballesteros que tiene en cuenta 4 clases de análisis de contextos en la evaluación de
intervenciones; 1) el contexto gra. De pertenencia(S), definido por las condiciones físicas, sociales, culturales e
históricas del ámbito en el que se produce el problema que se pretende tratar, motor de la intervención; 2) el
contexto de aplicación (s), definido por las condiciones físicas, sociales, culturales e históricas del ámbito especifico,
donde se realizan los tratamientos, se seleccionan las unidades y se observan las operaciones; 3) el contexto diacrónico
(s-), presenta a lo largo de toda intervención y definido por los cambios que se producen en las condiciones de “s”; 4)
el contexto de generalización (S*) o ambientes donde van a ser generalizados los resultados de las evaluaciones.
En síntesis, la evaluación debe considerar en cualquier ámbito en que pretenda analizar científicamente la conducta de
un sujeto, grupo de sujetos o una determinada intervención; el contexto o entorno o ambiente especifico en el que el
objeto de evaluación se encuentra inmerso. Falta completar
5. ¿Porque es importante adaptar los instrumentos de evaluación? Relacione la adaptación con los contextos de
aplicación.

Aplicación
A1. Los constructores y los aplicadores de los tests deberían tratar de prever los tipos de problema que cabe esperar, y
tomar las medidas oportunas para evitarlo mediante la preparación de materiales e instrucciones adecuados.
A2. Quienes aplican los tests deberían de ser sensible a cierto numero de Editores relacionados con los materiales
utilizados para los estímulos, los procedimientos de aplicación, y las formas de respuesta, que pueden reducir la validez
de las inferencias extraídas de las puntuaciones.
A3. Aquellos aspectos del entorno que influyen en la aplicación de los tests deberían de mantenerse lo mas parecido
posible para todas las poblaciones a las que va dirigido el tests.
A4. Las instrucciones para la aplicación del test en el idioma fuente y en el objetivo deben minimizar la influencia de la
variación no deseada.
A5. El manual del test debería de especificar todos los aspectos del test y de su aplicación que han de revisarse al
utilizarlo en un nuevo contexto cultural.
A6. El aplicador no debe de interferir, debiendo minimizarse su influencia sobre los examinados. Deben de seguirse al
pie de la letra las reglas explicitas descritas en el manual del test.
Una adaptación implica considerar no sólo las palabras utilizadas al traducir la prueba sino también las variables
culturales involucradas. Tres niveles de adaptación de las pruebas psicológicas.
El primero corresponde al de la aplicación, este es, la simple y llana traducción de un test de un idioma a otro pero
sabemos que una correcta traducción no asegura un significado unívoco.
La segunda alternativa es la adaptación. En este caso a la traducción se agrega la transformación, adición o
substracción de algunos ítems de la escala original. Como se explicó, algunos ítems pueden cambiar su significado a
través de las culturas y, por lo tanto, necesitan modificaciones o ser eliminados. Así mismo ítems que no existen en la
versión original del test pueden representar mejor al constructo en la población en la cual se administrará la nueva
versión.
Finalmente, la opción ensamble En este caso el instrumento original ha sido modificado tan profundamente que
prácticamente se ha transformado en un nuevo instrumento original con los nuevos elementos, así se vuelve
inadecuado. El ensamble también se da cuando el constructo no está representado de forma adecuada por la versión
original en la cultura a la que se quiere adaptar la prueba.
Técnicas de Traducción

El proceso de traducción es complejo e implica más que la traducción lineal de las palabras escritas a un nuevo
lenguaje. Existen dos métodos comunes:
La traducción directa: aquí un grupo de traductores traducen el test desde el idioma original al nuevo idioma. Luego,
otro grupo de traductores, juzga la equivalencia entre las dos versiones. De este modo pueden realizarse las
correcciones pertinentes en las dificultades o errores identificados por los traductores.
La traducción inversa: un grupo de traductores realiza una traducción desde el idioma original al nuevo idioma; luego
un segundo grupo de traductores toma el test traducido (en el nuevo idioma) y vuelve a traducirlo al idioma original.
Seguidamente se realizan las comparaciones entre la versión original y la versión retraducida al idioma original para
determinar su equivalencia.

6. ¿Cómo mejoraría la validez y confiabilidad de la entrevista como técnica de evaluación? Defina los conceptos
utilizados.

La entrevista es una herramienta psicologica importante, pero comparte con los metodos de observación los
problemas de confiabilidad y validez. L aconfiabilidad requiere consistencia, pero los entrevistadores varían en su
apariencia, enfoque, estilo y, en consecuencia, en la impresión que causan en los entrevistados. Las impresiones
diferentes producen diferencias en la conducta; una persona puede ser amistosa y comunicativa con un entrevistador,
mientras que con otro sea hostil y distante. Además las percepciones que el entrevistador tiene del entrevistado
pueden ser distorsionadas por sus experiencias y personalidad.
La confiabilidad de una entrevista se determina, por lo regular, comparando las calificaciones dadas a las respuestas del
entrevistado por 2 o mas jueces. La magnitud de un coeficiente de confiabilidad entre calificadores calculado a partir
de esas calificaciones varia con la especificidad de las preguntas planteadas y las conductas calificadas; por lo generales
mas alta para la entrevistas estructuradas y semiestructuradas que para las no estructuradas. Sin embargo, aun cuando
las preguntas sean bastantes objetivas y se planteen en un formato estructurado, la confiabilidad entre calificadores de
los datos de la entrevista usualmente no es mayor de 80.
Revisiones mas recientes subrayan el hacho de que las entrevistas pueden hacerse mas validas mediante la planeación
y estructuración cuidadosa y el entrenamiento minucioso de los entrevistadores. Los resultados de una entrevista
tienen mayor validez cuando el entrevistador se centra en la información especifica (de trabajo o clínica) y las
respuestas se evalúan pregunta a pregunta (de referencia por 2 o mas evaluadores), mas que como un todo. Para
facilitar este proceso, toda la entrevista debe registrarse electrónicamente para su reproducción y evaluación posterior.
Así, la tarea de interpretar las respuestas de un entrevistado puede separarse de manera más efectiva del proceso real
de la entrevista. Pero no es suficiente con el registro de una entrevista en una cinta de video, y especialmente en una
cinta de audio. Las palabras habladas y las imágenes no siempre son claras, y el tono emocional y las variables
contextuales con frecuencia se pierden en un registro electrónico. Por esta razón, se necesita un observador humano
alerta que tome buenas notas para complementar el registro electrónico de una entrevista.

7. Establezca la relación entre Evaluación Psicológica y las siguientes nociones:


Psicodiagnóstico, Test y Valoración.

P4- EVALUACION PSICOLOGICA se define el uso del término “evaluación” argumentando que sé priorizan los aspectos
positivos de la conducta humana mientras que con el término anglosajón “psicodiagnóstico” se detectan patologías

…”es aquella disciplina de la psicología científica que se ocupa de la exploración medición y el análisis del
comportamiento tanto de aspectos cualitativos como cuantificables/cuantitativos según la técnicas (...) de un sujeto
humano o grupo especificado de sujetos con distintos objetivos básicos o aplicados (descripción, diagnóstico,
selección, predicción, explicación, cambio y/o valoración) a través de un proceso de toma de decisiones en el que se
encardinan la aplicación de una serie de dispositivos, tests y técnicas de medida y/o evaluación

La "evaluación" implica el análisis de una serie de variables conductuales y ambientales significativas, en un sujeto o
grupo de sujetos, en un momento determinado; la "valoración" tiene por finalidad la estimación del valor de un
determinado tratamiento, programa o intervención que se ha aplicado en un contexto a un sujeto o grupo de sujetos
específicos.

Un test lo que busca obtener es que un grupo o sujeto sean estimulados a realizar determinado tipo de actividades
para después ser evaluados en relación a su grupo de pertenencia. Un test supones tres cosas: 1) una situación
estandarizada 2) la posibilidad de poder estimar diferencias individuales en relación a los datos estadísticos obtenidos
3) contar con la información. Las técnicas psicométricas no son test, no están hechas en base a la idea de normas o
baremos.

Definiendo, entonces, valoración como lo hace R. Fernández Ballesteros (1987) vemos que ésta implica un proceso
mediante el cual se trata de estimar, a través de una metodología empírica, si se han alcanzado una serie de objetivos
socialmente relevantes formulados al aplicar una determinada intervención. En cuanto a la identificación y medición
de las variables en valoración, se utilizan las pruebas de las ciencias sociales: observación, informaciones de terceros,
etc.

8. Explique la siguiente afirmación y relaciónela con lo aprendido en la cursada:


“La escala de ejecución del WAIS III sólo requiere adaptación métrica”

9. Proponga algunas estrategias para superar los obstáculos y limitaciones que posee la entrevista en términos de
validez y confiabilidad.

10. Discuta la siguiente afirmación: “La evaluación psicológica que pretenda ser rigurosa y responsable debe basarse
en resultados obtenidos con pruebas estandarizadas y tipificadas”. Defina y relacione los conceptos utilizados.

11. Explique la siguiente afirmación y relaciónela con los pasos en la adaptación de técnicas: “La escala verbal del
WAIS III sólo requiere adaptación lingüística”

12. La información que se obtenga sobre la validez relacionada con un criterio en una prueba de rendimiento, puede
usarse al analizar la validez de constructo. Defina cada una de las nociones implicada en la pregunta.
Validez en Relación a un Criterio:
Indican la efectividad de la prueba para predecir el desempeño del individuo en actividades específicas. La medida de
criterio contra la que se validan los resultados del instrumento puede obtenerse aproximadamente al mismo tiempo
que los resultados de la prueba o después de un intervalo establecido

Se debe tener en cuenta la contaminación del criterio como fuente de error en la validación de la prueba, es decir, una
precaución esencial es asegurar que los propios resultados no influyan en la condición del criterio de cualquier
individuo. X ello los resultados deben mantenerse estrictamente confidenciales. Medidas de criterio: los criterios
empleados para encontrar las distintas clases de validez que se informan en los manuales caen en determinadas
categorías. Para las pruebas de inteligencia, por ejemplo, el índice de aprovechamiento académico, razón por la cual se
describen como medidas de aptitud académica. Los índices específicos utilizados como medidas de criterio son: las
calificaciones escolares, los resultados de pruebas de aprovechamiento, los registros de promoción y de graduación, los
honores y reconocimientos especiales y las valoraciones de docentes e instructores sobre la “inteligencia” de los
individuos. Para muchos propósitos la medida de criterio más satisfactoria es la que se basa en registros de
seguimiento del desempeño laboral real, criterio empleado en la validación de tests de inteligencia general. Es común
que se citen las correlaciones entre una prueba nueva y pruebas validadas previamente como evidencia de validez.
Existen otros procedimientos de validación que no desarrollaremos como el método de grupos contrastados o las
valoraciones de expertos como psiquiatras, maestros, supervisores laborales, etc.
En la construcción de una prueba con referencia a criterios: se define y delimita el dominio de conductas
correspondientes a cada objetivo. Siguiendo dicha definición se elaboran los ítems que evaluarán ese dominio de
conductas y todos los desempeños individuales serán referidos a ese dominio. El “dominio” puede ser de conductas,
objetivos, destrezas y competencias y la amplitud del dominio varía en función de la finalidad del test.

METODOS PARA VALIDEZ DE CONSTRUCTO:


Que mida el constructo tal como lo define teóricamente
1 análisis factorial: que todas las conductas del constructo esten representadas
2 correlacion con otras pruebas que midan el mismo constructo (criterio)
3 efecto de las variables emperimentales hallar diferencias entre grupos diagnosticado.

Al referirnos a la Validez, estamos hablando de que una técnica realmente mida la variable que dice medir. La Validez
refiere a qué y cómo mide lo que mide. La Validez es el valor que más afecta el resultado de una prueba. Hay tres tipos:
a) Predictiva: Saber en qué medida, la prueba predice un logro o un comportamiento. b) Concurrente: Se tiene en
cuenta cuando la prueba psicométrica se propone en lugar de otra información. Se obtiene mediante la aplicación de
dos técnicas independientes que miden el mismo constructo a los mismos sujetos y se mide la correlación de los
resultados, c) De Contenido: Supone un examen sistemático del contenido para determinar si comprende una muestra
representativa del constructo o variable que pretende medir y d) Estructural o de constructo: Es el grado en que una
técnica mide un constructo o concepto en la medida en que es buena operacionalización del mismo.
15-Describa los siguientes métodos: formas alternas, consistencia interna y división por mitades. ¿Cuál es la utilidad
de cada método? Ejemplifique uno de ellos con alguna de las pruebas administradas.
Formas alternas: exige que haya dos formas de la prueba, que deben ser iguales o muy similares, en términos de
cantidad de reactivos, limites de tiempo y otros factores similares. Consiste en aplicar ambas formas de la prueba a los
mismos examinados. La confiabilidad de la misma es la correlación, normal de Pearson, entre las puntuaciones
obtenidas de las dos formas.
Las formas alternas de la prueba pueden aplicarse en sucesión inmediata si son breves y poco exigentes, de lo
contrario quizás el intervalo sea de unos cuantos días o semanas.
Cuando se aplica en sucesión inmediata mide solo la inestabilidad o falta de confiabilidad debida al muestreo de
contenido. En pruebas con un intervalo más amplio mide la inestabilidad debida al muestreo de contenido y los
cambios en las condiciones personales y variaciones en la aplicación.
No se utiliza muy a menudo por que resulta bastante difícil elaborar una prueba, más aun dos o más formas alternas.
Consistencia interna: Es uno de los métodos que se utiliza con mayor frecuencia para expresar la confiabilidad de un
instrumento psicométrico. Hay diferentes métodos para determinarla: división por mitades, Kuder-Richarson y
coeficiente alfa. Todos estos métodos buscan la característica común de la consistencia interna de un instrumento.
Estos métodos generan un coeficiente de confiabilidad a manera de correlación, si embargo estos son claros.
División por mitades: Aquí se considera la aplicación de una sola prueba pero que se calificara por mitades, como si
cada mitad fuese una forma alterna de la prueba. Luego se correlacionan las puntuaciones sobre las dos mitades de la
prueba.
La prueba no se divide exactamente en una primera mitad y en segunda mitad de la prueba por que por lo general la
segunda parte incluye reactivos más difíciles y se estará más cansado hacia al final de la prueba. Por lo tanto el método
que se utiliza es consiste en dividir la prueba en reactivos de número par y non. En este caso, el resultado se conoce
como confiabilidad non-par. La correlación entre las dos mitades no da la confiabilidad de la prueba completa, a ella
debe aplicársele una correlación que genera toda la confiabilidad de todo el instrumento que se denomina Spearman-
Broun.
Un ejemplo de confiabilidad basada en la consistencia interna es el inventario de calidad de vida.

16- ¿Cual es el modelo de evaluación que subyace al Inventario de Respuestas de Afrontamiento –CRI? No olvide
referirse al marco teórico y autor de la prueba.

El modelo de evaluación que subyace al Inventario de Respuestas de Afrontamiento es el inventario (de papel y lápiz)
que consta de una serie de preguntas a contestar en el protocolo de repuesta cuyos autores son Rudolf H. Moos y B.
Moos, es una prueba que permite analizar la interacción entre el individuo y su entorno a través de un concepto
central que es el afrontamiento definido como aquellos esfuerzos cognitivos y conductuales constantemente
cambiantes que se desarrollan para manejar las demandas especificas externas y/o internas que son evaluadas como
excedentes o desbordadores de los recursos del individuo.
Este inventario ha sido traducido y adaptado por la Dra. I. M. Mikulic y su equipo de investigación.
Desde un marco conceptual ecológico social, combina dos perspectivas al evaluar el afrontamiento de un sujeto, por
un lado considera la orientación o el foco del afrontamiento y por el otro el método de afrontamiento. Desde el foco de
afrontamiento las respuestas se dividen en aproximación o evitación. Cada uno de estos dos grupos de repuestas se
divide en dos categorías que reflejas los métodos de afrontamiento cognitivo y conductual.

19-¿Cómo construiría una prueba para evaluar calidad de vida? Mencione y explique cada paso a seguir. Hogan, T
(2004)
Hay seis etapas principales en la elaboración de pruebas, las cuales no siempre están del todo diferenciadas.
La elaboración de una prueba comienza con un claro planteamiento de la finalidad del instrumento, que consiste en
delinear el o los rasgos que se medirán y la audiencia meta de la prueba.
Luego se debe determinar si ya existe una prueba apropiada para la finalidad planteada.
La segunda etapa de diseño preliminar consta de decidir sobre las interpretaciones que se busca dar a las
puntuaciones, así como las consideraciones de orden práctico. En consecuencia deben ahondarse los siguientes
aspectos: Se debe determinar si la prueba se aplicara en forma individual o a un grupo, el tiempo aproximado de
duración de la prueba, que formato se utilizara para los reactivos (opción múltiple, verdadero o falso, etc.), la cantidad
de puntuaciones que generara la prueba, la clase de reporte de las puntuaciones, cuanta capacitación se necesitara
para la aplicación y la calificación. También es posible que se necesite realizar una investigación de antecedentes sobre
el ámbito que se probará la prueba.
Estas consideraciones de diseño determinaran qué clase y qué cantidad de reactivos se redactarán y pueden conducir a
una depuración en el planteamiento de la finalidad de la prueba.
Etapa 3 de preparación de los reactivos: incluye tanto la redacción de éstos como su revisión. El reactivo de una prueba
posee 4 partes: el estímulo al cual responde el examinado, el formato de respuesta, las condiciones que rigen, y los
procedimientos para calificar la respuesta.
Unas ves que se han redactado los reactivos se someten a una revisión desde varias perspectivas. En función de su
claridad, corrección gramatical, y conformidad con las reglas para redactar reactivos. También se hace una revisión de
la corrección de contenido y se buscan posibles sesgos de género raciales o étnicos.
Etapa 4 Análisis de reactivos: Esta es una etapa crucial en la elaboración de pruebas, pues conlleva el análisis de los
datos obtenidos al someter aprueba los reactivos. Consiste en tres procesos muy relacionados: prueba de los reactivos,
análisis estadistico y selección de reactivos. La prueba de reactivos consta de dos etapas una formal y una informal. En
la etapa informal se aplican los reactivos a unos 5 y 10 individuos similares a aquellos a los que se pretende administrar
la prueba y se les pide que comenten los reactivos y las instrucciones. La prueba formal supone aplicar los nuevos
reactivos de la prueba a muestras representativas de la población meta de examinados.
El análisis estadístico: los procedimientos tradicionales de análisis de reactivos, dependen de dos conceptos: el índice
de dificultad del reactivo que alude al porcentaje de examinados que responden de manera correcta y discriminación
del reactivo que alude a la capacidad de un reactivo para diferenciar en términos estadísticos en una forma deseada
entre los grupos de examinados.
También un análisis de reactivos suele ofrecer información sobre el comportamiento de los distractores. Su análisis
genera información sobre la comprensión o malentendido en relación a un reactivo y sirve para efectuar la revisión de
un reactivo, para ver si esta atento etc.
El análisis factorial se emplea para ayudar a elegir los reactivos que generan relativas puntuaciones independientes y
significativas.
En cuanto a la selección de reactivos, de todos los reactivos preparados y evaluados se seleccionan los que aparecerán
en la prueba que se estandarizara.
La quinta Etapa: programa de estandarización y de investigación auxiliares
En esta etapa se generan las normas de la prueba, las cuales suelen analizarse de acuerdo al genero, la educación,
zona geográfica, etc. Se trata de un importante aspecto de la diligencia que se emprende al elaborar una prueba. Uno
de sus resultados más importantes es el baremo e implica instrucciones, cantidad de reactivos, limites de tiempo,
materiales a utilizarse, etc.
La sexta y última etapa: preparación de materiales finales y publicación
Además de la impresión de un cuadernillo, tiene que ver con las instrucciones de aplicación e interpretación, manuales
técnicos, los reportes de puntuaciones y otros materiales complementarios.

25. ¿Qué es un sesgo? ¿Qué tipos de sesgo conoce? Explique al menos dos de los que considera más frecuentes.

Según Martinez Arias, el sesgo de los tests se convirtió en un tema dominante en los años sesenta, utilizándose el
término para referirse a diferencias de grupo no justificadas por el constructo y/o por el objetivo del test.
Asimismo, Hogan dice que el sesgo en la prueba significa que una prueba funciona de manera diferente con distintos
grupos. Una prueba esta sesgada se mide diferentes constructos o genera pronósticos distintos. Sólo hay sesgo si las
diferencias en los promedios no corresponden a una diferencia real en el rasgo subyacente que la prueba trata de
medir. Una prueba sin sesgo debe generar predicciones adecuadas para varios grupos.
Otra definición aceptada es la de Camilli y Shepard (1994): “sesgo de un test es una fuente de invalidez o de error
sistemático que se refleja en cómo un test mide a los miembros de un grupo particular.”
En las investigaciones psicométricas sobre el sesgo, se han seguido dos aproximaciones estadísticas para su detección;
una de ella utiliza un criterio externo al test y la otra un criterio interno, normalmente las puntuaciones en el propio
test. Osterlind (1979) define el externo como: “Sesgo externo es el grado en que las puntuaciones del test muestran
correlaciones con variables irrelevantes para su interpretación y ajenas a éste.”. Este mismo auto define el sesgo
interno mediante las propiedades estadísticas de los ítems, en cuanto que se comportan de forma diferente en
distintos subgrupos de sujetos extraídos de la misma población.
En el contexto de la validez relacionada con el criterio, hay dos tipos de sesgo posibles: de intersección y de la
pendiente. El sesgo de intersección tiene que ver con la relación entre las medias del grupo en la prueba y el criterio, y
se exhibe si sistemáticamente subpredice o sobrepredice una ejecución del criterio para una grupo particular. El sesgo
de la pendiente tiene que ver con el coeficiente de validez, y se produce cuando hay validez diferencial, es decir,
cuando el coeficiente de validez es significativamente diferente en dos grupos.
Van de Vijver y Tanzer (1997) identificaron diferentes fuentes de sesgo:
a) Sesgo de constructo: Este tipo de sesgo se da “cuando el constructo medido no es idéntico a través de los grupos
culturales” (Van de Vijver y Tanzer, 1997). La importancia que cada cultura otorga a ciertas conductas se encuentra en
esta categoría. Conductas de ética y civismo que en algunas sociedades pueden ser normales en otras pueden
constituir un verdadero rasgo de rigidez y asemejarse a una conducta obsesivo compulsivo.
Aquellos constructos, que tienen y han demostrado características universales se los denomina “éticos”, mientras que
aquellos que son utilizables sólo en uno o pocos grupos culturales se los denomina “émicos”.
b) Sesgo metodológico: Este sesgo reconoce tres formas.
El sesgo de muestra: que se da cuando las muestras son incomparables entre sí. La cantidad de años de escolaridad
que poseen los sujetos de una muestra es una variable determinante en el desempeño del mismo en un test
determinado, especialmente si se trata de un test de habilidad. El nivel sociocultural, la motivación, la composición por
genero y edad de los sujetos son otras variables que pueden hacer incomparables a dos muestras que pueden mostrar
resultados muy diferentes en un test determinado.
El sesgo en el instrumento: que puede provenir de las características del instrumento. La familiaridad que los sujetos
tienen con los estímulos presentados tiene una gran importancia. Algunos estímulos son elementos utilizados en
algunas culturas y no existen en otras o son irrelevantes. El ítem de ejemplo en el Sub. Test de Ordenamiento de lamina
WISC III que muestra a una mujer frente a una maquina expendedora de latas de gaseosa tiene muy poco valor en
culturas árabes, por ejemplo, o en zonas rurales de nuestro país. El idioma es otra fuente de sesgo de instrumento. La
traducción de un idioma a otro frecuentemente subestimada, es un problema importante que requiere una
metodología especifica a seguir, con lo que también se considera los modos de escritura y lectura de cada cultura
(entre los idiomas occidentales existen diferencias como que en ingles no existe la “ñ” que el alfabeto sueco contiene
mas vocales, y en portugués existen distintos tipo de a. Los métodos de respuesta constituyen otra fuente de sesgo del
instrumento. Las láminas de respuestas del Test de Matrices Progresivas de Raven que implica completar una secuencia
lógica con una figura opcional, incluyen la figura faltante al final de la segunda fila, con lo que asume una lectura de
izquierda a derecha. Este hecho fue demostrado por Carpenter, Just y Shell (1990) en un muy preciso estudio que
implica una serie de desventajas para los sujetos de las culturas árabes quienes involuntariamente van a intentar
resolver la prueba de derecha a izquierda, forma en que se lee su idioma.
El sesgo de administración: incluye problemas tales como dificultades en la comunicación, es decir, dificultades para
que el entrevistado entienda las instrucciones del entrevistador ya sea por la dificultad de las palabras utilizadas, el
modo de explicación de las instrucciones o un inadecuado manejo del idioma de alguna de las partes. También se
incluyen las alteraciones en la manera de administrar las pruebas. Normalmente los manuales incluyen instrucciones
de administración que en muchos casos no son adecuadas para la población a aplicar. Los administradores del Test
entonces adaptan esas instrucciones según su criterio personal. Otro punto importante es el uso de cronómetros que
produce serias alteraciones en los resultados.
Sesgo de ítem: Se produce cuando el mismo tiene diferentes significados en distintas culturas. Ciertos grupos culturales
pueden obtener puntajes significativamente distintos en un ítem determinado a pesar de obtener un puntaje total
similar. La deseabilidad social o la relevancia cultural, entre otros factores, pueden producir el sesgo de ítem. Tanzer
(1995) demostró que aunque la estructura factorial de un Test de autoconcepto académico era similar cuando se lo
aplico a estudiantes australianos y singaporeanos, existían diferencias sustanciales entre estas muestras cuando se
compararon algunos ítems específicamente. Este tipo de sesgos también actúa en test neuropsicologicos.

26. Piense en una prueba cuyo objetivo es evaluar Inteligencia. ¿Cómo la validaría? Explique por lo menos tres tipos
de validez.

Validaría una prueba cuyo objetivo es evaluar Inteligencia por medio de la Validez relacionada con el Criterio, en el
contexto de Validez Concurrente, ya que es adecuada para las pruebas que se emplean para “diagnosticar” el estado
actual. Revisaría la concordancia entre el desempeño en la prueba y la condición actual en alguna otra variable. Este se
diferencia de la Validez Predictiva por el tiempo de la variable del criterio, ya que este busca pronosticar la condición en
algún criterio a la que se llegará en el futuro. Como criterio emplearía otra prueba, demostrando la correlación entre la
prueba que se validará y algún otro instrumento que se sabe o supone que es un indicador válido del constructo de
interés.
Una medida de criterio para las pruebas de inteligencia es el índice de aprovechamiento académico, razón por la cual
se describen como medidas de aptitud académica. Los índices específicos utilizados como medidas de criterio son: las
calificaciones escolares, los resultados de pruebas de aprovechamiento, los registros de promoción y de graduación, los
honores y reconocimientos especiales y las valoraciones de docentes e instructores sobre la “inteligencia” de los
individuos.
Otra validez que demostraría sería la Validez de Constructo. Este consiste en evidenciar que la prueba mide el
constructo. Utilizaría el Análisis Factorial para identificar las dimensiones comunes que subyacen al desempeño en
muchas mediciones diferentes. Esta técnica ayuda a comprender la estructura de las pruebas, de modo que las
técnicas son una fuente relevante de información para la validez de constructo. Esta técnica estadística sirve para
analizar las interrelaciones de los datos conductuales y reducir el número de variables o categorías en cuyos términos
puede describirse el desempeño de cada individuo a un número relativamente pequeño de factores o rasgos comunes.
Una vez que los factores se han identificado, sirven para describir la composición factorial de las pruebas.
A su vez, utilizaría el estudio de los Cambios en el Desarrollo para evidenciar la Validez del Constructo. Este consiste en
contrastar a grupos a edades o grados diferentes. En este caso, cabe esperar que los niños a edades sucesivamente
mayores cuenten con una capacidad mental cada vez superior.
Un rasgo deseable de la prueba es la Validez Aparente, que no es una validez en el sentido técnico porque no se refiere
a lo que la prueba mide verdaderamente, pero señala el hecho de que una prueba “parece” medir su constructo meta.
Asimismo, utilizaría la Validez de Contenido, demostrando el grado de correspondencia entre el contenido de la prueba
y el del campo de interés. El contenido de la prueba abarca una muestra representativa de todos los posibles
contenidos del campo, por lo que hay que hacer un examen sistemático del contenido de la prueba para determinar si
cubre una muestra representativa del área de conducta que debe medirse.
27. ¿Qué implica realizar un uso responsable y ético de las pruebas en la evaluación en contexto laboral?

En el mundo de los negocios, las pruebas se usan en particular en el área de recursos humanos. Los psicólogos usan
pruebas y procedimientos de medición para evaluar cualquier conocimiento o habilidad en las que se necesite ser
evaluado un empleado, un candidato a ser empleado, para tomar decisiones de asensos, transferencias y elegibilidad
para una mayor capacitación.

28. Mencione algunas estrategias, al menos dos, que considere útiles a los fines de analizar los reactivos de una
prueba en construcción.

El procedimiento más empleado en el análisis inicial de reactivos es la correlación de cada uno de ellos con el puntaje
total de la prueba. Si el test consta de diversas subescalas, cada ítem debe correlacionarse con el puntaje total de esa
parte, no con el puntaje total de la prueba.
En las pruebas de habilidades (ítems dicotómicos) es importante conocer el índice de dificultas de cada ítem, o sea el
porcentaje de personas que responden acertadamente al reactivo analizado. La proporción de acierto de un ítem es un
estimador adecuado de la dificultad de un ítem. Sin embargo, esta información hay que complementarla con la
distribución de frecuencias en todas las opciones de respuesta (en elecciones múltiples) y las estimaciones de
proporción para diferentes rangos de puntuación en la prueba total. Con la misma lógica deben eliminarse los reactivos
donde la mayoría de los sujetos de la muestra obtiene el mismo puntaje puesto que tales elementos de prueba no
discriminan entre los evaluados (Bandura, 2001).
Las pruebas referidas a criterios, como explica Martinez Arias (1995), se evalúan y seleccionan los ítems de una forma
particular, diferente a las pruebas referidas a normas. El análisis se realiza comparando los resultados de un grupo
antes de aplicar un programa de aprendizaje y después del mismo, o comparando dos grupos similares, uno de ellos
que recibió capacitación, y el otro no.
Una vez realizada la aplicación de la prueba piloto y habiendo obtenido resultados estadísticos sobre el
comportamiento de cada ítem, se podrá tomar decisiones sobre cuáles de ellos deben integrar la forma final del test y
hacer estimaciones de su confiabilidad y validez mediante algunos de los procedimientos ya conocidos.
La lógica de este proceso de análisis es obtener pruebas lo más homogéneas posible, es decir, donde todos los
reactivos se relacionen con un núcleo común de medición que es el constructo o dominio, información que se obtiene
aplicando a los reactivos de una escala el coeficiente de Cronbach, por ejemplo.
El paso decisivo para asegurar la unidimensionalidad de cualquier escala homogénea y el primer paso en un conjunto
inicial de ítems heterogéneos es el análisis factorial (Martinez Arias, 1995). El análisis factorial es esencialmente un
método para agrupar las variables que se correlacionan fuertemente entre sí y cuyas correlaciones con las variables de
otros agrupamientos es menor (Airen, 2003). El análisis factorial debe realizarse sobre muestras extensas no inferiores
a 300 sujetos para obtener datos útiles.

29. Defina el concepto de confiabilidad relacionándolo con el sesgo en la medición. Relaciónelo con el concepto de
fuente de error.

Una prueba confiable es consistente y precisa. Las pruebas psicológicas son confiables en grados diversos. Las
diferencias en el desempeño de un sujeto pueden estar causadas por diversas razones: distinta motivación en las
diversas situaciones en que fue evaluado, distintos niveles de cansancio o de ansiedad, estar más o menos
familiarizado con el contenido del test, etc. Por todo ello, los puntajes de una persona contienen una cierta cantidad de
error. El puntaje que obtiene una persona en una prueba incluye un puntaje real y un margen de error que puede
aumentar o disminuir dicha puntuación verdadera. Este error de medición, aleatorio e impredecible, se distingue de los
errores sistemáticos que también afectan el desempeño de los evaluados por un test, pero de una manera más
consistente que aleatoria.
Los errores sistemáticos pueden afectar a todas las observaciones por igual y ser un error constante, o afectar a cierto
tipo de observaciones de manera diferente que a otras y ser un sesgo.
Las causas por las cuales los puntajes obtenidos por un evaluado pueden no ser confiables son fuentes de error, y
algunas fuentes son:
Al construir o adaptar un test: hay que prestar atención a la selección de los ítems y a la formulación de las consignas,
cuidando principalmente el muestreo del contenido para evitar que sea tendencioso o insuficiente. Los tests son más
confiables a medida que aumenta el número de respuestas alternativas para evitar los efectos de la adivinación.
Al administrar un test: todos los evaluados deben tener las mismas condiciones, tratando de controlar posibles
interferencias ambientales como el ruido, la iluminación o en confort del lugar. Las consignas deberían ser
estandarizadas, especialmente en lo referido al control de los tiempos para la realización del mismo.
Al evaluar un test: se deben sostener los criterios de evaluación.

30. ¿Qué características generales debería reunir una evaluación ecológica, multicontextual y plurivariable? Defina
cada uno de los términos técnicos empleados en la pregunta.

La evaluación psicológica ha vivenciado una evolución de tipo centrífugo e integrativa, desde el interior del sujeto hacia
el análisis de sus contextos, incorporando un triple análisis de la realidad: como externa al sujeto, como interactiva y
constructiva con el individuo y como sustantiva en sí misma.
De esta manera se arribó a una evaluación ecológica, multicontextual y que se focaliza en plurivariables personales,
enfocada desde una perspectiva interaccional, reconociendo la influencia conjunta de una pluralidad de fenómenos
para lograr la descripción y explicación de la conducta.
Según Forns (1993), el análisis ecopsicológico se caracteriza por ser:
Plurivariable: se analizan las características del sujeto, considerándolo en sí mismo como un contexto con multiplicidad
de variables de distinta naturaleza. Este es el contexto intrapersonal.
Ecológico: se analiza la conducta del sujeto en el propio contexto en que se produce.
Interaccional: se analizan las relaciones de la interdependencia entre las variables, en busca de las líneas de causalidad
de la conducta.
Multicontextual: se analizan variables macrocontextuales, las exigencias contextuales y la variabilidad situacional y
temporal entre tales contextos.

31. ¿Cómo obtendría la equivalencia métrica de una prueba psicológica? Incluya para su respuesta la noción de
Baremo. Ejemplifique con una prueba utilizada en la cursada.

32. Explique la diferencia entre las técnicas psicométricas y proyectivas incluyendo los conceptos de validez y
confiabilidad.

Las técnicas psicométricas y proyectivas pertenecen a distintos modelos centrados en el sujeto.


Las técnicas psicométricas pertenecen al Modelo de Atributos, el cual considera que la conducta está determinada por
atributos intrapsíquicos o variables organísmicos (habilidades, intereses o rasgos) que diferencian a unos sujetos de
otros. Utilizan en general la metodología correlacional para determinar las diferencias individuales y ubicar al sujeto en
relación al grupo normativo. Las variables intrapsíquicas son evaluadas mediante tests estandarizados construidos
según estrategias teórico relacionales, empíricas y factoriales, apoyándose en el supuesto de estabilidad de la
conducta. Tienen como objeto describir, clasificar y predecir el comportamiento del sujeto.
En cambio, las técnicas proyectivas pertenecen al Modelo Psicodinámico, el cual considera que los factores
intrapsíquicos constituyen la causa de la conducta manifiesta y se producen bajo la forma de impulsos, motivos, deseos
y conflictos. Las variables objetos de estudio son los procesos y los recursos adaptativos a su servicio, y la accesibilidad
del sujeto al tratamiento psicoanalítico. Su objetivo es ayudar al cambio terapéutico, dándole menor importancia a la
clasificación nosológica o a la comparación interindividual. El método que utiliza es inductivo a partir de observaciones
clínicas, de las que se infieren los elementos dinámicos y estructurales que dan cuerpo a la conducta y que permiten su
comprensión.
Por otro lado, Fernández Ballesteros (1980) clasifica las técnicas y tests relacionando sus respectivos enfoques teóricos
y metodológicos.
De las técnicas Psicométricas dice que son altamente sofisticados, con material estandarizado y tipificado en sus tres
fases fundamentales: aplicación, corrección e interpretación. Tienen una máxima estructuración del contenido y tienen
validez y confiabilidad.
De las técnicas Proyectivas dice que son sensibles para revelar aspectos inconscientes de la conducta, permitiendo
provocar una amplia variedad de respuestas subjetivas. Son de sustrato dinámico y material variado. Logran la
proyección del mundo privado, permiten organizar el campo, interpretar el material y reaccionar ante él afectivamente.
El problema más serio de las técnicas proyectivas es que pertenece a un modelo que tiene presupuestos inmunes a la
contrastación empírica. Por lo tanto, resulta difícil establecer su validez. A pesar de esto, en los últimos años se
realizaron serios esfuerzos por mejorar la confiabilidad de algunos instrumentos de evaluación.

33. Refiérase brevemente al nacimiento de la Psicometría. ¿Qué aporte novedoso implica la mirada ecopsicológica?
Uno de los primeros en hablar de medición en psicología fue C. Wolff en el S. XVII, quien además de introducir la
distinción entre una psicología empírica y racional, introdujo también el concepto de Psicometría al plantear que “…
puede medirse la magnitud de la atención por el tiempo durante el cual hemos seguido un razonamiento…” (R. López
Feal, 1986). Ya en el siglo XIX, Herbart (1776-1841) sostiene que los razonamientos de la psicología deben ser
matemáticos y se plantea la necesidad de cuantificar las diferencias son apenas perceptibles y las diferencias
individuales en la percepción. A finales de dicho siglo, al publicarse “Biometría” de Galton y Pearson se inaugura el uso
de términos como psicometría, econometría y sociometría.
Dos hitos importantes en esta corta historia de la Psicología y la medición son: la fundación de la Sociedad Psicométrica
en 1935, con el propósito primario de promover el desarrollo de la Psicología como una ciencia racional cuantitativa; y
la publicación de la revista Psychometrika en 1937 autoproclamándose revista no-estadística y reuniéndose con la
Asociación Americana de Psicología (APA). Otro saber fundamental para esta rama del saber psicológico, es la
bifurcación operacional en dos vertientes de la psicología cuantitativa, que Cronbach (1957) denomina las dos
disciplinas de la psicología científica: la Psicología Experimental, con mediciones en situaciones controladas y
manipuladas de laboratorio; y la Psicología Correlacional, con estudios de diferencias individuales y tests mentales
clásicos.
Actualmente existen dos disciplinas académicas representantes de la dicotomía metodológica de la medición en
Psicología: la Psicología Experimental y la Psicometría.

34. Relacione y defina los siguientes conceptos dando cuenta de su utilidad en la Evaluación Psicológica: normas,
test y equivalencia métrica.

Según Cohen y Swerdlik (2001), la “evaluación psicológica” es la recopilación e integración de datos relacionado con la
psicología, con el propósito de hacer una valoración psicológica, lograda con el uso de herramientas como pruebas,
entrevistas, estudios de caso, observación conductual y aparatos y procedimientos de medición diseñados en forma
especial.
Según Pelechano (1976), el “test” implica “un instrumento sistemático y tipificado que compara la conducta de dos o
más personas”.
Mikulic define los tests psicológicos como “técnicas sistemáticas que comparan la conducta de dos o más personas”. Lo
esencial de un test es poder observar si revela distintas individualidades que se mantienen constantes en igualdad de
circunstancias.
Siguiendo a Anastasi & Urbina (1998) entendemos que un test es un instrumento de evaluación cuantitativa de los
atributos psicológicos de un individuo. La A.P.A (1999), propone una conceptualización abarcativa y exhaustiva al
definir a un “Test” como “un procedimiento evaluativo por medio del cual una muestra de comportamiento de un
dominio especificado es obtenida y posteriormente evaluada y puntuada empleando un proceso estandarizado”.
Los tests tienen tres cualidades fundamentales:
Funciones: -Selección y Clasificación, colocando al individuo en el puesto que le corresponde, o en el nivel de
rendimiento según el contexto.
-Valoración de los Procedimientos, valorando individuos y métodos o decidiendo la técnica que es más idónea.
-Verificación de Hipótesis Científicas, proporcionando una medida más objetiva que la que pudiera suministrar una
simple impresión.
Estandarización: Siendo determinadas de antemano para su aplicación en distintos lugares y tiempo, y suministrando
la información de qué puntuaciones suelen obtener muestras representativas correspondientes.
Objetividad: Es variables según el test, siendo el más objetivo aquel al que todos los observadores le asignan el
mismo valor a una ejecución determinada.
Según Martinez Arias, las principales características de los tests son:
-Ser medidas objetivas
-Representar una muestra de conducta
-Es una técnica sistemática y estandarizada
-Permite obtener puntuaciones que se pueden comparar
-Las puntuaciones obtenidas se utilizan para la predicción o inferencia de otras conductas.
En los instrumentos psicológico, las puntuaciones suelen interpretarse haciendo referencia a normas que representen
el desempeño de la muestra de estandarización en la prueba; es decir, las normas se establecen empíricamente al
determinar lo que hacen en la prueba los miembro de un grupo representativo. La puntuación transformada de
cualquier individuo se refiere entonces a la distribución de las puntuaciones obtenidas por la muestra de
estandarización para descubrir qué lugar ocupa en esa distribución.
La teoría psicométrica desarrolló orientaciones sobre la determinación de unidades de medida y escalas de
puntuaciones en las que pueden expresarse los test, así como ayudar a su interpretación o normas. Según Petersen, se
definen los siguientes conceptos:
Escalamiento, es el proceso de asociar número a las respuestas de los sujetos a los ítems o tests.
Construcción de Normas, consiste en la recogida de datos sobre un grupo normativo de referencia, sobre el que se
obtienen estadísticos que ayudan en la interpretación de las puntuaciones de los tests.
Equiparación, es el proceso que asegura la intercambiabilidad de formas múltiples de tests.
Siguiendo a Tornimbeni et al. (2004), la construcción de una escala de medición de algún aspecto del comportamiento
humano requiere previamente un exhaustivo análisis conceptual del dominio o rasgo a medir. En la medición del
rendimiento se pueden utilizar pruebas referidas a criterios o referidas a normas. Para la elaboración de pruebas por
normas, se parte de la construcción de una tabla de especificaciones que es una tabla de doble entrada por medio de
la cual se relacionan los objetivos cuyo logro se desea evaluar con los contenidos específicos correspondiente. A partir
de esta tabla se determina la cantidad de ítems que conformará la prueba y se lleva a cabo su redacción.
La Equivalencia Métrica nos permite conocer si los puntajes de las distintas versiones son comparables. El Análisis del
Funcionamiento Diferencial de los Ítems y la detección de los sesgos en los ítems o “ítem bias” ayudarán en la
Equivalencia Métrica. Es decir, el análisis comparativo entre instrumentos de medida como conjuntos de ítems, se debe
agregar el estudio de sus componentes individuales que evalúa el funcionamiento diferencial como paso previo a una
posterior evaluación del sesgo o falta de equivalencia métrica.
Es muy necesario un estudio normativo que evalúe las dimensiones semánticas de las palabras para que se produzca
una concordancia semántica que garantice la igualdad en la familiaridad y significatividad de los términos. Contar con
pautas normativas objetivas basadas en la frecuencia de uso de las palabras es esencial para alcanzar la equivalencia
semántica y en consecuencia la equivalencia métrica. Resumiendo, si queremos obtener instrumentos con equivalencia
conceptual, lingüística y métrica; debemos realizar un trabajo fundado en habilidades y conocimientos de especialistas
que tengan en cuenta la cultura, el idioma, las metodologías de investigación y el correcto uso de los procedimientos
estadísticos. O sea, que la calidad de la adaptación de una prueba es el resultado de la calidad de los diversos pasos y
de la cadena de sucesivas decisiones interdependientes que se deben tomar. En este sentido es destacable el análisis
de los “sesgos” o “bias” que se encuentran en los ítems y en los instrumentos como punto a tener en cuenta al
seleccionarlos para su adaptación.

35. ¿Por qué Hogan (2004) habla de diferenciar los usos cotidianos de la palabra confiabilidad? ¿Qué diferencia
fundamental existe con el uso técnico de la palabra? Fundamente su respuesta.

Para Hogan es necesario ser consciente de las diferencias que hay entre los usos cotidianos de la palabra
“confiabilidad” y su empleo técnico en la psicometría porque tienen varios significados relacionados que son
importantes. Sin embargo, la confiabilidad de las pruebas tiene un sentido más técnico y cuantitativo. Los mejores
sinónimos en psicología del término técnico confiabilidad son: Consistencia, replicabilidad y fiabilidad. Una prueba
confiable es la que consistentemente genera la misma puntuación o una similar en el caso de un individuo. La
calificación puede replicarse al menos con cierto margen de error. Podemos fiarnos de que una prueba confiable
genere en buena medida la misma puntuación en un individuo.

36. ¿Por qué considera usted que la evaluación psicológica es un proceso? Ejemplifique la noción de proceso
evaluativo con el ámbito jurídico.
Los tribunales se basan en datos de pruebas psicológicas y testimonios de expertos relacionados como una fuente de
información para ayudar a responder si la persona es competente para ser enjuiciada o para saber si un acusado
distinguía el bien del mal en el momento de cometer el delito.

37-¿cuál es la importancia de tener en cuenta la finalidad en la construcción de una técnica de evaluación


psicológica? ¿Qué relación existe entre el constructo y los reactivos?

El proceso de elaboración de pruebas educativas y psi comienza por lo común con un planteamiento sobre el/los
propósitos de la prueba y el constructo o ámbito de contenido que habrá de medirse-
Se debe definir con toda claridad: variable (s) a medir y meta, o grupo meta-También debemos preguntarnos si existe
ya una prueba para alcanzar nuestro propósito, antes de elaborar una nueva-
Considerar los aspectos del diseño preliminar:
1. modo de aplicación: será individual o a grupo
2. duración: aspecto relacionado con la cantidad de reactivos y la sensibilidad de la prueba-
3. formato de los reactivos: opción múltiple-V o F, Acuerdo o desacuerdo, construcción de respuestas.
4. Cantidad de puntuaciones: esto es conforme al tiempo q demandara la prueba también.
5. Informes de las puntuaciones: con que exactitud se pretende informar (método computarizado o narrativo)
6. Capacitación del aplicador: ¿requiere de entrenamiento extra?
7. Investigación de antecedentes: se requiere de una búsqueda bibliografía. Estándar
¡¡¡ESTA PRIMER ETAPA ES FUNDAMENTAL PARA EL POSTERIOR PROCESO DE SELECCIÓN DE REACTIVOS!!!

ORIGEN DE LAS PRUEBAS: 3 fuentes principales: necesidad practica (ej.: Binet elaboro una prueba con el fin de
identificar a los niños que posiblemente requieran de una educación especial.
Fundamento teórico: como las matrices progresivas de Raven. (inst para medir el factor “g” de la inteligencia. Luego
se emplean en contextos aplicados.
Para adaptar o revisar pruebas existentes: dada la necesidad de cambio contextual se requieren nuevos reactivos y
normas-
También para personas con distintas discapacidades.
Preparación de los reactivos:
Reactivo: posee cuatro partes:
1. Estimulo: al que responde el examinado (pregunta o imagen acompañada por una pregunta oral)
2. Formato: o método de respuesta. (selección o construcción de respuesta)
3. Condiciones: como se registra la respuesta, si hay cronometro o no…
4. Procedimientos para calificarla ( correcto-incorrecto, puntajes o a juicio del examinador – en proyectivas)
Se eligen los tipos de reactivo más en función del formato.
Selección de respuesta: más de una opción. Se denomina también opción múltiple, elección forzada
Puede ser V o F o formato Likert: “completamente de acuerdo” a “completamente En desacuerdo.”
Construcción de respuesta: puede ser respuesta libre- donde no esta limitado a una serie de opciones, o llenar un
espacio en blanco- esto se usa en las pruebas de conocimiento o evaluación de desempeño lo q recibe mucha atención
en lo educativo, en lo labora “portafolio”, y en lo conductual: poner la persona en situación.

Para la calificación se procede por la escala de calificación grafica donde las respuestas. Se convierten en forma nº.
Pero también se puede proceder con un diferencial semántico: poniendo un adjetivo al sujeto.
También hay otros tipos de calificación: sistema de puntuaciones: puntuación media (no es la peor ni mejor
respuesta), puntuación plus (por tiempo) aplicar una corrección por adivinación, también en pruebas de personalidad
importa la orientación y no el grado de acierto.
Hay dos factores clave para la buena calificación: asegurar la confiabilidad entre calificadores (sobre todo en
construcción De respuestas) y concebir un esquema de calificación. También otros métodos como la calificación
holística: consiste en que el evaluador se haga un juicio sobre la explicación, solo hay una calificación general sobre la
calidad del ensayo
La calificación analítica: donde el mismo ensayo se valora en dimensiones diferentes. (…)
La calificación de rasgo primario: el grado en que un producto logra la finalidad solicitada es el rasgo 1º
Aunque el juicio de examinador es importante actualmente se utilizan sistemas de calificación automatizada-
38-¿A qué se refiere Hogan (2004) cuando habla de los problemas de la validez de contenido? Nombre y explique
por lo menos dos.

Los problemas de la validez de contenido atañen, por un lado, en que es difícil obtener una especificación clara del
campo de contenido. Por ejemplo: en el contenido de “los conceptos matemáticos en los grados primero a tercero”,
podría determinarse revisando las guías curriculares de 5 estados; sin embargo, las guías de los planes de estudios
entre ellos difieren ligeramente. Suponga que se revisan las guías de los 5 estados, por ahí 3 incluyan conocimientos de
las unidades métricas, en los grados de 1º a 3º, pero otros dos tal vez pospongan este tema hasta el 4º grado. ¿Cómo
se maneja esto?
Por otro lado, al aplicar la validez de contenido se da al juzgar qué tan bien los reactivos de la prueba cubren los
elementos de las especificaciones de contenido. Los reactivos que tienen una clasificación común pueden variar mucho
en cuanto a las habilidades que exigen. Por ejemplo: muchos reactivos diferentes aplican a una categoría de contenido
como “hechos básicos de la multiplicación” ¿todos estos reactivos son apropiados por igual? ¿Todos miden igual de
bien la categoría del contenido? Tal vez no. La persona que juzga la validez del contenido debe examinar los reactivos
reales de la prueba y no basarse exclusivamente en una lista de las categorías. En el análisis final, la validez del
contenido exige juicio y no sólo revisar cuadros en un esquema.
39- Realice de manera sucinta un recorrido por los principales hitos en la historia de la evaluación psicológica.

Desde Fernández-Ballesteros (reseña histórica)


El primer período conceptualizado como "mítico" resume el interés del hombre de todos los tiempos por comprender,
describir, categorizar, predecir y explicar a las personas. Es la astrología y el horóscopo la forma evaluativa más antigua
y permanente de todos los tiempos (aun hoy)
En un segundo momento "racional-especulativo", encontramos las raíces de la evaluación psicológica en disciplinas
tales como la filosofía (Aristóteles) y la medicina. Una primera aproximación al diagnóstico psicológico a través de la
interpretación del carácter y hábitos psicológicos a partir de las características corporales. También debemos incluir
aquí las concepciones cartesianas de la dualidad en la composición humana hacia el estudio de la conciencia a través
de la intuición.
Empirismo Wright (1601) sustenta que son los hechos externos, las acciones sin mediaciones inferenciales las U.de
análisis sobre las que debe basarse la evaluación psi.
Hipócrates la teoría de los cuatro temperamentos…abre el estudio de las tipologías patológicas.
S XVIII y XIX: aportes del positivismo y empirismo. Avances en la medicina, distintos logros q permiten la constitución
de la psi como disciplina científica (avances en la medición de lo subjetivo por la sensación y a través del autoinforme –
Weber y Fechner) la psicofísica contribuye a la actual psicometría, con la diferencia que por ese entonces no había
preocupación por medir las diferencias individuales-
Laplace y Quetelet: aplicabilidad de los métodos estadísticos al Comp. Humano.
En el s XIX se produce la división de dos corrientes en psiquiatría: organicista y psicologista- caracteriza a este siglo: un
afán clasificatorio y la búsqueda de procedimientos evaluativos de los padecimientos psiquiátricos se convierten en dos
objetivos básicos.

A partir de la escolarización obligatoria en algunos países europeos de la segunda mitad del S XIX, brinda un campo de
aplicación fructífero a los principios psicológicos y es motivo de abundantes investigaciones psicosociológicas.
Cattell en 1890 el término "test mental" cuyo objetivo es ser "un sistema uniforme que permite comparar y combinar
en lugares y momentos diferentes", la medida de las funciones mentales. La evaluación psicológica comienza a
esbozarse en 1896 cuando publica un estudio realizado con dos baterías de tests para medir aspectos psicológicos y
realiza trabajos no solo sobre funciones perceptivas sino también sobre procesos superiores como memoria y
asociación verbal.
En relación con la Evaluación Psicológica, A. Binet (1875-1911) define los tres grandes problemas de la Psicología
individual: estudiar las diferencias individuales de los procesos psicológicos, estudiar las diferencias psíquicas en
individuos aislados o en grupos de individuos y estudiar las relaciones de diferentes procesos psíquicos en un mismo
individuo. Así, centra la instrumentación de su metodología en los "tests mentales" cuyas reglas fundamentales serán:
1) Que los métodos sean simples y no lleven mucho tiempo; 2) que los medios de determinación sean independientes
de la persona del examinador; 3) que puedan compararse los resultados obtenidos por un observador con los de otro”.
En 1903, publica el primer test de inteligencia. (Ficha 1)
Las raíces de las pruebas y la evaluación psicológica contemporánea pueden encontrarse en Francia a principios del
Siglo XX. En 1905 Alfred Binet y un colega habían publicado una prueba que fue diseñada para ayudar a colocar a los
niños parisienses en edad escolar en clases apropiadas, esto tuvo repercusiones en Estados Unidos. En ese país se
estaba estudiando el uso de pruebas psicológicas por primera vez en el ejército. Tanto en la primera como en la
segunda guerra mundial, las pruebas cumplieron con el objetivo de examinar con rapidez a grandes cantidades de
reclutas en busca de problemas intelectuales y emocionales. En el S.XX se produce un incremento significativo de los
instrumentos de medición, surgen autores tratando de establecer diferencias individuales en el desarrollo y la
maduración de los proceso mentales.
1927 Spearman publica un libro sobre el factor general de la inteligencia por otro lado esta Piaget con planteos sobre
el diagnostico del pensamiento con escalas estandarizadas para medir la inteligencia con instrumentos clásicos
facilitando también la exploración cognitiva de sujetos perturbados.
1942 Hathaway y McKinnley editan el Inventario Multifásico de Personalidad de Minnesota que evalúa diferentes
rasgos. 1955-1959 Cronbach: propone la validez de constructo. El apogeo de las pruebas psicológicas se dio en la
década de 1950 y principios de la de 1960. Se administraban pruebas en escuelas, en instituciones de salud mental, en
dependencias gubernamentales, etc. “Prueba” era el término usado para referirse a todo, desde la administración de
una prueba hasta la interpretación de la evaluación de la misma, durante la 2ª guerra m. empezó a incluirse el término
evaluación.
Durante esta época la evaluación psi se caracteriza por la medición de atributos psi tanto en la cognición como en la
personalidad, vemos también en distintos ámbitos la aplicación de estos hallazgos en la realidad social-
La psicometría se convierte así en uno de los pilares básicos de la psicología de las diferencias individuales, en cuanto a
la medición de los atributos psicológicos, dando a la evaluación y al diagnóstico una productividad tecnológica
invalorable.
*41 Históricamente, uno de los primeros usos de las pruebas fue la evaluación de lo que los individuos habían
aprendido en determinadas áreas de contenido y por ello se comparaba el contenido de esas categorías de pruebas
con el del área que pretendían probar. Luego, el énfasis recayó en la predicción y actualmente existen dos tendencias
una hacia el fortalecimiento de la orientación teórica y la otra hacia una estrecha vinculación entre la teoría y la
verificación psicológicas mediante la comprobación empírica y experimental de las hipótesis.
Contribuciones de la Psicología Cognitiva: la década del setenta planteó un acercamiento entre la Psicología
experimental y la Psicometría que así empieza a hacer aportaciones importantes a la comprensión de los constructos
evaluados por las pruebas de inteligencia con métodos informáticos. Ya en los cincuenta los psicólogos cognitivos
empezaron a aplicar los conceptos del procesamiento de información al estudio de la solución de problemas en el ser
humano. Entre las tareas investigadas con esos métodos se incluyen rompecabezas, problemas de lógica, álgebra y
física. Los modelos cognitivos especifican los procesos intelectuales empleados para realizar la tarea, la forma de
organización de los procesos, el almacenamiento del conocimiento relevante y la forma en que se representa en la
memoria y se recupera cuando se necesita. También se está dando importancia a la meta cognición que se refiere al
control que el individuo ejerce sobre su elección de procesos, representaciones y estrategias para realizar tareas. La
investigación ayuda al avance en la elaboración y uso de las pruebas. El aporte principal es haber focalizado la atención
en los procesos de respuesta en vez de concentrarse en los productos finales del pensamiento. El análisis de la
ejecución en la prueba en términos de los procesos cognitivos específicos, sin duda, mejorará nuestra comprensión de
lo que miden las pruebas. El analizar el desempeño individual a nivel de los procesos elementales permitirá identificar
los puntos fuertes y débiles de cada persona y por ende aumentará el uso diagnóstico de las pruebas (Sternberg y Weil,
1980).
En resumen, la relación entre psicometría y P. Cognitiva es complementaria (feedback) desde el punto de vista de la
investigación y práctica aplicada; y recíproca desde el punto de vista de la teoría y la investigación básica.
(Ficha 2)

Una de los debates surgidos últimamente es el impacto de la computadora en los procesos de evaluación, este
elemento como arma de doble filo puede implicar avances por favorecer a las investigaciones y en el almacenamiento
y tratamiento de los datos. Por otro lado no considera la importancia del rol del psi en el proceso de evaluación. Otro
problema es la adecuación de test a la cultura a la cual se aplica.*

40-¿Qué relación existe entre el sesgo y el contexto cultural en la adaptación de test? Defina cada concepto y
relaciónelos.

Una adaptación implica considerar no sólo las palabras utilizadas al traducir la prueba sino también las variables
culturales involucradas. Tres niveles de adaptación de las pruebas psicológicas.
El primero corresponde al de la aplicación, este es, la simple y llana traducción de un test de un idioma a otro pero sabemos que una

correcta traducción no asegura un significado unívoco.

La segunda alternativa es la adaptación. En este caso a la traducción se agrega la transformación, adición o


substracción de algunos ítems de la escala original. Como se explicó, algunos ítems pueden cambiar su significado a
través de las culturas y, por lo tanto, necesitan modificaciones o ser eliminados. Así mismo ítems que no existen en la
versión original del test pueden representar mejor al constructo en la población en la cual se administrará la nueva
versión.
Finalmente, la opción ensamble En este caso el instrumento original ha sido modificado tan profundamente que
prácticamente se ha transformado en un nuevo instrumento original con los nuevos elementos, así se vuelve
inadecuado. El ensamble también se da cuando el constructo no está representado de forma adecuada por la versión
original en la cultura a la que se quiere adaptar la prueba.
Técnicas de Traducción

El proceso de traducción es complejo e implica más que la traducción lineal de las palabras escritas a un nuevo
lenguaje. Existen dos métodos comunes:
 la traducción directa: aquí un grupo de traductores traducen el test desde el idioma original al nuevo idioma.
Luego, otro grupo de traductores, juzga la equivalencia entre las dos versiones. De este modo pueden realizarse las
correcciones pertinentes en las dificultades o errores identificados por los traductores.
 la traducción inversa: un grupo de traductores realiza una traducción desde el idioma original al nuevo
idioma; luego un segundo grupo de traductores toma el test traducido (en el nuevo idioma) y vuelve a traducirlo al
idioma original. Seguidamente se realizan las comparaciones entre la versión original y la versión retraducida al idioma
original para determinar su equivalencia.
Métodos para establecer la Equivalencia entre Tests (el origen y el traducido)
Para ello habrá de implementarse un diseño experimental y un análisis de datos obtenidos a través de ese diseño. 3
métodos.
1) Administración de la prueba en el idioma original y de la prueba traducida a sujetos bilingües
2) Administración de la versión original y su traducción inversa a monolingües en el idioma original
3)Administración de la versión original a monolingües que hablan el idioma original y de la versión traducida a
monolingües que hablan el idioma al que ha sido traducida la prueba
Una vez obtenidos los datos por medio de los diseños revisados existen varias posibilidades estadísticas para su
análisis. Básicamente el análisis estará destinado a identificar la existencia de Funcionamiento Diferencial de ítems
(FDI) es decir, ítem que se comportan en forma diferente a través de las diversas muestras transculturales.
Fuentes de Sesgo
Necesitamos instrumentos con alta validez predictiva del criterio particular. Este requisito suele descuidarse en el
desarrollo de las llamadas “pruebas libres de influencia cultural”-donde no se elije un criterio relevante para cuidar que
no se involucre esta influencia.
Una mejor solución es elegir un contenido relevante para el criterio e investigar luego las posibles diferencias
poblacionales de la efectividad de la prueba para el propósito pretendido.
Desde mediados de los ’70 se empezó a dar importancia al término “sesgo” que se emplea en su bien establecido
sentido estadístico, para desganar un error constante o sistemático en contraste con uno que se debe al azar.

41-¿Cuándo se habla de formas paralelas se está haciendo referencia a validez o a confiabilidad? ¿Y cuando se habla
de contenido? Defina los conceptos y relaciónelos.

(Hogan) Cuando hablamos de formas paralelas, nos referimos a la confiabilidad. Cuando se habla de contenido, refiere
a la validez.
De formas paralelas (confiabilidad): es un método para determinar la confiabilidad de una prueba. Exige que haya dos
formas de la prueba, mismas que deben ser iguales o muy similares en términos de la cantidad de reactivos, límites de
tiempo, especificaciones de contenido y otros factores similares. El estudio de la confiabilidad de la forma alterna
consiste en aplicar ambas formas de la prueba a los mismos examinados.
De contenido (validez): es un tipo de validez; tiene que ver con la relación entre el contenido de una prueba y cierto
campo de conocimiento o comportamiento bien definido. Para que una prueba tenga validez de contenido, debe haber
una correspondencia adecuada entre el contenido de la prueba y el del campo de interés. La aplicación de la validez de
contenido supone la noción de muestreo, lo que significa que el contenido de la prueba abarca una muestra
representativa de todos los posibles contenidos del campo.
Relación entre ambos: en la confiabilidad de formas paralelas se espera que haya dos formas de la prueba, esto
relacionado a la validez de contenido, se podría decir que en cada prueba deben tener la misma cantidad de reactivos y
especificaciones de contenido, y que en estos reactivos haya una correspondencia adecuada entre el contenido de la
prueba y el del campo de interés. (Es la relación que hice yo pero no estoy segura)

42-¿Cuál es la relación que puede establecer entre los conceptos: modelo teórico, constructo y reactivo?

Modelo
Modelo y teoría son dos conceptos epistemológicamente distintos (Monserrate, 1984) para comprender el concepto
de modelo debemos tener en cuenta los tres sentidos principales en que se utiliza: analógico, formal y aplicado.
El modelo analógico es la acepción propia y estricta del concepto de modelo y puede definirse como aquella
representación (aproximativa o analógica) de la idea de un evento real contenida en un constructo o teoría, que
cumple la misión de inspirar la comprensión de su significado real. Es el tipo de modelo que utilizamos al hablar de
modelos en evaluación psicológica.
En la evaluación psicológica, hay ciertos requisitos para que un modelo pueda ser considerado como tal:

- Que se haya desarrollado dentro del campo conceptual de alguno de los paradigmas de la psicología científica
- Que cuente con un objeto de estudio específico a través de las precisiones que efectúe sobre el concepto de conducta.
- Que tenga un diseño de tecnología propia.
- Que responda a las necesidades de evaluación propias de una época, cultura o problemática de amplio alcance social.
- Que tenga un desarrollo histórico propio, caracterizado por su introducción y progresiva implantación en el ámbito
profesional.
Hacia finales de los años 80 F. Ballesteros propone centrarnos en modelos: medico, dinámico, conductual y cognitivo.
Modelos en la evaluación psi:
Cada enfoque tiene su modelo Ballesteros propone centrarnos en 3 ejes para su clasificación: sujeto, teoría y técnicas.
Al referirnos a "modelo" queremos significar un constructo epistemológico en el que se encuentran implicados tanto
los datos empíricos, como los postulados teóricos que posibilitan su adecuada contextualización

43-¿Con qué elementos necesita contar una técnica en cuanto a constructo, estructura y reactivos para poder contar
con validez de contenido? Defina cada concepto y relaciónelos.

Validez de Contenido Comprende el examen sistemático del contenido de la prueba para determinar si cubre una
muestra representativa del área de conducta que debe medirse.
Alude a la forma en que se operacionaliza el constructo que se va a medir en la prueba a través de los ítems-¿es
aplicable el ítem a lo q se debe informar?
El área de conducta por examinar debe analizarse sistemáticamente para garantizar que los reactivos cubran todos los
aspectos importantes y en la proporción correcta. Se debe tener en cuenta no sobre-generalizar ni incluir factores
irrelevantes en los resultados. Básicamente se deben contestar dos preguntas: a) ¿cubre la prueba una muestra
representativa de las habilidades y conocimientos especificados? b) ¿el desempeño en la prueba está razonablemente
libre de la influencia de variables irrelevantes?
Validez de facie: la validez de contenido no debe confundirse con la validez aparente que no es validez en el sentido
técnico porque no se refiere a lo que la prueba verdaderamente mide sino a lo que “parece” medir. Aunque usar el
término “validez” puede resultar confuso,
La validez de facie es en sí misma un rasgo deseable de los instrumentos, porque alude a que la prueba “parece válida”
para quien la administra, quien la responde y para otros observadores. Esta validez puede mejorarse replanteando los
reactivos para que parezcan relevantes y plausibles en medio particular en que serán usados por ejemplo es posible
elaborar una prueba de aritmética para personal naval en la terminología náutica sin alterar con ello las funciones
medidas.

44-En el contexto jurídico se necesita contar con técnicas válidas y confiables que sustenten el diagnóstico aportado.
Desarrolle esta afirmación incluyendo los conceptos de validez y confiabilidad.

En el ámbito jurídico se necesita contar con técnicas válidas y confiables, ya que es necesario que el psicólogo pueda
corroborar si el sujeto evaluado presenta peligrosidad para sí o para terceros; competencia para ser sometido a juicio;
posee responsabilidad criminal; está preparado para la libertad condicional o bajo palabra; para el diagnóstico y
evaluación del daño emocional; evaluación de custodia; características del niño en pos de la elección de una familia;
evaluación. Del abuso sexual y el maltrato infantil.
Por lo tanto, es necesario que la técnica mida el constructo que deseamos evaluar, y que se lleven a cabo de una
manera en que los datos obtenidos, posean consistencia interna de las puntuaciones. Luego trato de rever esta
respuesta.

45-Mencione y describa cuáles son las teorías psicométricas y los autores que las sustentan. Explique brevemente
las diferencias entre cada una de ellas.

Teorías de los Tests


Existen diversos paradigmas o modelos que permiten explicar el significado de las puntuaciones obtenidas con los
Tests. El análisis da como resultado:
• La estimación del nivel en que poseen los sujetos la(s) característica(s) que mide el test (valores escalares de los sujetos)
• La estimación de los parámetros de los ítems (valores escalares de los ítems).
Toda teoría de test tiene como objetivo analizar estas dos cuestiones
El objetivo de cualquier teoría de tests es realizar inferencias sobre el nivel en que los sujetos poseen la característica o
rasgo inobservable que mide el test, a partir de las respuestas observables. Así para medir o estimar las características
latentes de los sujetos es necesario relacionar éstas con la actuación observable en una prueba y esta relación debe de
ser adecuadamente descrita por una función matemática. Las distintas teorías de tests difieren justamente en la
función que utilizan para relacionar la actuación observable en el test con el nivel del sujeto en la variable
inobservable. Y sirven para dar cuenta del error de medida inherente a toda medición psicológica o estimación del
error; y proporcionar una estimación del rasgo o característica evaluada (estimación del rasgo)
Teoría clásica de los test:
Iniciada por Spearman su principal exponente, quien crea el coeficiente de correlación que es el índice numérico que
expresa la relación entre dos variables, sostiene que la puntuación observable de una persona en un test es una
función de dos componentes: su puntaje verdadero (inobservable) y el error de medición implícito en la prueba

El puntaje verdadero de un sujeto en un test sería el promedio aritmético de las puntuaciones empíricas obtenidas en
infinitas aplicaciones
La TCT es, en síntesis, el conjunto de principios teóricos y métodos cuantitativos derivados de ellos, que
fundamentan la construcción, aplicación, validación e interpretación de distintos tipos de tests y que permiten
derivar escalas estandarizadas aplicables a una población.
Se han elaborado procedimientos de análisis cuantitativo, a destacar… 3 etapas:

1ª etapa que Cattell (1986) denomina itemetría, se caracteriza principalmente por la construcción de pruebas
conformadas por reactivos cuyas propiedades estadísticas eran el centro de atención principal. Los tests se
consideraban como el producto de la integración de un conjunto de reactivos cuyas propiedades estadísticas tenían
que ser determinadas antes de que se les incluyera en esa prueba particular . Esto propició que el concepto de
confiabilidad adquiriera prominencia como la principal virtud de la escala y se medía a partir de la correlación entre los
reactivos individuales y el instrumento en su conjunto. Si la correlación era alta, se decía que los reactivos eran los
adecuados.
Pero siempre resultaba una medida de error, para la cual se desarrollaron procedimientos tales como la división por
mitades y los procedimientos de pruebas paralelas. Dio lugar a contribuciones tales como las fórmulas de Spearman-
Brown (Spearman, 1904), Kuder-Richardson (Kuder & Richardson, 1937), Alfa de Cronbach (Cronbach, 1951) y a varios
principios básicos de escalamiento, así como al uso generalizado de la curva normal, el uso de las correlaciones
múltiples y la fórmula de atenuación, etc.
2ª etapa psicometría estructural: se caracteriza por el uso de las nuevas herramientas estadísticas tales como el
análisis factorial con sus diversas variantes técnicas, como un medio para encontrar la "estructura natural" de las
habilidades en el contexto de los factores culturales, las dimensiones que dan lugar a la acción y al comportamiento.
Su objetivo primordial determinar la relación que hay entre los conceptos clínicos sobre personalidad, y los
fundamentos de la investigación experimental multivariada (cuantitativa por naturaleza), así como analizar las
interacciones dinámicas entre los rasgos y los estadios de la personalidad. Los tests se consideraban significativos en la
medida que armonizaban con los constructos teóricos formulados conceptualmente.

Hacia etapas conceptualmente más elaboradas en que los tests se derivan de teorías del comportamiento más
articuladas y donde cada reactivo tiene un significado conceptual definido en un contexto teórico particular. etapas
elaboradas a partir de teorías más articuladas donde cada reactivo corresponde a un concepto en este entramado
teórico que subyace.

Funcional en el desarrollo de los tests es aquella que "trasciende a las aplicaciones inmediatas y simplistas y profundiza
en las leyes y formulaciones conceptuales del comportamiento: que relaciona rasgos, procesos y estados psicológicos
con las mediciones y estrategias estructurales" (Cattell, 1986). Ese tipo de leyes, según Cattell, se refieren a las
relaciones sistemáticas y consistentes obtenidas de los estudios empíricos sobre: desarrollo, factores hereditarios,
aprendizaje mediante experiencia, y sobre la influencia de los factores psicofisiológicos en la conducta
Hacia etapas conceptualmente más elaboradas en que los tests se derivan de teorías del comportamiento más
articuladas y donde cada reactivo tiene un significado conceptual definido en un contexto teórico particular. Hacia
etapas conceptualmente más elaboradas en que los tests se derivan de teorías del comportamiento más articuladas y
donde cada reactivo tiene un significado conceptual definido en un contexto teórico particular.

El éxito de las técnicas clásicas de selección de reactivos depende de qué tan parecida es la población con la cual se
obtuvieron los índices respecto de la población a la que se pretenden aplicar. Si la diferencia es grande, los índices
obtenidos de los ítems no serán apropiados para la población objetivo. Como se prepara el banco de reactivos Los
ítems con frecuencia denominados "experimentales", se incluyen en un test que es administrado a un grupo de
personas de tal manera que se obtienen como resultado, los índices de esos reactivos. Por supuesto, no todos los
reactivos experimentales serán incluidos en un test particular. Por lo tanto, se crean múltiples formas del test, cada uno
de los cuales contiene diferentes reactivos experimentales y las diferentes formas se aplican a grupos distintos de
examinados. Se incluyen en la prueba con el supuesto de q sus índices son comparables. Si la diferencia es grande,
entonces los reactivos no son apropiados. Por otra parte, aún cuando un banco de reactivos se encuentre bien
conformado, otro problema de la TCT es la precisión de la medición.

Teoría de la generalizabilidad (desarrollada por Cronbach) parte de la idea que las puntuaciones de prueba de una
persona varían de una prueba a otra, debido a variables en la situación de prueba (Cohen).

Cuando se mide una variable se trata de generalizar los resultados a un dominio o universo confiable de observaciones.
La diferencia es que en la TCT se considera que la varianza de error es de una sola clase y, en cambio, la TG reconoce
que existen otros universos de generalización y por lo tanto muchos puntajes de universo posibles. Solo cuando el
universo se ha definido podemos afirmar cuáles son las fuentes de variación que producen error.
Las diferentes fuentes de error en esta teoría se denominan facetas, término que introdujo Cronbach para designar
cada una de las características de la situación de medición que pueden cambiar de un momento a otro y, por tanto,
hacer variar los resultados obtenidos.
Según esta teoría los puntajes observados solo poseen interés si son representativos de todos los puntajes posibles de
un mismo universo. Población es el conjunto de personas de las que se extrae una muestra; y Universo es el conjunto
de todos los ítems posibles de un constructo; y Universo de Condiciones de Medición al conjunto de todas las facetas
estudiadas. Las distintas fuentes de variaciones asociadas a las facetas y a sus interacciones se estima que contribuyen
a la varianza de error y disminuyen la generalizabilidad de los puntajes observados en las personas evaluadas.

Teoría de respuesta al ítem


Hambletton y Swaminathan 1985

Esta teoría, fue desarrollada para resolver varios de los problemas que presentaba la TCT. Algunos de esos problemas
son: (1) El uso de índices de los reactivos cuyos valores dependen de la población particular de la cuál fueron
obtenidos,
(2) La estimación de la habilidad del examinado depende del conjunto específico de reactivos incluidos en la prueba.
Así, las características del test y de los reactivos cambian a medida que cambia el contexto de la prueba.
Es decir, las características del examinado y las características de la prueba no pueden separarse en un instrumento
elaborado conforme a los principios de la Teoría Clásica de los Tests; y por el contrario, cada uno sólo puede ser
interpretado en términos del otro. Las características del examinado en las cuales la teoría TRI está interesada, son la
"habilidad" que mide el test. Para la TCT, la noción de habilidad se expresa por medio del llamado puntaje verdadero
que se define como "el valor esperado a partir de la destreza observada en la prueba en cuestión. El nivel de dificultad
de la prueba se define como "la proporción de examinados en el grupo de interés, que contestó el reactivo
correctamente" el nivel de habilidad y dificultad dependen del grupo seleccionado y de la prueba.
El nivel de discriminación de los reactivos y los coeficientes de validez y confiabilidad de la prueba se definen también
en base a las características del grupo particular de examinados.

Esto significa que los coeficientes de los reactivos son dependientes del grupo al mismo tiempo que son dependientes
del test. Esta clase de dependencia es la que se trata de eliminar mediante la TRI.
Otro problema de la TCT es que es centrada-en-el-test, más que centrada-en-el-reactivo. No se toma en consideración
cómo responde el examinado a un reactivo dado, y por lo tanto, no se tienen bases para determinar qué tan bien
podría desempeñarse un examinado particular ante un reactivo individual. Es decir, la TCT no permite hacer
predicciones acerca de cómo se comportará un individuo o grupo particular ante un reactivo dado. Esta posibilidad de
predicción es importante en una gran variedad de situaciones como por ejemplo, cuando se intenta predecir el
comportamiento de un profesional ante diferentes tipos de situaciones prácticas.
Las principales características de la TRI como una alternativa a la teoría clásica de los tests son: 1. Las características de
los reactivos no dependen del grupo del cuál fueron obtenidos; 2. Los puntajes que describen la habilidad del
examinado no dependen del test en su conjunto; 3. El modelo se expresa a nivel del reactivo más que a nivel del test;
4. El modelo no requiere de pruebas paralelas para determinar el índice de confiabilidad; y
5. Provee una medida de la precisión de cada índice de habilidad. Los postulados básicos de la TRI son:
1) El resultado de un evaluado en un ítem puede ser explicado por un conjunto de factores llamados rasgos latentes o
aptitudes
2) La relación entre la respuesta de un sujeto a un ítem y el rasgo latente que subyace puede describirse como una
función monotónica creciente que se llama función característica del ítem o curva característica del ítem (CCI) Esta
función específica que a medida que la aptitud aumenta la probabilidad de una respuesta correcta al ítem también
aumenta.
31
3) Las estimaciones de la aptitud obtenidas con distintos ítems serían iguales y las estimaciones de los parámetros de
los ítems obtenidos en distintas muestras de examinados serán iguales. Es decir que en la TRI los parámetros de
aptitud y del ítem son invariantes.
La ejecución de un examinado en una prueba puede ser predichos por un conjunto de rasgos, rasgos latentes y
habilidades; y (2) la relación entre las respuestas de los examinados a los reactivos y el conjunto de rasgos que
subyacen a la respuesta ante el reactivo, pueden describirse por una función monotónicamente incrementada llamada
función característica del reactivo o curva característica del ítem (CCI). Esta función especifica que a medida que el
nivel del rasgo incrementa, también incrementa la probabilidad de una respuesta correcta ante ese reactivo." (p.7) Son
supuestos de la TRI:
1. La unidimensionalidad del rasgo latente: que las respuestas del examinado estén determinadas por una única
variable denominada Rasgo. Ej.: Un ítem de un test espacial medirá solo habilidad espacial y no ninguna otra cosa
(Ferreres Traver, 2005)
2. La independencia local: Las respuestas de un evaluado a cualquier par de ítem son independientes y la probabilidad
de responder correctamente a un ítem es independiente de la probabilidad de responder correctamente cualquier otro
ítem (Ferreres Traver, 2005).
Existen muchos modelos de la TRI, pero los básicos son: - Modelo Logístico de un parámetro o Modelo de Rasch que
- Modelo Logístico de dos parámetros o Modelo de Birnbaum
- Modelo Logístico de tres parámetros
Para construir una prueba de acuerdo a los principios de la TRI, es necesario construir un banco de reactivos con
parámetros estimados para cada ítem, de acuerdo al modelo. Las escalas de esta prueba son unidimensionales ya que
parten del supuesto de que cada ítem (reactivo) del test o prueba debe medir un solo rasgo o aptitud-
Sin embargo, la TRI no se encuentra libre de problemas y su aplicación contiene ciertos puntos riesgosos debido a que
el uso de criterios estadísticos para la selección de los reactivos no asegura una prueba con contenidos completamente
válidos. Deficiencias en los procedimientos de selección de los contenidos pueden generar una prueba con un bajo
nivel de validez de contenido (Hambleton, Swaminathan y Rogers; 1991). Otro problema de la TRI es que cuando se
utilizan funciones de información de los reactivos durante el desarrollo de una prueba, es probable que los valores
sean sobrevalorados y por lo tanto, la función de información podría sesgarse. Una prueba construida con ítems de
valores elevados puede ser que no corresponda a los de la prueba esperada. Como consecuencia, la función de
información de la prueba será sobrevalorada y por lo tanto, habrá que añadir varios reactivos adicionales para
compensar esta sobrevaloración.
Sin embargo, una de las ventajas de la construcción de los tests de acuerdo a los modelos de la TRI es que se pueden
elaborar tests individualizados, es decir, “a la medida” de los sujetos que permiten inferir en cada uno de los evaluados
un verdadero valor del rasgo de la manera más precisa.

46-¿Qué diferencia encuentra entre un inventario y una entrevista semiestructurada? Defina cada uno de ellos y
ejemplifique con pruebas utilizadas en la cursada.

AIKEN
INVENTARIOS BIOGRAFICOS FORMALES: (pág. 349) constan de una variedad de reactivos que atañen a la historia de
vida del sujeto (relaciones familiares, amistades, actividades, intereses, etc.)
Tienen una gran validez de contenido y pronostican muy bien el desempeño en una variedad de contextos (validez
suceptible de generalizarse a estos) aunque por cuestiones legales, ciertos datos deben ser resguardados, estos
ofrecen buena predicción acerca del desempeño laboral.
ENTREVISTA SEMIESTRUCTURADA: entrevista: método antiguo de uso frecuente para la evaluación de personalidad.
Proporciona información acerca de lo que la persona dice y hace (conducta no verbal) pero poniendo énfasis en los
contenidos verbales. Puede definirse como:
“un intercambio verbal cara a cara en el cual una persona – entrevistador- intenta obtener información o expresiones
de opinión o creencia de otra persona.” (Incluye: antecedentes de vida: acontecimientos, sentimientos, percepciones y
expectativas.-)
Se emplean en distintos contextos
La entrevista es laboriosa, es tanto un arte (lograr un buen rapport) como una ciencia-dinámica de interacciones. Es
recomendable crear un buen clima cómodo y libre de distractores. Ver temas y preguntas de la entrevista.- ver perfil y
condiciones del entrevistador
Según las características del entrevistador el tipo de estructura seleccionada.
Las entrevistas semi estructuradas se caracterizan por ser mas flexible en el contenido y en el tiempo de las preguntas.
Requieren así más habilidad, son ideales cuando lo que se pretende es obtener una imagen profunda de la
personalidad.
COHEN- SWERDLIK
“entrevista es una técnica para recopilar información por medio de la discusión. Una entrevista semi estructurada deja
al entrevistador ahondar en distintas áreas según su juicio.

47-¿Por qué decimos qué el proceso evaluativo se construye en función de los objetivos? Defina y explique cada
concepto.

Proceso de construcción de los test (resumen)


Construcción de test: 3 fuentes:
Muchos test se originan en respuesta a una necesidad práctica (ver Binet, Weschler, MMPI.)
derivan de un fundamento teórico importante (ej.: matrices progresivas. Raven) teorías pueden generar nuevas
pruebas, que primero se utilizaran con fines investigativos, luego se aplicaran a distintos contextos. gran de trabajo de
elaboración de tests se dedica a adaptar o revisar los instrumentos ya existentes, desde principios de siglo XX se
conoce el impacto del lenguaje y la cultura sobre el resultado de los test.-diferencias significativas.-
Para el diseño y la elaboración del test : debemos preguntarnos: ¿Qué medirá la prueba, cual es su formato ideal, que
tipo de respuestas dará , cual es su contenido, cual es su objetivo, para q se necesita esta prueba, quien la usara, que
capacitación necesitara esta persona y como la aplicara, como se interpretaran los resultados?
Estas cuestiones se resuelven a partir de la concepción teórica que se tenga en psicometría

Definición del dominio de un test: la construcción de una escala de medición de algún aspecto del comportamiento
humano requiere previamente un exhaustivo análisis conceptual del dominio o rasgo a medir así como de los
indicadores operacionales son adecuados para describirlo.
En la medición del rendimiento se pueden utilizar pruebas referidas a criterios o referidas a normas.
En la construcción de una prueba con referencia a criterios: se define y delimita el dominio de conductas
correspondientes a cada objetivo. Siguiendo dicha definición se elaboran los ítems que evaluarán ese dominio de
conductas y todos los desempeños individuales serán referidos a ese dominio. El “dominio” puede ser de conductas,
objetivos, destrezas y competencias y la amplitud del dominio varía en función de la finalidad del test.
Para la elaboración de pruebas por normas: se parte de la construcción de una tabla de especificaciones que es una
tabla de doble entrada por medio de la cual se relacionan los objetivos cuyo logro se desea evaluar con los contenidos
específicos correspondientes. A partir de esta tabla se determina la cantidad de ítems que conformará la prueba y se
lleva a cabo su redacción.
Si el dominio comprende más de un objetivo pueden construirse subtests para cada objetivo, y se evalúa el
rendimiento de los sujetos en cada uno de ellos. Para la especificación del dominio de conductas o clase de tareas que
el individuo debe realizar, seguiremos el esquema propuesto por Tornimbeni et al (2004) que proponen:
i. Definición del objetivo: Se establece cuál/es serán los objetivos que se evaluarán a través de la prueba
ii. Descripción del objetivo: Se define en términos de conductas observables el o los objetivos a ser evaluados. En el
ejemplo anterior se especificaría un objetivo de la habilidad de comprensión tal como “ser capaz de analizar el
propósito del autor y su punto de vista examinando una comunicación escrita”.
iii. Especificación de las características de la situación de evaluación: se especifican todos aquellos aspectos a tener en
cuenta en la situación de evaluación, por ejemplo, en un texto de divulgación científica, seleccionar el párrafo e
identificar la oración donde se expresa la intención del autor.

iv. Características de la respuesta: Se especifica cuál es la respuesta que se espera del sujeto, en este caso, que seleccione
de manera correcta el párrafo y la oración correspondiente.

Selección y elaboración de las Escalas


La medición es la asignación numérica de acuerdo con reglas y las escalas son las reglas de medición. La elaboración de
escalas puede definirse como el proceso de establecimiento de reglas para la asignación numérica en la medición.
Las escalas son instrumentos usados para medir algo, ese algo en psicometría es un “rasgo” o atributo psicológico. Las
escalas pueden clasificarse a lo largo de un continuo del nivel de medición y denominarse por su naturaleza como
nominales, ordinales, de intervalo o de razón. Quienes elaboran las pruebas diseñan la escala de una prueba, en la
forma que cree que se adapta mejor a la manera en que han conceptualizado la medición del rasgo o rasgos que son su
objetivo. No hay un único método para la elaboración de escalas, el que una escala sea de naturaleza nominal, ordinal,
de intervalo o de razón dependerá en parte de los objetivos de la escala y de la legitimidad matemática de las
manipulaciones y transformaciones de los datos resultantes.
Ej.: escalas de Likert, utilizadas para estimaciones-
Ej.: Escala ordinal: pruebas de clasificación- ordenación jerárquica.
El método de elaboración de escalas particular empleado en la elaboración de un test dependerá de las variables que
se van a medir, el grupo para el que se pretende la prueba (por ejemplo los niños pueden requerir un método de
elaboración de escalas menos complicado que los adultos) y las preferencias del elaborador de la prueba.
Redacción de Ítems
Existen pautas convencionales con recomendaciones como:
 redactar ítems congruentes con el objetivo de medición
 evitar los ítems demasiado largos (de más de 20 vocablos),
 evitar las oraciones complejas con ambigüedades de sentido,
 evitar las frases con dobles negaciones,
 evitar el uso de expresiones extremas (nunca, siempre, todos)
 Evitar utilizar el lenguaje más apropiado al nivel de maduración y educativo de la población
Porque los errores mas comunes son ambigüedad y trivialidad-
Los tipos de respuestas pueden ser:
 selección de respuesta ( opción múltiple, ítem de relación o verdadero/falso)
 construcción de respuesta
Revisión del Test por Expertos

Las tres características que los expertos deben evaluar en cada ítem son:
a) claridad semántica y corrección gramatical
b) adecuación de su dificultad al nivel educativo y evolutivo de las personas
c) congruencia con el rasgo o dominio medido (esto ultimo refiere al grado de consistencia entre el ítem y las metas a
las q pretende llegar la prueba. Sera un factor para la confiabilidad y validez).
Se recomienda que los ítems seleccionados sean aquellos en que, al menos, un 60% de los jueces coinciden.
Es útil también incluir preguntas que demanden información cualitativa sobre los ítems lo que puede facilitar un
mejoramiento en el fracaso de algunos de ellos.
Análisis y Selección de Ítems

El primer paso para obtener información psicométrica sobre los ítems de pruebas homogéneas consiste en administrar
los elementos preliminares a una muestra amplia (superior a 300 sujetos) que sea representativa de la población que
se quiere evaluar en la prueba final. Para descartar los ítems que no funcionan bien debe contarse con una cantidad de
sujetos por lo menos cinco veces superior al número inicial de reactivos y aproximadamente el doble de ítem de los
que aparecerán en la versión definitiva de la medida.
El ideal ronda entre los 300 a 400 sujetos para estudios correlacionales. Al reducirse el tamaño de la muestra hacen su
influencia factores determinantes que luego pueden afectar a la V Y C-
El procedimiento más empleado en el análisis inicial de reactivos es la correlación de cada uno de ellos con el puntaje
total de la prueba o de las sub escalas (en caso de q las tenga).
El estadístico usual es el producto momento de Pearson (r) o correlación punto biserial si se trata de ítem dicotómicos
(si/no, verdadero/falso). Los ítem con correlaciones no significativas o bajas (inferiores a .30) se eliminan o se revisan y
se conservan los menos ambiguos. Los distractores serán aquellos que obtengan correlaciones negativas con los
puntajes de la prueba.
El índice de dificultad de los reactivos tiene un rango de 0 a 1 y se simboliza como p. Un reactivo cuyo p es 0 está
indicando que ningún sujeto contestó correctamente y un reactivo con p igual a 1 es aquel que todos los sujetos
respondieron correctamente. El valor óptimo de p para un reactivo depende de varios factores.
Si el propósito del test es identificar sólo un porcentaje reducido de los mejores postulantes para un empleo, por
ejemplo, entonces los ítems de la prueba deberían ser lo suficientemente difíciles y tener un valor medio-bajo de p.
Para pruebas convencionales de habilidades se recomiendan valores p entre .20 y .80.
Deben eliminarse los reactivos donde la mayoría de los sujetos de la muestra obtiene el mismo puntaje puesto que
tales elementos de prueba no discriminan entre los evaluados (Bandura, 2001)

Las pruebas referidas a criterios evalúan y seleccionan los ítems de una forma particular, diferente a las pruebas
referidas a normas. El análisis se realiza comparando los resultados de un grupo antes de aplicar un programa de
aprendizaje y después del mismo, o comparando dos grupos similares, uno de ellos, que recibió capacitación y el otro
no. Al calcular el índice de dificultad los resultados esperados son, ítems con alta dificultad para los grupos que no han
pasado por el proceso de aprendizaje, y baja dificultad para los que han sido sometidos al proceso de instrucción. En
cuanto al índice de discriminación, obtenido por la comparación entre grupos, se espera máxima discriminación entre
los grupos y mínima entre los individuos de un mismo grupo.
Una vez realizada la aplicación de la prueba piloto y habiendo obtenido resultados estadísticos sobre el
comportamiento de cada ítem se podrán tomar decisiones sobre cuáles de ellos deben integrar la forma final del test y
hacer estimaciones de su confiabilidad y validez mediante algunos de los procedimientos ya conocidos.
La lógica de este proceso de análisis es que todos los reactivos se relacionen con un núcleo común de medición que es
el constructo o dominio, información que se obtiene aplicando a los reactivos de una escala el coeficiente alfa de
Cronbach, debemos asegurarnos valores de.80 o superiores. Los ítems con correlaciones bajas con el puntaje total se
pueden remover para incrementar el valor del alfa. Si bien un coeficiente alfa elevado es una condición necesaria de
unidimensionalidad esta propiedad solo es garantizada por el análisis factorial, paso decisivo para asegurar la
unidimensionalidad de cualquier escala homogénea y el primer paso en un conjunto inicial de ítem heterogéneos (sin
un explícito marco teórico previo) este es esencialmente un método para agrupar las variables que se correlacionan
fuertemente entre sí y cuyas correlaciones con las variables de otros agrupamientos es menor, es un método
estadístico en el cual las variaciones en los puntajes de un número de variables son explicadas por un número más
reducido de dimensiones o constructor (factores). Una distinción inicial: análisis factorial exploratorio: se extraen
factores sin una estructura teórica previa conjeturada de modo explícito. (Los principales métodos de este tipo son:
Análisis de Componentes Principales, Ejes Principales y el de Máxima Probabilidad.
Análisis factorial confirmatorio: los factores son definidos a priori en base a un modelo teórico y en este caso, el
análisis intenta verificar qué tan bien se adaptan los datos observables a ese modelo.
Antes de este procedimiento hay que hacer una medida de adecuación de muestreo que es el KAISER-MAYER-OLIKIN
que consiste en determinar si los ítems están suficientemente interrelacionados (p: .80 o más)
El análisis factorial debe realizarse sobre muestra extensas no inferiores a 300 sujetos p/obtener datos útiles.
En el enfoque psicométrico actual, el análisis factorial se utiliza más como estrategia confirmatoria de un modelo
teórico previo, en especial, dentro del marco metodológico del Modelo de Ecuaciones Estructurales. De modo
contrario se corre el riesgo de obtener estructuras puramente empíricas dependientes de la muestra escogida y no
replicables con facilidad.
Estas estrategias analizadas son congruentes con la Teoría Clásica de los Tests.

También podría gustarte