Está en la página 1de 12

Pruebas Psicométricas I

---------------------------------------------------------------------------------------------------------------------------------------------------

Medición de inteligencia
Son las encargadas de medir
que cualidades psíquicas de FUNDAMENTOS TEÓRICOS DE LAS PRUEBAS Campo
un individuo existen. Definición PSICOLÓGICAS de acción Rasgos de personalidad

Factores de personalidad -
Proyectivas

CONSIDERACIONES HISTÓRICAS CONSIDERACIONES ESTADÍSTICAS

Pruebas psicológicas Evaluación Psicológica Confiabilidad

Es la consistencia de las
Test retest puntuaciones obtenidas por las
mismas personas en diferentes
Es la aplicación e interpretación de Proceso de resolución de problemas ocasiones con las mismas pruebas.
la puntuación y resultados obtenidos que podría tomar diferentes formas.
de la misma. Formales paralelos

División por mitades

Evaluador Evaluado
Validez

Tiene diferentes aproximaciones a la Una prueba mide lo que pretende Contenido


Son los desarrolladores y editores situación de evaluación y los medir e un determinado contexto.
de pruebas y otros métodos de aplicadores deben ser sensibles
evaluación. ante la diversidad de respuestas Criterio
posibles ante dicha evaluación.

Constructo
1
FUNDAMENTOS TEÓRICOS DE LAS PRUEBAS PSICOLÓGICAS

1.1.1. CONSIDERACIONES HISTÒRICAS

En el siglo XIX, una forma primitiva de pruebas de destreza existió en China 2200 a.c. en donde el emperador chino
conducía un programa de pruebas que implicaban alguna forma de examen para los funcionarios públicos de cada
tercer año. El significado histórico del programa de pruebas en la antigua china es que, hace miles de años existió una
civilización que mostró evidencias de una preocupación por algunos de los mismos principios básicos de la psicometría
que interesan y se manejan en la actualidad. En un período de la historia en que el nepotismo sin duda era cosa
común, es admirable ver a una sociedad donde el empleo se basaba en exámenes competitivos y abiertos.
En el siglo XIX, la historia registra que fue Darwin quien incitó el interés científico en las diferencias individuales,
(Darwin 1859). De hecho los escritos de Darwin sobre las diferencias individuales despertaron el interés en la
investigación de la herencia en su primo, Francis Galton. En el curso de sus esfuerzos por explorar y cuantificar las
diferencias individuales entre personas. Galton contribuyó ampliamente en el campo de la medición., Galton recibiría el
crédito de diseñar o contribuir al desarrollo de muchas herramientas contemporáneas de evaluación psicológica
incluyendo cuestionarios escalas de estimación e inventarios de rasgos personales.

En el siglo XX, atestiguaron el nacimiento de las primeras pruebas formales de inteligencia, Como se verá en el resto de
esta sección, al inicio hubo una gran receptividad para los instrumentos que supuestamente podían medir
características mentales; al principio, inteligencia y más adelante otras características como aquellas relacionadas con
la personalidad, intereses, actitudes y valores.

Una persona que tuvo la visión de ampliar las pruebas para incluir la medición de capacidades cognitivas fue Alfred
Binet (1987-1911), quien publicó junto a su colega Victor Henri 81985), varios artículos sobre la medición de
capacidades como la memoria y el manejo de habilidades sociales. Diez años después Binet y Simón (1905),
publicaron un libro sobre “escala de medición de la inteligencia”, que consistía en 30 reactivos que identificaban a niños
con deficiencia mental en edades escolares. Luego de pasar por muchas revisiones y traducciones, se crea el
movimiento de pruebas psicológicas de inteligencia y posteriormente fueron utilizadas en escenarios diversos, como,
tribunales, reformatorios, prisiones, orfanatos y escuelas.

David Wechsler (1939), un psicólogo clínico introdujo una prueba diseñada para medir inteligencia en adultos, fue
revisada y se le cambio el nombre a Escala Wechsler de Inteligencia para adultos y desde ese entonces fue
revisada de manera periódica. Luego fueron diseñadas las pruebas de tipo grupal por Binet, y aparecieron en EE.UU,
en respuesta a la necesidad del ejército por obtener un método eficiente para explorar la capacidad intelectual de los
reclutas en la primera guerra mundial. Debido a las capacidades necesitadas en los soldados, los psicólogos fueron
reclutados para el servicio del gobierno, con la misión de elaborar, administrar e interpretar datos de pruebas
psicológicas grupales. Después de la guerrea, los psicólogos que regresaron del servicio militar trajeron consigo una
riqueza de habilidades en la aplicación de pruebas que serían útiles no sólo para el servicio del gobierno sino también
en escenarios tal diversos como la industria privada, hospitales y escuela.
Las pruebas entonces, serían desarrolladas para medir no sólo distintas habilidades e intereses, sino también la
personalidad entre otras variables.

1.1.2. DEFINICIÓN Y CAMPO DE ACCIÓN.


La medición de las capacidades psíquicas recibe el nombre de psicometría. Se trata de la disciplina que atribuye
valores (cifras) a condiciones y fenómenos psicológicos para que, de este modo, resulte posible la comparación de las
características psíquicas de distintas personas y se pueda trabajar con información objetiva.

2
Las pruebas psicométricas son las encargadas de medir que cualidades psíquicas de un individuo, hay de varios tipos:
de medición de la inteligencia (que tanto cotejan edad mental y edad cronológica) rasgos de personalidad (como
tiendes a reaccionar), factores de personalidad (cotidianamente cono te comportas) proyectivas (que es lo que el
subconsciente deseas) y varios tipos más son una herramienta tanto para conocer su vida, estado emocional,
intelectual e inclusive si existe una anomalía en su funcionamiento cerebral o simplemente para ubicarnos en la forma
de pensar.
Una prueba psicométrica, por lo tanto, apunta a evaluar la psiquis de un individuo y a plasmar esos resultados
mediante valores numéricos. Los tests psicométricos deben ser elaborados e interpretados bajo ciertos parámetros
para que sus conclusiones sean acertadas.
Suele decirse, en este sentido, que las pruebas psicométricas deben ser confiables (tienen que permitir realizar las
mediciones siempre de la misma manera) y válidas (es decir, que consigan medir la facultad que efectivamente
planean medir).

Es frecuente que las empresas apelen a las pruebas psicométricas a la hora de decidir la contratación de un
empleado. Lo habitual es que, tras una primera preselección entre los postulantes, se desarrollen pruebas
psicométricas a los candidatos para medir sus capacidades intelectuales y los rasgos de su personalidad. Todas estas
personas, de esta manera, serán sometidas a pruebas idénticas y los resultados de las mismas podrán compararse.

Se supone que, al realizar evaluaciones psicométricas a los candidatos, el empleador cuenta con datos objetivos para
tomar la decisión de contratación, dejando de lado eventuales simpatías o prejuicios que pudieran surgir en
una entrevista.
Por lo general, existen diferentes pruebas psicométricas de acuerdo al cargo que se pretende cubrir. Esto obedece a
que no se necesitan las mismas habilidades para trabajar en el departamento de Ventas que para desempeñarse
como administrativo o en el área de Logística.

1.2.3. PRUEBAS Y EVALUACIÒN PSICOLÓGICA


Ronal Jay y Mark S. (2007). La apertura que el mundo tuvo con respecto a las pruebas desarrolladas por Binet a
principios del siglo XX no sólo produjo más herramientas de este tipo, también surgieron más autores, publicadores y
usuarios de prueba también emergiendo por lógica, lo cual a la fecha se conoce como “la industria de las pruebas”.

La prueba, puede definirse tan sólo como un instrumento o procedimiento de medición. Cuando la palabra prueba
está acompañada por un modificador, se refiere a un instrumento o procedimiento diseñado para medir una variable
relacionada con ese modificador. Por ejemplo el término prueba médica, refiere a un instrumento diseñado para medir
alguna variable relacionada a la medicina, de igual manera el término prueba psicológica se refiere a un instrumento
para medir variables relacionadas a la psicología. Una prueba psicológica generalmente implica el análisis de una forma
de comportamiento. La forma de comportamiento puede variar desde las respuestas de un cuestionario por escrito,
respuestas orales o preguntas, hasta el desempeño de alguna tarea. La muestra del comportamiento puede ser
originada por el estímulo de la prueba misma puede ser un comportamiento que ocurre de manera natural.

El contenido de la prueba, por supuesto variarán de acuerdo al enfoque teórico que la prueba maneje. Pero cuando
dos pruebas psicológicas tienen el propósito de medir lo mismo pueden diferir de una manera amplia en los contenidos
debido a factores como la definición de personalidad que el autor de la prueba maneje, así como el marco teórico de
referencia, por ejemplo los reactivos de la pruebas de personalidad orientadas desde un enfoque y otro, pero ambas
son pruebas de personalidad. Las pruebas psicológicas y otras herramientas de evaluación pueden diferir en un
gran número de variables como contenido, formato, procedimiento de aplicación, puntuación, contextos de
interpretación y calidad técnica.

1.1.3.1. Pruebas:
Pruebas fue el término utilizado para referirse a todo lo relacionado con la aplicación de una prueba y la interpretación
de la puntuación y resultados obtenidos de la misma. Durante la primera guerra mundial, el proceso de las pruebas

3
determinó de manera óptima un grupo experimental obtenido mediante la evaluación de miles de reclutas militares. Se
sospecha que esto sucedió al mismo tiempo en que las pruebas lograron el reconocimiento e inserción en el
vocabulario de los profesionales y de la gente en general. El uso del término pruebas para denotar todo, desde la
aplicación hasta la interpretación de una prueba. Sin embargo, en la segunda guerra mundial, inicia el surgimiento de
una distinción semántica entre pruebas y un término más inclusivo llamada, evaluación.

Durante la segunda guerra mundial, la Oficina de Servicios Estratégicos de Estados Unidos (OSS) utilizó diversos
procedimientos y herramientas de medición, entre ellos pruebas psicológicas, en la selección de personal militar para
puestos especializados que involucran actividades tales como espionaje, manejos de inteligencia militar y otros
procesos similares.
Escenarios militares, clínicos, educativos y de negocios son algunos de los muchos contextos que implican
observaciones conductuales y la integración activa de pruebas y otros datos por parte de evaluadores.

1.1.3.2. Evaluación psicológica:

Evaluación psicológica, Maloney y Wars, concibieron la evaluación como un proceso de resolución de problemas que
podía tomar diferentes formas. La conducción de una evaluación depende de muchos factores, no sólo de aquel que
constituye la razón para la evaluación. Diferentes herramientas de evaluación, entre ellas distintas pruebas
psicológicas, deben estar presentes en el proceso de la evaluación, determinadas por los objetivos particulares, las
personas y circunstancias específicas en el momento de la misma, así como variables únicas, generadas por el
contexto y ambiente. Por el contrario, se consideró que las pruebas psicológicas tenían un alcance mucho más
reducido, ya que sólo se refería al proceso de aplicar, calificar e interpretar las pruebas psicológicas.

1.1.3.3. Examinador:

El examinador es un punto clave en el proceso de evaluación, en el que las decisiones, predicciones por ambas, se
realizan a partir del mayor número de fuentes de información (pruebas psicológicas)
La distinción semántica entre pruebas psicológicas y evaluación psicológica es confusa, sin embargo señalamos
algunas definiciones.

Evaluación psicológica, se define como la recolección e integración de datos relacionados con la psique individual con
el propósito de hacer una evaluación psicológica, concretada mediante el uso de herramientas como pruebas,
entrevistas, estudio de caso, observación conductual, así como equipos y procedimientos diseñados específicamente
para la medición de ésta.
Pruebas psicológicas, se define como el proceso para medir variables relacionadas con la psique mediante
instrumentos o procedimientos diseñados para obtener rasgos de comportamientos definidos como conductas.

1.1.3.4. Medición psicológica:

La medición psicológica es un proceso que le permite al psicólogo cuantificar características humanas y objetivizar
procesos de evaluación. Las pruebas hacen parte de un proceso general organizado para llegar a una impresión
diagnóstica, pero no se pueden convertir en el único medio de información. Los resultados obtenidos en las pruebas
deben estar acompañados de otras técnicas o herramientas que le permitan al psicólogo establecer relaciones y
obtener una valoración general. Los instrumentos de medición psicológica han jugado un papel muy importante en la
historia de la Psicología. No obstante, a pesar de los avances teóricos, las técnicas de evaluación psicológica aún
tienen que resolver muchos aspectos relacionados básicamente con su utilización.

El manejo de estos instrumentos de medición requiere de una fundamentación teórica, de un conocimiento técnico de
los instrumentos y de un manejo ético de los mismos. Mientras no se cumplan estos requerimientos, algunos conceptos
como medición en psicología, evaluación y psicometría, siempre serán motivo de cuestionamientos.

4
Vale recordar como escenario existencial que circunda las evaluaciones psicológicas, que todo proceso de medición
deja huellas transcendentales en la vida de las personas. Puede resultar en consecuencias nefastas, la utilización
incorrecta de los test en el destino de las personas evaluadas. Por ejemplo: un Psicodiagnóstico que no refleje su
problemática, el no ingreso a un colegio, la mala escogencia de una carrera, la imposibilidad de conseguir un empleo,
desarrollo dentro de una organización, etc.

Tal vez este sea el momento adecuado para recordar que fuera del contexto clínico, el social y algunos contextos
educativos, las evaluaciones obedecen básicamente a escenarios capitalistas donde hay mayor oferta que demanda y
surge la necesidad de seleccionar y filtrar las oportunidades. La medición psicológica entonces, favorecerá que tales
procesos sean realizados de manera transparente, con ausencia de favoritismos, fundamentados en cualidades y
conocimientos, proporcionando una recopilación objetiva de información, una comunicación más eficiente y detallada de
resultados, promoviendo mayor agilidad y equidad en la toma de decisiones. Finalmente, la medición psicológica
organizacional, ofrece una excelente relación costo/beneficio. La economía en tiempo y dinero es significativa para la
cantidad y profundidad del material recopilado.

La medición psicológica, en nuestro contexto más práctico, más laboral, que investigativo, tiene el propósito básico de,
a través de un corte transversal en la vida de alguien, recopilar una serie de información que permita comprender este
ser evaluado en algunas de sus características y realizar una serie de predicciones de comportamientos que tengan
que ver con el objeto de la evaluación.

1.1.4. PARTES INVOLUCRADAS


1.1.4.1. Evaluador:
Los desarrolladores de las pruebas y los editores crean pruebas y otros métodos de evaluación. Algunas pruebas
fueron creadas para un caso de investigación, algunas para ser publicadas y otras de pruebas ya existentes para ser
revisadas. De acuerdo con esto, un gran número de organizaciones profesionales han publicado estándares de
comportamiento ético que refieren, de manera específica aspectos del desarrollo y so de pruebas en forma ética y
responsable. Los estándares para las pruebas psicológicas y educativas cubren aspectos relacionados con la
construcción y estandarización de pruebas, administración y usos y aplicaciones especiales de las pruebas, tales como
adecuaciones especiales en la aplicación de pruebas a minorías lingüísticas.

1.1.4.2. Evaluado:
Los evaluados tienen diferentes aproximaciones a la situación de evaluación, y los usuarios o aplicadores, deben ser
sensibles ante la diversidad de respuestas posibles ante dicha evaluación. El día de la aplicación de la prueba, los
evaluadores pueden variar de forma continua y de acuerdo con numerosas variables, incluidas:
- El estado de ansiedad que están experimentando y el grado en que la ansiedad puede afectar de manera
significativa los resultados de la prueba.
- Su capacidad y disposición para cooperar con el examinador o para comprender las instrucciones de la prueba
escrita.
- El grado de dolor físico o angustia emocional que están sintiendo.
- El grado de incomodidad física por no haber comido lo suficiente, haber comido en exceso u otras condiciones
físicas.
- El estado en que están alertas y despiertos en contraposición al estado de somnolencia.
- La predisposición que tienen a estar de acuerdo o en desacuerdo cuando se les presentan estímulos parta provocar
una reacción.
- El grado de preparación e información que han recibido antes de la evaluación.
- La importancia que le haya atribuido al verse situados en un buen o mal lugar.

5
1.2. CONSIDERACIONES ESTADÍSTICAS:

1.2.1. CONFIABILIDAD
Ronal Jay y Mark S. (2007). Es una prueba que se refiere a la consistencia de las puntaciones obtenidas por las
mismas personas en distintas ocasiones con las mismas pruebas.

Es la capacidad del mismo instrumento para producir resultados congruentes cuando se aplica por segunda vez, en
condiciones tan parecidas como sea posible.
La confiabilidad se refiere al nivel de exactitud y consistencia de los resultados obtenidos al aplicar el instrumento
por segunda vez en condiciones tan parecida como sea posible.

Bernal (2000:218) afirma que la pregunta clave para determinar la confiabilidad de un instrumento de medición es:
Si se miden fenómenos o eventos una y otra vez con el mismo instrumento de medición, ¿Se obtienen los mismos
resultados u otros muy similares? Si la respuesta es afirmativa, se puede decir que el instrumento es confiable.

Es importante lograr la elaboración de un instrumento que sea confiable. Para ello, existen muchas vías para
lograrlo. Si se tratara de un cuestionario, se puede aplicar dos veces a la misma persona en un corto período de
tiempo, y seguidamente se utiliza el índice de Bellack:
Se considera que el instrumento es confiable si el índice de Bellack resultante es superior al umbral arbitrario de 80.
Pourtois, J., Desmet, H. (1992:187)
Esta prueba se aplica a cualquier tipo de variable o dimensión objeto de estudio.

Otra manera para poder determinar si un instrumento es confiable es a través del cálculo de la medida de estabilidad
por la vía del test-retest. En este procedimiento un mismo instrumento es aplicado en dos oportunidades o más a un
mismo grupo de personas, después de cierto período de tiempo. Si la correlación entre los resultados de las diferentes
aplicaciones es altamente positiva, el instrumento se considera confiable.
El cálculo de este coeficiente se utiliza para mediciones de variables o dimensiones que responden a una escala de
medición de intervalo o razón.
Es importante que para la aplicación de esta prueba, se tome un lapso de tiempo lo suficientemente largo para que los
sujetos se olviden de lo que contestaron y, por el otro, no tanto que se produzcan cambios importantes. (Pérez
1998:72). Este tipo de medición se utiliza en investigaciones cuantitativas.

También el Coeficiente alfa de Cronbach permite determinar la confiabilidad; utilizando la fórmula si el resultado es
0.80 o más se considera aceptable el instrumento.

El cálculo del coeficiente de confiabilidad Alfa de Cronbach se utiliza para mediciones de variables o
dimensiones que responden a una escala de medición de intervalo o razón.

La confiabilidad también se puede calcular mediante la aplicación de las ecuaciones de Rulon, Guttman, Sperman-
Brown, Kuder-Richardson (KD20) para elementos dicotómicos y (KD21) en el caso de elementos con dificultad similar.

Adicionalmente a la confiabilidad de un instrumento, se debe buscar la validez del mismo. En este sentido, el
investigador realizará un esfuerzo dirigido a la elaboración de un instrumento que mida lo que se desea medir.

Salkind (1998:126); Hernández (1998:242) clasifican la validez en: validez de contenido, validez de criterio y la validez
de constructo.

La validez de contenido está representada por el grado en que una prueba representa el universo de estudio. Por tal
motivo, deberán seleccionarse los indicadores e ítems de tal manera que estos respondan a las características
peculiares del objeto de estudio.

6
La validez de criterio, llamada también validez concurrente es más fácil de estimar, lo único que se debe hacer es
correlacionar su medición con el criterio, y este coeficiente se toma como coeficiente de validez. La validez de criterio es
una medida del grado en que una prueba está relacionada con algún criterio. Es de suponer que el criterio con el que se
está comparando la prueba tiene un valor intrínseco como medida de algún rasgo o característica.
Una prueba se considera válida para un propósito específico si en realidad mide lo que pretende medir. De ese modo,
una prueba de inteligencia es válida si en realidad si mide de inteligencia.

1.2.2. TIPOS DE CONFIABILIDAD

1.2.1.1. Test –retest:


Es un instrumento de medición muy confiable porque se puede decir que la confiablidad es estable en el tiempo, es
decir hoy, mañana o el próximo año. En el lenguaje psicométrico, este enfoque de la valoración de la confiabilidad
se llama método test-retes y el resultado de dicha evaluación es una estimación de la confiabilidad test-retest.

La confiabilidad test retest es una estimación de la confiabilidad obtenida al correlacionar pares de puntuaciones de
las mismas persona en dos aplicaciones diferentes de la misma prueba. La medida test retes es apropiada cuando
se valora la confiablidad de una prueba que pretende medir algo relativamente estable a lo largo del tiempo, como
un rasgo de personalidad.

Conforme pasa el tiempo, las personas cambian, pueden, por ejemplo, aprender cosas nuevas, olvidar otras y
adquirir nuevas habilidades. Por lo general. Aunque hay excepciones, conforme se incrementan el intervalo de
tiempo entre las aplicaciones de las mismas pruebas, disminuye la correlación entre las puntuaciones obtenidas en
cada una. El paso del tiempo puede ser una causa de la varianza de error. Entre más tiempo pase, es más probable
que el coeficiente de confiabilidad sea menor. Cuando el intervalo entre las pruebas es mayor a seis mese, a
menudo se hace referencia a la estimación de la confiabilidad test retest como coeficiente de estabilidad

Una estimación de la confiabilidad test retest puede ser más apropiadas para calibrar la confiabilidad de exámenes
que emplean como medidas de resultados el tiempo de reacción o juicios perceptivos. Sin embargo, incluso al medir
variables como éstas y aun cuando el periodo entre las dos aplicaciones de la prueba sea relativamente pequeño,
nótese que pueden intervenir diversos factores y alterar una medida de confiabilidad obtenida.

1.2.1.2. Formas paralelas y formas alternas:

Si alguna vez usted ha presentado un segundo examen en el que las preguntas no eran iguales a las de la prueba
inicial, ha experimentado con formas diferentes de una prueba. Y si alguna vez se ha preguntado si en realidad las
dos formas de la prueba eran equivalentes, habrá cuestionado la confiabilidad de las formas alternas o formas
paralelas de la prueba. Aunque con frecuencia se usan de manera indistinta los términos formas alternas o
formas paralelas, existe una diferencia entre ellos, Existen formas paralelas de una prueba cuando, para cada
forma del examen, las medias y las varianzas de las puntuaciones de la prueba observada son iguales. En teoría las
medias de las puntuaciones obtenidas en formas paralelas se correlacionan igual con la puntuación verdadera. De
manera más práctica, las puntuaciones obtenidas en pruebas paralelas se correlacionan de modo igual con otras
medidas.

Las formas alternas, de modo simple, son versiones diferentes de una prueba que se han construido para que
sean paralelas. Aunque no cumplen con los requisitos para la designación legítima de “paralelas”, las formas
alternas de una prueba generalmente estás diseñadas para ser equivalentes con respecto a variables como
contenido y nivel de dificultad.

7
Se puede obtener un estimado de la confiabilidad de una prueba sin elaborar una forma alterna de la misma y sin
tener que administrarla dos veces a las mismas personas. La derivación de este tipo de estimado implica una
evaluación de la consistencia interna de las preguntas de la prueba. De manera lógica, se le conoce como una
estimación de la confiabilidad de la consistencia interna como una estimación de la consistencia entre reactivos.
Existen diferentes métodos para obtener estimaciones de confiabilidad de la consistencia interna. Uno de dichos
métodos es la estimación de dividir en mitades.

1.2.1.3. División por mitades:

Una estimación de la confiabilidad de dividir en mitades se obtiene correlacionando dos pares de puntuaciones
obtenidas cuando es poco práctico o indeseable evaluar la confiabilidad con dos pruebas o hacer dos aplicaciones
de una misma prueba. El cálculo de un coeficiente de confiabilidad de dividir en mitades por lo general implica tres
pasos:
1º Dividir la prueba en mitades equivalentes.
2º Calcular una r de Pearson entre las puntuaciones en las dos mitades de la prueba.
3º Ajustar la confiabilidad de una mitad de la prueba usando la fórmula de Spearman-Brown.

Una forma aceptable de dividir una prueba es asignar al azar las preguntas a una u otra mitad de la prueba. Una
segunda forma aceptable de dividir una prueba es asignar las preguntas con números a una mitad de la prueba y las
identificadas con números pares a la otra mitad. Este modo produce una estimación de la confiabilidad de dividir en
mitades, a la que también se le llama confiabilidad non-par. Aún otra manera es dividir la prueba por contenido y la
dificultad.
En general, un objetivo primario al dividir una prueba en mitades con el propósito de obtener una estimación de
la confiabilidad de dividir en mitades es crear lo que podría denominarse “mini formas paralelas”, con cada mitad
siendo igual a la otra o lo más cercano posible a esto, en aspectos de formato, estilísticos y otros relacionados.
El paso 2 del procedimiento implica el cálculo de una r de Pearson, lo cual requiere poca explicación en este
punto. Sin embargo, el tercer paso requiere el uso de la fórmula de Spearman Brown. La formula de Spearman,
permite a quien elabora la prueba, estimar la confiabilidad de su consistencia interna a partir de la correlación de las
dos mitades.

Medidas de confiabilidad entre evaluadores:


Denominada también como confiabilidad del evaluador, confiabilidad del juez, confiabilidad del observador y
confiabilidad entre evaluadores. La confiabilidad entre evaluadores es el grado de acuerdo o consistencia que
existe entre dos o más evaluadores (jueces o calificadores) las referencias a los niveles de confiabilidad entre
evaluadores para una prueba particular pueden publicarse en el manual de la prueba o en alguna otra parte.
Si el coeficiente de confiabilidad es muy alto, el futuro usuario de la prueba sabe que las puntuaciones pueden ser
derivadas en forma consistente y sistemática por varios evaluadores con capacitación suficiente.
Se puede estimular la consistencia entre evaluadores suministrando jueces que promuevan la participación en
discusiones de grupo junto con ejercicios prácticos e información sobre la precisión del evaluador.

Quizá la forma más simple de determinar el grado de consistencia que existe entre evaluadores en cuanto a la
calificación de una prueba sea mediante el cálculo de un coeficiente de correlación. A este coeficiente se le
denomina coeficiente de confiabilidad entre evaluadores.

1.2.3. VALIDEZ
Ronal Jay y Mark S. (2007).: En el lenguaje cotidiano, decimos que algo es valido cuando es firme, significativo o
tienen un fundamento sólido en principios o evidencia.

8
La validez, aplicada a una prueba, es un juicio o una estimación acerca de que tan bien una prueba mide lo
que pretende medir en un determinado contexto. De manera más específica, es la elaboración de un juicio en
base a la evidencia sobre lo apropiado de las inferencias realizadas a partir de las puntuaciones de una prueba.

Validación es el proceso de recopilar y evaluar la validez de la evidencia. Tanto el creador de la prueba como e
usuario de la misma pueden desempeñar una función en la validación de una prueba para un propósito específico.
Es responsabilidad del diseñador de la prueba suministrar evidencias de la validez en el manual de la misma
Cabe indicar y esperar que la puntuación de una persona en una prueba válida que mida introversión esté
inversamente relacionada con la puntuación de esa misma persona en una prueba válida que mida extroversión.; es
decir mientras más alta sea la puntuación de la prueba de introversión, más baja será la puntuación de la prueba de
extroversión y viceversa.
Para proceder a la validación por juicio de expertos, es importante tener a la mano un instrumento / formato
diseñado exclusivamente para servir de guía operativa a los especialistas, quienes lo emplearán para evaluar y
valorar la primera versión del instrumento de recolección de datos.

La confiabilidad y la validez son cualidades esenciales que deben estar presentes en todos los instrumentos de
carácter científico para la recogida de datos. En palabras de Pérez (1998:71), si el instrumento o instrumentos
reúnen estos requisitos habrá cierta garantía de los resultados obtenidos en un determinado estudio y, por lo tanto,
las conclusiones pueden ser creíbles y merecedoras de una mayor confianza.

Una manera en que los especialistas de la medición tradicionalmente han conceptualizado la validez es de acuerdo
con tres categorías: validez de contenido, validez relacionada con el criterio y validez de constructo.

Existen tres enfoques para evaluar la validez asociada a los tres tipos de valides: Examinar el contenido de la
prueba, Relacionar las calificaciones obtenidas en la prueba con otras puntuaciones u otras medidas y realizar un
análisis general (la forma en que las puntuaciones de la prueba se relacionan con otras medidas y calificaciones) y
(la forma en que las puntuaciones de la prueba puedan ser entendidas dentro de un contexto teórico para
comprender el constructo a medir y por el cual la prueba fue diseñada.

Los tres enfoques sobre la validez de la evaluación no son mutuamente excluyentes; cada uno debe ser
considerado como un tipo de evidencia que, junto con otras, contribuye a elaborar un juicio sobre la validez de la
prueba. Si bien los tres tipos de evidencia ayudan a tener una imagen unificada de la validez de la prueba, el usuario
podría no necesitar conocer los 3 tipos. Dependiendo del uso que se le vaya a dar a la prueba, los tres tipos de
evidencias con respecto a la validez pueden no ser relevantes de la misma manera.

1.2.3. TIPOS DE VALIDEZ

http://ciberconta.unizar.es/doctorado/08ecuaciones.htm

9
1.2.2.1. Validez de contenido:

Describe un juicio de cuán adecuadamente una prueba es una muestra de la conducta representativa dentro del
universo de conductas que la prueba fue diseñada. Por ejemplo respecto a las pruebas de rendimiento educativo, es
usual considerar una prueba como una medida de contenido válido cuando la proporción del material cubierto por la
prueba se aproxima a la proporción del material que se cubrió en el curso. Un examen final acumulativo sobre
psicometría se considera valido en cuanto a su contenido, si la proporción y el tipo de casos sobre ese tema
abarcados en la prueba, se aproximan a la proporcionan y el tipo de problemas que se abordaron durante dicho
curso.

Validez de contenido, está representada por el grado en que una prueba representa el universo de estudio. Por tal
motivo, deberán seleccionarse los indicadores e ítems de tal manera que estos respondan a las características
peculiares del objeto de estudio. En el análisis de factores se generan “variables artificiales”, denominadas factores
que representan constructos, los factores se obtienen de las variables originales y deben ser interpretadas de
acuerdo con éstas. Se trata, de una técnica para explicar un fenómeno completo complejo en atención de unas
cuantas variables.

Todos los instrumentos de recolección de datos (cuestionarios, test, escalas, guías de observación, pruebas de
conocimiento, etc.) debe precisar de la validez de contenido, y ésta consiste en hacer una revisión profunda de cada
ítem que estructuran el instrumento.
Denominada también “lógica” o de “muestreo”. Se refiere básicamente al contenido del instrumento, al hecho de
que el instrumento contenga en sus elementos o ítem todos y sólo los aspectos que, de acuerdo a los objetivos de
la investigación, sea necesario (sic) averiguar para el logro de los mismos.
De esta manera, la validez de contenido es un procedimiento al que no puede obviarse cuando se tiene el objetivo
certero de realizar una investigación de gran envergadura, y en el caso muy particular de la Gerencia de Recursos
Humanos, los instrumentos de recolección de datos han de condensar suficientes ítem como para poder apreciar
de una manera totalizadora los aspectos, factores y variables que se conjugan para estructurar el fenómeno objeto
de estudio.

Debe tenerse siempre presente que el investigador del área de Recursos Humanos tiene ante su mirada de
inquisidor científico un universo de sujetos cuyas actuaciones se corresponden con representaciones subjetivas y
las mismas son objetivadas en actos y redes de actos los cuales se constituyen en los posibles escenarios
susceptibles de ser captados a través de medios instrumentales diseñados para fines bien definidos.

Así, de lo que se trata es de advertir que los fenómenos sociales son de una complejidad tal que todo investigador
que se aventure a su aprehensión debe disponer de instrumentos de recolección de datos bien construidos, y es por
ello que la validez de contenido está destinada a darle coherencia y sistematicidad a los ítems que conforman el
instrumento diseñado.

Al decir de Aroca, A. (1999: 269), El método que más se utiliza para estimar la validez de contenido es el
denominado Juicio de Expertos, el cual consiste en seleccionar un número impar (3 o 5) de jueces (personas
expertas o muy conocedoras del problema o asunto que se investiga). Quienes tienen la labor de leer, evaluar y
corregir cada uno de los ítems del instrumento so pretexto de que los mismos se adecuen directamente con cada
uno de los objetivos de la investigación propuestos.

Se consideran expertos o jueces aquellos sujetos que reúnan las siguientes consideraciones:

a.- Formación académica en el área y rama del quehacer científico al que diera lugar;

1
0
b.- Comprobada trayectoria experiencial de investigaciones realizadas en institutos y centros destinados para fines
bien definidos;
c.- Desarrollo de una línea (o líneas) de investigación relacionada a intereses académicos;
d.- Poseer una amplia concepción epistemológica de la ciencia y de la investigación; y,
e.- Demostrar pleno dominio de la lengua castellana, pues la sintaxis, la semántica y la sindéresis son aspectos
determinantes para dar forma interna y externa al instrumento.

Tomando como base estas características que se consideran las más deseables que debe tener un experto
encargado de validar los instrumentos de recolección de datos, se hace saber que la validez de contenido permite al
sujeto investigador lograr la aprehensión lo más objetiva posible de la esencia de los hechos y fenómenos que
estudia, es decir, se establece un perfecto relacionamiento entre los propósitos de la investigación y el alcance en el
campo real donde se experimentan los acontecimientos.

Una vez que se diseña el instrumento de recolección de datos a partir del desglosamiento de los objetivos
específicos en su factor, definición, dimensiones e indicadores, el producto materializado en dicha herramienta se
corresponde con lo que muy bien puede llamarse una primera versión, pues como se ha especificado antes debe
procederse con la “calibración” donde el juicio de experto se corresponde con una de ellas.

En manos del experto, la primera versión del instrumento sufrirá cambios superficiales o profundos, los cuales son
importantes que sean considerados por el investigador so pretexto de que el instrumento de recolección de datos
alcance la configuración y calidad deseada. Dichos cambios pueden ser de índole de contenido, de redacción-
semántica, sindéresis, correspondencia con los objetivos planteados, pertinencia con el tipo de investigación,
relación estrecha con una realidad concreta.

1.2.2.2. Validez de criterio:


Es un juicio de cuán adecuadamente puede ser utilizada la puntuación de una prueba para inferir la posición más
probable de un individuo con respecto a cierta medida del interés, siendo el criterio esa medida de interés.

Validez de criterio, llamada también validez concurrente es más fácil de estimar, lo único que se debe hacer es
correlacionar su medición con el criterio, y este coeficiente se toma como coeficiente de validez. La validez de
criterio es una medida del grado en que una prueba está relacionada con algún criterio. Es de suponer que el criterio
con el que se está comparando la prueba tiene un valor intrínseco como medida de algún rasgo o característica.

Un criterio puede ser definido en forma amplia como el modelo contra el cual se compara y evalúa una prueba o la
puntuación de una prueba. Un criterio puede ser la calificación de una prueba, una conducta específica o un grupo
de comportamientos, una cantidad de tiempo, una estimación, un diagnóstico psiquiátrico, etc. Cualquiera que sea el
criterio, de manera ideal es relevante, valido y sin contaminación. Una medida de criterio adecuada debe también
ser válida para el propósito para el que está siendo usada.

a) Validez concurrente:
Si las calificaciones de la prueba se obtienen más o menos al mismo tiempo que las medidas de criterio, entonces
las medidas de la relación entre las calificaciones de la prueba y el criterio proporcionan evidencian de la validez
concurrente. Las declaraciones de validez concurrente indiquen el grado en que las puntuaciones de una prueba
pueden servir para estimar la posición actual de un individuo frente a un criterio.

b) Validez predictiva:
Las calificaciones de la prueba pueden obtenerse en un cierto momento y las medidas de criterio en uno posterior,
usualmente después de que algún evento mediador ha ocurrido, dicho evento podría ser la capacitación, la
experiencia, alguna terapia, etc.

1
1
Las medidas de la relación que existe entre las puntuaciones de la prueba y una medida criterio obtenida en un
momento futuro nos dan un inicio de la validez predictiva de la prueba; es decir, con cuánta precisión las
puntuaciones predicen alguna medida de criterio.
Lo valioso del resultado de una prueba para tomar una decisión dependerá de cómo dicho resultado mejore las
decisiones de selección en comparación con las que se hubieran tomado sin conocerlo.

1.2.2.3. Validez de constructo:


Es un juicio acerca de lo apropiado de las inferencias realizadas a partir de las puntuaciones o calificaciones
obtenidas en la prueba, respecto a posiciones individuales en una variable llamada constructo, un constructo es
una idea informada, científica, desarrollada como una hipótesis para describiré o explicar el comportamiento.
Un ejemplo de constructo pueden ser, Inteligencia, Ansiedad, satisfacción laboral, inteligencia emocional,
creatividad, comprensión lectora, entre otros. Los constructos son rasgos inobservables, supuestos a los que un
desarrollador de pruebas puede recurrir para describir el comportamiento de la prueba o el desempeño del criterio
evaluado.
Las diversas técnicas de validación del constructo pueden proporcionar evidencia; por ejemplo:
- La prueba es homogénea, midiendo un solo constructo.
- Las calificaciones de la prueba aumentan o disminuyen como una función de la edad o del paso del tiempo o de una
manipulación experimental como se predijo de manera teórica.
- Las calificaciones obtenidas en la prueba luego de algún evento o por el simple paso del tiempo difieren de las
calificaciones de pre prueba como se predijo de manera teórica.
- Las calificaciones obtenidas en la prueba por personas de grupos distintos varían como fue pronosticado por la
teoría.
- Las calificaciones de la prueba se correlacionan con las de otras pruebas de acuerdo con lo que se predecirá a
partir de una teoría que cubra la manifestación del constructo en cuestión.
La validez de constructo determina a través del procedimiento de análisis de factores en qué medida los
resultados de una prueba se relacionan con constructos. Un constructo es un atributo para explicar un fenómeno.

Una validez es concurrente si las calificaciones de la prueba se obtienen más o menos al mismo tiempo que las
medidas de criterio, entonces las medidas de la relación entre las calificaciones de la prueba y el criterio proporcionan
evidencian de la validez concurrente. Las declaraciones de validez concurrente indiquen el grado en que las
puntuaciones de una prueba pueden servir para estimar la posición actual de un individuo frente a un criterio.
Es un instrumento de medición muy confiable porque se puede decir que la confiablidad es estable en el tiempo, es
decir hoy, mañana o el próximo año. En el lenguaje psicométrico, este enfoque de la valoración de la confiabilidad se
llama método test-retes y el resultado de dicha evaluación es una estimación de la confiabilidad test-retest.
La confiabilidad test retest es una estimación de la confiabilidad obtenida al correlacionar pares de puntuaciones de
las mismas persona en dos aplicaciones diferentes de la misma prueba. La medida test retes es apropiada cuando se
valora la confiablidad de una prueba que pretende medir algo relativamente estable a lo largo del tiempo, como un
rasgo de personalidad.

Fuente: Ronald Jay Cohen y Mark E. Swerdlik (2007). Pruebas y evaluaciones psicológicas: introducción a las
pruebas y a la medición. Editorial Mc Graw Hill. Sexta edición.

Referencias bibliográficas
Anastasi, A., (1980), Test Psicológicos, 3 ° edición, Madrid, ed. Aguilar.
Freud, S., (1930), El malestar en la cultura, Tomo XXI, Buenos Aires, Amorrortu. Editores.
Muñiz, J., & Hambleton, R. K., (1996). Directrices para la traducción y adaptación de los test. Papeles del Psicólogo,
Madrid, Universitas.
Ronald Jay Cohen y Mark E. Swerdlik (2007). Pruebas y evaluaciones psicológicas: introducción a las pruebas y a la
medición. Editorial Mc Graw Hill. Sexta edición.

1
2