Documentos de Académico
Documentos de Profesional
Documentos de Cultura
/Lo que sale en gris no hay que estudiarlo, sirve como complemento para entender mejor, así que leelo, porfi/
/lo que tiene un doble asterisco** es lo importante según el profe/
Grado en que una medida empírica (instrumento o conjunto de ítems) representa un dominio
específico de contenido. Es el grado en que la muestra de ítems que forman el test representa
una muestra adecuada del dominio de objetivos o conductas de interés.
Es el grado en que esa muestra de ítems es representativa del dominio de posibles ítems que
podrían formar parte del test.
Para que tenga validez de contenido, especificamos el dominio concreto, y especificamos una
muestra representativa de ese dominio. Para definir los ítems del test, habría que hacer una
búsqueda bibliográfica sobre el tema, encontrar dimensiones importantes de aquello que se va
a medir, dividir en subdimensiones (siempre que podamos) hasta que podamos definir los ítems
del test. Si no hay teoría, definimos los ítems mediante observaciones directas, mediante
expertos… etc.
Es un concepto teórico, se lleva a cabo con el contenido psicológico de la prueba dependiendo
qué vaya a medir.
Procedimientos estadísticos que nos sirven para analizar la relevancia o la representatividad de
los ítems del test. Se puede comprobar empíricamente, jueces tratan de establecer una
correspondencia entre los ítems del test y los objetivos o las áreas que pretende medir el test.
A partir de esas valoraciones, se establece un grado de acuerdo al evaluar las áreas de
contenido. Hay distintos índices.
Destacan dos aspectos:
- Relevancia: no haya ítems irrelevantes, todos los ítems que se pongan sean importantes
para representar al dominio.
- Representatividad: todas las áreas u objetivos del dominio quedan bien representados
en forma de ítem del test. Se analiza con la generalizabilidad.
1
realmente el éxito académico en función de las notas finales de los sujetos. (A partir de una
puntuación en un test puedo predecir cómo se comportará el sujeto en un futuro)
2
En tests de conocimientos, la estrategia fundamental será la validación de contenido.
Amenazas a la validez
• Inadecuada comprensión, explicación o definición del constructo teórico.
• Inadecuada medición de los constructos.
• Reactividad de los dispositivos experimentales
¿Cómo pueden controlarse?
Desarrollando una teoría adecuada del constructo que lo relacione con otros constructos y
con otras posibles operaciones.
Técnicas de simple y doble ciego (para que el personal participante y/o investigador
desconozcan la condición experimental). (Simple ciego: los sujetos no conocen hipótesis,
objetivos, o condiciones experimentales. Doble ciego: ni los sujetos ni los participantes.)
Realmente a esto se le llama validez aparente, y es el grado en el que un test, cuando lees sus
ítems, sabes de qué va o no, cuál es el objetivo. Es importante en el sentido de que, si por
ejemplo es un test de selección de personal y te lo pasan a ti, tú vas a poner todo de tu parte
para responder con total sinceriNO, NO EXISTE LA SINCERIDAD EN EL MUNDO LABORAL,
pondrás todo de tu parte para MENTIR y aparentar ser lo que la empresa necesita aunque no
tú no seas así, por lo tanto, si tiene baja validez aparente, no vas a saber cómo responder por
que los ítems no serán explícitos, y te limitarás a ser sincero y ya.
La técnica del simple y doble ciego realmente es que el experimentador que está en contacto
con los participantes no conozca de qué es el experimento o qué resultados se esperan obtener,
para no inducir a los participantes (de forma inconsciente) a que respondan de una
determinada manera… Maldito Rosenthal.
Para ayudar a masticar…
Engloba todas las evidencias de validez.
Están todas las series de diferencias entre el test que se está validando y otros constructos o
variables con los que se tiene que relacionar o diferenciar.
La validez de constructo requiere el uso de una teoría sustantiva para definir el constructo que
se va a medir y de la teoría de la medida para proporcionar una medida del mismo.
Hay que definir las variables o constructos con los que se tiene que relacionar/diferenciar, y con
la teoría de la medida que va a proporcionar una medida del mismo (test, cuestionario…).
Para medir el constructo se especifica la teoría acerca de este constructo y lo que se espera
acerca de la relación entre:
a) Este constructo y otros constructos
b) Este constructo y otras medidas (tests)
c) El test que se va a validar y otras medidas
Esto se denomina red nomológica. La validez se prueba si se puede demostrar que los resultados
obtenidos con el test se acercan al constructo.
La validación del constructo es la acumulación de evidencias que apoyan que la puntuación del
test es una de sus manifestaciones. No se puede expresar mediante un único coeficiente.
3
Las estrategias utilizadas suponen la reducción de los diversos resultados a una métrica común
que haga factible su comparación y/o combinación (con diferentes grupos)
Las dos medidas que se suelen utilizar en el meta-análisis para transformar los resultados a una
métrica común son los niveles de significación y el tamaño del efecto (coeficiente de
correlación).
4
• Acudir a un grupo de expertos en la materia, que harán las veces de jueves, que deben
analizar cada uno de los ítems valorando en qué medida son representativos y
relevantes para evaluar el dominio de interés. Para evitar cualquier sesgo, dichos jueces
no deben estar implicados en la elaboración del cuestionario. Además, es recomendable
que la valoración de los ítems la realice cada juez por separado para, de este modo,
evitar posibles sesgos a la hora de responder. A esto se le llama fiabilidad interjueces.
• Buscar aquellos ítems en los que haya concordancia entre los jueces seleccionándolos
para formar parte del cuestionario.
Este es el procedimiento más habitual a la hora de valorar los indicios de validez de contenido,
si bien no está libre de críticas.
El principal problema en la utilización de expertos es que estos son altamente competentes en
el contenido que se evalúa, por lo que pueden pasar por alto un texto cuto nivel no sea adecuado
para la comprensión de los sujetos que hay que evaluar o que puede ser fácilmente
malinterpretado.
No debemos olvidar que lo que realmente importa es cómo se percibe y reacciona ante el test
o el ítem la persona que lo responde.
El uso de expertos tiene como finalidad evitar que el cuestionario tenga contenidos sesgados.
Se dice que el contenido de un test está sesgado si los ítems que lo componen evalúan aspectos
no relevantes para el dominio (sesgo por falta de relevancia) o si no representan de manera
adecuada todo el dominio que se pretende evaluar (sesgo por falta de representatividad).
5
La evidencia basada en el contenido, aunque en su mayoría cualitativa y sustentada en análisis
lógicos, puede incluir, sobre todo en tests de rendimiento y referidos al criterio, índices
empíricos de congruencia basados en pruebas interjueces o en técnicas de escalamiento
uni/multidimensional.
(Los jueces saben que los ítems pertenecen a una dimensión determinada. Por eso es un
protocolo NO CIEGO)
El juez va a ir seleccionando para cada ítem el grado de idoneidad en función de la dimensión,
por ejemplo, si tenemos el ítem ‘siempre estoy preocupado por sacar nota alta’, en la
dimensión ‘extraversión’ puntuaremos -1, mientras que en la dimensión ‘neuroticismo’
puntuaremos 1.
Protocolo de Dunn, Bouffard y Rogers (1999)
En el que se realiza un emparejamiento ciego ítem-dimensión.
Los jueces evalúan de 1 a 5 el grado de idoneidad de los ítems en cada una de las
dimensiones teóricas, mediante un emparejamiento ciego. (El Juez no sabe a qué
dimensión representa cada ítem, así que tiene que valorarlos con respecto a todas las
dimensiones) Procedimiento CIEGO
Instrucciones:
Indique de 1 a 5, escribiendo una X, el grado de idoneidad del ítem en cada una de las
dimensiones propuestas, indicando si el ítem es representativo en algunas de las dimensiones,
donde:
1 -> bajo grado de idoneidad
5-> alto grado de idoneidad
6
Esto sería lo perfecto, que los ítems muy altos en una dimensión puntúan bajo en la otra
dimensión
Prácticamente igual que el anterior pero con una escala Likert y una tabla ligeramente
diferente.
2.2. Indicador de claridad del ítem**
Hace referencia a la opinión de los expertos sobre la redacción clara y ajustada de los ítems al
nivel de los destinatarios.
A mayor puntuación indica mayor claridad.
Instrucciones:
Indique de 1 a 5, escribiendo una X, si los enunciados están formulados de forma clara y ajustada
al nivel de los destinatarios, considerando:
1 -> Nada claro
5 -> Muy claro
ƩXijk es la puntuación total de cada ítem dada por los jueces (si tengo 10 jueces, la
suma de las puntuaciones para cada ítem de todos los jueces)
n es el número de jueces (si han participado 10 jueces, n = 10). Protocolo NO CIEGO.
7
2) El índice de idoneidad es el Índice V de Aiken
Este es un protocolo CIEGO
Indica el grado de idoneidad del ítem con cada una de las dimensiones, es decir, con la
dimensión a la que pertenece el ítem, y con las dimensiones a las que no pertenece.
El índice V está comprendido entre 0 y 1, utilizándose el valor 0.55 como mínimo aceptable
para la dimensión a la que pertenece el ítem. (Es decir, el ítem tiene que obtener un valor
igual o superior a 0.55)
Penfield y Giaccobi (2004) propusieron el cálculo de los intervalos de confianza (95%) como
medio para contrastar la hipótesis nula que V es igual al punto de corte preestablecido. Para
calcular los intervalos de confianza se utiliza el programa elaborado y proporcionado por
Medino y Livia (2009).
Interpretación:
Índice V ≥ 0.55 - Pertenece a esa dimensión
Valor de 0.55 - No está dentro del intervalo de confianza
Índice V ≤ 0.55 - No pertenece a esa dimensión
El IVC oscila entre -1 y +1, siendo las puntuaciones positivas las que indican una mejor
validez de contenido
Un índice IVC = 0 indica que la mitad de los expertos han evaluado el ítem como esencial
Los ítems con una baja IVC serán eliminados (Cuanto más bajos, menor consenso y son
más candidatos a ser eliminados)
8
Cuanto más alto es le número de jueces, se va recudiendo el valor mínimo de VC para
considerar un ítem relevante. En general han de ser como mínimo 10 jueces, por debajo se
considera que no es adecuado. Cuando mayor sea el número de jueces, mejor. Vemos en la
tabla que es 0.62 el valor para 10 jueces.
No detalla un criterio fijo, pero imaginamos que un ítem válido será muy cercano a 1, y uno
bajo será próximo a 0 o negativo.
Kappa de Cohen
Analiza el grado de acuerdo entre dos jueces o evaluadores cuando éstos asignan
independientemente sujetos a dos o más categorías. Se considera que todos los desacuerdos
tienen la misma importancia o peso.
Tenemos dos jueces o evaluadores que clasifican de forma independiente a N sujetos en un
número mayor o igual de dos categorías (deben ser mutuamente excluyentes y exhaustivas, es
decir, un sujeto solo puede pertenecer a dos categorías).
Si dos evaluadores deben asignar a un número N de sujetos a dos o más categorías, vamos a
analizar la concordancia entre las elecciones de distintos jueces, es decir, esta es la forma de
cuantificar el grado de acuerdo.
Si tenemos dos jueces valorando un ítem, se pueden dar cuatro resultados posibles: (la escala
es dicotómica: negativo/positivo)
Observador A
Positivo Negativo Total
Observador B Positivo a b r
Negativo c d s
Total t u N
El índice Kappa indica el grado de acuerdo que existe por encima del esperado por azar.
𝑃0 − 𝑃𝑒
𝜅=
1 − 𝑃𝑒
P0 es la proporción de acuerdos observados
Pe la proporción de acuerdos esperados por azar
9
Interpretación:
• Cuando K es positivo: el acuerdo es mejor que si lo hubiera asignado por azar
Cuando hay acuerdo total, b = c = 0, por lo tanto el valor de P0 es 1, por lo tanto κ = 1 (máximo
acuerdo)
• Cuando K es negativo: el acuerdo es menor que si lo hubiera asignado por azar
• Cuando K es 0: todo acuerdo observado es igual que lo esperado por azar
Un modo intuitivo de interpretar este índice puede hacerse despejando P0 de la definición:
P0 = 𝜅 + (1 − 𝜅)· Pe
Por debajo de .20 hay muy poca concordancia, ítem será eliminado… mientras más alto, más
concordancia
W de Kendall
Se utiliza cuando se quiere conocer el grado de asociación entre k conjuntos de rangos,
resultando útil cuando se solicita a los expertos asignar rangos a los ítems. (Aquí los jueces
asignan rangos de valores a cada ítem, rango que va de 0 a 1, a myor valor, mayor concordancia)
El mínimo valor asumido por el coeficiente es 0 y el máximo 1 (cuánto más alto, mayor
concordancia).
Un valor alto de la W puede interpretarse como un reflejo de que los k observadores o
jueces están aplicando los mismos estándares al asignar los rangos a los ítems.
Esto no garantiza que los ordenamientos observados sean correctos, ya que todos los
jueces pueden coincidir si están utilizando un criterio incorrecto para clasificar.
Fórmula:
𝑠 ∑ (𝑡 3 −𝑡)
𝑊= 1 siendo 𝑇=
12
·𝐾2 ·(𝑁3 −𝑁)−𝐾·∑𝑇 12
Donde:
2
S = ∑(𝑅𝑗 − 𝑅)
K: cantidad de expertos o evaluadores
N: cantidad de elementos (ítems) a valorar
t: cantidad de ligas en valoración de cada experto (rangos coincidentes)
10
Interpretación:
(el valor estadístico W va relacionado con alfa α, que suele ir establecido con .05):
• Si p ≤ α
La concordancia del evaluador no se debe al azar (Rechazamos H0), y concluimos que las
clasificaciones del evaluador están asociadas entre sí.
• Si p > α
La concordancia del evaluador se debe al azar (No rechazamos H0) no contamos con
suficiente evidencia para concluir que las clasificaciones del evaluador están asociadas.
Las siguientes dos técnicas no son muy utilizadas, no las vamos a desarrollar ni ver en
prácticas:
Escalamiento multidimensional
Es una técnica de representación espacial que permite visualizar sobre un mapa un conjunto de
estímulos cuyo posicionamiento relativo se desea analizar.
Es un procedimiento para tomar preferencias y percepciones de los encuestados y
representarlos en un diagrama visual.
Estos diagramas tienen generalmente dos dimensiones, pero pueden representarse en
más de dos, y son llamados mapas perceptuales.
La lógica subyacente es que aquellos ítems similares se encontrarán muy próximos entre
sí.
Análisis Cluster
(es muy similar al análisis factorial, principal técnica usa en psicometría)
El análisis cluster es un conjunto de técnicas multivariantes utilizadas para clasificar a un
conjunto de individuos en grupos homogéneos.
Los grupos son desconocidos a priori y son precisamente lo que queremos determinar
(si los jueces están todos de acuerdo)
Por lo tanto, se hace imprescindible definir una medida de similitud o bien de
divergencia para ir clasificando a los individuos en unos u otros grupos.
Básicamente, el análisis constará de un algoritmo de clasificación que nos permitirá la
obtención de una o varias particiones, de acuerdo con los criterios establecidos.
La lógica subyacente es que aquellos ítems similares están agrupados conjuntamente
formando un mismo cluster
11
El proceso completo del análisis cluster sería:
• Partimos de un conjunto de N individuos de los que se dispone de una información cifrada
por un conjunto de n variables.
• Establecemos un criterio de similaridad para poder determinar una matriz de similaridades
que nos permita relacionar la semejanza de los individuos entre sí.
• Escogemos un algoritmo de clasificación para determinar la estructura de agrupación de los
individuos.
• Especificamos esa estructura mediante diagramas arbóreos o dendogramas u otros
gráficos.
12