Tema 4

La validez de contenido del test
/Lo que sale en gris no hay que estudiarlo, sirve como complemento para entender mejor, así que leelo, porfi/
/lo que tiene un doble asterisco** es lo importante según el profe/
Grado en que una medida empírica (instrumento o conjunto de ítems) representa un dominio
específico de contenido. Es el grado en que la muestra de ítems que forman el test representa
una muestra adecuada del dominio de objetivos o conductas de interés.
Es el grado en que esa muestra de ítems es representativa del dominio de posibles ítems que
podrían formar parte del test.
Para que tenga validez de contenido, especificamos el dominio concreto, y especificamos una
muestra representativa de ese dominio. Para definir los ítems del test, habría que hacer una
búsqueda bibliográfica sobre el tema, encontrar dimensiones importantes de aquello que se va
a medir, dividir en subdimensiones (siempre que podamos) hasta que podamos definir los ítems
del test. Si no hay teoría, definimos los ítems mediante observaciones directas, mediante
expertos… etc.
Es un concepto teórico, se lleva a cabo con el contenido psicológico de la prueba dependiendo
qué vaya a medir.
Procedimientos estadísticos que nos sirven para analizar la relevancia o la representatividad de
los ítems del test. Se puede comprobar empíricamente, jueces tratan de establecer una
correspondencia entre los ítems del test y los objetivos o las áreas que pretende medir el test.
A partir de esas valoraciones, se establece un grado de acuerdo al evaluar las áreas de
contenido. Hay distintos índices.
Destacan dos aspectos:
- Relevancia: no haya ítems irrelevantes, todos los ítems que se pongan sean importantes
para representar al dominio.
- Representatividad: todas las áreas u objetivos del dominio quedan bien representados
en forma de ítem del test. Se analiza con la generalizabilidad.
1. Evolución histórica del concepto de validez

El término validez hace referencia al grado en que el test mide aquello que pretende medir.
Por tanto, sería el grado de relación entre el test y el constructo que se quiere medir, cuanto
más estrecha sea la relación más válido será el test.
Hasta los años 50 del pasado siglo, los tests se valoraban por su utilidad práctica en la selección
de personal.
La validez se entendía como la capacidad del test para predecir un criterio externo. Este criterio
es cualquier otra variable y puede ser, por ejemplo, la nota de un examen.
La forma de operativizar la relación entre el test y el criterio era mediante un coeficiente de
correlación (como por ejemplo, el de Pearson).
Así, un test era válido si existía correlación entre las puntuaciones obtenidas por los sujetos en
el test y las obtenidas en el criterio externo.
A la validez así entendida se le denominó validez predictiva de los tests. Se le llama predictiva
por que lo que se hace es coger, pasar un test de éxito académico (o cualquier otro) a principio
de curso, y compararlo con la nota final del curso 9 meses después, y ver cómo se relacionan
ambas variables; es decir, vamos a ver hasta qué punto el test de éxito académico predice
1
realmente el éxito académico en función de las notas finales de los sujetos. (A partir de una
puntuación en un test puedo predecir cómo se comportará el sujeto en un futuro)
1.1 Concepción tripartita de la validez

La publicación de los Estándares para Tests Educativos y Psicológicos (APA, 1966) estableció los
objetivos de la validez:
• Determinar el rendimiento o actuación de un sujeto en un universo de situaciones
(contenido) (Total del contenido que el test pretende medir)
• Inferir el grado en el que un sujeto posee algún rasgo o atributo (constructo) que se
supone vendrá reflejado por su ejecución en el test.
• Predecir el rendimiento o comportamiento futuro (validez predictiva) o estimar su
rendimiento actual sobre una variable externa del test (validez concurrente).
Concurrente es lo mismo que predictiva, solo que la predictiva se pasa el test primero y
la otra variable (como en el anterior ejemplo: nota del examen) se mide al tiempo; en el
caso de la concurrente se pasan ambos a la vez; por ejemplo, pasar un test de aptitudes
en matemáticas y a continuación un test de CI, para ver en qué grado se relacionan
ambos.
En la edición de 1974 por primera vez, se afirma que la validez se refiere a la adecuación de las
inferencias que se realizan a partir de las puntuaciones de los tests. (Capacidad para que las
inferencias que realizamos sean correctas)
Se mantiene la distinción entre los tres tipos de validez (contenido, criterio y constructo) y se
consideran formas independientes de interpretar las inferencias realizadas.
La validez no es una propiedad implícita a los tests ya que, lo que se pretende validar no es el
test en sí mismo, sino las inferencias que se hagan a partir de las puntuaciones obtenidas por
los sujetos.
1.2. Hacia una concepción unificada: validez de constructo

En la edición de 1999 se defiende una concepción unitaria de validez como el grado en que la
evidencia empírica obtenida y los conocimientos aportados por las teorías apoyan las inferencias
que se hagan a partir de las puntuaciones obtenidas en el test.
La única validez que se debe considerar es la validez de constructo, y las otras dos quedan
incluidas en esta y son consideradas estrategias de validación para comprender mejor lo que
mide un test. (Se supone que los otros dos tipos de validación están dentro de esta de constructo,
son como subtipos)
Básicamente la validez principal es la de constructo, que engloba a todas las otras, y todos los
resultados que se obtienen mediante estas técnicas deben ser congruentes, por que digamos que
se mide lo mismo desde diferentes perspectivas y se obtiene un concepto común, que es la validez
de constructo (al fin y al cabo un número que interpretamos y listo).
Siempre que se aplique un test psicológico es necesario llevar a cabo un estudio de validación
de constructo.
En función de la interpretación de las puntuaciones obtenidas y el objetivo que se pretende
alcanzar al aplicar el test, será necesario obtener otros tipos de evidencia:
 En tests de selección de personal, si la selección de una persona depende de la
predicción que se haga acerca de su rendimiento futuro en el trabajo, será necesario
llevar a cabo un estudio de validación predictiva.
2
 En tests de conocimientos, la estrategia fundamental será la validación de contenido.
Amenazas a la validez
• Inadecuada comprensión, explicación o definición del constructo teórico.
• Inadecuada medición de los constructos.
• Reactividad de los dispositivos experimentales
¿Cómo pueden controlarse?
 Desarrollando una teoría adecuada del constructo que lo relacione con otros constructos y
con otras posibles operaciones.
 Técnicas de simple y doble ciego (para que el personal participante y/o investigador
desconozcan la condición experimental). (Simple ciego: los sujetos no conocen hipótesis,
objetivos, o condiciones experimentales. Doble ciego: ni los sujetos ni los participantes.)
Realmente a esto se le llama validez aparente, y es el grado en el que un test, cuando lees sus
ítems, sabes de qué va o no, cuál es el objetivo. Es importante en el sentido de que, si por
ejemplo es un test de selección de personal y te lo pasan a ti, tú vas a poner todo de tu parte
para responder con total sinceriNO, NO EXISTE LA SINCERIDAD EN EL MUNDO LABORAL,
pondrás todo de tu parte para MENTIR y aparentar ser lo que la empresa necesita aunque no
tú no seas así, por lo tanto, si tiene baja validez aparente, no vas a saber cómo responder por
que los ítems no serán explícitos, y te limitarás a ser sincero y ya.
La técnica del simple y doble ciego realmente es que el experimentador que está en contacto
con los participantes no conozca de qué es el experimento o qué resultados se esperan obtener,
para no inducir a los participantes (de forma inconsciente) a que respondan de una
determinada manera… Maldito Rosenthal.
Para ayudar a masticar…
Engloba todas las evidencias de validez.
Están todas las series de diferencias entre el test que se está validando y otros constructos o
variables con los que se tiene que relacionar o diferenciar.
La validez de constructo requiere el uso de una teoría sustantiva para definir el constructo que
se va a medir y de la teoría de la medida para proporcionar una medida del mismo.
Hay que definir las variables o constructos con los que se tiene que relacionar/diferenciar, y con
la teoría de la medida que va a proporcionar una medida del mismo (test, cuestionario…).
Para medir el constructo se especifica la teoría acerca de este constructo y lo que se espera
acerca de la relación entre:
a) Este constructo y otros constructos
b) Este constructo y otras medidas (tests)
c) El test que se va a validar y otras medidas
Esto se denomina red nomológica. La validez se prueba si se puede demostrar que los resultados
obtenidos con el test se acercan al constructo.
La validación del constructo es la acumulación de evidencias que apoyan que la puntuación del
test es una de sus manifestaciones. No se puede expresar mediante un único coeficiente.
1.3. Generalización y validez

La generalización hace referencia a la posibilidad de utilizar y aplicar la evidencia obtenida en
una situación a otras similares.
Esto es importante en estudios de evaluación a gran escala.
3
Las estrategias utilizadas suponen la reducción de los diversos resultados a una métrica común
que haga factible su comparación y/o combinación (con diferentes grupos)
Las dos medidas que se suelen utilizar en el meta-análisis para transformar los resultados a una
métrica común son los niveles de significación y el tamaño del efecto (coeficiente de
correlación).
1.4. Validez y diseño del test

Lo más importante aquí es que los ítems sean: representativos y relevantes.
Los ítems que constituyen el test deben ser una muestra representativa del dominio que nos
interesa (representatividad)
Un dominio o campo conductual es una agrupación hipotética de todos los ítems posibles que
cubren un área psicológica particular.
Por ejemplo, si estamos estudiando el constructo ‘depresión’, un dominio de conductas puede
ser a nivel cognitivo, con todos los posibles pensamientos rumiativos que le pueden pasar por la
cabeza a la persona a lo largo del día. Como en un test no caben todos los ítems referentes a
estos pensamientos, por que son infinitos, pues se cogen los más representativos, los ítems que
representen conductas que les ocurran a la mayoría de personas con depresión.
La validez de contenido es una medida de lo adecuado del muestreo.
El aspecto clave de la validez de contenido, por tanto, consiste en determinar si la muestra de
sus ítems es representativa del universo o dominio conductual al que supuestamente representa.
Por ejemplo, si se quiere inferir a partir de las puntuaciones en un test sobre una determinada
conducta o constructo psicológico, esperamos que los ítems que componen el cuestionario sean
relevantes (que la información que se pregunta esté directamente relacionada con lo que se
pretende medir, y no con otra cosa), y representativos (las cuestiones que se realicen deben ser
una muestra adecuada de todo lo que se pretende medir – ejemplo anterior) de la conducta.
La evidencia de la validez de contenido hace referencia a la relación que existe entre los ítems
que componen el test y lo que se pretende evaluar con él.
Este tipo de evidencia se recoge principalmente en el momento de elaboración del test.
Si no se comprueba que el test es consistente con los objetivos perseguidos (relevancia), es decir,
que está libre de material irrelevante y que el que está representa adecuadamente el dominio
que se pretende evaluar (representatividad), la utilidad del test se verá seriamente afectada y,
por tanto, las conclusiones que se obtengan serán erróneas.
Se recomienda utilizar diferentes métodos estadísticos de muestreo para obtener una
muestra representativa de los contenidos que deben constituir el test.
El problema aparece cuando no se dispone de un dominio claramente definido. Por ejemplo, si
queremos realizar un test que valúe la inteligencia, lo primero que se debe preguntar el
constructor del cuestionario es: ¿qué es la conducta inteligente? En este caso, dado que no existe
un dominio perfectamente definido, se deben buscar otras estrategias para obtener el indicador
de la validez de contenido.
Procedimiento:
• Definir de manera operativa el dominio que se va a evaluar.
• Elaborar una tabla de especificaciones
Se trata de realizar una descripción detallada del test, determinar la proporción o el
número de ítems que evaluarán cada contenido o habilidad del dominio que evaluar, el
formato de los ítems y de las respuestas.
4
• Acudir a un grupo de expertos en la materia, que harán las veces de jueves, que deben
analizar cada uno de los ítems valorando en qué medida son representativos y
relevantes para evaluar el dominio de interés. Para evitar cualquier sesgo, dichos jueces
no deben estar implicados en la elaboración del cuestionario. Además, es recomendable
que la valoración de los ítems la realice cada juez por separado para, de este modo,
evitar posibles sesgos a la hora de responder. A esto se le llama fiabilidad interjueces.
• Buscar aquellos ítems en los que haya concordancia entre los jueces seleccionándolos
para formar parte del cuestionario.
Este es el procedimiento más habitual a la hora de valorar los indicios de validez de contenido,
si bien no está libre de críticas.
El principal problema en la utilización de expertos es que estos son altamente competentes en
el contenido que se evalúa, por lo que pueden pasar por alto un texto cuto nivel no sea adecuado
para la comprensión de los sujetos que hay que evaluar o que puede ser fácilmente
malinterpretado.
No debemos olvidar que lo que realmente importa es cómo se percibe y reacciona ante el test
o el ítem la persona que lo responde.
El uso de expertos tiene como finalidad evitar que el cuestionario tenga contenidos sesgados.
Se dice que el contenido de un test está sesgado si los ítems que lo componen evalúan aspectos
no relevantes para el dominio (sesgo por falta de relevancia) o si no representan de manera
adecuada todo el dominio que se pretende evaluar (sesgo por falta de representatividad).
2. Procedimientos de acumulación de evidencia referida al contenido**

El análisis del contenido incluye dos tipos de estudios suplementarios:
1) Los encaminados a evaluar las relaciones entre el constructo y el contenido del test:
El objetivo es garantizar que la muestra de ítems que componen la prueba es además de
relevante, representativa del constructo.
Su análisis incluye estos aspectos:
 Definición del dominio
Se centra en la definición operacional del dominio del contenido, que se sirve de una
tabla bidimensional en la que se especifican las áreas de contenido y las áreas
cognitivas que se pretenden evaluar.
 Estudio de su representatividad y de su relevancia
Consisten en la evaluación de cada uno de los ítems en función de la definición dada.
2) Los dirigidos a valorar factores contextuales internos y externos que pueden añadir
varianza no deseada.
 El estudio del formato de los ítems, el tipo de tareas exigidas, y la evaluación de la
propia situación del test.
 La evaluación de las instrucciones para la administración, y corrección de la
prueba, la interacción entre examinador-examinado, la familiaridad con la
situación, las diferencias de motivación o ansiedad o el tipo de material utilizado.
El objetivo es evitar fuentes de dificultad irrelevantes o un uso sesgado del lenguaje para lo cual
se aconseja evaluar las distintas acepciones o significados que un mismo término puede poseer
para diferentes grupos y asegurar que la experiencia curricular de los sujetos sea la misma.
Básicamente, evitar ambigüedades o palabras que se puedan malinterpretar.
5
La evidencia basada en el contenido, aunque en su mayoría cualitativa y sustentada en análisis
lógicos, puede incluir, sobre todo en tests de rendimiento y referidos al criterio, índices
empíricos de congruencia basados en pruebas interjueces o en técnicas de escalamiento
uni/multidimensional.
2.1. Protocolos del juicio de expertos **

Protocolo de Osterlind (1989)
En el que se realiza un emparejamiento no ciego ítems/dimensión (Práctica del tema 4)
 Los jueces valoran el grado de idoneidad de cada ítem sólo con su dimensión teórica, en
una escala de tres puntos:
-1 (grado bajo de idoneidad)
0 (grado medio de idoneidad)
1 (grado alto de idoneidad)
Instrucciones:
Indique de -1 a 1, escribiendo una X, el grado de idoneidad del ítem en cada una de sus
dimensiones teóricas, indicando si el ítem es representativo en su dimensión.
(Los jueces saben que los ítems pertenecen a una dimensión determinada. Por eso es un
protocolo NO CIEGO)
El juez va a ir seleccionando para cada ítem el grado de idoneidad en función de la dimensión,
por ejemplo, si tenemos el ítem ‘siempre estoy preocupado por sacar nota alta’, en la
dimensión ‘extraversión’ puntuaremos -1, mientras que en la dimensión ‘neuroticismo’
puntuaremos 1.
Protocolo de Dunn, Bouffard y Rogers (1999)
En el que se realiza un emparejamiento ciego ítem-dimensión.
 Los jueces evalúan de 1 a 5 el grado de idoneidad de los ítems en cada una de las
dimensiones teóricas, mediante un emparejamiento ciego. (El Juez no sabe a qué
dimensión representa cada ítem, así que tiene que valorarlos con respecto a todas las
dimensiones) Procedimiento CIEGO
Instrucciones:
Indique de 1 a 5, escribiendo una X, el grado de idoneidad del ítem en cada una de las
dimensiones propuestas, indicando si el ítem es representativo en algunas de las dimensiones,
donde:
1 -> bajo grado de idoneidad
5-> alto grado de idoneidad
6
Esto sería lo perfecto, que los ítems muy altos en una dimensión puntúan bajo en la otra
dimensión
Prácticamente igual que el anterior pero con una escala Likert y una tabla ligeramente
diferente.
2.2. Indicador de claridad del ítem**
Hace referencia a la opinión de los expertos sobre la redacción clara y ajustada de los ítems al
nivel de los destinatarios.
A mayor puntuación indica mayor claridad.
Instrucciones:
Indique de 1 a 5, escribiendo una X, si los enunciados están formulados de forma clara y ajustada
al nivel de los destinatarios, considerando:
1 -> Nada claro
5 -> Muy claro
En este caso el Ítem 4 sería reformulado o eliminado
2.3. Índices de congruencia/idoneidad ítem-dimensión**

1) El índice de congruencia ítem-dimensión ( Iik), fue propuesto por Hambleton (1980)
Iik indica el grado de consenso entre los jueces en la valoración del emparejamiento del ítem
con su respectiva dimensión teórica. Adopta valores comprendidos entre -1 y 1, indicando
un emparejamiento perfecto en su límite superior (cuando es 1)
Se considera como aceptable un valor mínimo de 0.60, es decir, el ítem que tenga menos
de .60 es candidato a ser eliminado.
La expresión de su cálculo es:
 N es el número de dimensiones dimensiones (del test, en el ej. anterior tenía 2

dimensiones)
 ƩXijk es la puntuación total de cada ítem dada por los jueces (si tengo 10 jueces, la
suma de las puntuaciones para cada ítem de todos los jueces)
n es el número de jueces (si han participado 10 jueces, n = 10). Protocolo NO CIEGO.
7
2) El índice de idoneidad es el Índice V de Aiken
Este es un protocolo CIEGO
Indica el grado de idoneidad del ítem con cada una de las dimensiones, es decir, con la
dimensión a la que pertenece el ítem, y con las dimensiones a las que no pertenece.
El índice V está comprendido entre 0 y 1, utilizándose el valor 0.55 como mínimo aceptable
para la dimensión a la que pertenece el ítem. (Es decir, el ítem tiene que obtener un valor
igual o superior a 0.55)
Penfield y Giaccobi (2004) propusieron el cálculo de los intervalos de confianza (95%) como
medio para contrastar la hipótesis nula que V es igual al punto de corte preestablecido. Para
calcular los intervalos de confianza se utiliza el programa elaborado y proporcionado por
Medino y Livia (2009).
Interpretación:
 Índice V ≥ 0.55 - Pertenece a esa dimensión
 Valor de 0.55 - No está dentro del intervalo de confianza
 Índice V ≤ 0.55 - No pertenece a esa dimensión
2.4. Índices de similitud**

No son tan frecuentes en su uso como los anteriores
La validez de contenido descansa, como hemos visto, generalmente en el juicio de expertos.
Se trata de determinar el grado en que los ítems que componen el test representan el contenido
que el test trata de evaluar.
Por tanto, la validez de contenido se basa en:
• La definición precisa del dominio.
• El juicio sobre el grado de suficiencia con que ese dominio evalúa.
Para expresar la validez de contenido no se utiliza un índice de correlación
Podemos utilizar estas opciones:
• Cálculo de estadísticos descriptivos
Se calcula la media y la desviación típica de todos los ítems. A continuación, se determina
una puntuación de corte que refleje, en base a la evaluación de los expertos, que la
puntuación del ítem es demasiado baja como para ser incluido en la escala.
• Índice de validez de contenido (IVC)
Lawshe (1975) propuso un índice de validez basado en la valoración de un grupo de expertos
de los ítems del test como innecesario, útil y esencial.
ne − N/2
𝐼𝑉𝐶 =
𝑁/2
- ne es el número de expertos que han valorado el ítem como esencial
- N es el número total de expertos que han evaluado el test
El IVC oscila entre -1 y +1, siendo las puntuaciones positivas las que indican una mejor
validez de contenido
Un índice IVC = 0 indica que la mitad de los expertos han evaluado el ítem como esencial
Los ítems con una baja IVC serán eliminados (Cuanto más bajos, menor consenso y son
más candidatos a ser eliminados)
8
Cuanto más alto es le número de jueces, se va recudiendo el valor mínimo de VC para
considerar un ítem relevante. En general han de ser como mínimo 10 jueces, por debajo se
considera que no es adecuado. Cuando mayor sea el número de jueces, mejor. Vemos en la
tabla que es 0.62 el valor para 10 jueces.
No detalla un criterio fijo, pero imaginamos que un ítem válido será muy cercano a 1, y uno
bajo será próximo a 0 o negativo.
Kappa de Cohen
Analiza el grado de acuerdo entre dos jueces o evaluadores cuando éstos asignan
independientemente sujetos a dos o más categorías. Se considera que todos los desacuerdos
tienen la misma importancia o peso.
Tenemos dos jueces o evaluadores que clasifican de forma independiente a N sujetos en un
número mayor o igual de dos categorías (deben ser mutuamente excluyentes y exhaustivas, es
decir, un sujeto solo puede pertenecer a dos categorías).
Si dos evaluadores deben asignar a un número N de sujetos a dos o más categorías, vamos a
analizar la concordancia entre las elecciones de distintos jueces, es decir, esta es la forma de
cuantificar el grado de acuerdo.
Si tenemos dos jueces valorando un ítem, se pueden dar cuatro resultados posibles: (la escala
es dicotómica: negativo/positivo)
Observador A
Positivo Negativo Total
Observador B Positivo a b r
Negativo c d s
Total t u N
El índice Kappa indica el grado de acuerdo que existe por encima del esperado por azar.
𝑃0 − 𝑃𝑒
𝜅=
1 − 𝑃𝑒
 P0 es la proporción de acuerdos observados
 Pe la proporción de acuerdos esperados por azar
Fórmulas para obtener P0 y Pe

𝑎+𝑑 𝑟·𝑡+𝑠·𝑢
𝑃𝑜 = 𝑃𝑒 =
𝑁 𝑁2
9
Interpretación:
• Cuando K es positivo: el acuerdo es mejor que si lo hubiera asignado por azar
Cuando hay acuerdo total, b = c = 0, por lo tanto el valor de P0 es 1, por lo tanto κ = 1 (máximo
acuerdo)
• Cuando K es negativo: el acuerdo es menor que si lo hubiera asignado por azar
• Cuando K es 0: todo acuerdo observado es igual que lo esperado por azar
Un modo intuitivo de interpretar este índice puede hacerse despejando P0 de la definición:
P0 = 𝜅 + (1 − 𝜅)· Pe
Por debajo de .20 hay muy poca concordancia, ítem será eliminado… mientras más alto, más
concordancia
W de Kendall
Se utiliza cuando se quiere conocer el grado de asociación entre k conjuntos de rangos,
resultando útil cuando se solicita a los expertos asignar rangos a los ítems. (Aquí los jueces
asignan rangos de valores a cada ítem, rango que va de 0 a 1, a myor valor, mayor concordancia)
 El mínimo valor asumido por el coeficiente es 0 y el máximo 1 (cuánto más alto, mayor
concordancia).
 Un valor alto de la W puede interpretarse como un reflejo de que los k observadores o
jueces están aplicando los mismos estándares al asignar los rangos a los ítems.
 Esto no garantiza que los ordenamientos observados sean correctos, ya que todos los
jueces pueden coincidir si están utilizando un criterio incorrecto para clasificar.
Fórmula:
𝑠 ∑ (𝑡 3 −𝑡)
𝑊= 1 siendo 𝑇=
12
·𝐾2 ·(𝑁3 −𝑁)−𝐾·∑𝑇 12
Donde:
2
 S = ∑(𝑅𝑗 − 𝑅)
 K: cantidad de expertos o evaluadores
 N: cantidad de elementos (ítems) a valorar
 t: cantidad de ligas en valoración de cada experto (rangos coincidentes)
10
Interpretación:
(el valor estadístico W va relacionado con alfa α, que suele ir establecido con .05):
• Si p ≤ α
La concordancia del evaluador no se debe al azar (Rechazamos H0), y concluimos que las
clasificaciones del evaluador están asociadas entre sí.
• Si p > α
La concordancia del evaluador se debe al azar (No rechazamos H0) no contamos con
suficiente evidencia para concluir que las clasificaciones del evaluador están asociadas.
Las siguientes dos técnicas no son muy utilizadas, no las vamos a desarrollar ni ver en
prácticas:
Escalamiento multidimensional
Es una técnica de representación espacial que permite visualizar sobre un mapa un conjunto de
estímulos cuyo posicionamiento relativo se desea analizar.
 Es un procedimiento para tomar preferencias y percepciones de los encuestados y
representarlos en un diagrama visual.
 Estos diagramas tienen generalmente dos dimensiones, pero pueden representarse en
más de dos, y son llamados mapas perceptuales.
 La lógica subyacente es que aquellos ítems similares se encontrarán muy próximos entre
sí.
Análisis Cluster
(es muy similar al análisis factorial, principal técnica usa en psicometría)
El análisis cluster es un conjunto de técnicas multivariantes utilizadas para clasificar a un
conjunto de individuos en grupos homogéneos.
 Los grupos son desconocidos a priori y son precisamente lo que queremos determinar
(si los jueces están todos de acuerdo)
 Por lo tanto, se hace imprescindible definir una medida de similitud o bien de
divergencia para ir clasificando a los individuos en unos u otros grupos.
 Básicamente, el análisis constará de un algoritmo de clasificación que nos permitirá la
obtención de una o varias particiones, de acuerdo con los criterios establecidos.
 La lógica subyacente es que aquellos ítems similares están agrupados conjuntamente
formando un mismo cluster
11
El proceso completo del análisis cluster sería:
• Partimos de un conjunto de N individuos de los que se dispone de una información cifrada
por un conjunto de n variables.
• Establecemos un criterio de similaridad para poder determinar una matriz de similaridades
que nos permita relacionar la semejanza de los individuos entre sí.
• Escogemos un algoritmo de clasificación para determinar la estructura de agrupación de los
individuos.
• Especificamos esa estructura mediante diagramas arbóreos o dendogramas u otros
gráficos.
12

Tema 4

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Tema 4

Cargado por

Copyright:

Formatos disponibles

La validez de contenido del test

1. Evolución histórica del concepto de validez

1.1 Concepción tripartita de la validez

1.2. Hacia una concepción unificada: validez de constructo

1.3. Generalización y validez

1.4. Validez y diseño del test

2. Procedimientos de acumulación de evidencia referida al contenido**

2.1. Protocolos del juicio de expertos **

En este caso el Ítem 4 sería reformulado o eliminado

2.3. Índices de congruencia/idoneidad ítem-dimensión**

 N es el número de dimensiones dimensiones (del test, en el ej. anterior tenía 2

2.4. Índices de similitud**

Fórmulas para obtener P0 y Pe

También podría gustarte