Documentos de Académico
Documentos de Profesional
Documentos de Cultura
ISSN: 1578-908X 3
Correspondencia: Ignacio Pedrosa, Facultad de Psicología, Universidad de Oviedo, Plaza Feijoo, s/n, Cabina
4, 33003, Oviedo, España. Email: pedrosaignacio@uniovi.es.
Recibido: 19/02/2013
Aceptado: 12/06/2013
4 ACCIÓN PSICOLÓGICA, junio 2014, vol. 10, n.o 2, 3-20. ISSN: 1578-908X
rent statistical methods used to study it, while toria de la validez hasta la actualidad ha sido un
keeping its meaning essentially stable over time. «desembalaje» (hacia varios tipos de validez) y
Nowadays, evidence for content validity is con- un «embalaje» (hacia una conceptualización
sidered necessary (though not the sole factor) unitaria), siendo además previsible que esta me-
for interpreting test results. Finally, the use of tamorfosis continúe en el futuro. En cualquier
both qualitative and quantitative methods is re- caso, no hay duda que la concepción actual es
cognized as the best procedure for performing tomar la validez como única, existiendo diferen-
an in-depth study of content validity. Regarding tes fuentes para probar dicha validez. En este
the former, this paper recommends the IVC in- sentido, las recomendaciones técnicas de las co-
dex because, besides being currently the most misiones internacionales sugieren cinco fuentes
used, it shows the most benefits when compa- de evidencia de validez: contenido, procesos de
red to the alternatives proposed over the years. respuesta, estructura interna, relaciones con
Regarding the latter, the Generalizability otras variables y consecuencias de la evaluación
Theory is understood as the most comprehensi- (AERA, APA y NCME, 1999).
ve and accurate procedure for measuring this
aspect of test validity.
Keywords: Validity, Content validity, Esti- Aproximación al concepto de validez
mation, Construct. de contenido
Dentro de la validez de contenido en sí, los
Introducción trabajos de Rulon (1946), Mosier (1947) y Gu-
lliksen (1950a, 1950b) podrían considerarse los
Un test es un instrumento de medida a par- prolegómenos sobre los que surge el concepto
tir del cual es posible obtener una muestra de acerca de este tipo de validez (Sireci, 1998a).
conducta sobre la que se pretenden hacer cier- Sin embargo, la primera aproximación a una
tas inferencias, mientras que el concepto de definición operativa podría tener su origen en
validez se refiere al conjunto de pruebas y da- Cureton (1951).
tos que han de recogerse para garantizar la
pertinencia de tales inferencias (Muñiz, 2000). Cureton presentó una novedosa definición
Según la edición más reciente de los «Estánda- de validez de contenido que supuso la introduc-
res para el uso de tests psicológicos y educa- ción del término en la literatura sobre pruebas
cionales» (American Educational Research As- educativas y psicológicas (Sireci, 1998a). Su
sociation [AERA], American Psychological principal aportación es el reconocimiento de la
Association [APA], y National Council on Mea- existencia de una relevancia curricular o vali-
surement in Education [NCME], 1999), «vali- dez de contenido. En este sentido, afirma que si
dez se refiere al grado en que la evidencia y la se pretenden validar ítems estadísticamente, se
teoría apoyan las interpretaciones de las pun- tendría que poder aceptar que el criterio de tra-
tuaciones en los tests» (1999, p. 9). Más con- bajo es adecuado. Para ello, los ítems «tendrían
cretamente, «se validan las inferencias relati- que evocar aquello que dicen estar midiendo y
vas al uso específico de un test, y no el propio constituir una muestra representativa del uni-
test» (AERA, APA y NCME, 1985, p. 9). Es de- verso de medida» (Cureton, 1951, p. 664). Una
cir, no existen tests válidos sino que los tests vez establecido este sustento teórico, es cuando
son válidos para algo, siendo indispensable in- surgen los dos criterios fundamentales para es-
dicar a los usuarios potenciales del test sus li- tudiar la validez de contenido: relevancia y re-
mitaciones así como concretar para qué es vá- presentatividad.
lido exactamente.
El concepto de validez de contenido ha
Como sintetiza Sireci (2009), las fuentes de sido objeto de múltiples transformaciones des-
evidencia de validez han sufrido un proceso de de sus orígenes. Sin embargo, estos cambios
«embalaje» y «desembalaje». En este sentido, han estado más bien focalizados en otorgarle
parece ser que la tendencia a lo largo de la his- importancia como fuente de evidencia de vali-
ACCIÓN PSICOLÓGICA, junio 2014, vol. 10, n.o 2, 3-20. ISSN: 1578-908X 5
dez que en su definición operativa, la cual ha diciones que considera necesarias para aceptar
permanecido esencialmente estable desde su una medida en función de su contenido:
origen. Así por ejemplo, Anastasi (1954) descri-
bió la validez de contenido como especialmen- 1. El contenido del dominio debe tener sus
te pertinente para la evaluación de pruebas de raíces en la conducta, con un significado
rendimiento. Sin embargo, no apoyaba su uso generalmente aceptado.
a la hora de validar tests de aptitudes o de per- 2. El contenido del dominio debe ser defi-
sonalidad. Cronbach y Meehl (1955), aunque nido sin ambigüedad.
diferenciaban entre validez de criterio, de con-
tenido y de constructo, enfatizaban esta última 3. El contenido del dominio debe ser rele-
considerándola aplicable a todos los tests. Por vante para los objetivos de medida.
el contrario, Ebel (1956), resaltó la importan-
4. Jueces cualificados deben estar de acuer-
cia de la validez de contenido hasta el punto de
do en que el dominio ha sido adecuada-
considerarla como la base de la validez de
mente muestreado.
constructo.
5. El contenido de las respuestas debe ser
Paralelamente a estas disquisiciones, la observado y evaluado de forma fiable.
APA comenzaba a referirse al contenido de los Este planteamiento se aproxima a las pers-
tests en sus publicaciones sobre las recomen- pectivas más actuales. Como describe Kane
daciones técnicas para el diseño y uso de los (2006, p. 149), las primeras dos condiciones
tests. La tendencia histórica de la validez de sugieren la necesidad de un dominio bien defi-
contenido desde las primeras «Recomenda- nido. Su primera y tercera condición requiere
ciones técnicas para los tests psicológicos y que el dominio sea relevante para la interpre-
técnicas diagnósticas» (APA, 1952) hasta los tación propuesta así como para el uso de las
últimos «Estándares para el uso de tests psi- puntuaciones en el test. Su cuarta condición
cológicos y educacionales» (AERA, APA y alude al muestreo representativo y la última de
NCME, 1999), ha sido el incremento de su ellas requiere tanto puntuar de forma precisa
protagonismo, convirtiéndose actualmente en como que las puntuaciones observadas sean
una de las principales fuentes de evidencias generalizables. A continuación se presenta una
de validez. selección de publicaciones que permiten pro-
fundizar en la evolución de la conceptualiza-
Respecto a su definición, Guion (1977), reali- ción de la validez de contenido a lo largo de su
za una definición operativa basada en cinco con- historia (ver Tabla 1).
6 ACCIÓN PSICOLÓGICA, junio 2014, vol. 10, n.o 2, 3-20. ISSN: 1578-908X
Tabla 1
Publicaciones sobre la definición de los aspectos de la validez de contenido
Representación Procedimientos
Relevancia del Dominio Definición del Dominio
del Dominio de construcción
riable de interés. Por otra parte, el segundo adopte un criterio más o menos flexible. Así,
permite detectar las diferencias de puntuacio- por un lado, es posible interpretarlo bien a ni-
nes dadas en la evaluación de los expertos. vel de significación estadística, teniendo que
ser el IVC superior a una probabilidad asocia-
da de 0.05 (Lynn, 1986) o bien, como propone
Índice de Validez de Contenido Davis (1992), interpretando directamente el ín-
(Lawshe, 1975) dice obtenido y teniendo que ser superior a
0,80 para definir el conjunto de ítems como
Tras un considerable número de años sin adecuado. Sin embargo, desde otra perspectiva
avances a nivel cuantitativo en esta materia, es menos estricta, autores como Rubio, Berg-We-
Lawshe quien propone uno de los índices más ber, Tebb, Lee y Rauch (2003), proponen que el
conocidos de todos los desarrollados en este grado de acuerdo esperado en torno a un ítem
campo, el cual fue denominado como IVC. se ajuste al número de expertos que participan
Lawshe, desde una orientación de la Psicología en la evaluación. Para ello, el propio Lawshe
del Trabajo y las Organizaciones, planteó en su elaboró una tabla que relaciona los valores ob-
trabajo «Quantitative approach to content vali- tenidos en este índice y el número de expertos
dity» (1975) un índice empírico para relacio- empleado. De este modo, el valor crítico de la
nar el contenido de un instrumento de selec- RVC se incrementa de manera monotónica
ción de personal con el desempeño laboral. cuando se emplean entre 40 y 9 expertos (sien-
Este método, conocido como Panel de Eva- do los valores mínimos adecuados de.29 y.78,
luación del Contenido, consiste en la evalua- respectivamente) y alcanzando el grado máxi-
ción individual de los ítems de un test por par- mo de acuerdo (.99) cuando se recurre a 7 ex-
te de un grupo de expertos en la materia. A pertos o menos.
continuación, mediante la Razón de Validez de Una interpretación similar es la aportada
Contenido (RVC, Coefficient Validity Ratio en por Lynn (1986), quien establece el valor míni-
inglés), se determina qué ítems del instrumen- mo del índice teniendo en cuenta el número de
to son adecuados y deben mantenerse en la expertos participantes y el número de expertos
versión final del mismo. En este punto, se debe que consideran el ítem como relevante. En esta
asignar a cada ítem una puntuación en base a misma línea, otros investigadores han pro-
tres posibilidades: que el elemento sea esencial puesto puntos de corte valorando, al mismo
para evaluar el constructo, que resulte útil, tiempo, el número de elementos evaluados, la
pero prescindible o que se considere innecesa- consistencia interna de las escalas de evalua-
rio. Sobre esta valoración se aplica la siguiente ción e, incluso, las implicaciones prácticas de
expresión: los instrumentos de medida (Crocker, Llabre y
Miller, 1988).
n - N/2 Ejemplos de aplicación directa de este índi-
RVC= ce pueden consultarse en numerosos trabajos
N/2
aplicados a diferentes áreas como los de Ba-
zarganipour, Ziaei, Montazeri, Faghihzadeh y
donde n es el número de expertos que otorgan
Frozanfard (2012) en el ámbito clínico, Castle
la calificación de esencial al ítem y N, el núme-
(2008) en el entorno laboral o Yeun y Shin-
ro total de expertos que evalúan el contenido.
Park (2006) a la hora de analizar la validez
Finalmente, se calcula el Índice de Validez transcultural de un instrumento.
de Contenido (IVC, Content Validity Index en
inglés) para el instrumento en su conjunto, el
cual no es más que un promedio de la validez Índice de congruencia ítem-objetivo
de contenido de todos los ítems seleccionados (Rovinelli y Hambleton, 1977)
en el paso previo.
En cuanto a la interpretación de este índi- Una aportación afín al IVC es la presentada
ce, existen dos tendencias en función de que se por Rovinelli y Hambleton (1977) mediante el
ACCIÓN PSICOLÓGICA, junio 2014, vol. 10, n.o 2, 3-20. ISSN: 1578-908X 9
índice de congruencia ítem-objetivo. Para ello, vancia de cada ítem respecto a su constructo;
el juez debe valorar como +1 o -1 según el ítem pero teniendo en cuenta, en este caso, no sólo
mida o no el objetivo deseado y, aplicando so- el número de categorías ofrecidas a los jueces,
bre estos datos, la siguiente expresión: sino también el número de expertos partici-
pantes. Sobre estos datos, se establece el grado
N ͞ jk – X
͞ j) de acuerdo basado en la distribución normal y
Ijk= (X
2N - 2 obteniendo, a partir de ella, una probabilidad
asociada a cada ítem (para profundizar en el
siendo N el número de objetivos, la media de cálculo de este índice, consultar Merino y Li-
los jueces para el ítem j en el objetivo k y la via, 2009). Una aplicación práctica de este ín-
media para el ítem j en todos los objetivos. dice a una escala destinada a valorar el desem-
A partir de aquí, debe fijarse el grado de peño laboral puede consultarse en Distefano,
acuerdo mínimo esperado por el investigador Pryer y Erffmeyer (1983).
para seleccionar los ítems adecuados. Aplica- Por supuesto, en ambos casos, al igual que
ciones prácticas de este índice pueden consul- ocurre en los diferentes métodos que se pre-
tarse en trabajos como los de García-Campayo sentarán más adelante, es posible obtener una
et al. (2009) o García-Campayo et al. (2012). valoración global del instrumento diseñado.
ción del método a dos cuestionarios para la can la adecuación de este método a un contex-
evaluación de habilidades cognitivas. to diferente.
Poco después, Deville (1996) amplió este
método teniendo en cuenta tanto la relevancia
otorgada a cada ítem como las respuestas de Rango Interpercentil Ajustado
los participantes a cada elemento y aplicando a la Simetría (Fitch, et al., 2001)
el escalamiento multidimensional sobre estos
datos. Con esta propuesta, Deville, va un poco Para la aplicación de este método (conoci-
más allá relacionando tanto la validez de con- do como IPRAS en inglés), los expertos deben
tenido como de constructo. valorar, en una escala tipo Likert de 9 puntos,
la adecuación y relevancia de los distintos
ítems. Posteriormente, para mantener el ítem
Método de Capacidades Mínimas (Levine, en el instrumento final éste debe, en primer lu-
Maye, Ulm y Gordon, 1997) gar, presentar una mediana superior a 7 y, a
continuación, existir un acuerdo entre los dis-
Al igual que ocurría con el método pro- tintos expertos acerca del ítem. En este segun-
puesto por Hambleton (1980), a finales de si- do punto es donde se calcula el rango interper-
glo, Levine et al. (1997) formulan un nuevo centil (IPR, en inglés) como medida de
método basado en los test referidos al criterio dispersión (idealmente entre el 30 y el 70%).
y, concretamente, en la selección de personal. Finalmente, este rango calculado (IPR)
Este método, conocido como Capacidades Mí- debe ser comparado con el IPRAS, seleccio-
nimas (Minimum qualifications, MQs, en in- nando el ítem si el IPRAS asume un valor su-
glés), presenta como característica la focaliza- perior al IPR. En el estudio de Kröger et al.
ción en el nivel de capacidad o habilidad (2007), puede analizarse su aplicación a una
mínima necesaria para tener éxito en un deter- escala destinada a evaluar el daño cognitivo en
minado criterio. personas mayores.
Para ello, establecen, en primer lugar, un
perfil de las características que cada trabajador
debe poseer en relación a su rol laboral. Poste- Coeficiente de Validez de Contenido
riormente, un panel de expertos define, me- (Hernández-Nieto, 2002)
diante el método de Angoff (1971), el nivel de
habilidad mínimo que el empleado debe po- Otra propuesta es el Coeficiente de Validez
seer para cumplir con el perfil propuesto. Fi- de Contenido (CVC; Hernández-Nieto, 2002).
nalmente, estos expertos evalúan, por un lado, Al igual que los coeficientes clásicos ya expues-
cada tarea en cuanto a la dificultad de alcanzar tos, éste permite valorar el grado de acuerdo
cada una de las capacidades mínimas y, por de los expertos (el autor recomienda la partici-
otra parte, el nivel de cada aspirante en rela- pación de entre tres y cinco expertos) respecto
ción a las tareas propuestas. De este modo, se a cada uno de los diferentes ítems y al instru-
selecciona a quienes cumplen un nivel mínimo mento en general. Para ello, tras la aplicación
en las tareas que se entiende definen el cons- de una escala tipo Likert de cinco alternativas,
tructo (criterio) en que deberán tener éxito. se calcula la media obtenida en cada uno de
A pesar de que el planteamiento inicial de los ítems y, en base a esta, se calcula el CVC
este método era eminentemente laboral, su para cada elemento.
metodología permite que sea aplicable a otros
Así,
contextos de evaluación. Una muestra de ello,
es su aplicación al ámbito educativo propuesta
Mx
por Buster, Roth y Bobko (2005) quienes, in- CVCi =
troduciendo ciertas modificaciones, ejemplifi- Vmáx
ACCIÓN PSICOLÓGICA, junio 2014, vol. 10, n.o 2, 3-20. ISSN: 1578-908X 11
donde Mx representa la media del elemento en cuados (puntuaciones de 3 y 4 por los exper-
la puntuación dada por los expertos y Vmáx la tos). A partir de esta cuantificación, es posible
puntuación máxima que el ítem podría alcan- calcular el IRA para cada ítem y para la escala
zar. Por otro lado, debe calcularse el error asig- en su conjunto (dividiendo el número de ítems
nado a cada ítem (Pei), de este modo se reduce adecuados entre el número total de ítems).
el posible sesgo introducido por alguno de los
jueces, obtenido mediante Respecto al IVC, éste índice ya ha sido defi-
nido en párrafos precedentes, por lo que, en
1 j
este caso, implica únicamente una aplicación
Pei = (j) del índice propuesto por Lawshe (1975).
La novedad de este método surge en el ter-
siendo j el número de expertos participantes. cer índice a calcular (FVI), el cual aporta infor-
Finalmente, el CVC se calcularía aplicando mación acerca del grado en que los expertos
CVC = CVCi – Pei. asocian cada ítem con los constructos que se
Respecto a su interpretación, Hernández- pretenden medir, aportando así una «cuantifi-
Nieto (2002) recomienda mantener únicamen- cación preliminar de la validez factorial» (Ru-
te aquellos ítems con un CVC superior a 0.80, bio et al., 2003, p. 98).
aunque algunos criterios menos estrictos esta- Para calcular el FVI de cada ítem, se divide
blecen valores superiores a 0.70 (Balbinotti, el número de expertos que asocian correcta-
2004). El trabajo de Balbinotti, Benetti y Terra mente el ítem con su dimensión entre los ex-
(2007), presenta la aplicación de este método a pertos totales. Este mismo procedimiento, to-
la hora de traducir y adaptar una escala cen- mando la media del FVI a lo largo de los
trada en el contexto financiero. diferentes ítems puede emplearse para calcular
el FVI del instrumento total. A la hora de inter-
pretar el resultado, estos autores proponen al-
Índice de Validez Factorial canzar un valor mínimo de 0.80 para conside-
(Rubio et al., 2003) rar tanto el ítem como la escala adecuados.
asociada al ADm deber ser superior al valor acuerdo sobre los citados ítems. En ese mismo
crítico de 0.05. trabajo, los autores ejemplifican su método apli-
cándolo sobre una escala de carácter clínico.
De este modo, ambos índices aportan infor-
mación complementaria indicando, el primero A modo de resumen de los diferentes méto-
de ellos, si los expertos aceptan un ítem o no dos expuestos, se presenta una síntesis de estos
como adecuado y, mediante el ADm, el nivel de en la Tabla 2.
Tabla 2
Síntesis de los métodos basados en el juicio de expertos para el análisis de la validez de contenido
Si bien es cierto que estas propuestas cuen- to visual como objetivo el grado de similaridad
tan con un importante apoyo metodológico, no entre cada uno de estos, respecto a los demás.
están, en su mayoría, exentas de limitaciones.
Por último, otra de las propuestas que me-
Así, aunque el escalamiento multidimensional,
rece especial mención es la planteada por Nun-
el análisis de clusters y el análisis factorial per-
miten definir claramente los constructos eva- nally y Bernstein (1994). En ella, en primer lu-
luados y su relevancia, su interpretación puede gar, establecen la necesidad de calcular la
presentar problemas cuando las propiedades validez convergente de la prueba respecto a un
de las respuestas obtenidas se solapan con las instrumento independiente de la herramienta
interpretaciones del contenido (Davison, 1985; creada. A continuación, llevan a cabo un estu-
Green, 1983). dio de diferencia de medias para analizar el
cambio producido en la puntuación obtenida
Una alternativa a esta problemática es la en el constructo de interés tras la aplicación de
Teoría de la Generalizabilidad (TG). En este una intervención determinada. Según esta pro-
procedimiento se diseña, en primer lugar, un puesta, un instrumento contará con una ade-
estudio de decisión en el que se tienen en
cuada validez de contenido cuando, además de
cuenta determinadas variables o facetas que
correlacionar de manera significativa con otra
constituyen posibles fuentes de error a la hora
herramienta que evalúe la misma dimensión,
de analizar la validez (i.e., instrucciones dadas
se haya producido un cambio por el efecto de
a los participantes, el nivel de habilidad de los
participantes, etc.). A continuación se calcula una intervención específicamente destinada a
la puntuación media que el conjunto de parti- modificar dicha variable. Obviamente, a la
cipantes otorga a todos los ítems. Esto se reali- hora de interpretar los resultados, debe existir
za con el objetivo determinar qué ítems pre- una seguridad absoluta en cuanto a la inexis-
sentan un mayor ajuste al contenido que se tencia de algún tipo de interferencia si el trata-
quiere evaluar. miento es realizado por más de un profesional.
Además, teniendo en cuenta los análisis
previos, es posible establecer qué facetas son Discusión y conclusiones
relevantes a la hora de generalizar los resulta-
dos del estudio de la validez de contenido. Una Como se ha podido comprobar en la parte
aplicación de este método puede consultarse inicial del manuscrito, el concepto de validez
en Crocker, et al. (1988), en donde describen de contenido ha sido objeto de un largo proce-
cuatro posibles estudios a la hora de llevar a la so de modificaciones desde su origen a media-
práctica la Teoría de la Generalizabilidad. dos del S. XX. Sin embargo, estos cambios han
estado focalizados en la relevancia que este
De los procedimientos anteriores, quizás el
tipo de validez debe presentar, así como en los
empleo del escalamiento multidimensional,
precisamente por aportar una visión novedosa, diferentes métodos para su estudio, mante-
requiera una breve reseña, habiendo definido niéndose su definición esencialmente estable a
ya en el apartado precedente el fundamento de lo largo del tiempo.
los métodos relacionados con el análisis de En este sentido, las posturas en torno al
clusters y el análisis factorial. concepto de validez en general han sido diver-
La lógica que subyace a este método es que sas y variadas, presentando a lo largo de estas
aquellos ítems que evalúen constructos simila- décadas diferentes enfoques, tanto unitarios
res deben ser percibidos como más próximos como fragmentados (Sireci, 2009). Si bien es
entre sí en cuanto a su contenido que aquellos cierto que han existido (y existen) diferentes
que evalúan cuestiones diferentes. Así, el em- perspectivas en este sentido, el acuerdo acerca
pleo del escalamiento multidimensional, no de la importancia que la validez de contenido
sólo permite agrupar estos ítems en torno a un presenta a la hora de crear y validar cualquier
constructo como los métodos precedentes, instrumento de medida es unánime (Abad,
sino que, además, permite analizar a nivel tan- Olea, Ponsoda y García, 2011; Kane, 2009).
14 ACCIÓN PSICOLÓGICA, junio 2014, vol. 10, n.o 2, 3-20. ISSN: 1578-908X
Dejando a un lado las disquisiciones teóri- dad de interpretación, aporta información tan-
cas, sin duda alguna, los numerosos índices y to a nivel de ítem como de instrumento, así
coeficientes generados a lo largo de los años en como el hecho de centrar la atención sobre el
torno al estudio de la validez de contenido, re- acuerdo en la relevancia del ítem y el consenso
velan la importancia que ésta presenta en el de los expertos más que en la consistencia de
proceso de creación y validación de los instru- las puntuaciones dadas por los jueces.
mentos de medida.
Aun siendo cierto que el IVC presenta un
A la hora de decidir qué método emplear conjunto de beneficios que señalan su adecua-
en la investigación aplicada, se considera nece- ción a la hora de estimar la validez de conteni-
sario combinar ambas perspectivas, pues do, se considera el método elaborado por Ru-
como apuntan Haynes, Richard y Kubany bio et al (2003) como uno de los más
(1995), el estudio de la validez de contenido completos y exhaustivos, si bien, por el contra-
debe ser un proceso multimétodo, tanto a nivel rio, es posible considerar que se extralimita en
cualitativo como cuantitativo. Un ejemplo de su cometido, pues vuelve a retomar la ya cono-
ello es la recomendación de Sireci (1998a), en cida polémica a la hora de delimitar y relacio-
donde expone cómo el empleo de la Teoría de nar la validez de constructo y contenido
la Generalizabilidad, unida a la evaluación por (Cronbach y Meehl, 1955; Ebel, 1956).
parte de los expertos, ofrece un cálculo ex-
haustivo y preciso de este tipo de validez. Respecto al método MQ, se puede señalar la
dificultad que entraña aplicar este método a
Así, el mero hecho de que contar con un áreas específicas de la Psicología, puesto que el
grupo de expertos que informen sobre la falta o hecho de focalizar la atención en un nivel míni-
exceso de ítems representativos del constructo o mo de capacidad puede mermar las propiedades
que simplemente determinen a qué dimensión psicométricas del instrumento cuando este se
corresponde cada elemento, no aporta de por sí aplica a muestras que presentan bajas puntua-
información relevante para el proceso de valida- ciones en la variable evaluada. En este sentido,
ción (Sireci, 1998a). En este mismo sentido, se entiende complicado poder discriminar entre
como indica Fitzpatrick (1983), el uso de méto- aquellos sujetos que presentan un nivel bajo en
dos únicamente basados en las respuestas da- el constructo de interés lo cual, en algunas oca-
das por los participantes al test, no garantiza siones, puede ser especialmente relevante.
que verdaderamente se esté evaluando la varia-
ble de interés a menos que se cuente con evi- De igual manera, aunque el índice CVR
dencias de validez convergente. Por otro lado, si presenta una solidez metodológica importante,
exclusivamente se tienen en cuenta las respues- puede presentar ciertas dificultades de inter-
tas al test, esto supone realmente un punto de pretación en algunos casos, pudiendo, por
vista más cercano al estudio de la validez de ejemplo, obtener cualquier valor entre ±1 obte-
constructo que de contenido. niendo, sin embargo, un resultado en CVR = 0
si la mitad de los expertos señalan el ítem
Dentro de todos los métodos expuestos en como relevante.
el presente estudio, a nivel aplicado y en rela-
Por otro lado, respecto a los métodos deri-
ción a los referidos al juicio de expertos, desta-
vados de la propia aplicación del instrumento,
ca especialmente el uso del IVC planteado por
el empleo del análisis factorial y el análisis de
Lawshe (1975). Si bien todos los métodos pre-
clusters presentan una clara orientación hacia
sentan puntos débiles y críticas, trabajos como
la concordancia y la correlación entre los
el de Polit, Beck y Owen (2007) justifican el
ítems en sí, con lo que se entienden como mé-
empleo de este índice por sus numerosas ven-
todos más cercanos al estudio de la validez de
tajas, respecto al resto de métodos existentes.
constructo.
Así, en su estudio, estos autores comparan di-
cho método con un amplio número de índices Respecto al método expuesto por Nunnally
alternativos y destacan los siguientes benefi- Bernstein (1994), presenta dos claros inconve-
cios a favor del IVC: facilidad de cálculo, facili- nientes. En primer lugar, la necesidad de contar
ACCIÓN PSICOLÓGICA, junio 2014, vol. 10, n.o 2, 3-20. ISSN: 1578-908X 15
con un instrumento de medida ya validado, lo Por otro lado, se debe tener presente que el
que implica tanto incrementar la longitud y du- estudio de la validez de contenido no se cir-
ración de la aplicación como contar con un ins- cunscribe únicamente al análisis de las res-
trumento ya existente con adecuadas propieda- puestas o puntuaciones dadas a los ítems, sino
des psicométricas lo cual, a la hora de trabajar que como indican Abad et al. (2011), actual-
con determinadas variables, puede resultar com- mente existen aspectos que deben ser tenidos
plicado. Además, este método exige una varia- en cuenta a la hora de analizar la validez de
ción en la variable de medida tras su interven- contenido por presentar un efecto directo en la
ción, por lo que resulta especialmente relevante misma como son la importancia a la hora de
controlar el efecto de la intervención realizada. aplicar el instrumento y la corrección de la
Así pues, se considera que la TG no sólo propia prueba.
salva todos estos inconvenientes sino que,
Como conclusión, se entiende pues que a la
como ya se ha señalado, permite, por un lado,
hora de estimar adecuadamente la validez de
determinar qué facetas y en qué medida éstas
están afectando a la validez de contenido del contenido resulta imprescindible la combina-
test y, además, permite la generalización de los ción de métodos tanto cualitativos como cuan-
resultados obtenidos siempre que se haya dise- titativos. Así, una vez construidos los diferen-
ño un adecuado estudio de decisión. tes ítems en torno al constructo a evaluar, sería
necesario contar con un grupo de expertos que
Por otro lado, al margen de los métodos emitiesen su valoración sobre los mismos. Pos-
para la estimación de la validez y en cuanto al teriormente, a la hora de cuantificar la adecua-
posible sesgo a introducir a la hora de asignar
ción de dichos ítems, se entiende el método
la tarea a los expertos, resulta complicado ima-
IVC (Lawshe, 1975) como el más adecuado al
ginar que un grupo de expertos evalúe un de-
presentar los mayores beneficios respecto a las
terminado número de ítems sin conocer real-
mente qué pretenden medir (Sireci, 2007). Por diferentes alternativas propuestas a lo largo de
ello, una de las alternativas es emplear, como los años. Finalmente, una vez definidos qué
señalan Abad et al. (2011), ítems «de relleno», ítems son relevantes, éstos deberían aplicarse a
los cuales no miden realmente ninguno de los un conjunto de participantes para, sobre las
constructos pero se reduce, de este modo, el ci- respuestas dadas por estos, aplicar la TG. Me-
tado sesgo. Así, en este punto cobra especial diante esta metodología sería entonces posible
importancia la cantidad y el modo en que la tanto cuantificar el efecto de las posibles fuen-
información se ofrece a los expertos para que tes de error, pudiendo así controlarlas en futu-
realicen su tarea, intentando ser lo más asépti- ras aplicaciones como, principalmente, gene-
cos posible en la labor. ralizar los resultados obtenidos.
Agradecimientos: Investigación financiada por el Programa de Formación de Personal Universitario del Mi-
nisterio de Educación (AP2010-1999).
applications (pp. 19-37). Charlotte, NC: Infor- Thurstone, L. L. (1927). A law of comparative judg-
mation Age Publishing. ment. Psychological Review, 34, 273-286.
Sireci, S. G. y Geisinger, K. F. (1992). Analyzing test Tucker, L. R. (1961). Factor Analysis of Relevance
content using cluster analysis and multidimen- Judgments: An Approach to Content Validity. En
siamal scaling. Applied Psychological Measure- A. Anastasi (Ed.), Testing Problems in Perspec-
ment, 16, 17-31. tive (pp. 577-586). Washington, DC.: American
Council on Education.
Sireci, S. G. y Geisinger, K. F. (1995). Using subject
matter experts to assess content representation: Yang, Y-T. C. y Chan, C-Y. (2008). Comprehensive
A MDS analysis. Applied Psychological Measure- evaluation criteria for English learning websites
ment, 19, 241-255. using expert validity surveys. Computer and
Education, 51, 403-422. doi:10.1016/j.compe-
Merino, C. y Livia, J. (2009). Intervalos de confianza
du.2007.05.011
asimétricos para el índice la validez de con-
tenido: Un programa Visual Basic para la V de Yeung, E. J. y Shin-Park, K. K. (2006). Verifica-
Aiken [Confidence intervals for the content va- tion of the Profile of Mood States-Brief: Cross-
lidity: A Visual Basic com-puter program for the Cultural Analysis. Journal of Clinical Psychology,
Aiken’s V]. Anales de Psicología, 25(1), 169-171. 62(9), 1173–1180. doi:10.1002/jclp.20269