Documentos de Académico
Documentos de Profesional
Documentos de Cultura
C apítulo 5
Platón. Eutifro
131
TRATADO DE PSIQUIATR A
132
GU AS PARA LA DESCRIPCI N Y LA SELECCI N DE INSTRUMENTOS DE EVALUACI N EN PSIQUIATR A
133
TRATADO DE PSIQUIATR A
Las escalas autoadministradas se diseñan para En función del contenido se distingue entre esca-
ser cumplimentadas por el propio sujeto o por un in- las unidimensionales y multidimensionales. En las es-
formante. En ocasiones se incluyen items para cali- calas unidimensionales, más del 80% de los items
brar la validez de las respuestas en función de la ten- evalúan una sola dimensión de acuerdo con el mode-
dencia a disimulación o a simulación (ej.: EPQ de lo de Israel (1983): dimensión física (síntomas rela-
Eysenck). Bech y cols. (1993) denomina a este gru- cionados con aspectos médicos, corporales, ej.:
po de instrumentos “cuestionarios”, sin embargo es- cuestionario de dolor de McGill), dimensión psíqui-
te término es demasiado amplio. ca (aspectos cognitivos –BDI–), y dimensión social
Las escalas heteroadministradas (“escalas de ob- (ej.: SAS, ADL). En las escalas multidimensionales
servador” según Bech), son cumplimentadas por un los items evalúan dos o tres de las dimensiones seña-
examinador. Los instrumentos de evaluación hetero- ladas (ej: GHQ, HDS). En las escalas heteroadminis-
administrados requieren diferentes niveles de capaci- tradas se distingue también entre los items referidos
tación profesional para su uso (este factor es particu- por el paciente y los observados por el evaluador.
larmente importante en el diseño y administración El sesgo de ítem u orientación se refiere a la par-
de entrevistas estructuradas). Las escalas heteroad- te del síndrome que aparece mejor reflejada en la
ministradas requieren una estandarización previa del escala, y se representa en un porcentaje de la punta-
examinador a través de un análisis de su acuerdo con ción máxima teórica para cada categoría de sínto-
un examinador de referencia (ver fiabilidad interexa- mas (Thompson, 1989).
minadores). Se señalan dos tipos de situaciones ex-
tremas en la administración de una escala heteroad-
ministrada: situación Alfa (investigador experto que Definición
sigue un interrogatorio cerrado y utiliza una escala
con pocos items, bien definidos, y que incluyen crite- La definición de cada ítem debe ser exhaustiva y
rios de mejoría y de salud); y situación Beta (evalua- mutuamente excluyente (criterios de Guilford) (Cfr.
dor inexperto, que realiza una entrevista abierta, y Bech y cols., 1993). Por otro lado, deben tenerse en
utiliza una escala con muchos items mal definidos y cuenta una serie de factores tanto al formular las
sin criterios de mejoría y salud) (Cfr. Bech y cols., preguntas y las alternativas de respuesta, como al or-
1993). denar el conjunto de items que componen la escala:
Algunos instrumentos de evaluación clínica son de
tipo mixto, incluyendo una sección para síntomas re-
feridos y otra distinta para síntomas observados en la Comprensión
entrevista.
Es necesario adaptar el lenguaje y el tipo de formu-
lación de las preguntas y respuestas al entorno socio-
CONSTRUCCIÓN DE LAS ESCALAS cultural del paciente. Así, por ejemplo, la compren-
DE EVALUACIÓN sión del uso de análogos líneares tiende a ser mejor
en el medio anglosajón que en la Europa meridional,
Como ya se ha indicado, el ítem es la unidad bási- donde la comprensión de análogos numéricos deci-
ca de información de un instrumento de evaluación, males es mayor. Existen diversos índices de evalua-
y generalmente consta de una pregunta y de una res- ción de la comprensibilidad de un texto (ej.: índice de
puesta cerrada. Flesch para el idioma inglés). El problema de la com-
prensión es sumamente importante en la evaluación
de poblaciones específicas como la de los sujetos afec-
Número de items tos de retraso mental. Por otro lado, la traducción y
adaptación de una escala previamente desarrollada en
Puede distinguirse entre escalas unitarias o globa- otro idioma y entorno cultural debe seguir una tecno-
les, compuestas de un solo ítem (ej: CGI, GAS, esca- logía específica que incluya un proceso de retro-tra-
las analógicas de dolor o de bienestar); y escalas ducción. Recientemente se han aplicado sistemas más
multi-ítem. Como regla general, se considera que complejos como el de traducción conceptual.
un fenómeno debe ser evaluado con un mínimo de 6
items (Bech y cols., 1993). Generalmente las escalas
constan de entre 10 y 90 items. Diversas escalas es- Aceptabilidad
tán disponibles en varias versiones. Así, el GHQ de
Goldberg puede utilizarse en su versión de 60, de Es fundamental que los items sean aceptables pa-
30, de 28 o de 12 items; y el HDS de Hamilton en ra el sujeto evaluado. La desideratividad social es
versiones de 21 o 17 items (a parte de otras escalas un tipo de sesgo potencial que puede alterar la vali-
derivadas de esta prueba). dez de los resultados en las respuestas (Wittchen y
134
GU AS PARA LA DESCRIPCI N Y LA SELECCI N DE INSTRUMENTOS DE EVALUACI N EN PSIQUIATR A
Essau, 1991), y que debe tenerse en cuenta al for- Selección, análisis y ordenación
mular las preguntas de determinados items (este ses- de los items
go es importante en la evaluación de las actitudes
ante determinadas enfermedades como el SIDA, en Meehl y Golden (1982) señalan una serie de prin-
las que el sujeto tiende a responder aquello que con- cipios o pasos en la construcción de una escala de
sidera como socialmente más aceptable). También es evaluación de síntomas:
necesario limitar el número de items para evitar el 1. Selección de los items en función de su relevan-
cansancio y favorecer la colaboración del sujeto (es- cia clínica y validez.
te problema es evidente en cuestionarios o en baterí- 2. Seleccionar los items en función de la correla-
as de más de 100 items como el MMPI). ción interna de los items cuando se aplican a un gru-
po mixto de pacientes (que incluye a pacientes con y
sin el síntoma evaluado).
Prevención de sesgos en la cumplimentación 3. Selección de items con diferente peso jerárqui-
co (que describan los diversos aspectos del fenóme-
La aquiescencia (tendencia a responder afirmati- no evaluado), esto es, que no sean redundantes.
vamente a la pregunta) determina la necesidad de al- 4. Ante igualdad de factores, seleccionar los items
ternar preguntas formuladas “en negativo”. Sin em- con mayor potencial de consenso.
bargo, este tipo de formulación puede disminuir 5. Comprobar el rendimiento del grupo de items
significativamente la comprensión del paciente y la seleccionado en función de diversos criterios exter-
fiabilidad de las respuestas (p. ej.: items del tipo: “no nos (edad, sexo, etc.), con el fin de evaluar su trans-
es cierto que Colón descubrió América” = V/F). El feribilidad.
error de tendencia central se refiere a la reticencia a 6. Cuando los pasos 3, 4 y 5 no se puedan efec-
responder las alternativas extremas en un ítem, dan- tuar, repetir el análisis con items modificados en
do preferencia a las centrales. Este problema afecta cuanto a definición o contenido.
principalmente a las escalas analógico-verbales de Los items también pueden seleccionarse en fun-
tres o cinco alternativas (ej: Nada, Algo, Mucho). ción de su utilidad. Esta se evalúa de acuerdo con
Otro tipo de sesgo se relaciona con la tendencia a tres criterios (Thompson, 1989):
responder más a las alternativas situadas a la derecha 1. Calibrado: frecuencia suficiente de respuestas
o a la izquierda, lo que se incrementa cuando uno de en un ítem individual como para garantizar su inclu-
los dos extremos contiene siempre las alternativas sión en la escala. Arbitrariamente puede fijarse en un
“deseables”, y puede evitarse alternando primero 10%.
items con alternativas positivas a la izquierda y des- 2. Monotonicidad ascedente: el ítem debe mos-
pués items con alternativas positivas a la derecha. trar una correlación significativa con la puntuación
Cuando se diseña una escala heteroadministrada global (ver homogeneidad).
(cumplimentada por el evaluador), deben tenerse en 3. Baja dispersión: con respecto a la línea de re-
cuenta algunos sesgos específicos: el efecto halo se gresión de la correlación anterior.
refiere a la tendencia a efectuar un juicio al inicio de De hecho, existen varios modelos para el análisis
la entrevista (ej: diagnóstico heurístico) que condicio- psicométrico de los items (García-Cueto, 1993,
na la cumplimentación de los items siguientes (ello Martínez-Arias, 1995). La Teoría Clásica del Test
puede acontecer en el HDS, que agrupa los items di- (TCT) es un modelo psicométrico que describe la in-
rectamente relacionados con depresión y severidad fluencia de los errores de medida en las puntuacio-
al inicio de la entrevista). Este efecto es importante nes observadas en un individuo. Se define la pun-
en la evaluación de comorbilidad y en las que utilizan tuación verdadera como aquella puntuación que
un único evaluador (Buchanan y Carpenter, 1994). realmente corresponde a un individuo en una varia-
El error lógico se produce al juzgar que todos los ble determinada. Sin embargo, cuando se mide algo
items aparentemente relacionados deben puntuarse con cualquier instrumento de medida, siempre se
de forma similar (así, puede asumirse que un pacien- comete un error de medida, lo que se traduce en
te con una puntuación elevada en “ideas suicidas” una diferencia entre la puntuación verdadera teóri-
puntuará también alto en “desesperanza”). El error ca y la puntuación observada que se obtiene de una
de proximidad conduce a puntuar de forma similar observación directa con el instrumento de medida.
los items adyacentes. Otra fuente de error es la va- La TCT parte de una definición de puntuación vera-
rianza terminológica que se relaciona con la atribu- dera matemáticamente aceptable y conceptualmen-
ción de un significado diferente a un mismo término. te utilizable, y de ciertos supuestos básicos que rela-
Este problema afecta sobre todo a las escalas clíni- cionan la puntuación verdadera con el error de
cas, dada la diferente interpretación de un término medida.
según la escuela psicopatológica o los conocimientos La Teoría de Respuesta al Ítem (TRI) o del rasgo
de base del evaluador. Este sesgo puede obviarse in- latente, trata de especificar las relaciones entre pun-
cluyendo un glosario terminológico anexo a la escala tuaciones ”observables” obtenidas por un sujeto en
de evaluación (ej: BPRS). un test, y los “rasgos latentes” que se supone subya-
135
TRATADO DE PSIQUIATR A
cen bajo dichas puntuaciones. Los modelos serán combinan análogos visuales y numéricos para au-
unidimensional o multidimensionales dependiendo mentar la comprensión.
del conjunto de rasgos latentes necesarios para expli- —E. gráficas: gradación a través de dibujos (ej.
car la conducta objeto de estudio. Aunque la TRI es- Face scale para evaluación de bienestar). Algunos
tablece dos parámetros más a tener en cuenta al es- autores consideran a las escalas gráficas como esca-
tudiar las características psicométricas de un test: el las lineares.
acierto al azar y los falsos positivos, ambos modelos —E. analógico-verbal: gradación en categorías
son complementarios para el análisis y construcción verbales previamente calibradas (p.e. a través del
de un test. El proceso de construcción de una escala sistema de escalación de Guttman). Generalmente
de evaluación compuesta por items binarios puede las opciones de respuesta oscilan entre 3 y 7. Likert
comenzar por la utilización de los índices de correla- consideraba que 5 era el número de alternativas óp-
ción ítem-total del modelo clásico del test, para des- timo. Goldberg por su parte, prefiere utilizar cuatro
pués plantear un análisis de su estructura latente a grados de respuesta para evitar el sesgo de tenden-
través del modelo de Rasch que permite establecer la cia central. Se considera que por encima de 6 gra-
relación mediante las respuestas manifiestas y la di- dos, el nivel de fiabilidad disminuye significativa-
mensión latente (Andersen, 89). mente. Las escalas de severidad usan más grados
La Teoría de la Generalizabilidad (TG), utiliza un que las de detección (ej.: el CGI tiene 7 mientras
conjunto de técnicas para estudiar el grado en que que el GHQ tiene 4). Estas escalas también reciben
una serie de medidas realizadas sobre un grupo de el nombre de Likert en honor a su introductor, hace
sujetos puede ser generalizada y hecha extensiva a 60 años (Cfr. Bech y cols., 1986). Sin embargo,
un grupo de sujetos diferente al primitivo. La TG tie- también se denomina así un sistema específico de
ne en cuenta los múltiples factores que pueden pro- puntuación, por lo que este uso puede prestarse a
ducir variaciones en las puntuaciones de los sujetos confusión. Ejemplo:
mediante la aplicación de un diseño multivariado,
No más Algo menos Bastante más Mucho más
permitiendo estimar la varianza atribuible a cada uno
de lo habitual de lo habitual de lo habitual de lo habitual
de ellos así como a sus interacciones. Al diversificar
las condiciones de medida se aumenta la representa- —E. analógico-categoriales: se consideran den-
tividad (generalizabilidad) de los resultados. También tro de este grupo una serie de escalas que combinan
permite diseñar procedimientos de medida en los gradación númerica y verbal (ej.: CGI, GAF) (Bech y
que los factores confusores queden representados cols., 1986). También se conocen como escalas DIS-
(Muñiz, 1992). CAN (Discretized Analogue Scale).
El análisis factorial permite comprobar la estructu-
ra unidimensional o multidimensional de un instru-
mento. Su aplicación a instrumentos ya construidos Puntuación de los items
o a versiones de los mismos hace más adecuada su
mención en el apartado de consistencia. El sistema de puntuación puede variar sustancial-
mente de una escala a otra, e incluso en una misma
escala, cuando se trata de escalas analógico-verbales.
Sistema de codificación de respuesta Las escalas unitarias de severidad (no transiciona-
les), suelen tener una puntuación máxima de 8 o 10
Escalas categoriales dicotómicas cuando son análogos visuales, y de 7 a 10 cuando se
trata de análogos verbales u otras formas combina-
Presentan un sistema de respuesta de dos alterna- das (DISCAN). El GAF puede puntuarse hasta 99,
tivas: Sí/No o Verdadero/Falso (ej: test de personali- pero en realidad presenta 10 grados de respuesta en
dad como el EPQo el MMPI). decimales.
Las escalas globales unitarias de tipo transicional
generalmente son de tipo bipolar, permitiendo una
Escalas analógicas puntuación en sentido negativo y positivo (de mayor
empeoramiento a mayor mejoría). Por razones técni-
Pueden diferenciarse en función del sistema ana- cas también pueden puntuarse de 1 a 7, aunque la
lógico utilizado para facilitar la respuesta: polaridad de la escala no queda adecuadamente re-
—E. analógico-lineal: gradación en una línea de flejada en este sistema.
7 a 10 cm (ej: escalas de bienestar). —Alternativa A: -3 / -2 / -1 / 0 / 1 / 2 / 3
—E. analógico-numérica: gradación similar a la —Alternativa B: 1 / 2 / 3 / 4 / 5 / 6 / 7
anterior pero con números (de 0 a 7 o a 10). En las Las escalas verbales multi-ítem permiten diversas
escalas unitarias termométricas los números se colo- asignaciones numéricas. Así el GHQ de Goldberg
can en posición vertical. Estas pueden también gra- permite tres asignaciones diferentes: las dos prime-
duarse de 0 a 100 (ej.: GAF para evaluación de fun- ras en base al sistema originariamente propuesto por
cionamiento general psíquico). En ocasiones se Likert en los años 30, y un tercero propuesto por el
136
GU AS PARA LA DESCRIPCI N Y LA SELECCI N DE INSTRUMENTOS DE EVALUACI N EN PSIQUIATR A
propio Goldberg. El HDS y el SANS/SAPS se pun- La homogeneidad indica el grado de acuerdo en-
túan de acuerdo con el sistema de puntuación pro- tre los items de la escala, lo que determina si estos
puesto por M. Hamilton, que distingue la opción de pueden acumularse y dar una puntuación global. Se
ausente (0), dudoso (1), y diversos grados de intensi- puede obtener mediante el estudio de la correlación
dad (del 2 al 4 o 5). de los items con el total (partición media, coeficiente
—Goldberg 0 - 0 - 1 - 1 alfa de Cronbach), análisis factorial o mediante los
—Likert I 0-1-2-3 modelos de objetividad estadística de Rasch (1980).
—Likert II 0-0-1-2 La partición media (split-half) estima la homogenei-
—Hamilton 0 - 1 - 2 - 3 - 4 dad en función de la correlación entre dos mitades
equivalentes de la escala (ej: items de primera mitad
versus items de segunda mitad, o items impares ver-
CARACTERÍSTICAS PSICOMÉTRICAS sus items pares). El coeficiente alfa de Cronbach in-
DE LOS INSTRUMENTOS DE EVALUACIÓN dica el grado en que los diferentes items presentan
una correlación positiva (la consistencia interna es al-
Existen tres parámetros básicos para evaluar la cali- ta por encima de 0,7) (Bech y cols, 1993). Otra
dad de un instrumento de medida: su consistencia, su prueba menos utilizada para el cálculo de la consis-
fiabilidad y su validez. En las escalas de seguimiento tencia interna es el test de Kuder-Richardson. La ho-
debe añadirse un cuarto: la sensibilidad al cambio. mogeneidad a partir del análisis factorial (aceptabili-
Otros parámetros a considerar son la redundancia y el dad de la puntuación global como suma de la
“coste-utilidad” de utilización de un instrumento deter- obtenida en cada ítem), se confirma si se obtiene una
minado para el propósito del estudio. Desafortunada- estructura unidimensional, esto es, todos los items
mente, no existe una definición consensuada de estos muestran una carga positiva en el primer factor
términos en epidemiología, su significado difiere del (Thompson, 1989). Además de las técnicas factoria-
uso común y varía según el área de estudio e incluso les como el análisis de componentes principales y el
entre diversos autores dentro de una misma área. Este análisis de factores principales, la estructura de una
problema se hace especialmente patente en el área escala puede ser evaluada mediante otras técnicas
de los instrumentos de evaluación subjetiva. como el escalado multidimensional no métrico o el
análisis de ecuación estructural (Buchanan, 1994). El
modelo de Rasch unidimensional considera que una
CONSISTENCIA INTERNA escala es homogénea cuando todos sus items contri-
buyen de forma independiente al total de informa-
La consistencia analiza la solidez psicométrica de ción contenido en la escala. En la teoría del rasgo la-
la escala, esto es, el nivel en que sus diferentes items tente, el nexo entre las respuestas manifiestas
están relacionados entre sí y la posibilidad de efec- (clínicas) y su dimensión latente (teórica), viene defi-
tuar sumatorios de los mismos para obtener puntua- nida por el requerimiento de que las respuestas pue-
ciones globales. Algunos autores incluyen a la consis- dan combinarse de forma aditiva hasta obtener una
tencia dentro de la fiabilidad o de la validez. Según puntuación total (Andersen, 1989). El modelo de
Hernández-Aguado y cols (1990), consistencia es Rasch permite también estudiar la jerarquía interna
aquella “propiedad que define el nivel de acuerdo o de la escala, clasificando los items homogéneos en
conformidad de un conjunto de mediciones consigo un rango jerárquico del más inclusivo (que mide los
mismas”. Desafortunadamente este autor no aporta síntomas leves o moderados de la dimensión) al más
una definición operacionalizada del término, y en su exclusivo (que mide los síntomas más graves de la di-
revisión llega a referir en un párrafo que la consisten- mensión). El coeficiente de reproducibilidad indica
cia es sinónimo de fiabilidad para afirmar lo contrario hasta qué punto la escala refleja todos los patrones
a reglón siguiente. Para evitar esta confusión termi- de respuesta del sujeto con respecto al parámetro
nológica, nos referimos aquí a la consistencia interna medido (Thompson, 1989). La transferibilidad se
de la prueba. refiere al grado en que la escala puede ser aplicada a
Algunos métodos estadísticos como el análisis fac- diferentes grupos de población que presenten el fe-
torial, aportan datos tanto de la estructura interna de nómeno evaluado, independientemente de la edad,
la escala como de su relación con modelos externos. sexo y otros criterios externos relevantes (Bech y
Tal es el caso de las escalas para evaluación de sínto- cols., 1993).
mas positivos y negativos de la esquizofrenia, cuyo
análisis factorial puede servir para validar, revisar, o
incluso refutar los modelos en los que se basa la pro- FIABILIDAD EXTERNA
pia construcción del instrumento (Liddle, 1987; Bu-
chanan & Carpenter, 1994). Muchos de los aspectos La fiabilidad nos indica el grado en que los resulta-
relacionados con la consistencia han sido menciona- dos de un test son reproducibles. Esta medida depen-
dos al tratar sobre la selección de los items o sobre la de de la estabilidad de las medidas del test a pesar del
jerarquía de ordenación de los mismos. cambio de diversos parámetros externos (esto es, no
137
TRATADO DE PSIQUIATR A
inherentes al test). El estudio de la fiabilidad externa grado de acuerdo. Feinstein (1985) propone la si-
informará sobre la reproducibilidad de los resultados guiente tabla para analizar los resultados del kappa:
del test en distintas situaciones. McDowell (1987) Valor de kappa Nivel de acuerdo
ejemplifica la diferencia entre la validez y la fiabilidad <0 pobre
con un excelente símil: un tirador tiene que aprender 0-0,20 bajo
a acertar en el blanco y después hacerlo de forma 0,21-0,40 regular
consistente. La validez vendría dada por el grado en 0,41-0,60 moderado
que el disparo se acerca a la diana, y la fiabilidad por 0,61-0,80 fuerte
el grado de aproximación entre sí de una serie con- 0,81-1,00 casi perfecto
secutiva de disparos. Algunos autores prefieren el
término variabilidad para describir las diferencias En el caso de variables ordinales, el análisis de la
entre resultados obtenidos en dieferentes condicio- concordancia ítem a ítem se puede efectuar utilizan-
nes de evaluación (Hernández-Aguado et al, 1990). do el porcentaje de acuerdo ponderado y el kappa
Un estudio sobre la fiabilidad de una prueba diag- ponderado (Kw). Estos se consideran más adecua-
nóstica debe incluir al menos un análisis del nivel de dos que sus análogos no ponderados por dar una
acuerdo obtenido al ser evaluada la misma muestra medida más real del nivel de acuerdo al ponderar el
en las mismas condiciones por dos evaluadores dis- desacuerdo según el número de rangos que separa-
tintos (fiabilidad interexaminadores). También se ran la puntuación asignada por un evaluador de la
ha denominado variabilidad interobservador (Her- asignada por el otro (así, el peso asignado puede ser
nández-Aguado et al, 1990). Se ha señalado la im- 0 para el completo acuerdo, 1 cuando hay 1 rango
portancia de contar con evaluadores de experiencia de diferencia, 2 cuando hay 2 rangos, etc.) (Kramer
similar, en cuanto a formación y uso del instrumento y Feinstein, 1981).
de evaluación a analizar. Andersen (1989) señala El método de análisis de la concordancia de las
otros factores, como la actitud ante las escalas de puntuaciones globales de un test es controvertido.
evaluación y el tipo de preferencia terapéutica, dis- Habitualmente se utilizan los coeficientes de correla-
tinguiendo entre fiabilidad inter-observadores e intra- ción para analizar el grado de acuerdo. Dichos coefi-
observadores. cientes no deberían ser utilizados para analizar la con-
La estabilidad de la prueba se obtiene al ser eva- cordancia entre dos evaluaciones: la tendencia puede
luada la misma muestra por el mismo evaluador en ser perfecta, con un coeficiente de correlación de 1, y
dos situaciones distintas (fiabilidad test-retest o va- las medidas obtenidas en un laboratorio ser exacta-
riabilidad intraobservador). En algunos casos, (psi- mente el doble o exactamente 10 unidades más altas
quiatría infantil, minusvalías psíquicas, etc.), se obtie- que las correspondientes medidas obtenidas en otro
nen los datos a partir de informadores, por lo que es laboratorio, con lo que la concordancia obtenida entre
necesario analizar la concordancia entre los datos ambos laboratorios sería inexistente (Feinstein,
obtenidos con el test con la misma muestra y con el 1985). En medidas continuas se pueden utilizar diver-
mismo evaluador, pero recabando los datos de dos sos métodos de cálculo del coeficiente de correlación
informadores distintos (fiabilidad inter-informado- intraclase (ICC) (Bartko y Carpenter, 1976). Bech y
res). El procedimiento para obtener dicha informa- cols (1993) han planteado también la utilización del
ción ha sido extensamente revisado por Costello ICC para la evaluación de la fiabilidad test-retest cuan-
(1994). do las medidas se recogen por evaluadores diferentes,
El índice estadístico utilizado para evaluar la con- aunque se trata de una aplicación discutible. En la ac-
cordancia depende de las características de las varia- tualidad, no existe un acuerdo generalizado sobre el
bles a evaluar. La utilización en varios estudios del tamaño de la muestra requerido para un estudio de
coeficiente de concordancia de Kendall (Siegel, fiabilidad de una escala (Bech y cols, 1993).
1966) es discutible. En el caso de variables dicotó-
micas o binarias, la concordancia ítem a ítem se VALIDEZ
puede analizar mediante el porcentaje de acuerdo y
el kappa no ponderado (Kramer y Feinstein, 1981). La validez indica qué proporción de la información
El coeficiente de concordancia kappa nos informa recogida es relevante a la cuestión formulada y se de-
del nivel de acuerdo obtenido, una vez eliminada la fine por el grado en que el instrumento mide aquello
concordancia que presumiblemente se ha producido que realmente pretende medir. La validez se demues-
por azar. Ello lo hace más fiable que el simple por- tra cuando la medida predice un criterio (validez de
centaje de acuerdo. Sin embargo, un mismo valor de criterio), o se ajusta de forma consistente con una se-
kappa puede resultar de patrones diferentes de res- rie de constructos relacionados en una teoría acepta-
puesta. Por ello es conveniente señalar también la da (validez de constructo), en el caso de que no exis-
frecuencia de aparición cada ítem y el porcentaje de ta un criterio externo que sirva de “patrón oro”
acuerdo (Costello, 1994), así como el intérvalo de (Thiemann, 1987). Existen múltiples formas de vali-
confianza (IC). Existen diversas propuestas sobre la dez, con el agravante de que algunos autores utilizan
relación de un determinado valor de Kappa con el un mismo término para definir conceptos diferentes.
138
GU AS PARA LA DESCRIPCI N Y LA SELECCI N DE INSTRUMENTOS DE EVALUACI N EN PSIQUIATR A
Las 6 formas principales de validez pueden distribuir- do y no otros, y al grado en que los rasgos de domi-
se en dos ejes: uno relacionado con la presencia o au- nios diferentes no son incluidos dentro del dominio
sencia de patrón-oro para la dimensión evaluada (vali- examinado por el instrumento (validez discriminante
dez de criterio versus validez de constructo), y otro de inclusión y de exclusión). La validez discriminante
relacionado con la aplicación de técnicas matemáti- puede ser evaluada de forma descriptiva o mediante
cas para su cálculo o la ausencia de estas (validez es- procedimientos estadísticos.
tadística versus validez descriptiva). Así, un tipo deter-
minado de validez puede ser considerado de criterio o
de constructo dependiendo de la dimensión evaluada. Validez convergente
La validez concurrente de una escala para evaluación
de servicios formará parte de la validez de criterio, Esta se refiere a la evaluación de un rasgo deter-
mientras que la validez concurrente de una escala de minado del dominio mediante dos métodos diferen-
calidad de vida, para la que no existe patrón oro, se tes (p.ej. evaluación de la depresión mediante una
considerará como parte de su validez de constructo. escala de evaluación y un test biológico). Este térmi-
De igual forma, la estimación de la validez discrimi- no también ha sido utilizado para denominar al uso
nante o la validez convergente puede ser meramente de dos instrumentos de evaluación que cubren di-
descriptiva o puede efectuarse a través de un procedi- mensiones diferentes para describir una tercera (p.ej
miento estadístico. uso de escalas clínicas y de funcionamiento para es-
La ausencia de este marco conceptual de dos ejes tudiar la validez de una escala de calidad de vida).
ha llevado a notables confusiones en la definición y la
clasificación de las diferentes formas de validez. Por
ejemplo, incluyen a la validez concurrente y predictiva Validez concurrente
dentro de las formas de validez de criterio (Strang et
al, 1989; Martínez Arias, 1995); mientras que otros lo Se trata de un tipo de validez estadística que nos
hacen dentro de la validez de constructo (Thompson, da una medida de la asociación de las puntuaciones
1989i). De hecho, la mayoría de atributos psicológi- en los distintos items y en las puntuaciones globales
cos y procesos mentales son parámetros intangibles con otras escalas de referencia, con un propósito y
que no pueden mesurarse directamente como el peso contenido equivalente. Generalmente se limita al es-
o la altura, y que deben considerarse como construc- tudio de la correlación entre puntuaciones. Czobor
tos hipotéticos. Sin embargo, se acepta que muchos (1991) sugiere la utilización del análisis canónico de
constructos psiquiátricos están próximos al criterio componentes (Canonical component analysis). Es-
(p.ej. síntomas somáticos de depresión, anhedonia), te método puede considerarse como una extensión
mientras otros no pueden ser contrastados con un pa- del análisis factorial para dos grupos de variables.
trón-oro (p.e. calidad de vida, integración social).
Teniendo en cuenta las consideraciones y las sal-
vedades antes señaladas, los principales tipos de vali- Validez predictiva
dez de un instrumento de evaluación son:
La validez predictiva de observación se refiere a
la probabilidad de la escala de dar un juicio correcto
Validez simple (face validity) sobre el fenómeno observado. El análisis de Bayes
permite conocer la validez predictiva de un test, su
Se trata de un tipo de validez descriptiva de crite- utilidad y su comparabilidad, a partir del análisis de la
rio que refleja lo que los expertos consideran como distribución de los “casos” y “no casos” en una pobla-
medidas significativas. ción dada y de su relación con los resultados obteni-
dos en el test estudiado (positivos y negativos). Una
tabla de contingencia de 2 x 2 expresa esta relación
Validez de contenido en verdaderos positivos (VP), verdaderos negativos
(VN), falsos positivos (FP) y falsos negativos (FN). En
Define el grado en que el conjunto de items del la Tabla I se definen los coeficientes de validez predic-
test representa adecuadamente un dominio o dimen- tiva obtenidos a partir de la tabla de contingencia:
sión previamente definido. Según Thompson sensibilidad, especificidad, valor predictivo positi-
(1989i) este tipo de validez también es descriptivo y vo y valor predictivo negativo. La sensibilidad (x) co-
no puede analizarse mediante técnicas estadísticas. rresponde a la tasa de verdaderos positivos, y viene
definida como la tasa de resultados positivos correc-
tos en el test en relación al total de casos verdaderos
Validez discriminante en la población evaluada (VP/VP+VN). La especifici-
dad (y) corresponde a la tasa de verdaderos negativos
Esta se refiere al grado en que un instrumento mi- en el test entre todos los no-casos (VN/VN+FN).
de aquellos rasgos propios de un dominio determina- Otras medidas relacionadas con las anteriores son la
139
TRATADO DE PSIQUIATR A
140
GU AS PARA LA DESCRIPCI N Y LA SELECCI N DE INSTRUMENTOS DE EVALUACI N EN PSIQUIATR A
141
TRATADO DE PSIQUIATR A
142
GU AS PARA LA DESCRIPCI N Y LA SELECCI N DE INSTRUMENTOS DE EVALUACI N EN PSIQUIATR A
ción del coste-utilidad considera la necesidad de en- —EPQ: Eysenck Personality Questionnaire (Ey-
trenamiento y preparaciones previas a la utilización senck et al, 1975)
de la escala, el tiempo asignado para la misma, y los —GHQ: General Health Questionnaire (Gold-
requerimientos para su análisis estadístico. Es nece- berg, 1972).
sario evaluar si la información adicional obtenida jus- —HDRS: Hamilton Depression Rating Scale (Ha-
tifica los mayores costos y tiempo empleado tanto milton, 1960)
para la puntuación como para el análisis de los da- MPQ: McGill Pain Questionnaire (Melzack,
tos. Debe tenerse en cuenta también la posibilidad 1980).
de aumento de sesgos por la adición de un instru- —MMPl: Minnesota Multiphasic Personality In-
mento suplementario a una batería de evaluación, ya ventory (Hathaway & Mc Kinley, 1937)
sea por la posibilidad de cansancio del entrevistado, —NDS: Newcastle Depression Scale (Carney et
aumento de errores de medida o de errores de tipo I al, 1965).
y II al utilizar escalas redundantes, como la adminis- —PSE: Present State Examination (Cooper et al,
tración conjunta del BPRS y el SANS (Czobor et al, 1972).
1991; Thiemann et al, 1987). —SANS/SAPS: Scale for the Assessment of Ne-
En función de todo lo expuesto se ha elaborado gative Symptoms / Scale for the Assessment of Pos-
un inventario que facilita la elección de instrumentos tive Symptoms (Andreasen, 1981).
de evaluación en investigación y en rutina clínica. —SCAN: Schedules for Clinical Assessment in
Neuropsychiatry (WHO, 1992).
COROLARIO
APÉNDICE
El uso de las escalas de evaluación psiquiátrica es-
tá bien establecido en diversas áreas, desde la epide- CUESTIONARIO PARA LA SELECCIÓN
miología clínica a los estudios farmacológicos (pro- DE INSTRUMENTOS DE EVALUACIÓN
pósito para el que se desarrollaron muchas de las EN PSIQUIATRÍA
escalas clínicas de seguimiento). Sin embargo, dado
su número, diversidad y su continuo desarrollo, es Puntuar en función de la literatura disponible so-
cada vez más necesario contar con inventarios infor- bre el instrumento y en base a las indicaciones efec-
matizados y sistemáticos que permitan una orienta- tuadas en la revisión anterior.
ción clara al clínico y al investigador sobre las mis-
mas. Una guía para su clasificación, puede obtenerse
en función de una serie de características relacio- A. Construcción
nadas con su complejidad, propósito y diseño. La va-
loración de la calidad de cada instrumento puede 1. ¿El objetivo del instrumento se define de forma
evaluarse en función de una serie de parámetros re- explícita?
lacionados con su consistencia, fiabilidad, validez y No, en absoluto Incompleto Aceptable Muy completo
sensibilidad al cambio. Por último, es necesario tener
en cuenta aspectos relacionados con el coste-efecti- 2. Con la excepción de los instrumentos más sim-
vidad en la elección del instrumento y su relación ples, ¿existe un glosario?
con otros instrumentos utilizados en un estudio. No, en absoluto Incompleto Aceptable Muy completo
Este artículo ha sido financiado parcialmente me-
diante una ayuda del Fondo de Investigaciones Sani- 3. ¿Existe un manual de instrucciones o un aparta-
tarias (FIS 95/1961). do equivalente en el test donde se especifican clara-
mente las instrucciones de cumplimentación y las ca-
racterísticas de quién debe cumplimentarlo?
LISTA DE ESCALAS MENCIONADAS No, en absoluto Incompleto Aceptable Muy completo
EN EL TEXTO (CF. BECH ET AL, 1993)
4. Teniendo en cuenta otros instrumentos simila-
—ADL: Activity of Daily Living - Index (Katz, res, ¿es este un instrumento de fácil uso en cuanto a
1976). la comprensión, cumplimentación, tiempo de admi-
—BDI: Beck Deprepression Inventory (Beck et al, nistración y sistema de obtención de los resultados?
1961). No, en absoluto Regular Aceptable Muy adecuado
BPRS: Brief Psychiatric Rating Scale (Overall &
Gorham, 1962).
—CASH: Comprehensive Assessment of History B. Propósito
and Symptoms (Andreasen et al, 1992) CGI: Clinical
Global Impression (Guy, 1976). 5. ¿Se trata de un instrumento relevante en fun-
—GAS: Global Assessment Scale (Endicott, ción del objetivo del estudio?
1976). No, en absoluto Regular Aceptable Muy adecuado
143
TRATADO DE PSIQUIATR A
6. ¿Existe una adecuación entre la complejidad del 17. ¿En qué proporción describe el cuestionario
instrumento y el objetivo para el que se pretende uti- las diferentes características del fenómeno observa-
lizar? do?, (validez de contenido).
No, en absoluto Regular Aceptable Muy adecuado Muy baja Regular Moderada Alta
7. ¿El instrumento cubre las dimensiones que se 18. Si procede, ¿se trata de una descripción preci-
pretende evaluar? sa? ¿En qué proporción se incluyen las característi-
No, en absoluto Insuficiente Aceptable Muy adecuado cas similares en el mismo grupo y las divergentes en
8. En caso negativo, ¿permite su “baterización”? diferentes grupos?
(¿Se puede administrar de forma conjunta con otros Muy baja Regular Moderada Alta
instrumentos para evaluar las diferentes dimensiones
del fenómeno observado?). 19. Si procede, ¿cuál es la calidad de la informa-
No Con dificultades Aceptable Preparado ción sobre la validez convergente?
en absoluto para ello Nula o muy baja Regular Moderada Alta
9. ¿Cuál es la utilidad de la información obtenida 20. Si procede (se cuenta con un instrumento de
en relación al coste en tiempo y personal de su admi- referencia), ¿cuál es la calidad de la información so-
nistración? bre la validez concurrente?
Muy baja Regular Moderada Alta Nula o muy baja Regular Moderada Alta
12. ¿Se ha evaluado la fiabilidad externa interexa- 23. Si se ha efectuado un análisis de otros tipos
minadores del instrumento?, (especificar el método y de validación ¿cuál es la calidad de dicha informa-
señalar la calidad de dicho análisis en función de lo ción?, (especificar el tipo de validez).
expuesto en el capítulo). Nula o muy baja Regular Moderada Alta
Muy baja Regular Moderada Alta
13. Si procede, ¿se ha evaluado la fiabilidad exter- 24. En general, ¿cuál es la calidad de la informa-
na test-retest del instrumento? (especificar el método ción sobre la validez del test?
y señalar la calidad de dicho análisis en función de lo Nula o muy baja Regular Moderada Alta
expuesto en el capítulo).
Muy baja Regular Moderada Alta 25. Si se trata de un instrumento de seguimiento,
¿cuál es la calidad de información sobre su sensibili-
14. Si procede, ¿se ha evaluado la fiabilidad exter- dad al cambio?
na inter-informadores del instrumento?, (especificar Nula o muy baja Regular Moderada Alta
el método y señalar la calidad de dicho análisis en
función de lo expuesto en el capítulo) 26. Cuando se usan varios instrumentos, ¿en qué
Muy baja Regular Moderada Alta proporción se ha descartado la presencia de redun-
dancia?
15. En función de lo anterior, ¿cómo juzga la cali- Nula o muy baja Regular Moderada Alta
dad global de la información sobre fiabilidad de este
instrumento?
Muy baja Regular Moderada Alta
D. Generalización
16. ¿Cuál es la significación y relevancia de los re-
sultados obtenidos para quienes deben utilizarlos?, 27. ¿En qué proporción se ha analizado la utilidad
(validez simple). del test en diferentes poblaciones y lugares?
Muy baja Regular Moderada Alta Nula o muy baja Regular Moderada Alta
144
GU AS PARA LA DESCRIPCI N Y LA SELECCI N DE INSTRUMENTOS DE EVALUACI N EN PSIQUIATR A
28. ¿En qué proporción los datos sobre las pro- 30. ¿En que extensión se ha aplicado el test en di-
piedades psicométricas del test proceden de fuentes ferentes culturas?
diferentes de los autores originales? Nula o muy baja Regular Moderada Alta
Nula o muy baja Regular Moderada Alta
Bibliografía
1. Andersen J, Larsen JK, Schultz V, Nielsen BM, Korner A, Behnke K et al. The Brief Psychiatric Rating Scale: Dimension of schi-
zophrenia-reliability and construct validity. Psychopathology 1989; 22: 168-176.
2. Andreasen NC, Flaum M, Arndt S. The comprehensive assessment of symptoms and history (CASH): An instrument for assessing
diagnosis and psychopathology. Archives of General Psychiatry 1992; 49: 615-623.
3. Baldessarini RJ, Finklestein S, Arana GW. Predictive power of diagnostic tests. En: F Flasch (ed.), Psychobiology and Psychophar-
macology. New York: Norton & Company 1988, 175-189.
4. Bartko JJ, Carpenter WT. On the methods and theory of reliability. J Nerv Ment Dis 1976; 163: 307-317.
5. Bartko JJ. Some issues for consideration in multi-site and international reliability studies. En M Moscarelli, A Rupp and N Sartorius
(eds), Mental Health Economics and Health Policies, vol I: Schizophrenia. Chichester: Wiley & Sons 1996, 113-121.
6. Bech P, Kastrup M, Rafaelsen OJ. Mini compendium of rating scales for states of anxiety, depression, mania, schizophrenia with
corresponding DSM-III syndromes. Acta Psychiatr. Scand 1986; 73 Suppl: 326.
7. Bech P, Malt UF, Dencker SJ, Ahlfors UG, Elgen K, Lewander T, Lundell A, Simpson GM, Lingjaerde O (eds). Scales for assess-
ment of diagnosis and severity of mental disorders. Acta Psychiatrica Scandinavica 1993; 87 (Suppl. 372).
8. Brislin RW. Back-translation forcross-cultural research. Journal of cross-cultural Psychology 1970; 1 (3): 185-216.
9. Buchanan RW, Carpenter WT. Domains of psychopathology. An approach to the reduction of heterogeneity in Schizophrenia. J
Nerv Ment Dis 1994; 182: 193-204.
10. Costello CG. Advantages of the symptom approach to schizophrenia. En: Symptoms of schizophrenia. CG Costello (ed). John Wi-
ley & Sons, New York: 1994; 1-26.
11. Czobor P, Bitter I, Volavka J. Relationship between the Brief Psychiatric Rating Scale and the Scale for the Assessment of Negative
Symptoms: A study of their correlation and redundancy. Psychiatry Research 1991; 36: 129-139.
12. Feinstein AR. Clinical epidemiology. WB Saunders, Philadelphia 1985.
13. Fenton W, McGlashan TH. Testing systems for assessment of negative symptoms in schizophrenia. Arch Gen Psychiatry 1991; 49:
179-184.
14. Flaherty JA, Gaviria FM, Pathak D, Mitchell T, Wintrob R, Richman JA, Birz S. Developing instruments for cross-cultural psychiatric
research. J Nerv Ment Dis 1988; 176: 257-263.
15. García-Cueto E. Introducción a la psicometría. Siglo XXI, Madrid 1993.
16. Hernández-Aguado I, Porta M, Miralles M, García-Benavides F, Bolúmar F. La cuantificación de la variabilidad en las observaciones
clínicas. Medicina Clínica (Barcelona) 1990; 95: 424-429.
17. Hirst M. Multidimensional representation of disablement: A qualitative approach. In Quality of Life: Perspectives and Policies. S
Baldwin, C Godfrey, C Propper (eds). Routledge, London: 1990; 72-83.
18. Israel L, Kozarevic D, Sartorius N. Source book for the geriatric assessment: I. Evaluation in gerontology. World Health Organiza-
tion, Karger, Basel 1984.
19. Karnofsky DA, Burchenal JH. The clinical evaluation of Chemotherapeutic agents. En: Evaluation of chemotherapeutic agents. Co-
lumbia University Press, New York: 1949.
20. Kibel DA, Laffont I, Liddle PF. The composition of thenegative syndrome ofchronic schizophrenia. British Journal of Psychiatry
1993; 162: 744-750.
21. Kind P. Issues in the design and construction of a quality of life measure. En: Quality of Life: Perspectives and Policies. S Baldwin, C
Godfrey, C Propper (eds). Routledge, London: 1990; 63-71.
22. Kramer MS, Feinstein AR. Clinical biostatistics: LIV. The biostatistics of concordance. Clin Pharmacol Ther 1981; 29: 111-123.
23. Liddle PF. Schizophrenic syndromes, cognitive performance and neurological dysfunction. Psychological Medicine 1987; 17: 49-
57.
24. Likert R: A technique for measurement of attitudes. Archives of Psychology 1932; 140: 1-55.
25. Martínez-Arias R. Psicometría: Teoría de los tests psicológicos y educativos. Editorial Síntesis, Madrid: 1995.
26. McDowell I, Newell C. Measuring health: A guide to rating scales and questionnaires. Oxford University Press, Oxford: 1987.
27. Meehl P, Golden RR. Taxonometric methods. En: Handbook of research methodology in clinical psychology. PC Kendall, JN But-
cher (eds.) Wiley & Sons, New York: 1982.
28. Mezzich JE (Dir). Clinical Care and Information Systems in Psychiatry. Washington: American Psychiatric Press, 1986.
29. Muñiz J. Teoría clásica de los test. Ediciones Piramide, Madrid: 1992.
145
TRATADO DE PSIQUIATR A
30. Muthen BO, Hasin D, Wisnicki K. Factor analysis of ICD-10 symptom items in the 1988 National Health Interview Survey on Al-
cohol Dependence. Addiction 1993i; 88; 1071-1077.
31. Muthen BO, Grant B, Hasin D. The dimensionality of alcohol abuse and dependence: Factor analysis of DSM-III-R and proposed
DSM-IV criteria in the 1988 National Health Interview Survey. Addiction 1993ii; 88: 1079-1090.
32. Pull CB, Wittchen HU. The CIDI, SCAN, and IPDE: Structured diagnostic interviews for ICD-10 and DSM-III-R. European Psy-
chiatry 1991; 6: 227-285.
33. Rasch G. Probabilistic models for some intelligence and attainment tests. University of Chicago Press, Chicago, 1980.
34. Room R, Janca A, Bennet LA, Schmidt L, Sartorius N. WHO cross-cultural aapplicability research on diagnosis and assessment of
substaance use disorders: an overview of methods and selected results. Addiction 1996; 91: 199-220.
35. Salvador-Carulla L, Roca M. Instrumentos de evaluación subjetiva en Salud Mental. Actas Luso-Esp Neurol Psiquiatr 1995; 23, 2:
1-9.
36. Salvador-Carulla L, Huete T, Hernán MA. Validación del Indice de Bienestar General enpacientes con depresión mayor. En “Avan-
ces en depresión”. M Gutiérrez, J Ezcurra y P Pichot (eds). Ediciones en Neurociencias, Barcelona: 1996.
37. Salvador-Carulla L. Assessment of instruments in psychiatry: Description and psychometric properties. En: Mental Health Outcome
Measures, G. Thornicroft & M. Tansella (eds.). Berlin: Springer, 1996; 189-206.
38. Siegel S. Non-parametric statistics for behavioral sciences. New York: McGraw-Hill, 1966.
39. Somoza E. Eccentric diagnostic tests: Redifining sensitivity and specificity. Medical Decision Making 1996; 16: 15-23.
40. Strang J, Bradley B, Stockwell T. Assessment of drug and alcohol use. En C. Thompson, ed. The instruments of psychiatric rese-
arch. Chichester: John Wiley & Sons, 1989; 211-232.
41. Stromgren E. The lexicon and issues in the relation of psychiatric concepts and terms. En International classification in psychiatry.
JE Mezzich, M von Cranach (eds.). Cambridge: Cambridge University Press, 1988; 175-179.
42. Thiemann S, Csernansky JG, Berger P. Rating scales in research: The case of negative symptoms. Psychiatry Research 1987; 20:
47-55.
43. Thompson C (Dir.). The instruments of psychiatric research. John Wiley & Sons, Chichester: 1989.
44. Vázquez-Barquero JL (Dir.). SCAN. Cuestionarios para la evaluación clínica en psiquiatría. Meditor, Madrid: 1993.
45. Ware JE. Measuring health and functional status in mental health services research. CA Taube, D Mechanic y A Hohmann (eds.).
Department of Health & Human Services, Washington: 1989.
46. Ware JE Jr., Sherbourne CD: The MOS 36-item short form health survey (SF-36): I. Conceptual framework and item selection. Me-
dical Care 1992; 30: 473-483.
47. Weltzer S. Medición de las enfermedades mentales: Evaluación psicométrica para los clínicos. Ancora, Barcelona: 1991.
48. Wittchen H-U, Essau CA. Assessment of symptoms and psychosocial disabilities in primary care. En: Psychological disorders in ge-
neral medical settings. Dir. por N. Sartorius, D. Goldberg, G. de Girolamo, J. Costa e Silva, Y. Lecrubier y U. Wittchen. Hogrefe &
Huber Publ., Toronto: 1990; 111-136.
49. Van den Wollenberg AL: Redundancy analysis: An alternative to canonical correlation analysis. Psychometrika 1977; 42: 207-219.
146