Está en la página 1de 16

TRATADO DE PSIQUIATR A

C apítulo 5

Guías para la descripción y la selección


de instrumentos de evaluación en psiquiatría
L. Salvador Carulla, R. Velázquez Martínez, F. González Saiz

¿Qué diferencias dan origen a la discordia y al enojo? Si discrepamos sobre un


número... ¿no recurrimos inmediatamente a la aritmética, y ponemos fin a la polémica
mediante una suma?... si discrepamos sobre magnitudes, ¿no lo solventamos con una
medición?... ¿No acabamos una discusión sobre lo pesado y lo ligero utilizando
una balanza?... Las discordias surgen cuando la raíz de las diferencias está en
lo que es justo o injusto, malo o bueno, honorable o deshonroso.

Platón. Eutifro

INTRODUCCIÓN metría ha constituido el otro gran pilar de la disci-


plina, aportando las técnicas de validez de criterio
ras la Segunda Guerra Mundial el desarrollo (basada en parámetros externos) que se aplicaron an-

T de la epidemiología psiquiátrica y la psicofar-


macología originó una enorme demanda de
medidas estandarizadas para la cuantifica-
ción de la psicopatología. En las décadas siguientes
fue creciendo el número de instrumentos disponibles
teriormente en la calibración de aparatos de labora-
torio y de diagnóstico, como la mamografía o las téc-
nicas de recuento leucocitario. La psiquiatría y
epidemiología clínica, por su parte, han efectuado al-
gunas aportaciones fundamentales en cuanto a la
y su diversidad, a medida que se ampliaba su ámbito aplicación de las técnicas de validez (p. ej., estandari-
de aplicación a todo el rango de actividades relacio- zación del GHQ) y de fiabilidad externa (p. ej., aplica-
nadas con la salud mental, desde la medición de la ción de índice de acuerdo Kappa). De hecho las disci-
calidad de vida y la carga familiar hasta las necesida- plinas clínicas y la aplicación práctica de los sistemas
des de servicios. En este desarrollo, parejo al ocurri- que aquí se exponen, han ampliado enormemente el
do en otras áreas de la medicina, tuvo una gran im- marco conceptual aportado por la psicometría tradi-
portancia la psicometría de orientación psicológica. cional. Sin embargo, las distintas aportaciones aún
A ella se deben los fundamentos de esta nueva disci- no se han estructurado de una forma coherente en
plina y los principios del desarrollo y de la construc- un cuerpo de conocimiento que permita un abordaje
ción de escalas. Sin embargo, conviene recordar que sistemático de la construcción y evaluación de los ins-
la psicometría tradicional se asentó sobre un modelo trumentos de medida en salud mental.
de constructo, descartando la aplicación de paráme- Hoy en día, la ingente cantidad de literatura exis-
tros externos para verificar la cuantificación de los fe- tente sobre la materia, la complejidad de las técnicas
nómenos observados, y equiparando la validez y la de análisis psicométrico y la pléyade de instrumentos
fiabilidad de una escala a su consistencia interna. La disponibles, han acabado por sedimentar esta nueva
aplicación de un marco conceptual sólido pero exce- especialidad, que parece asentarse junto a otras dis-
sivamente estrecho ha supuesto una confusión termi- ciplinas “de frontera” bajo el término “evaluación de
nológica que aún perdura (Salvador Carulla, 1996), y desenlaces” (outcome research). En el presente ca-
ha condicionado el desarrollo del área al igual que el pítulo se efectúa una aproximación al marco concep-
marco psicoanalítico condicionó el progreso de la tual de la evaluación cuantitativa de la salud. Se pro-
psiquiatría en la primera mitad de este siglo. La bio- pone también un sistema útil para la descripción de

131
TRATADO DE PSIQUIATR A

la clasificación de los instrumentos utilizados en salud BASES PARA LA DESCRIPCIÓN


mental basada en su propósito y diseño, se detallan Y CLASIFICACIÓN DE LOS INSTRUMENTOS
sus propiedades psicométricas, y se sugiere una guía DE EVALUACIÓN
que facilite la selección de los mismos en proyectos
de investigación y en rutina clínica. La enumeración Bech y cols (1993) proponen una descripción de
de los instrumentos actualmente disponibles excede las escalas de evaluación basada en los objetivos y la
las posibilidades de esta revisión, por lo que sólo se composición de la escala: 1.- área de evaluación:
citan algunos ejemplos destacados. escalas diagnósticas, sintomáticas, de personalidad y
escalas para otros propósitos específicos; 2.- tipo de
administración: escalas para el paciente, el médico
MARCO CONCEPTUAL DE LA EVALUACIÓN u otro personal sanitario; 3.- acceso temporal re-
SUBJETIVA ESTANDARIZADA trospectivo: marco temporal de la evaluación; 4.- se-
lección de items: distingue entre escalas de primera
La evaluación puede definirse como aquel proce- generación (basadas en experiencia clínica), y de se-
so consistente en aplicar un método sistematizado gunda generación (derivadas de las anteriores); 5.-
para describir fenómenos u objetos. Su grado de sis- número de items de la escala; y 6.- definición de
tematización puede ser muy variable, yendo desde la los items individuales. En base a las descripciones
mera asignación de códigos preestablecidos hasta los efectuadas por otros autores (Cfr. Thompson, 1989;
sistemas de cuantificación mediante algoritmos. La Wittchen y Essau, 1991), se ha modificado la pro-
evaluación puede ser subjetiva u objetiva. La evalua- puesta original de Bech para permitir una descrip-
ción subjetiva se caracteriza por la descripción de ción más completa de los diferentes instrumentos
constructos hipotéticos o intangibles (ej. calidad de utilizados en salud mental en función de su compleji-
vida, depresión) en oposición a las entidades tangi- dad, propósito y construcción (Salvador-Carulla,
bles descritas por las ciencias experimentales como 1996). Los cambios en la terminología con respecto
el peso o la altura (evaluación objetiva). En ciencias a la utilizada por Bech se detallan en cada apartado.
de la salud esta diferenciación no siempre es diáfana, En términos genéricos es importante considerar el
ya que existe una enorme carga individual en la in- nivel de complejidad, el propósito del instrumento en
terpretación de pruebas complementarias complejas sus diferentes aspectos (patología evaluada, pobla-
(histología, diagnóstico por la imagen, neurofisiolo- ción de referencia, período de evaluación, etc.), y su
gía). Ello determina que muchas normas de calidad estructura, composición de sus items y la prevención
sean comunes a los instrumentos objetivos y subjeti- de sesgos potenciales en su cumplimetación.
vos. La evaluación subjetiva es menos precisa, y ha
sido infravalorada hasta muy recientemente, pero la
creciente demanda de parámetros intangibles como COMPLEJIDAD
la satisfacción, el apoyo, la autonomía, la calidad de
vida o el nivel de discapacidad del sujeto, ha determi- Los instrumentos de evaluación pueden clasificar-
nado que en la actualidad la utilización de estos ins- se en una serie de agrupaciones de acuerdo con su
trumentos sea imprescindible en cualquier área de complejidad (Salvador y Roca, 1995). En el primer
salud. grupo pueden situarse los cuestionarios descripti-
La evaluación puede ser descriptiva o cuantitati- vos (ej.: cuestionarios sociodemográficos) y los in-
va. La evaluación cuantitativa consiste en la elabora- ventarios de síntomas (ej.: inventario de efectos ad-
ción de reglas para asignar números a un fenómeno versos). Estos instrumentos no permiten una
dado, con el fin de cuantificar uno o varios atributos cuantificación de sus items y pueden considerarse
del mismo. Las reglas son una serie codificada de como meras listas de comprobación o chequeo. En
procedimientos para la asignación de números. Al un segundo nivel se encuentran las escalas de eva-
evaluar un fenómeno concreto, es importante situar- luación. Como su nombre indica, éstas permiten
lo dentro de un modelo categorial o dimensional, y una escalación acumulativa de sus items, dando pun-
en este segundo caso delimitar su carácter unidimen- tajes globales al final de la evaluación. Se componen
sional o multidimensional. Los instrumentos de eva- de items individuales, cada uno de los cuales descri-
luación constan de un número variable de items. El be una característica bien definida del fenómeno
ítem es la unidad básica de información de un instru- evaluado. Su caracter acumulativo las diferencia de
mento de evaluación, y suele componerse de una los cuestionarios de recogida de datos y de los meros
pregunta y de una respuesta que generalmente es inventarios de síntomas. En un tercer nivel se sitúan
cerrada y permite una asignación de un código. El las entrevistas estandarizadas. Estas se clasifican
glosario es un listado adicional de notas explicativas en función de su objetivo (generales o específicas) y
sobre la definición precisa de cada ítem y sobre según el nivel de capacitación requerido para su ad-
cómo combinarlos en categorías o dimensiones ministración, que a su vez depende de la estructura-
(Strömgren, 1988). ción en la formulación de las preguntas y la codifica-
ción de las respuestas (a mayor estructuración

132
GU AS PARA LA DESCRIPCI N Y LA SELECCI N DE INSTRUMENTOS DE EVALUACI N EN PSIQUIATR A

menor nivel de capacitación requerido para la admi- Área evaluada


nistración). Las entrevistas estandarizadas pueden
acompañarse de un sistema informatizado de co- Las diversas escalas psicosociales evalúan un am-
rrección que permite la asignación de criterios diag- plio rango de áreas como síntomas (escalas clínicas),
nósticos. Los sistemas de diagnóstico estandariza- personalidad, adaptación social, familiar, sexual, la-
do, constituyen el cuarto nivel. Estos proporcionan boral, discapacidad, etc. Bech (1993) efectúa una
una codificación de entidades nosológicas, con una distinción entre dos tipos de escalas clínicas: de
descripción detallada de cada una de ellas a través diagnóstico y sintomáticas. Esta distinción es con-
de un glosario para facilitar el diagnóstico. Los siste- flictiva, al existir escalas sintomáticas que han sido
mas de diagnóstico se denominan operativos cuan- utilizadas para diagnóstico tras calcular el punto de
do proporcionan una serie de reglas para el diagnós- corte idóneo a través de un estudio de validez pre-
tico basadas en criterios de inclusión (presencia de dictiva (ver parámetros de calidad de una escala); y
un número mínimo de características del fenómeno viceversa.
para su diagnóstico), y de exclusión (despistaje de
otras características no relacionadas con el fenóme-
no). Cuando los criterios de exclusión se refieren a la Objetivo de estudio
presencia de otras entidades sindrómicas se conside-
ra que el sistema es jerárquico, puesto que efectúa Este nos permite diferenciar entre escalas genera-
una jerarquía de las entidades nosológicas recogidas les (p. ej.: para evaluación de caso psiquiátrico) y es-
en el sistema para su diagnóstico diferencial. Si ade- calas específicas (p. ej.: para evaluación de depre-
más permite la codificación de varias entidades o as- sión). Las escalas específicas pueden tener a su vez
pectos relacionados en diversos ejes, se considera diferentes gradaciones (ej.: HDS para evaluación de
que el sistema es multiaxial. Existen dos sistemas depresión mayor, y escala de Newcastle para evalua-
principales de diagnóstico operativo jerárquico y ción de depresión endógena). Wittchen y Essau
multiaxial en vigencia en el momento actual: el siste- (1991) distinguen entre escalas basadas en un con-
ma de investigación de la CIE-10 y el DSM-IV. Para cepto “amplio” o “restrictivo” de trastorno mental.
algunos autores los sistemas de diagnóstico no de- Los instrumentos más restrictivos priman la especifi-
ben ser considerados como un instrumento de eva- cidad sobre la sensibilidad y viceversa (este factor es
luación. Sin embargo, en su construcción y su utili- particularmente importante en el uso de sistemas de
zación, los sistemas diagnósticos se ajustan a las diagnóstico estandarizado).
reglas generales de la evaluación subjetiva estandari-
zada. En un sexto nivel podemos situar las baterías
compuestas de evaluación, que constan de un con- Marco temporal
junto de instrumentos diferentes: cuestionario de re-
cogida de datos, escalas de evaluación incorporadas En función de la estabilidad del fenómeno eva-
a la batería, entrevista estandarizada para recogida luado podemos diferenciar entre las escalas de ras-
de síntomas pasados y/o del estado actual, y sistema go, que evalúan fenómenos relativamente estables
informático para diagnóstico múltiple, que permite a lo largo del tiempo (p. ej.: test de personalidad,
la codificación diagnóstica según sistemas diferen- locus de control); y escalas de estado, que evalúan
tes. Ejemplos de baterías compuestas son el SCAN, la situación actual del sujeto –generalmente en el
desarrollada a partir del PSE (Pull y Wittchen, 1991, último mes– (p. ej. depresión, síntomas negativos y
Vázquez-Barquero, 1993), y la batería CASH para positivos), las últimas semanas o la semana ante-
evaluación de esquizofrenia y trastornos del estado rior, o los tres días anteriores a la evaluación (es-
de ánimo, desarrollada a partir del SANS/SAPS pa- calas de “aquí y ahora”). El marco temporal debe
ra evaluación de síntomas positivos y negativos en la detallarse en las instrucciones previas a la adminis-
esquizofrenia, entre otros instrumentos (Andreasen tración de la escala.
et al, 1992). En las escalas de estado, el período de evalua-
ción nos permite diferenciar entre escalas de detec-
ción (p.ej. para identificación de caso psiquiátrico
PROPÓSITO DE LA ESCALA –GHQ–), escalas de seguimiento no transicionales
y transicionales. Las escalas de seguimiento no
El propósito de una escala va a determinar el con- transicionales evalúan el cambio en función de la di-
tenido de sus items y diversos aspectos relacionados ferencia del puntaje entre dos evaluaciones (ej:
con su estructura. Una escala debe limitarse siempre HDS), mientras que las transicionales evalúan direc-
al área para la que ha sido diseñada, a menos que se tamente el grado de mejoría o empeoramiento expe-
efectúe una nueva estandarización de la misma. El rimentado por el paciente entre ambas evaluaciones
propósito se relaciona con la dimensión evaluada, la (ej: escala de cambio del CGI). En el estudio de una
población objeto de estudio, el período de evalua- escala de seguimiento es importante conocer su sen-
ción y el tipo de cumplimentación. sibilidad al cambio.

133
TRATADO DE PSIQUIATR A

Tipo de administración Contenido de los items

Las escalas autoadministradas se diseñan para En función del contenido se distingue entre esca-
ser cumplimentadas por el propio sujeto o por un in- las unidimensionales y multidimensionales. En las es-
formante. En ocasiones se incluyen items para cali- calas unidimensionales, más del 80% de los items
brar la validez de las respuestas en función de la ten- evalúan una sola dimensión de acuerdo con el mode-
dencia a disimulación o a simulación (ej.: EPQ de lo de Israel (1983): dimensión física (síntomas rela-
Eysenck). Bech y cols. (1993) denomina a este gru- cionados con aspectos médicos, corporales, ej.:
po de instrumentos “cuestionarios”, sin embargo es- cuestionario de dolor de McGill), dimensión psíqui-
te término es demasiado amplio. ca (aspectos cognitivos –BDI–), y dimensión social
Las escalas heteroadministradas (“escalas de ob- (ej.: SAS, ADL). En las escalas multidimensionales
servador” según Bech), son cumplimentadas por un los items evalúan dos o tres de las dimensiones seña-
examinador. Los instrumentos de evaluación hetero- ladas (ej: GHQ, HDS). En las escalas heteroadminis-
administrados requieren diferentes niveles de capaci- tradas se distingue también entre los items referidos
tación profesional para su uso (este factor es particu- por el paciente y los observados por el evaluador.
larmente importante en el diseño y administración El sesgo de ítem u orientación se refiere a la par-
de entrevistas estructuradas). Las escalas heteroad- te del síndrome que aparece mejor reflejada en la
ministradas requieren una estandarización previa del escala, y se representa en un porcentaje de la punta-
examinador a través de un análisis de su acuerdo con ción máxima teórica para cada categoría de sínto-
un examinador de referencia (ver fiabilidad interexa- mas (Thompson, 1989).
minadores). Se señalan dos tipos de situaciones ex-
tremas en la administración de una escala heteroad-
ministrada: situación Alfa (investigador experto que Definición
sigue un interrogatorio cerrado y utiliza una escala
con pocos items, bien definidos, y que incluyen crite- La definición de cada ítem debe ser exhaustiva y
rios de mejoría y de salud); y situación Beta (evalua- mutuamente excluyente (criterios de Guilford) (Cfr.
dor inexperto, que realiza una entrevista abierta, y Bech y cols., 1993). Por otro lado, deben tenerse en
utiliza una escala con muchos items mal definidos y cuenta una serie de factores tanto al formular las
sin criterios de mejoría y salud) (Cfr. Bech y cols., preguntas y las alternativas de respuesta, como al or-
1993). denar el conjunto de items que componen la escala:
Algunos instrumentos de evaluación clínica son de
tipo mixto, incluyendo una sección para síntomas re-
feridos y otra distinta para síntomas observados en la Comprensión
entrevista.
Es necesario adaptar el lenguaje y el tipo de formu-
lación de las preguntas y respuestas al entorno socio-
CONSTRUCCIÓN DE LAS ESCALAS cultural del paciente. Así, por ejemplo, la compren-
DE EVALUACIÓN sión del uso de análogos líneares tiende a ser mejor
en el medio anglosajón que en la Europa meridional,
Como ya se ha indicado, el ítem es la unidad bási- donde la comprensión de análogos numéricos deci-
ca de información de un instrumento de evaluación, males es mayor. Existen diversos índices de evalua-
y generalmente consta de una pregunta y de una res- ción de la comprensibilidad de un texto (ej.: índice de
puesta cerrada. Flesch para el idioma inglés). El problema de la com-
prensión es sumamente importante en la evaluación
de poblaciones específicas como la de los sujetos afec-
Número de items tos de retraso mental. Por otro lado, la traducción y
adaptación de una escala previamente desarrollada en
Puede distinguirse entre escalas unitarias o globa- otro idioma y entorno cultural debe seguir una tecno-
les, compuestas de un solo ítem (ej: CGI, GAS, esca- logía específica que incluya un proceso de retro-tra-
las analógicas de dolor o de bienestar); y escalas ducción. Recientemente se han aplicado sistemas más
multi-ítem. Como regla general, se considera que complejos como el de traducción conceptual.
un fenómeno debe ser evaluado con un mínimo de 6
items (Bech y cols., 1993). Generalmente las escalas
constan de entre 10 y 90 items. Diversas escalas es- Aceptabilidad
tán disponibles en varias versiones. Así, el GHQ de
Goldberg puede utilizarse en su versión de 60, de Es fundamental que los items sean aceptables pa-
30, de 28 o de 12 items; y el HDS de Hamilton en ra el sujeto evaluado. La desideratividad social es
versiones de 21 o 17 items (a parte de otras escalas un tipo de sesgo potencial que puede alterar la vali-
derivadas de esta prueba). dez de los resultados en las respuestas (Wittchen y

134
GU AS PARA LA DESCRIPCI N Y LA SELECCI N DE INSTRUMENTOS DE EVALUACI N EN PSIQUIATR A

Essau, 1991), y que debe tenerse en cuenta al for- Selección, análisis y ordenación
mular las preguntas de determinados items (este ses- de los items
go es importante en la evaluación de las actitudes
ante determinadas enfermedades como el SIDA, en Meehl y Golden (1982) señalan una serie de prin-
las que el sujeto tiende a responder aquello que con- cipios o pasos en la construcción de una escala de
sidera como socialmente más aceptable). También es evaluación de síntomas:
necesario limitar el número de items para evitar el 1. Selección de los items en función de su relevan-
cansancio y favorecer la colaboración del sujeto (es- cia clínica y validez.
te problema es evidente en cuestionarios o en baterí- 2. Seleccionar los items en función de la correla-
as de más de 100 items como el MMPI). ción interna de los items cuando se aplican a un gru-
po mixto de pacientes (que incluye a pacientes con y
sin el síntoma evaluado).
Prevención de sesgos en la cumplimentación 3. Selección de items con diferente peso jerárqui-
co (que describan los diversos aspectos del fenóme-
La aquiescencia (tendencia a responder afirmati- no evaluado), esto es, que no sean redundantes.
vamente a la pregunta) determina la necesidad de al- 4. Ante igualdad de factores, seleccionar los items
ternar preguntas formuladas “en negativo”. Sin em- con mayor potencial de consenso.
bargo, este tipo de formulación puede disminuir 5. Comprobar el rendimiento del grupo de items
significativamente la comprensión del paciente y la seleccionado en función de diversos criterios exter-
fiabilidad de las respuestas (p. ej.: items del tipo: “no nos (edad, sexo, etc.), con el fin de evaluar su trans-
es cierto que Colón descubrió América” = V/F). El feribilidad.
error de tendencia central se refiere a la reticencia a 6. Cuando los pasos 3, 4 y 5 no se puedan efec-
responder las alternativas extremas en un ítem, dan- tuar, repetir el análisis con items modificados en
do preferencia a las centrales. Este problema afecta cuanto a definición o contenido.
principalmente a las escalas analógico-verbales de Los items también pueden seleccionarse en fun-
tres o cinco alternativas (ej: Nada, Algo, Mucho). ción de su utilidad. Esta se evalúa de acuerdo con
Otro tipo de sesgo se relaciona con la tendencia a tres criterios (Thompson, 1989):
responder más a las alternativas situadas a la derecha 1. Calibrado: frecuencia suficiente de respuestas
o a la izquierda, lo que se incrementa cuando uno de en un ítem individual como para garantizar su inclu-
los dos extremos contiene siempre las alternativas sión en la escala. Arbitrariamente puede fijarse en un
“deseables”, y puede evitarse alternando primero 10%.
items con alternativas positivas a la izquierda y des- 2. Monotonicidad ascedente: el ítem debe mos-
pués items con alternativas positivas a la derecha. trar una correlación significativa con la puntuación
Cuando se diseña una escala heteroadministrada global (ver homogeneidad).
(cumplimentada por el evaluador), deben tenerse en 3. Baja dispersión: con respecto a la línea de re-
cuenta algunos sesgos específicos: el efecto halo se gresión de la correlación anterior.
refiere a la tendencia a efectuar un juicio al inicio de De hecho, existen varios modelos para el análisis
la entrevista (ej: diagnóstico heurístico) que condicio- psicométrico de los items (García-Cueto, 1993,
na la cumplimentación de los items siguientes (ello Martínez-Arias, 1995). La Teoría Clásica del Test
puede acontecer en el HDS, que agrupa los items di- (TCT) es un modelo psicométrico que describe la in-
rectamente relacionados con depresión y severidad fluencia de los errores de medida en las puntuacio-
al inicio de la entrevista). Este efecto es importante nes observadas en un individuo. Se define la pun-
en la evaluación de comorbilidad y en las que utilizan tuación verdadera como aquella puntuación que
un único evaluador (Buchanan y Carpenter, 1994). realmente corresponde a un individuo en una varia-
El error lógico se produce al juzgar que todos los ble determinada. Sin embargo, cuando se mide algo
items aparentemente relacionados deben puntuarse con cualquier instrumento de medida, siempre se
de forma similar (así, puede asumirse que un pacien- comete un error de medida, lo que se traduce en
te con una puntuación elevada en “ideas suicidas” una diferencia entre la puntuación verdadera teóri-
puntuará también alto en “desesperanza”). El error ca y la puntuación observada que se obtiene de una
de proximidad conduce a puntuar de forma similar observación directa con el instrumento de medida.
los items adyacentes. Otra fuente de error es la va- La TCT parte de una definición de puntuación vera-
rianza terminológica que se relaciona con la atribu- dera matemáticamente aceptable y conceptualmen-
ción de un significado diferente a un mismo término. te utilizable, y de ciertos supuestos básicos que rela-
Este problema afecta sobre todo a las escalas clíni- cionan la puntuación verdadera con el error de
cas, dada la diferente interpretación de un término medida.
según la escuela psicopatológica o los conocimientos La Teoría de Respuesta al Ítem (TRI) o del rasgo
de base del evaluador. Este sesgo puede obviarse in- latente, trata de especificar las relaciones entre pun-
cluyendo un glosario terminológico anexo a la escala tuaciones ”observables” obtenidas por un sujeto en
de evaluación (ej: BPRS). un test, y los “rasgos latentes” que se supone subya-

135
TRATADO DE PSIQUIATR A

cen bajo dichas puntuaciones. Los modelos serán combinan análogos visuales y numéricos para au-
unidimensional o multidimensionales dependiendo mentar la comprensión.
del conjunto de rasgos latentes necesarios para expli- —E. gráficas: gradación a través de dibujos (ej.
car la conducta objeto de estudio. Aunque la TRI es- Face scale para evaluación de bienestar). Algunos
tablece dos parámetros más a tener en cuenta al es- autores consideran a las escalas gráficas como esca-
tudiar las características psicométricas de un test: el las lineares.
acierto al azar y los falsos positivos, ambos modelos —E. analógico-verbal: gradación en categorías
son complementarios para el análisis y construcción verbales previamente calibradas (p.e. a través del
de un test. El proceso de construcción de una escala sistema de escalación de Guttman). Generalmente
de evaluación compuesta por items binarios puede las opciones de respuesta oscilan entre 3 y 7. Likert
comenzar por la utilización de los índices de correla- consideraba que 5 era el número de alternativas óp-
ción ítem-total del modelo clásico del test, para des- timo. Goldberg por su parte, prefiere utilizar cuatro
pués plantear un análisis de su estructura latente a grados de respuesta para evitar el sesgo de tenden-
través del modelo de Rasch que permite establecer la cia central. Se considera que por encima de 6 gra-
relación mediante las respuestas manifiestas y la di- dos, el nivel de fiabilidad disminuye significativa-
mensión latente (Andersen, 89). mente. Las escalas de severidad usan más grados
La Teoría de la Generalizabilidad (TG), utiliza un que las de detección (ej.: el CGI tiene 7 mientras
conjunto de técnicas para estudiar el grado en que que el GHQ tiene 4). Estas escalas también reciben
una serie de medidas realizadas sobre un grupo de el nombre de Likert en honor a su introductor, hace
sujetos puede ser generalizada y hecha extensiva a 60 años (Cfr. Bech y cols., 1986). Sin embargo,
un grupo de sujetos diferente al primitivo. La TG tie- también se denomina así un sistema específico de
ne en cuenta los múltiples factores que pueden pro- puntuación, por lo que este uso puede prestarse a
ducir variaciones en las puntuaciones de los sujetos confusión. Ejemplo:
mediante la aplicación de un diseño multivariado,
No más Algo menos Bastante más Mucho más
permitiendo estimar la varianza atribuible a cada uno
de lo habitual de lo habitual de lo habitual de lo habitual
de ellos así como a sus interacciones. Al diversificar
las condiciones de medida se aumenta la representa- —E. analógico-categoriales: se consideran den-
tividad (generalizabilidad) de los resultados. También tro de este grupo una serie de escalas que combinan
permite diseñar procedimientos de medida en los gradación númerica y verbal (ej.: CGI, GAF) (Bech y
que los factores confusores queden representados cols., 1986). También se conocen como escalas DIS-
(Muñiz, 1992). CAN (Discretized Analogue Scale).
El análisis factorial permite comprobar la estructu-
ra unidimensional o multidimensional de un instru-
mento. Su aplicación a instrumentos ya construidos Puntuación de los items
o a versiones de los mismos hace más adecuada su
mención en el apartado de consistencia. El sistema de puntuación puede variar sustancial-
mente de una escala a otra, e incluso en una misma
escala, cuando se trata de escalas analógico-verbales.
Sistema de codificación de respuesta Las escalas unitarias de severidad (no transiciona-
les), suelen tener una puntuación máxima de 8 o 10
Escalas categoriales dicotómicas cuando son análogos visuales, y de 7 a 10 cuando se
trata de análogos verbales u otras formas combina-
Presentan un sistema de respuesta de dos alterna- das (DISCAN). El GAF puede puntuarse hasta 99,
tivas: Sí/No o Verdadero/Falso (ej: test de personali- pero en realidad presenta 10 grados de respuesta en
dad como el EPQo el MMPI). decimales.
Las escalas globales unitarias de tipo transicional
generalmente son de tipo bipolar, permitiendo una
Escalas analógicas puntuación en sentido negativo y positivo (de mayor
empeoramiento a mayor mejoría). Por razones técni-
Pueden diferenciarse en función del sistema ana- cas también pueden puntuarse de 1 a 7, aunque la
lógico utilizado para facilitar la respuesta: polaridad de la escala no queda adecuadamente re-
—E. analógico-lineal: gradación en una línea de flejada en este sistema.
7 a 10 cm (ej: escalas de bienestar). —Alternativa A: -3 / -2 / -1 / 0 / 1 / 2 / 3
—E. analógico-numérica: gradación similar a la —Alternativa B: 1 / 2 / 3 / 4 / 5 / 6 / 7
anterior pero con números (de 0 a 7 o a 10). En las Las escalas verbales multi-ítem permiten diversas
escalas unitarias termométricas los números se colo- asignaciones numéricas. Así el GHQ de Goldberg
can en posición vertical. Estas pueden también gra- permite tres asignaciones diferentes: las dos prime-
duarse de 0 a 100 (ej.: GAF para evaluación de fun- ras en base al sistema originariamente propuesto por
cionamiento general psíquico). En ocasiones se Likert en los años 30, y un tercero propuesto por el

136
GU AS PARA LA DESCRIPCI N Y LA SELECCI N DE INSTRUMENTOS DE EVALUACI N EN PSIQUIATR A

propio Goldberg. El HDS y el SANS/SAPS se pun- La homogeneidad indica el grado de acuerdo en-
túan de acuerdo con el sistema de puntuación pro- tre los items de la escala, lo que determina si estos
puesto por M. Hamilton, que distingue la opción de pueden acumularse y dar una puntuación global. Se
ausente (0), dudoso (1), y diversos grados de intensi- puede obtener mediante el estudio de la correlación
dad (del 2 al 4 o 5). de los items con el total (partición media, coeficiente
—Goldberg 0 - 0 - 1 - 1 alfa de Cronbach), análisis factorial o mediante los
—Likert I 0-1-2-3 modelos de objetividad estadística de Rasch (1980).
—Likert II 0-0-1-2 La partición media (split-half) estima la homogenei-
—Hamilton 0 - 1 - 2 - 3 - 4 dad en función de la correlación entre dos mitades
equivalentes de la escala (ej: items de primera mitad
versus items de segunda mitad, o items impares ver-
CARACTERÍSTICAS PSICOMÉTRICAS sus items pares). El coeficiente alfa de Cronbach in-
DE LOS INSTRUMENTOS DE EVALUACIÓN dica el grado en que los diferentes items presentan
una correlación positiva (la consistencia interna es al-
Existen tres parámetros básicos para evaluar la cali- ta por encima de 0,7) (Bech y cols, 1993). Otra
dad de un instrumento de medida: su consistencia, su prueba menos utilizada para el cálculo de la consis-
fiabilidad y su validez. En las escalas de seguimiento tencia interna es el test de Kuder-Richardson. La ho-
debe añadirse un cuarto: la sensibilidad al cambio. mogeneidad a partir del análisis factorial (aceptabili-
Otros parámetros a considerar son la redundancia y el dad de la puntuación global como suma de la
“coste-utilidad” de utilización de un instrumento deter- obtenida en cada ítem), se confirma si se obtiene una
minado para el propósito del estudio. Desafortunada- estructura unidimensional, esto es, todos los items
mente, no existe una definición consensuada de estos muestran una carga positiva en el primer factor
términos en epidemiología, su significado difiere del (Thompson, 1989). Además de las técnicas factoria-
uso común y varía según el área de estudio e incluso les como el análisis de componentes principales y el
entre diversos autores dentro de una misma área. Este análisis de factores principales, la estructura de una
problema se hace especialmente patente en el área escala puede ser evaluada mediante otras técnicas
de los instrumentos de evaluación subjetiva. como el escalado multidimensional no métrico o el
análisis de ecuación estructural (Buchanan, 1994). El
modelo de Rasch unidimensional considera que una
CONSISTENCIA INTERNA escala es homogénea cuando todos sus items contri-
buyen de forma independiente al total de informa-
La consistencia analiza la solidez psicométrica de ción contenido en la escala. En la teoría del rasgo la-
la escala, esto es, el nivel en que sus diferentes items tente, el nexo entre las respuestas manifiestas
están relacionados entre sí y la posibilidad de efec- (clínicas) y su dimensión latente (teórica), viene defi-
tuar sumatorios de los mismos para obtener puntua- nida por el requerimiento de que las respuestas pue-
ciones globales. Algunos autores incluyen a la consis- dan combinarse de forma aditiva hasta obtener una
tencia dentro de la fiabilidad o de la validez. Según puntuación total (Andersen, 1989). El modelo de
Hernández-Aguado y cols (1990), consistencia es Rasch permite también estudiar la jerarquía interna
aquella “propiedad que define el nivel de acuerdo o de la escala, clasificando los items homogéneos en
conformidad de un conjunto de mediciones consigo un rango jerárquico del más inclusivo (que mide los
mismas”. Desafortunadamente este autor no aporta síntomas leves o moderados de la dimensión) al más
una definición operacionalizada del término, y en su exclusivo (que mide los síntomas más graves de la di-
revisión llega a referir en un párrafo que la consisten- mensión). El coeficiente de reproducibilidad indica
cia es sinónimo de fiabilidad para afirmar lo contrario hasta qué punto la escala refleja todos los patrones
a reglón siguiente. Para evitar esta confusión termi- de respuesta del sujeto con respecto al parámetro
nológica, nos referimos aquí a la consistencia interna medido (Thompson, 1989). La transferibilidad se
de la prueba. refiere al grado en que la escala puede ser aplicada a
Algunos métodos estadísticos como el análisis fac- diferentes grupos de población que presenten el fe-
torial, aportan datos tanto de la estructura interna de nómeno evaluado, independientemente de la edad,
la escala como de su relación con modelos externos. sexo y otros criterios externos relevantes (Bech y
Tal es el caso de las escalas para evaluación de sínto- cols., 1993).
mas positivos y negativos de la esquizofrenia, cuyo
análisis factorial puede servir para validar, revisar, o
incluso refutar los modelos en los que se basa la pro- FIABILIDAD EXTERNA
pia construcción del instrumento (Liddle, 1987; Bu-
chanan & Carpenter, 1994). Muchos de los aspectos La fiabilidad nos indica el grado en que los resulta-
relacionados con la consistencia han sido menciona- dos de un test son reproducibles. Esta medida depen-
dos al tratar sobre la selección de los items o sobre la de de la estabilidad de las medidas del test a pesar del
jerarquía de ordenación de los mismos. cambio de diversos parámetros externos (esto es, no

137
TRATADO DE PSIQUIATR A

inherentes al test). El estudio de la fiabilidad externa grado de acuerdo. Feinstein (1985) propone la si-
informará sobre la reproducibilidad de los resultados guiente tabla para analizar los resultados del kappa:
del test en distintas situaciones. McDowell (1987) Valor de kappa Nivel de acuerdo
ejemplifica la diferencia entre la validez y la fiabilidad <0 pobre
con un excelente símil: un tirador tiene que aprender 0-0,20 bajo
a acertar en el blanco y después hacerlo de forma 0,21-0,40 regular
consistente. La validez vendría dada por el grado en 0,41-0,60 moderado
que el disparo se acerca a la diana, y la fiabilidad por 0,61-0,80 fuerte
el grado de aproximación entre sí de una serie con- 0,81-1,00 casi perfecto
secutiva de disparos. Algunos autores prefieren el
término variabilidad para describir las diferencias En el caso de variables ordinales, el análisis de la
entre resultados obtenidos en dieferentes condicio- concordancia ítem a ítem se puede efectuar utilizan-
nes de evaluación (Hernández-Aguado et al, 1990). do el porcentaje de acuerdo ponderado y el kappa
Un estudio sobre la fiabilidad de una prueba diag- ponderado (Kw). Estos se consideran más adecua-
nóstica debe incluir al menos un análisis del nivel de dos que sus análogos no ponderados por dar una
acuerdo obtenido al ser evaluada la misma muestra medida más real del nivel de acuerdo al ponderar el
en las mismas condiciones por dos evaluadores dis- desacuerdo según el número de rangos que separa-
tintos (fiabilidad interexaminadores). También se ran la puntuación asignada por un evaluador de la
ha denominado variabilidad interobservador (Her- asignada por el otro (así, el peso asignado puede ser
nández-Aguado et al, 1990). Se ha señalado la im- 0 para el completo acuerdo, 1 cuando hay 1 rango
portancia de contar con evaluadores de experiencia de diferencia, 2 cuando hay 2 rangos, etc.) (Kramer
similar, en cuanto a formación y uso del instrumento y Feinstein, 1981).
de evaluación a analizar. Andersen (1989) señala El método de análisis de la concordancia de las
otros factores, como la actitud ante las escalas de puntuaciones globales de un test es controvertido.
evaluación y el tipo de preferencia terapéutica, dis- Habitualmente se utilizan los coeficientes de correla-
tinguiendo entre fiabilidad inter-observadores e intra- ción para analizar el grado de acuerdo. Dichos coefi-
observadores. cientes no deberían ser utilizados para analizar la con-
La estabilidad de la prueba se obtiene al ser eva- cordancia entre dos evaluaciones: la tendencia puede
luada la misma muestra por el mismo evaluador en ser perfecta, con un coeficiente de correlación de 1, y
dos situaciones distintas (fiabilidad test-retest o va- las medidas obtenidas en un laboratorio ser exacta-
riabilidad intraobservador). En algunos casos, (psi- mente el doble o exactamente 10 unidades más altas
quiatría infantil, minusvalías psíquicas, etc.), se obtie- que las correspondientes medidas obtenidas en otro
nen los datos a partir de informadores, por lo que es laboratorio, con lo que la concordancia obtenida entre
necesario analizar la concordancia entre los datos ambos laboratorios sería inexistente (Feinstein,
obtenidos con el test con la misma muestra y con el 1985). En medidas continuas se pueden utilizar diver-
mismo evaluador, pero recabando los datos de dos sos métodos de cálculo del coeficiente de correlación
informadores distintos (fiabilidad inter-informado- intraclase (ICC) (Bartko y Carpenter, 1976). Bech y
res). El procedimiento para obtener dicha informa- cols (1993) han planteado también la utilización del
ción ha sido extensamente revisado por Costello ICC para la evaluación de la fiabilidad test-retest cuan-
(1994). do las medidas se recogen por evaluadores diferentes,
El índice estadístico utilizado para evaluar la con- aunque se trata de una aplicación discutible. En la ac-
cordancia depende de las características de las varia- tualidad, no existe un acuerdo generalizado sobre el
bles a evaluar. La utilización en varios estudios del tamaño de la muestra requerido para un estudio de
coeficiente de concordancia de Kendall (Siegel, fiabilidad de una escala (Bech y cols, 1993).
1966) es discutible. En el caso de variables dicotó-
micas o binarias, la concordancia ítem a ítem se VALIDEZ
puede analizar mediante el porcentaje de acuerdo y
el kappa no ponderado (Kramer y Feinstein, 1981). La validez indica qué proporción de la información
El coeficiente de concordancia kappa nos informa recogida es relevante a la cuestión formulada y se de-
del nivel de acuerdo obtenido, una vez eliminada la fine por el grado en que el instrumento mide aquello
concordancia que presumiblemente se ha producido que realmente pretende medir. La validez se demues-
por azar. Ello lo hace más fiable que el simple por- tra cuando la medida predice un criterio (validez de
centaje de acuerdo. Sin embargo, un mismo valor de criterio), o se ajusta de forma consistente con una se-
kappa puede resultar de patrones diferentes de res- rie de constructos relacionados en una teoría acepta-
puesta. Por ello es conveniente señalar también la da (validez de constructo), en el caso de que no exis-
frecuencia de aparición cada ítem y el porcentaje de ta un criterio externo que sirva de “patrón oro”
acuerdo (Costello, 1994), así como el intérvalo de (Thiemann, 1987). Existen múltiples formas de vali-
confianza (IC). Existen diversas propuestas sobre la dez, con el agravante de que algunos autores utilizan
relación de un determinado valor de Kappa con el un mismo término para definir conceptos diferentes.

138
GU AS PARA LA DESCRIPCI N Y LA SELECCI N DE INSTRUMENTOS DE EVALUACI N EN PSIQUIATR A

Las 6 formas principales de validez pueden distribuir- do y no otros, y al grado en que los rasgos de domi-
se en dos ejes: uno relacionado con la presencia o au- nios diferentes no son incluidos dentro del dominio
sencia de patrón-oro para la dimensión evaluada (vali- examinado por el instrumento (validez discriminante
dez de criterio versus validez de constructo), y otro de inclusión y de exclusión). La validez discriminante
relacionado con la aplicación de técnicas matemáti- puede ser evaluada de forma descriptiva o mediante
cas para su cálculo o la ausencia de estas (validez es- procedimientos estadísticos.
tadística versus validez descriptiva). Así, un tipo deter-
minado de validez puede ser considerado de criterio o
de constructo dependiendo de la dimensión evaluada. Validez convergente
La validez concurrente de una escala para evaluación
de servicios formará parte de la validez de criterio, Esta se refiere a la evaluación de un rasgo deter-
mientras que la validez concurrente de una escala de minado del dominio mediante dos métodos diferen-
calidad de vida, para la que no existe patrón oro, se tes (p.ej. evaluación de la depresión mediante una
considerará como parte de su validez de constructo. escala de evaluación y un test biológico). Este térmi-
De igual forma, la estimación de la validez discrimi- no también ha sido utilizado para denominar al uso
nante o la validez convergente puede ser meramente de dos instrumentos de evaluación que cubren di-
descriptiva o puede efectuarse a través de un procedi- mensiones diferentes para describir una tercera (p.ej
miento estadístico. uso de escalas clínicas y de funcionamiento para es-
La ausencia de este marco conceptual de dos ejes tudiar la validez de una escala de calidad de vida).
ha llevado a notables confusiones en la definición y la
clasificación de las diferentes formas de validez. Por
ejemplo, incluyen a la validez concurrente y predictiva Validez concurrente
dentro de las formas de validez de criterio (Strang et
al, 1989; Martínez Arias, 1995); mientras que otros lo Se trata de un tipo de validez estadística que nos
hacen dentro de la validez de constructo (Thompson, da una medida de la asociación de las puntuaciones
1989i). De hecho, la mayoría de atributos psicológi- en los distintos items y en las puntuaciones globales
cos y procesos mentales son parámetros intangibles con otras escalas de referencia, con un propósito y
que no pueden mesurarse directamente como el peso contenido equivalente. Generalmente se limita al es-
o la altura, y que deben considerarse como construc- tudio de la correlación entre puntuaciones. Czobor
tos hipotéticos. Sin embargo, se acepta que muchos (1991) sugiere la utilización del análisis canónico de
constructos psiquiátricos están próximos al criterio componentes (Canonical component analysis). Es-
(p.ej. síntomas somáticos de depresión, anhedonia), te método puede considerarse como una extensión
mientras otros no pueden ser contrastados con un pa- del análisis factorial para dos grupos de variables.
trón-oro (p.e. calidad de vida, integración social).
Teniendo en cuenta las consideraciones y las sal-
vedades antes señaladas, los principales tipos de vali- Validez predictiva
dez de un instrumento de evaluación son:
La validez predictiva de observación se refiere a
la probabilidad de la escala de dar un juicio correcto
Validez simple (face validity) sobre el fenómeno observado. El análisis de Bayes
permite conocer la validez predictiva de un test, su
Se trata de un tipo de validez descriptiva de crite- utilidad y su comparabilidad, a partir del análisis de la
rio que refleja lo que los expertos consideran como distribución de los “casos” y “no casos” en una pobla-
medidas significativas. ción dada y de su relación con los resultados obteni-
dos en el test estudiado (positivos y negativos). Una
tabla de contingencia de 2 x 2 expresa esta relación
Validez de contenido en verdaderos positivos (VP), verdaderos negativos
(VN), falsos positivos (FP) y falsos negativos (FN). En
Define el grado en que el conjunto de items del la Tabla I se definen los coeficientes de validez predic-
test representa adecuadamente un dominio o dimen- tiva obtenidos a partir de la tabla de contingencia:
sión previamente definido. Según Thompson sensibilidad, especificidad, valor predictivo positi-
(1989i) este tipo de validez también es descriptivo y vo y valor predictivo negativo. La sensibilidad (x) co-
no puede analizarse mediante técnicas estadísticas. rresponde a la tasa de verdaderos positivos, y viene
definida como la tasa de resultados positivos correc-
tos en el test en relación al total de casos verdaderos
Validez discriminante en la población evaluada (VP/VP+VN). La especifici-
dad (y) corresponde a la tasa de verdaderos negativos
Esta se refiere al grado en que un instrumento mi- en el test entre todos los no-casos (VN/VN+FN).
de aquellos rasgos propios de un dominio determina- Otras medidas relacionadas con las anteriores son la

139
TRATADO DE PSIQUIATR A

o por debajo del 50% alterarán los valores VPP y


Tabla I VPN. Baldessarini proporciona un claro ejemplo de
Análisis de Bayes y parámetros la influencia de estas variaciones. Otros parámetros
de validez predictiva que pueden obtenerse a través de la aplicación del
teorema de Bayes son la razón predictiva positiva y
A. PREVALENCIA: 50% (P = 0,5) negativa, la proporción de mal clasificados, la efi-
ciencia (proporción de casos bien clasificados en re-
Criterio de referencia (p. ej., diagnóstico -Dx) lación al total de evaluados), el sesgo (cociente entre
(presente) (ausente) los evaluados considerados como positivos y negati-
(+) VP (a) FP (b) vos) y el rendimiento (casos no detectados por el
Resultado del test (-) FN (c) VN (d) test en relación al total de casos).
Estos coeficientes nos permiten ajustar el punto de
Parámetro Definición Fórmula Símbolo corte con respecto al objetivo del estudio. Si se pre-
tende hacer un estudio de muestreo en dos fases, bus-
Sensibilidad VP/todos Dx a/(a + c) x
caremos aquel punto de corte que nos permita captar
Especificidad TN/todos no Dx d/(b + d) y
Tasa falsos pos. FP/todos no Dx b/(b + d) 1-y el máximo número de casos aunque entre ellos se in-
Tasa falsos neg. FN/todos Dx c/(a+c) 1-x cluyan falsos positivos (especificidad aceptable con
Eficiencia VP+VN/todos suj. (a + d)/N Ef una sensibilidad óptima). Si por el contrario pretende-
Valor predictivo pos. VP/VP + FP a/(a + b) PPP mos conocer la morbilidad probable en una pobla-
Valor predíctivo neg. VN/VN + FN d/(c + d) NPP ción a través de la puntuación en el test, seleccionare-
Cociente de error Resultados falsos/VP (b + c)/a ER mos aquel punto de corte que nos permita descartar
Prevalencia Todos Dx/todos suj. (a + c)/N p el mayor número de “no casos”, aunque ello determi-
Tasa de “sanos” Todos no Dx/todos suj. (b + d)/N 1-p ne la pérdida de algunos falsos negativos (sensibilidad
Indice de Youden x+y-1 Yl aceptable con una especificidad óptima).
De forma alternativa, el punto de corte idóneo de
B. TASA DE PREVALENCIA DIFERENTE DE 50% (P ≠ 0,5)
un test se puede calcular a partir del análisis ROC
Criterio de referencia (p. ej., diagnóstico -Dx) (Receiver Operating Characteristics) (Strang et al.,
Presente (P) Ausente (1-p) 1989). Esta técnica fue desarrollada en los años 60
(+) (p)(x) (1 - p)(1 - y) para evaluar la capacidad de discriminación de seña-
Resultado del test (-) (p)(1 - x) (1 - p)(y) les de los controladores de radar. Primero se obtiene
una representación gráfica de la tasa de verdaderos
Parámetro Fórmula Símbolo positivos (sensibilidad) y la tasa de falsos positivos (1-
especificidad) para cada punto de corte. El cálculo
Valor predict. pos. [(p )(x) + (1 - p) (1 - y)] VPP del área bajo la curva resultante nos indica la capaci-
Valor predict. neg. [(1-p) (y) ] / [(1-p) (y) + (p) (1-x)] VPN
dad discriminante del test a través de todo el spec-
C. EJEMPLOS DE EFECTOS DE PREVALENCIA trum de morbilidad. Cuando la capacidad discrimi-
EN EL PODER PREDICTIVO nante es igual a la obtenida aleatoriamente se
obtiene una línea diagonal cuya área inferior es de
Medida Investigación Especialista Cribaje 0,5 (sensibilidad igual a la tasa de falsos positivos).
Un test ideal produciría un 100% de verdaderos po-
Prevalencia 50% 10% 1% sitivos antes de admitir un solo falso negativo, por lo
Sensibilidad 0,70 0,70 0,70 que el área bajo la curva obtenida sería de 1,0. En la
Especificidad 0,95 0,95 0,95 práctica las áreas bajo la curva oscilan entre 0,5 y
Valor predict. pos. 0,93 0,61 0,12 1,0, y permiten una representación gráfica de la ca-
Valor predict. neg. 0,76 0,97 1,00
pacidad discriminante de diferentes test para una
Modificado de Baldessarini et al., 1988. misma dimensión, siendo el mejor aquel que se co-
rresponda con una curva más alejada de la diagonal
(Cfr. Thompson, 1989).
Se denominan “asimétricos” o “excéntricos”
tasa de falsos positivos (1-y), la tasa de falsos negati- aquellos tests en los que las desviaciones estándar
vos (1-x) y el índice de Youden (x+y-1). para los “verdaderos positivos” son muy diferentes
El valor predictivo positivo (VPP) corresponde al de las de los “falsos negativos”. En estos casos puede
cociente de resultados positivos verdaderos con res- ser necesaria la utilización de dos puntos de corte
pecto al total de positivos (VP/VP+FP); y el valor para diferenciar a los sujetos “positivos” y “negati-
predictivo negativo (VPN) corresponde al total de vos” en el test. Somoza (1996), propone una nueva
verdaderos negativos con respecto al total de negati- definición de sensibilidad y especificidad que tiene en
vos (VN/VN+FN). Es importante tener en cuenta la cuenta la existencia de instrumentos de evaluación
prevalencia del criterio de referencia en la población asimétricos, y demuestra las propiedades de los mis-
evaluada, ya que las tasas de prevalencia por encima mos mediante una aplicación del análisis ROC.

140
GU AS PARA LA DESCRIPCI N Y LA SELECCI N DE INSTRUMENTOS DE EVALUACI N EN PSIQUIATR A

Validez factorial (dimensional) puede evaluarse mediante el acuerdo Kappa entre


los items (Kibel et al, 1993; Fenton y McGlashan,
Cuando la validez de constructo no se refiere a 1992).
una entidad nosológica sino a un instrumento de eva-
luación, se plantea en ocasiones el uso de análisis
factorial exploratorio como un método de validez SENSIBILIDAD AL CAMBIO
de constructo, cuando, de hecho, se trata de técnicas
sofisticadas para análisis de su estructura interna o El estudio de sensibilidad al cambio se puede efec-
consistencia. Las técnicas factoriales pueden utilizar- tuar mediante estudio de correlación y análisis de
se para corregir los sesgos en la estimación de la vali- componentes principales en la línea base y tras el
dez predictiva de un test autoadministrado atribuibles período de evaluación (p. ej., después del tratamien-
a un error en el criterio de referencia. to), comparando las estructuras factoriales en ambos
Existe, por otro lado, un grupo de técnicas de puntos.Para estimar la sensibilidad al cambio, puede
análisis factorial confirmatorio, en las que el investi- ser útil el empleo de una escala transicional como
gador trata de verificar una hipótesis explícita que criterio externo (p. ej., uso del CGI para analizar la
actúa como “criterio” externo. Entre estas se inclu- sensibilidad al cambio del índice de Bienestar Gene-
yen diversos modelos de ecuaciones estructurales ral). Se puede entonces efectuar un análisis de cova-
(maximum likelihood, generalized and unweigh- rianza (ANCOVA) de la puntuación obtenida tras el
ted least squares) que se incluyen en el programa in- tratamiento, tomando como covariable la puntua-
formático LISREL (Jöreskog & Sörbom, 1993). Un ción basal, respecto al factor de cambio en la severi-
programa similar (LISCOMP), se ha utilizado para dad determinado por la variación en la otra escala
evaluar la dimensionalidad de los criterios de depen- (Salvador-Carulla et al, 1996).
dencia y abuso del alcohol en los sistemas CIE-10 y
DSM-IV (Muthen et al, 1993i; 1993ii).
TRANSFERABILIDAD Y GENERALIZACIÓN
DE RESULTADOS
REDUNDANCIA EXTERNA

Generalmente, sólo se evalúa la redundancia o el Un aspecto relevante al seleccionar un test deter-


solapamiento de los items de una escala en la fase de minado es el grado de generalización de los resulta-
construcción de la misma (redundancia interna). Sin dos obtenidos con dicha prueba y su transferabili-
embargo, es importante conocer también la redun- dad a otras poblaciones. Estos parámetros vienen
dancia de los items y de las puntuaciones globales determinados, además de por la metodología em-
con otras escalas de contenido similar (redundancia pleada en el estudio de validación de la prueba, por
externa). Este parámetro, no es equivalente al de otros factores. Entre estos cabe citar la existencia
asociación obtenido en la validez concurrente (p.ej. de estudios de las propiedades psicométricas del
en casos multivariados es posible encontrar una re- instrumento diferentes a los efectuados por los au-
dundancia cercana a cero aunque exista una perfecta tores originales, la aplicación de todo el rango de
asociación entre dos tests) (Czobor, 1991). La utiliza- pruebas estadísticas útiles para evaluación del ins-
ción de escalas equivalentes con items redundantes trumento, y su administración a diversas poblacio-
en poblaciones similares, no aumenta la cantidad de nes que cubran el rango de posibilidades de utiliza-
información obtenida, y sin embargo, incrementa la ción de la prueba. Un aspecto relacionado con la
posibilidad de errores de cumplimentación (ej.: por generalización y transferabilidad es el de la equiva-
cansancio, transcripción), amplifica los errores esta- lencia transcultural.
dísticos de tipo I y II, y disminuye el costo-utilidad de
la administración de las pruebas (Thiemann et al,
1987; Czobor et al, 1991). De acuerdo con Wollen- EQUIVALENCIA TRANSCULTURAL
berg (1977), el análisis de redundancia, se puede
considerar como una extensión del análisis factorial La utilización del mismo cuestionario en diferentes
para dos grupos de variables separados. Se constitu- culturas implica una serie de problemas metodológi-
yen factores a partir de un grupo de variables (ej. test cos sumamente complejos, como el de los niveles de
A) que explique la varianza en otro grupo de varia- equivalencia y el de los diferentes sistemas de traduc-
bles (ej. test B). La derivación de variados lineares de ción.
criterio (linear criterion variates) permite valorar la
importancia de cada variado en la relación de redun-
dancia entre dos instrumentos (Johansson, 1981). NIVELES DE EQUIVALENCIA TRANSCULTURAL
Para Thiermann et al. (1987), en cierta medida, la
redundancia viene a equivaler a la “fiabilidad” inter- Flaherty (1988) ha propuesto 5 niveles de equiva-
test de la prueba. De hecho, la redundancia también lencia:

141
TRATADO DE PSIQUIATR A

—Equivalencia de contenido: el contenido de ca-


da ítem del instrumento es relevante al fenómeno Tabla II
evaluado en cada cultura.
—Equivalencia sintáctica: el significado de cada Pasos de la traducción transcultural
ítem permanece inalterado al ser traducido al lengua- del CIDI y el SCAN en el proyecto
je normal (oral y escrito) de cada cultura. Aquí se dan conjunto WHO/NIH
diversas fuentes de variación (palabras, coloquialis-
mos, tipo de registro). La traducción del inglés en el otro idioma se prepara
por uno o más traductores ajenos a la salud mental
—Equivalencia técnica: el método de evalua-
ción (p. ej., papel y lápiz o entrevista) es compara- La versión traducida se discute por un grupo bilingüe de
ble en cada cultura en relación a los datos que se expertos para identificar areas conflictivas y acordar
recogen. los temas que se deben abordar en las discusiones de
—Equivalencia conceptual: el instrumento mide los grupos monolingues
el mismo constructo teórico en cada cultura. A veces El grupo bilingüe discute con los grupos monolingües
la traducción de las palabras concretas puede aproxi- aspectos de la versión traducida
marse mucho al original a la vez que existe una dife- Después de revisar la traducción, los líderes de los gru-
rencia notable a nivel conceptual con el texto origi- pos monolingües indican al grupo bilingüe si la traduc-
nal. ción es comprensible, si encuentran obstáculos cultura-
les para la respuesta a las preguntas, o si existen pro-
blemas relacionados con síntomas específicos que
SISTEMAS DE TRADUCCIÓN deban incluirse en las preguntas del CIDI/SCAN
El grupo de expertos bilingües discute estos informes y
El sistema de traducción más difundido es el de la decide si existen problemas sustanciales que aconse-
retraducción (back-translation). Este sistema se dife- jen una segunda revisión de la traducción por parte
rencia de la traducción directa en que, tras ser tradu- de los grupos monolingües.
cido por uno o varios traductores, el test es “retradu- Retraducción por un tercer sujeto no relacionado con la
cido” por un traductor independiente del primero. salud mental
Así las dos versiones pueden ser comparadas en el
Preparación de un informe por parte del grupo bilingüe
idioma original. Este sistema, sin embargo, dista de
en el que se especifican las áreas que requieren un
ser ideal, y sus resultados pueden ser muy poco sa- análisis en profundidad. Discusión de los resultados de
tisfactorios en lo referente a la equivalencia concep- cada componente del estudio y conclusiones para el
tual (Brislin, 1970). En el campo de la salud mental informe final
se ha intentado complementar este sistema con
Room et al.,1996.
otras técnicas que permitan convertir una traducción
meramente lingüística en una traducción conceptual,
como las técnicas de pretest y de traducción concep-
tual por paneles. Existen dos casos recientes de tra- SELECCIÓN DE UN INSTRUMENTO
ducción conceptual por paneles que ilustran esta DE EVALUACIÓN
metodología: la traducción española del SCAN (Vaz-
quez-Barquero, 1993), y el proyecto internacional La selección apropiada de instrumentos de evalua-
de diagnóstico y clasificación de la OMS y el Institu- ción subjetiva es primordial para cualquier investiga-
to de Salud de EE.UU. (WHO/NIH) (Room et al, ción clínica en psiquiatría. Sin embargo, sorprende
1996). el escaso número de revisiones metodológicas que
La traducción conceptual prima la equivalencia de abordan este tema de forma específica. Bech et al.
concepto sobre la sintáctica, con el fin de conservar (1993), mencionan una serie de aspectos clave a te-
la esencia de la experiencia evaluada en el segundo ner en cuenta en un ensayo clínico:
idioma. La preparación de estas versiones es mucho 1. Identificación del motivo: ¿Por qué es necesa-
más compleja que la señalada anteriormente. Pri- ria la utilización de una escala de evaluación en el
mero se efectúa una traducción literal, después dos estudio?
grupos independientes efectúan una traducción con- 2. Identificación del problema: ¿Cuál es el objeto
ceptual sobre la primera. A continuación estas tra- de evaluación?
ducciones se revisan por un nuevo panel para detec- 3. Identificación de la importancia: ¿Cuál es la re-
tar términos conflictivos y conceptos problemáticos levancia de las escalas en relación a la hipótesis
y facilitar un consenso entre los grupos de acuerdo que se investiga?
con la realidad del entorno conceptual en el que se 4. Evaluación del coste-utilidad: ¿Cuál es la utili-
debe emplear el instrumento. Esta versión se retra- dad de la información obtenida através del instru-
duce al idioma original y finalmente el coordinador mento en relación al coste de su utilización?
del proyecto juzga la equivalencia conceptual de ca- Este último aspecto se obvía con excesiva frecuen-
da ítem (Tabla II). cia en investigación clínica. En este caso, la evalua-

142
GU AS PARA LA DESCRIPCI N Y LA SELECCI N DE INSTRUMENTOS DE EVALUACI N EN PSIQUIATR A

ción del coste-utilidad considera la necesidad de en- —EPQ: Eysenck Personality Questionnaire (Ey-
trenamiento y preparaciones previas a la utilización senck et al, 1975)
de la escala, el tiempo asignado para la misma, y los —GHQ: General Health Questionnaire (Gold-
requerimientos para su análisis estadístico. Es nece- berg, 1972).
sario evaluar si la información adicional obtenida jus- —HDRS: Hamilton Depression Rating Scale (Ha-
tifica los mayores costos y tiempo empleado tanto milton, 1960)
para la puntuación como para el análisis de los da- MPQ: McGill Pain Questionnaire (Melzack,
tos. Debe tenerse en cuenta también la posibilidad 1980).
de aumento de sesgos por la adición de un instru- —MMPl: Minnesota Multiphasic Personality In-
mento suplementario a una batería de evaluación, ya ventory (Hathaway & Mc Kinley, 1937)
sea por la posibilidad de cansancio del entrevistado, —NDS: Newcastle Depression Scale (Carney et
aumento de errores de medida o de errores de tipo I al, 1965).
y II al utilizar escalas redundantes, como la adminis- —PSE: Present State Examination (Cooper et al,
tración conjunta del BPRS y el SANS (Czobor et al, 1972).
1991; Thiemann et al, 1987). —SANS/SAPS: Scale for the Assessment of Ne-
En función de todo lo expuesto se ha elaborado gative Symptoms / Scale for the Assessment of Pos-
un inventario que facilita la elección de instrumentos tive Symptoms (Andreasen, 1981).
de evaluación en investigación y en rutina clínica. —SCAN: Schedules for Clinical Assessment in
Neuropsychiatry (WHO, 1992).
COROLARIO
APÉNDICE
El uso de las escalas de evaluación psiquiátrica es-
tá bien establecido en diversas áreas, desde la epide- CUESTIONARIO PARA LA SELECCIÓN
miología clínica a los estudios farmacológicos (pro- DE INSTRUMENTOS DE EVALUACIÓN
pósito para el que se desarrollaron muchas de las EN PSIQUIATRÍA
escalas clínicas de seguimiento). Sin embargo, dado
su número, diversidad y su continuo desarrollo, es Puntuar en función de la literatura disponible so-
cada vez más necesario contar con inventarios infor- bre el instrumento y en base a las indicaciones efec-
matizados y sistemáticos que permitan una orienta- tuadas en la revisión anterior.
ción clara al clínico y al investigador sobre las mis-
mas. Una guía para su clasificación, puede obtenerse
en función de una serie de características relacio- A. Construcción
nadas con su complejidad, propósito y diseño. La va-
loración de la calidad de cada instrumento puede 1. ¿El objetivo del instrumento se define de forma
evaluarse en función de una serie de parámetros re- explícita?
lacionados con su consistencia, fiabilidad, validez y No, en absoluto Incompleto Aceptable Muy completo
sensibilidad al cambio. Por último, es necesario tener
en cuenta aspectos relacionados con el coste-efecti- 2. Con la excepción de los instrumentos más sim-
vidad en la elección del instrumento y su relación ples, ¿existe un glosario?
con otros instrumentos utilizados en un estudio. No, en absoluto Incompleto Aceptable Muy completo
Este artículo ha sido financiado parcialmente me-
diante una ayuda del Fondo de Investigaciones Sani- 3. ¿Existe un manual de instrucciones o un aparta-
tarias (FIS 95/1961). do equivalente en el test donde se especifican clara-
mente las instrucciones de cumplimentación y las ca-
racterísticas de quién debe cumplimentarlo?
LISTA DE ESCALAS MENCIONADAS No, en absoluto Incompleto Aceptable Muy completo
EN EL TEXTO (CF. BECH ET AL, 1993)
4. Teniendo en cuenta otros instrumentos simila-
—ADL: Activity of Daily Living - Index (Katz, res, ¿es este un instrumento de fácil uso en cuanto a
1976). la comprensión, cumplimentación, tiempo de admi-
—BDI: Beck Deprepression Inventory (Beck et al, nistración y sistema de obtención de los resultados?
1961). No, en absoluto Regular Aceptable Muy adecuado
BPRS: Brief Psychiatric Rating Scale (Overall &
Gorham, 1962).
—CASH: Comprehensive Assessment of History B. Propósito
and Symptoms (Andreasen et al, 1992) CGI: Clinical
Global Impression (Guy, 1976). 5. ¿Se trata de un instrumento relevante en fun-
—GAS: Global Assessment Scale (Endicott, ción del objetivo del estudio?
1976). No, en absoluto Regular Aceptable Muy adecuado

143
TRATADO DE PSIQUIATR A

6. ¿Existe una adecuación entre la complejidad del 17. ¿En qué proporción describe el cuestionario
instrumento y el objetivo para el que se pretende uti- las diferentes características del fenómeno observa-
lizar? do?, (validez de contenido).
No, en absoluto Regular Aceptable Muy adecuado Muy baja Regular Moderada Alta
7. ¿El instrumento cubre las dimensiones que se 18. Si procede, ¿se trata de una descripción preci-
pretende evaluar? sa? ¿En qué proporción se incluyen las característi-
No, en absoluto Insuficiente Aceptable Muy adecuado cas similares en el mismo grupo y las divergentes en
8. En caso negativo, ¿permite su “baterización”? diferentes grupos?
(¿Se puede administrar de forma conjunta con otros Muy baja Regular Moderada Alta
instrumentos para evaluar las diferentes dimensiones
del fenómeno observado?). 19. Si procede, ¿cuál es la calidad de la informa-
No Con dificultades Aceptable Preparado ción sobre la validez convergente?
en absoluto para ello Nula o muy baja Regular Moderada Alta

9. ¿Cuál es la utilidad de la información obtenida 20. Si procede (se cuenta con un instrumento de
en relación al coste en tiempo y personal de su admi- referencia), ¿cuál es la calidad de la información so-
nistración? bre la validez concurrente?
Muy baja Regular Moderada Alta Nula o muy baja Regular Moderada Alta

21. Si procede, ¿cuál es la calidad de la informa-


C. Propiedades psicométricas
ción sobre la validez predictiva de observación?
Nula o muy baja Regular Moderada Alta
10. ¿Se ha efectuado el análisis de las propieda-
des psicométricas en un número adecuado de casos?
No, en absoluto Insuficiente Aceptable Óptimo 22. Si procede, ¿cuál es la calidad de la informa-
ción sobre la validez factorial o dimensional?, (la utili-
11. Si el instrumento da puntuaciones totales, ¿se zación de análisis factorial exploratorio debe consi-
ha analizado su consistencia interna?, (especificar el derarse como regular, salvo cuando existe una gran
método y señalar la calidad de dicho análisis en fun- cantidad de literatura coincidente, en cuyo caso sería
ción de lo expuesto en el capítulo)? moderada).
Muy baja Regular Moderada Alta Nula o muy baja Regular Moderada Alta

12. ¿Se ha evaluado la fiabilidad externa interexa- 23. Si se ha efectuado un análisis de otros tipos
minadores del instrumento?, (especificar el método y de validación ¿cuál es la calidad de dicha informa-
señalar la calidad de dicho análisis en función de lo ción?, (especificar el tipo de validez).
expuesto en el capítulo). Nula o muy baja Regular Moderada Alta
Muy baja Regular Moderada Alta

13. Si procede, ¿se ha evaluado la fiabilidad exter- 24. En general, ¿cuál es la calidad de la informa-
na test-retest del instrumento? (especificar el método ción sobre la validez del test?
y señalar la calidad de dicho análisis en función de lo Nula o muy baja Regular Moderada Alta
expuesto en el capítulo).
Muy baja Regular Moderada Alta 25. Si se trata de un instrumento de seguimiento,
¿cuál es la calidad de información sobre su sensibili-
14. Si procede, ¿se ha evaluado la fiabilidad exter- dad al cambio?
na inter-informadores del instrumento?, (especificar Nula o muy baja Regular Moderada Alta
el método y señalar la calidad de dicho análisis en
función de lo expuesto en el capítulo) 26. Cuando se usan varios instrumentos, ¿en qué
Muy baja Regular Moderada Alta proporción se ha descartado la presencia de redun-
dancia?
15. En función de lo anterior, ¿cómo juzga la cali- Nula o muy baja Regular Moderada Alta
dad global de la información sobre fiabilidad de este
instrumento?
Muy baja Regular Moderada Alta
D. Generalización
16. ¿Cuál es la significación y relevancia de los re-
sultados obtenidos para quienes deben utilizarlos?, 27. ¿En qué proporción se ha analizado la utilidad
(validez simple). del test en diferentes poblaciones y lugares?
Muy baja Regular Moderada Alta Nula o muy baja Regular Moderada Alta

144
GU AS PARA LA DESCRIPCI N Y LA SELECCI N DE INSTRUMENTOS DE EVALUACI N EN PSIQUIATR A

28. ¿En qué proporción los datos sobre las pro- 30. ¿En que extensión se ha aplicado el test en di-
piedades psicométricas del test proceden de fuentes ferentes culturas?
diferentes de los autores originales? Nula o muy baja Regular Moderada Alta
Nula o muy baja Regular Moderada Alta

E. Equivalencia transcultural 31. ¿Existe información sobre la adaptación del


29. ¿Existen datos sobre la estandarización trans- test al entorno cultural específico y a la población en
cultural del test? la que se pretende utilizar?
Nula o muy baja Regular Moderada Alta Nula o muy baja Regular Moderada Alta

Bibliografía
1. Andersen J, Larsen JK, Schultz V, Nielsen BM, Korner A, Behnke K et al. The Brief Psychiatric Rating Scale: Dimension of schi-
zophrenia-reliability and construct validity. Psychopathology 1989; 22: 168-176.
2. Andreasen NC, Flaum M, Arndt S. The comprehensive assessment of symptoms and history (CASH): An instrument for assessing
diagnosis and psychopathology. Archives of General Psychiatry 1992; 49: 615-623.
3. Baldessarini RJ, Finklestein S, Arana GW. Predictive power of diagnostic tests. En: F Flasch (ed.), Psychobiology and Psychophar-
macology. New York: Norton & Company 1988, 175-189.
4. Bartko JJ, Carpenter WT. On the methods and theory of reliability. J Nerv Ment Dis 1976; 163: 307-317.
5. Bartko JJ. Some issues for consideration in multi-site and international reliability studies. En M Moscarelli, A Rupp and N Sartorius
(eds), Mental Health Economics and Health Policies, vol I: Schizophrenia. Chichester: Wiley & Sons 1996, 113-121.
6. Bech P, Kastrup M, Rafaelsen OJ. Mini compendium of rating scales for states of anxiety, depression, mania, schizophrenia with
corresponding DSM-III syndromes. Acta Psychiatr. Scand 1986; 73 Suppl: 326.
7. Bech P, Malt UF, Dencker SJ, Ahlfors UG, Elgen K, Lewander T, Lundell A, Simpson GM, Lingjaerde O (eds). Scales for assess-
ment of diagnosis and severity of mental disorders. Acta Psychiatrica Scandinavica 1993; 87 (Suppl. 372).
8. Brislin RW. Back-translation forcross-cultural research. Journal of cross-cultural Psychology 1970; 1 (3): 185-216.
9. Buchanan RW, Carpenter WT. Domains of psychopathology. An approach to the reduction of heterogeneity in Schizophrenia. J
Nerv Ment Dis 1994; 182: 193-204.
10. Costello CG. Advantages of the symptom approach to schizophrenia. En: Symptoms of schizophrenia. CG Costello (ed). John Wi-
ley & Sons, New York: 1994; 1-26.
11. Czobor P, Bitter I, Volavka J. Relationship between the Brief Psychiatric Rating Scale and the Scale for the Assessment of Negative
Symptoms: A study of their correlation and redundancy. Psychiatry Research 1991; 36: 129-139.
12. Feinstein AR. Clinical epidemiology. WB Saunders, Philadelphia 1985.
13. Fenton W, McGlashan TH. Testing systems for assessment of negative symptoms in schizophrenia. Arch Gen Psychiatry 1991; 49:
179-184.
14. Flaherty JA, Gaviria FM, Pathak D, Mitchell T, Wintrob R, Richman JA, Birz S. Developing instruments for cross-cultural psychiatric
research. J Nerv Ment Dis 1988; 176: 257-263.
15. García-Cueto E. Introducción a la psicometría. Siglo XXI, Madrid 1993.
16. Hernández-Aguado I, Porta M, Miralles M, García-Benavides F, Bolúmar F. La cuantificación de la variabilidad en las observaciones
clínicas. Medicina Clínica (Barcelona) 1990; 95: 424-429.
17. Hirst M. Multidimensional representation of disablement: A qualitative approach. In Quality of Life: Perspectives and Policies. S
Baldwin, C Godfrey, C Propper (eds). Routledge, London: 1990; 72-83.
18. Israel L, Kozarevic D, Sartorius N. Source book for the geriatric assessment: I. Evaluation in gerontology. World Health Organiza-
tion, Karger, Basel 1984.
19. Karnofsky DA, Burchenal JH. The clinical evaluation of Chemotherapeutic agents. En: Evaluation of chemotherapeutic agents. Co-
lumbia University Press, New York: 1949.
20. Kibel DA, Laffont I, Liddle PF. The composition of thenegative syndrome ofchronic schizophrenia. British Journal of Psychiatry
1993; 162: 744-750.
21. Kind P. Issues in the design and construction of a quality of life measure. En: Quality of Life: Perspectives and Policies. S Baldwin, C
Godfrey, C Propper (eds). Routledge, London: 1990; 63-71.
22. Kramer MS, Feinstein AR. Clinical biostatistics: LIV. The biostatistics of concordance. Clin Pharmacol Ther 1981; 29: 111-123.
23. Liddle PF. Schizophrenic syndromes, cognitive performance and neurological dysfunction. Psychological Medicine 1987; 17: 49-
57.
24. Likert R: A technique for measurement of attitudes. Archives of Psychology 1932; 140: 1-55.
25. Martínez-Arias R. Psicometría: Teoría de los tests psicológicos y educativos. Editorial Síntesis, Madrid: 1995.
26. McDowell I, Newell C. Measuring health: A guide to rating scales and questionnaires. Oxford University Press, Oxford: 1987.
27. Meehl P, Golden RR. Taxonometric methods. En: Handbook of research methodology in clinical psychology. PC Kendall, JN But-
cher (eds.) Wiley & Sons, New York: 1982.
28. Mezzich JE (Dir). Clinical Care and Information Systems in Psychiatry. Washington: American Psychiatric Press, 1986.
29. Muñiz J. Teoría clásica de los test. Ediciones Piramide, Madrid: 1992.

145
TRATADO DE PSIQUIATR A

30. Muthen BO, Hasin D, Wisnicki K. Factor analysis of ICD-10 symptom items in the 1988 National Health Interview Survey on Al-
cohol Dependence. Addiction 1993i; 88; 1071-1077.
31. Muthen BO, Grant B, Hasin D. The dimensionality of alcohol abuse and dependence: Factor analysis of DSM-III-R and proposed
DSM-IV criteria in the 1988 National Health Interview Survey. Addiction 1993ii; 88: 1079-1090.
32. Pull CB, Wittchen HU. The CIDI, SCAN, and IPDE: Structured diagnostic interviews for ICD-10 and DSM-III-R. European Psy-
chiatry 1991; 6: 227-285.
33. Rasch G. Probabilistic models for some intelligence and attainment tests. University of Chicago Press, Chicago, 1980.
34. Room R, Janca A, Bennet LA, Schmidt L, Sartorius N. WHO cross-cultural aapplicability research on diagnosis and assessment of
substaance use disorders: an overview of methods and selected results. Addiction 1996; 91: 199-220.
35. Salvador-Carulla L, Roca M. Instrumentos de evaluación subjetiva en Salud Mental. Actas Luso-Esp Neurol Psiquiatr 1995; 23, 2:
1-9.
36. Salvador-Carulla L, Huete T, Hernán MA. Validación del Indice de Bienestar General enpacientes con depresión mayor. En “Avan-
ces en depresión”. M Gutiérrez, J Ezcurra y P Pichot (eds). Ediciones en Neurociencias, Barcelona: 1996.
37. Salvador-Carulla L. Assessment of instruments in psychiatry: Description and psychometric properties. En: Mental Health Outcome
Measures, G. Thornicroft & M. Tansella (eds.). Berlin: Springer, 1996; 189-206.
38. Siegel S. Non-parametric statistics for behavioral sciences. New York: McGraw-Hill, 1966.
39. Somoza E. Eccentric diagnostic tests: Redifining sensitivity and specificity. Medical Decision Making 1996; 16: 15-23.
40. Strang J, Bradley B, Stockwell T. Assessment of drug and alcohol use. En C. Thompson, ed. The instruments of psychiatric rese-
arch. Chichester: John Wiley & Sons, 1989; 211-232.
41. Stromgren E. The lexicon and issues in the relation of psychiatric concepts and terms. En International classification in psychiatry.
JE Mezzich, M von Cranach (eds.). Cambridge: Cambridge University Press, 1988; 175-179.
42. Thiemann S, Csernansky JG, Berger P. Rating scales in research: The case of negative symptoms. Psychiatry Research 1987; 20:
47-55.
43. Thompson C (Dir.). The instruments of psychiatric research. John Wiley & Sons, Chichester: 1989.
44. Vázquez-Barquero JL (Dir.). SCAN. Cuestionarios para la evaluación clínica en psiquiatría. Meditor, Madrid: 1993.
45. Ware JE. Measuring health and functional status in mental health services research. CA Taube, D Mechanic y A Hohmann (eds.).
Department of Health & Human Services, Washington: 1989.
46. Ware JE Jr., Sherbourne CD: The MOS 36-item short form health survey (SF-36): I. Conceptual framework and item selection. Me-
dical Care 1992; 30: 473-483.
47. Weltzer S. Medición de las enfermedades mentales: Evaluación psicométrica para los clínicos. Ancora, Barcelona: 1991.
48. Wittchen H-U, Essau CA. Assessment of symptoms and psychosocial disabilities in primary care. En: Psychological disorders in ge-
neral medical settings. Dir. por N. Sartorius, D. Goldberg, G. de Girolamo, J. Costa e Silva, Y. Lecrubier y U. Wittchen. Hogrefe &
Huber Publ., Toronto: 1990; 111-136.
49. Van den Wollenberg AL: Redundancy analysis: An alternative to canonical correlation analysis. Psychometrika 1977; 42: 207-219.

146

También podría gustarte