Está en la página 1de 10

Validacin de escalas de medicin

CONCEPTOS BSICOS SOBRE


VALIDACIN DE ESCALAS
Ricardo Snchez Pedraza*
Carlos Gmez Restrepo**
Este artculo proporciona una introduccin general para la evaluacin y
validacin de escalas en la prctica clnica e ilustra los pasos para este proceso.
Se discuten en el artculo los conceptos relacionados con la seleccin de los
tems, la utilidad y los diferentes tipos de confiabilidad y validez.
Palabras clave: Escalas, Validacin, Guas.
This article provides a general introduction to evaluate and validate scales in the
clinical practice and shows the steps of this process. Concepts related with the
selection of items, usefulness and different types of reliability and validity are
discussed.
Keywords: Scales, Validation, Guidelines

INTRODUCCIN
La medicin es una actividad fundamental dentro del desarrollo del conocimiento. En general, cada rea de la ciencia desarrolla sus propios mtodos
de medicin. Medir es darle a cada una de las unidades de observacin un
valor, o colocarla en una categora dentro de un grupo de valores que
representan el aspecto de inters, de acuerdo con unas reglas que se han
establecido previamente. En nuestro caso, las unidades de observacin
generalmente son pacientes. De este modo, la medicin de variables implica
clasificar las personas en categoras o colocarlas en un punto determinado de
una dimensin.(1)
La medicin de la salud de un individuo puede basarse en tests diagnsticos
o de laboratorio, o puede centrarse en indicadores sobre los cuales una
persona (el mdico o el paciente) hace una apreciacin (2) . Esos indicadores,
exmenes o test constituyen instrumentos de medicin.
En general, en un instrumento de medicin deben evaluarse las siguientes
caractersticas (3,4) :
1.
Validez: Indica si el resultado de la medicin corresponde a la realidad
del fenmeno que se est midiendo. Por ejemplo, un test que diga que un
paciente est deprimido no tendr validez si lo que en realidad sufre el
*
**

Ricardo Snchez Pedraza. Profesor Asociado Departamento de Psiquiatra, Centro de Epidemiologa


Clnica Ral Paredes Manrique, Facultad de Medicina, Universidad Nacional de Colombia.
Carlos Gmez Restrepo. Profesor Asistente Departamento de Psiquiatra, Unidad de Epidemiologa
Clnica y Bioestadstica, Facultad de Medicina, Pontificia Universidad Javeriana.

Rev. Col. Psiquiatra, Vol. XXVII, No. 2, 1998.

121

Gmez C. y Snchez R.

paciente es una demencia. Se puede decir que un instrumento no es vlido


cuando mido una cosa y me dice otra. Para denotar esta caracterstica
tambin se usa el trmino exactitud.
2.
Confiabilidad: Se refiere a que las mediciones sucesivas de un fenmeno estable deben dar los mismos resultados. Por ejemplo, no ser confiable
una escala que, luego de aplicarse dos veces en muy corto tiempo, reporta
niveles diferentes de depresin en un paciente cuyo trastorno se mantiene
estable y que no est recibiendo ningn tratamiento. En otras palabras, en este
caso, cada vez que mido resulta algo diferente. Tambin se denomina a
esta caracterstica Precisin o Reproducibilidad.
3.
Adecuada amplitud de rango: Hace referencia a la capacidad de un
instrumento para medir todas las caractersticas de inters de un fenmeno.
Por ejemplo, un test para medir la existencia de psicosis que slo tenga en
cuenta los sntomas positivos o productivos, no servir para diagnosticar
cuadros que tengan solo sntomas negativos o mixtos.
4.
Sensibilidad al cambio: Se refiere a la capacidad para encontrar
diferentes niveles de medicin de acuerdo a la variacin del fenmeno que se
est observando. Por ejemplo, una escala para medir sntomas psicticos ir
mostrando progresivamente puntajes ms bajos en la medida en que el
paciente responde a un tratamiento farmacolgico.
5.
Utilidad: Hace referencia a la aplicabilidad del instrumento de medicin
en condiciones reales. Un instrumento que necesite mucho tiempo para
aplicarse, o que solo pueda ser aplicado por personal altamente entrenado o
que sea muy difcil de calificar, no resulta til.
Uno de los instrumentos de medicin ms ampliamente utilizados en medicina, y especficamente en psiquiatra, son las escalas. La aparicin de
definiciones operativas de varias enfermedades psiquitricas produjo inicialmente listados de sntomas que podan representarse como combinaciones
numricas binarias. Ms tarde, apareci la necesidad de representar numricamente las graduaciones de las variables observadas. Esto llev al desarrollo de las escalas (5) .
Una escala puede definirse como una coleccin de tems que pretenden
revelar diferentes niveles de determinadas caractersticas (variables) no
observables directamente. Desarrollamos escalas cuando queremos medir
fenmenos que creemos que existen pero que no podemos evaluar directamente. Por ejemplo, hablamos de Depresin, o de Ansiedad o de Esquizofrenia para explicar determinados comportamientos que observamos. Estos
constructos, denominados diagnsticos, surgen de las teoras con las que
explicamos el mundo (6) .
Para ilustrar lo anterior tomaremos el caso de la depresin: este sndrome es
un constructo terico que posee diferentes componentes, tambin llamados
campos, niveles o dominios. Algunos de los dominios que componen
el sndrome depresivo son: el afecto triste, el trastorno motor, las alteraciones
de fenmenos autnomicos como el sueo y el apetito, y el compromiso de
las funciones cognoscitivas, por citar solo algunos. Para evaluar cada uno de
estos dominios diseamos unas estrategias de exploracin especficas que
denominamos tems (tabla #1).
122

Rev. Col. Psiquiatra, Vol. XXVII, No. 2, 1998.

Validacin de escalas de medicin

Tabla 1.
ESTRUCTURA DE UNA ESCALA
Sndrom e

Dom inios

Items

se fatiga fcilmente?

Alteracin motora

demora ms para hacer las


cosas?
Nota su cuerpo muy
pesado?

Depresin

llora con mayor frecuencia?


Afecto triste
los dems lo notan triste?
ha perdido el apetito?
Funciones autnomicas
ha perdido el sueo?

Cuando se realiza una medicin con escalas se persiguen dos propsitos (7) :

Incluir un individuo en una categora: pretende detectar diferencias entre


las personas en un momento dado, como cuando se efectan estudios
de corte transversal. Por ejemplo, aplico una escala de MAST (8) o CAGE
(9)
para determinar la prevalencia de uso patolgico de alcohol en una
poblacin. Aqu slo me interesa saber si las personas tienen o no una
puntuacin que indique dificultades con el alcohol.

Establecer la magnitud del cambio a lo largo del tiempo: este tipo de


mediciones son tiles cuando queremos efectuar el seguimiento de la
condicin clnica de un paciente y analizar cmo se modifica sta a lo
largo del tiempo.

VALIDACIN DE ESCALAS
Casi todas las escalas que podemos utilizar en Psiquiatra se encuentran en
ingls o en otros idiomas diferentes del espaol. Esto hace que, si queremos
aplicar uno de esos instrumentos, debamos plantear dos opciones:

Desarrollar una nueva escala a partir de nuestros pacientes.

Usar las escalas disponibles en otros idiomas haciendo la respectiva


traduccin y los ajustes pertinentes.

En el primer caso debemos enfrentar un proceso que consume mucho


tiempo y que es costoso. En el segundo, debemos tener en cuenta que la sola
traduccin no es suficiente ya que existen diferencias a nivel idiomtico y
cultural que pueden alterar el ajuste del proceso de medicin que traa la
escala original (10) .
Rev. Col. Psiquiatra, Vol. XXVII, No. 2, 1998.

123

Gmez C. y Snchez R.

Tabla 2
PASOS PARA LA VALIDACIN DE UNA ESCALA
1. Seleccionar el mejor instrumento posible para medir el fenmeno
2. Traduccin (Ingls - Espaol y posteriormente Espaol - Inggls)
3.1 Evaluar los tems de la escala
3. Prueba piloto
3.2 Evaluar la utilidad de la escala
4. Evaluar confiabilidad
5. Evaluar validez
6. Evaluar sensibilidad al cambio

Hay diferentes razones que justifican que se efecte la validacin de una


escala:

Se requiere un instrumento de medida que haya sido suficientemente


probado, ya sea para diagnstico, pronstico o seguimiento.

Las diferencias en lenguas y culturas tambin pueden afectar las


manifestaciones de la enfermedad o la manera en que se aplica o
responde un instrumento.

Se debe tratar de generar instrumentos universales de medicin que sean


comprensibles, fciles de aplicar, vlidos y reproducibles

PROCESO DE VALIDACIN DE UNA ESCALA


En el proceso de validacin de una escala se recomiendan los siguientes
pasos (tabla # 2):
1.

Seleccin del instrumento ms adecuado

Se debe escoger el instrumento que mida mejor el fenmeno que se est


estudiando y que incorpore los avances ms recientes en la conceptualizacin
de lo que mido. No se justifica desperdiciar tiempo validando un instrumento
que tiene limitaciones que ya han sido superadas por otros.
2.

Traduccin

Se recomienda que al instrumento original se le hagan por lo menos tres


traducciones independientes por parte de personal calificado para tal fin (11,14).
Las diferentes traducciones deben ser entonces analizadas por un comit de
revisin que selecciona la versin ms adecuada o ensambla una nueva, con
base en las traducciones disponibles. Hasta este momento se tiene, por
ejemplo, una traduccin de una escala del ingls al espaol.
El siguiente paso es que la versin seleccionada nuevamente se traduce a su
idioma original, es decir, se vuelve a traducir del espaol al ingls. Se
recomiendan por lo menos tres de estas traducciones en sentido inverso
(idioma original traduccin idioma original). Quienes hacen la traduccin
124

Rev. Col. Psiquiatra, Vol. XXVII, No. 2, 1998.

Validacin de escalas de medicin

en sentido inverso no deben tener conocimiento de la versin original de la


escala. El comit de revisin evala las nuevas traducciones y selecciona la
versin ms adecuada o ensambla una nueva con base en las traducciones
disponibles. La idea con este nuevo trabajo es que la escala original (en ingls)
y la traduccin en sentido inverso (tambin en ingls) sean lo ms parecidas
posible. Si se encuentra mucha diferencia entre las dos versiones se debe
buscar un consenso entre los traductores o consultar la opinin del autor de la
escala original.
El comit de revisin debe ser un grupo interdisciplinario de por lo menos 5
personas. Adems de hacer la comparacin entre las distintas traducciones,
se debe encargar de hacer el ajuste de los tems teniendo en cuenta las
particularidades culturales de la poblacin donde se aplicar el instrumento
(12)
.
3.

Prueba piloto:

A un nmero reducido de pacientes, que pueden ser 15 20, y que pueden


tener patologas diferentes de la que se va a medir, se les aplica el instrumento
traducido buscando evaluar los tems y la utilidad de la escala. En la prueba
piloto se evalan los tems y se evala la utilidad de la escala.
3.1. Evaluacin de los tems: Se realiza teniendo en cuenta los siguientes
aspectos (13) :
3.1.1. Comprensin de los tems: por estar acostumbrados a utilizar el
lenguaje mdico no nos percatamos de que usamos cotidianamente trminos que el comn de la gente no entiende. Incluso dentro del mismo campo
de las especialidades mdicas se dan dificultades de comprensin. Si a un
mdico no psiquiatra se le pregunta sobre sus respuestas empticas probablemente pensar en lo simptico que debe ser ante sus pacientes. Para
mejorar la comprensin de los tems se le puede pedir a los pacientes y a
quienes aplican la escala que expresen con sus propias palabras lo que
entienden con cada uno de ellos.
3.1.2. Ambigedad de los tems: las palabras como ltimamente, recientemente, frecuentemente, pueden ser interpretadas de muy distintas
maneras por lo cual deben evitarse en la construccin de escalas. El desconocimiento de las caractersticas socioculturales del paciente tambin puede
reflejarse en preguntas ambiguas. Por ejemplo, cuando se pregunta a un
paciente si presenta dificultades para manejar su auto, este puede contestar
que no simplemente porque no tiene vehculo.
3.1.3. Presencia de preguntas con carga afectiva: se recomienda que en la
construccin de los tems se utilice un tono neutral. Preguntas como: Ha
experimentado intenciones perversas hacia sus compaeras de trabajo?
obviamente no se respondern de una manera objetiva.
3.1.4. Frecuencia de respuesta: si a un tem es respondido en una direccin
determinada ms del 95% de las veces, el tem no es til. Puede pensarse que
si se asume la respuesta sin necesidad de aplicar el tem se tiene informacin
ms precisa ya que pueden evitarse errores de medicin surgidos del
descuido, el intento de engao o la falta de comprensin de la pregunta
(figura 1).
Rev. Col. Psiquiatra, Vol. XXVII, No. 2, 1998.

125

Gmez C. y Snchez R.

3.1.5. Restriccin del rango de respuesta: si se colocan demasiadas opciones


de respuesta es posible que sistemticamente los evaluados no escojan las
opciones localizadas en los extremos por un fenmeno que se ha denominado
sesgo de aversin a los extremos (figura 1).
3.2. Evaluacin de la utilidad de la escala: deben tenerse en cuenta tres
aspectos:
3.2.1. Tiempo para diligenciar el instrumento: si la aplicacin del instrumento
se extiende demasiado puede hacer que muchos pacientes e incluso el
personal que lo aplica, no colaboren suficientemente.
3.2.2. Necesidad de entrenamiento: idealmente una escala debe poder ser
aplicada por personal sin un entrenamiento especial. Los requerimientos de
habilidades especiales limitan la aplicabilidad de la escala.
3.2.3. Facilidad de calificacin: los mtodos de calificacin complicados, que
requieren algoritmos matemticos complejos e incluso programas de comFigura 1
FRECUENCIA DE RESPUESTA Y RESTRICCIN DEL RANGO EN TEMS
SI

De acuerdo y convencido

De acuerdo pero no convencido

Ms de acuerdo que en desacuerdo

Ni de acuerdo ni en desacuerdo

Ms en desacuerdo que de acuerdo

En desacuerdo pero no convencido

En desacuerdo y convencido

NO
A

Las respuestas se indican con el signo

A. Frecuencia de respuesta mayor del 95% en un sentido. El tem puede obviarse.

B: Rango de calificacin de las respuestas muy amplio. Pueden eliminarse las


categoras extremas en las cuales no hay respuestas.

126

Rev. Col. Psiquiatra, Vol. XXVII, No. 2, 1998.

Validacin de escalas de medicin

putacin, hacen que la escala no pueda ser fcilmente evaluable y que pierda
utilidad.
4.

Pruebas de confiabilidad

Si a una escala no se le ha hecho evaluacin de confiabilidad no se debe


utilizar. Para evaluar la confiabilidad se tienen en cuenta tres aspectos:
4.1. Consistencia Interna: Los tems que miden un mismo dominio deben
estar ms correlacionados entre si que los tems que miden diferentes
dominios. Tener un puntaje de correlacin muy alto entre tems nos dice dos
cosas:

Los tems estn midiendo un mismo fenmeno.


Con uno de los tems basta para medir el fenmeno pues los dems
estn dando informacin redundante.

De acuerdo con esto, se debe buscar un punto de correlacin preciso que nos
indique que los tems estn midiendo dominios diferentes del mismo fenmeno. Este punto se ubica con medidas de consistencia interna, tambin
llamadas medidas de homogeneidad. Si la medida de homogeneidad es
alta, los tems son redundantes; si es baja, los tems probablemente no estn
midiendo el mismo fenmeno. Las medidas de homogeneidad ms utilizadas son la Frmula 20 de Kuder-Richardson (KR-20) y el Alfa de Cronbach ().
Las frmulas para su clculo son (6,14):

KR - 20 = n/n-1(1- piqi/T2)

= n/n-1(1- i2/sT2)

Los trminos de las ecuaciones anteriores son.


n = nmero de pacientes a quienes se aplic la escala.
pi = proporcin de pacientes que respondieron afirmativamente la pregunta
isima. Si el 40% la respondieron afirmativamente pi ser igual a 0.4.
qi = complemento de pi (1-pi). En el ejemplo que estamos manejando qi es
igual a 1-pi (1-0.4 = 0.6).
2 = Varianza de cada tem individual.
T 2 = Varianza total de la escala.
Las medidas de homogeneidad deben estar entre 0.7 y 0.9.
4.2. Confiabilidad Test-Retest
Evala la estabilidad de la capacidad de medicin de un instrumento a lo largo
del tiempo. Para evaluar este aspecto se deben hacer mediciones repetidas
a los mismos pacientes. Debe analizarse muy bien el tiempo transcurrido
entre las evaluaciones pues, si es muy largo, los puntajes pueden resultar muy
diferentes porque hay un cambio en la condicin que se est midiendo, y si
es muy corto, los puntajes pueden resultar casi iguales porque el evaluador o
el evaluado todava recuerdan las respuestas dadas en la evaluacin anterior.
Se mide con Coeficientes de Confiabilidad como el Coeficiente de Correlacin de Pearson (15,16) y el Coeficiente de Correlacin Intra-clase (), entre
otros. El ms utilizado para medir la Confiabilidad Test-Retest es el ltimo, ya
que el de Pearson no es til cuando hay ms de dos observadores y, aunque
mide bien el nivel de asociacin, no mide el grado de acuerdo.
Rev. Col. Psiquiatra, Vol. XXVII, No. 2, 1998.

127

Gmez C. y Snchez R.

El deriva su definicin matemtica del modelo de anlisis de varianza de


mediciones repetidas (ANOVA), segn el cual la varianza total se reparte entre
los observadores, los sujetos observados y un remanente de error (17) . Para
calcular el (15) se recomienda realizar con los datos un procedimiento de
ANOVA de mediciones repetidas. Cualquier programa estadstico bsico
puede agilizar este procedimiento.
En la tabla de ANOVA se ubican la varianza intersujetos (MS Intersujetos) y la
varianza intrasujetos que corresponde al cuadrado medio intrasujetos (MS
Intrasujetos), usualmente denotado como MS error o MS residual. La varianza
entre sujetos (VES)se calcula as:
VES = MS intersujetos - MS intrasujetos/ # rplica/sujeto
El nmero de rplicas indica el nmero de aplicaciones de la escala a cada
sujeto. Con estos datos ya se puede calcular una de las distintas versiones del
, que es una tasa de la varianza entre sujetos, dividida por la suma de las
varianzas inter e intrasujetos:
= VES/ VES+MSerror
Un valor de 0.85, por ejemplo, quiere decir que el 85% de la varianza en los
puntajes depende de la verdadera varianza entre los sujetos. Los valores de
entre 0.7 y 0.8 son aceptables. Por encima de 0.8 se consideran buenos (13).
4.3.

Confiabilidad Interevaluador:

Mide qu tan similares son los puntajes asignados por diferentes evaluadores
a un mismo fenmeno. Hay que tener en cuenta que si los evaluadores
entrevistan al paciente por separado tendrn puntajes de confiabilidad ms
bajos que en el caso de entrevistas nicas con presencia simultnea de varios
evaluadores. Tambin se mide con el que, idealmente, debe estar alrededor de 0.8. No son aceptables valores menores de 0.6. Se recomienda que
todos los evaluadores que participen en las mediciones tengan el mismo nivel
acadmico o de entrenamiento para aplicar la escala.
5.

Pruebas de validez

La validez tiene los siguientes tres componentes:


5.1. Validez de apariencia
Hace referencia a si los tems realmente miden lo que deben medir. Este tipo
de validez no tiene impacto sobre la capacidad de medicin de la escala y
simplemente busca lograr mayor aceptabilidad entre los que la responden (18).
Si un paciente deprimido nota que lo que se le est preguntando realmente
tiene que ver con su padecimiento, colaborar ms y dar respuestas ms
vlidas. Para evaluar este tipo de validez se recurre a un grupo conformado
por pacientes y por expertos en el rea. Este grupo concepta si la escala, en
apariencia, mide la cualidad que se supone se va a evaluar.
5.2. Validez de contenido
Busca que cada uno de los dominios que conforman el rea que se est
midiendo est representado por algn tem. Los dominios de mayor peso
generalmente tienen un mayor nmero de tems. Para la valoracin de este
128

Rev. Col. Psiquiatra, Vol. XXVII, No. 2, 1998.

Validacin de escalas de medicin

tipo de validez se recurre a un grupo de expertos quienes se cercioran de que


cada dominio est adecuadamente representado. La gran mayora de los
sndromes se construyen sobre estructuras tericas, por lo cual algunos
dominios son situaciones que se piensa pueden representar el fenmeno que
queremos medir. Por ejemplo, algn terico puede pensar que en un
sndrome depresivo uno de los dominios es la cantidad de lgrimas arrojadas
durante un da. La forma de medir este dominio sera contando el nmero de
pauelos utilizados durante el da. Como se ve, el nmero de pauelos no hace
parte del sndrome depresivo pero es una medida que, tericamente explora
a uno de sus dominios. El uso de este tipo de mediciones intermediarias tiene
que ver con lo que se ha denominado validez de constructo
constructo.
5.3. Validez de criterio
Para establecer este tipo de validez debe compararse el puntaje de la escala
que se est validando con un Patrn de Oro
Oro, que generalmente es una escala
ms antigua y reconocida por su buena calidad de medicin. A este procedimiento tambin se le llama validez concurrente
concurrente. El mtodo estadstico de
comparacin es el Coeficiente de Correlacin de Pearson. Si el coeficiente es
mayor de 0.8 no tiene sentido aplicar la escala nueva porque funciona casi
igual a la antigua, a no ser que resulte ms til (ms fcil de aplicar o de
calificar, ms barata, etc). Si es menor de 0.3 tampoco sirve pues probablemente est midiendo un fenmeno diferente al que se quiere evaluar. En
ciertos casos el patrn de oro es un evento del futuro. Por ejemplo, si diseo
una escala para predecir no adherencia al tratamiento se debe correlacionar
el resultado de la escala con el desarrollo del evento en algn punto en el futuro.
En este caso se habla de validez predictiva.
6.

Evaluacin de sensibilidad al cambio

Poder medir una condicin cambiante implica que el instrumento de medida


pueda responder adecuadamente a tales cambios. Estas situaciones son
comunes en la prctica clnica cuando queremos evaluar el efecto de un
tratamiento u observar la evolucin de determinada condicin a lo largo del
tiempo. En tales casos aplicamos una escala repetidamente en un mismo
sujeto lo cual produce resultados que se comparan matemticamente mediante anlisis de covarianza. Para la descripcin de estas tcnicas remitimos
al lector a textos especializados en esta rea (19,20,21) .

TAMAO DE LA MUESTRA PARA VALIDACIN DE ESCALAS


En general, el punto crtico para establecer el nmero de sujetos necesarios
para la validacin de la escala est dado por la evaluacin de la confiabilidad
del instrumento.
El estimativo de la muestra depender del nivel de significacin , del poder
(1-), del nmero de observaciones y del valor de que se trabaje en la
hiptesis nula. Entre mayor sea el nmero de mediciones por sujeto, menor
ser el tamao de la muestra (22) . La seleccin del valor crtico de depende
de tomar un valor mnimo que se considere aceptable. Los anteriores
parmetros se ubican sobre grficas de computacin especficas que permiten calcular el nmero de sujetos de la muestra (20).
Rev. Col. Psiquiatra, Vol. XXVII, No. 2, 1998.

129

Gmez C. y Snchez R.

REFERENCIAS

Kleinbaum DG, Kupper LL, Morgenstern H. Epidemiologic Research. Principles and


Quantitative Methods. New York: Van Nostrand Reinhold, 1982.

McDowell I, Newell C. The Theoretical and Technical Foundations of Health


Measurement. From Measuring Health, Oxford University Press, 1987.

Fletcher RH, Fletcher SW, Wagner EH. Clinical Epidemiology. The Essentials. 3rd
edition. Baltimore: Williams & Wilkins, 1996.

Knapp RG, Clinton Miller, III. Clinical Epidemiology and Biostatistics. Baltimore:
Williams & Wilkins, 1992.

Guimn J, Mezzich JE, Berrios GE. Diagnstico en Psiquiatra. Barcelona: Salvat,


1988.

DeVellis RF. Scale Development. Theory and Applications. Newbury Park: Sage
Publications, 1991.

Guyatt GH, Kirshner B, Jaeschke R. Measuring Health Status: What are the
Necessary Measurement Propierties?. J Clin Epidemiol 1992;45:1341-1345.

Selzer M. The Michigan Alcoholism Screening Test. The Quest for a New Diagnostic
Instrument. Am J Psychiatry 1871;127:89-94.

Ewing J. Detecting Alcoholism. The CAGE Questionary. JAMA 1984;252:1905-1907.

10

Guillemin F, Bombardier C, Beaton D. Cross-Cultural Adaptation of Life Measures:


Literature Review and Proposed Guidelines. J Clin Epidemio 1993;46:1417-1432.

11

Berkanovic E. The Effect of Inadecuate Language Translation on Hispanics Respon


ses to Health Surveys. Am J Public Health 1980;70:1273-1276.

12

Guyatt GH. The Philosophy of Health-Related Quality of Life Translation. Quality of Life
Research1993;2:461-465.

13

Streiner DL. A Checklist for Evaluating the Usefulness of Rating Scales. Can J
Psychiatry 1993;38:140-148.

14

Streiner D, Norman GR. Health Measurement Scales. A Practical Guide to Their


Development and Use. Oxford: Oxford University Press, 1995.

15

Rosner B. Fundamentals of Biostatistics. 4th ed. Belmont: Duxbury Press, 1994.

16

Kleinbaum DG, Kupper LL, Muller KE. Applied Regression Analysis and Other
Multivariable Methods. 2nd ed . Belmont: Duxbury Press, 1988.

17

Kramer M, Feinstein A. Biostatistics of Concordance. Clin Pharm Therapy ;1981 239255.

18

Feinstein A. The Theory and Evaluation of Sensibility. In: Clinimetrics. Alvan Feinstein.
Yale University Press, 1987.

19

Dawson-Saunders B, Trapp GR. Bioestadstica Mdica. Mxico: Editorial El Manual


Moderno, 1993.

20

Norman GR, Streiner DL. Bioestadstica. Madrid: Mosby/Doyma Libros, 1996.

21

Daniel WW. Bioestadstica. Base para el Anlisis de las Ciencias de la Salud. Mxico:
Editorial Limusa SA, 1991.

22

Donner A, Eliasziw M. Sample Size Requirements for Reliability Studies. Statistics in


Medicine 1987:441-448.

130

Rev. Col. Psiquiatra, Vol. XXVII, No. 2, 1998.