Está en la página 1de 10

Validación de escalas de medición

CONCEPTOS BÁSICOS SOBRE


VALIDACIÓN DE ESCALAS

Ricardo Sánchez Pedraza*


Carlos Gómez Restrepo**

Este artículo proporciona una introducción general para la evaluación y


validación de escalas en la práctica clínica e ilustra los pasos para este proceso.
Se discuten en el artículo los conceptos relacionados con la selección de los
ítems, la utilidad y los diferentes tipos de confiabilidad y validez.
Palabras clave: Escalas, Validación, Guías.

This article provides a general introduction to evaluate and validate scales in the
clinical practice and shows the steps of this process. Concepts related with the
selection of items, usefulness and different types of reliability and validity are
discussed.
Keywords: Scales, Validation, Guidelines

INTRODUCCIÓN
La medición es una actividad fundamental dentro del desarrollo del conoci-
miento. En general, cada área de la ciencia desarrolla sus propios métodos
de medición. Medir es darle a cada una de las unidades de observación un
valor, o colocarla en una categoría dentro de un grupo de valores que
representan el aspecto de interés, de acuerdo con unas reglas que se han
establecido previamente. En nuestro caso, las unidades de observación
generalmente son pacientes. De este modo, la medición de variables implica
clasificar las personas en categorías o colocarlas en un punto determinado de
una dimensión.(1)
La medición de la salud de un individuo puede basarse en tests diagnósticos
o de laboratorio, o puede centrarse en indicadores sobre los cuales una
persona (el médico o el paciente) hace una apreciación (2) . Esos indicadores,
exámenes o test constituyen instrumentos de medición.
En general, en un instrumento de medición deben evaluarse las siguientes
características (3,4) :
1. Validez: Indica si el resultado de la medición corresponde a la realidad
del fenómeno que se está midiendo. Por ejemplo, un test que diga que un
paciente está deprimido no tendrá validez si lo que en realidad sufre el

* Ricardo Sánchez Pedraza. Profesor Asociado Departamento de Psiquiatría, Centro de Epidemiología


Clínica Raúl Paredes Manrique, Facultad de Medicina, Universidad Nacional de Colombia.
** Carlos Gómez Restrepo. Profesor Asistente Departamento de Psiquiatría, Unidad de Epidemiología
Clínica y Bioestadística, Facultad de Medicina, Pontificia Universidad Javeriana.

Rev. Col. Psiquiatría, Vol. XXVII, No. 2, 1998. 121


Gómez C. y Sánchez R.

paciente es una demencia. Se puede decir que un instrumento no es válido


cuando «mido una cosa y me dice otra». Para denotar esta característica
también se usa el término exactitud.
2. Confiabilidad: Se refiere a que las mediciones sucesivas de un fenóme-
no estable deben dar los mismos resultados. Por ejemplo, no será confiable
una escala que, luego de aplicarse dos veces en muy corto tiempo, reporta
niveles diferentes de depresión en un paciente cuyo trastorno se mantiene
estable y que no está recibiendo ningún tratamiento. En otras palabras, en este
caso, «cada vez que mido resulta algo diferente». También se denomina a
esta característica «Precisión» o «Reproducibilidad».
3. Adecuada amplitud de rango: Hace referencia a la capacidad de un
instrumento para medir todas las características de interés de un fenómeno.
Por ejemplo, un test para medir la existencia de psicosis que sólo tenga en
cuenta los síntomas positivos o productivos, no servirá para diagnosticar
cuadros que tengan solo síntomas negativos o mixtos.
4. Sensibilidad al cambio: Se refiere a la capacidad para encontrar
diferentes niveles de medición de acuerdo a la variación del fenómeno que se
está observando. Por ejemplo, una escala para medir síntomas psicóticos irá
mostrando progresivamente puntajes más bajos en la medida en que el
paciente responde a un tratamiento farmacológico.
5. Utilidad: Hace referencia a la aplicabilidad del instrumento de medición
en condiciones reales. Un instrumento que necesite mucho tiempo para
aplicarse, o que solo pueda ser aplicado por personal altamente entrenado o
que sea muy difícil de calificar, no resulta útil.
Uno de los instrumentos de medición más ampliamente utilizados en medi-
cina, y específicamente en psiquiatría, son las escalas. La aparición de
definiciones operativas de varias enfermedades psiquiátricas produjo inicial-
mente listados de síntomas que podían representarse como combinaciones
numéricas binarias. Más tarde, apareció la necesidad de representar numé-
ricamente las graduaciones de las variables observadas. Esto llevó al desa-
rrollo de las escalas (5) .
Una escala puede definirse como una colección de ítems que pretenden
revelar diferentes niveles de determinadas características (variables) no
observables directamente. Desarrollamos escalas cuando queremos medir
fenómenos que creemos que existen pero que no podemos evaluar directa-
mente. Por ejemplo, hablamos de Depresión, o de Ansiedad o de Esquizofre-
nia para explicar determinados comportamientos que observamos. Estos
constructos, denominados diagnósticos, surgen de las teorías con las que
explicamos el mundo (6) .
Para ilustrar lo anterior tomaremos el caso de la depresión: este síndrome es
un constructo teórico que posee diferentes componentes, también llamados
«campos», «niveles» o «dominios». Algunos de los dominios que componen
el síndrome depresivo son: el afecto triste, el trastorno motor, las alteraciones
de fenómenos autónomicos como el sueño y el apetito, y el compromiso de
las funciones cognoscitivas, por citar solo algunos. Para evaluar cada uno de
estos dominios diseñamos unas estrategias de exploración específicas que
denominamos ítems (tabla #1).

122 Rev. Col. Psiquiatría, Vol. XXVII, No. 2, 1998.


Validación de escalas de medición

Tabla 1.
ESTRUCTURA DE UNA ESCALA

Síndrom e Dom inios Items

¿se fatiga fácilmente?

¿demora más para hacer las


Alteración motora
cosas?

¿Nota su cuerpo muy


Depresión pesado?

¿llora con mayor frecuencia?


Afecto triste
¿los demás lo notan triste?

¿ha perdido el apetito?


Funciones autónomicas
¿ha perdido el sueño?

Cuando se realiza una medición con escalas se persiguen dos propósitos (7) :
• Incluir un individuo en una categoría: pretende detectar diferencias entre
las personas en un momento dado, como cuando se efectúan estudios
de corte transversal. Por ejemplo, aplico una escala de MAST (8) o CAGE
(9)
para determinar la prevalencia de uso patológico de alcohol en una
población. Aquí sólo me interesa saber si las personas tienen o no una
puntuación que indique dificultades con el alcohol.
• Establecer la magnitud del cambio a lo largo del tiempo: este tipo de
mediciones son útiles cuando queremos efectuar el seguimiento de la
condición clínica de un paciente y analizar cómo se modifica ésta a lo
largo del tiempo.

VALIDACIÓN DE ESCALAS
Casi todas las escalas que podemos utilizar en Psiquiatría se encuentran en
inglés o en otros idiomas diferentes del español. Esto hace que, si queremos
aplicar uno de esos instrumentos, debamos plantear dos opciones:
• Desarrollar una nueva escala a partir de nuestros pacientes.
• Usar las escalas disponibles en otros idiomas haciendo la respectiva
traducción y los ajustes pertinentes.
En el primer caso debemos enfrentar un proceso que consume mucho
tiempo y que es costoso. En el segundo, debemos tener en cuenta que la sola
traducción no es suficiente ya que existen diferencias a nivel idiomático y
cultural que pueden alterar el ajuste del proceso de medición que traía la
escala original (10) .

Rev. Col. Psiquiatría, Vol. XXVII, No. 2, 1998. 123


Gómez C. y Sánchez R.

Tabla 2
PASOS PARA LA VALIDACIÓN DE UNA ESCALA

1. Seleccionar el mejor instrumento posible para medir el fenómeno

2. Traducción (Inglés - Español y posteriormente Español - Ingglés)

3.1 Evaluar los ítems de la escala


3. Prueba piloto
3.2 Evaluar la utilidad de la escala

4. Evaluar confiabilidad

5. Evaluar validez

6. Evaluar sensibilidad al cambio

Hay diferentes razones que justifican que se efectúe la validación de una


escala:
• Se requiere un instrumento de medida que haya sido suficientemente
probado, ya sea para diagnóstico, pronóstico o seguimiento.
• Las diferencias en lenguas y culturas también pueden afectar las
manifestaciones de la enfermedad o la manera en que se aplica o
responde un instrumento.
Se debe tratar de generar instrumentos universales de medición que sean
comprensibles, fáciles de aplicar, válidos y reproducibles

PROCESO DE VALIDACIÓN DE UNA ESCALA


En el proceso de validación de una escala se recomiendan los siguientes
pasos (tabla # 2):
1. Selección del instrumento más adecuado
Se debe escoger el instrumento que mida mejor el fenómeno que se está
estudiando y que incorpore los avances más recientes en la conceptualización
de lo que mido. No se justifica desperdiciar tiempo validando un instrumento
que tiene limitaciones que ya han sido superadas por otros.
2. Traducción
Se recomienda que al instrumento original se le hagan por lo menos tres
traducciones independientes por parte de personal calificado para tal fin (11,14).
Las diferentes traducciones deben ser entonces analizadas por un comité de
revisión que selecciona la versión más adecuada o ensambla una nueva, con
base en las traducciones disponibles. Hasta este momento se tiene, por
ejemplo, una traducción de una escala del inglés al español.
El siguiente paso es que la versión seleccionada nuevamente se traduce a su
idioma original, es decir, se vuelve a traducir del español al inglés. Se
recomiendan por lo menos tres de estas traducciones en sentido inverso
(idioma original – traducción – idioma original). Quienes hacen la traducción

124 Rev. Col. Psiquiatría, Vol. XXVII, No. 2, 1998.


Validación de escalas de medición

en sentido inverso no deben tener conocimiento de la versión original de la


escala. El comité de revisión evalúa las nuevas traducciones y selecciona la
versión más adecuada o ensambla una nueva con base en las traducciones
disponibles. La idea con este nuevo trabajo es que la escala original (en inglés)
y la traducción en sentido inverso (también en inglés) sean lo más parecidas
posible. Si se encuentra mucha diferencia entre las dos versiones se debe
buscar un consenso entre los traductores o consultar la opinión del autor de la
escala original.
El comité de revisión debe ser un grupo interdisciplinario de por lo menos 5
personas. Además de hacer la comparación entre las distintas traducciones,
se debe encargar de hacer el ajuste de los ítems teniendo en cuenta las
particularidades culturales de la población donde se aplicará el instrumento
(12)
.
3. Prueba piloto:
A un número reducido de pacientes, que pueden ser 15 ó 20, y que pueden
tener patologías diferentes de la que se va a medir, se les aplica el instrumento
traducido buscando evaluar los ítems y la utilidad de la escala. En la prueba
piloto se evalúan los ítems y se evalúa la utilidad de la escala.
3.1. Evaluación de los ítems: Se realiza teniendo en cuenta los siguientes
aspectos (13) :
3.1.1. Comprensión de los ítems: por estar acostumbrados a utilizar el
lenguaje médico no nos percatamos de que usamos cotidianamente térmi-
nos que el común de la gente no entiende. Incluso dentro del mismo campo
de las especialidades médicas se dan dificultades de comprensión. Si a un
médico no psiquiatra se le pregunta sobre sus respuestas empáticas proba-
blemente pensará en lo simpático que debe ser ante sus pacientes. Para
mejorar la comprensión de los ítems se le puede pedir a los pacientes y a
quienes aplican la escala que expresen con sus propias palabras lo que
entienden con cada uno de ellos.
3.1.2. Ambigüedad de los ítems: las palabras como «últimamente», «recien-
temente», «frecuentemente», pueden ser interpretadas de muy distintas
maneras por lo cual deben evitarse en la construcción de escalas. El desco-
nocimiento de las características socioculturales del paciente también puede
reflejarse en preguntas ambiguas. Por ejemplo, cuando se pregunta a un
paciente si presenta dificultades para manejar su auto, este puede contestar
que no simplemente porque no tiene vehículo.
3.1.3. Presencia de preguntas con carga afectiva: se recomienda que en la
construcción de los ítems se utilice un tono neutral. Preguntas como: ¿Ha
experimentado intenciones perversas hacia sus compañeras de trabajo?»
obviamente no se responderán de una manera objetiva.
3.1.4. Frecuencia de respuesta: si a un ítem es respondido en una dirección
determinada más del 95% de las veces, el ítem no es útil. Puede pensarse que
si se asume la respuesta sin necesidad de aplicar el ítem se tiene información
más precisa ya que pueden evitarse errores de medición surgidos del
descuido, el intento de engaño o la falta de comprensión de la pregunta
(figura 1).

Rev. Col. Psiquiatría, Vol. XXVII, No. 2, 1998. 125


Gómez C. y Sánchez R.

3.1.5. Restricción del rango de respuesta: si se colocan demasiadas opciones


de respuesta es posible que sistemáticamente los evaluados no escojan las
opciones localizadas en los extremos por un fenómeno que se ha denominado
«sesgo de aversión a los extremos» (figura 1).
3.2. Evaluación de la utilidad de la escala: deben tenerse en cuenta tres
aspectos:
3.2.1. Tiempo para diligenciar el instrumento: si la aplicación del instrumento
se extiende demasiado puede hacer que muchos pacientes e incluso el
personal que lo aplica, no colaboren suficientemente.
3.2.2. Necesidad de entrenamiento: idealmente una escala debe poder ser
aplicada por personal sin un entrenamiento especial. Los requerimientos de
habilidades especiales limitan la aplicabilidad de la escala.
3.2.3. Facilidad de calificación: los métodos de calificación complicados, que
requieren algoritmos matemáticos complejos e incluso programas de com-

Figura 1
FRECUENCIA DE RESPUESTA Y RESTRICCIÓN DEL RANGO EN ÍTEMS

SI
De acuerdo y convencido

De acuerdo pero no convencido

Más de acuerdo que en desacuerdo

Ni de acuerdo ni en desacuerdo

Más en desacuerdo que de acuerdo

En desacuerdo pero no convencido

NO En desacuerdo y convencido

A B Las respuestas se indican con el signo

A. Frecuencia de respuesta mayor del 95% en un sentido. El ítem puede obviarse.

B: Rango de calificación de las respuestas muy amplio. Pueden eliminarse las


categorías extremas en las cuales no hay respuestas.

126 Rev. Col. Psiquiatría, Vol. XXVII, No. 2, 1998.


Validación de escalas de medición

putación, hacen que la escala no pueda ser fácilmente evaluable y que pierda
utilidad.
4. Pruebas de confiabilidad
Si a una escala no se le ha hecho evaluación de confiabilidad no se debe
utilizar. Para evaluar la confiabilidad se tienen en cuenta tres aspectos:
4.1. Consistencia Interna: Los ítems que miden un mismo dominio deben
estar más correlacionados entre si que los ítems que miden diferentes
dominios. Tener un puntaje de correlación muy alto entre ítems nos dice dos
cosas:
• Los ítems están midiendo un mismo fenómeno.
• Con uno de los ítems basta para medir el fenómeno pues los demás
están dando información redundante.
De acuerdo con esto, se debe buscar un punto de correlación preciso que nos
indique que los ítems están midiendo dominios diferentes del mismo fenóme-
no. Este punto se ubica con medidas de consistencia interna, también
llamadas medidas de homogeneidad. Si la medida de homogeneidad es
alta, los ítems son redundantes; si es baja, los ítems probablemente no estén
midiendo el mismo fenómeno. Las medidas de homogeneidad más utiliza-
das son la Fórmula 20 de Kuder-Richardson (KR-20) y el Alfa de Cronbach (α).
Las fórmulas para su cálculo son (6,14):
KR - 20 = n/n-1(1- Σpiqi/σT2) α = n/n-1(1- Σσi2/sT2)
Los términos de las ecuaciones anteriores son.
n = número de pacientes a quienes se aplicó la escala.
pi = proporción de pacientes que respondieron afirmativamente la pregunta
iésima. Si el 40% la respondieron afirmativamente pi será igual a 0.4.
qi = complemento de pi (1-pi). En el ejemplo que estamos manejando qi es
igual a 1-pi (1-0.4 = 0.6).
σι2 = Varianza de cada ítem individual.
σT 2 = Varianza total de la escala.
Las medidas de homogeneidad deben estar entre 0.7 y 0.9.
4.2. Confiabilidad Test-Retest
Evalúa la estabilidad de la capacidad de medición de un instrumento a lo largo
del tiempo. Para evaluar este aspecto se deben hacer mediciones repetidas
a los mismos pacientes. Debe analizarse muy bien el tiempo transcurrido
entre las evaluaciones pues, si es muy largo, los puntajes pueden resultar muy
diferentes porque hay un cambio en la condición que se está midiendo, y si
es muy corto, los puntajes pueden resultar casi iguales porque el evaluador o
el evaluado todavía recuerdan las respuestas dadas en la evaluación anterior.
Se mide con Coeficientes de Confiabilidad como el Coeficiente de Correla-
ción de Pearson (15,16) y el Coeficiente de Correlación Intra-clase (ρΙ), entre
otros. El más utilizado para medir la Confiabilidad Test-Retest es el último, ya
que el de Pearson no es útil cuando hay más de dos observadores y, aunque
mide bien el nivel de asociación, no mide el grado de acuerdo.

Rev. Col. Psiquiatría, Vol. XXVII, No. 2, 1998. 127


Gómez C. y Sánchez R.

El ρΙ deriva su definición matemática del modelo de análisis de varianza de


mediciones repetidas (ANOVA), según el cual la varianza total se reparte entre
los observadores, los sujetos observados y un remanente de error (17) . Para
calcular el ρΙ (15) se recomienda realizar con los datos un procedimiento de
ANOVA de mediciones repetidas. Cualquier programa estadístico básico
puede agilizar este procedimiento.
En la tabla de ANOVA se ubican la varianza intersujetos (MS Intersujetos) y la
varianza intrasujetos que corresponde al cuadrado medio intrasujetos (MS
Intrasujetos), usualmente denotado como MS error o MS residual. La varianza
entre sujetos (VES)se calcula así:
VES = MS intersujetos - MS intrasujetos/ # réplica/sujeto
El número de réplicas indica el número de aplicaciones de la escala a cada
sujeto. Con estos datos ya se puede calcular una de las distintas versiones del
ρΙ, que es una tasa de la varianza entre sujetos, dividida por la suma de las
varianzas inter e intrasujetos:
ρΙ= VES/ VES+MSerror
Un valor de 0.85, por ejemplo, quiere decir que el 85% de la varianza en los
puntajes depende de la verdadera varianza entre los sujetos. Los valores de
ρΙ entre 0.7 y 0.8 son aceptables. Por encima de 0.8 se consideran buenos (13).
4.3. Confiabilidad Interevaluador:
Mide qué tan similares son los puntajes asignados por diferentes evaluadores
a un mismo fenómeno. Hay que tener en cuenta que si los evaluadores
entrevistan al paciente por separado tendrán puntajes de confiabilidad más
bajos que en el caso de entrevistas únicas con presencia simultánea de varios
evaluadores. También se mide con el ρΙ que, idealmente, debe estar alrede-
dor de 0.8. No son aceptables valores menores de 0.6. Se recomienda que
todos los evaluadores que participen en las mediciones tengan el mismo nivel
académico o de entrenamiento para aplicar la escala.
5. Pruebas de validez
La validez tiene los siguientes tres componentes:
5.1. Validez de apariencia
Hace referencia a si los ítems realmente miden lo que deben medir. Este tipo
de validez no tiene impacto sobre la capacidad de medición de la escala y
simplemente busca lograr mayor aceptabilidad entre los que la responden (18).
Si un paciente deprimido nota que lo que se le está preguntando realmente
tiene que ver con su padecimiento, colaborará más y dará respuestas más
válidas. Para evaluar este tipo de validez se recurre a un grupo conformado
por pacientes y por expertos en el área. Este grupo conceptúa si la escala, en
apariencia, mide la cualidad que se supone se va a evaluar.
5.2. Validez de contenido
Busca que cada uno de los dominios que conforman el área que se está
midiendo esté representado por algún ítem. Los dominios de mayor peso
generalmente tienen un mayor número de ítems. Para la valoración de este

128 Rev. Col. Psiquiatría, Vol. XXVII, No. 2, 1998.


Validación de escalas de medición

tipo de validez se recurre a un grupo de expertos quienes se cercioran de que


cada dominio esté adecuadamente representado. La gran mayoría de los
síndromes se construyen sobre estructuras teóricas, por lo cual algunos
dominios son situaciones que se piensa pueden representar el fenómeno que
queremos medir. Por ejemplo, algún teórico puede pensar que en un
síndrome depresivo uno de los dominios es la cantidad de lágrimas arrojadas
durante un día. La forma de medir este dominio sería contando el número de
pañuelos utilizados durante el día. Como se ve, el número de pañuelos no hace
parte del síndrome depresivo pero es una medida que, teóricamente explora
a uno de sus dominios. El uso de este tipo de mediciones intermediarias tiene
que ver con lo que se ha denominado validez de constructo
constructo.
5.3. Validez de criterio
Para establecer este tipo de validez debe compararse el puntaje de la escala
que se está validando con un Patrón de Oro Oro, que generalmente es una escala
más antigua y reconocida por su buena calidad de medición. A este proce-
dimiento también se le llama validez concurrente
concurrente. El método estadístico de
comparación es el Coeficiente de Correlación de Pearson. Si el coeficiente es
mayor de 0.8 no tiene sentido aplicar la escala nueva porque funciona casi
igual a la antigua, a no ser que resulte más útil (más fácil de aplicar o de
calificar, más barata, etc). Si es menor de 0.3 tampoco sirve pues probable-
mente esté midiendo un fenómeno diferente al que se quiere evaluar. En
ciertos casos el patrón de oro es un evento del futuro. Por ejemplo, si diseño
una escala para predecir no adherencia al tratamiento se debe correlacionar
el resultado de la escala con el desarrollo del evento en algún punto en el futuro.
En este caso se habla de validez predictiva.
6. Evaluación de sensibilidad al cambio
Poder medir una condición cambiante implica que el instrumento de medida
pueda responder adecuadamente a tales cambios. Estas situaciones son
comunes en la práctica clínica cuando queremos evaluar el efecto de un
tratamiento u observar la evolución de determinada condición a lo largo del
tiempo. En tales casos aplicamos una escala repetidamente en un mismo
sujeto lo cual produce resultados que se comparan matemáticamente me-
diante análisis de covarianza. Para la descripción de estas técnicas remitimos
al lector a textos especializados en esta área (19,20,21) .

TAMAÑO DE LA MUESTRA PARA VALIDACIÓN DE ESCALAS


En general, el punto crítico para establecer el número de sujetos necesarios
para la validación de la escala está dado por la evaluación de la confiabilidad
del instrumento.
El estimativo de la muestra dependerá del nivel de significación α, del poder
(1-β), del número de observaciones y del valor de ρ que se trabaje en la
hipótesis nula. Entre mayor sea el número de mediciones por sujeto, menor
será el tamaño de la muestra (22) . La selección del valor crítico de ρ depende
de tomar un valor mínimo que se considere aceptable. Los anteriores
parámetros se ubican sobre gráficas de computación específicas que permi-
ten calcular el número de sujetos de la muestra (20).

Rev. Col. Psiquiatría, Vol. XXVII, No. 2, 1998. 129


Gómez C. y Sánchez R.

REFERENCIAS

1 Kleinbaum DG, Kupper LL, Morgenstern H. Epidemiologic Research. Principles and


Quantitative Methods. New York: Van Nostrand Reinhold, 1982.
2 McDowell I, Newell C. The Theoretical and Technical Foundations of Health
Measurement. From Measuring Health, Oxford University Press, 1987.
3 Fletcher RH, Fletcher SW, Wagner EH. Clinical Epidemiology. The Essentials. 3rd
edition. Baltimore: Williams & Wilkins, 1996.
4 Knapp RG, Clinton Miller, III. Clinical Epidemiology and Biostatistics. Baltimore:
Williams & Wilkins, 1992.
5 Guimón J, Mezzich JE, Berrios GE. Diagnóstico en Psiquiatría. Barcelona: Salvat,
1988.
6 DeVellis RF. Scale Development. Theory and Applications. Newbury Park: Sage
Publications, 1991.
7 Guyatt GH, Kirshner B, Jaeschke R. Measuring Health Status: What are the
Necessary Measurement Propierties?. J Clin Epidemiol 1992;45:1341-1345.
8 Selzer M. The Michigan Alcoholism Screening Test. The Quest for a New Diagnostic
Instrument. Am J Psychiatry 1871;127:89-94.
9 Ewing J. Detecting Alcoholism. The CAGE Questionary. JAMA 1984;252:1905-1907.
10 Guillemin F, Bombardier C, Beaton D. Cross-Cultural Adaptation of Life Measures:
Literature Review and Proposed Guidelines. J Clin Epidemio 1993;46:1417-1432.
11 Berkanovic E. The Effect of Inadecuate Language Translation on Hispanics Respon
ses to Health Surveys. Am J Public Health 1980;70:1273-1276.
12 Guyatt GH. The Philosophy of Health-Related Quality of Life Translation. Quality of Life
Research1993;2:461-465.
13 Streiner DL. A Checklist for Evaluating the Usefulness of Rating Scales. Can J
Psychiatry 1993;38:140-148.
14 Streiner D, Norman GR. Health Measurement Scales. A Practical Guide to Their
Development and Use. Oxford: Oxford University Press, 1995.
15 Rosner B. Fundamentals of Biostatistics. 4th ed. Belmont: Duxbury Press, 1994.
16 Kleinbaum DG, Kupper LL, Muller KE. Applied Regression Analysis and Other
Multivariable Methods. 2nd ed . Belmont: Duxbury Press, 1988.
17 Kramer M, Feinstein A. Biostatistics of Concordance. Clin Pharm Therapy ;1981 239-
255.
18 Feinstein A. The Theory and Evaluation of Sensibility. In: Clinimetrics. Alvan Feinstein.
Yale University Press, 1987.
19 Dawson-Saunders B, Trapp GR. Bioestadística Médica. México: Editorial El Manual
Moderno, 1993.
20 Norman GR, Streiner DL. Bioestadística. Madrid: Mosby/Doyma Libros, 1996.
21 Daniel WW. Bioestadística. Base para el Análisis de las Ciencias de la Salud. México:
Editorial Limusa SA, 1991.
22 Donner A, Eliasziw M. Sample Size Requirements for Reliability Studies. Statistics in
Medicine 1987:441-448.

130 Rev. Col. Psiquiatría, Vol. XXVII, No. 2, 1998.

También podría gustarte