Está en la página 1de 25

CLINICAL SIGNIFICANCE:

HISTORY, APPLICATION, AND


CURRENT PRACTICE
A partir de la década de 1970, comenzó a surgir un cambio sutil en la investigación de
la psicoterapia. El examen del cambio individual que se produce durante la psicoterapia se
volvió cada vez más importante. Si bien la metodología de investigación primaria (ensayos
clínicos aleatorizados) continuó siendo la ruta empírica preferida para el estudio de la eficacia
de la terapia, varios investigadores de la terapia comenzaron a considerar el significado
clínico o práctico del cambio (tanto para el grupo como para el individuo) además de
considerar las diferencias estadísticas entre grupos de clientes tratados. En cierto sentido, este
movimiento representó un regreso a las raíces originales de la investigación en psicoterapia.
En otro sentido, sin embargo, la investigación en psicoterapia se había embarcado en un
camino decidido a demostrar científicamente que la terapia puede ayudar y ayuda a los
clientes a mejorar de manera observable. En esta revisión, se presenta una breve historia del
movimiento de importancia clínica seguida de una descripción de varios métodos actuales
para examinar la importancia clínica. Finalmente, se presenta una revisión del uso de los
métodos actuales.

A BRIEF HISTORY OF MEANINGFUL


CHANGE
Los primeros estudios de psicoterapia se basaron principalmente en las calificaciones
de los terapeutas sobre la mejora del cliente. Por ejemplo, Bergin y más tarde Bergin y
Lambert revisan los datos recopilados en el Instituto Psicoanalítico de Berlín en la década de
1920. Los terapeutas, en este caso los psicoanalistas, clasificaron a los clientes como no
curados, mejorados, muy mejorados o curados. Cabe señalar que solo los clientes que habían
completado el tratamiento se clasificaron como interrupciones prematuras y no se incluyeron
los casos en curso. El significado clínico de las calificaciones de los terapeutas en este
informe estaba implícito en las categorías. Se asumió claramente que los analistas tenían
suficiente información para hacer clasificaciones basadas en cambios clínicamente
significativos observados en los clientes. La siguiente cita traducida del informe original,
citada en Bergin y Lambert, es bastante reveladora:

Fuimos más particulares en lo que debía entenderse como "curado". Se incluyeron


solo aquellos casos en los que el éxito significaba no solo la desaparición de los
síntomas, sino también la manifestación de cambios de personalidad analíticamente
aceptables y, siempre que fuera posible, un seguimiento confirmativo.
También se aplicaron definiciones similares a los grupos mejorados, muy mejorados y
no curados. El grado en que los terapeutas hicieron valoraciones fiables o válidas de estos
casos no está en cuestión aquí. Tampoco nos interesan los problemas metodológicos
relacionados con la falta de un grupo de control, el abandono y otros problemas. Solo
deseamos sugerir que los primeros estudios de psicoterapia se enfocaron implícitamente en
demostrar que los clientes lograron cambios clínicamente significativos.
A medida que se trazaban claramente las líneas de batalla en el argumento sobre los
beneficios de la psicoterapia, los investigadores de la psicoterapia comenzaron a centrarse en
desarrollar métodos científicamente rigurosos para demostrar la eficacia de sus
intervenciones. Se cambiaron los diseños de investigación para incluir grupos de control en
lista de espera o sin tratamiento. Se desarrollaron medidas para evaluar los puntos de vista
evaluados por el cliente, el terapeuta y el juez. Estas medidas también se escalaron de manera
que se pudieran calcular los promedios y se podrían usar técnicas estadísticas más
sofisticadas para probar las diferencias de medias entre los grupos en lugar de depender de las
descripciones del número de personas que mejoraron. Estas metodologías resultaron
finalmente en numerosos estudios que, de manera agregada, demostraron la eficacia de la
psicoterapia. Los métodos estadísticos inferenciales habían demostrado que la persona
promedio que recibe psicoterapia está mejor al final del tratamiento que el 80% de las
personas con problemas similares que no reciben terapia. Sin embargo, en lugar de dar un
suspiro colectivo de alivio, muchos investigadores se preguntaron qué significaba realmente
esta significación estadística.

Challenging the Reliance on Statistical Tests


Para ser científicamente rigurosos, los investigadores de psicoterapia han utilizado
procedimientos inferenciales para comparar las medias de los grupos y examinar la
variabilidad tanto dentro como entre grupos. Si estas pruebas de diferencias de media y
varianza se encuentran más allá del rango de probabilidad (generalmente en el nivel de .05) y
son confiables, los efectos se consideran "significativos". Sin embargo, este tipo de análisis se
ve obstaculizado por lo menos de dos formas fundamentales. En primer lugar, debido a que la
información se basa en las medias y las variaciones del grupo, es imposible extraer
información sobre un cliente específico. En segundo lugar, los resultados no se prestan
fácilmente a la interpretación. En pocas palabras, ¿qué significan realmente? En
consecuencia, muchos investigadores han decidido que las pruebas de significación
estadística deberían tener un lugar menos inmutable en la investigación de resultados. De
hecho, algunos han llegado al extremo de condenar esta dependencia de la inferencia
estadística en la investigación de la psicoterapia como una de las “peores cosas que han
sucedido en la historia de la psicología”. Otro investigador preguntó irónicamente, "¿nadie
puede reconocer un resultado decisivo sin una prueba de significación?". Sin embargo,
críticos aún más moderados de las metodologías establecidas enfatizaron los peligros de
llevar demasiado lejos los resultados estadísticamente significativos. Al respecto, Bergin y
Strupp concluyeron:

Tanto entre los investigadores como entre los estadísticos hay un creciente desafecto
por el diseño experimental tradicional y los procedimientos estadísticos. . Con
respecto a la investigación en el área de la psicoterapia, los tipos de efectos que
necesitamos demostrar en este momento deben ser lo suficientemente significativos
como para que sean fácilmente observables mediante inspección o estadísticas
descriptivas. Si esto no se puede hacer, ninguna fijación en sutilezas estadísticas y
matemáticas generará conocimientos fructíferos, que obviamente solo pueden
provenir de la comprensión del investigador del tema en cuestión y de los datos
descriptivos bajo escrutinio.

Casi 20 años después, Jacobson y Truax llegaron a conclusiones similares. Sugieren


que si bien una prueba estadística entre las medias de los grupos tratados y de control da
evidencia de que es poco probable que la eficacia del tratamiento sea el resultado de un
hallazgo casual, la prueba no proporciona información sobre el tamaño, la importancia o la
significación clínica de los resultados. Además, las pruebas estadísticas no proporcionan
información sobre la variación dentro del grupo.

Magnitude of Effects
Un método para evaluar el tamaño del cambio implica el cálculo de los tamaños del
efecto u otras estadísticas similares que informan el grado o la magnitud de la relación entre
las variables. Un efecto pequeño sería indicativo de un resultado menos significativo que un
efecto moderado o grande. A medida que evolucionó la investigación en psicoterapia, varios
investigadores abogaron por un mayor enfoque en los tamaños del efecto en lugar de
depender de pruebas estadísticas. Los defensores del tamaño del efecto señalan las
debilidades de confiar en la significación estadística (por ejemplo, el valor de p) para tomar
decisiones sobre los tratamientos. Por ejemplo, un tratamiento puede producir una mejora
estadísticamente significativa en comparación con un grupo de control, pero la magnitud del
cambio es mínima. En este caso, el tamaño del efecto pequeño se detecta mediante un diseño
de investigación poderoso (por ejemplo, N grande, metodología estrictamente controlada,
etc.). Por el contrario, el tamaño del efecto da información sobre la magnitud de la relación
entre variables o el tamaño de la diferencia.
A pesar de las ventajas del tamaño del efecto y otras medidas de magnitud de la
relación, los tamaños del efecto no proporcionan información sobre el significado clínico de
los hallazgos. Los tamaños del efecto no nos brindan información sobre la variación dentro
del grupo o la relevancia clínica de los resultados.

Within-Group Variation
En algunas de las primeras revisiones de la investigación en psicoterapia, Bergin notó
que el tratamiento tendía a aumentar la variabilidad de los resultados. No solo mejoraron más
personas durante el tratamiento, sino que un mayor porcentaje de personas tratadas también
se deterioró en comparación con las personas no tratadas. Bergin sugirió que este aumento en
la variabilidad atenuó la efectividad reportada de los tratamientos psicológicos y abogó por
investigaciones adicionales para examinar las razones de esta mayor variabilidad. Además, la
investigación dirigida a crear tratamientos más potentes podría disminuir la variabilidad de
las respuestas al tratamiento, lo que empujaría el promedio en la dirección de la mejora y así
evitaría la eficacia diluida del tratamiento causada por una mayor variabilidad.
Desde que Bergin notó esta diferencia en la variabilidad, varias líneas de
investigación evolucionaron en un intento por comprender mejor la variación dentro del
grupo en los estudios de terapia. Un pequeño grupo de investigadores de terapias ha
estudiado el deterioro que se produce durante el tratamiento. Un grupo más grande abordó el
proceso de la terapia y las posibles variables que podrían explicar el resultado diferencial
entre los clientes que reciben tratamientos similares. Otro grupo de investigadores se centró
en desarrollar intervenciones más potentes que podrían reducir la variabilidad y aumentar los
tamaños del efecto del tratamiento en comparación con los controles. Un último grupo de
investigadores se centró en desarrollar métodos para identificar cambios prácticos o
clínicamente significativos dentro del grupo para clientes individuales sin depender
únicamente de las diferencias medias entre los grupos. Esta colección de metodologías
desarrolladas para determinar la “importancia clínica” es el foco de esta revisión.

Clinical Significance
Una de las continuas quejas de los médicos que intentan hacer una aplicación práctica
de la investigación en psicoterapia es la falta de información sobre la importancia clínica o la
importancia práctica de los resultados de la investigación. Cuando los investigadores confían
en las estadísticas para informarles si dos grupos son significativamente diferentes después
del tratamiento, producen evidencia de que el tratamiento de interés es más efectivo que el
tratamiento de comparación o el control. Sin embargo, las diferencias estadísticamente
significativas entre los grupos no necesariamente indican diferencias prácticas, significativas
o clínicamente significativas entre los grupos, ni para los individuos dentro de los grupos. Por
ejemplo, consideremos un tratamiento de pérdida de peso que se compara con un grupo de
control.
Se seleccionan para participar en el estudio cuarenta personas que corren un riesgo
extremo de sufrir consecuencias físicas perjudiciales relacionadas con su obesidad. Los
sujetos se asignan aleatoriamente al grupo de tratamiento o al grupo de control. Después de 2
meses, los que reciben tratamiento han perdido un promedio de 16 libras cada uno. El grupo
de comparación, sin embargo, no ha perdido peso en promedio durante el tiempo
transcurrido. La prueba estadística revela un hallazgo significativo para el grupo de
tratamiento en comparación con el grupo de control. Estos efectos estadísticos sugieren que
las diferencias entre los grupos son reales en contraposición a las diferencias que son
ilusorias, cuestionables o poco fiables. Sin embargo, la prueba estadística no proporciona
información sobre la variedad de respuestas al tratamiento dentro del grupo tratado. Con una
pérdida de peso promedio de 16 libras, algunas personas que recibieron tratamiento pueden
haber perdido 30 libras o más, mientras que otras que recibieron tratamiento no perdieron
peso o ¡incluso aumentaron de peso! De manera similar, uno debe cuestionar la importancia
práctica de una pérdida de peso de 16 libras para un individuo con obesidad mórbida. ¿Esta
cantidad de cambio reduce el riesgo de mortalidad o mejora la calidad de vida del individuo?
Estas preguntas no se responden mediante una prueba estadística o un tamaño del efecto.
Para mejorar esta situación, los investigadores han intentado establecer métodos para
medir cambios clínicamente significativos en lugar de estadísticamente significativos. Se
desarrollaron dos líneas de investigación paralelas y mutuamente beneficiosas para demostrar
más claramente la utilidad de las intervenciones psicológicas. A mediados y finales de la
década de 1970, la Validez Social surgió como un método para reconocer la importancia de
incluir la perspectiva de los individuos fuera de la relación terapéutica para ayudar a
determinar la importancia de las intervenciones y los resultados psicosociales. Proporcionó
un fundamento coherente y dos tácticas metodológicas específicas (evaluación subjetiva y
comparación social) para evaluar la relevancia del cambio. Posteriormente, y como una
progresión natural de la validez social, se desarrollaron métodos para determinar la
importancia clínica de las intervenciones. Si bien la validez social enfatiza un examen más
amplio del cambio práctico desde la perspectiva de los participantes y los miembros de la
sociedad, la importancia clínica adopta una visión un poco más estrecha del cambio
significativo mediante la identificación de métodos definidos por los investigadores clínicos.

SOCIAL VALIDITY
Las raíces del movimiento de validez social se encontraron en el análisis conductual
aplicado. Wolf describe la tendencia sutil de una mayor conciencia de la importancia social
de las intervenciones entre los analistas conductuales aplicados de esta manera:

El mensaje que parecíamos estar recibiendo era que la “importancia social” era un
juicio de valor subjetivo que solo la sociedad estaba calificada para hacer. Si nuestro
objetivo era, como se describe en JABA (Journal of Applied Behavior Analysis),
hacer algo de importancia social, entonces es mejor que desarrollemos sistemas y
medidas para preguntar a la sociedad si estamos logrando este objetivo.

Este aporte social se considera importante en tres niveles. En primer lugar, desde el
punto de vista del enfoque de la intervención en sí, ¿los objetivos del tratamiento /
modificación del comportamiento están en armonía con los objetivos sociales? En segundo
lugar, ¿son aceptables los procedimientos de mandato de la intervención dada con respecto a
la idoneidad social? Finalmente (y lo más importante dentro del contexto de este artículo en
particular), ¿los efectos de la intervención son considerados importantes por la sociedad?
Para este aspecto de la validez social es fundamental determinar si los efectos del tratamiento
son realmente importantes desde el punto de vista clínico o práctico. Kazdin sugiere dos
formas principales de evaluar esta pregunta: (1) el método de evaluación subjetiva y (2) el
método de comparación social.

Subjective Evaluation
En este método, el comportamiento del cliente es evaluado por personas que
probablemente tengan contacto con el cliente o en una posición de experiencia. Esto le
permite al investigador averiguar si el cliente ha realizado cambios cualitativos que, a su vez,
son observables por otros. Un estudio de niños predelincuentes realizado por Werner
proporciona un ejemplo del uso de este método. En este estudio se compiló una lista de
comportamientos importantes relacionados con interacciones "positivas" entre la policía y el
sospechoso. Los participantes predelincuentes fueron entrenados a su vez para incorporar
estos comportamientos. Los niños entrenados superaron consistentemente a los niños no
entrenados en una situación de juego de roles simulada con un oficial de policía real. Esto se
determinó mediante la observación de comportamientos objetivo y no objetivo,
respectivamente. Las cintas de video de las sesiones fueron luego juzgadas por oficiales de
policía, ciudadanos y estudiantes universitarios. Los jueces calificaron constantemente a los
niños entrenados como más bajos en "desconfianza" y más altos en "cooperación", "cortesía"
y mejor comportamiento en general. El hecho de que estos hallazgos fueran consistentes en
todos los sujetos y evaluadores implica que los cambios socialmente importantes ocurrieron
de hecho como resultado del programa de capacitación.
La adición de la perspectiva social para ayudar a evaluar subjetivamente la
importancia del cambio proporciona información adicional que es única de la del profesional
o del propio cliente. Por ejemplo, si bien tanto un terapeuta como su cliente pueden sentir que
se han producido cambios significativos como resultado de la terapia, es posible que el
cónyuge del cliente no esté de acuerdo. Este desacuerdo puede proporcionar información
sobre aspectos de la condición del cliente que las otras dos partes pasaron por alto. Además,
con la participación cada vez mayor de pagos de terceros y programas de atención de salud
mental patrocinados por el gobierno, la sociedad ha “invertido” en el proceso terapéutico y,
en consecuencia, tiene cierto derecho a rendir cuentas de lo que se ha hecho con su dinero.

Mientras Jones me pagara por su psicoterapia o amistad, o como quisiera usar el


tiempo que le vendí, no era asunto de Smith. Pero cuando los impuestos de Smith o
las primas de seguro comenzaron a contribuir a mi tarifa, aumentó el interés de Smith
en lo que estaba haciendo con Jones. En otras palabras, Smith ahora espera que yo
sea responsable y en términos que él pueda entender.

El creciente énfasis en el consumismo también respalda el enfoque en la recopilación


de datos de personas fuera del tratamiento para ayudar a emitir juicios sobre el tratamiento
eficaz. Como resultado, los investigadores comenzaron a considerar la relevancia social de
los tratamientos conductuales mediante la recopilación de evaluaciones subjetivas del
tratamiento. Los estudios de terapia han incluido una variedad de observadores externos (por
ejemplo, enfermeras, padres, cónyuges, jefes, maestros, etc.) que califican la "validez" del
resultado.
Sin embargo, las evaluaciones subjetivas también están limitadas por una serie de
consideraciones importantes. Si bien la información subjetiva proporcionada por personas
que no participan directamente en el tratamiento del cliente puede proporcionar información
adicional y ayudar a corroborar la mejora, existe el peligro de que esta información se
extienda más allá de su aplicabilidad y se utilice como un tipo de pauta prescriptiva. Por
ejemplo, si los trabajadores del hospital se utilizaran para evaluaciones subjetivas de los
pacientes en sus respectivas salas, la información que proporcionen estaría invariablemente
coloreada por el contexto en el que están tratando con el cliente dado (p. Ej., Es probable que
se centren en comportamientos que se relacionan con la manejabilidad y la idoneidad del
hospital). Como resultado, el investigador debe proceder con cautela y recordarse a sí mismo
que esta información subjetiva se basa en juicios externos imperfectos que pueden o no
afectar los aspectos más relevantes del comportamiento del cliente.
El principal impulso de la evaluación subjetiva dentro del movimiento de validez
social fue incorporar el punto de vista social en el proceso de determinar la significación del
cambio. Strupp y Hadley ampliaron los métodos subjetivos de validez social con respecto a la
psicoterapia en sí proporcionando pautas específicas sobre quién debería proporcionar
información. Determinaron que basarse únicamente en los informes de resultados de los
terapeutas tradicionales era insuficiente, y que basarse únicamente en los factores sociales
también era insuficiente. Concluyeron que solo al considerar múltiples perspectivas será
posible derivar una definición verdaderamente integral de la salud mental y los resultados
significativos de la psicoterapia. Sugieren que hay tres perspectivas de este tipo que son de
particular interés: (1) el cliente mismo, (2) el profesional de la salud mental y (3) la sociedad
(incluidas las personas importantes en la vida del individuo). Aunque esto se extiende más
allá de la visión tradicional de la validez social, una breve descripción de los dos participantes
adicionales y sus evaluaciones subjetivas de la terapia merece mención aquí.

Individual perspective. El individuo define la psicoterapia exitosa como aquella


que lo hace sentir mejor. Este juicio es independiente del terapeuta y la sociedad, quienes, en
consecuencia, pueden no estar necesariamente de acuerdo con ellos. Sin embargo, si bien este
puede ser el caso, el propio individuo es el único juez con conocimiento directo, interno e
íntimo de los cambios reales que han ocurrido como resultado de la terapia. Ignorar esta
perspectiva parece ir en contra de la circularidad subyacente de todo el proceso
psicoterapéutico en sí. En otras palabras, todo el proceso de la terapia depende de los propios
sentimientos subjetivos del cliente y de las comunicaciones imperfectas con el terapeuta;
como tal, parece ridículo confiar en esta información a lo largo de la experiencia del
tratamiento solo para descartar información subjetiva similar cuando se considera el
resultado.
Sin embargo, aceptar tal información subjetiva tiene inconvenientes. Wolf señala:

Cuando pedimos una descripción verbal de un evento privado, como la satisfacción


con nuestro programa de tratamiento, debemos ser muy cautelosos porque no
tenemos una forma adecuada de verificar la confiabilidad del informe verbal de
manera independiente.

Además, la deseabilidad social, las características de la demanda y los conjuntos de


respuestas pueden afectar la confiabilidad de la información autoinformada. Los resultados de
docenas de estudios indican que algunas personas tienden a ajustar sus respuestas en un
intento de retratarse a sí mismas en lo que perciben como una forma socialmente deseable.
Por ejemplo, Zanna y Olson descubrieron que, cuando estaban en presencia de otros, los
sujetos eran más propensos a respaldar elementos de prueba que expresan opiniones
contrarias a las suyas pero de acuerdo con la opinión de la mayoría.
A pesar de la posibilidad de una respuesta socialmente deseable, la mayoría de los
métodos para establecer el beneficio del tratamiento y para determinar un cambio
clínicamente significativo se basan en el informe del cliente sobre el cambio en los síntomas
o el funcionamiento. La mayoría de los métodos descritos a continuación basan la definición
de importancia clínica en los cambios en los síntomas informados por los clientes. Además de
estas definiciones basadas en síntomas, un movimiento importante en la investigación de
resultados implica la evaluación de la calidad de vida como una forma de demostrar la
relevancia del tratamiento.
En las últimas dos décadas, los cambios en el funcionamiento de la vida diaria se han
convertido en indicadores cada vez más importantes del cambio "real". Particularmente en la
atención médica y el servicio a personas con enfermedades mentales crónicas, el cambio
sintomático es solo una parte del resultado esperado del tratamiento. A menos que ocurran
cambios en la capacidad del cliente para funcionar en el trabajo, el juego, el hogar y en
situaciones sociales, el cambio sintomático no es significativo. De hecho, Kaplan sugiere que
las únicas variables dependientes importantes en la investigación de la psicología de la salud
son la calidad de vida y la mortalidad. Argumenta de manera convincente que otras medidas,
como el colesterol, la presión arterial, el estrés, el afrontamiento, etc., tienen poca utilidad a
menos que mejore la calidad de vida de la persona o disminuya el riesgo de mortalidad. De
manera similar, la calidad de vida es un indicador importante de la salud mental actual o del
resultado de la terapia. Si se mejora la calidad de vida del cliente, se puede suponer que el
resultado del tratamiento es razonable.
La evaluación de la calidad de vida se puede realizar dentro de cualquiera de las
perspectivas mencionadas anteriormente (por ejemplo, cliente, terapeuta, sociedad).
Históricamente, la calidad de vida se medía mediante estándares objetivos observables (p. Ej.,
En la investigación económica mediante indicadores monetarios, o en la asistencia sanitaria
mediante la movilidad de los pacientes, etc.). Sin embargo, los investigadores confían cada
vez más en evaluaciones subjetivas del bienestar, el funcionamiento de la vida o la calidad de
vida. También se encuentran disponibles en psicología de la salud una gran variedad de
instrumentos especializados de calidad de vida. Se han desarrollado instrumentos para
pacientes geriátricos, pacientes con cáncer y varias otras poblaciones específicas.
La evaluación de la calidad de vida del cliente es potencialmente un factor importante
para la evaluación de los efectos del tratamiento clínicamente significativos. Se ha realizado
relativamente poca investigación para evaluar el espectro completo de la calidad de vida en la
investigación de los resultados de la psicoterapia. Sin embargo, se han evaluado muchas de
las dimensiones de la calidad de vida o áreas de funcionamiento. Por ejemplo, las relaciones
sociales se han considerado durante mucho tiempo un foco importante de los tratamientos
psicológicos y un indicador de resultados positivos en la terapia. De manera similar, las
medidas basadas en síntomas como el Inventario de Depresión de Beck evalúan parcialmente
el nivel de funcionamiento relacionado con el área de bienestar emocional de la calidad de
vida. Algunas medidas de resultado utilizadas en la investigación de la psicoterapia coinciden
con otras áreas del funcionamiento vital identificadas en las medidas globales de calidad de
vida. Las calificaciones generales de la calidad de vida generadas a partir de instrumentos
creados específicamente para evaluar el nivel y la calidad del funcionamiento en áreas de la
vida teóricamente importantes proporcionan una perspectiva de resultado adicional que puede
mejorar la importancia de los datos de resultado.
Professional perspective. Tradicionalmente, la perspectiva del profesional de la
salud mental ha servido como fuente principal de información sobre los resultados. La
dependencia excesiva de esta única fuente de información surge en gran medida de la noción
de que solo el profesional tiene la "experiencia" o la sofisticación estadística para evaluar con
precisión los efectos del tratamiento. Quizás el profesional es más probable que se base en
información más teórica y cuantificada para determinar si el tratamiento es útil. Sin embargo,
Strupp y Hadley argumentan que utilizar al terapeuta como única perspectiva informativa
puede no ser el mejor escenario. Ciertamente, hay mucho que decir sobre el valor de su
contribución al panorama general de los resultados. La perspectiva del profesional, a
diferencia de las otras dos, se basa en un amplio conocimiento de la estructura de la
personalidad y una formación exhaustiva en la observación y evaluación del comportamiento.
La consideración de los efectos del tratamiento desde la perspectiva de esta experiencia
proporciona información adicional esencial.
La perspectiva profesional no siempre se limita al terapeuta que realiza la
intervención. En muchos estudios de terapia, un evaluador capacitado (a menudo un
profesional o un estudiante en formación) realiza entrevistas u otras calificaciones basadas en
las observaciones del cliente. Los evaluadores independientes tienen el beneficio de la
perspectiva profesional sin el sesgo potencial que puede venir con una amplia participación e
inversión en el tratamiento. Al mismo tiempo, es probable que el juicio del evaluador
independiente sobre el significado del cambio sea similar a la perspectiva del terapeuta.
Estas tres perspectivas (cliente, terapeuta, sociedad) forman la base de la evaluación
subjetiva de resultados. El individuo puede proporcionar un conocimiento interno e íntimo
único de los efectos del tratamiento. El profesional puede ver los efectos del tratamiento a la
luz de su experiencia y formación. Finalmente, la ventaja social proporciona información
objetiva sobre el impacto diario de los servicios en el comportamiento del individuo en
quienes lo rodean. Solo cuando se consideren los tres puntos de vista, surgirá una imagen
realmente completa de los efectos del tratamiento.

Social Comparison
La evaluación subjetiva por parte de personas con experiencia o contacto con los
clientes es una forma de abordar la validez social. Una segunda metodología de validez social
recomendada por Kazdin es la comparación social. En este método, la eficacia del
tratamiento se evalúa basándose en evaluaciones previas y posteriores del comportamiento
del cliente con un grupo de referencia de compañeros no desviados. La premisa subyacente es
que los cambios socialmente válidos o clínicamente significativos debidos a la intervención
en cuestión darán lugar a que el comportamiento posterior a la intervención del cliente sea
indistinguible de un grupo de referencia normal. Patterson utilizó este método para evaluar el
impacto de las intervenciones conductuales en los escolares que se portan mal. El número de
actos disruptivos antes del tratamiento (como burlas, gritos, lloriqueos y peleas o golpes)
realizados por estos niños se comparó con el número de actos similares realizados por un
grupo de niños no desviado emparejados y se encontró que era significativamente mayor. La
comparación se repitió en el postratamiento. El número de actos disruptivos realizados por el
grupo experimental disminuyó a un nivel que estaba dentro del rango del grupo de control; en
consecuencia, la magnitud de estos cambios representa una mejora social y clínicamente
importante.
Hay algunas consideraciones importantes para este método de validación social. La
más importante de ellas es si existe o no un nivel normativo y el consiguiente control
apropiado de los fenómenos o comportamientos en cuestión. El nivel normal de
funcionamiento puede no ser un estándar eficaz mediante el cual se deben evaluar los
resultados de ciertos comportamientos. Kazdin usa el ejemplo de técnicas de comportamiento
para incrementar el reciclaje de materiales y otros comportamientos ambientalmente
relevantes que buscan incrementar todos los niveles (incluido el nivel "normal") de
comportamientos en esta área. Si el objetivo fuera aumentar el reciclaje, el cambio
significativo no estaría necesariamente representado por los comportamientos actuales de la
mayoría.
Otra consideración es cómo los investigadores deben identificar el grupo normativo
en sí. Con niños profundamente autistas, por ejemplo, ¿sería más apropiada la comparación
normativa con niños autistas menos pronunciados o con niños normales como referencia? La
comparación con el primero puede no representar necesariamente un cambio socialmente
válido, mientras que la comparación con el segundo puede ser tan estricta que el resultado
exitoso es imposible. Por ejemplo, en un estudio, la verbalización de un paciente psiquiátrico
aumentó después del entrenamiento. El aumento fue muy discrepante (alrededor del 30%) del
nivel de los individuos inteligentes que funcionan normalmente, pero estuvo cerca (alrededor
del 9%) del nivel de otros pacientes psiquiátricos hospitalizados de educación similar que no
se consideraron verbalmente deficientes. En consecuencia, la decisión sobre qué muestra
normativa servirá como grupo de referencia puede afectar enormemente a las conclusiones de
importancia clínica o la falta de ella.
La metodología de validez social es importante no solo desde un punto de vista
informativo, sino también porque sirve para proporcionar una dirección profesional
coherente. Nos parece que al otorgar el mismo estatus a la validez social que ahora damos a
la medición objetiva y su confiabilidad, atraeremos al consumidor, es decir, la sociedad, a
nuestra ciencia, suavizaremos nuestra imagen y aseguraremos nuestra búsqueda de los
objetivos sociales. Relevancia. Si bien la metodología de validez social no satisface
completamente la cuestión de cómo determinar una mejora clínicamente significativa,
proporciona algunos métodos prometedores para evaluar la significación del cambio y sienta
las bases para enfoques más nuevos.

METHODS FOR EXAMINING


CLINICAL SIGNIFICANCE
Desde la base de la validez social, se han desarrollado varias metodologías específicas
para examinar la relevancia clínica de los cambios que ocurren durante el tratamiento
psicológico. Los métodos varían según la definición individual de cambio significativo o
clínicamente significativo, pero todos los métodos se centran de manera más estricta en
definiciones clínicas o definidas por el investigador de cambio significativo. Las tres
definiciones más destacadas de cambio clínicamente significativo incluyen: (1) los clientes
tratados logran mejoras estadísticamente confiables como resultado del tratamiento (mejoría),
(2) los clientes tratados son empíricamente indistinguibles de sus pares normales o no
desviados después del tratamiento (recuperación), o ( 3) una combinación de retorno al
funcionamiento normal más una mejora confiable.

Improvement
La mejora se define como la realización de cambios estadísticamente fiables. Este
método para definir la importancia clínica se basa en la idea de validez social de que los
clientes realizan un cambio significativo cuando ese cambio es lo suficientemente grande
como para que otros lo noten fácilmente. En cierto modo, se trata de un regreso a algunas de
las investigaciones psicológicas originales de finales del siglo XIX. Aunque la exploración de
Weber del fenómeno de la diferencia apenas perceptible (JND) se centró principalmente en
las percepciones fisiológicas, los principios involucrados se aplican igualmente en esta
circunstancia. ¿Los clientes realizan cambios que son perceptiblemente perceptibles por el
terapeuta, el cónyuge, el jefe o ellos mismos? A partir de esta idea básica, varios
investigadores desarrollaron métodos estadísticos para calcular la confiabilidad de las
puntuaciones de cambio. Aunque no es una aplicación directa del concepto JND, un cálculo
estadístico es similar ya que identifica un punto en el que el cambio es lo suficientemente
grande como para ser considerado confiable y no producto de un error. Sin embargo, uno
podría preguntarse si el cambio es lo suficientemente grande como para ser perceptible.
Ambos problemas, lo suficientemente grandes para ser confiables y lo suficientemente
grandes como para ser notorios, son importantes. Consideremos cada uno de ellos.

Reliable change. En la literatura se encuentran disponibles varios métodos para


evaluar la confiabilidad de las puntuaciones de cambio. El más utilizado en la práctica es el
método Jacobson-Truax. Jacobson y Truax calculan un índice de cambio confiable (RCI) para
cada individuo basado en el puntaje previo al tratamiento (Xpre), el puntaje posterior al
tratamiento (Xpost) y el error estándar de la diferencia entre dos puntajes de prueba (Sdiff):

El cambio se considera confiable, o es poco probable que sea producto de un error de


medición, si el índice de cambio (RCI) es mayor que 1,96. Cuando el individuo tiene una
puntuación de cambio superior a 1,96, se puede suponer razonablemente que ha mejorado.
Se encuentran disponibles otros métodos usados ​con menos frecuencia para
determinar estadísticamente cambios confiables. Por ejemplo, Speer y Greenbaum revisaron
y evaluaron cuatro métodos para calcular la importancia del cambio de un cliente individual
utilizando puntuaciones previas y posteriores al tratamiento: Edwards-Nunnally,
Jacobson-Truax, Hsu-Linn-Lord y Nunnally-Kotsch. Cada uno de estos métodos examina el
puntaje posterior al tratamiento en relación con el puntaje previo al tratamiento mientras
considera la confiabilidad y distribución de los puntajes de las pruebas (por ejemplo, la media
y la desviación estándar para la muestra tratada o normativa). Además, Speer y Greenbaum
compararon un método de modelado lineal jerárquico (HLM) (que permite la inclusión de
múltiples puntos de datos) con los otros métodos. El método HLM es particularmente útil
para datos clínicos a los que les faltan puntos de datos. El proceso de modelado HLM estima
pendientes o tasas de cambio utilizando los datos disponibles. Como resultado, las tasas de
mejora para una muestra determinada se pueden proyectar en función de los datos
disponibles. De esta manera, las personas que de otro modo podrían clasificarse como no
cambiantes debido a la falta de datos podrían identificarse como mejoradores utilizando
estimaciones de HLM.
Speer y Greenbaum describieron primero y luego compararon los cinco métodos para
identificar mejoradores. Sugieren que los métodos de Edwards Nunnally y HLM identificaron
significativamente más clientes como mejoradores. Sin embargo, es difícil determinar qué
podría significar eso, ya que un método puede ser más o menos conservador en lugar de más
o menos válido. Además, Speer y Greenbaum no utilizaron los mismos supuestos básicos
para cada fórmula (es decir, se utilizaron diferentes parámetros de población en los diferentes
cálculos). Como resultado, los resultados pueden reflejar diferencias en los parámetros en
lugar de diferencias en las fórmulas.
Se encuentran disponibles varios otros métodos para calcular la mejora. Por ejemplo,
al examinar la eficacia de las intervenciones psicológicas para los dolores de cabeza, los
investigadores calculan el porcentaje de mejora en función de la frecuencia y la gravedad de
los dolores de cabeza por semana (obtenidos de los diarios de dolores de cabeza) antes y
después del tratamiento.

Utilizando el porcentaje de mejora, una reducción del 50% en la actividad del dolor
de cabeza, en ausencia de un aumento de la medicación, se define como una mejora
clínicamente significativa.
De manera similar, los investigadores de la agorafobia han desarrollado criterios para
identificar la "mejora" basados en los cambios combinados en las calificaciones en varias
medidas de resultado. Se asigna una puntuación de 1 a un cambio de ≥2 en cada uno de los
instrumentos utilizados para evaluar el resultado. A continuación, los clientes se clasifican
como mejora baja, media o alta después del tratamiento en función de su puntuación total
(por ejemplo, mejora alta 3 o 4, mejora media 1 o 2 y mejora baja 0). De esta manera, los
investigadores tienen evidencia de mejora basada en puntos de corte a priori de una
combinación de medidas de resultado autoinformadas, calificadas por jueces, calificadas por
terapeutas y de enfoque conductual.

Noticeable change. Aunque los cambios desde el pretratamiento al


postratamiento pueden ser lo suficientemente grandes como para ser estadísticamente
confiables para un individuo dado, esto no garantiza que el cambio será perceptible o
significativo para el cliente u otros. Volviendo al ejemplo del tratamiento de la obesidad, una
persona puede realizar un cambio confiable de peso después del tratamiento. De hecho, dada
la confiabilidad test-retest de la medición del peso, se necesitarían muy pocos cambios para
producir un cambio que fuera estadísticamente confiable y que probablemente no sea
producto de un error de medición. Sin embargo, un cambio estadísticamente confiable puede
no indicar un cambio notable.
Ankuta y Abeles fueron los primeros en abordar esta cuestión de forma más directa.
Compararon a los clientes que demostraron una mejora clínicamente significativa de acuerdo
con la metodología de Jacobson y Truax con la satisfacción percibida del propio cliente con
la terapia. Operacionalizaron la satisfacción como una extensión del cambio autoinformado
resultante de la terapia. Descubrieron que los clientes designados por haber experimentado
una mejora clínicamente significativa de hecho informaron niveles más altos de satisfacción
que aquellos que experimentaron un cambio "no clínicamente significativo". Esto
proporciona una importante evidencia inicial de la validez de la metodología de Jacobson y
Truax y sugiere que los cambios fueron al menos perceptibles para los clientes.
Lunnen y Ogles ampliaron la evaluación de Ankuta y Abeles mediante la realización
de un análisis de múltiples perspectivas y variables del componente RCI de la metodología de
Jacobson y Truax. Dividieron a los clientes que estaban recibiendo terapia ambulatoria en
uno de tres grupos según sus puntuaciones de cambio en el Cuestionario de resultados:
mejoradores, no cambiantes y deterioradores. Cuando los clientes demostraron un cambio
confiable, ya sea una mejora o un deterioro en el OQ-45, fueron emparejados con los clientes
que no cambiaron. Luego, los clientes de los tres grupos calificaron el cambio percibido, la
satisfacción con el tratamiento y la alianza de ayuda. Sus cónyuges / seres queridos también
calificaron el cambio percibido y la satisfacción con el tratamiento, y el terapeuta calificó el
cambio percibido y la alianza de ayuda.
Lunnen y Ogles encontraron que tanto el cambio percibido como la alianza
terapéutica fueron significativamente más altos para los individuos que mejoraron de manera
confiable que para los que no cambiaron y deterioraron tanto desde la perspectiva del cliente
como del terapeuta. La satisfacción con los servicios, sin embargo, no difirió entre los grupos.
Los clientes que demostraron un deterioro confiable no fueron significativamente diferentes
de los que no cambiaron en ninguna de las variables de resultado informadas por cualquiera
de las tres perspectivas. Concluyeron que el RCI es una forma eficaz de evaluar la mejoría
sintomática, pero que es menos eficaz como indicador de deterioro.
Estos dos estudios inician el proceso de demostrar que los métodos estadísticos para
identificar la mejora también pueden ser indicadores válidos de cambios notables o
significativos para el cliente, el terapeuta y otros. Ciertamente, se necesita más investigación
en esta área para examinar la correspondencia entre un cambio confiable y un cambio notable
o significativo.

Recovery
Kendall y Grove sugieren tomar la perspectiva del consumidor potencial escéptico de
tratamientos psicológicos para comprender mejor el concepto de significación clínica. Para
convencer al escéptico, una intervención debe tener un valor práctico y debe conducir a
cambios que mejoren materialmente el funcionamiento del cliente. Continúan sugiriendo que
las demostraciones más convincentes de la eficacia del tratamiento proporcionan evidencia de
que los clientes que alguna vez tuvieron problemas ahora no se pueden distinguir de un ...
grupo de referencia representativo no perturbado. En otras palabras, si podemos demostrar
que los clientes se distinguen fácilmente de un grupo de compañeros antes del tratamiento,
mientras que después del tratamiento su comportamiento es indistinguible de los compañeros,
hemos demostrado un cambio clínicamente significativo. Este enfoque es ligeramente
diferente de los métodos de validez social discutidos anteriormente. En el contexto de validez
social, se realizó una comparación social a través de calificaciones observacionales directas.
En el enfoque de Kendall y Grove, la comparación es empírica y se basa en distribuciones
normativas de medidas de resultado. En este caso, un retorno a la norma empírica representa
un cambio significativo y significativo.
Se encuentran disponibles varios métodos empíricos para determinar el retorno a la
normalidad. Un método obvio sería realizar una entrevista de diagnóstico antes y después del
tratamiento. Se espera que las personas cumplan con los criterios de diagnóstico de un
trastorno antes del tratamiento. Sin embargo, después del tratamiento, uno podría esperar que
sus síntomas y signos disminuyan o se alivien de tal manera que ya no cumplan con los
criterios para el diagnóstico. Por ejemplo, Barrett, Dadds y Rapee realizaron un estudio para
intervenir con la ansiedad infantil. Informaron que entre el 57% y el 71% (según el grupo de
tratamiento) de los niños ya no cumplían los criterios de un trastorno de ansiedad después del
tratamiento.
Un enfoque aún más orientado estadísticamente implica el uso de datos normativos
existentes para una medida determinada de patología. Las puntuaciones de los clientes
tratados en la medida se comparan luego con la distribución normativa para determinar si se
han recuperado o no. Se puede utilizar una variedad de métodos para determinar las
puntuaciones de corte o los niveles de percentiles en los que se define la recuperación. Por
ejemplo, Elkin consideró la importancia clínica del programa de investigación colaborativa
de tratamiento para la depresión del NIMH (TDCRP) al identificar el número de clientes que
alcanzaron un nivel predefinido de recuperación clínica. La recuperación se definió como una
puntuación de 6 o menos en la Escala de calificación de Hamilton para la depresión o 9 o
menos en el Inventario de depresión de Beck. Estos límites se determinaron haciendo
referencia a investigaciones anteriores, que indicaron que pocos síntomas restantes de
depresión ocurrieron en puntajes de este nivel.
Un método ligeramente diferente implica considerar el funcionamiento de los clientes
después del tratamiento sin compararlo con una muestra normativa. Por ejemplo, los
investigadores de agorafobia desarrollaron criterios para identificar el funcionamiento del
estado final basándose en las calificaciones combinadas posteriores al tratamiento de varias
medidas de resultado. A los clientes se les otorgó un punto cada uno por calificaciones
específicas en varias medidas de resultado: (a) <3 en la Evaluación Global de Gravedad; (b)
<3 sobre la autoevaluación de la gravedad; (c) <4 en las escalas de ansiedad y evitación
fóbicas; y (d) 20 en un curso de Evitación del comportamiento con <4 en las Unidades
subjetivas de malestar durante la prueba de aproximación. El funcionamiento en el estado
final alto se definió como una puntuación de 3 o 4, el funcionamiento en el estado final medio
se definió como una puntuación de 1 o 2, y el funcionamiento en el estado final bajo se
definió como una puntuación de cero.
Se pueden realizar una variedad de otros métodos, límites o comparaciones para
evaluar si los clientes se recuperan después del tratamiento. Además, algunos métodos
intentan combinar las nociones de mejora y recuperación. Quizás el método más conocido y
utilizado es el desarrollado por Jacobson y sus colegas.

Improvement Plus Recovery—Clinical Significance


a la Jacobson
Jacobson y sus colegas combinaron las nociones de mejora y recuperación para
determinar la importancia clínica del cambio individual. Jacobson y Truax proponen dos
criterios para evaluar la importancia clínica.
Primero, los clientes que reciben intervenciones psicológicas deben pasar de una
población disfuncional teórica a una población funcional como resultado del tratamiento
(recuperación). En otras palabras, si las distribuciones de individuos que necesitan
tratamiento y de individuos sanos se representan gráficamente, el cliente tratado debería tener
más probabilidades de ser identificado como miembro de la distribución sana. Por ejemplo,
un cliente deprimido que recibe terapia cognitiva debe tener una puntuación BDI después del
tratamiento que sea más similar a las puntuaciones de la población general que a los
resultados de los individuos deprimidos no tratados. Esto sigue el trabajo de Kendall y Grove,
quienes desarrollaron métodos estadísticos para comparar clientes tratados con grupos
normativos.
En segundo lugar, el cambio para un cliente debe ser confiable, el cambio previo al
tratamiento posterior debe ser lo suficientemente grande considerando la confiabilidad del
instrumento y la variabilidad del grupo normativo para que las diferencias se puedan atribuir
al cambio real y no al error de medición (mejora). Para determinar la confiabilidad, Jacobson
y Truax utilizan la fórmula de puntaje de cambio confiable descrita anteriormente.
Si el cliente cumple con ambos criterios, movimiento de una distribución a otra y un
RCI superior a 1,96, entonces el cambio se considera clínicamente significativo. Los lectores
interesados pueden consultar a Jacobson y Truax para obtener un ejemplo de este método
utilizando la Escala de ajuste diádico como una medida de resultado para la terapia marital, o
a Ogles, Lambert y Sawyer para un ejemplo de importancia clínica utilizando el tratamiento
del Instituto Nacional de Salud Mental para datos del programa de investigación colaborativa
de la depresión. De manera similar, Ogles, Lambert y Masters presentan datos útiles para
calcular la importancia clínica de varias medidas de resultado de la psicoterapia de uso
común. Si bien las ideas son bastante sencillas, se deben abordar varios problemas y
dificultades adicionales con este método.
Cuando las distribuciones funcional y disfuncional se superponen, se pueden usar
varios puntos de corte diferentes (o índices de corte clínicos) para determinar el criterio 1.
Jacobson y Truax sugieren tres puntos de corte posibles: la puntuación postratamiento se
considera parte de la distribución funcional cuando se encuentra dentro de 2 desviaciones
estándar de la media del grupo funcional, al menos 2 desviaciones estándar de la media del
grupo disfuncional, o al menos a medio camino entre estos dos puntos. Esta no es una tarea
complicada si se conocen las distribuciones de los grupos funcionales y disfuncionales. Sin
embargo, es posible que no se disponga de distribuciones normativas adecuadas para muchos
instrumentos psicológicos utilizados para evaluar el resultado.
Un número cada vez mayor de estudios utiliza el método de Jacobson para investigar
la importancia clínica del cambio individual dentro de los estudios de resultados. Una forma
de utilizar el método de Jacobson implica la representación gráfica del cambio antes y
después del tratamiento. En la Figura 1, se presenta un gráfico con el puntaje previo al
tratamiento en la escala de gravedad del problema de Ohio Scales Calificado por los padres
en el eje xy el puntaje posterior al tratamiento en el eje y se presenta. La línea horizontal
representa la puntuación de corte posterior al tratamiento necesaria para ser considerada parte
de la distribución funcional. La línea diagonal central que va de esquina a esquina es la línea
sin cambio. Los clientes que tengan las mismas puntuaciones antes y después del tratamiento
se representarán en esta línea (Cliente A). Las líneas diagonales punteadas a ambos lados de
la línea sin cambio representan las puntuaciones de cambio necesarias para dar como
resultado un RCI superior a 1,96. Los clientes entre las líneas diagonales discontinuas
(Cliente B) no mejoraron lo suficiente como para descartar fluctuaciones aleatorias o probar
la falta de confiabilidad como la fuente del cambio. Se puede considerar que los clientes
trazados fuera (arriba de la línea diagonal superior o debajo de la línea diagonal inferior) de
las líneas discontinuas han realizado cambios confiables para mejor (Cliente C) o para peor
(Cliente D). Los individuos que realizaron cambios confiables para mejorar y tuvieron
puntajes al final del tratamiento similares a la población funcional se grafican debajo de la
diagonal y el puntaje de corte (Cliente E). En general, el método de Jacobson y Truax
presenta un enfoque útil para determinar la importancia clínica del cambio individual que se
produce durante el tratamiento.

Some Criticisms of Current Methods


Si bien los métodos presentados aquí proporcionan enfoques novedosos y prácticos
para demostrar la mejora, la recuperación o ambos, también existen problemas en términos de
la validez de los instrumentos, múltiples medidas, sesgo potencial del evaluador, regresión a
la media, tasas de cambio base y límites de una distribución funcional.
El primer problema tiene que ver con la validez de los instrumentos utilizados para
evaluar el cambio clínico. Por ejemplo, el SCL-90R puede ser un indicador adecuado del
número y la intensidad de los síntomas respaldados por una persona, sin embargo, una
disminución en los síntomas informados puede corresponder o no a cambios de
comportamiento. Además, los clientes que ingresan al tratamiento no siempre parecen
disfuncionales en las medidas de resultado, ya sea por falta de sensibilidad de las medidas,
error de medición o quizás fluctuaciones temporales en los síntomas. Tener una puntuación
de cambio que sea confiable o una puntuación posterior al tratamiento que se encuentre
dentro de la distribución normal es una prueba de una mejora significativa. Sin embargo, la
validez de estos indicadores derivados estadísticamente no se ha comprobado
definitivamente.
Asimismo, la mayoría de los instrumentos son unidimensionales, mientras que las
personas en tratamiento presentan problemas clínicos multidimensionales. ¿Deberíamos
entonces exigir que un cliente muestre un cambio clínicamente significativo en varias
medidas del problema para que se considere una mejora significativa? ¿Y qué hacemos
entonces en casos de desincronía (por ejemplo, agorafobia, donde podríamos observar un
cambio de comportamiento sin un cambio fisiológico que lo acompañe)? Un estudio evaluó
la correspondencia de múltiples medidas de resultado utilizando el método de significación
clínica de Jacobson y los datos del programa de investigación colaborativa de tratamiento
para la depresión. Al comparar el número de individuos que podrían clasificarse como
modificadores clínicamente significativos utilizando tres medidas diferentes (Inventario de
depresión de Beck, Escala de calificación de depresión de Hamilton y Lista de verificación de
síntomas de Hopkins), existía un grado razonable de correspondencia entre las medidas. Más
del 75% de los clientes fueron clasificados por las tres medidas de forma consensuada. Sin
embargo, el 25% de los clientes realizó cambios en una medida, pero no en otras. Este
posible desacuerdo entre las medidas requerirá más estudio. Es importante destacar que las
definiciones de resultado deben considerarse y reconsiderarse.
Otro problema con algunos métodos para evaluar cambios clínicamente significativos
implica el problema del sesgo del evaluador. Quizás los instrumentos de autoinforme sean
demasiado reactivos para ser usados para juzgar la significación clínica, particularmente
cuando la validez social implica que alguien que no sea el cliente puede observar la utilidad
del cambio que ha ocurrido. Blanchard y Schwarz sugieren que la significación clínica
implica criterios objetivos observables. Quizás las investigaciones originales de validez social
en las que se observaba a los clientes con sus compañeros, o se grababan en video haciendo
escenarios de juego de roles, serían los métodos preferidos para determinar la utilidad clínica.
Al mismo tiempo, muchas medidas de autoinforme son más objetivas cuando involucran
índices de frecuencia. Una mirada más precisa y detallada a la variabilidad entre las medidas
de autoinforme puede revelar diferencias importantes que influyen en la evaluación del
cambio clínico.
Un tercer problema de importancia clínica cuando se representa mediante
puntuaciones de cambio fiables implica la regresión a la media. Speer sostiene que los
métodos utilizados para calcular el cambio confiable podrían estar sesgados por la regresión a
la media. Es decir, las personas que tienen puntuaciones altas antes del tratamiento en la
medida de resultado dada pueden ser las más propensas a lograr grandes mejoras. Speer
recomienda un método alternativo para calcular la significación clínica cuando la regresión a
la media se identifica empíricamente. Este método puede ser particularmente útil para los
administradores que están resumiendo los datos de evaluación de una clínica o centro. En
estas circunstancias, no se utiliza ningún grupo de comparación y los datos recopilados por la
clínica que indican un cambio positivo para muchos clientes pueden ser una función de
regresión a la media.
El proceso de ajuste de la regresión a la media implica básicamente dos pasos: (1)
verificar si la regresión a la media está operando dentro de los datos de la muestra, y (2) si es
así, ajustar las puntuaciones antes de calcular las tasas de mejora que se basan en tamaño del
cambio. Speer presenta los métodos estadísticos para realizar ambas partes del ajuste. El uso
más reciente de los métodos RCI presentados en la literatura generalmente incorpora las
recomendaciones de Speer.
Algunos investigadores también argumentan que los métodos para clasificar a los
clientes que pasan de distribuciones disfuncionales a distribuciones funcionales no consideran
la tasa base de movimiento entre las dos distribuciones. Como resultado, proponen
modificaciones a las fórmulas que fortalecen las conclusiones obtenidas al categorizar a los
clientes en grupos en función de sus puntuaciones posteriores al tratamiento.
Por último, Tingey, Lambert, Burlingame y Hansen argumentan que el método de
Jacobson es demasiado conservador, ya que un cliente que sufrió una descompensación grave
y luego mejoró hasta el nivel de una alteración leve no se consideraría clínicamente
mejorado. Aunque puede ser exacto concluir que la persona no forma parte de la distribución
funcional, una persona con una enfermedad crónica puede mejorar significativamente con un
nivel leve de disfunción, incluso desde el punto de vista de la validez social. Problemas
similares ocurren en el tratamiento médico donde es imposible volver al funcionamiento
normal. Nadie diría que una prótesis funciona exactamente como una extremidad perdida. Sin
embargo, una prótesis puede facilitar numerosas tareas de manera significativa. Entonces, la
pregunta fundamental es, ¿cuántas capacidades o funciones debe agregar la prótesis antes de
que se pueda considerar que crea un cambio clínicamente relevante y significativo? De
manera similar, si una persona con una disfunción psicológica cambia de manera confiable
pero es posible que nunca caiga dentro de los límites de una distribución funcional,
¿deberíamos descartar un cambio clínicamente significativo? Y si no es así, ¿cuánto cambio
deberían hacer antes de que consideremos que el cambio es clínicamente significativo?
Tingey sugiere identificar distribuciones múltiples que luego pueden usarse para
describir un continuo de disfunción. Específicamente, identificaron cuatro poblaciones
utilizando la Lista de verificación de síntomas-90 revisada: un grupo asintomático, una
población normal, un grupo de alteración leve y un grupo con alteración grave. En este caso,
la importancia clínica no requiere un movimiento hacia la distribución funcional, sino un
movimiento hacia la distribución siguiente o adyacente, independientemente de dónde
comience el cliente. Esta extensión del método parece particularmente relevante para el
tratamiento de personas con trastornos crónicos, donde la importancia clínica puede medirse
en términos de tasas de reingreso en lugar de comparaciones con un grupo de referencia
normal. Sin embargo, pocos instrumentos tienen distribuciones identificables a lo largo de un
continuo de gravedad. Ciertamente, se necesita hacer mucho más trabajo antes de que
podamos identificar fácilmente un cambio clínicamente significativo de esta manera. No
obstante, los lectores interesados ​pueden intentar desarrollar múltiples distribuciones según
sea necesario. A pesar de estas críticas variadas, los métodos para examinar la mejora, la
recuperación o ambos se están volviendo más aceptados y utilizados. Para examinar más a
fondo el uso actual de estos métodos en la práctica, realizamos una revisión de los estudios de
resultados publicados en una revista.

CLINICAL SIGNIFICANCE IN
PRACTICE
Para tener una idea de cómo se ha informado la importancia clínica en la práctica,
revisamos artículos en el Journal of Consulting and Clinical Psychology durante un período
de 9 años (1990-1998). Durante este período de tiempo, se identificaron 74 estudios que
realizaron análisis para examinar más a fondo el cambio clínicamente significativo. En
general, se representó un amplio espectro de intervenciones, poblaciones y diseños dentro de
este período de 9 años. Además, algunos autores se basaron en gran medida en estas técnicas
para interpretar sus datos, mientras que otros incorporaron este tipo de análisis más como una
ocurrencia tardía.
Aunque existen métodos claramente articulados para calcular la importancia clínica,
la recuperación o la mejora, hubo una variación considerable en la aplicación de estos
métodos por parte de los autores. En términos de la literatura sobre los resultados del
tratamiento en esta revista, parece haber cinco formas principales en las que se obtienen los
valores porcentuales / proporcionales.

Jacobson’s Clinical Significance: Reliable Change


and Clinical Cutoff Criterion
Aproximadamente el 35% (26 de 74) de los estudios muestreados utilizaron el método
de Jacobson y Truax para determinar la importancia clínica. Para ser considerados en esta
categoría, los autores tuvieron que articular claramente que se calcularon tanto un índice de
cambio confiable (RCI) como un punto de corte clínico. Esto pareció ser el más difícil de
implementar para muchos investigadores, y algunos optaron por calcular solo un punto de
corte clínico y otros calcularon solo el RCI. Aparentemente, quienes calcularon ambos
índices pudieron hacerlo principalmente debido a los datos psicométricos disponibles sobre
las medidas utilizadas en sus estudios.
Incluso dentro de la metodología de Jacobson, sin embargo, hubo una variación
considerable. Recuerde que hay tres formas de determinar el punto de corte clínico. La
recuperación se puede definir como colocar al individuo tratado dentro de 2 desviaciones
estándar de la muestra normativa o funcional (criterio A), 2 desviaciones estándar de la
muestra patológica o disfuncional (criterio B), o en el punto medio entre las 2 muestras
(criterio C ). Entre los estudios incluidos en la muestra, a veces fue difícil determinar
exactamente qué punto de corte se estaba utilizando. En varias ocasiones, se citaría la
metodología de Jacobson sin una explicación detallada de cómo se cumplió el requisito del
criterio de corte clínico. En general, se representaron todas las formas posibles de calcular
este índice. Algunos autores se preocuparon por el movimiento hacia la muestra normativa,
mientras que otros requirieron un movimiento más allá del punto medio, o lejos de los medios
disfuncionales del grupo. Otros consideraron puntos de corte clínicos relacionados con los
medios de pretratamiento de sus propias muestras.

Normative Comparisons
Jacobson’s recovery. Casi un tercio de los estudios, el 28% (21 de 74), se basó
en algún tipo de enfoque de comparación normativa para evaluar la importancia clínica. De
los 21 estudios de comparación normativa, la mayoría (13) utilizó una variación del método
de Jacobson para llegar a valores porcentuales de mejora. Estos enfoques fueron similares en
el sentido de que optaron por calcular solo una puntuación de corte clínica, sin calcular
también el RCI para cada cliente. Además, los estudios también se incluyeron en esta
categoría si no estaba claro que se utilizaron ambos índices. Foa ofreció una variación única
del punto de corte de Jacobson en un estudio que utilizó medidas que carecían de datos
normativos extensos. Estos autores consideraron que se produjo un cambio clínicamente
significativo cuando las puntuaciones de seguimiento excedieron 2 desviaciones estándar por
debajo de la media de la muestra previa al tratamiento (en lugar de los valores medios
basados en las normas). Este enfoque de la importancia clínica representa cómo se puede
modificar el método de Jacobson sin dejar de proporcionar información valiosa.

Kendall and Grove’s method. Diecinueve de los 74 estudios totales (26%)


utilizaron alguna variación del método de Kendall y Grove para determinar cambios
clínicamente significativos mediante comparaciones normativas. La importancia clínica
también se ha abordado categorizando a los individuos tratados como respondedores o
mejoradores. En este enfoque, los efectos del tratamiento se evalúan en términos de las
medias y las desviaciones estándar de un grupo de comparación normativo de manera muy
similar al punto de corte del criterio clínico utilizado por Jacobson y sus colegas. Algunos
autores han comparado las puntuaciones antes y después del tratamiento en términos de una
distribución z, mientras que otros utilizan puntos de corte de percentiles preexistentes y
elegidos arbitrariamente. Un ejemplo de esto se puede ver en el estudio de Webster-Stratton
sobre los efectos del entrenamiento de los padres en una variedad de medidas de síntomas de
la familia y el niño. Para ser clasificado como respondedor al tratamiento, el padre tenía que
informar una puntuación en una medida de síntomas (por ejemplo, BDI) dentro del rango
normal (por debajo del percentil 90). Para ser clasificado como un respondedor en la
interacción padre-hijo y las medidas de observación marital (ninguna de las cuales había
establecido datos normativos), el padre o el hijo tenían que mostrar una mejora del 30% por
encima de la línea de base. Otros estudios que pretenden medir cambios clínicamente
significativos basados ​en comparaciones normativas utilizaron cálculos similares.
Aunque no citan explícitamente a Kendall y Grove, algunos autores utilizaron un
procedimiento similar para examinar la importancia clínica del cambio del cliente. Estos
autores utilizaron puntuaciones predeterminadas de varias medidas dependientes para definir
varios niveles de funcionamiento o recuperación del estado final. Los clientes cuyas
puntuaciones cayeron en el rango predeterminado se clasificaron luego como recuperados o
con un alto funcionamiento en el estado final.

Symptom Improvement
RCI only. Dos de los 74 estudios utilizaron solo el RCI para calcular la importancia
clínica sin considerar el movimiento hacia la distribución funcional. En estos estudios, se
consideró que los clientes que lograron una mejora confiable cambiaron significativamente
independientemente de la gravedad de la puntuación posterior al tratamiento.
Blanchard’s method. Una última forma en la que se ha abordado la importancia
clínica, particularmente en el área de la psicología de la salud, implica investigar el grado de
reducción o mejora de los síntomas. Seis de los 74 estudios totales muestreados (8% del total
general) utilizaron el método propuesto por Blanchard y Schwarz para determinar la
importancia clínica descrita anteriormente. Blanchard definió el cambio clínicamente
significativo como una reducción del 50% en la puntuación del índice de dolor de cabeza. Se
ha seguido un procedimiento similar para determinar un cambio clínicamente significativo en
el síndrome del intestino irritable y el dolor abdominal recurrente.

Summary
Como se desprende de esta breve revisión de los estudios publicados, muchos
investigadores que estudian los efectos de las intervenciones psicológicas incluyen el análisis
de cambios clínicamente significativos en sus publicaciones. La mayoría de los estudios
simplemente informan el porcentaje o la proporción de modificadores clínicamente
significativos de manera descriptiva, sin un análisis estadístico formal. Algunos estudios
también incluyen una referencia al número de personas que se deterioran mientras se
inscriben en el tratamiento. Sin embargo, algunos autores han llevado esto un paso más allá al
realizar pruebas estadísticas para determinar las diferencias en la proporción de individuos
clínicamente mejorados entre los grupos de tratamiento.
La inclusión de datos de importancia clínica proporciona información útil para el
investigador y el médico. Los datos de importancia clínica brindan información valiosa sobre
las personas que participan en el tratamiento. De manera similar, los datos de significación
clínica se basan en pruebas estadísticas para proporcionar información sobre la variación
dentro del grupo. El uso de métodos para examinar la importancia clínica también
proporciona datos sobre la importancia del resultado del tratamiento. Las técnicas descritas
en este documento tienen características únicas que se suman a muchos estudios de
intervención de tratamiento. Varios problemas también son evidentes al revisar estudios que
aplican las metodologías de importancia clínica. Muchos estudios no informan los parámetros
utilizados para calcular el RCI o el punto de corte clínico. Por ejemplo, el tamaño del cambio
necesario para producir una mejora está en parte relacionado con el coeficiente de
confiabilidad de la medida dependiente. Algunos estudios usan una estimación de
consistencia interna de la confiabilidad, mientras que otros usan una estimación de
prueba-prueba al calcular el RCI. Del mismo modo, algunos estudios utilizan parámetros
específicos de la muestra, mientras que otros utilizan muestras normativas. Esta variación en
los parámetros produce resultados heterogéneos entre estudios y muestras. Quizás se podrían
utilizar definiciones acordadas de puntajes de corte para ayudar a mejorar la comparabilidad
de los estudios.
Por supuesto, las definiciones estandarizadas de puntajes de corte para recuperación o
mejora dependen de datos suficientes para las medidas dependientes. El examen de la
importancia clínica en muchos estudios se ve obstaculizado por el uso de instrumentos que
tienen datos psicométricos o normativos limitados. Al intentar comparar a los individuos
tratados con un grupo funcional, la falta de datos normativos de calidad presenta un desafío
significativo. Es imprescindible continuar los esfuerzos para ampliar aún más los datos
disponibles para las medidas utilizadas como variables dependientes. De manera similar, los
estudios con ciertas poblaciones parecen ser más susceptibles a la metodología de
importancia clínica. Por ejemplo, los estudios de trastornos crónicos de salud mental (p. Ej.,
Esquizofrenia, trastorno afectivo bipolar) o estudios de enfermedades crónicas (p. Ej.,
Diabetes, asma, artritis) plantean problemas potenciales con la metodología de importancia
clínica. Determinar los puntos de corte y otros criterios que indican si se ha producido o no
un cambio significativo es más difícil cuando se tratan las enfermedades crónicas. Las
definiciones innecesariamente conservadoras de mejoría no deben dictar el éxito de un
tratamiento cuando la afección es a largo plazo.
El problema del deterioro que ocurre durante el tratamiento a menudo se descuida.
Aunque el deterioro se está convirtiendo en un tema más prominente, muchos estudios no
investigan este tema. Con respecto a los estudios muestreados en nuestra revisión, un cambio
negativo superior a 1,96 SED parecía ser la forma más común de operacionalizar el deterioro.
Sin embargo, la mayoría de los estudios no consideraron ni informaron datos sobre el
deterioro. Jacobson presentó un enfoque interesante para examinar el deterioro, en el que el
deterioro se definió como la ausencia de recuperación o mejora identificable. La recuperación
fue indicada por un RCI de 1,96 y una puntuación de BDI por debajo de 10, mientras que la
mejora fue indicada por un RCI de 1,96 con un BDI mayor o igual a 10. El deterioro se
describió como aquellos clientes que ni se recuperaron ni mejoraron. En el área de la
psicología de la salud, el deterioro se definió como la ausencia de una reducción en la
frecuencia de los síntomas o una disminución por debajo del 50% de mejoría en un índice de
síntomas cuando inicialmente se había logrado una mejoría. Claramente, se puede hacer más
para identificar y estudiar las razones del deterioro del tratamiento.
En general, una gran cantidad de estudios de resultados de tratamiento revisados en un
período de 9 años han informado algún tipo de datos con respecto a la importancia clínica. Se
utilizan varios métodos diferentes y existe una gran variabilidad en la forma en que se
informan los resultados (al menos en términos de la revisión no exhaustiva proporcionada
aquí). Es decir, lo que constituye un cambio clínicamente significativo puede ser ligeramente
diferente según las propiedades psicométricas de las medidas de resultado y los métodos
utilizados por los investigadores. No obstante, en un año determinado, entre 3 y 14 estudios
(en el Journal of Consulting and Clinical Psychology) han citado y utilizado los métodos de
Jacobson y Truax, Kendall y Grove, Blanchard y Schwarz, u otros. Por lo tanto, para muchos
autores, confiar exclusivamente en la significación estadística sigue siendo una forma
insatisfactoria de evaluar la significación del cambio.

CONCLUSIONS
A medida que los investigadores regresan a las raíces de la investigación en
psicoterapia, los métodos para investigar el significado clínico de los cambios se están
convirtiendo en una adición estándar al estudio de resultados de la terapia típica. Dentro de
esta revisión, se presentó una historia del concepto de importancia clínica junto con una
descripción de los métodos actuales para examinar la importancia clínica. Finalmente, se
examinó la aplicación de estos métodos en la literatura actual sobre los resultados del
tratamiento.
Con estos antecedentes se ofrecen varias conclusiones sobre el estado de los métodos
de importancia clínica.

1. Ya se utilizan varios métodos para examinar la importancia clínica en los estudios de


resultados de la psicoterapia y los investigadores parecen estar cada vez más
interesados ​en utilizar estos métodos. De hecho, se abogó por la necesidad de un
examen de importancia clínica para los estudios presentados al Journal of Consulting
and Clinical Psychology. Es posible que los estudios actuales sobre la eficacia de la
terapia necesiten examinar la significación estadística y clínica para que la
presentación sea lo suficientemente completa.
2. La aplicación más común de los métodos de evaluación de la significación clínica
sigue al examen estándar de significación estadística. Los investigadores utilizan los
métodos como una forma de demostrar que los hallazgos estadísticamente
significativos también son clínicamente relevantes.
3. Tres métodos para examinar la importancia clínica parecen ser los más citados y
utilizados: (1) alguna variación del enfoque de Jacobson y Truax, (2) comparación
normativa utilizando el enfoque de Kendall y Grove, y (3) el índice de reducción de
síntomas propuesto por Blanchard y Schwarz. Cada método produce un recuento final
del número de individuos que pueden identificarse como que cambian de manera
clínicamente significativa.
4. Existe una gran variación en la aplicación de los métodos para examinar la
importancia clínica. Incluso cuando los investigadores usan el mismo método o
poblaciones similares de clientes, los parámetros seleccionados para usar en las
fórmulas difieren significativamente. Esta falta de uniformidad disminuye la utilidad
del proceso y genera serias preocupaciones con respecto a la posible mala
interpretación de los resultados, especialmente cuando se comparan estudios.
5. Se han planteado varios problemas estadísticos espinosos con respecto a los métodos
para calcular la significación clínica (por ejemplo, regresión a la media, falsos
positivos como resultado de tasas base, variaciones en fórmulas, identificación y
selección de puntos de corte, selección de muestras normativas, selección de
parámetros apropiados). La investigación continua debe resolver los detalles de estos
temas interesantes y complejos. Las recomendaciones para direcciones futuras en este
viaje se describen a continuación.

FUTURE DIRECTIONS
Dado el estado actual de la literatura de importancia clínica, ¿qué adiciones y
expansiones de la literatura se justifican? Aquí se sugieren varias posibles vías de estudio.

1. El estudio continuo ayudará a aclarar la validez de las definiciones de importancia


clínica y ayudará a estandarizar los métodos más prometedores para examinar la
importancia clínica. Por ejemplo, un enfoque programático en índices de cambio
confiables puede ayudar a identificar una definición estándar para el tamaño del
cambio necesario para ser identificado como mejorado. Quizás un cambio de 1
desviación estándar en una medida de síntoma puede ser confiable y notable. Una
serie de estudios ayudará a identificar los factores sistemáticos que influyen en las
diferencias entre las medidas y los métodos.
2. Los datos adicionales (por ejemplo, normativas y otras muestras de comparación,
estimaciones de confiabilidad entre muestras, etc.) con respecto a muchos de los
instrumentos utilizados como variables dependientes serán especialmente útiles para
los investigadores que examinan la importancia clínica. De manera similar, el acuerdo
sobre los parámetros que se utilizarán al investigar la importancia clínica ayudará a
realizar comparaciones entre estudios más informadas.
3. También será un desafío continuo investigar la validez de las diversas metodologías
para identificar individuos recuperados, mejorados o modificados. Claramente, todo el
cuerpo de la literatura sobre la identificación y el uso de puntajes de corte se vuelve
relevante para este tema. Tanto las cuestiones estadísticas relevantes para la
clasificación como las cuestiones teóricas relevantes para la validez de constructo de
las clasificaciones necesitan más estudio.
4. Dentro de los trastornos que son más crónicos, la búsqueda de definiciones menos
conservadoras de importancia clínica puede ser especialmente fructífera.
Especialmente a medida que las intervenciones psicosociales se vuelven más
frecuentes en los entornos de atención de la salud, la identificación de un cambio
clínicamente significativo debe abordar los problemas relacionados con las
enfermedades crónicas. De manera similar, se deben desarrollar definiciones de
cambio clínicamente significativo cuando se estudian intervenciones psicosociales
con personas que tienen trastornos mentales crónicos y graves. El reciente énfasis en
la medición de la calidad de vida dentro de estas áreas puede ser una línea de trabajo
continuo especialmente atractiva.
5. También será importante ampliar las nociones de mejora y recuperación para
considerar el deterioro. Muchos estudios ignoran el hecho de que algunas personas
que reciben tratamiento empeoran. En un estudio, los terapeutas y los clientes no
pudieron diferenciar entre las personas que no cambiaron y las que se deterioraron. El
estudio adicional de los factores que conducen al deterioro en el tratamiento y las vías
para una identificación exitosa justifican un estudio adicional.

En general, el estudio de importancia clínica seguirá siendo un campo prometedor


para la investigación en los próximos años. Especialmente en esta era de responsabilidad,
aumentará la capacidad de los profesionales de la salud conductual para demostrar que sus
intervenciones no solo son estadísticamente satisfactorias. El establecimiento de la relevancia
clínica ayudará a verificar que las intervenciones psicosociales sean significativas para los
clientes, los terapeutas y la sociedad.

También podría gustarte