Está en la página 1de 18

203

Tema 1-12

Medicina basada en evidencia


El método científico
Ensayos clínicos y Estudios clínicos

Editorial de la revista Prescripción de Fármacos, vol. 27, enero 2021,


con el título “La “n” del ensayo clínico”, firmada por el
Dr. Antonio G. García. Médico y Farmacólogo clínico, catedrático emérito de la UAM.

Un experimento “clínico” muy controvertido fue el del escocés James Lind que hizo en el
barco HMS Salisbury cuando en 1747 patrullaba por el Canal de la Mancha. A los 2 meses, muchos
marineros comenzaron a presentar síntomas de escorbuto. Lind debió conocer que las naranjas y
los limones se habían utilizado siglos antes por las armadas inglesa y española, para prevenir
aquella extraña “enfermedad del mar”. Y, como cirujano del barco preocupado por la salud de sus
marineros diseñó lo que se considera el primer ensayo clínico de la historia, con 12 de ellos. Los
agrupó en 6 parejas y les trató con 6 “pociones” distintas a saber: 1) un cuarto de sidra al día; 2)
25 gotas de elixir de vitriolo, tres veces al día (ácido sulfúrico diluido); 3) media pinta de agua de
mar al día; 4) una pizca de un medicamento de entonces (pasta de ajo, semillas de mostaza,
rábano picante, bálsamo de Perú y resina de mirra), tres veces al día; 5) dos cucharadas de
vinagre, tres veces al día; 6) dos naranjas y un limón.
Le faltaron el grupo control (placebo), la aleatorización de los tratamientos, el doble ciego,
el plan estadístico, el programa de farmacovigilancia, el consentimiento informado, la comisión
externa para evaluar eficacia y riesgo, entre otras muchas características del moderno ensayo
clínico. Pero el resultado de aquél histórico ensayo clínico no pudo ser más claro: solo la pareja de
marineros tratados con cítricos se recuperaron en 1 semana de manera tan asombrosa, que
pudieron así ayudar a Lind a cuidar a las otras parejas de enfermos.
Independientemente de la polémica que resultó sobre la interpretación del estudio, derivada
de su tibieza en reconocer el valor curativo de los cítricos en el escorbuto, el hecho es que con una
n=12 pudo Lind resolver el enigma de una enfermedad que diezmaba las poblaciones de marineros
en los viajes duraderos de la época y de épocas anteriores. Es curioso, en cualquier caso, que la
Armada británica no adoptara la medida profiláctica del escorbuto (zumos de naranjas y limones)
hasta 42 años después del experimento de Lind.

Nota de los profesores: Las “muchas características del moderno ensayo clínico” que cita el autor son
ciertamente muy pertinentes en muchas situaciones. Constituyen importantes avances de metodología que hacen
mas sólidas las conclusiones de los estudios. Pero cuando se hace un uso indiscriminado de ellas pueden
dificultar, más que favorecer, la investigación médica. La clave está en no adherirse a ellas ciegamente, sino
entender realmente cada uno de ellas y aplicarla razonablemente.
204

MEDICINA BASADA EN LA EVIDENCIA: MITOS Y REALIDADES


¿DESCUBRIÓ COLÓN AMÉRICA SI NO ERA EL “OBJETIVO PRIMARIO” DE SU VIAJE?

Luis Prieto, Carmen Carazo, Manuel Martinez-Sellés

1. Introducción

El análisis estadístico de los datos en investigación médica es una especialidad cuyo dominio
requiere, como todas, muchos años de estudio y práctica. Comparte con alguna otra especialidad,
como el radiodiagnóstico, el ser transversal, de modo que prácticamente todos los médicos necesitan
poder interpretar una radiografía simple y también necesitan poder interpretar los resultados de los
estudios publicados en revistas médicas o informes técnicos. Sin embargo, el médico que ejerce
cualquier otra especialidad no tendrá tiempo para hacerse experto ni en radiodiagnóstico ni en
análisis estadístico. En ambos campos las técnicas de nivel medio y avanzado quedan reservadas
para los que se dedican en exclusiva a ellas. Solamente podrá realizar un buen estudio angiográfico
de cerebro el neuroradiólogo y solamente podrá realizar un buen análisis de supervivencia, con o sin
regresión de Cox, el bioestadístico.
La experiencia y el sentido común dicen que solo una minoría de Médicos pueden manejar
con soltura y solidez los métodos de análisis estadístico de complejidad media. Porque requiere
mucho tiempo y esfuerzo, y la mayoría de los médicos prefieren, como es lógico, dedicar esa energía
a reforzar conocimientos en su propia especialidad. Pero prácticamente todos los médicos necesitan
conocer los conceptos básicos del análisis estadístico que aparecen en la inmensa mayoría de las
publicaciones médicas o que ellos incluirán en sus propias publicaciones. Además, tener claras esas
ideas ayudará al médico a no ser víctima de modas y movimientos pendulares que transitan por el
ecosistema de la investigación médica.
Lamentablemente, varios malentendidos infectan nuestra actividad investigadora y algunos
se enquistan e incluso crecen paulatinamente, llegando a lastrar notablemente las tareas
investigadoras. Todos esos equívocos tienen su origen en ideas originalmente correctas que deben
de ser tenidas en cuenta, pero al ser malinterpretadas por profesionales poco expertos acaban siendo
una caricatura de sí mismas y suponen un lastre, en lugar de una ayuda, para el investigador y la
investigación. Hay que evitar que se asienten ciertos mitos, repetidos con más fe que conocimiento,
que bajo la apariencia de “rigor científico“ atenta frontalmente contra él y entorpecen el desarrollo de
la investigación médica.
Por ser ya muy conocido y haber recibido atención en cientos de artículos y de libros, no
comentamos aquí el problema de la presunta barrera que supone “P<0.05” o “P< 0.01” o cualquier
otro valor arbitrario. Es bien sabido que en un contexto de toma de decisiones tiene todo el sentido
acordar un valor P del test frontera. Pero no es ese el escenario más frecuente en la investigación
médica. Tienen total vigencia la advertencia que hizo Rozeboom hace más de 60 años “...el propósito
central de un experimento no es precipitar la toma de decisiones sino propiciar un reajuste en el
grado de confianza que uno tiene en la veracidad de cierta hipótesis. La tarea del científico no es
prescribir acciones, sino establecer convicciones razonables... y la creencia en una proposición no
es un asunto de todo o nada.” (1)
En este trabajo se comentan brevemente seis errores frecuentes que lastran la investigación
biomédica.

1. Los estudios observacionales, por muy buenos que sean, tienen escaso valor. Solo los
ensayos clínicos controlados, aleatorizados y ciegos producen evidencias consistentes.
205

Es cierto que los ensayos clínicos controlados nos proporcionan el mayor nivel de evidencia
científica en la investigación biomédica. Solo superado por el que aporta un buen metanálisis con
varios ensayos clínicos controlados. Aunque no podemos exponerlo aquí con detalle, solo este tipo
de diseños nos brinda alta probabilidad de que algunos posibles factores de confusión no incluidos
en el estudio estén repartidos equilibradamente entre ambos brazos. Pero debe estar claro qué aún
con la mejor aleatorización no tendremos nunca garantía total de ausencia de confusión. Es decir,
no tenemos garantía total de que el efecto que estamos reportando se deba exclusivamente al
“tratamiento” que estamos estudiando.
Sin embargo, hay muchas situaciones en medicina en las que no podemos “manejar a los
enfermos” para ubicarles en placebo o tratamiento. Ejemplo típico son los factores de riesgo o de
prevención, fundamentales para evitar la enfermedad antes de que aparezca. La inmensa mayoría
de estos factores no pueden ser “administrados” a los pacientes y la única opción que tiene el médico
es hacer Estudios Observacionales, donde se compara a pacientes con un factor frente a pacientes
sin él. Por supuesto, cualquier hallazgo de este tipo debe valorarse con extremo cuidado, utilizando
análisis multivariado para controlar por otros factores que estén contemplados en el estudio.
Consideremos, entre otros muchísimos ejemplos, el caso del tabaco como factor de riesgo
para patología pulmonar y de otros tipos. Evidentemente los Estudios Observacionales realizados
por Richard Doll (2) y otros a mediados del siglo XX no pueden ser complementados con ensayos
clínicos controlados. Yendo más atrás en el tiempo, las aportaciones fundamentales del doctor John
Snow (3) sobre la epidemia de cólera de Londres, que salvaron cientos de miles de vidas, solo se
podían hacer observando cuidadosamente la incidencia de casos y relacionándolas con las redes de
distribución del agua “potable”.
La historia de la medicina, remota y actual, está llena de aportaciones notables realizadas con
Estudios Observacionales bien analizados. Es responsabilidad de todos nosotros valorar esa
herramienta en lo mucho que vale, mejorarla en lo que sea posible y utilizarla adecuadamente,
siempre en combinación con otros recursos que la investigación médica nos ofrece. Repetimos: el
efecto de los factores de riesgo solo se puede hacer con Estudios Observacionales. Sin ellos no
tendríamos, por ejemplo, noticia fiable de que fumar perjudica. Y la tenemos.

2. El tamaño de la muestra usada en un estudio puede ser insuficiente, aunque el resultado


presente clarísima evidencia contra la hipótesis nula.

La valoración sobre la posible suficiencia del tamaño de la muestra, “N”, usado para un estudio
tiene sentido, fundamentalmente, antes de realizarlo. Y en algunos casos la valoración del N podría
ser útil tras realizar el estudio, si éste no arroja evidencia clara contra la hipótesis nula. Pero,
prácticamente ningún caso en que el resultado del estudio arroja fuerte evidencia contra la hipótesis
nula puede ser esta cuestionada en base al N usado. Este razonamiento es inherente a la inferencia
estadística, en la que una hipótesis se rechaza si la verosimilitud de los datos empíricos bajo la
distribución poblacional que dicha hipótesis plantea es suficientemente baja.
El cálculo de dicha verosimilitud es una es cuestión de estadística matemática, pero la
conclusión razonable tomada por el investigador es, como Ronald Fischer (padre de la inferencia
estadística) puntualiza, una cuestión de lógica básica, para la que están igualmente dotados el
matemático y el lego en esa materia (3).
Este mecanismo de la inferencia lógica se usa en todas las actividades humanas, científicas
o no, y por ello se puede ilustrar con una situación tomada de cualquier otro ámbito. Supongamos
que al terminar un largo paseo por el Retiro caemos en la cuenta de que hemos perdido una valiosa
joya en el parque, pero no sabemos exactamente dónde y la mañana siguiente nos disponemos a
buscarla. Dado el gran tamaño del parque, si la búsqueda la hace una sola persona, la probabilidad
de encontrar la joya es muy pequeña (esa acción tiene poca “potencia”). Si colaboran 5 personas,
206

esa probabilidad es mayor y si colaboran 100 personas es mucho mayor. Pero si va usted solo y
encuentra la joya, no podemos cuestionar el resultado alegando que inicialmente era poco probable
que la encontrara. Antes de realizar la búsqueda podemos aconsejarle que no la haga una sola
persona, porque es muy improbable que la encuentre. Y podemos valorar si cierto número de
personas es o no adecuado. Pero una vez hecha la búsqueda, si ha tenido éxito, no tiene sentido
discutir sobre si el número de buscadores era o no suficiente. De nuevo, es un razonamiento lógico,
no matemático. Volveremos a encontrar este ejemplo en un apartado posterior, cuando hablemos de
la potencia estadística de la investigación

3. El autor de un proyecto de investigación debe especificar el objetivo principal y los


secundarios y cualquier relación que encuentre fuera de ellos, por muy interesante que sea,
no debe ser considerada

Es cierto que no es lícito “torturar los datos” hasta que aparezca alguna relación interesante,
avalada, presuntamente, por un valor de P menor que cierta cota. Cota acordada sin motivo especial
por personas que no conocen bien el tema y aceptada por una mayoría de investigadores que al no
ser especialistas en ese campo se ven obligados a aceptar lo que digan los expertos. El problema
del multitesting debe ser tenido muy en cuenta y hacer siempre las correcciones necesarias en cada
caso. Una vez más, los razonamientos lógicos son la guía principal para no perder el rumbo en este
tema. Un ejemplo típico de que el multitesting nos puede llevar, y de hecho nos llevará
indefectiblemente, a sacar conclusiones arbitrarias si no se hacen las correcciones necesarias, se
muestra en la tabla 1.
Si hacemos test de Inferencia Estadística repetidamente, acabamos encontrando alguna
relación “estadísticamente significativa”, aunque no exista. Para evitar este sesgo se acordó que el
investigador debe tener previamente definidos el tipo de relaciones que va a buscar en esos datos,
y no comparar “todo contra todo” indiscriminadamente. De ahí viene el criterio de acordar
previamente las relaciones que se pretende indagar y establecerlas como “objetivo”. Es un criterio
inicialmente razonable, pero una vez más, el sentido común debe prevalecer, impidiendo que se
convierta en una norma rígida, que repetida con más fe que conocimiento, puede entorpecer la
investigación en vez de favorecerla. Hay que tener presentes al menos dos tipos de excepciones.
La primera se refiere a que es muy lícito, y bastante frecuente, que el investigador se plantee
revisar un conjunto de historias clínicas correspondientes a pacientes de cierto tipo, para explorar
posible información que haya escondido en ellas, sin tener definido un objetivo inicial y excluyente.
Puesto que esto abre la posibilidad de hacer muchas pruebas estadísticas, tendremos en cuenta el
problema del multitesting y seremos más exigentes al valorar la evidencia que el valor P del test
aporta contra cada hipótesis nula planteada. De nuevo, el criterio de Bonferroni, el de Tukey, el de
Dunnet y otros muchos se encargan de corregir el valor P del test para cada comparación en función
del número de comparaciones que se hayan hecho en el mismo estudio.
Teniendo bien presente estas correcciones, debe estar claro que este enfoque es
perfectamente lícito y en muchas ocasiones es el adecuado para explorar una base de datos que
puede tener mucha información esperando que exploraciones realizadas por expertos la saquen a la
luz. Todos los investigadores con experiencia saben que en muchas ocasiones enumeran los
objetivos principales y secundarios de su estudio solamente debido a que se les exige ese
formalismo, no porque esa enumeración refleje realmente las motivaciones y planes de trabajo del
investigador. Una vez más se ven obligados a rendir tributo a la norma reinante, que tiene un origen
muy razonable, pero pierde su eficacia cuando se convierte en un corsé rígido.
La segunda situación que debe de ser tenida en cuenta se refiere al caso en que se aborda
un estudio con un objetivo muy bien definido y al explorar los datos encuentra una relación mas o
menos sorprendente, con un alto grado de evidencia estadística. Si la evidencia estadística es notoria
207

el investigador no puede ni debe obviar esa información. Muy al contrario, debe analizarla con el
mayor detalle posible y si se descarta que era consecuencia de alguna confusión accidental,
comunicarla a la comunidad científica, para que estudios posteriores confirmen, deseche o maticen
ese hallazgo.
Muchos avances en la medicina se han producido al encontrar el médico relaciones con las
que inicialmente no contaba. La historia de la medicina - y de prácticamente todas las ciencias -
refleja muchísimos episodios en los que ocurrió precisamente eso. No tener clara esta idea y
aferrarse rígidamente a que ningún hallazgo debe ser tenido en cuenta si no se ha especificado como
“objetivo” del estudio, puede llevar a situaciones totalmente contrarias al sentido común más básico
y a lo que el rigor científico exige. Una caricatura de esta situación propone que Cristóbal Colón no
descubrió América, puesto que ello no estaba contemplado como objetivo, ni primario ni secundario,
en su proyecto de viaje.

4. Un valor P del test grande, por ejemplo mayor de mayor de 0.10, nos dice que es cierta la
hipótesis nula, de modo que, por ejemplo, el fármaco en estudio no produce más porcentaje
de curaciones que el placebo.

En todos los campos de la actividad humana y de cada ciencia en particular aplica el hecho
de que “la ausencia de evidencia no implica evidencia de ausencia”. Entender esto claramente no es
una cuestión matemática, si no puramente lógica y haciendo una reflexión sosegada se ve que todos
los individuos aplicamos ese razonamiento en la vida común y en todas las ciencias (tabla 2). Estos
procesos lógicos, comunes a todos los seres humanos, deberían ser perfectamente entendidos por
todos los médicos, ya que ellos los aplican así en todos los ámbitos de su vida, personal y profesional.
Curiosamente, solo emiten conclusiones contrarias al sentido común, afirmando que es cierta la
hipótesis nula porque no se puede descartar que sea falsa, en el contexto de la investigación médica.
Estos errores reflejan un fallo sistémico en la enseñanza de la metodología de la investigación a los
estudiantes y profesionales de medicina (4-8). De hecho, como indica el editorial de Nature en 2014,
estos errores, reiteradamente denunciados, suceden en todos los países supuestamente avanzados
(9). Esta violación de la lógica más básica viene siendo tradición en la investigación médica desde el
nacimiento de la inferencia estadística hasta el presente. En 1978 el New England Journal of
Medicine publicaba un artículo de autocrítica reportando errores en la interpretación de ensayos
clínicos, supuestamente “negativos”, publicados en la propia revista (10). Este lastre no es “cosa del
pasado” y se siguen publicando artículos con el mismo fallo (11). Si el lector quiere hacer una
búsqueda similar actualmente, comprobará que este error sistemático sigue estando presente.

5. El test de “t de Student” y el ANOVA asumen que la variable se distribuye de modo Normal


en las poblaciones implicadas. Por ello hay que aplicar el “test de normalidad” y usar esas
técnicas solo si ese test indica que la variable tiene distribución normal.

Una vez más esta “regla” tiene su razón de ser. Es cierto que la distribución en el muestreo
aleatorio de los estadísticos “t de Student” y “F de Snedecord” siguen la distribución que las
correspondientes funciones de distribución especifican solamente si la variable en cuestión tiene
distribución normal en las poblaciones muestreados. Pero hay que tener en cuenta otros hechos no
menos ciertos, que obligan a matizar dichas reglas. En primer lugar, debe estar claro qué en ningún
caso los “test de normalidad” pueden garantizar que la variable se distribuya de modo normal en las
poblaciones. Pueden mostrar evidencia notable en contra de esa hipótesis, pero nunca, como
veíamos en el apartado anterior, permitirán firmar dicha normalidad poblacional.
Por ello, siempre que aplicamos estas pruebas lo hacemos asumiendo una normalidad que
en ningún caso podemos demostrar. En segundo lugar, debe tenerse en cuenta que cuando el
208

tamaño muestral supera, digamos, 30, el Teorema Central del Límite nos garantiza la distribución
normal del estadístico en estudio. El test estadístico no se basa en la distribución de esa variable en
la población de individuos sino en la distribución de, por ejemplo, las medias muéstrales en el
muestreo aleatorio y esta distribución será muy aproximadamente normal con tamaño de muestra
superior a 30, independientemente de cómo sea la distribución en la población individuos.
En muchos estudios médicos las comparaciones afectan a muestras suficientemente
grandes como para tener la seguridad de que estamos protegidos por el teorema central del límite.
En tercer lugar, debe tenerse en cuenta que la distribución de los estadísticos involucrados presenta
una notable robustez frente a la no normalidad de la distribución original, de modo que los percentiles
correspondientes a la distribución del estadístico en estudio son muy próximos a los correspondientes
de las distribuciones “t” y “F”. Es decir, el valor P del test proporcionado por estas distribuciones es
razonablemente próximo al valor P del test original. De hecho, subraya Armitage, “estudios con
simulaciones indican que la robustez es suficiente como para usar la distribución de Student y la de
Fischer aún con notables violaciones de la normalidad poblacional”. (12,13) De todo ello se deduce
que en la mayoría de los casos es más eficiente utilizar test paramétricos que test no paramétricos,
porque aquellos suelen tener mayor potencia estadística y mucha mayor versatilidad al aplicar, por
ejemplo, las comparaciones Post ANOVA.

6 . Si un proyecto de investigación tiene una potencia estadística baja, no debe ser abordado,
puesto que es escasa la probabilidad de detectar el efecto que estamos buscando.

Recordemos que la potencia de un estudio es la probabilidad de rechazar la hipótesis nula si


realmente hay el efecto buscado y este tiene una cuantía determinada. No tiene sentido emprender
una acción si la probabilidad de éxito es muy baja. El criterio es en principio totalmente razonable y
diríase que de obligado cumplimiento. Pero este criterio tan razonable queda notablemente debilitado
por el hecho de que la potencia estadística del estudio no es una cantidad determinada propia de
cada investigación, sino que depende de cuatro parámetros y combinando adecuadamente sus
valores se puede conseguir valores de potencia muy dispares. Por ello ese argumento en principio
razonable, tiene en la práctica aplicación muy limitada (tabla 3).
Vemos que variando los requerimientos dentro de valores que son todos razonable se
obtienen valores de potencia muy distintos. Por ello ese argumento, en principio razonable, tiene en
la práctica aplicación muy limitada. Cuenta la historia que un general muy autoritario preguntó a su
ayudante qué hora era y este contestó: “La que usted prefiera, mi general”. Obviamente, eso es una
caricatura. Ningún hombre, por muy poderoso que sea, puede cambiar el curso del tiempo. Sin
embargo, cuando un evaluador pregunte cuanta potencia estadística tiene un proyecto con cierto
tamaño de muestra, en muchos casos se le puede contestar: “Casi la que usted prefiera”. Y en este
caso la respuesta es, en gran medida, correcta. Pero, si en lugar de dar esa respuesta, que es cierta,
optamos por responder con una cifra, diciendo, por ejemplo, “la potencia del este estudio con N=40
es 88 %” y el evaluador considera que su pregunta ha sido contestada, podemos tener la seguridad
de que realmente no conoce el tema. Porque si lo conociera preguntaría a qué valores de la
desviación, del valor alfa y del efecto real corresponde esa potencia. Y además sería consciente de
que modificando esos valores adecuadamente, dentro de márgenes razonables, se obtienen valores
de potencia muy distintos. Pese a ello, sí hay situaciones - menos frecuentes - en que el cálculo
previo de la potencia tiene utilidad.

En conclusión, el diseño de estudios biomédicos y la interpretación correcta de los resultados


de los análisis estadísticos publicados en revistas biomédicas, exige entender los conceptos básicos
de las técnicas estadísticas. Tenerlos claros evitaría muchos equívocos que tienen su origen en ideas
originalmente correctas pero que si son malinterpretadas suponen un lastre en la investigación.
209

Tabla 1. Ejemplos de cómo el multitesting puede llevar a sacar conclusiones arbitrarias si no se hacen las
correcciones necesarias.
Para un tratamiento “A”, que en realidad es agua destilada a la que se ha añadido cierto colorante anodino,
realizamos 100 ensayos clínicos comparando “A” frente a placebo.
- aproximadamente en 5 de los 100 estudios obtendremos P < 0.05 y en 1 de los 100 estudios
obtendremos P < 0.01.
- Si publicamos solamente uno de estos estudios, cayendo, obviamente, en un caricaturesco “sesgo
de publicación”, muchos médicos interpretarían que hemos demostrado la eficacia de nuestro
“nuevo tratamiento”.
- El criterio de Bonferroni nos muestra que la probabilidad de que entre los 100 estudios haya al
menos uno con valor P < 0.05 es 99.4% y la probabilidad de que al menos un estudio arroje valor
P< 0.01 es 63.4%.

Un estudio con pacientes de toda España y en el que se quiere comparar una variable cuantitativa en las
17 autonomías.
- Si se consideran todas las posibles parejas de autonomías el número de comparaciones que
aparecen es 17 x 16 / 2 = 136.
- Al no ser estas comparaciones independientes entre sí, el cálculo de Bonferroni sería solo un
aproximación grosera, pero suficiente para darnos una idea de la probabilidad de encontrar al
menos un test con P < 0.01, si realmente no hubiera diferencia entre las 17 autonomías:
- P (al menos una comparación con P < 0.01) = es 1 - ( 1- 0.01)^136 = 74%.

Tabla 2. Ejemplos de que la ausencia de evidencia no implica evidencia de ausencia en distintos ámbitos.
- Vida común: a las 12:00 fue robada la joya de la corona del palacio real. Planteamos como hipótesis que
Juan es el autor material del robo. Si como dato observado tenemos que a esa hora estaba a 5000 km de
distancia del palacio Real, la hipótesis se rechaza tajantemente. Por el contrario, si el dato dice que a esa
ahora estaba muy cerca del palacio Real, decimos que el dato es compatible con la hipótesis, es decir,
pensamos que Juan puede ser en ladrón. Pero, obviamente, solamente con ese
- dato ninguna persona en su sano juicio afirmaría que Juan es el ladrón.
- Ciencia: postulamos como hipótesis que en Marte no hay vida, en la forma biológica que la conocemos en
la tierra. Si como dato observado tenemos que en las muestras de material marciano traído por una nave
espacial allí enviada se encuentran bacterias, la hipótesis se rechaza tajantemente. Por el contrario, si en
esas muestras no aparece rastro de materia orgánica, decimos que el dato es compatible con la hipótesis.
Pero solamente con ese dato no podríamos afirmar que no hay vida en el planeta rojo.
- Medicina: planteamos con hipótesis que nuestro paciente, con dolor abdominal inferior persistente tiene
apendicitis aguda. Si como dato observado tenemos que se le ha hecho apendicetomía previamente,
rechazamos claramente esa hipótesis. Y si comprobamos que no se le ha hecho apendicectomía
mantenemos la hipótesis como posible, pero no afirmamos que es cierta. Necesitamos anamnesis,
exploración física y pruebas analíticas y de imagen complementarias antes de hacer un diagnóstico con
alta probabilidad de éxito.
- Investigación médica: planteamos como hipótesis que el 10 % de la población española tiene cierta
enfermedad. Si en una muestra tomada al azar de 50 españoles encontramos qué tienen esa enfermedad
todos ellos, rechazamos tajantemente la hipótesis, puesto que si en la población son 10%, en la muestra
tendrían que aparecer un número relativamente próximo a 5 enfermos y muy muy difícilmente podrían
aparecer por simple casualidad 50 enfermos. Por el contrario, si en la muestra de 50 personas aparecen
seis enfermos, aceptamos la hipótesis como posible, pero no podemos afirmar que en la población sea
enfermos exactamente el 10 %.
210

Tabla 3. Ejemplo para mostrar que la potencia estadística depende de cuatro parámetros y
combinando a sus valores se puede conseguir valores muy dispares. Si la media de una variable
es 60 en la población de sedentarios y sospechamos que en la población de deportistas es mayor.

Proponemos tomar una muestra de N = 40 deportistas y hacer un test planteando como hipótesis
nula que la media poblacional de deportistas es 60. La potencia estadística de este diseño depende
de cuatro parámetros:
1) Tamaño de muestra
2) Valor Alfa: valor P del test que acordamos establecer para considerar el resultado como
evidencia suficiente contra la hipótesis nula
3) Desviación estándar de la variable
4) Efecto Real: cuanto aventaja la media poblacional de deportistas a la de sedentarios.

Dando distintos valores a estos parámetros, resultan muy distintos valores de potencia. Por ejemplo:
Con Alfa = 0.01 y desviación en torno a 30, si la media en deportistas es 65, la potencia es 6.2%
Con Alfa = 0.01 y desviación en torno a 30, si la media en deportistas es 70, la potencia es 31.2%
Con Alfa = 0.01 y desviación en torno a 30, si la media en deportistas es 78, la potencia es 88.3%
Con Alfa = 0.05 y desviación en torno a 25, si la media en deportistas es 78, la potencia es 99.4%

Bibliografia
1. Rozeboom WW. The fallacy of the null-hypothesis significance test. Psychol Bull. 1960;57:416-28.
2. Doll R. A conversation with Sir Richard Doll. Epidemiology. 2003;14:375-9. Erratum in: Epidemiology.
2003;14:632.
3. Cerda L J, Valdivia C G. John Snow, la epidemia de cólera y el nacimiento de la epidemiología moderna.
Rev Chilena Infectol. 2007;24:331-4.
4. Fisher R. The design of experiments. Hafner Press. 1935. Pag. 1-2.
5. Martínez-Sellés M, Prieto L, Herranz I. Frequent mistakes in the statistical inference of biomedical data. Ital
Heart J. 2005;6:90-5.
6. Prieto L, Herranz I, Martinez-Sellés M, Alonso R. Tests of significance vs tests of hypothesis. Far East
Journal of Theoretical Statistics. 2007;21:97-111.
7. Prieto Valiente L, Herranz Tejedor I. Bioestadística sin dificultades matemáticas. A la búsqueda de tesoros
escondidos. Diaz de Santos. Madrid. 2020
8. Greenland S, Senn SJ, Rothman KJ, Carlin JB, Poole C, Goodman SN, Altman DG. Statistical tests, P values,
confidence intervals, and power: a guide to misinterpretations. Eur J Epidemiol. 2016;31:337-50.
9. Number crunch. Nature. 2014;506:131–132.
10. Freiman JA, Chalmers TC, Smith H Jr, Kuebler RR. The importance of beta, the type II error and sample
size in the design and interpretation of the randomized control trial. Survey of 71 "negative" trials. N Engl J Med.
1978;299:690-4.
11. Montalescot G, White HD, Gallo R, Cohen M, Steg PG, Aylward PE, Bode C, Chiariello M, King SB 3rd,
Harrington RA, Desmet WJ, Macaya C, Steinhubl SR; STEEPLE Investigators. Enoxaparin versus
unfractionated heparin in elective percutaneous coronary intervention. N Engl J Med. 2006;355:1006-17.
12. Montilla JM, Kromrey J. Robustez de las pruebas T en comparación de medias, ante violación de
supuestos de normalidad y homocedasticidad. Ciencia e Ingeniería. ULA 2010;34.
13. Armitage P. Statistical methods for medical researchers. 4ª Edic. Blackwell. 2001:104.
211

Ensayos clínicos

Aaaaaaa
212

Aaaa

Ensayos clínicos, EC 3

Controlados Aleatorizados Doble ciego

Queremos ver si el fármaco “F” es efectivo para curar la enfermedad “E”

Cu+ Cu- Tot % curados


Doy F a 200 enfermos y veo el % de curados F+ 120 80 200 12/20= 0.60
Doy placebo a 200 enf y veo % de curados F- 20 180 200 2/20 = 0.10

Hasta qué punto F es eficaz, inútil o per judicial, Busquemos ese % de curados SI N F
solo se puede saber si se compara este dato en los archivos de los muchos
con el % de curaciones SI N fár maco casos ocur ridos previamente

¡OJO! Los “controles históricos” no son la mejor opción


(Puede haber muchos factores de confusión)

Pero “controles históricos” pueden aportar infor mación muy útil si se hace
“M UESTREO APAREADO” y se controla con “ANÁLI SI S M ULTI VARI ANTE”

Hay que comparar con un grupo control (sin F) AQUÍ y AHORA


1.12b
213

1. Los ensayos clínicos controlados y aleatorizados y doble o triple ciego, cuando sea factible, son el
último paso del largo camino que lleva a asumir que un tratamiento es efectivo o que un factor es perjudicial.
Si se trata, por ejemplo, de ver la eficacia del fármaco F para cierta enfermedad, la idea es tan sencilla y
directa como comparar la proporción de curaciones obtenidas en un grupo tratado con F frente a las
curaciones obtenidas en un grupo sin F.
Los dos grupos deben ser muy similares en todos los aspectos que puedan influir directa o indirectamente
en la curación. Por ello no es válido dar F a un grupo de enfermos y comparar el % de curados con el %
de curados encontrado en otro grupo sin F observado en otro tiempo o lugar. A estos grupos rescatados
de algún archivo se les llama controles históricos y en muchos casos no son aceptables. Hay que estudiar
un grupo sin F aquí y ahora, que llamaremos grupo control y el conjunto de ambos grupos, con y sin F,
constituyen un Ensayo Clínico Controlado.

Ensayos clínicos, EC 4

Controlados Aleatorizados Doble ciego

Queremos ver si el fármaco “F” es efectivo para curar la enfermedad “E”


Cu+ Cu- Tot % curados
Doy F a 200 enfermos y veo el % de curados F+ 120 80 200 12/20 = 0.60
N = 400
Comparar con % de curados en enfermos sin F F- 20 180 200 2/20 = 0.10

Doy F a 200 Enf en el hospital “A” y comparo con 200 Enf sin F en el hospital “B”
¡NO!
O bien: doy F a 200 Enf este mes y comparo con 200 Enf sin F el siguiente mes
(Puede haber muchos factores de confusión “ocultos”, no medidos en ese estudio)

EC Aleatorizado En un grupo de 400 enf se sortea al azar unos con F y otros sin F

Todo posible confusor no lo será La aleatorización persigue que todo factor no recogido
si está igualmente repartido en en el estudio esté repartido por igual en ambos
ambos brazos del estudio Brazos. Y lo consigue aproximadamente
1.12b
2. Pero los pacientes del grupo control que tomemos aquí y ahora podrían ser más viejos o más pobres o
más díscolos…. que los del grupo con F y esas diferencias podrían producir diferencias de % de curados.
El modo más eficaz de evitar esas diferencias es dar F o no darlo de modo aleatorio, es decir, al azar. Si,
por ejemplo se tiene acceso a un total de 100 enfermos, para cada uno se sortea si va estar en el grupo
que recibe fármaco o en el otro. Decimos que el EC es aleatorizado.
214

Ensayos clínicos, EC 5
Controlados Aleatorizados Doble ciego

Queremos ver si el fármaco “F” es efectivo para curar la enfermedad “E”

Efecto placebo: La fe del enfermo en el tratamiento nuevo puede mejorarle


El enfermo no debe saber si recibe el fármaco o el placebo EC Ciego

Efecto placebo: La fe del médico en el tratamiento nuevo puede sesgar su valoración

El médico no debe saber qué enfermo recibe el fármaco o el placebo EC Doble Ciego

El Analista no debe saber qué grupo recibe el fármaco o el placebo EC Triple Ciego
¡OJO! Con los “hallazgos inesperados” No deben ser ignorados
Deben ser valorados con prudencia sistemáticamente

Muchos avances de la medicina se Postura extrema: Colon NO descubrió América.


hicieron por hallazgos inesperados No estaba previsto. Fue hallazgo inesperado
1.12b

3. Se ha comprobado muchas veces que la fe del paciente en el efecto beneficioso de un tratamiento puede
ayudarle a mejorar. Se le llama efecto Placebo. Para evitar atribuir a un fármaco curaciones q en realidad
se deben al efecto placebo, al grupo sin F se le da una pastilla de igual forma que la que contiene el
fármaco, pero sin ningún principio activo y cada paciente no sabe si está recibiendo el fármaco real o el
placebo. Se llaman EC ciegos.
4. También el médico puede ser influido por su fe en la eficacia del tratamiento y valorar mejor a los pacientes
que lo han tomado que a los que recibieron el placebo. Para evitarlo se mantiene al médico en la ignorancia.
Se llaman EC doble ciego porque ni el médico ni el paciente saben a qué grupo pertenece cada individuo.
5. Se llama EC triple ciego a aquel en que el analista de los datos tampoco sabe cual de los dos grupos es
placebo y cual tratamiento. De ese modo se evita que su fe en el tratamiento le lleve a interpretar un mismo
resultado de modo distinto. Cuando los resultados son contundentes este riesgo no existe, pero en muchas
ocasiones los resultados del estudio son solo moderadamente sugestivos y el analista podría influir en las
conclusiones llevado por su fe en el medicamento.
215

Los ms clínicos controlados aleatorizados y doble ciego, EC, no son una Daniel dad
216

AAAAA
Emergencia medica: paciente con pronóstico malo 8
No tenemos tratamiento demostradamente efectivo y seguro
Tenemos tratamientos potencialmente útiles, no totalmente estudiados

1 El médico puede - y debe - probarlo 2 Estudios piloto rápidos


si hay indicios razonables de que es
Seguro (No toxico) y Eficaz Con o Sin grupo control

Consentimiento informado Seguimiento Los “controles históricos” pueden aportar


cuidadoso información muy valiosa si se controlan factores de
No auto-medicación
del paciente confusión y de interacción con análisis multivalente

Helsinki Lógica Ética Penicilina Si dan resultados prometedores


Seguir las normas y guías Indicios razonables
Médico
Debe Conservar iniciativa personal

4 Investigación básica o 3 Ensayos Clínicos (meses)


preclínica
Controlado Aleatorizado Doble ciego
Bioquímica, farmacodinamia, genética…
Permiten entender los mecanismos de acción, Meticulosamente diseñados, realizados y analizados
y por ello introducir mejoras decisivas
en seguridad y eficacia Confirmar y cuantificar la seguridad y eficacia
1.12e
aaaaaaaa
217

aaaaaa

¿Quienes conocen el Método científico de la Medicina Basada en la Evidencia?


Cada medico conoce su especialidad y muy poco – o nada – de otras o de otras herramientas
La estrategia de la investigación biomédica

ENSAYOS CLÍNICOS ¡Controlados! ¡Aleatorizados! ¡Doble ciego!

No es la única opción En algunos casos No es posible En otros no es deseable


11

A- No damos No está en las guías. No hay estudios


20 personas hiervas a ninguno previos que permitan cuantificar su
mordidas por eficacia y posibles efectos secundarios
serpientes muy
venenosas en B - 10 sin las hiervas y Permite comparar “con” vs “sin”
la Amazonía 10 con las hiervas Controlado Aleatorizado
Ciego Doble ciego
Los nativos ofrecen
hierbas curativas
C- Los 20 con las hiervas No podemos comparar resul
Aseguran que
tados con hierbas frente a
en muchos
casos curan resultado sin hiervas

Todos los pacientes exigen ¡ Sin grupo control Los controles históricos
Falso

ir al grupo tratado con las No tenemos con pueden aportar informa-


hiervas locales quien comparar ! ción muy útil
6
218

Aaaaaa

Aaaaaaa
219

Aaaaaa
THE INSURALABLE GAP BETWEEN
Big Data…in Biomedicine MEDICINE AND STATISTICAL ANALYSIS

uals bles lus


id ri a u
nd
iv Va calc
i y
ny an a ny
Ma M M
statistical analysis

MEDICINE

Galton 1822-1911 Médico y ….


Biometrika
Weldon 1860-1906 Zoólogo
1901
Pearson 1857-1936 Leyes, Mat., Biólogo
Student 1876-1937 Química orgánica
Fisher 1890-1962 Mat. y Biólogo
1.12m
220

THE GAP BETWEEN MEDICINE AND STATISTICAL ANALYSIS


INCREASES PROGRESSIVELY with BIG DATA

Before After

Big Data
statistical analysis

MEDICINE

statistical analysis MEDICINE

1.12n
EEEE

También podría gustarte