Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Todos los temas se actualizan a medida que se dispone de nueva evidencia y se completa nuestro proceso de
revisión por pares .
Revisión de la literatura vigente hasta: marzo de 2022. | Última actualización de este tema: 24 de octubre
de 2019.
INTRODUCCIÓN
Los conceptos en torno a la bioestadística suelen ser confusos para los médicos. El
significado de un valor p en particular suele malinterpretarse y, sin embargo, es
fundamental para la forma en que la mayoría de los médicos interpretan los resultados de
los estudios científicos [ 1,2 ].
PRUEBA
En los esfuerzos científicos y médicos, una pregunta común que se debe abordar es "¿qué
constituye una prueba?" ¿Cómo decidimos cuándo la evidencia a favor o en contra de una
hipótesis es adecuada para considerar el asunto probado?
puede ser suficiente para permitir que una persona considere algo probado, mientras que
otra no lo hará.
Como ejemplo, no hay evidencia de ensayos clínicos en humanos de que fumar cigarrillos
cause cáncer de pulmón. Sin embargo, la evidencia de los estudios epidemiológicos muestra
de manera abrumadora una relación entre fumar y el cáncer de pulmón. Una relación dosis-
respuesta en estos estudios y la evidencia de estudios en animales brindan un fuerte apoyo
para que la relación tenga plausibilidad biológica y sea causal (es decir, fumar no solo está
asociado con el cáncer de pulmón, sino que es una causa del cáncer de pulmón). La mayoría
de la gente considera probado que fumar causa cáncer de pulmón a pesar de la ausencia de
ensayos clínicos en humanos.
Por lo tanto, al discutir si un tema en medicina ha sido probado, refutado o sigue siendo
incierto, es importante recordar que ninguna estadística o valor por sí solo proporcionará la
respuesta.
Muestras : las pruebas estadísticas generalmente se realizan para tratar el problema de la
variación aleatoria en las muestras. Debido a la variación aleatoria, es probable que una
muestra difiera en varios aspectos de la población de la que se seleccionó. Las pruebas
estadísticas se utilizan para estimar los efectos de la variación aleatoria en las muestras y
para predecir la probabilidad de que los resultados de la muestra reflejen con precisión lo
que se vería en toda la población. En general, el tamaño de la muestra, pero no el tamaño de
la población, importa cuando se considera la variación aleatoria.
Como ejemplo, si se seleccionan al azar tres personas de una población de 1000 y se les
administra un medicamento para la presión arterial alta, es poco probable que los
resultados en esas tres personas reflejen con precisión lo que se vería en toda la población.
Por el contrario, si se seleccionaran al azar 500 personas, los resultados probablemente
reflejarían la población subyacente con una precisión relativamente buena, ya sea que se
seleccionen de un grupo de 1000 o de 1 000 000 de personas.
Como ejemplo, considere un estudio que analice el efecto del bloqueo beta sobre la
mortalidad en la insuficiencia cardíaca. La hipótesis nula sería que el bloqueo beta no tiene
un efecto diferente sobre la mortalidad que el placebo. Incluso si los bloqueadores beta
realmente no tienen ningún efecto sobre la mortalidad, debido a la variación aleatoria en el
estudio real, es probable que las tasas de mortalidad en los pacientes que reciben
bloqueadores beta no sean las mismas que en los pacientes que reciben placebo. Por lo
tanto, se necesita algún método para decidir qué tan diferente es "lo suficientemente
diferente" para rechazar esta hipótesis nula y concluir que la hipótesis nula es
probablemente falsa. Las pruebas estadísticas se utilizan para este propósito.
Ya sea que un estudio tenga un resultado positivo o negativo, una o más de las siguientes
cuatro posibles explicaciones explicarán el resultado:
● Sesgo: puede haber uno o más errores en la forma en que se realizó el estudio que
distorsionan los resultados y afectan las conclusiones.
● Confusión: puede haber una o más variables asociadas con la exposición que se está
estudiando y también con el resultado de interés que afectan los resultados del
estudio.
VALORES P
Una vez que se recopilan los datos de un estudio, se realizan pruebas estadísticas sobre los
resultados. Una prueba estadística analiza la probabilidad de que se hubiera producido un
determinado resultado dadas algunas suposiciones sobre la población subyacente que se
está estudiando. La prueba estadística calculada a partir de los datos subyacentes y las
suposiciones generalmente se traduce en un valor p.
Un valor p es una medida del efecto del azar dentro de un estudio. No es la probabilidad de
que el resultado del estudio sea verdadero o correcto. En cambio, es la probabilidad de que
si la hipótesis nula (ver 'Hipótesis nula' más arriba) fuera verdadera, y si los resultados no
estuvieran afectados por sesgos o confusión, habríamos visto un resultado tan extremo o
más extremo que el visto. en el estudio.
INTERVALOS DE CONFIANZA
Los intervalos de confianza son una forma de mostrar el rango de valores que podrían
considerarse razonablemente probables después de realizar estadísticas sobre los datos
recopilados. Similar al problema con los valores p discutido anteriormente, y a pesar de su
nombre, los intervalos de confianza no se pueden usar para inferir directamente qué tan
seguro se debe estar en un resultado. Como en la discusión anterior, considere un estudio
que encuentra que los pacientes tratados con bloqueadores beta tienen un riesgo relativo
de mortalidad de 0,75 con un intervalo de confianza (IC) del 95 por ciento de 0,7 a 0,8.
Incluso si el estudio es metodológicamente correcto, esto nosignifica que solo hay un 5 por
https://www.uptodate.com/contents/proof-p-values-and-hypothesis-testing/print?search=metodología de investigación&source=search_result&sel… 4/7
6/4/22, 22:32 Proof, p-values, and hypothesis testing - UpToDate
ciento de posibilidades de que el riesgo relativo real sea inferior a 0,7 o superior a 0,8. En
cambio, significa que en los estudios realizados correctamente, esperaríamos que el IC
rodee el valor real del riesgo relativo el 95 por ciento de las veces. La diferencia entre estos
dos puntos de vista, como se discutió anteriormente, es que la probabilidad real de que el
riesgo relativo esté entre 0,7 y 0,8 depende de la probabilidad anterior (antes de que se
realizara el estudio) de que el riesgo relativo estuviera en ese rango. Si fuera muy
improbable antes del estudio, entonces la probabilidad después del estudio no sería del 95
por ciento a pesar del significado aparente del término "intervalo de confianza".
Sin embargo, debido a que puede ser muy difícil conocer la probabilidad previa, los
intervalos de confianza a menudo se interpretan como la representación de un rango de
valores creíbles. Esto es particularmente útil para decidir si un estudio tenía un número
adecuado de pacientes para responder una pregunta. Por ejemplo, si el IC anterior para el
riesgo relativo oscilaba entre 0,5 y 1,12, el estudio podría haberse informado como
"negativo", cuando en realidad el estudio era demasiado pequeño para responder a la
pregunta clínica. Una reducción de la mortalidad del 50 por ciento sería clínicamente
significativa y un aumento de la mortalidad del 12 por ciento probablemente también sería
significativo. Si, en cambio, el riesgo relativo en el estudio fuera 0,99 con un IC de 0,97 a
1,01, probablemente se pensaría que es poco probable que el riesgo relativo real fuera tan
alto o bajo como para ser clínicamente importante.
Una vez más, sin embargo, la interpretación de los intervalos de confianza, como la
interpretación de los valores p, depende de la consideración de la totalidad de la evidencia a
favor o en contra de una hipótesis.
SIGNIFICANCIA ESTADÍSTICA
Sin embargo, aunque la elección es arbitraria, si usamos los valores de p para decidir la
significación estadística de un resultado, se requiere alguna elección y se debe cumplir, para
lograr el resultado deseado de tener la tasa de estudios que muestran resultados positivos.
los resultados debidos al azar por sí solos sean predecibles. Si queremos saber que la tasa
de tales resultados positivos erróneos es del 5 por ciento, debemos tratar tanto el 0,001
como el 0,05 como resultados estadísticamente significativos. También debemos afirmar
entonces que un resultado con un valor de p de 0,06 no es estadísticamente significativo.
https://www.uptodate.com/contents/proof-p-values-and-hypothesis-testing/print?search=metodología de investigación&source=search_result&sel… 5/7
6/4/22, 22:32 Proof, p-values, and hypothesis testing - UpToDate
Aunque el resultado donde el valor p es 0.001 es menos probable que se deba al azar (en
igualdad de condiciones) que uno donde es 0.05, y un resultado con un valor p de 0.06 es
solo un poco más probable que se deba a al azar que uno donde era 0.05, si tratamos de
usar estos números de otra manera que no sea como si cayeran de un lado o del otro de una
línea brillante (arbitrariamente p = 0.05), ya no podremos decir con certeza qué porcentaje
de estudios que tuvieron resultados estadísticamente significativos fue realmente el
resultado de errores de tipo 1.
Es posible calcular el poder que tiene un estudio para encontrar un resultado dado (por
ejemplo, una reducción del 25 por ciento en la mortalidad) dado un tamaño de muestra
particular (y también dada la variación subyacente en la población). Los cálculos de poder
son útiles en el diseño de estudios para decidir si un estudio es lo suficientemente grande
como para tener una posibilidad razonable de encontrar un resultado positivo o para
calcular el número de pacientes necesarios para lograr un cierto poder.
Sin embargo, cuando los artículos intentan abordar el problema de la "potencia adecuada"
después de un resultado negativo del estudio mediante la realización de un cálculo de
potencia utilizando la estimación puntual encontrada en el estudio, el resultado no tiene
sentido. La potencia en dicho cálculo siempre será inferior al 50 por ciento [ 3 ]. En cambio,
como se discutió anteriormente, la forma de decidir después del hecho si un estudio
https://www.uptodate.com/contents/proof-p-values-and-hypothesis-testing/print?search=metodología de investigación&source=search_result&sel… 6/7
6/4/22, 22:32 Proof, p-values, and hypothesis testing - UpToDate
negativo tuvo suficiente poder es observar los intervalos de confianza y ver si existen valores
clínicamente importantes dentro del rango de los valores estadísticamente probables
representados por el intervalo de confianza. (Consulte 'Intervalos de confianza' más arriba).
RESUMEN
REFERENCIAS