Está en la página 1de 7

6/4/22, 22:32 Proof, p-values, and hypothesis testing - UpToDate

Reimpresión oficial de UpToDate ®


www.uptodate.com © 2022 UpToDate, Inc. y/o sus afiliados. Todos los derechos reservados.

Pruebas, valores de p y pruebas de hipótesis


Autor: Dr. David M. Rind
Redactor de sección: Joann G. Elmore, MD, MPH
Redactor adjunto: Carrie Armsby, MD, MPH

Todos los temas se actualizan a medida que se dispone de nueva evidencia y se completa nuestro proceso de
revisión por pares .

Revisión de la literatura vigente hasta:  marzo de 2022. | Última actualización de este tema:  24 de octubre
de 2019.

INTRODUCCIÓN

Los conceptos en torno a la bioestadística suelen ser confusos para los médicos. El
significado de un valor p en particular suele malinterpretarse y, sin embargo, es
fundamental para la forma en que la mayoría de los médicos interpretan los resultados de
los estudios científicos [ 1,2 ].

Esta revisión discutirá la interpretación correcta de los valores p y los intervalos de


confianza, la idea de prueba y la comprensión de los cálculos de potencia en estudios
negativos. Una discusión general del significado de los términos bioestadísticos se
encuentra en otra parte. (Ver "Glosario de términos bioestadísticos y epidemiológicos
comunes" .)

PRUEBA

En los esfuerzos científicos y médicos, una pregunta común que se debe abordar es "¿qué
constituye una prueba?" ¿Cómo decidimos cuándo la evidencia a favor o en contra de una
hipótesis es adecuada para considerar el asunto probado?

Ciertas metodologías de ensayos clínicos se consideran "más sólidas" que otras


metodologías. Por ejemplo, los ensayos clínicos aleatorios generalmente se consideran
mejores pruebas que los estudios de casos y controles. La prueba, sin embargo, nunca
existe en un solo resultado de juicio o en una sola pieza de evidencia. La prueba es un
concepto humano que tiene que ver con el proceso de pensamiento racional. La información

https://www.uptodate.com/contents/proof-p-values-and-hypothesis-testing/print?search=metodología de investigación&source=search_result&sel… 1/7


6/4/22, 22:32 Proof, p-values, and hypothesis testing - UpToDate

puede ser suficiente para permitir que una persona considere algo probado, mientras que
otra no lo hará.

Como ejemplo, no hay evidencia de ensayos clínicos en humanos de que fumar cigarrillos
cause cáncer de pulmón. Sin embargo, la evidencia de los estudios epidemiológicos muestra
de manera abrumadora una relación entre fumar y el cáncer de pulmón. Una relación dosis-
respuesta en estos estudios y la evidencia de estudios en animales brindan un fuerte apoyo
para que la relación tenga plausibilidad biológica y sea causal (es decir, fumar no solo está
asociado con el cáncer de pulmón, sino que es una causa del cáncer de pulmón). La mayoría
de la gente considera probado que fumar causa cáncer de pulmón a pesar de la ausencia de
ensayos clínicos en humanos.

Por el contrario, hay ensayos aleatorios de preparaciones homeopáticas (esencialmente,


preparaciones extremadamente diluidas que, en promedio, no tendrán moléculas de
ninguna de las sustancias "terapéuticas" originales restantes) que afirman haber "probado"
la eficacia de la sustancia. Aunque estos estudios pueden haber logrado un valor de p
inferior a 0,05 (consulte "Valores de p" a continuación), un estándar estadístico de prueba
mucho más alto puede ser apropiado dada la inverosimilitud de la hipótesis subyacente.

Por lo tanto, al discutir si un tema en medicina ha sido probado, refutado o sigue siendo
incierto, es importante recordar que ninguna estadística o valor por sí solo proporcionará la
respuesta.

PRUEBAS ESTADÍSTICAS Y LA HIPÓTESIS NULA

Muestras  :  las pruebas estadísticas generalmente se realizan para tratar el problema de la
variación aleatoria en las muestras. Debido a la variación aleatoria, es probable que una
muestra difiera en varios aspectos de la población de la que se seleccionó. Las pruebas
estadísticas se utilizan para estimar los efectos de la variación aleatoria en las muestras y
para predecir la probabilidad de que los resultados de la muestra reflejen con precisión lo
que se vería en toda la población. En general, el tamaño de la muestra, pero no el tamaño de
la población, importa cuando se considera la variación aleatoria.

Como ejemplo, si se seleccionan al azar tres personas de una población de 1000 y se les
administra un medicamento para la presión arterial alta, es poco probable que los
resultados en esas tres personas reflejen con precisión lo que se vería en toda la población.
Por el contrario, si se seleccionaran al azar 500 personas, los resultados probablemente
reflejarían la población subyacente con una precisión relativamente buena, ya sea que se
seleccionen de un grupo de 1000 o de 1 000 000 de personas.

https://www.uptodate.com/contents/proof-p-values-and-hypothesis-testing/print?search=metodología de investigación&source=search_result&sel… 2/7


6/4/22, 22:32 Proof, p-values, and hypothesis testing - UpToDate

Hipótesis nula  :  cuando se utilizan pruebas estadísticas en la investigación, generalmente


es para decidir si se rechaza o no la "hipótesis nula". La hipótesis nula es la hipótesis que se
asumirá estadísticamente hasta que se alcance cierto nivel de evidencia estadística que
permita tomar la decisión de rechazarla. Aunque esta noción parece incómoda, es necesaria
para permitir que las pruebas estadísticas funcionen como se espera, y es necesario
comprenderla para comprender el uso de los valores p en la prueba de hipótesis (consulte
'Valores p'debajo). Generalmente, la hipótesis nula es la teoría de que la exposición o
intervención que se está estudiando no está asociada con el resultado de interés. Así, si se
alcanza cierto nivel de significancia estadística, se rechazará la hipótesis nula; en caso
contrario, no se rechazará la hipótesis nula.

Como ejemplo, considere un estudio que analice el efecto del bloqueo beta sobre la
mortalidad en la insuficiencia cardíaca. La hipótesis nula sería que el bloqueo beta no tiene
un efecto diferente sobre la mortalidad que el placebo. Incluso si los bloqueadores beta
realmente no tienen ningún efecto sobre la mortalidad, debido a la variación aleatoria en el
estudio real, es probable que las tasas de mortalidad en los pacientes que reciben
bloqueadores beta no sean las mismas que en los pacientes que reciben placebo. Por lo
tanto, se necesita algún método para decidir qué tan diferente es "lo suficientemente
diferente" para rechazar esta hipótesis nula y concluir que la hipótesis nula es
probablemente falsa. Las pruebas estadísticas se utilizan para este propósito.

EXPLICACIÓN DE LOS RESULTADOS DE UN ESTUDIO

Ya sea que un estudio tenga un resultado positivo o negativo, una o más de las siguientes
cuatro posibles explicaciones explicarán el resultado:

● Verdad: la conclusión del estudio puede reflejar con precisión la respuesta a la


pregunta subyacente que se estaba formulando.

● Sesgo: puede haber uno o más errores en la forma en que se realizó el estudio que
distorsionan los resultados y afectan las conclusiones.

● Confusión: puede haber una o más variables asociadas con la exposición que se está
estudiando y también con el resultado de interés que afectan los resultados del
estudio.

● Oportunidad: las variaciones aleatorias que ocurrieron dentro de la muestra de la


población que se estudia pueden conducir a conclusiones erróneas. Si el azar conduce
a una conclusión errónea de que hubo un efecto, el error se denomina error de tipo 1
(error alfa); si el azar conduce a una conclusión errónea de que no hubo efecto, el error
se denomina error de tipo 2 (error beta).

https://www.uptodate.com/contents/proof-p-values-and-hypothesis-testing/print?search=metodología de investigación&source=search_result&sel… 3/7


6/4/22, 22:32 Proof, p-values, and hypothesis testing - UpToDate

VALORES P

Una vez que se recopilan los datos de un estudio, se realizan pruebas estadísticas sobre los
resultados. Una prueba estadística analiza la probabilidad de que se hubiera producido un
determinado resultado dadas algunas suposiciones sobre la población subyacente que se
está estudiando. La prueba estadística calculada a partir de los datos subyacentes y las
suposiciones generalmente se traduce en un valor p.

Un valor p es una medida del efecto del azar dentro de un estudio. No es la probabilidad de
que el resultado del estudio sea verdadero o correcto. En cambio, es la probabilidad de que
si la hipótesis nula (ver 'Hipótesis nula' más arriba) fuera verdadera, y si los resultados no
estuvieran afectados por sesgos o confusión, habríamos visto un resultado tan extremo o
más extremo que el visto. en el estudio.

Así, si realizamos un estudio metodológicamente perfecto del efecto de los bloqueadores


beta sobre la mortalidad en insuficiencia cardiaca, encontramos un riesgo relativo de muerte
de 0,75 en los pacientes tratados, y el valor de p es de 0,03, eso quiere decir que si no
hubiera efecto de bloqueadores beta, habríamos esperado obtener un riesgo relativo ≤0.75
solo el 3 por ciento del tiempo. El valor p no dice nada directamente sobre las
probabilidades que realmente nos interesan: la probabilidad de que los bloqueadores beta
realmente funcionen ni la probabilidad de que el riesgo relativo sea realmente 0,75. Esas
probabilidades nunca se pueden conocer a partir de un solo estudio. Si la probabilidad
previa (la probabilidad antes de que se realizara el estudio) de que los bloqueadores beta
afectaran la mortalidad era muy baja, incluso después de que se realizó el estudio y resultó
en un valor de p de 0,03, la probabilidad de que los bloqueadores beta afecten la mortalidad
sería mucho menor al 97 por ciento. Por el contrario, si la probabilidad previa era muy alta
(quizás debido a la evidencia de otros estudios o la plausibilidad biológica), entonces la
probabilidad de que los bloqueadores beta afecten la mortalidad después de realizar el
estudio anterior sería superior al 97 por ciento.

INTERVALOS DE CONFIANZA

Los intervalos de confianza son una forma de mostrar el rango de valores que podrían
considerarse razonablemente probables después de realizar estadísticas sobre los datos
recopilados. Similar al problema con los valores p discutido anteriormente, y a pesar de su
nombre, los intervalos de confianza no se pueden usar para inferir directamente qué tan
seguro se debe estar en un resultado. Como en la discusión anterior, considere un estudio
que encuentra que los pacientes tratados con bloqueadores beta tienen un riesgo relativo
de mortalidad de 0,75 con un intervalo de confianza (IC) del 95 por ciento de 0,7 a 0,8.
Incluso si el estudio es metodológicamente correcto, esto nosignifica que solo hay un 5 por
https://www.uptodate.com/contents/proof-p-values-and-hypothesis-testing/print?search=metodología de investigación&source=search_result&sel… 4/7
6/4/22, 22:32 Proof, p-values, and hypothesis testing - UpToDate

ciento de posibilidades de que el riesgo relativo real sea inferior a 0,7 o superior a 0,8. En
cambio, significa que en los estudios realizados correctamente, esperaríamos que el IC
rodee el valor real del riesgo relativo el 95 por ciento de las veces. La diferencia entre estos
dos puntos de vista, como se discutió anteriormente, es que la probabilidad real de que el
riesgo relativo esté entre 0,7 y 0,8 depende de la probabilidad anterior (antes de que se
realizara el estudio) de que el riesgo relativo estuviera en ese rango. Si fuera muy
improbable antes del estudio, entonces la probabilidad después del estudio no sería del 95
por ciento a pesar del significado aparente del término "intervalo de confianza".

Sin embargo, debido a que puede ser muy difícil conocer la probabilidad previa, los
intervalos de confianza a menudo se interpretan como la representación de un rango de
valores creíbles. Esto es particularmente útil para decidir si un estudio tenía un número
adecuado de pacientes para responder una pregunta. Por ejemplo, si el IC anterior para el
riesgo relativo oscilaba entre 0,5 y 1,12, el estudio podría haberse informado como
"negativo", cuando en realidad el estudio era demasiado pequeño para responder a la
pregunta clínica. Una reducción de la mortalidad del 50 por ciento sería clínicamente
significativa y un aumento de la mortalidad del 12 por ciento probablemente también sería
significativo. Si, en cambio, el riesgo relativo en el estudio fuera 0,99 con un IC de 0,97 a
1,01, probablemente se pensaría que es poco probable que el riesgo relativo real fuera tan
alto o bajo como para ser clínicamente importante.

Una vez más, sin embargo, la interpretación de los intervalos de confianza, como la
interpretación de los valores p, depende de la consideración de la totalidad de la evidencia a
favor o en contra de una hipótesis.

SIGNIFICANCIA ESTADÍSTICA

La elección de un punto de corte específico para un valor p o grado de confianza para un


intervalo de confianza es arbitraria. Aunque un valor p de 0,05 (y la elección correspondiente
de un intervalo de confianza del 95 por ciento) es convencional, no hay ninguna razón
particular por la que un valor p de 0,02 y un intervalo de confianza del 98 por ciento
correspondiente no puedan ser el estándar para llamar a un resultado "Estadísticamente
significante."

Sin embargo, aunque la elección es arbitraria, si usamos los valores de p para decidir la
significación estadística de un resultado, se requiere alguna elección y se debe cumplir, para
lograr el resultado deseado de tener la tasa de estudios que muestran resultados positivos.
los resultados debidos al azar por sí solos sean predecibles. Si queremos saber que la tasa
de tales resultados positivos erróneos es del 5 por ciento, debemos tratar tanto el 0,001
como el 0,05 como resultados estadísticamente significativos. También debemos afirmar
entonces que un resultado con un valor de p de 0,06 no es estadísticamente significativo.
https://www.uptodate.com/contents/proof-p-values-and-hypothesis-testing/print?search=metodología de investigación&source=search_result&sel… 5/7
6/4/22, 22:32 Proof, p-values, and hypothesis testing - UpToDate

Aunque el resultado donde el valor p es 0.001 es menos probable que se deba al azar (en
igualdad de condiciones) que uno donde es 0.05, y un resultado con un valor p de 0.06 es
solo un poco más probable que se deba a al azar que uno donde era 0.05, si tratamos de
usar estos números de otra manera que no sea como si cayeran de un lado o del otro de una
línea brillante (arbitrariamente p = 0.05), ya no podremos decir con certeza qué porcentaje
de estudios que tuvieron resultados estadísticamente significativos fue realmente el
resultado de errores de tipo 1.

A pesar de esta pérdida de previsibilidad, es común y de sentido común tomar valores de p


muy pequeños como evidencia más sólida en apoyo de una hipótesis que valores de p
cercanos a 0,05.

POTENCIA EN UN ESTUDIO NEGATIVO

La potencia es la probabilidad estadística de evitar un error de tipo 2 en un estudio (ver


'Explicación de los resultados de un estudio' más arriba). Es decir, es la probabilidad de que
un estudio no acepte erróneamente la hipótesis nula y concluya que no hubo efecto o
diferencia cuando realmente la hubo.

Cada vez que un estudio no encuentra una diferencia estadísticamente significativa, se


plantea la cuestión de si hubo un "poder adecuado", ya que una posible explicación del
resultado fue que un tamaño de muestra pequeño y/o una probabilidad aleatoria llevaron a
que no se detectara una diferencia que realmente existía. . Este problema se siente
particularmente apremiante cuando la estimación puntual encontrada en el estudio parece
clínicamente importante. En el estudio hipotético anterior, un riesgo relativo de mortalidad
de 0,75 con un IC del 95 % de 0,50 a 1,12 no sería estadísticamente significativo; sin
embargo, la estimación puntual de una reducción del 25 por ciento en la mortalidad
claramente sería clínicamente significativa si fuera cierta.

Es posible calcular el poder que tiene un estudio para encontrar un resultado dado (por
ejemplo, una reducción del 25 por ciento en la mortalidad) dado un tamaño de muestra
particular (y también dada la variación subyacente en la población). Los cálculos de poder
son útiles en el diseño de estudios para decidir si un estudio es lo suficientemente grande
como para tener una posibilidad razonable de encontrar un resultado positivo o para
calcular el número de pacientes necesarios para lograr un cierto poder.

Sin embargo, cuando los artículos intentan abordar el problema de la "potencia adecuada"
después de un resultado negativo del estudio mediante la realización de un cálculo de
potencia utilizando la estimación puntual encontrada en el estudio, el resultado no tiene
sentido. La potencia en dicho cálculo siempre será inferior al 50 por ciento [ 3 ]. En cambio,
como se discutió anteriormente, la forma de decidir después del hecho si un estudio
https://www.uptodate.com/contents/proof-p-values-and-hypothesis-testing/print?search=metodología de investigación&source=search_result&sel… 6/7
6/4/22, 22:32 Proof, p-values, and hypothesis testing - UpToDate

negativo tuvo suficiente poder es observar los intervalos de confianza y ver si existen valores
clínicamente importantes dentro del rango de los valores estadísticamente probables
representados por el intervalo de confianza. (Consulte 'Intervalos de confianza' más arriba).

RESUMEN

● La prueba es un concepto humano y nunca proviene de una sola pieza de evidencia o


una prueba estadística. (Ver 'Prueba' arriba.)

● En cualquier estudio, las posibles explicaciones para el resultado observado son:


verdad, sesgo, confusión y azar. (Consulte 'Explicación de los resultados de un estudio'
más arriba).

● Un valor p no es una medida directa de la probabilidad de que un resultado dado de un


estudio sea correcto, incluso si el estudio es metodológicamente impecable. (Ver
'Valores P' arriba.)

● Después de encontrar un resultado negativo en un estudio, mire el intervalo de


confianza para decidir si el estudio tuvo el poder adecuado; no mire los cálculos de
potencia para decidir esto. (Consulte 'Intervalos de confianza' más arriba).

El uso de UpToDate está sujeto a los Términos de uso .

REFERENCIAS

1. Davidoff F. Estadísticas de pie al derecho. Ann Intern Med 1999; 130:1019.


2. Goodman SN. Hacia la estadística médica basada en la evidencia. 1: La falacia del valor
P. Ann Intern Med 1999; 130:995.

3. Goodman SN, Berlín JA. El uso de intervalos de confianza predichos al planificar


experimentos y el mal uso del poder al interpretar los resultados. Ann Intern Med 1994;
121:200.
Tema 2777 Versión 18.0

https://www.uptodate.com/contents/proof-p-values-and-hypothesis-testing/print?search=metodología de investigación&source=search_result&sel… 7/7

También podría gustarte