Está en la página 1de 14

193

ARTÍCULOS ORIGINALES

Aplicación de las pruebas de hipótesis


en la investigación en salud:
¿estamos en lo correcto?
PEDRO MONTERREY1
CARLOS GÓMEZ-RESTREPO2

Resumen
Introducción. Las pruebas de hipótesis son comúnmente utilizadas en medicina. No
obstante, por lo general, no se conoce la historia de su desarrollo ni cómo se han generado
a partir de posiciones filosóficas antagónicas que, en ocasiones, combinamos inconscien-
temente.

Objetivo. Describir la historia de las pruebas de hipótesis y profundizar en el manejo del


valor de P y los intervalos de confianza.

Método. Se hace la revisión histórica y la aplicación estadística en algunos ejemplos


clínicos.

Resultados. Se describe la historia de las pruebas de hipótesis con los planteamientos de


Fisher contrarios a los de Neyman y Pearson. Se esbozan algunos ejemplos en que se
observa la importancia de tener en cuenta cómo se analizan los datos y la información
complementaria que provee el valor de P y los intervalos de confianza.

Conclusión. La presentación explícita de los valores de P, su uso combinado con los


intervalos de confianza y la valoración de los resultados a la luz de su plausibilidad
biológica, son los componentes centrales en el uso adecuado de las pruebas de hipótesis.

Palabras clave
Pruebas de hipótesis, valor de P, intervalos de confianza, plausibilidad biológica.

1 Ph.D. en Matemáticas, especialización en Epidemiología Nutricional; profesor asociado, Departamento


de Epidemiología Clínica y Bioestadística, Pontificia Universidad Javeriana, Bogotá, D. C., Colombia
2 Médico psiquiatra, psicoanalista, M.Sc. en Epidemiología Clínica; profesor asociado, Departamento de
Epidemiología Clínica y Bioestadística y del Departamento de Psiquiatría y Salud Mental, Pontificia
Universidad Javeriana, Bogotá, D. C., Colombia

Recibido: abril 16/2007. Revisado: julio 14/2007. Aceptado: julio 31/2007.

UNIVERSITAS MÉDICA 2007 VOL. 48 Nº 3


194

Abstract avance de las diferentes disciplinas


Introduction: Hypothesis testing tools are científicas. Esta situación ocurría por-
commonly used in medicine. Despite this, in gene- que no existía una formalización en el
ral, there is no knowledge about how these tools manejo de los datos, ni procedimien-
were developed and how their generation has
tos de análisis que introdujeran un cri-
surged out of opposing philosophical positions that
we commonly combine in an unconscious fashion. terio de objetividad en las decisiones
que se tomaban. Ante estas necesida-
Objective: To describe the history of hypothesis des científicas y editoriales surgieron
testing tools and to gain a stronger insight into the
las pruebas de hipótesis estadísticas.
handling of the P value and confidence intervals.

Methods: Historical review and statistical Las pruebas de hipótesis fueron


application to some of the clinical examples creadas en el período entre 1915 y
mentioned. 1933 como resultado de la labor de
dos grupos o tendencias: por un lado,
Results: The history of hypothesis tests are
described along with the opposing postulations of Ronald Fisher (1890-1962) y, el por
Fisher in regards to those of Neyman and Pearson. otro, Jerzy Neyman (1894-1981) en
Some examples that show the importance of having conjunto con Egon Pearson (1895-
in mind how data is analyzed and the additional
information that p values and confidence intervals
1980). Ambas tendencias tuvieron
bring, are outlined. como antecedente la famosa prueba de
ji al cuadrado de Karl Pearson (1857-
Conclusion: The explicit presentation of P values, 1936). Los procedimientos de Fisher
its combined use along with confidence intervals,
and the analysis of the results having into account
y Neyman-Pearson se desarrollaron a
its biological plausibility are key components in partir de posiciones filosóficas anta-
the proper use of hypothesis testing. gónicas, por lo que la historia de las
pruebas de hipótesis no ha estado
Key words
exenta de controversias, desacuerdos
Hypothesis testing, p value, confidence intervals, científicos y agrias disputas persona-
biological plausibility. les que lamentablemente se reflejan en
la actualidad y han conducido a difi-
cultades en su aplicación y acepta-
Introducción ción[1-3]. Al aplicar las pruebas de
hipótesis muchos investigadores com-
Desde el siglo XIX y hasta principios binan de manera ecléctica, elementos
del siglo XX las publicaciones cientí- de los dos enfoques antagónicos:
ficas estaban plagadas de presentacio- “…las pruebas de hipótesis estadísti-
nes de casos y análisis que se traducían cas son presentadas en los artículos de
en juicios subjetivos los que, en mu- las revistas siguiendo normalmente a
chos casos, no eran relevantes y pro- Neyman-Pearson pero según la guía
ducían confusiones que entorpecían el práctica de Fisher…”[3]. Este trata-

MONTERREY P., GÓMEZ-RESTREPO C., APLICACIÓN DE LAS PRUEBAS DE HIPÓTESIS...


195

miento ecléctico es consecuencia de Los sistemas de computación, en


lo que aparece explicado en muchos lugar de cumplir la loable función de
libros de texto y que se refleja en la poner la técnica al alcance de todos,
enseñanza de la estadística, tanto en han simplificado y vulgarizado su uso
el posgrado como en el pregrado. al permitir la generalización de la filo-
sofía de “la caja negra” para el análi-
Independientemente de la visión sis, en la que el investigador maneja
teórica y las opiniones o la posición técnicas y conceptos que no compren-
científica de quien las analice, las de bien pero cuya ejecución deja al
pruebas de hipótesis estadísticas se “sistema de computación” y después
han convertido, para muchos, en un reduce la decisión a un simple, por no
instrumento fundamental del análi- decir simplista o ingenuo, procedi-
sis de los datos y, para otros, en la miento dicotómico que reduce su pro-
única técnica para realizarlo, algo así blema de análisis y decisión a un
como la piedra filosofal del conoci- simple sí/no, según un “místico” va-
miento científico, cuyo uso invalida lor de P.
o glorifica un resultado. El papel pre-
ponderante de las pruebas de hipó- Esta situación ha sido favorecida,
tesis, como criterio de validez de un por no decir propiciada, por los pro-
análisis y de la calidad de un reporte gramas docentes de estadística y los
científico, ha conducido al uso y libros de texto, los que han ayudado
abuso de la técnica. Su uso desme- a que esto ocurra al promover un
dido y en ocasiones indiscriminado mecanicismo ingenuo en los análisis
ha producido errores, ha conducido que conducen a que el investigador,
a la obtención de conclusiones erró- paradójicamente, realice el análisis de
neas en algunas investigaciones, lo sus datos sin mirar los datos: “sólo
que ha determinado que para algu- decide sí/no, según el valor de P”.
nos esa técnica sea indeseable, su- Esta filosofía ha conducido a algu-
perficial, prescindible e, incluso, nos a no considerar la plausibilidad
peligrosa por la posibilidad de ge- biológica y la lógica de los resulta-
nerar errores y conclusiones equivo- dos que van obteniendo, lo que se ha
cadas, por no decir absurdas o tontas. traducido en la publicación de con-
A esta confusa situación han contri- clusiones erróneas (4,5). Por otra par-
buido, infortunadamente, los siste- te, el valor P se convirtió en una
mas computacionales para el análisis especie de “dios” cuando muchos
estadístico, los libros de texto y los editores de revistas y pares favorecían
propios criterios de enseñanza de la la publicación de aquellos estudios
estadística[2-4]. con un P significativo. Esto llegó a

UNIVERSITAS MÉDICA 2007 VOL. 48 Nº 3


196

ser tan significativo que se introdujo portante acerca de la medida de


el famoso sesgo de publicación que, un efecto”[6].
hoy en día, tiende a ser de menor
magnitud. Como se puede apreciar, las nor-
mas de Vancouver no recomiendan el
En los últimos tiempos, las revistas uso único de las pruebas de hipótesis;
científicas dedicadas a la epidemiolo- sin embargo, en la literatura biomédica
gía y la bioestadística han reflejado un se han presentado situaciones más
profundo conflicto entre defensores y extremas que han conducido a no con-
partidarios del uso de las pruebas de siderar estos métodos, como puede
hipótesis. Monterrey et al.[5] presen- verse en los trabajo de Walter[7] y de
tan un análisis de esa situación, sus Gardner y Altman[8]; éste último, por
causas y consecuencias. Para que se ejemplo, se utiliza como paradigma
tenga una idea de la magnitud e im- para la presentación de datos en la re-
portancia del asunto, basta citar el si- vista British Medical Journal.
guiente párrafo que aparece en las
normas de Vancouver que, como se Una breve lectura a cualquier tex-
sabe, rigen la elaboración de publica- to básico de estadística permite ver
ciones en el área de la salud y son se- que en su mayoría está dedicado a las
guidas por las revistas más prestigiosas pruebas de hipótesis y, por tanto, los
del área: cursos de estadística mayoritariamente
se dedican a enseñar pruebas de hipó-
“… Describir los métodos esta- tesis, Además, es un hecho que la ma-
dísticos con suficiente detalle, yoría de los artículos científicos que
para permitir a un lector conoce- se publican basan sus análisis en la
dor, con acceso a los datos origi- aplicación de las pruebas de hipóte-
nales, la verificación de los sis; sin embargo, existen prohibicio-
resultados que se presentan. nes y barreras para su uso. Existen
Cuando sea posible, se deben opiniones encontradas, pero muchos
cuantificar los hallazgos y pre- consideran aún válido el uso de las
sentarlos con los correspondien- pruebas de hipótesis, claro que ha-
tes indicadores de los errores de ciendo modificaciones en la forma de
medición e incertidumbre (tales aplicarlas actualmente. La inmensa
como intervalos de confianza). mayoría de los artículos sobre el tema
Evite depender exclusivamente son difíciles de leer para aquéllos que
de las pruebas de hipótesis esta- no conozcan en profundidad la técni-
dísticas, y del uso de valores de ca o no tengan una formación básica
P, los que fallan cuando se pre- en la teoría de probabilidades. Dadas
tende transmitir información im- estas dificultades, el objetivo del pre-

MONTERREY P., GÓMEZ-RESTREPO C., APLICACIÓN DE LAS PRUEBAS DE HIPÓTESIS...


197

sente artículo es mostrar cómo utilizar tales instrumentos, pero no el único,


las pruebas de hipótesis en un contex- aun cuando sea el más conocido y uti-
to teórico coherente, analizando la lizado.
plausibilidad biológica de los resulta-
dos, y presentar los alcances, posibili- Las hipótesis estadísticas son enun-
dades y limitaciones de esa técnica. ciados que, en términos de conceptos
estadísticos, representan o caracterizan
la información contenida en los datos.
Fundamentos para la aplicación Para decidir acerca de la validez de
de las pruebas de hipótesis una hipótesis de investigación, pudie-
ra ser necesario trabajar con varias hi-
Para comprender lo que son las prue- pótesis estadísticas; por ejemplo, en un
bas de hipótesis estadísticas hay que estudio para determinar si la práctica
partir del concepto de hipótesis de in- de deportes tiene influencia sobre el
vestigación y establecer sus diferen- perfil lipídico de los adultos varones,
cias con las hipótesis estadísticas. la hipótesis de investigación pudiera
ser: la práctica diaria de ejercicios fí-
La hipótesis de investigación es un sicos modula los valores del perfil
enunciado que representa la posible lipídico de los adultos varones. Para
respuesta a la pregunta de investiga- decidir si esta hipótesis es verdadera
ción[9]; como tal, tiene dos “valores o falsa, se realiza un estudio en el que
de verdad”: verdadero o falso, lo que se toman dos grupos de individuos,
determina las correspondientes res- uno que practica diariamente depor-
puestas a las preguntas de investiga- tes (grupo A) y otro sedentario (grupo
ción. La investigación se realiza para B), y se comparan las variables del
determinar el valor de verdad que co- perfil lipídico; en este caso, la deci-
rresponde a la hipótesis de investiga- sión se tomaría considerando varias
ción, es decir, se realiza un estudio hipótesis estadísticas referidas a los va-
como resultado del cual se obtienen lores medios (promedio) de cada una
datos que contienen la información de las variables del perfil lipídico.
necesaria para dar respuesta a la pre-
gunta de investigación al decidir si la El enfoque teórico de Fisher para
hipótesis de investigación es verda- abordar un problema de prueba de hi-
dera o falsa. El reto de la estadística pótesis se fundamenta en la realiza-
como disciplina es desarrollar méto- ción de una inferencia inductiva;
dos para obtener la información con- consiste en plantear una hipótesis de
tenida en los datos y analizar esas interés, que en el ejemplo pudiera ser
evidencias para tomar tal decisión. H0: µA=µB, es decir, el valor medio del
Las pruebas de hipótesis son uno de colesterol total es igual entre los gru-

UNIVERSITAS MÉDICA 2007 VOL. 48 Nº 3


198

pos A y B y, una vez obtenidos los cedimiento que aplican los investiga-
datos, calcular un valor, que se identi- dores en la actualidad y que se enseña
fica con la letra p, que es una medida en muchos cursos de estadística.
de la evidencia que arrojan los datos Hubbard y Bayarri[2] señalan al res-
contra la hipótesis cuya validez se de- pecto:
sea comprobar. En este caso lo impor-
tante es saber si la hipótesis es cierta o “…Los libros de texto actuales
se rechaza. Este es el valor de p que sobre el análisis estadístico en
calculan todos los sistemas computa- economía, ciencias sociales o
cionales para el análisis estadístico; bioestadística, ya sea en el nivel
“…uno de los errores más comunes al posgraduado o de pregrado, pre-
interpretar el valor P es considerarlo sentan usualmente el tema de las
como la probabilidad de que la hipó- pruebas de hipótesis como si fue-
tesis nula sea cierta…” (4). ran el evangelio: una teoría úni-
ca, unificada y sin controversias.
Ante la ausencia de una hipótesis Es muy infrecuente que esos tex-
alternativa en el proceso de análisis de tos mencionen, menos aún que
Fisher, Neyman y Pearson plantearon discutan teóricamente, que esa
un proceso de decisión de tipo deduc- teoría que presentan es un híbri-
tivo, diseñado a priori sobre la base do anónimo entre las ideas de
de los datos, que consideraba una hi- Fisher, por un lado, y de Neyman
pótesis o decisión alternativa a H0 (hi- y Pearson, por el otro...”.
pótesis nula) y las dos tasas de error El enfoque de Fisher parece ser más
que se desea cometer en el proceso de razonable para la investigación en sa-
decisión: los errores de tipo I (α) y II lud que el de Neyman-Pearson.
(β). En el ejemplo, las alternativas pu- Parafraseando a Fisher: “…el proce-
dieran ser, por ejemplo, HA: µA≠µB o dimiento de Neyman-Pearson es más
HA: µA<µB. apropiado para problemas de control
estadístico de la calidad…”[ 4] .
En el criterio de Fisher, el valor de
P se establece a posteriori, es decir, Siguiendo el enfoque de Fisher y
sobre la base de los datos; en el de sus consideraciones sobre el uso de los
Neyman y Pearson, los datos se obtie- valores de P, es aconsejable proceder
nen con una confiabilidad dada a según los siguientes tres pasos al apli-
priori por los errores (α y β). car las pruebas de hipótesis:

Lamentablemente y de forma in- Paso 1. Identificar el tipo de prueba


cierta, pero muy extendida, ambos que corresponde al problema y la hi-
enfoques se han fusionado en el pro- pótesis nula.

MONTERREY P., GÓMEZ-RESTREPO C., APLICACIÓN DE LAS PRUEBAS DE HIPÓTESIS...


199

Paso 2. Obtención del valor de P. res pequeños son evidencias contra la


validez de la hipótesis nula[5]. Usual-
Este valor de P es parte de la infor- mente el investigador prefija el error
mación que brindan los sistemas de de tipo I (α), casi siempre lo identifica
cómputo. Todas las pruebas de hipó- como 0,05 y, cuando P<0,05, decide
tesis descansan en la identificación de rechazar H0. Esta forma de proceder
un estadígrafo, que es conocido como es inadecuada pues mezcla las ideas
el estadígrafo de la prueba. El valor de Fisher con las de Neyman y
de P refleja la posición del valor ob- Pearson al comparar α, una tasa de
servado del estadígrafo en las colas de error (a priori), con P, una medida de
su distribución si H0 fuera cierta y res- evidencia (a posteriori)[2-4]; de esta
ponde a la pregunta de cuán extremo manera, se pierde el sentido del valor
es el valor observado en la distribu- de P como evidencia a posteriori con-
ción del estadígrafo empleado; por tra H 0 y predomina la lógica de
ello, el valor de P refleja o cuantifica Neyman-Pearson pero de forma in-
la evidencia que contienen los datos completa pues, en general, no se con-
contra la hipótesis nula. trola el error de tipo II.

Paso 3. Publicación explicita del valor Divulgar explícitamente el valor de


de P junto con los valores descriptivos P permite a los diferentes lectores ha-
del proceso, es decir, junto con la me- cerse una idea clara y personalizada
dia, la desviación estándar, la moda, etc. de la evidencia encontrada; para su
interpretación es aconsejable utilizar
La interpretación del valor de P los criterios de Sterne y Smith[4] que
descansa en el hecho de que los valo- se resumen en el cuadro 1. Es por esto
Cuadro 1
Criterios para la interpretación de los valores de P

Valor P Criterio de análisis del valor P

0,1<P<1,0 Débil evidencia contra la hipótesis nula


0,01<P<0,1 A medida que P disminuye, aumenta la
0,001<P<0,01 evidencia contra la hipótesis nula
0,0001<P<0,001 A medida que P disminuye, hay
P<0,0001 fuerte evidencia contra la hipótesis
nula

UNIVERSITAS MÉDICA 2007 VOL. 48 Nº 3


200

que no es recomendable publicar el re- se reporta. No es lo mismo, en un ex-


sultado de los análisis estadísticos, uti- perimento clínico que compara dos
lizando pruebas de hipótesis, con medicamentos, obtener un resultado
símbolos como **, NS, P<0,05, etc.; con un valor P de 0,00001, que uno
lo importante es escribir el valor de P de 0,045, de 0,06, o una P de 0,10 o
obtenido para que el lector pueda en- 0,5.
juiciar la fuerza de la evidencia contra
H 0 que se obtuvo en el estudio. La Como la evidencia contra H0 que-
publicación explícita del valor de P es da determinada por valores pequeños
importante, fundamental para los ejer- de P, Fisher propuso utilizar 1:20
cicios de integración de resultados (0,05) como una buena medida, pero
conocidos como metaanálisis; de he- rápidamente alertó que esa no es una
cho, la evidencia a favor o en contra regla inflexible y que el valor debía
de H0 surge de la combinación de di- adecuarse a las características del pro-
ferentes estudios. blema. El umbral de aceptación pue-
de y debe cambiar; sería una buena
El valor de P cambia entre estudios ayuda tomar como punto de partida
y este cambio obedece a las leyes de los valores que pudieran ser relevan-
la probabilidad; por ejemplo, si H0 es tes para el error de tipo I de Neyman-
cierta, el valor P queda determinado Pearson. En ningún caso es válido ni
por realizaciones de una variable correcto considerar universalmente el
aleatoria con distribución uniforme[3], umbral 0,05, como se hace usualmen-
por lo que la probabilidad de encon- te; este valor fue popularizado por
trar estudios con p<0,05, cuando H 0 Fisher al ser empleado, junto a 0,01,
es cierta, es de 0,05; es decir, el 5% de en su famoso libro Statistical methods
las investigaciones deben rechazar H0 for research workers, pero estos valo-
siendo cierta, si se sigue la regla de re- res fueron escogidos ante la imposibi-
chazarla cuando p<0,05. Por eso, es lidad de publicar tablas con valores
importante publicar tanto los hallazgos más generales que se encontraban pro-
positivos como los negativos; lamen- tegidas por los derechos de autor de
tablemente “…la literatura médica la revista Biometrika. Tanto Fisher,
muestra una fuerte tendencia a acen- como Neyman y Pearson, recomenda-
tuar lo positivo, los resultados positi- ron flexibilidad en la determinación de
vos son reportados más frecuentemente los umbrales o las tasas de error, se-
que los nulos…”[4]. Por otra parte, el gún el caso. En general, la determina-
publicar el valor de P obtenido en el ción de un valor de umbral depende
estudio permite al lector pensar en un del problema y sus características; por
sinnúmero de opciones y tomar su pro- ejemplo, no sería necesario tener un
pia posición respeto al hallazgo que valor de P del 5% si estamos investi-

MONTERREY P., GÓMEZ-RESTREPO C., APLICACIÓN DE LAS PRUEBAS DE HIPÓTESIS...


201

gando una droga curativa para la promedio de los adultos varones se


esquizofrenia que, como sabemos, no dice, por ejemplo, que debe estar en-
existe; en este caso, posiblemente con tre 170 y 175 cm, con un nivel de con-
un 10% podríamos sentirnos satisfe- fianza de 95%. Es un error entender
chos. Sin embargo, para un medica- esta afirmación en el sentido de que,
mento que combata los síntomas de la con probabilidad del 95%, la media
esquizofrenia, dado que existen otros está entre 170 y 175; significa en rea-
que lo hacen, podríamos estar satisfe- lidad que este intervalo fue construi-
chos con un 5% o menos. do a partir de un “procedimiento” que
en el 95% de las veces arroja un inter-
valo que contiene al parámetro. Esa
Papel de los intervalos de es la confianza que se tiene en la esti-
confianza en los problemas de mación que se presenta y, por ello, es
decisión: consideraciones para una medida de su calidad. La mejor
su uso manera de leerlo o interpretarlo sería
que si yo repitiera el estudio de la es-
Existe una tendencia a desechar las tatura en adultos varones en 100 oca-
pruebas de hipótesis y sustituirlas por siones, 95 de los 100 intervalos de
intervalos de confianza[8,10]. La pro- confianza obtenidos contendrían el
puesta es bastante conocida pero, tal valor real del parámetro (media).
vez, no del todo comprendida por al-
gunos en su real significado. Los intervalos de confianza son
utilizados como alternativas en el pro-
Un intervalo de confianza es un in- ceso de decisión de Neyman y
tervalo que se construye a partir de los Pearson. Para ello se toma el valor del
datos, es decir, sus extremos son parámetro que establece H0 y se deci-
aleatorios y cambian de muestra en de acerca de la validez o no de esa
muestra. Al depender de la muestra, hipótesis según si el valor contenido
tienen un componente aleatorio deter- en ella se encuentra o no en el inter-
minado por el muestreo; por ello, se valo. De esa forma, si en la situación
estudian en el marco de sus propieda- anterior H0 establece que µ=177, como
des probabilísticas. Concretamente, los 177 no pertenece al intervalo se con-
intervalos de confianza se construyen cluiría que H0 es falsa pues el valor de
prefijando la probabilidad de que con- ì debe ser uno de los del intervalo,
tengan el verdadero valor del entre 170 y 175, lo que excluye la
parámetro que se va a estimar. Esta posibilidad de que pueda ser 177. El
afirmación es difícil de entender y ha error de muchos está en pensar que
generado malas interpretaciones. en esto consiste la sustitución de las
Cuando se trata de estimar la estatura pruebas de hipótesis por el análisis con

UNIVERSITAS MÉDICA 2007 VOL. 48 Nº 3


202

intervalos de confianza. Un poco de ancho de los intervalos de confianza


historia basta para comprender la fa- da una clara indicación de cuán poco
lacia. Los intervalos de confianza fue- informativo es el estudio…”[13]. Es
ron introducidos por Neyman en 1937 por ello que el intervalo de confianza
como parte integrante de su teoría de da un ángulo del problema comple-
las pruebas de hipótesis: “… los valo- mentario a las pruebas de hipótesis,
res p y los intervalos de confianza son además de que, al brindar información
esencialmente recíprocos…”[ 11]. Y sobre el posible valor del parámetro,
más allá, posiblemente provean infor- permite tomar una posición respecto
mación complementaría el uno al otro. al significado biológico de los resul-
Otro ejemplo, en un estudio sobre efi- tados obtenidos y proponer otro tipo
cacia de un medicamento nuevo para de modelos causales.
la depresión, se puede decir que el
medicamento obtuvo un riesgo relati-
vo de 2 y un valor de P de 0,04; esto Algunos ejemplos sobre cómo
es significativo para lo que se propo- utilizar las pruebas de hipótesis
nía, pero se reafirma más la certeza en
la evidencia y sus niveles de incerti- A continuación se identificará un pro-
dumbre al decir que se obtuvo lo an- blema de investigación y, tomándolo
terior descrito más un intervalo del como referencia, se presentarán varias
95% de (1,2 - 2,1). Este último dato situaciones alternativas de cómo po-
aporta mayor información que presen- dría presentarse el análisis de los da-
tar solamente el primero. tos utilizando las pruebas de hipótesis.

La mejor postura debe ser unir en La depresión mayor constituye


los análisis el valor de P con los inter- uno de los problemas más importan-
valos de confianza pues, analizados tes en salud pública en nuestro país y
correctamente, ambos dan informacio- en el mundo. Se calcula que la de-
nes complementarias. El valor de P tie- presión será la primera o la segunda
ne la virtud de dar un valor objetivo, causa en aportar a los años de vida
independiente del investigador, que ajustados por discapacidad (DALY o
permite caracterizar si la asociación es AVAD) en el mundo, para el año 2010.
real siguiendo criterios establecidos a En este contexto los estudios clínicos
priori o si no lo es[12]. Por otra parte, para el análisis de la eficacia de dife-
la amplitud o diámetro del intervalo rentes tratamientos resultan especial-
de confianza refleja la variabilidad del mente importantes. Se toma como
estudio, los niveles de incertidumbre problema de referencia un experi-
que el diseño de muestreo o los pro- mento clínico aleatorio para analizar
pios errores no lograron corregir, “…el la efectividad de un nuevo tratamien-

MONTERREY P., GÓMEZ-RESTREPO C., APLICACIÓN DE LAS PRUEBAS DE HIPÓTESIS...


203

to no farmacológico (tratamiento A), tura se analizan tres publicaciones cu-


que se compara con un procedimien- yos valores de P, resultantes de apli-
to tradicional de probada eficiencia car la prueba estadística para la
(tratamiento B); como criterios de comparación de medias de dos pobla-
diagnóstico se consideran la entrevista ciones independientes, se presentan en
estructurada de CIDI para depresión el cuadro 2.
y la evaluación del puntaje y cambio
de la depresión mediante el puntaje Si se toma un umbral de 1:20 = 0,05
obtenido en la escala de Hamilton. El para identificar valores de P pequeños
interés en el análisis de los datos del y mantenerse en un error de tipo 1 de
ensayo clínico sería determinar si en esa cuantía y utilizando como elemento
promedio los puntajes en la escala de central para la interpretación de la evi-
Hamilton para depresión de los indi- dencia obtenida en cada una de las pu-
viduos sometidos al tratamiento A (µA) blicaciones el criterio de Sterne y
son diferentes, más precisamente Smith[4], que aparece resumido en el
menores, que los puntajes de los so- cuadro 1, se tiene lo siguiente.
metidos al tratamiento B (µ B), en
cuyo caso se podría afirmar que los (1) El estudio A, con P=0,000000,
datos del estudio arrojan evidencia a presenta un valor P pequeño, lo
favor de la mayor eficacia del trata- que es una fuerte evidencia con-
miento A. En la terminología de las tra H0 .
pruebas de hipótesis, en la formula-
ción de Neyman y Pearson, el pro- (2) El estudio B, con P=0,04500 pre-
blema consistiría en decidir acerca de senta un valor P relativamente pe-
la validez de H0:µA=µB o de HA:µA≠µB, queño, pero no muy pequeño,
tomando como base los resultados por lo que la evidencia que arro-
experimentales. ja contra H0 no es muy fuerte.

Situación 1. En un estudio de inte- (3) El estudio C, con P=0,882301,


gración de los resultados de la litera- presenta un valor P elevado (re-

Cuadro 2
Resultados de tres publicaciones hipotéticas

Estudio Valor de P

A 0,000000
B 0,045000
C 0,882301

UNIVERSITAS MÉDICA 2007 VOL. 48 Nº 3


204

cuerde que los valores P oscilan disminución de la depresión que se


entre 0 y 1), por lo que la eviden- logra al aplicar el tratamiento A.
cia contra la hipótesis nula es muy
débil. Situación 3. El valor P=0,0149 es
un valor P relativamente pequeño, pero
Los datos para el análisis de las si- no muy pequeño, por lo que la evi-
tuaciones siguientes se presentan en dencia que arroja contra H0 no es muy
el cuadro 3. fuerte. El intervalo de confianza para
estimar la diferencia de las medias
Situación 2. El valor P=0,0000 in- entre los tratamientos (A y B) oscila
dica una fuerte evidencia contra H 0, entre -17,9 y -2,0, y tiene una ampli-
lo que es confirmado por el intervalo tud muy grande, por lo que el nivel de
de confianza que estima que la dife- imprecisión en la estimación de la di-
rencia entre las medias de los dos tra- ferencia de medias es elevado y, por
tamientos es un número entre -11,2 y consiguiente, el análisis que se haga
-8,2. El radio del intervalo acá es impreciso. Por ello, sus conclu-
siones deben tomarse cautelosamente
11.2 - 8.2 3 y, como muestran los valores numéri-
= = 1.5 cos, no son evidencias fuertes a favor
2 2
de que existan diferencias.
El valor obtenido, 1,5 unidades de la
prueba, muestra que el nivel de error En una situación como está debe
es bajo y, como una diferencia de valorarse si el tamaño de muestra uti-
puntajes de mínimo 8 unidades es re- lizado es adecuado y analizar todas las
levante como índice de depresión, fases de diseño y conducción del es-
queda confirmada la relevancia de la tudio en busca de posibles sesgos.

Cuadro 3
Resultados hipotéticos de tres estudios (situaciones)

MONTERREY P., GÓMEZ-RESTREPO C., APLICACIÓN DE LAS PRUEBAS DE HIPÓTESIS...


205

Situación 4. El valor P=0,0000 in- Conclusiones


dica una fuerte evidencia contra H0, es
En este escrito se presentan datos so-
decir, se puede aceptar que hay dife-
bre la importancia de conocer los orí-
rencias en el puntaje de los individuos
genes de la prueba de hipótesis y de
según el tratamiento; los del tratamien-
las posiciones antagónicas que tiene
to A son los que obtienen una me-
sus representantes máximos, Fisher,
dia[22] menor que la de los que reciben
por un lado, y Newman con Pearson,
el tratamiento B[23]. Eso es un hecho,
por el otro. Se esboza cómo el plan-
pero una observación del intervalo de
teamiento de Fisher podría ser más
confianza muestra una información
útil para las ciencias de la salud. Sin
adicional: que la diferencia entre las
embargo, es prioritario poder pensar
medias es un número que se estima en
en la necesidad de tener un valor p
máximo 1,3, es decir, que la media del
especificado y divulgarlo explícita-
tratamiento A es a lo sumo 1,3 unida-
mente en las publicaciones; no pre-
des mayor que la del tratamiento B. Di-
sentarlo de forma aproximada en las
ferencias de esta cuantía no son
publicaciones resaltando la decisión
relevantes clínicamente desde el punto
que toma con él el autor del estudio;
de vista de la presencia de depresión,
esta forma de proceder aporta más
así que, aunque existen diferencias en-
información al lector. Es fundamen-
tre los tratamientos que se comparan,
tal complementar las pruebas de hi-
estas diferencias no son clínicamente
pótesis con los intervalos de
relevantes. Esta decisión es muy impor-
confianza y valorar las conclusio-
tante pues la sustitución del tratamien-
nes en el marco del significado de
to usual (B) sólo se justifica si el nuevo
las mediciones y la plausibilidad bio-
tratamiento es más eficiente clínicamen-
lógica de las conclusiones a que se
te o si tiene una mejor relación costo-
arriba.
beneficio.

Bibliografía
1. Lehman E. The Fisher, Neyman-Pearson theories of testing hypothesis: one theory or
two? J Am Stat Assoc 1993; 88: 122-49.
2. Hubbard R, Bayarri M. Confusion over measures of evidence (p´s) versus errors (a´s) in
classical statistical testing. Am Stat 2003; 57): 171-82.
3. Moran JL. A farewell to P values? Criti Care Resusc 2004; 6: 130-7.
4. Sterne JA, Smith GD. Sifting the evidence-what´s wrong with significance tests? Br
Med J. 2001; 322: 226-31.
5. Monterrey PA, Cortés LY, Días ME. Utilidad y limitaciones de las pruebas de hipótesis
en epidemiología nutricional. ¿Cómo proceder frente a un problema? Perspectivas en
Nutrición Humana. 2003; 9: 72-87.

UNIVERSITAS MÉDICA 2007 VOL. 48 Nº 3


206

6. http: //www.rbccv.org.br/english/normsOfVancouver.asp
7. Walker AM. Cómo presentar los resultados en los estudios epidemiológicos. Bol Of
Sanit Panam. 1993; 115): 148-54.
8. Gardner MJ, Altman DG. Confidence intervals rather than P values: estimation rather
than hypothesis testing. Br Med J 1986; 292: 746-50.
9. Polit DF, Hungler BP. Investigación científica en ciencias de la salud. Principios y
métodos. McGraw-Hill Interamericana, HealthCare Group; 2000.
10. Goodman SN. Toward evidence-based medical statistics. 1. The P value fallacy. Ann
Intern Med 1999; 130: 995-1004.
11. Feinstein AR. P-values and confidence intervals: two sides of the same unsatisfactory
coin. J Clin Epidemiol 1998; 51: 355-60.
12. Fleiss JL. Confidence intervals vs. significance tests: quantitative interpretation. Am J
Public Health 1986; 76: 587-8.
13. Thompson WD. Statistical criteria in the interpretation of epidemiologic data. Am J
Public Health. 1987; 77: 191-4.

MONTERREY P., GÓMEZ-RESTREPO C., APLICACIÓN DE LAS PRUEBAS DE HIPÓTESIS...

También podría gustarte