Está en la página 1de 8

NOTA METODOLGICA

Aplicacin de los modelos de regresin tobit en la modelizacin


de variables epidemiolgicas censuradas
M.J. Bleda Hernndeza,b / A. Tobas Garcsb
a
Unidad de Investigacin en Tuberculosis. Centro Nacional de Epidemiologa. Subdireccin General de Epidemiologa e Informacin
Sanitaria. Instituto de Salud Carlos III. Madrid.
b
Departamento de Estadstica y Econometra. Universidad Carlos III de Madrid. Getafe.

Correspondencia: Mara Jos Bleda Hernndez. Unidad de Investigacin en Tuberculosis. Centro Nacional de Epidemiologa.
Instituto de Salud Carlos III. C/ Sinesio Delgado, 6. 28028 Madrid.
Correo electrnico: mjbleda@isciii.es
Recibido: 23 de mayo de 2001.
Aceptado: 7 de enero de 2002.
(Application of tobit regression models in modelling censored epidemiological variables)

Resumen Summary
Muchas variables en estudios epidemiolgicos correspon- Many variables in epidemiological studies are continuous me-
den a medidas continuas obtenidas mediante aparatos de asures obtained by means of measurement equipments with
medicin con determinados lmites de deteccin, producien- detection limits, generating censored distributions. The cen-
do distribuciones censuradas. La censura, a diferencia del trun- sorship, opposite to the trucation, takes place for a defect of
camiento, se produce por un defecto de los datos de la mues- the data of the sample. The distribution of a censored varia-
tra. La distribucin de una variable censurada es una mezcla ble is a mixture between a continuous and a categorical dis-
entre una distribucin continua y otra discreta. En este caso, tributions. In this case, results from lineal regression models,
no es adecuado utilizar el modelo de regresin lineal estimado by means of ordinary least squares, will provide biased esti-
para mnimos cuadrados ordinarios, ya que proporciona es- mates. With one only censorhip point the tobit model must be
timaciones sesgadas. Con un nico punto de censura debe used, while with several censorship points this models ge-
utilizarse el modelo de regresin censurado (modelo tobit), neralization should also be used. The illustration of these mo-
mientras que cuando hay varios puntos de censura se utiliza dels is presented through the analysis of the levels of mer-
la generalizacin de este modelo. La ilustracin de estos mo- cury measured in urine in the study about health effects of a
delos se presenta a travs del anlisis de las concentracio- municipal solid-waste incinerator in the county of Matar
nes de mercurio medidas en orina, correspondientes al es- (Spain).
tudio sobre los efectos para la salud de las emisiones de la Key words: Regression. Truncation. Censorship. Maximum
incineradora de residuos slidos de Matar. likelihood. Tobit model.
Palabra clave: Regresin. Truncamiento. Censura. Mxima
verosimilitud. Modelo tobit.

los niveles de inmunoglobulina E en sangre1 o los ni-


Introduccin veles de metales medidos en sangre u orina2.
El truncamiento es una caracterstica intrnseca de
n muchas ocasiones, variables objeto de inves- la distribucin de la variable objeto de estudio, de la cual

E tigacin en estudios epidemiolgicos se corres-


ponden a medidas continuas obtenidas median-
te aparatos de medicin debidamente ajustados
y calibrados. Es habitual que dichos aparatos tengan
determinados lmites de deteccin, tanto inferiores como
se extraen los datos de la muestra. Se produce cuan-
do slo la parte de la distribucin de la variable que se
encuentra por encima (o por debajo) del denominado
punto de truncamiento contiene la informacin relevante
que se desea estudiar. Un ejemplo de variable trunca-
superiores. Estos lmites pueden hacer que, a pesar de da sera el valor de hemoglobina cuando el inters re-
que la variable que nos interesa estudiar tenga una dis- side en estudiar a aquellos pacientes con valores in-
tribucin determinada, los valores que realmente se ob- feriores a 8 g/dl en la poblacin. El punto de truncamiento
serven en la muestra no sean representativos. Algunos es 8 g/dl y la variable se dice que est truncada. A nivel
ejemplos los podemos encontrar en la distribucin de terico, para que la funcin de densidad de una varia-

Gac Sanit 2002;16(2):188-95 188


Bleda Hernndez MJ, et al. Aplicacin de los modelos de regresin tobit en la modelizacin de variables epidemiolgicas censuradas

ble aleatoria truncada integre la unidad, se divide su de estudio, sino un defecto de los datos de la muestra,
funcin de densidad entre la probabilidad de que una que si no estuvieran censurados constituiran una mues-
observacin no pertenezca al rea truncada. En la fi- tra representativa de la poblacin de inters no cen-
gura 1 se representa grficamente cmo afecta el trun- surada. Un ejemplo habitual de censura es el que se
camiento a la funcin de densidad de una distribucin produce cuando la variable objeto de estudio es el tiem-
normal estndar, con punto de truncamiento inferior a po de supervivencia desde el diagnstico de una en-
= 1,5. Otros ejemplos de variables truncadas se pue- fermedad hasta la fecha de muerte (evento). En la prc-
den encontrar en los modelos usados en el anlisis del tica el estudio tendr definida una fecha de finalizacin
gasto sanitario3. (punto de censura) en la que ocurrir que no todos los
La censura, por el contrario, no es una caracters- sujetos de la muestra escogida habrn muerto (algu-
tica intrnseca de la distribucin de la variable objeto nos seguirn vivos). A pesar de que el objetivo sera
estudiar el tiempo de supervivencia en la poblacin de
enfermos diagnosticados de dicha enfermedad, no es
Figura 1. Distribucin normal estndar N(0,1), con un punto de
truncamiento inferior y con un nico punto de censura inferior. posible disponer en la muestra de los tiempos de su-
pervivencia de todos los enfermos. La variable tiempo
de supervivencia se dice entonces que est censura-
Variable normal truncada da superiormente. Cuando la variable est censurada,
0,5 la distribucin que siguen los datos de la muestra es
una mezcla (mixtura) entre una distribucin continua y
Frecuencia relativa

0,4
otra discreta, existiendo una acumulacin de probabi-
0,3 lidad en el punto de censura. Tambin en la figura 1,
se presenta la funcin de densidad de una distribucin
0,2 normal estndar, censurada, con un nico punto de cen-
sura inferior a a = 1,5.
0,1
Si la variable objeto de estudio es una medicin con-
0 tinua que se distribuye segn una ley normal, en la que
4 2 0 2 4 existen uno o varios puntos de truncamiento y/o cen-
sura, no es posible utilizar los habituales modelos de
regresin lineal estimados por mnimos cuadrados or-
dinarios (MCO), porque proporcionan estimaciones in-
Variable normal censurada correctas del efecto y de su variabilidad4,5. Cuando la
0,5 variable de inters tiene un punto de truncamiento se
debe utilizar el denominado modelo de regresin trun-
Frecuencia relativa

0,4
cado4,5. Anlogamente si tiene un nico punto de cen-
0,3 sura tiene que utilizarse el llamado modelo de regre-
sin censurado o modelo tobit6. Cuando existen varios
0,2 puntos de truncamiento o censura, o cuando coexis-
ten al mismo tiempo censura y truncamiento, se utili-
0,1
zan las respectivas generalizaciones de estos mode-
0 los que, desarrollados originalmente en el campo de la
4 2 0 2 4 econometra, se han aplicado con frecuencia en el
campo de la economa de la salud7-10.
La lnea discontinua muestra la funcin de densidad de una La necesidad de utilizar modelos alternativos a los
distribucin N(0,1) y en continuo la funcin de densidad de una
modelos de regresin lineal, estimados por MCO, sur-
N(0,1) truncada inferiormente en el punto a = 1,5, donde el rea
(probabilidad) de la cola de la N(0,1) que queda a la izquierda del gi en el estudio sobre los efectos potenciales para la
punto de truncamiento se reparte entre el conjunto de puntos no salud de las emisiones de una incineradora de residuos
truncados, haciendo que la funcin de densidad de la N(0,1) slidos urbanos en la poblacin de Matar
truncada integre la unidad. La lnea discontinua representa la
funcin de densidad de una distribucin N(0,1) y en negrita
(Barcelona)2,11, al analizar los datos correspondientes
la funcin de densidad de una N(0,1) censurada inferiormente en a valores de metales medidos en orina. Las concen-
a = 1,5, donde el rea (probabilidad) de la cola inferior que queda traciones de mercurio presentaban la particularidad de
a la izquierda del punto de censura se acumula en dicho punto de tener varios puntos de censura inferior en la cola iz-
censura a. As, la altura de la lnea vertical en el punto de censura
representa el valor de esta rea inferior. Por tanto, la funcin de
quierda de la distribucin, debidos al lmite de detec-
densidad de una variable censurada es una mixtura entre una cin inferior del aparato de medicin. El objetivo de este
variable discreta, por la acumulacin de probabilidad en el punto trabajo es describir las potenciales aplicaciones de la
de censura a, y una variable continua ya que los valores no famila de modelos de regresin censurada en la mo-
censurados siguen una N(0,1).
delizacin de variables epidemiolgicas censuradas.

189 Gac Sanit 2002;16(2):188-95


Bleda Hernndez MJ, et al. Aplicacin de los modelos de regresin tobit en la modelizacin de variables epidemiolgicas censuradas

donde (.) representa la funcin de distribucin de a


Material y mtodos N(0,1) evaluada en el punto en cuestin.
La funcin de densidad de la variable censurada ser
Diseo del estudio entonces:

En el estudio sobre los efectos potenciales para la


salud de las emisiones de una incineradora de residuos
Pr (y = a) = Pr (y* a) = (a ) cuando y* a
slidos urbanos en la poblacin de Matar (Barcelona), La misma densidad de y* cuando y* > a
se seleccion una muestra de 201 sujetos voluntarios
(100 varones y 101 mujeres) de edades comprendidas Esta distribucin es una mixtura entre una distribu-
entre los 18 y los 68 aos del padrn municipal durante cin continua y otra discreta, donde se asigna toda la
el perodo marzo-junio de 19952,11. Para todos los su- probabilidad contenida en el rea censurada al pun-
jetos se recogi informacin sobre tabaquismo, dieta to de censura a. Por esta razn, se habla de un punto
y alcohol, as como muestras de sangre y orina. Se mi- de acumulacin de probabilidad en el punto de censura
dieron los valores de mercurio en orina. Los lmites de (fig. 1).
deteccin inferiores para los mtodos analticos utili- El inters en un modelo tobit reside habitualmente
zados, definidos como la concentracin dado un 1% de en estudiar la variable latente y*. La formulacin gene-
absorcin, fueron de 0,2 g/l. Las concentraciones ral del modelo es que el valor medio de esta variable
de mercurio se corrigieron posteriormente en fun- y* es una funcin lineal de las variables explicativas
cin de la concentracin de creatinina en la orina, por E [ yi* | xi ] = X i . Dado que los valores de y* son des-
lo que las unidades en que finalmente se expresaron conocidos, y tan slo se conocen los valores de la va-
fueron g/g de creatinina (g/g CR). riable censurada y, se modelizar la E [ yi | xi ] expre-
sndola en funcin de E [ yi *| xi ] como:

Modelo de regresin censurado con un nico punto de censura E [yi | xi ] = E [yi* | xi, yi* > a] Pr [yi* > a | xi ] + a *Pr [yi* a | xi ]
(modelo tobit)
La estimacin de este modelo utilizando el mtodo
El modelo tobit fue propuesto por Tobin6 en 1958 y de MCO proporciona estimaciones sesgadas de los co-
es en su honor por lo que se denomina de este modo. eficientes. Sin embargo, las estimaciones por el mto-
Para definir la distribucin de la variable censurada, que do de mxima verosimilitud facilitan estimaciones de los
se denominar y, con un nico punto de censura infe- coeficientes eficientes y consistentes4,5, ya que la fun-
rior a, es necesaria la utilizacin de la variable aleato- cin de verosimilitud que se maximiza integra infor-
ria original subyacente (latente) y*. Entonces, la variable macin tanto de las observaciones censuradas como
censurada y tomar los valores: de las no censuradas:
y = ay cuando la variable subyacente y* a
y = y* cuando la variable subyacente y* > a
I (, 2) = In L (, 2) =
 yi > a

1
2
Cabe notar la diferencia entre los valores ay y a. El
[ In(2) + In ( ) + (y x ) ] +  [ (a x )]
2
punto de censura a determina si y* est censurada, mien- 2 i i
In i

2
tras que ay es el valor asignado a la variable y si y* est yi a
censurada. Usualmente el valor ay es igual al valor del
punto de censura a, pero podra no serlo. Por simplici- En esta funcin se observa cmo se podrn iden-
dad se supondrn iguales de aqu en adelante4,5. tificar las estimaciones de los efectos sobre la variable
Si adems se realiza la asuncin de que la distri- latente y* ( ) utilizando nicamente la variable censu-
bucin de la variable subyacente es y* ~ N(,2) la pro- rada y.
babilidad de que una observacin est censurada o no Hay que sealar que en este modelo la no norma-
lo est ser: lidad afecta en mayor medida que en los modelos de
regresin lineal habituales y produce que los estima-
Pr (censurada) = Pr(y* a) = Pr (N (,2) a) = dores sean inconsistentes. En la actualidad muchos
investigadores estn estudiando cmo contrastar la hi-
Pr (N(0,1) (a ) ) = (a ) ptesis de normalidad del modelo3,4. Los fundamentos
tericos presentados en el modelo tobit son genera-
lizables a situaciones en las que la variable dependien-
Pr (no censurada = Pr(y* > a) =
te pueda tener varios puntos de censura, ya sean
= 1-Pr(y* a) = 1- (a ) = ( a ) todos inferiores, todos superiores o inferiores y supe-
riores4,5.

Gac Sanit 2002;16(2):188-95 190


Bleda Hernndez MJ, et al. Aplicacin de los modelos de regresin tobit en la modelizacin de variables epidemiolgicas censuradas

Interpretacin de los coeficientes ltimo, en el tercer modelo se consideraron de nuevo


todos los individuos, aunque los individuos con valores
El inters en un modelo tobit puede centrarse en la censurados tomaron sus respectivos valores de cen-
estimacin de diferentes medidas de efecto: sura. Se estim un modelo de regresin lineal censu-
rado con varios puntos de censura, que es la genera-
1. Cuando el inters reside en el estudio de las va-
lizacin del modelo tobit anterior.
riables x asociadas con la variable latente y*, las esti-
Para cada uno de los tres anlisis se construyeron
maciones obtenidas en el modelo tobit representan
a continuacin los modelos multivariados. Se incluye-
directamente el efecto marginal que cada una de las
ron todas aquellas variables cuyo valor de la t de Student
variables x tiene en el valor medio de y*.
para el coeficiente estimado result en valor absoluto
2. Sin embargo, si el inters reside en el estudio de
mayor que 1 en los correspondientes modelos univa-
las variables x asociadas con la variable censurada
riados y, posteriormente, se fueron eliminando una a
y, las estimaciones obtenidas en el modelo tobit de-
una las variables no significativas12 hasta configurar los
bern ponderarse por la probabilidad de que una ob-
modelos finales.
servacin no est censurada:

x a
i(

) Software estadstico

El anlisis estadstico se ha realizado utilizando el


Esta probabilidad de no censura depende de los
paquete estadstico Stata, versin 6.013. Las instruc-
valores que tome cada uno de los sujetos i en cada una
ciones utilizadas para estimar los diferentes modelos
de las variables x, por lo que habitualmente se evala
han sido: regress para estimar el modelo de regresin
en la media, mnimo y/o mximo de dichas variables.
lineal mltiple por MCO, tobit estima el modelo de re-
Aunque este ltimo inters no suele darse en el m- gresin censurado con un nico punto de censura y
bito de la epidemiologa, es frecuente en el campo de cnreg estima el modelo de regresin lineal censurado
la economa de la salud. con varios puntos de censura.

Anlisis estadstico
Resultados
Para contrastar si existan diferencias estadstica-
mente significativas entre los sujetos con censura y sin En tres de los 201 sujetos (1,5%) estudiados no se
censura, se utiliz el test de la suma de rangos de obtuvo la muestra de orina necesaria para realizar la
Wilcoxon para las variables continuas, que pone a prue- medicin. En 63 de los 198 sujetos (31,8%) no se de-
ba si los datos de ambos grupos de sujetos proceden tect la concentracin de mercurio debido al lmite de
de poblaciones con la misma distribucin. Para las va- deteccin inferior del aparato de medicin (tabla 1). Para
riables categricas se utiliz el estadstico de contras- estos sujetos, el valor de censura se correspondi al
te de la 2 de Pearson, el cual pone a prueba si las filas lmite inferior de deteccin, que vari de unos sujetos
y las columnas en una tabla de contingencia son in- a otros en funcin de la concentracin de creatinina en
dependientes. la orina (tabla 2). Adems, para normalizar los valores
Seguidamente, para cada uno de los tres modelos de mercurio, stos fueron transformados logartmica-
de regresin analizados se realizaron los respectivos mente debido a la forma asimtrica de la distribucin
modelos de regresin univariantes para cada una de (fig. 2).
las variables explicativas xj consideradas. En el primer En el anlisis descriptivo para los sujetos censura-
modelo de regresin analizado, se consideraron tan slo dos y no censurados (tabla 3), la comparacin de los
aquellos individuos con valores detectados (la mues-
tra con valores observados) y se estim un modelo de
regresin lineal por MCO. En el segundo modelo, se Tabla 1. Descripcin de las concentraciones de mercurio
consideraron todos los individuos, aunque se asumi (en g/g creatinina) para los individuos con valores
censurados y no censurados
que todos los sujetos con valores censurados toma-
ban el mismo valor mnimo de censura (a = 0,1 g/g CR). Percentiles
Se escogi este valor mnimo porque se consider
que era situarse en el peor caso que se podra haber Muestra n (%) Mnimo P5 P25 Mediana P75 P95 Mximo
dado.
No censurados 135 (68,2) 0,1 0,3 1,3 2,3 4,8 12,8 21,0
Se estim un modelo de regresin lineal censura-
Censurados 63 (31,8) 0,1 0,1 0,2 0,3 0,5 0,9 1,2
do con un nico punto de censura o modelo tobit. Por

191 Gac Sanit 2002;16(2):188-95


Bleda Hernndez MJ, et al. Aplicacin de los modelos de regresin tobit en la modelizacin de variables epidemiolgicas censuradas

Tabla 2. Distribucin de los puntos de censura


variables que finalmente se incluyeron en los tres mo-
en las concentraciones de mercurio (en g/g creatinina) delos fueron la edad (en aos), sexo (0 = varn;
1 = mujer), consumo de verduras crudas y consumo de
Concentraciones ahumados (ambos medidos en nmero de raciones se-
de mercurio n (%)
manales). En el modelo de regresin lineal, estimado por
0,1 15 (23,8) MCO, las variables edad y sexo resultaron estadstica-
0,2 16 (25,4) mente significativas (p = 0,008 y p = 0,004, respectiva-
0,3 10 (15,9) mente) mientras que el consumo de verduras crudas re-
0,4 5 (7,9) sult marginalmente significativo (p = 0,077). En el modelo
0,5 8 (12,7) tobit, considerando un mismo punto de censura en 0,1
0,6 2 (3,2) g/g CR para los 63 sujetos con valores censurados, la
0,7 3 (4,7) variable edad dej de ser estadsticamente significativa
0,9 2 (3,2) (p = 0,968), mientras que la variable sexo continu sin-
1,2 2 (3,2) dolo (p = 0,045). Sin embargo, el consumo de verduras
Total 63
crudas result significativo (p = 0,022) y el de ahuma-
dos se mostr al lmite de la significacin (p = 0,099).
Por ltimo, en el modelo censurado con varios puntos
valores de las variables incluidas en el anlisis no ob- de censura (tabla 2), la variable edad de nuevo dej de
jetiv diferencias estadsticamente significativas a un ser estadsticamente significativa (p = 0,523), en tanto
nivel de significacin = 0,05. que la variable sexo continu sindolo (p = 0,016). Tanto
En los modelos de regresin, tanto univariantes como el consumo de verdudras crudas como el de ahumados
multivariantes, muy pocas variables demostraron estar resultaron al lmite de la significacin estadstica (p = 0,079
asociadas con los valores de mercurio (tabla 4). As, las y p = 0,101, respectivamente).

Figura 2. Distribucin de las concentraciones de mercurio


(en escalas original y logartmica) para diferentes puntos de censura y para un nico punto de censura.

Diferentes puntos de sutura nico punto de sutura

20 20
Valor de mercurio

Valor de mercurio

15 15

10 10

5 5

0 0
S No S No
Censura Censura

Diferentes puntos de sutura nico punto de sutura


4 4
Log (valor de mercurio)

Log (valor de mercurio)

2 2

0 0

-2 -2
S No S No
Censura Censura

Gac Sanit 2002;16(2):188-95 192


Bleda Hernndez MJ, et al. Aplicacin de los modelos de regresin tobit en la modelizacin de variables epidemiolgicas censuradas

Tabla 3. Anlisis descriptivo para la muestra censurada Tabla 4. Resultados de los modelos de regresin lineal,
y no censuradaa tobit considerando un nico punto de censura
y con varios puntos de censura
No censurados Censurados
^
(n = 135) (n = 63) (EE) t p

Caractersticas personales, X (DE) Regresin lineal (MCO) con la muestra
Edad 39,2 (13,7) 42,1 (4,3) no censurada (n = 135)a
IMC 25,0 (4,1) 25,4 (4,4) Edad 0,019 (0,007) 2,67 0,008
Sexo, n (%) Sexo 0,566 (0,186) 2,93 0,004
Varn 65 (48,2) 34 (54,0) Verduras crudas 0,069 (0,039) 1,78 0,077
Mujer 70 (51,8) 29 (46,0) Ahumados 0,492 (0,477) 1,03 0,304
Fumadorb Modelo tobit con un nico punto
Nunca 65 (48,9) 23 (37,1) de censura (n = 198)b
Ex 22 (16,5) 12 (19,4) Edad 0,0005 (0,013) 0,04 0,968
S 46 (34,6) 27 (43,5) Sexo 0,699 (0,346) 2,02 0,045
Raciones semanales mediana (P5-P95) Verduras crudas 0,152 (0,066) 2,31 0,022
Leche 7,0 (0-14) 7,0 (0-19,6) Ahumados 1,631 (0,984) 1,66 0,099
Yogur 3,0 (0-7) 2,0 (0-7) Modelo con varios puntos de censura
Queso 2,0 (0-7) 2,0 (0-7) (n = 198)c
Verduras Edad 0,007 (0,012) 0,64 0,523
Crudas 3,0 (0,2-7) 5,0 (0,3-7) Sexo 0,687 (0,282) 2,44 0,016
Cocidas 3,0 (0,2-7) 3,0 (0,5-7) Verduras crudas 0,096 (0,054) 1,77 0,079
Carnes rojas 3,0 (0,9-7) 3,0 (1-7) Ahumados 1,314 (0,797) 1,65 0,101
Pescado 2,0 (0,5-7) 2,0 (0-7)
Marisco 0,2 (0-1,2) 0,2 (0-1) ^: coeficiente de regresin; EE: error estndar del coeficiente de regresin ^; t =
^/EE. a63 observaciones con valores no detectados; b63 observaciones censura-
Embutido 3,0 (0-7) 3,0 (0-7)
das en el punto 0,1 g/g creatinina de mercurio; c63 observaciones censuradas
Ahumados 0,0 (0-0,5) 0,0 (0-0,2)
segn los puntos de censura descritos en la tabla 2.
Caf 7,0 (0-28) 7,0 (0-44,8)
Coca-cola 0,2 (0-14) 0,0 (0-7)
Alcohol 2,3 (0-31,5) 2,3 (0-34,7)
direccin (tienen el mismo signo), aunque difieren bas-
a
No se encontraron diferencias estadsticamente significativas en las variables des- tante en su magnitud. Las estimaciones obtenidas en
critas en la tabla entre no censurados y censurados, a un nivel de significacin
el modelo tobit y en el modelo censurado con varios
= 0,05; bdos sujetos con valores no censurados en el mercurio y un individuo con
puntos de censura son, en general, sustancialmente ma-
valor censurado no respondieron a la variable fumador. X (DE): media (desviacin
estndar); IMC: ndice de masa corporal, (P5-P95): (percentil 5 - percentil 95). yores (en valor absoluto).
La estimacin de los errores estndar asociados a
estos coeficientes fueron mayores en el modelo tobit,
seguidas de las obtenidas en el modelo censurado con
Como el inters resida en investigar los valores de
varios puntos de censura. En el modelo de regresin
mercurio en la poblacin de Matar, de la cual se ex-
lineal estos errores estndar fueron sustancialmente me-
trajo una muestra representativa, cada estimacin aso-
nores.
ciada a una variable x, obtenida en el modelo tobit y
en el modelo censurado con varios puntos de censu-
ra, representa directamente el efecto marginal que cada
una de las variables independientes tiene en el valor
Discusin
medio de la variable subyacente y* cuando varan en
una unidad, manteniendo constantes el resto de va-
Muchas variables epidemiolgicas que no miden el
riables. Si el inters hubiese residido en la variable cen-
tiempo transcurrido desde un momento dado hasta que
surada y, la interpretacin de los coeficientes en estos
se produce el evento de inters presentan tambin dis-
dos modelos no hubiese sido directa y se habra teni-
tribuciones con censura para las cuales los modelos de
do que calcular el efecto marginal de las variables in-
regresin lineal no deberan utilizarse, porque propor-
cluidas en el modelo, corrigiendo por la probabilidad de
cionan estimaciones sesgadas e inconsistentes4-6. En
no censura.
esta situacin es aconsejable la utilizacin de mode-
Comparando los resultados obtenidos en el primer
los ms adecuados a la naturaleza de la variable de
modelo (regresin lineal) con las estimaciones ob-
estudio que tengan en cuenta la existencia de censu-
tenidas a travs de los modelos tobit, y censurado con
ra. La familia de modelos de regresin censurada per-
varios puntos de censura, se observa cmo las esti-
mite tratar este problema, ya sea con un nico o con
maciones de los tres tipos de modelos van en la misma

193 Gac Sanit 2002;16(2):188-95


Bleda Hernndez MJ, et al. Aplicacin de los modelos de regresin tobit en la modelizacin de variables epidemiolgicas censuradas

varios puntos de censura, y con censura inferior, su- za de los datos de nuestro estudio, donde existen va-
perior o de intervalo4-6. En comparacin con los resul- rios puntos de censura para las concentraciones de mer-
tados que facilita el modelo de regresin lineal, los que curio. Sin embargo, por ser modelos muy sensibles a
se obtienen utilizando los modelos de regresin cen- la falta de normalidad, es muy importante tener en cuen-
surados no cambian la direccin del efecto estimado. ta este aspecto antes de realizar cualquier anlisis.
Las principales diferencias se encuentran al cuantificar Conviene sealar que la ausencia de normalidad de los
la estimacin de los efectos, tal como se ilustra en el errores del modelo ocasiona que los estimadores ob-
anlisis de los valores de mercurio, donde los coefi- tenidos sean inconsistentes4,14.
cientes estimados pueden variar en gran medida, as Las variables evaluadas en nuestro anlisis expli-
como en la estimacin de los errores estndar de di- caron slo una pequea parte de la variabilidad total
chas estimaciones que intervienen en la significacin de la distribucin de los valores de mercurio. Adems,
estadstica de estos estimadores. Esto debe ser teni- dos de las variables examinadas edad y sexo, si bien
do en cuenta, ya que en la mayora de los estudios epi- pueden determinar directamente las concentracio-
demiolgicos la cuantificacin del efecto es de tanto in- nes de metales porque influyen en el metabolismo, son
ters como su significacin. esencialmente variables indicadoras (proxy) de otras
Otro punto a destacar, que pone de manifiesto la fuentes de exposicin. Resultados similares han sido
importancia de tener en cuenta la censura, es el hecho observados en otras poblaciones15, donde factores so-
de que ignorar todas las observaciones censuradas y ciodemogrficos explicaron una gran parte de la va-
trabajar exclusivamente con observaciones detectadas riacin y exposiciones especficas slo una pequea
hace que la variable que se desea estudiar a escala parte. Por otro lado, puede extraar la relacin ha-
poblacional tenga una distribucin diferente de la va- llada con el consumo semanal de verduras crudas y
riable resultante al obtener la muestra. En particular, ahumados, aunque esta ltima podra sorprender en
el valor medio calculado con la muestra resulta mayor menor medida si se considera que el mercurio en orina
que el valor medio poblacional, si los valores no de- se ha asociado con el consumo de pescado en otros
tectados se sitan en la cola inferior de la distribucin, estudios16,17. Cabe sealar tambin que en estudios pre-
y resulta menor si los valores no detectados se sitan vios que evaluaban los determinantes de los valores de
en la cola superior de la distribucin. mercurio en orina o en sangre15-17 no se han utilizado
As, si fuese posible realizar un modelo de regre- modelos de regresin que tengan en cuenta la posible
sin lineal conocida la variable latente y* en la pobla- censura de las concentraciones de mercurio debido a
cin, se obtendran los valores reales en las estima- los lmites de deteccin del aparato de medida, con lo
ciones . Pero el efecto de eliminar las observaciones que se estaran proporcionando estimaciones segadas
censuradas y de estimar un modelo de regresin line- e imprecisas para las variables que se revelaron aso-
al es que las estimaciones MCO que se obtienen a tra- ciadas.
vs del modelo de regresin lineal, estimado por
MCO, sern menores (en valor absoluto) que las an-
teriores y menos precisas. El efecto de introducir las
observaciones censuradas y de estimar un modelo que AgradecimientosLos autores agradecen a Carlos Alberto
tiene en cuenta la censura es que las estimaciones ob- Gonzlez la autorizacin para utilizar los datos del estudio
tenidas son generalmente mayores (en valor absoluto) sobre la incineradora de residuos slidos urbanos de
que las estimaciones MCO y ms precisas, por lo que Matar. Agradecemos tambin a Mercedes Dez y Roberto
sern ms prximas a las verdaderas . En este sen- Pastor sus sugerencias a las versiones previas, y a los dos
tido, el modelo de regresin censurado con distintos pun- revisores annimos y al miembro del equipo editorial por
tos de censura es el ms adecuado dada la naturale- sus comentarios y sugerencias.

Bibliografa 3. Duan N, Manning WG, Morris CN, Newhouse JP. Comparison


of alternative models for the demand for medical care. J
1. Soriano JB, Ant JM, Sunyer J, Tobas A, Kogevinas M, Almar Business Econom Stat 1983;1:115-26.
E, et al. Risk of asthma in the general Spanish population at- 4. Greene WH. Anlisis economtrico. 3.a ed. Prentice Hall Iberia,
tributable to specific immunoresponse. Int J Epidemiol Madrid, 1999.
1999;28:728-34. 5. Long JS. Regression models for categorical and limited de-
2. Bleda MJ, Gonzlez CA, Kogevinas M, Huici A, Gadea E, pendent variables. Thousand Oaks: Sage, 1997.
Ladona M, et al. Niveles sricos basales de dioxinas, fura- 6. Tobin J. Estimation of relationships for limited dependent va-
nos, PCBs y metales en una muestra de poblacin gene- riables. Econometrica 1958;26:24-36.
ral en una ciudad espaola en que se ha instalado una in- 7. Van der Gaag J, Van der Ven W. The demand for primary he-
cineradora de residuos slidos [abstract]. Gac Sanit alth care. Med Care 1978;16:299-312.
1996;10(Supl):56. 8. Luoma K, Jarvio ML, Suoniemi I, Hjerppe RT. Financial in-

Gac Sanit 2002;16(2):188-95 194


Bleda Hernndez MJ, et al. Aplicacin de los modelos de regresin tobit en la modelizacin de variables epidemiolgicas censuradas

centives and productive efficiency in Fihish health centres. 13. StataCorp. Stata Statistical Software: Release 6.0. College
Health Econ 1996;5:435-45. Station, TX: Stata Corporation, 1999.
9. Grootendorst PV. Health care policy evaluation using longi- 14. Chesher A, Irish M. Residual analysis in the grouped and cen-
tudinal insurance claim data: a Tobit estimator. Health Econ sored normal linear model. J Econometrics 1987;34:33-61.
1997;6:365-82. 15. Sartor F, Rondia D, Claeys F, Bochet JP, Ducoffre G,
10. Rosko MD. Impact of internal and external environmental Lauwerys, S, et al. Factors influencing the cadmiun body bur-
pressures on hospital. Health Care Manag Sci 1999;2:63- den in a population study. IARC Sci Publ 1992;118:101-6.
74. 16. Salonen JT, Seppanen K, Nyyssonen K, Korpela H, Kauhanen
11. Gonzlez CA, Kogevinas M, Gadea E, Huici A, Bosch A, Bleda J, Kantola M. Intake of mercury from fish, lipid peroxidation
MJ, et al. Biomonitoring study of people living near or wor- and the risk of myocardial infarction and coronary, cardio-
king at a municipal solid-waste incinerator before and after vascular and any death in eastern Finish men. Circulation
two years of operation. Arch Environ Health 2000 Jul- 1995;91:645-55.
Aug;55(4):259-67. 17. Svensson BG, Schutz A, Nilsson A, Akesson I, Akesson B,
12. Sez M, Barcel MA. Un criterio para omitir variables su- Skerfving S. Fish as a source of exposure to mercury and
perfluas en modelos de regresin. Gac Sanit 1998;12:281-3. selenium. Sci Total Environ 1992;126:61-74.

195 Gac Sanit 2002;16(2):188-95