Está en la página 1de 10

ESTADSTICA ESPAOLA

Nm. 109, 1985, pgs. 5 a 1 3

Mtodo de estimacin bayesiana de


funciones de supervivencia con
datos censurados
por DOMINGO MORALES GONZALEZ,
VICENTE QUESADA PALOMA y
LEANDRO PARDO LLORENTE.
Departamento de Estadstica e I.O.
Facultad de Matemticas
Unversidad Complutense de Madrid

RESUMEN
Se establece el probtema de estimacin no paramtrica de funciones de
supervivencia a partir de datos parcialmente censurados por la derecha en
un contexto bayesiano, usando tcnicas bayesianas paramtricas. Se obtiene
un estimador considerando como distribucin a priori un proceso de Dirichlet y se estudian sus propiedades asintticas desde un punto de vista
bayesiano.
f'c^luhrcl.^^ c^lu^}c^: Esiimacin bayesiana no pararntrica, datos censurados,
procesos de Dirichlet, funcin de supervivencia.

1.

1NTROC?UC'C'lON
Sean

T,,..,, T

variables aieatorias indepenciientes e idnticamente distribuidas,


segn S, (t) = P(T > t), que representan los tiempos verdaderos de supervivencia de n
individuos que son censurddos por la derecha por los tiempos de censura, representados
por las variables aleatorias independientes e icienticamente distribuidas, segn

f^

F 5^7^ ^^)IS i It ^,^1 E^_SP^^Ol^.>

S, (t) = P(^' > t), ^',,..., Y,,. Se supone, adems, que las variables aleatarias T, son
independientes de las Y,. C onviene hacer notar que el estadstco, en la prctica,
dispone unicamente de los datos ( Z, ^S) =(Z,, cS, ; i= 1,..., n}, donde Z, = min { T,, Y, },
, = I(T, < Y,); r= 1,..., n. S ^, = 0, e1 dato es censurado, y si ^S; = l, se trata de una
m uerte.
En algunas ocasiones parece apropiado considerar que las variables aleatorias Z y^d
san independientes. Esto es, que el tiempo observado de muerte o censura es independiente de que la a^bservacin sea censurada o no. Este tipo de modelo, denominado de
azar proporcional, queda caracterizada por la existencia de un [3 E R+ _[0, ^} tal que
S, (t) - S, (t^; Y t^ R^.
En esie trabajo, usando un modelo de azar proporcional, se obtiene un estimador de
la funcin de supervivencia S^ (t}, a partir de datos parcialmente censurados, bajo la
condicin de que se distribuya se^,n un proceso de Dirichlet.
En lo que sigue se supone al lector familiarizado con los conceptos de funcin de
supervivencia, funcin de supervivencia aleatoria y medida de probabilidad aleatoria
{Ferguson (1979), Garca { 1983), Quesada y Vivar { I 984)).
En relacin con la hiptesis que hacemos a lo largo del trabajo, acerca de la
independencia entre las T; y las Y,, conviene matizar la siguiente: Sean S,, S, funciones
de supervivencia aleatorias con distribuciones P, y P, respectivamente. Consideremos
los vectores aleatorios (T,,..., T) e(Y,,..., Y,,,) que toman valores en R+ y R+'respectivamente. Para poder decir que (T,,..., T) e{Y^,..., Y,,,) son muestras aleatorias simples
independientes de poblaciones con supervivencias S, y S^ respectivamente, definimos la
distribucin de probabilidad conjunta P^ de (T,,..., T), (Y,,..., Y,,,), S,, S^ del siguiente
modo:
D^Jinc^ic.^rt 4
(1)

P3 ((S,, S,)E D, T; > t,, Y,> ^ ^,; i=1,...,n: .1=1 ,...,m) I Y1

11

Pf x P,

(j^, (Sr, S,^)

11
r - 1

S^ ( t^)

11

S^ (ti',) ),

donde

D^ c^ {b^ ^^ /^^
x i3Rjr^ ^^),
.

j - I

f3^,,.,^ es la cr--lgebra de Borel en [4,1 ], t,,..., t , t^,,..., ti^,Y, E R+, Ir, (S,, S,) es 1 si
(S^, S^) est en D y es 0 en caso contrario.
La expresin (1) determina una probabilidad P_^ en (R+ x R+' x[0,1 ]^+ x[0,1 ]^-*, (13+ x
[3*' x t3^^{^ 1^ x Bk^r} ^^) ), 13+ denota la clase de los cilindros de Borel en R+ y
la probabilidad producto en ([0,1 ]R^ x[0,1 ]K+, (I3X^^^ 1^ x LiR^11 j^ ))

P, x P, es

ME T()lj() [)t^ f-:STIM:IC 1{)ti E3Ati F^^I.AtiA UE: F^li'.`VC-l()tiE:S DE ^l;F'E-:[tLrl^'f.ti('Ifl t'()ti [)A-T()St E'`ri^E Ft.A[)()S
__ _ _
__. _ _ - .. . .. _ _
_
_
_
_
____
_
__

Adems se tiene el siguiente resultado:


Lemr^ 1
La distribucin de S; es P, , 1= 1, 2; es deci r, P3 (S; E D,) = P; (S, E D,).
Adems V t,,...,t , y^,,...,^^, E R.^
m

rt

Pj (T; > t;, Y, > y;; i= I,... ,n; .1=1 ,...,m/S,, S^} =
`

i}

ii)

P_^ (T, > t,,...,T> 1n} = Ep,[

J-j
^-1

Si (t^)

.n
;-1

S^ (_v;)

S^ (r i) ^

i=1

?.

ESTIMACION BAYESIANA PARAMTRICA DE S, (t)


Sea S7 el espacio rnuestral dor^de toman sus valores las variables aleatorias T e Y.

Dada una muestra (Z,, ^5,),..., (Zn, bn), consideramos un tiempo fijo t y la siguiente
..,
part>tcion de S^ : A,_{ w E S2 1 T( w)< Y( w) y T( K^ )< t,(muerte antes de t), A,
_ { ^^^ E S2 1 Y ( u^ } < T ( K^ ) y Y ( w ) < t } (censura antes de t ) , A _^ _ { w E S2 / T ( ^ti} )
< Y ( ^^^ ) y T ( w^ ) > t } (muerte despus de t ) , A 4 = { ^^^ E S^ / Y ( >^^ ) < T ( n^ ) y
Y( ^^^) > t} ( censura despus de t).
E1 vector aleatorio v(t} _(v, ( t), v, ( t), ti^_^ (t), v.^ (t) }, donde v, (t} representa eI
nmero de muertos que hay en la muestra de tamao n antes de t, v, (t) el nmero de
el nmero de censurados despus de t, sigue una
muertos despus de
t y v4 (t)
distribucin multinomial de parmetros (rr; p, (t), p^ (t), p^ ( t), p,^ (t) ) , siendo p; (t) _
P (A;).
En trminos de las funciones de s^.pervivencia S, {t) y S^ (t), estas probabilidades
aleatorias toman los valores:
p^ (t) _ -

^^ S, (.t) dS, (-x)


^

p,^ (i) _ -

^ S^ (.Y)
<

, p? (t) = l -- S! (t} S, (t) +

CS^ (X) y p4 (t) = S, (t) S, (t) +

l S, (_x) c1S, (.Y) ,


^

^ S^ (.X) (.^5^ (.Y)


<

y bajo el supuesto de azar proporcional, es decir


(1 _ S^ (t)i^^
^
(1 -- S1 (t)^^^ ) , p, {t} .1
S ^ (l ) _ (S^ (t) )^; , [3 > 0 p j (t) =
^
[3+ 1
f3+ I
, P^(t) =

a+l

s^ ( t)^^' Y p4 ( t) =

a+l

S^ (t)t^+^

^^sr^ ^^r^is^r^c^^^ ^^spayc^i ^


_

N uestro problema desde el punto de vista paramtrico es el de considerar a cualquiera de las p, (t) como un parmetro aleatorio de una distribucin multinomial, con una
distribucin a priori dada a partir de las distribuciones marginales de los procesos Sf (t)
y S, (t) y obtener e estimador Bayes bajo prdida cuadrtica del parmetro variable
aleataria S^ (t) a t 1'^jo. Dicho estimador ser la media a posteriori E(S f(t) / v{t) )

T^vrema 1
Dada la muestra observable (^ ^, ^ f),..., (^,,, f^) relativa a las variables T e Y y
supuesto que la funcin de supervivencia de T, Sr (t), es un proceso de Dirichlet, el
estimador Bayes bajo prdida cuadriica de S1 (t} a t fijo en un modelo de azar
proporcional, es

.. ^

.^--^, r r ^

^ n--t^( t )

^ ,., , ,W . ., ,.. ^, . .,

T'(a +(B+ 1)(n-j)+ 1)

..
S, (t) _

,r-^, rl^

. n-u(t)
^- ^ 1

r { a - a (t) + (I3 + 1) (n--./") )

^^,

donde

. ,_

h ( ^ - a ( t ) + ([3 + 1) ( n-- ") + 1)

r { + (B + 1) (n--j) )

a = ^ (R+), (t) _ ( [o,t] ) y t^ (t)

= V.fi (t) + 1'd (t)

DE^m^^s^trucicirt

A t fijo, S^ (t) es una variable aleatoria, S, que se distribuye segn una Beta
(-- (t), a), siendo la distribucin de ^r ( t), supuesto que S toma el valor s, una
Multinomial
1 -- .5^3

(n.,

+1

+ 1)

( 1 - .SJ,i
,

.^,J.3 + 1

B+ 1

B+ t

^,J.^ + !
,

B+1

B+

Por tanto

.^I " ^r^ ^ V/.S} -

n^

v,! v,!

v^! vd!

donde v=( v^, v^, v3, vd)

^1'r-v ^

B+ 1

^y^--ti_;

I3 + 1

, Consecuentemente

.^^/3+11 fti^ fi+v4^ ( 1 -- .S^^+l ^ ^^^+ ^ ^^

M-TC)[^O [^E ES^T IMA(`1O!'v H:11"E-.^1,^1tiA [)E Fl.'!tiC'IONFS DE sl'F'E:R^'IYE-:ti(^[ i C^Oti U:^ iOti (^E.titil R^^Cx)^
_
_ _ _.
__
_
_ __
_

^^1-1(1 _ s') ^ ^r^-1 ^s

s^/.3+11 ^^^+vqtJ (1 _ ^^/3+1)v^+^^ ^

^^

^
.S, (t) = E (S/V (t) _ ^^) _

f s(f3+1J fvj+-v4^ ( 1 _ ^,J3+1)vl+^^z s -a ^I,J-1(1 _ ^) (t}--1 ds


0

y debido a la expansin bnomial de (1 - s^^f ) '^c+`^', quedar

^^^
r^^

ti^ 1 + v,^^ ^

^,,
r^^

^
^^

^ ^^+V^^
J

S( (/3+II (n jI + - (t^+l}-J(1 - s)` (t}.-1 ds

r l/3+1) rrrj1 +-^r^ J-1(1 _ s) (t^-1 ds

.I

Integrando y adaptando la notacin, se obtiene el resultado especificado en el enunciado.


Desde un punto de vista bayesiano, en un proceso de Dirichlet de parmetro ^(. )
sobre (R+, B+). la funcin de supervivencia determinstica

S (t) =- a(t)

representa

el conocimiento a priori mientras que la constante ^= a(R+) indica la confabilidad


en dicho conocimiento.
A continuacin analizamos el comportamiento asinttico de S^ (t) en trminos de la
confiabilidad y as obtenemos.
Tec^rema 2
Si la distribucin a priori viene dada por un procesa de Dirichlet de parmetro a(t)
y hacemos variar manteniendo constante S^, {t), se tiene

n- ^,
lim S^ (t) _

lo

^^- ^,
J = (1

h)

lim ^ f(t) = So (t)


^^0

n -u

^ {-IY( ^ ^ ^ (B+ 1)(n-.))


i=^^
J

n-u
J

/ (f3 + 1) (n - .) )

{ ^ {.v) =

^ _t

i r (-^) )

I^)

3.

^_.st^At^is^^^^c^^A t^s^,^tic>^_.^

COMPORTA^ MIENTO DE ^ ^ (t) al variar t

Hemos obtenido para cada t^ R fijo, un estimador S^ (t) de la funcin de supervivencia S, (t), el caso de que existiese azar proporcional. En este apartado afirmamos que
al variar t, S f(t) es una funcin de supervivencia determinstica en el modelo de azar
proporcional.
Tevrema 3
Dada la muestra observable (z^, ^S^),..., {^,,, S) relativa a las variables aleatorias T e Y,
y supuesto que la funcin de supervivencia de T, S^ (t), sea un proceso de Dirichlet, el
estimador ^ ^ (t) en ei modelo de azar proporcional, al variar t, es una funcin de
supervivencia determinstica.

4.

ESTIMACI()^1 I3EL PARAMETRO DE CENSURA

En este apartado daremos dos mtdos de estimacin del parmetro B a partir de la


informacin obtenida en la muestra (z, , 8,) i= 1,..., n. Comenzaremos por el mtodo de
los momentos.
u}

Sabemos que para cualquier modelo de azar proporcional

P (b = 0) - P (Y < T) _ p^ (t) + P4 ( t) = 1 - c^ S f {t^; ciSr ( t) - 1 --

1
B+ 1

(3
Li+ 1

Entonces igualando la frecuencia relativa de las observaciones censuradas a P(rS = 0},


tendremos

k
n

a
Li+l

^_ k
n-k

donde k es el nmero de individuos censurados en la muestra de tamao n.


Sin embargo sabemos que los estimadores obtenidos por el mtodo de los momentos
sla tienen buenas propiedades, en general, en sentido asinttico y por ello vamos a
analizar el mtodo de la mxima verosimilitud.

Mf^ f()C:x) C^f. f_4T-1^411( I(lti fi.^1,1 f ti[ ^ti^i C)E^. F-l'tit^lOtiES t)F Sl'PFR^'1^'f-:tiC^l ^^ f<)^ DAT()^ c E!^iSC R.1^()^i
__
_
_
__

1 E

h) Calcularemos la verosimilitud de la muestra (Z, S) _(^,, ^,; i= 1,..., n) condicionada


al parmetro Li, es decir

P(Z > t, ^/ B}- P(Z > t/ Li) P(^,^/ B)


En virtud del lema 1, conocemos la probabildad de Z> t condcionada a Li y a los
procesos S, y S^, concretamente:
P(Z, > t f,..., Z > t / S f, S,, B} -- P(T, > t,, Y; > t,, i =1 ,--., n/ S,, S,, B) _

1^
n! S
t ^r:
n
t ^f = eX p (-- ( B+ 1
' ^
! S
( r)
l r)
` ^
1 (S
1J
} n
^
i=1
i=!
i_1
i^/

A (t^) },

donde A(t) es un proceso estocstico de incrementos independientes verificando


exp (--A (t) ).
Sin prdida de generalidad supongamos
r; = A(t;) --A ( t,_,}, i=
J

0= t < t, <

S1 (t) =

n < tn+, _ ^ y sea

1,..., n, que son variables aleatorias independientes. Como


fl

r^, i= 1,..., n: tendremos ^


A(t,) =^
,_^
i=^
las funciones generatrices de momentos

M, () = M^! (f^) = E (^ f' ^ ^c^^)

I1

A(t,) _

^ (n-i+l ) r^, y si consideramos


,,i

, se verifiear

M. () = M f(0), Mr, (^) = M---`^ ,..., M, (e) ^ Mn (H)


M r (^)
"
M ^1-i (B)
^
^
y en ese caso
n

P(Z, > t,,..., Z > t / r^,...,

><^ ^ exp (--(B+1)

(n--i+l ) r,)

i=1

de donde integrando respecto a la distribucin de r,,..., r se obtiene

P(Zf > t,,...,Z > t/B)-M,((B+l)n

M,((n- 1)(13+ 1})

M(B+ 1)

M, ( (n - 1) (B + 1) )

M-r (B+ 1)

12

ESTADiSTfCA ESPAOLA

r ( a } r ( a - ^ (t) + a)

para a> a(t) - a

y como M, (a) =
I'( - a (t) ) r ( + a)

se sigue que

P (Z > t I 13) =

En cuanto a P (^ = r, 1 C3)

r ()

(-(t^)+(B+ 1)(n-j+ i})

^
r (+ (C^ + 1) n) ^=^

con ^S =(c^,,..., cS)

P^^=^^^/ ^}- n1=^


n(

Li

a+ 1

^(t,)+(B+ 1)(n-j})

se tiene

) ^ - ^, ( a+1 1 )^,

Finalmente, la estimacin se hace encontrando i3 que maximice la expresin


P(Z > t, ^S = ^, l Li) ^ P(Z > t/ Li) P (^ = So / B)
Hemos de hacer notar que segn cual sea el proceso elegido como supervivencia
aleatoria, el mtodo de resolucin numrica del mximo en Li puede ser uno u otro.

BIBLIOGRAFA
FERGUSON, T. S. y PHADtA, E. G. (1979): "Ba^^esian nvnpararnetric estirrtativn hased on censored
data ". Ann. Statist. 1, I 63-18b.
QUESAaA, V., GAR^fA, A. y WvAR, A. (19$3): "Moelo de supervivencia cun a: ar proporcic^nal
Ramma exponencial c^n muestras c^ensuradas ". Estad. Espaola, vol. 99.
QUESAA, V. y VtvAtt, A. (1984): "Estimacin puramtrica en modelos no pararrctricus hayesianos
de supervivencia ". Estadistica Espar^ola, n. 1 Q3.
QUESAO^A, V., MORALES. D, y PAROO L. (1985): "Fslimacin paramtrica hayesiana no paramtrica
de funciones de supervivencia con observaciones parcialmente censuradas "' Presentando en la
revista Trabajos de Estadistica,

ti1f I()[)ti [)f k^[ Iti1 ^c I()\ fi ^l [ ti[ ^\ ^ I)E F l\( 1()\E ^[)f til ['f ft i` f\( i^( c3\ C)^ Il)^ ( f\^t K^1(x)^ ^
.

SUMMARY
A BAYESIAN EST[MATION METHOD C}F SURVi` ^/AL
FUNCTIONS WITH CENSORED DATA ^
The problern of nonpararnetric estimaton of a survival function based
on a partially censored on the right sample is established in a bayesian
context, using parametric bayesian techniques. An estimate is obtained
considering Dirichlet processes, and its asymptotic properties are studied
from a bayesian point of view.
K^y^ words: Bayesian nonparametric estimation, Censored data, Dirichlet
process, Survival function.
AMS, 1980. Subject classif cation: Primary 62010, Secundary fi2G99.