Documentos de Académico
Documentos de Profesional
Documentos de Cultura
ABolivar-EAlamilla Final Final
ABolivar-EAlamilla Final Final
a
linking 1990@hotmail.com, b addy.bolivar@ujat.mx
Abstract
In this work it is shown how some dimensional reduction methods can be applied to DNA microarray
data, to estimate the survival function by a Cox proportional hazard model where the covariates are
the microarray gene expression data. The dimension reduction methods considered here were Principal
Component Analysis and Supervised Principal Components. A simulation study is done to compare the
behavior of these methods in the estimation of the Cox proportional hazard model, considering non
diagonal covariance matrices for the data, since it is well known that the gene expressions are correlated.
Further, it is presented an analysis with real microarray data of the literature to compare both methods.
Resumen
En este trabajo se muestra como algunos métodos de reducción de dimensión pueden ser aplicados
a datos de microarreglos ADN, para estimar la función de supervivencia mediante un modelo de riesgos
proporcionales de Cox donde las covariables son las expresiones de genes del microarreglo. Los métodos
de reducción de dimension considerados en este trabajo fueron Análisis de Componentes Principales y
Componentes Principales Supervisadas. Un estudio de simulación es hecho para comparar el compor-
tamiento de estos métodos en la estimación del modelo de riesgos proporcionales de Cox, considerando
matrices de covarianza no diagonal para los datos, ya que es bien sabido que las expresiones de los genes
son correlacionadas. También se presenta un análisis utilizando datos de microarreglos ADN reales de la
literatura donde se comparan ambos métodos.
Keywords and phrases : Survival analysis, Cox proportional hazard model, DNA microarray data, Principal Component
Analysis, Supervised Principal Components
1. Introducción
Los estudios de microarreglos ADN permiten a los cientı́ficos llevar a cabo de forma rápida y eficiente
análisis simultáneos de miles de genes en un solo experimento, con el fin de conocer el comportamiento
de estos bajo determinadas situaciones. Los análisis de microarreglos ADN pretenden, entre otras cosas,
identificar los genes que están relacionados con un proceso biológico y la interacción entre ellos, desde el
punto de vista estadı́stico y matemático.
1
2 Reducción de la dimensionalidad de microarreglos ADN en el análisis de supervivencia
Los datos de microarreglos ADN son datos matriciales p × n donde p representa el número de genes
analizados y n es el número de individuos estudiados. Debido a que se analiza una gran cantidad de genes
(miles de ellos), en esta clase de datos p es usualmente mucho más grande que n. Sin embargo, ya que los
datos de microarreglos generalmente incluyen información de la supervivencia de los pacientes, es importante
analizar los tiempos de supervivencia de los pacientes en términos de sus correspondientes niveles de expresión
de genes. Cuando se supone un modelo de riesgos proporcionales de Cox (modelo proporcional de Cox) para
la función de supervivencia de los individuos utilizando las expresiones de los genes como covariables, debido
a que p > n la estimación del modelo proporcional de Cox es complicada, ya que se tienen que estimar muchos
parámetros con pocos datos. Una manera de hacer frente a la gran dimensionalidad de los datos es primero
reducir la dimensión de estos utilizando métodos de reducción de dimensión, como por ejemplo Análisis de
Componentes Principales (ACP) o Componentes Principales Supervisadas (CPS), y posteriormente estimar
el modelo proporcional de Cox.
Algo muy interesante es la comparación de los métodos de reducción de dimensión en términos del error
cuadrático medio y el sesgo de la estimación de la función de supervivencia. En este trabajo se explica en qué
consisten los dos métodos de reducción de dimensión ACP y CPS, y se comparan estos métodos mediante
estudios de simulación considerando matrices de covarianza no diagonal para los vectores de expresiones de
genes correspondientes a los individuos. Se consideraron únicamente estos dos métodos debido a que ACP es
uno de los más conocidos para hacer reducción de dimensión y CPS es una variante de él, no tan conocido pero
que ha demostrado ser muy útil; ver [2]. En trabajos anteriores, ver por ejemplo [7] y [8], se hicieron estudios
de simulación considerando matrices de covarianza diagonal para datos de microarreglos ADN, sin embargo
es bien sabido que algunos genes están correlacionados con otros y es necesario hacer estudios considerando
matrices de covarianza no diagonales. Por otro lado, se llevó a cabo un análisis de supervivencia con datos
de microarreglos ADN reales encontrados en la literatura, reduciendo la dimensión de los datos mediante
ACP y CPS, y posteriormente estimando el modelo proporcional de Cox. Para estos análisis se compararon
ambos métodos mediante un error cuadrático medio que se calcula utilizando validación cruzada.
A continuación se describe como está dividido este trabajo. En la Sección 2 se expone brevemente el
modelo proporcional de Cox. En la Sección 3 se presentan los métodos de reducción de dimensión que serán
considerados en este trabajo, ACP y CPS. En la Sección 4 se describen las medidas de bondad de ajuste
utilizadas para hacer la comparación entre los dos métodos. En la Sección 5 se describen los escenarios de
los estudios de simulación para la comparación de los métodos de reducción de dimensión; los resultados
de dichas simulaciones se presentan en la Sección 6. En la Sección 7 se muestran ejemplos con datos de
microarreglos ADN reales para ilustrar cómo los métodos ACP y CPS pueden ser utilizados para reducir la
dimensión de datos y posteriormente estimar el modelo proporcional de Cox. Finalmente se presenta una
sección de conclusiones.
Comúnmente, los sujetos bajo estudio tienen algunas caracterı́sticas adicionales que pueden afectar su
tiempo de supervivencia. Por ejemplo, los sujetos pueden tener variables demográficas registradas, tales co-
mo la edad, el género, estatus socio-económicos o de educación; variables de comportamiento tales como los
hábitos en la dieta, historial de tabaquismo, el nivel de actividad fı́sica, o el consumo de alcohol; o variables
fisiológicas, tales como la presión arterial, el nivel de glucosa, los niveles de hemoglobina, el pulso cardı́aco
o los niveles de expresión de sus genes. Tales variables pueden ser utilizadas como covariables (variables
explicativas, factores de riesgo, variables independientes) en la explicación del tiempo de supervivencia (va-
riable de respuesta, variable dependiente). El modelo proporcional de Cox es un tipo especial de modelo
para la función de supervivencia que permite incorporar covariables de los individuos en la predicción de su
supervivencia. Este modelo se describe a continuación tomando como referencia [5].
Se consideran datos basados en una muestra de tamaño n que consisten en la tripleta (Tj , δj , Zj (t)),
j = 1, 2, . . . , n, donde Tj es el tiempo en el estudio del j-ésimo paciente, δj es el indicador de la ocurrencia
del evento para el paciente j-ésimo (δj = 1 si el evento ha ocurrido y δj = 0 si el tiempo de vida es censurado
por la derecha) y Zj (t) = (Zj1 (t), . . . , Zjp (t))T es el vector de covariables para el individuo j-ésimo en
el tiempo t. Aquı́ las Zjk (t)0 s, k = 1, 2, . . . , p, pueden ser covariables dependientes del tiempo cuyo valor
E. Alamilla-Jiménez y A. Bolı́var-Cimé 3
cambia con el tiempo o pueden ser valores constantes (fijos) conocidos en el tiempo 0. Cabe mencionar que
en este trabajo se considerará como covariables únicamente a las expresiones de los genes y se supondrá
que no cambian con el tiempo. Este último supuesto es válido en el caso en que pueda considerarse que las
expresiones de los genes no varı́an mucho durante el tiempo del estudio.
Definición 2.1 Sea h(t|Z) la razón de riesgo en el tiempo t para un individuo con vector de covariables Z.
El modelo proporcional de Cox está dado por:
Se dice que éste es un modelo semiparamétrico porque se supone una forma paramétrica solo para el
efecto de la covariable. La razón de riesgo inicial es tratado como no paramétrico.
El modelo proporcional de Cox a menudo se llama modelo de riesgos proporcionales, porque si observamos
dos individuos con vectores de covariables Z y Z∗ el cociente de sus razones de riesgo es una constante:
Pp " p #
h(t|Z) h0 (t) exp [ k=1 βk Zk ] X
∗
= Pp = exp βk (Zk − Zk ) , (2.2)
h(t|Z∗ ) h0 (t) exp [ k=1 βk Zk∗ ]
k=1
Supongamos que la censura es no informativa, es decir, dada Zj el evento y el tiempo de censura para el j-
ésimo paciente son independientes. Supongamos además que no hay repetición en los tiempos de los eventos.
Sea Z(i)k la k-ésima covariable asociada al individuo cuyo tiempo de falla es ti , donde t1 < t2 < · · · < tn .
Definimos el conjunto en riesgo al tiempo ti , R(ti ), como el conjunto de todos los individuos que se encuentran
en el estudio en un momento justo antes de ti . La verosimilitud parcial, basada en la función de riesgo
especificada en (2.1), se expresa como
D Pp
Y exp βk Z(i)k
k=1
L(β) = P Pp . (2.3)
i=1 j∈R(ti ) exp [ k=1 βk Zjk ]
Esta función es tratada como una verosimilitud usual y la inferencia se lleva a cabo por los medios usuales.
La log-verosimilitud `(β) = ln [L(β)] está dada por
!
X p
D X D
X X p
X
`(β) = βk Z(i)k − ln exp βk Zjk . (2.4)
i=1 k=1 i=1 j∈R(ti ) k=1
Una vez que se ha ajustado un modelo proporcional de Cox, se verifica que sean significativas las variables
del modelo, es decir, se llevan a cabo pruebas para contrastar la hipótesis nula de que los coeficientes del
modelo proporcional de Cox son todos iguales a cero. A continuación se presentan tres pruebas estadı́sticas
para probar la hipótesis nula H0 : β = β0 . Estas pruebas utilizan estadı́sticos de prueba que siguen aproxi-
madamente una distribución chi-cuadrada con p grados de libertad para muestras grandes si H0 es cierta.
Sea b = (b1 , b2 , . . . , bp )T el estimador de máxima verosimilitud para β.
La primera prueba de hipótesis que se considera para el vector β del modelo proporcional de Cox, es
la basada en la distribución asintótica normal del estimador de máxima verosimilitud, nos referimos a la
prueba de Wald. Aquı́ se supone que para muestras grandes, b es un vector aleatorio de distribución normal
y matriz de covarianza estimada por I −1 (b). La prueba de Wald se basa en el estadı́stico
χ2W = (b − β0 )T I −1 (b)(b − β0 ). (2.6)
La tercera prueba es llamada prueba de puntajes (scores test), esta prueba está basada en U (β) =
(U1 (β), . . . , Up (β))T , el vector de puntajes, donde Uh (β) está definida por (2.5). Para muestras grandes,
U (β) es aproximadamente normal p-multivariada con media 0 y covariaza I(β) cuando H0 es verdadera. El
estadı́stico utilizado en esta prueba es
χ2SC = U (β0 )T I −1 (β0 )U (β0 ). (2.8)
En esta sección se presentan dos métodos para la reducción de la dimensión de datos multivariados, que
serán utilizados a lo largo del presente trabajo. Estos métodos son Análisis de Componentes Principales y
Componentes Principales Supervisadas.
V T SV = L ≡ diag(l1 , . . . , lp ), (3.2)
l lp
Pp 1 , . . . , Pp ,
i=1 li i=1 li
para U
b1 , U
b2 , . . . , U
bp , respectivamente.
Para reducir la dimensión de los datos utilizando ACP, lo que comúnmente se hace es tomar las primeras
K componentes principales muestrales tales que la proporción de variabilidad acumulada
PK
l
Ppi=1 i
i=1 li
sea una proporción alta, la cual es determinada por el experimentador o estadı́stico. Por lo que si se reduce
a dimensión K, entonces los vectores originales son transformados a
Yi = W T Xi , (3.3)
6 Reducción de la dimensionalidad de microarreglos ADN en el análisis de supervivencia
A continuación se detalla la descripción dada en [1] y [2] del método de Componentes Principales Super-
visadas (CPS) para reducir la dimensión de datos multivariados.
Sea X una matriz de p × n, donde p indica el número de niveles de expresión de los genes y n es el
número de pacientes. Asumimos que las filas de X (variables) han sido centradas para tener media cero. La
Descomposición en Valores Singulares (DVS) de X está dada por
X = U DV T ,
donde U es una matriz ortogonal de p × n, D es una matriz diagonal de n × n y V es una matriz ortogonal
de n × n. Además, los elementos en la diagonal D son las raı́ces cuadradas de los eigenvalores de XX T y U
es la matriz de sus correspondientes eigenvectores.
En el método CPS se propone que las primeras columnas de V sean usadas como predictores (o covaria-
bles) continuos de la función de supervivencia para cada paciente. Note que X T u1 , donde u1 es la primera
columna de U , es la primera componente principal muestral, y se tiene que la primera columna de V es
X T u1
v1 = ,
d1
donde d1 es la raı́z cuadrada del valor propio más grande de XX T , es decir, v1 es la primera componente
principal dividida entre de la raı́z cuadrada de su varianza (d1 ).
En teorı́a podemos calcular V usando toda la matriz de datos X. En la práctica sin embargo muchos
de los genes en X son no correlacionados con la supervivencia de los pacientes y si usamos la matriz en-
tera X para calcular V , la calidad del predictor resultante es muy pobre. Podemos resolver esta dificultad
usando solamente los genes con “Cox scores”grandes, los cuales se definen a continuación. Sea `j (β) la
log verosimilitud parcial (2.4) considerando únicamente la covariable correspondiente al gen j-ésimo y sean
Uj (β0 ) = d`j /dβ |β=β0 , Ij (β0 ) = −d2 `j /d2 β |β=β0 . Entonces el Cox score correspondiente al j-ésimo gen es
el estadı́stico de puntaje (2.8) para H0 : β = 0, dado en este caso por
Uj (0)2
sj = ,
Ij (0)
para j = 1, 2, . . . , p. Los Cox scores miden la correlación de los genes con la supervivencia de los pacientes.
Formalmente en el procedimiento de CPS consideraremos una matriz X 0 que consiste solamente en los
0
genes con Cox scores más grandes en valor absoluto que algún umbral Γ y calculamos la DVS de X
X 0 = U DV T .
Posteriormente se toma como covariable de los individuos para el modelo proporcional de Cox a la primera
columna de la matriz V (un vector con n entradas), es decir, con este procedimiento reducimos la dimensión
de los datos a uno. A la columna i-ésima de V se le llama i-ésima componente principal supervisada.
En resumen, una vez que tenemos el valor óptimo de Γ, denotado por Γ∗ y cuya obtención se describe
en la siguiente sección, el procedimiento para calcular las componentes principales supervisadas y estimar el
modelo proporcional de Cox se presenta a continuación:
E. Alamilla-Jiménez y A. Bolı́var-Cimé 7
2. Seleccionamos los genes con Cox score mayores en valor absoluto a Γ∗ y formamos una nueva matriz
X 0 que solo contiene a estos genes.
0
3. Calculamos la DVS de X , por lo que tenemos V = X 0 U D−1 .
4. Utilizamos la primera columna de V (la primera componente principal supervisada) como la covariable
del modelo proporcional de Cox.
5. Ajustar el modelo proporcional de Cox a los datos de prueba utilizando la primera columna de Vb como
covariable, y calcular el estadı́stico chi-cuadrada para la prueba de puntaje asociada a H0 : β = 0,
la cual coincide con la prueba log-rank descrita en la Sección 4.2.4 de [4]. Denotaremos el estadı́stico
chi-cuadrada para la i-ésima partición por wi .
6. Promediamos las wi0 s sobre las particiones y denotamos a este promedio por wΓ , el cual está dado por
P10
i=1 wi
wΓ = .
10
Se puede tratar de mejorar el desempeño del método CPS empleando las primeras k ≥ 2 columnas de V
(las primeras k componentes principales supervisadas), en lugar de simplemente tomar la primera columna
de V . Comúnmente no se utilizan más de k = 3 componentes principales supervisadas. El procedimiento de
aplicación es similar al descrito anteriormente, salvo en la elección del umbral óptimo Γ∗ y al número de
componentes principales supervisadas empleadas al final para estimar el modelo proporcional de Cox; para
mayor detalle consultar [2]. Cabe mencionar que en este trabajo solo se aplicó el método de CPS tomando
una componente principal supervisada, es decir la primera columna de V como covariable, por simplicidad
y debido a que el método nos indica que la mayor variabilidad de los datos se encuentra en la primera
componente.
8 Reducción de la dimensionalidad de microarreglos ADN en el análisis de supervivencia
La primera medida de bondad de ajuste, ave(d2 .ind), es un error cuadrático medio del estimador de
supervivencia, donde la función de supervivencia es evaluada utilizando las covariables correspondientes a
los individuos. El ave(d2 .ind) es definido como:
s n 2
1 XX X
ave(d2 .ind) = Sik (t) − Sbik (t) , (4.1)
sn i=1
k=1 t∈Ds
con T T b
Sik (t) = S0 (t)exp(Xk (i) β)
y Sbik = Sb0 (t)exp(Xk (i) β) ,
donde k = 1, 2, . . . , n indica el k-ésimo individuo, i = 1, 2, . . . , s indica la i-ésima simulación, Xk (i) son las
covariables correspondientes al k-ésimo individuo de la i-ésima simulación, Sb0 es el estimador de Nelson-
Aalen de la función de supervivencia inicial (definido en la Sección 4.2 de [5]), y DS corresponde al conjunto
de los tiempos de muerte observados en la i-ésima simulación. Para la i-ésima simulación, el vector βb de p × 1
es obtenido por βb = W βbcox donde W es la matriz obtenida desde el paso de la reducción de dimensión (ACP
o CPS) para transformar los datos, y βbcox son los parámetros estimados obtenidos del modelo proporcional
de Cox después de reducir la dimensión.
En los métodos de reducción de dimensión tenemos inicialmente X una matriz de p × n, donde p indica
el número de los genes y n es el número de pacientes, entonces la transformación de los datos es la siguiente:
Para ACP:
Y = X T W,
donde W = [v1 , . . . , vK0 ] es la matriz cuyas columnas v1 , . . . , vK0 son los eigenvectores que corresponden
a los K0 eigenvalores más grandes de la matriz de covarianza muestral.
Para CPS:
e T U D−1 ,
V =X
donde X e = M X, M T = [ei , . . . , ei ] y el conjunto de subı́ndices {i1 , . . . , ik } corresponde a los genes
1 k
con valor absoluto de Cox score mayor al valor óptimo Γ∗ , considerando que ei es el vector con un 1 en
la i-ésima entrada y cero en las otras. Como se está tomando la primera columna de V como la única
covariable, tenemos que
v1 = V e 1 = Xe T U D−1 e1 = X T W,
donde W = M T U D−1 e1 .
La segunda medida de bondad de ajuste, ave(bias.ind), está en términos del sesgo de la función de
supervivencia estimada. Para esta medida se calcula el sesgo de la función de supervivencia estimada en los
deciles de la función de supervivencia teórica. El ave(bias.ind) es definido como:
s Xn
!
X 1 X
ave(bias.ind) = (Sbik (tq ) − Sik (tq )) , (4.2)
sn i=1
t∈D k=1
E. Alamilla-Jiménez y A. Bolı́var-Cimé 9
donde D es el conjunto de los deciles tq , con q = 0.1, 0.2, . . . , 0.9, y la supervivencia estimada en los deciles es
exp(Xk (i)T β)
c T
Sbik (tq ) = Sb0 (tq ) . El decil tq se calcula mediante tq = S0−1 q exp(−Xk (i) β) ya que Sik (tq ) = q.
Para comparar los diferentes métodos de reducción de dimensión para la estimación de la función de
supervivencia, suponiendo un modelo proporcional de Cox con datos encontrados en la literatura, se procede
a dividir los datos aleatoriamente en dos partes iguales un número s de veces y se emplea el siguiente error
cuadrático medio definido en [7] mediante validación cruzada:
s M
1 X X X hb b (t) 2
i
CV (surv.error) = S −m (t) − S m (4.3)
sM i=1 m=1
t∈Dm
donde N indica la mitad del número de individuos, Sbm,k (t) es la función de supervivencia estimada para
el k-ésimo individuo en el conjunto de prueba, y Sb−m,k (t) es la función de supervivencia estimada para el
k-ésimo individuo en el conjunto de entrenamiento. Aquı́
T
Sbm,k (t) = Sb0,m (t)exp(Xm,k βm ) ,
b
donde Xm,k es el vector de covariables del k-ésimo individuo en el conjunto de prueba y Sb0,m es el estimador
de Nelson-Aalen de la función de supervivencia para este conjunto. Análogamente se define Sb−m,k (t) para
los datos de entrenamiento.
5. Estudio de simulación.
En esta sección se describe el estudio de simulación que se presenta en este trabajo, en donde se simulan
datos multivariados que representan las expresiones de genes de una cantidad pequeña de pacientes, para los
cuales también se cuenta con un tiempo de supervivencia observado o censurado. En estudios anteriores, ver
[7] y [8], se han comparado algunos métodos de reducción de dimensión mediante simulaciones de datos con-
siderando matrices de covarianza diagonales, sin embargo es bien sabido que los genes están correlacionados,
por lo que en este trabajo se hace un estudio donde se consideran matrices no diagonales.
El procedimiento de simulación se divide en dos partes: 1) generar los valores de las expresiones de los
genes, y 2) generar los tiempos de supervivencia y censura. En las siguientes dos secciones se explica como
se llevaron a cabo cada una de estas partes.
10 Reducción de la dimensionalidad de microarreglos ADN en el análisis de supervivencia
Para cada matriz de expresiones de genes X, generamos los tiempos de supervivencia y de censura análo-
gamente a como se hace en [7], de tal manera que su función de supervivencia siga un modelo proporcional
de Cox. Generamos el tiempo de supervivencia del i-ésimo individuo, yi , independiente del tiempo de cen-
sura, ci , con i = 1, . . . , n. En estas simulaciones se considera la distribución exponencial para el tiempo
de supervivencia y censura inicial, con función de densidad (f.d.) f0 (t) = λ exp(−λt). En otras palabras
y0i ∼ Exp(λy ) y c0i ∼ Exp(λc ), donde y0i y c0i denotan el tiempo de supervivencia y de censura inicial,
respectivamente, para el i-ésimo individuo. El tiempo de supervivencia y de censura para el i-ésimo indi-
viduo es yi = y0i exp(−XiT β) y ci = c0i exp(−XiT β), respectivamente. Aquı́, Xi es el vector de covariables
correspondientes al i-ésimo individuo.
El tiempo observado para el i-ésimo individuo es Ti = mı́n(yi , ci ), y el indicador de censura correspon-
diente es δi = I(yi < ci ), con δi = 1 si el evento ha ocurrido y δi = 0 si el tiempo de vida es censurado por la
T
derecha. Ası́, la función de supervivencia de Ti está dada por S(t|x) = S0 (t)exp(Xi β ) , donde S0 es la función
de supervivencia de la distribución exponencial Exp(λy + λc ), por lo que los tiempos observados Ti siguen
un modelo proporcional de Cox con función de supervivencia inicial exponencial.
La razón de censura está dada por P (yi > ci ) = λc /(λy + λc ) bajo la distribución exponencial. En
nuestras simulaciones fijamos λy = 2 y λc = 1 para obtener 1/3 de la censura, análogamente a como se hace
en las simulaciones de [7]. Por otro lado, se genera un vector aleatorio β fijo de p × 1 donde las entradas son
N (0, σ 2 ) con σ = 0.2.
Para cada matriz de datos simulada se redujo la dimensión utilizando ACP con 80 % de la variabilidad
explicada. También se redujo la dimensión con CPS utilizando la primera componente principal supervisada.
A continuación se muestra el desempeño de los métodos de reducción de dimensión ACP y CPS utilizando
las medidas de bondad de ajuste ave(d2 .ind) y ave(bias.ind), presentadas en la Sección 4.1.
Considerando datos normales multivariados, en las figuras 1, 2 y 3 se comparan el error cuadrático medio
ave(d2 .ind) y el sesgo ave(bias.ind) de los dos métodos, para c = 0.2, 0.5 y 0.8, respectivamente. En estas
figuras se observa que el método ACP tiene un mejor desempeño que el método CPS para reducir la dimensión
de los datos y posteriormente estimar el modelo proporcional de Cox, ya que mayormente el método ACP
tiene menor error cuadrático medio y sesgo que el método CPS. Además se observa un patrón creciente del
E. Alamilla-Jiménez y A. Bolı́var-Cimé 11
Figura 1: Error cuadrático medio y sesgo para datos normales con Σ = T oeplitz(1, 0.2, 0.22 , . . . , 0.2p−1 ).
Figura 2: Error cuadrático medio y sesgo para datos normales con Σ = T oeplitz(1, 0.5, 0.52 , . . . , 0.5p−1 ).
Figura 3: Error cuadrático medio y sesgo para datos normales con Σ = T oeplitz(1, 0.8, 0.82 , . . . , 0.8p−1 ).
error cuadrático medio (excepto para ACP cuando c = 0.2 y p = 2000) y un patrón decreciente del sesgo
cuando la dimensión de los datos aumenta, en todos los escenarios considerados y para los dos métodos. Es
decir, al aumentar la dimensión el error cuadrático medio crece mientras que el sesgo decrece.
12 Reducción de la dimensionalidad de microarreglos ADN en el análisis de supervivencia
Figura 4: Error cuadrático medio ave(d2 .ind) para cada valor de p al variar c con datos normales.
En la Figura 4 se compara para cada método, el error cuadrático medio al variar el valor de c con datos
normales multivariados. Se observa para ambos métodos, que para cada valor de la dimensión de los datos
p (excepto para p = 200 con CPS), cuando la correlación entre los genes aumenta (es decir el valor de
c aumenta) el error cuadrático medio disminuye. Para el sesgo no se observó ningún patrón al variar la
correlación entre los genes para ningún método.
Para los datos lognormales se observa un comportamiento muy distinto al observado en el caso normal.
En las figuras 5, 6 y 7 se presentan el error cuadrático medio y sesgo para los dos métodos, para c = 0.2, 0.5
y 0.8, respectivamente. En estas gráficas se observa que el error cuadrático médio del método CPS tiene un
comportamiento aproximadamente constante cuando la dimensión aumenta, mientras que para ACP este
error tiene un comportamiento oscilatorio. Esto se observó para los tres valores de c. Se observa también
que casi siempre el método ACP tiene menor error cuadrático que CPS. Con respecto al sesgo, se observa
un patrón oscilatorio cuando la dimensión crece para ambos métodos. Al variar el valor de c el sesgo no
cambia mucho. Se observa también que ACP tiene menor sesgo que CPS casi siempre. Por tanto, con datos
lognormales multivariados también resultó mejor ACP en comparación con CPS.
En la Figura 8 se compara para cada método el error cuadrático medio al variar c. Se observa que para
Figura 5: Error cuadrático medio y sesgo para datos lognormales con Σ = T oeplitz(1, 0.2, 0.22 , . . . , 0.2p−1 ).
E. Alamilla-Jiménez y A. Bolı́var-Cimé 13
Figura 6: Error cuadrático medio y sesgo para datos lognormales con Σ = T oeplitz(1, 0.5, 0.52 , . . . , 0.5p−1 ).
Figura 7: Error cuadrático medio y sesgo para datos lognormales con Σ = T oeplitz(1, 0.8, 0.82 , . . . , 0.8p−1 ).
Figura 8: Error cuadrático medio ave(d2 .ind) para cada valor de p al variar c con datos lognormales.
p ≤ 1500, mientras más grande es el valor de c (y por tanto la correlación entre los genes es mayor) menor
es el error cuadrático para ACP; después de este valor no hay un patrón claro. Lo mismo pasa con CPS pero
para p ≤ 1000; después de este valor los errores cuadráticos fueron muy similares. Los sesgos fueron muy
similares al variar c para casi todos los valores de p y no se observó ningún patrón claro, esto sucedió con
ambos métodos.
14 Reducción de la dimensionalidad de microarreglos ADN en el análisis de supervivencia
En las siguientes dos secciones se utilizan los métodos de reducción de dimensión ACP y CPS para reducir
la dimensión de datos de microarreglos ADN encontrados en la literatura, para posteriormente estimar la
función de supervivencia mediante el modelo proporcional de Cox.
Se tienen datos, proporcionados por [2], de la supervivencia de 240 pacientes con linfoma de células B
grandes difuso, para los cuales también se tienen las expresiones de sus genes en un microarreglo ADN. Las
variables que influyen en el estudio son el tiempo de supervivencia desde el inicio del estudio hasta que ocurre
el evento o haya una censura, y el indicador del evento (0 = Vivo, 1= Muerto). Las covariables del estudio
son los niveles de expresión de los genes, que en total fueron 7399. El número de pacientes considerados fue de
240 de los cuales 138 fallecieron durante el estudio (experimentaron el evento) y el resto fueron censurados.
Debido a que para esta clase de datos se tiene que el número de covariables, que son los niveles de
expresión de los genes, es mucho más grande que el número de pacientes, se procede a reducir la dimensión
de los datos mediante ACP y posteriormente se estima el modelo proporcional de Cox. Para ello se tomaron
como covariables las primeras componentes principales que explican el 80 % de la variabilidad de los datos,
en total fueron K0 = 85 componentes principales. La Tabla 1 muestra que los componentes principales del
modelo son significativos (al 5 %) según los tres criterios.
Por otro lado hicimos uso del método CPS para deducir la dimensión de los datos y posteriormente estimar
el modelo proporcional de Cox, tomando como covariable la primera CPS. Se eligió sólo una componente
principal supervisada ya que esta componente es la que contiene la mayor información de los datos, y en la
práctica es común utilizar sólo la primera componente principal supervisada. En la Tabla 2 se muestra que
la primera CPS del modelo es significativo (al 5 %) según los tres criterios.
En la prueba estadı́stica a nivel global para verificar el supuesto de riesgos proporcionales, se obtiene un
p-valor de 0.176 cuando se reduce dimensión con ACP, y un p-valor de 0.183 cuando se reduce con CPS.
Por lo tanto concluimos que no existe evidencia significativa al 5 % de que se viole el supuesto de riesgos
proporcionales a nivel global en ambos casos. En la Figura 9 se observa un buen ajuste de la estimación
del modelo proporcional de Cox a los datos cuando se reduce la dimensión con ACP y también cuando se
hace con CPS, ya que la función de riesgo acumulada estimada (mediante el estimador de Nelson-Aalen) de
los residuales de Cox-Snell se encuentra cerca de la recta identidad en ambos casos. Consultar [3] y [5] para
mayor detalle de estas técnicas de validación del modelo.
En la Figura 10 se comparan las curvas de supervivencia estimadas mediante el estimador de Kaplan
y Meier y el modelo proporcial de Cox utilizando ACP y CPS para reducir la dimensión de los datos, el
E. Alamilla-Jiménez y A. Bolı́var-Cimé 15
Figura 9: Residuales Cox-Snell contra su función de riesgo acumulada estimada, cuando se reduce dimensión
con ACP en (a) y con CPS en (b). La linea punteada representa la recta identidad.
vector de covariables que se emplea para las gráficas es el vector media de las covariables. Se observa que
la curva del modelo proporcional de Cox después de reducir dimensión con ACP decrece más rápido que
el estimador de Kaplan y Meier. Por otro lado, la estimación del modelo proporcional de Cox utilizando la
primera componente principal supervisada como única covariable, presenta un comportamiento muy similar
al del estimador de Kaplan y Meier, sin embargo decrece apenas más rápido que este último.
Figura 10: Comparación de curvas de supervivencia estimadas mediante el estimador de Kaplan y Meier y
el modelo proporcial de Cox utilizando ACP y CPS.
16 Reducción de la dimensionalidad de microarreglos ADN en el análisis de supervivencia
Para determinar cual de los dos métodos proporciona un menor error de estimación, se utilizó el error
cuadrático medio de la función de supervivencia estimada CV (surv.error), descrito en la Sección 4.2, divi-
diendo los datos aleatoriamente en dos partes iguales 1000 veces (s = 1000). Los resultados de los errores
para ambos métodos se muestran a en la Tabla 3. Se observa que para esta clase de datos el método CPS
resultó tener menor error que el método ACP, por lo que es recomendable utilizar CPS para reducir la
dimensión de estos datos y posteriormente estimar el modelo proporcional de Cox.
ACP CPS
CV (surv.error) 0.2605887 0.03307715
Se tienen datos de la supervivencia de 78 mujeres con cáncer de mama para los cuales también se tienen
las expresiones de sus genes en un microarreglo ADN. Estos datos son proporcionados por [9]. Las variables
que influyen en el estudio son el tiempo de supervivencia desde el inicio del estudio hasta que ocurra el
evento o una censura, y el indicador del evento (0 = Vivo, 1= Muerto). Las covariables del estudio son los
niveles de expresión de los genes, que en total fueron 4751. El número de mujeres consideradas fue de 78 de
las cuales 34 fallecieron durante el estudio (experimentaron el evento) y el resto fueron censurados por la
derecha.
Se reduce la dimensión de los datos con ACP y posteriormente se estima el modelo proporcional de
Cox. Para ello se tomaron como covariables las primeras componentes principales que explican el 60 %
de la variabilidad de los datos, en total fueron K0 = 15 componentes principales. No se consideró una
variabilidad explicada mucho más alta ya que, al ser más grande el número de componentes principales
necesarias, no se tenı́a la convergencia de las rutinas computacionales del software R para la estimación de
los parámetros del modelo proporcional de Cox. La Tabla 4 muestra que los componentes principales del
modelo son significativos (al 5 %) según dos criterios.
Por otro lado, hicimos uso del método CPS para reducir la dimensión de los datos, posteriormente
estimamos el modelo proporcional de Cox tomando como covariable la primera CPS como única covariable.
En la Tabla 5 se muestra que la primera CPS del modelo es significativo (al 5 %) según los tres criterios.
En la prueba estadı́stica a nivel global para verificar el supuesto de riesgos proporcionales, se obtiene un
p-valor de 0.208 cuando se reduce dimensión con ACP, y un p-valor de 0.103 cuando se reduce con CPS.
Por lo tanto concluimos que no existe evidencia significativa al 5 % de que se viole el supuesto de riesgos
E. Alamilla-Jiménez y A. Bolı́var-Cimé 17
proporcionales a nivel global en ambos casos. En la Figura 11 se observa un buen ajuste de la estimación del
modelo proporcional de Cox a los datos cuando se reduce la dimensión con ACP y también cuando se hace
con CPS, ya que la función de riesgo acumulada estimada (mediante el estimador de Nelson-Aalen) de los
residuales de Cox-Snell se encuentra cerca de la recta identidad en ambos casos.
Figura 11: Residuales Cox-Snell contra su función de riesgo acumulada estimada, cuando se reduce dimensión
con ACP en (a) y con CPS en (b). La linea punteada representa la recta identidad.
Figura 12: Comparación de curvas de supervivencia estimadas mediante el estimador de Kaplan y Meier y
el modelo proporcial de Cox utilizando ACP y CPS.
vector de covariables que se emplea para las gráficas es el vector media de las covariables. Notamos que la
curva del modelo proporcional de Cox después de reducir dimensión con ACP, no decrece tan rápido como
el estimador de Kaplan y Meier. Por otro lado, la estimación del modelo proporcional de Cox utilizando la
primera componente principal supervisada como única covariable, presenta un comportamiento muy similar
al del estimador de Kaplan y Meier, sin embargo no decrece tan rápido como éste.
Para determinar cuál de los dos métodos proporciona un menor error de estimación, se utilizó el error
cuadrático medio de la función de supervivencia estimada CV (surv.error), definido anteriormente, dividien-
do los datos aleatoriamente en dos partes iguales 1000 veces (s = 1000). Los resultados de los errores para
ambos métodos se muestran en la Tabla 6. Se observa que para estos datos no hay una diferencia signifi-
cativa al utilizar un método u otro, por lo que se puede utilizar cualquiera de ellos para estimar el modelo
proporcional de Cox.
ACP CPS
CV (surv.error) 0.4459428 0.4422514
8. Conclusiones
En las simulaciones realizadas en este trabajo, suponiendo que los vectores de expresiones de genes de
los pacientes son normales o lognormales multivariados con matriz de covarianza Toeplitz (una matriz no
diagonal), y con tiempos observados de supervivencia y censura que siguen un modelo proporcional de Cox,
se observó que el método ACP tiene mejores resultados que el método CPS para reducir la dimensión de los
datos y posteriormente estimar el modelo proporcional de Cox, ya que el error cuadrático medio ave(d2 .ind)
y el sesgo ave(bias.ind) fueron menores para ACP que para CPS en la mayorı́a de los casos considerados.
Generalmente se observó que cuando la correlación entre los genes crece el error cuadrático medio decrece,
mientras que para el sesgo no se observó ningún patrón claro bajo estas circunstancias.
Con respecto a los datos de microarreglos ADN reales encontrados en la literatura, en el ejemplo de
pacientes con linfoma de células B grandes difuso se encontró que el método CPS genera un menor error
en la estimación de la función de supervivencia que el método ACP. En el ejemplo de mujeres con cáncer
de mama no se observó gran diferencia en el error de estimación de la función de supervivencia al utilizar
ambos métodos, por lo que para estos datos los dos métodos se desempeñan en forma similar y no hay
diferencia entre considerar uno u otro. Estos resultados son diferentes a los obtenidos en las simulaciones
debido a que las distribuciones de las expresiones de los genes en estos ejemplos no necesariamente siguen la
misma distribución de los datos en las simulaciones, de igual forma los tiempos observados de supervivencia
y censura podrı́an seguir otra distribución diferente a la considerada en las simulaciones.
Los métodos de reducción de dimensión de datos multivariados considerados, Análisis de Componentes
Principales y Componentes Principales Supervisadas, demostraron ser muy útiles para reducir la dimensión
de datos de microarreglos ADN y posteriormente estimar la función de supervivencia mediante un modelo
proporcional de Cox. No puede decirse que en general uno es mejor que otro, pues depende de los datos
con los que se cuenta, un análisis similar al llevado a cabo en este trabajo para los datos reales es útil para
decidir que método utilizar.
Agradecimientos
Agradecemos a la Universidad Juárez Autónoma de Tabasco por el apoyo brindado a los autores de este
trabajo durante la elaboración del mismo. Este trabajo fue parcialmente financiado por PRODEP a través
del proyecto de investigación UJAT-PTC-178.
E. Alamilla-Jiménez y A. Bolı́var-Cimé 19
Referencias
[1] E. Bair, T. Hastie, D. Paul, and R. Tibshirani. Prediction by supervised principal components. Manuscrito
disponible en http://www.stanford.edu/∼hastie/Papers/spca.pdf., September 2004.
[2] E. Bair and R. Tibshirani. Semi-supervised methods to predict patient survival from gene expression data.
Plos Biology, 2(4):511–522, 2004.
[3] P. Grambsch and T. Therneau. Proportional hazards tests and diagnostics based on weighted residuals.
Biometrika, 81:515–26, 1994.
[4] J. Kalbfleisch and R. Prentice. The Statistical analysis of failure time data. John Wiley & Sons, 2002.
[5] J. P. Klein and M. L. Moeschberger. Survival analysis - techniques for censored and truncated data.
Springer, New York, 2003.
[6] R. J. Muirhead. Aspects of multivariate statistical theory. John Wiley & Sons, Hoboken, New Jersey,
2005.
[7] T. S. Nguyen and J. Rojo. Dimension reduction of microarray data in the presence of a censored survival
response: A simulation study. SAGMB, 8(1):Artı́culo 4, 2009.
[8] T. S. Nguyen and J. Rojo. Dimension reduction of microarray gene expression data: the accelerated
failure time model. J Bioinform Comput Biol, 7(6):939–954, 2009.
[9] L. van‘t Veer, H. Dai, M. van de Vijver, Y. He, and A. Hart. Expression profiling predicts clinical outcome
of breast cancer. Nature, 415:530–536, 2002.