Está en la página 1de 19

Abstraction & Application 14 (2016) 1 − 19 UADY

Reducción de la dimensionalidad de microarreglos ADN para


estimar la función de supervivencia
a
Edgar Alamilla-Jiménez, b Addy Bolı́var-Cimé
a b
, Universidad Juárez Autónoma de Tabasco
División Académica de Ciencias Básicas

a
linking 1990@hotmail.com, b addy.bolivar@ujat.mx

Abstract

In this work it is shown how some dimensional reduction methods can be applied to DNA microarray
data, to estimate the survival function by a Cox proportional hazard model where the covariates are
the microarray gene expression data. The dimension reduction methods considered here were Principal
Component Analysis and Supervised Principal Components. A simulation study is done to compare the
behavior of these methods in the estimation of the Cox proportional hazard model, considering non
diagonal covariance matrices for the data, since it is well known that the gene expressions are correlated.
Further, it is presented an analysis with real microarray data of the literature to compare both methods.

Resumen

En este trabajo se muestra como algunos métodos de reducción de dimensión pueden ser aplicados
a datos de microarreglos ADN, para estimar la función de supervivencia mediante un modelo de riesgos
proporcionales de Cox donde las covariables son las expresiones de genes del microarreglo. Los métodos
de reducción de dimension considerados en este trabajo fueron Análisis de Componentes Principales y
Componentes Principales Supervisadas. Un estudio de simulación es hecho para comparar el compor-
tamiento de estos métodos en la estimación del modelo de riesgos proporcionales de Cox, considerando
matrices de covarianza no diagonal para los datos, ya que es bien sabido que las expresiones de los genes
son correlacionadas. También se presenta un análisis utilizando datos de microarreglos ADN reales de la
literatura donde se comparan ambos métodos.

Keywords and phrases : Survival analysis, Cox proportional hazard model, DNA microarray data, Principal Component
Analysis, Supervised Principal Components

2010 M athematics Subject Classif ication: 62N01, 62N02, 62H20, 62H25.

1. Introducción

Los estudios de microarreglos ADN permiten a los cientı́ficos llevar a cabo de forma rápida y eficiente
análisis simultáneos de miles de genes en un solo experimento, con el fin de conocer el comportamiento
de estos bajo determinadas situaciones. Los análisis de microarreglos ADN pretenden, entre otras cosas,
identificar los genes que están relacionados con un proceso biológico y la interacción entre ellos, desde el
punto de vista estadı́stico y matemático.

1
2 Reducción de la dimensionalidad de microarreglos ADN en el análisis de supervivencia

Los datos de microarreglos ADN son datos matriciales p × n donde p representa el número de genes
analizados y n es el número de individuos estudiados. Debido a que se analiza una gran cantidad de genes
(miles de ellos), en esta clase de datos p es usualmente mucho más grande que n. Sin embargo, ya que los
datos de microarreglos generalmente incluyen información de la supervivencia de los pacientes, es importante
analizar los tiempos de supervivencia de los pacientes en términos de sus correspondientes niveles de expresión
de genes. Cuando se supone un modelo de riesgos proporcionales de Cox (modelo proporcional de Cox) para
la función de supervivencia de los individuos utilizando las expresiones de los genes como covariables, debido
a que p > n la estimación del modelo proporcional de Cox es complicada, ya que se tienen que estimar muchos
parámetros con pocos datos. Una manera de hacer frente a la gran dimensionalidad de los datos es primero
reducir la dimensión de estos utilizando métodos de reducción de dimensión, como por ejemplo Análisis de
Componentes Principales (ACP) o Componentes Principales Supervisadas (CPS), y posteriormente estimar
el modelo proporcional de Cox.
Algo muy interesante es la comparación de los métodos de reducción de dimensión en términos del error
cuadrático medio y el sesgo de la estimación de la función de supervivencia. En este trabajo se explica en qué
consisten los dos métodos de reducción de dimensión ACP y CPS, y se comparan estos métodos mediante
estudios de simulación considerando matrices de covarianza no diagonal para los vectores de expresiones de
genes correspondientes a los individuos. Se consideraron únicamente estos dos métodos debido a que ACP es
uno de los más conocidos para hacer reducción de dimensión y CPS es una variante de él, no tan conocido pero
que ha demostrado ser muy útil; ver [2]. En trabajos anteriores, ver por ejemplo [7] y [8], se hicieron estudios
de simulación considerando matrices de covarianza diagonal para datos de microarreglos ADN, sin embargo
es bien sabido que algunos genes están correlacionados con otros y es necesario hacer estudios considerando
matrices de covarianza no diagonales. Por otro lado, se llevó a cabo un análisis de supervivencia con datos
de microarreglos ADN reales encontrados en la literatura, reduciendo la dimensión de los datos mediante
ACP y CPS, y posteriormente estimando el modelo proporcional de Cox. Para estos análisis se compararon
ambos métodos mediante un error cuadrático medio que se calcula utilizando validación cruzada.
A continuación se describe como está dividido este trabajo. En la Sección 2 se expone brevemente el
modelo proporcional de Cox. En la Sección 3 se presentan los métodos de reducción de dimensión que serán
considerados en este trabajo, ACP y CPS. En la Sección 4 se describen las medidas de bondad de ajuste
utilizadas para hacer la comparación entre los dos métodos. En la Sección 5 se describen los escenarios de
los estudios de simulación para la comparación de los métodos de reducción de dimensión; los resultados
de dichas simulaciones se presentan en la Sección 6. En la Sección 7 se muestran ejemplos con datos de
microarreglos ADN reales para ilustrar cómo los métodos ACP y CPS pueden ser utilizados para reducir la
dimensión de datos y posteriormente estimar el modelo proporcional de Cox. Finalmente se presenta una
sección de conclusiones.

2. Modelo proporcional de Cox

Comúnmente, los sujetos bajo estudio tienen algunas caracterı́sticas adicionales que pueden afectar su
tiempo de supervivencia. Por ejemplo, los sujetos pueden tener variables demográficas registradas, tales co-
mo la edad, el género, estatus socio-económicos o de educación; variables de comportamiento tales como los
hábitos en la dieta, historial de tabaquismo, el nivel de actividad fı́sica, o el consumo de alcohol; o variables
fisiológicas, tales como la presión arterial, el nivel de glucosa, los niveles de hemoglobina, el pulso cardı́aco
o los niveles de expresión de sus genes. Tales variables pueden ser utilizadas como covariables (variables
explicativas, factores de riesgo, variables independientes) en la explicación del tiempo de supervivencia (va-
riable de respuesta, variable dependiente). El modelo proporcional de Cox es un tipo especial de modelo
para la función de supervivencia que permite incorporar covariables de los individuos en la predicción de su
supervivencia. Este modelo se describe a continuación tomando como referencia [5].
Se consideran datos basados en una muestra de tamaño n que consisten en la tripleta (Tj , δj , Zj (t)),
j = 1, 2, . . . , n, donde Tj es el tiempo en el estudio del j-ésimo paciente, δj es el indicador de la ocurrencia
del evento para el paciente j-ésimo (δj = 1 si el evento ha ocurrido y δj = 0 si el tiempo de vida es censurado
por la derecha) y Zj (t) = (Zj1 (t), . . . , Zjp (t))T es el vector de covariables para el individuo j-ésimo en
el tiempo t. Aquı́ las Zjk (t)0 s, k = 1, 2, . . . , p, pueden ser covariables dependientes del tiempo cuyo valor
E. Alamilla-Jiménez y A. Bolı́var-Cimé 3

cambia con el tiempo o pueden ser valores constantes (fijos) conocidos en el tiempo 0. Cabe mencionar que
en este trabajo se considerará como covariables únicamente a las expresiones de los genes y se supondrá
que no cambian con el tiempo. Este último supuesto es válido en el caso en que pueda considerarse que las
expresiones de los genes no varı́an mucho durante el tiempo del estudio.

Definición 2.1 Sea h(t|Z) la razón de riesgo en el tiempo t para un individuo con vector de covariables Z.
El modelo proporcional de Cox está dado por:

h(t|Z) = h0 (t) exp(β T Z), (2.1)

donde h0 (t) es una razón de riesgo inicial y β = (β1 , . . . , βp )T es un vector de parámetros.

Se dice que éste es un modelo semiparamétrico porque se supone una forma paramétrica solo para el
efecto de la covariable. La razón de riesgo inicial es tratado como no paramétrico.
El modelo proporcional de Cox a menudo se llama modelo de riesgos proporcionales, porque si observamos
dos individuos con vectores de covariables Z y Z∗ el cociente de sus razones de riesgo es una constante:
Pp " p #
h(t|Z) h0 (t) exp [ k=1 βk Zk ] X

= Pp = exp βk (Zk − Zk ) , (2.2)
h(t|Z∗ ) h0 (t) exp [ k=1 βk Zk∗ ]
k=1

por lo que las razones de riesgo son proporcionales.

2.1. Estimación del modelo por máxima verosimilitud

Supongamos que la censura es no informativa, es decir, dada Zj el evento y el tiempo de censura para el j-
ésimo paciente son independientes. Supongamos además que no hay repetición en los tiempos de los eventos.
Sea Z(i)k la k-ésima covariable asociada al individuo cuyo tiempo de falla es ti , donde t1 < t2 < · · · < tn .
Definimos el conjunto en riesgo al tiempo ti , R(ti ), como el conjunto de todos los individuos que se encuentran
en el estudio en un momento justo antes de ti . La verosimilitud parcial, basada en la función de riesgo
especificada en (2.1), se expresa como
D Pp 
Y exp βk Z(i)k
k=1
L(β) = P Pp . (2.3)
i=1 j∈R(ti ) exp [ k=1 βk Zjk ]

Esta función es tratada como una verosimilitud usual y la inferencia se lleva a cabo por los medios usuales.
La log-verosimilitud `(β) = ln [L(β)] está dada por
 !
X p
D X D
X X p
X
`(β) = βk Z(i)k − ln  exp βk Zjk  . (2.4)
i=1 k=1 i=1 j∈R(ti ) k=1

El estimador de máxima verosimilitud parcial de β se encuentra maximizando (2.3), o equivalentemente


maximizando (2.4). Sea Uh (β) = ∂`(β)/∂βh , h = 1, 2, . . . , p, entonces
D D
P Pp
j∈R(ti ) Zjh exp [ k=1 βk Zjk ]
X X
Uh (β) = Z(i)h − P Pp . (2.5)
i=1 i=1 j∈R(ti ) exp [ k=1 βk Zjk ]

El estimador de máxima verosimilitud de β se encuentra resolviendo el sistema de las p ecuaciones no lineales


Uh (β) = 0, h = 1, 2, . . . , p, lo cual tiene que hacerse por métodos numéricos. Note que (2.4) no depende de
la función de riesgo inicial h0 (x), por lo que las inferencias se pueden hacer sobre los efectos de las variables
explicativas sin h0 (x).
La matriz de información es el negativo de la matriz de la segundas derivadas de la log-verosimilitud
(2.4) y es denotada por I(β).
4 Reducción de la dimensionalidad de microarreglos ADN en el análisis de supervivencia

2.2. Significancia de las variables del modelo.

Una vez que se ha ajustado un modelo proporcional de Cox, se verifica que sean significativas las variables
del modelo, es decir, se llevan a cabo pruebas para contrastar la hipótesis nula de que los coeficientes del
modelo proporcional de Cox son todos iguales a cero. A continuación se presentan tres pruebas estadı́sticas
para probar la hipótesis nula H0 : β = β0 . Estas pruebas utilizan estadı́sticos de prueba que siguen aproxi-
madamente una distribución chi-cuadrada con p grados de libertad para muestras grandes si H0 es cierta.
Sea b = (b1 , b2 , . . . , bp )T el estimador de máxima verosimilitud para β.
La primera prueba de hipótesis que se considera para el vector β del modelo proporcional de Cox, es
la basada en la distribución asintótica normal del estimador de máxima verosimilitud, nos referimos a la
prueba de Wald. Aquı́ se supone que para muestras grandes, b es un vector aleatorio de distribución normal
y matriz de covarianza estimada por I −1 (b). La prueba de Wald se basa en el estadı́stico
χ2W = (b − β0 )T I −1 (b)(b − β0 ). (2.6)

La segunda prueba es la prueba de razón de verosimilitud, la cual se basa en el estadı́stico


χ2LR = 2 [`(β) − `(β0 )] . (2.7)

La tercera prueba es llamada prueba de puntajes (scores test), esta prueba está basada en U (β) =
(U1 (β), . . . , Up (β))T , el vector de puntajes, donde Uh (β) está definida por (2.5). Para muestras grandes,
U (β) es aproximadamente normal p-multivariada con media 0 y covariaza I(β) cuando H0 es verdadera. El
estadı́stico utilizado en esta prueba es
χ2SC = U (β0 )T I −1 (β0 )U (β0 ). (2.8)

3. Métodos de reducción de dimensión

En esta sección se presentan dos métodos para la reducción de la dimensión de datos multivariados, que
serán utilizados a lo largo del presente trabajo. Estos métodos son Análisis de Componentes Principales y
Componentes Principales Supervisadas.

3.1. Análisis de Componentes Principales

En muchas situaciones prácticas se toman observaciones de un gran número de variables correlacionadas


y en tal caso es natural buscar formas de reducir la dimensión de los datos, es decir, la cantidad de variables,
sin sacrificar demasiado la información contenida en la matriz de covarianza. Una de estas técnicas de
exploración de datos, desarrollado por Hotelling (1933), es el Análisis de Componentes Principales (ACP).
A continuación se presenta brevemente la descripción dada en [6] de este método.
En este análisis los ejes de coordenadas (representando las variables originales) son rotados para dar un
nuevo sistema de coordenadas, que representan las nuevas variables, las cuales tienen ciertas propiedades
óptimas de varianza. Esto es equivalente a hacer una transformación ortogonal especial de las variables
originales. El ACP tiene que ver con el intento de caracterizar o explicar la variabilidad de una variable
vectorial y reemplazarla por una nueva variable vectorial con el menor número de componentes con gran
variación.

3.1.1. Componentes principales poblacionales.

Sea X un vector aleatorio de p × 1 con media µ y matriz de covarianzas Σ. Sean λ1 ≥ λ2 ≥ · · · ≥ λp


(> 0) eigenvalores de Σ y H = [h1 . . . hp ] una matriz ortogonal de p × p tal que
H T ΣH = Λ ≡ diag(λ1 , . . . , λp ), (3.1)
E. Alamilla-Jiménez y A. Bolı́var-Cimé 5

de modo que hi es un eigenvector de Σ correspondiente al eigenvalor λi . Consideremos el vector U = H T X =


(U1 , . . . , Up )T , entonces Cov(U ) = Λ, de modo que U1 , . . . , Up son todos no correlacionados y Var(Ui ) = λi ,
i = 1, . . . , p. Las componentes U1 , . . . , Up de U son llamadas las componentes principales poblacionales de X.
La primera componente principal poblacional es U1 = hT1 X, su varianza es λ1 ; la segunda componente prin-
cipal poblacional es U2 = hT2 X con varianza λ2 , y ası́ sucesivamente. Además, las componentes principales
poblacionales tienen la siguiente propiedad óptima dada por el Teorema 9.2.1 de [6]: la primera componente
principal poblacional U1 es la combinación lineal normalizada de las componentes de X con la mayor va-
rianza posible, y la máxima varianza es λ1 ; luego, de todas las combinaciones lineales normalizadas de las
componentes de X que están no correlacionados con U1 , la segunda componente principal poblacional U2
tiene varianza máxima, dada por λ2 ; y ası́ sucesivamente. En general, de todas las combinaciones lineales
normalizadas que no están correlacionados con U1 , . . . , Uk−1 , la k-ésima componente principal tiene varianza
máxima dada por λk , con k = 1, . . . , p.

3.1.2. Componentes principales muestrales.

Supongamos que X1 , . . . , Xn es una muestra aleatoria de tamaño n. Sea S la matriz de covarianza


muestral dada por
n
1 X
S= (Xi − X)(Xi − X)T ,
n − 1 i=1
Pn
donde X = i=1 Xi /n es la media muestral. Sean l1 > · · · > lp los eigenvalores de S. Comúnmente estos
son distintos con probabilidad uno y son estimadores de los eigenvalores λ1 ≥ λ2 ≥ · · · ≥ λp de Σ. Recuerde
que λ1 , . . . , λp son las varianzas de las componentes principales poblacionales. Sea V = [v1 · · · vp ] una matriz
ortogonal tal que

V T SV = L ≡ diag(l1 , . . . , lp ), (3.2)

por lo que vi es el eigenvector normalizado de S correspondientes al eigenvalor li , el cual es un estimador


del eigenvector hi de Σ, i = 1, . . . , p. Las componentes principales muestrales (o simplemente componentes
principales) se definen como las componentes U b1 , . . . , U b = V T X, éstas son estimadores de las
bp del vector U
componentes principales poblacionales dadas por las componentes de U = H T X.
Una medida de la variabilidad total en los vectores Xi es λ1 + λ2 + · · · + λp . Debido a que l1 , . . . , lp
son estimaciones de las varianzas de las componentes principales poblacionales, se tiene que una estimación
de la variabilidad total es l1 + l2 + · · · + lp . La proporción de variabilidad explicada por cada una de las
componentes principales muestrales U b1 , Ub2 , . . . , U
bp , está dada por

l lp
Pp 1 , . . . , Pp ,
i=1 li i=1 li

respectivamente. Además, la proporción de variabilidad acumulada de las componentes principales muestrales


está dada por Pp
l l1 + l2 li
Pp 1 , P p , . . . , Pi=1
p = 1,
i=1 li i=1 li i=1 li

para U
b1 , U
b2 , . . . , U
bp , respectivamente.

Para reducir la dimensión de los datos utilizando ACP, lo que comúnmente se hace es tomar las primeras
K componentes principales muestrales tales que la proporción de variabilidad acumulada
PK
l
Ppi=1 i
i=1 li

sea una proporción alta, la cual es determinada por el experimentador o estadı́stico. Por lo que si se reduce
a dimensión K, entonces los vectores originales son transformados a

Yi = W T Xi , (3.3)
6 Reducción de la dimensionalidad de microarreglos ADN en el análisis de supervivencia

para i = 1, 2, . . . , n, donde W = [v1 , . . . , vK ].


Cuando se desea estimar el modelo proporcional de Cox utilizando datos (vectores de covariables) con
dimensión mayor al tamaño de la muestra, una vez que se aplica ACP para reducir la dimensión de los datos
se estima el modelo proporcional de Cox tomando al vector Yi en (3.3) como el vector de covariables del
i-ésimo individuo, para i = 1, 2, . . . , n.

3.2. Componentes Principales Supervisadas

A continuación se detalla la descripción dada en [1] y [2] del método de Componentes Principales Super-
visadas (CPS) para reducir la dimensión de datos multivariados.
Sea X una matriz de p × n, donde p indica el número de niveles de expresión de los genes y n es el
número de pacientes. Asumimos que las filas de X (variables) han sido centradas para tener media cero. La
Descomposición en Valores Singulares (DVS) de X está dada por
X = U DV T ,
donde U es una matriz ortogonal de p × n, D es una matriz diagonal de n × n y V es una matriz ortogonal
de n × n. Además, los elementos en la diagonal D son las raı́ces cuadradas de los eigenvalores de XX T y U
es la matriz de sus correspondientes eigenvectores.
En el método CPS se propone que las primeras columnas de V sean usadas como predictores (o covaria-
bles) continuos de la función de supervivencia para cada paciente. Note que X T u1 , donde u1 es la primera
columna de U , es la primera componente principal muestral, y se tiene que la primera columna de V es
X T u1
v1 = ,
d1
donde d1 es la raı́z cuadrada del valor propio más grande de XX T , es decir, v1 es la primera componente
principal dividida entre de la raı́z cuadrada de su varianza (d1 ).
En teorı́a podemos calcular V usando toda la matriz de datos X. En la práctica sin embargo muchos
de los genes en X son no correlacionados con la supervivencia de los pacientes y si usamos la matriz en-
tera X para calcular V , la calidad del predictor resultante es muy pobre. Podemos resolver esta dificultad
usando solamente los genes con “Cox scores”grandes, los cuales se definen a continuación. Sea `j (β) la
log verosimilitud parcial (2.4) considerando únicamente la covariable correspondiente al gen j-ésimo y sean
Uj (β0 ) = d`j /dβ |β=β0 , Ij (β0 ) = −d2 `j /d2 β |β=β0 . Entonces el Cox score correspondiente al j-ésimo gen es
el estadı́stico de puntaje (2.8) para H0 : β = 0, dado en este caso por
Uj (0)2
sj = ,
Ij (0)
para j = 1, 2, . . . , p. Los Cox scores miden la correlación de los genes con la supervivencia de los pacientes.

3.2.1. Descripción del método CPS

Formalmente en el procedimiento de CPS consideraremos una matriz X 0 que consiste solamente en los
0
genes con Cox scores más grandes en valor absoluto que algún umbral Γ y calculamos la DVS de X
X 0 = U DV T .
Posteriormente se toma como covariable de los individuos para el modelo proporcional de Cox a la primera
columna de la matriz V (un vector con n entradas), es decir, con este procedimiento reducimos la dimensión
de los datos a uno. A la columna i-ésima de V se le llama i-ésima componente principal supervisada.
En resumen, una vez que tenemos el valor óptimo de Γ, denotado por Γ∗ y cuya obtención se describe
en la siguiente sección, el procedimiento para calcular las componentes principales supervisadas y estimar el
modelo proporcional de Cox se presenta a continuación:
E. Alamilla-Jiménez y A. Bolı́var-Cimé 7

1. Calculamos el Cox score para cada gen.

2. Seleccionamos los genes con Cox score mayores en valor absoluto a Γ∗ y formamos una nueva matriz
X 0 que solo contiene a estos genes.
0
3. Calculamos la DVS de X , por lo que tenemos V = X 0 U D−1 .

4. Utilizamos la primera columna de V (la primera componente principal supervisada) como la covariable
del modelo proporcional de Cox.

3.2.2. Obtención del umbral óptimo

A continuación se describe el procedimiento de validación cruzada, que se proporciona en [2], para la


elección del valor óptimo Γ∗ :

1. Elegir un conjunto G de posibles valores de Γ. Se recomienda elegir como G a 30 valores igualmente


espaciados entre el percentil 90 de los Cox scores y el máximo de los Cox scores.

2. Para cada Γ en G, dividimos las columnas de X en k particiones aleatorias. Comúnmente se toma


k = 10.

3. Para cada partición obtenemos la matriz X


e que resulta de eliminar esta partición de las columnas de
X. Los datos en X se llaman “datos de entrenamiento” y los elementos de la partición se llaman “datos
e
de prueba”. La matriz cuyas columnas son los datos de prueba es denotada por Y . Para las matrices
X
e y Y considerar únicamente los genes con Cox score mayor en valor absoluto a Γ.

4. Calcular la descomposición DVS de X


e
e = U DV T ,
X

posteriormente calcular Vb = Y T U D−1 .

5. Ajustar el modelo proporcional de Cox a los datos de prueba utilizando la primera columna de Vb como
covariable, y calcular el estadı́stico chi-cuadrada para la prueba de puntaje asociada a H0 : β = 0,
la cual coincide con la prueba log-rank descrita en la Sección 4.2.4 de [4]. Denotaremos el estadı́stico
chi-cuadrada para la i-ésima partición por wi .

6. Promediamos las wi0 s sobre las particiones y denotamos a este promedio por wΓ , el cual está dado por
P10
i=1 wi
wΓ = .
10

7. El umbral óptimo Γ∗ es el valor Γ ∈ G donde se alcanza el máximo de los wΓ0 s, es decir

wΓ∗ = máx {wΓ } .


Γ∈G

Se puede tratar de mejorar el desempeño del método CPS empleando las primeras k ≥ 2 columnas de V
(las primeras k componentes principales supervisadas), en lugar de simplemente tomar la primera columna
de V . Comúnmente no se utilizan más de k = 3 componentes principales supervisadas. El procedimiento de
aplicación es similar al descrito anteriormente, salvo en la elección del umbral óptimo Γ∗ y al número de
componentes principales supervisadas empleadas al final para estimar el modelo proporcional de Cox; para
mayor detalle consultar [2]. Cabe mencionar que en este trabajo solo se aplicó el método de CPS tomando
una componente principal supervisada, es decir la primera columna de V como covariable, por simplicidad
y debido a que el método nos indica que la mayor variabilidad de los datos se encuentra en la primera
componente.
8 Reducción de la dimensionalidad de microarreglos ADN en el análisis de supervivencia

4. Medidas de bondad de ajuste.

En esta sección presentamos un error cuadrático medio y un sesgo de la estimación de la función de


supervivencia, tomados de [7], que servirán para medir los errores y sesgos de la función de supervivencia
estimada para los datos simulados. Las medidas de bondad de ajuste seleccionadas de [7] son las que se
consideran más importantes debido a que cuantifican el error de la estimación de la función de supervivencia
de cada individuo bajo un modelo proporcional de Cox, y es de interés principal en la práctica la curva de
la función de supervivencia de los individuos.

4.1. Error cuadrático medio y sesgo de la estimación de la función superviven-


cia.

La primera medida de bondad de ajuste, ave(d2 .ind), es un error cuadrático medio del estimador de
supervivencia, donde la función de supervivencia es evaluada utilizando las covariables correspondientes a
los individuos. El ave(d2 .ind) es definido como:
s n 2
1 XX X 
ave(d2 .ind) = Sik (t) − Sbik (t) , (4.1)
sn i=1
k=1 t∈Ds

con T T b
Sik (t) = S0 (t)exp(Xk (i) β)
y Sbik = Sb0 (t)exp(Xk (i) β) ,
donde k = 1, 2, . . . , n indica el k-ésimo individuo, i = 1, 2, . . . , s indica la i-ésima simulación, Xk (i) son las
covariables correspondientes al k-ésimo individuo de la i-ésima simulación, Sb0 es el estimador de Nelson-
Aalen de la función de supervivencia inicial (definido en la Sección 4.2 de [5]), y DS corresponde al conjunto
de los tiempos de muerte observados en la i-ésima simulación. Para la i-ésima simulación, el vector βb de p × 1
es obtenido por βb = W βbcox donde W es la matriz obtenida desde el paso de la reducción de dimensión (ACP
o CPS) para transformar los datos, y βbcox son los parámetros estimados obtenidos del modelo proporcional
de Cox después de reducir la dimensión.
En los métodos de reducción de dimensión tenemos inicialmente X una matriz de p × n, donde p indica
el número de los genes y n es el número de pacientes, entonces la transformación de los datos es la siguiente:

Para ACP:
Y = X T W,
donde W = [v1 , . . . , vK0 ] es la matriz cuyas columnas v1 , . . . , vK0 son los eigenvectores que corresponden
a los K0 eigenvalores más grandes de la matriz de covarianza muestral.
Para CPS:
e T U D−1 ,
V =X
donde X e = M X, M T = [ei , . . . , ei ] y el conjunto de subı́ndices {i1 , . . . , ik } corresponde a los genes
1 k
con valor absoluto de Cox score mayor al valor óptimo Γ∗ , considerando que ei es el vector con un 1 en
la i-ésima entrada y cero en las otras. Como se está tomando la primera columna de V como la única
covariable, tenemos que
v1 = V e 1 = Xe T U D−1 e1 = X T W,

donde W = M T U D−1 e1 .

La segunda medida de bondad de ajuste, ave(bias.ind), está en términos del sesgo de la función de
supervivencia estimada. Para esta medida se calcula el sesgo de la función de supervivencia estimada en los
deciles de la función de supervivencia teórica. El ave(bias.ind) es definido como:
s Xn
!
X 1 X
ave(bias.ind) = (Sbik (tq ) − Sik (tq )) , (4.2)
sn i=1
t∈D k=1
E. Alamilla-Jiménez y A. Bolı́var-Cimé 9

donde D es el conjunto de los deciles tq , con q = 0.1, 0.2, . . . , 0.9, y la supervivencia estimada en los deciles es
 exp(Xk (i)T β)
c  T

Sbik (tq ) = Sb0 (tq ) . El decil tq se calcula mediante tq = S0−1 q exp(−Xk (i) β) ya que Sik (tq ) = q.

4.2. Error cuadrático medio para la comparación de los métodos considerando


datos reales.

Para comparar los diferentes métodos de reducción de dimensión para la estimación de la función de
supervivencia, suponiendo un modelo proporcional de Cox con datos encontrados en la literatura, se procede
a dividir los datos aleatoriamente en dos partes iguales un número s de veces y se emplea el siguiente error
cuadrático medio definido en [7] mediante validación cruzada:

s M
1 X X X hb b (t) 2
i
CV (surv.error) = S −m (t) − S m (4.3)
sM i=1 m=1
t∈Dm

donde i = 1, . . . , s es el ı́ndice correspondiente a la i-ésima iteración; m = 1, . . . , M es el ı́ndice del pliegue


de la validación cruzada, M = 2; Dm es el conjunto de tiempos de muerte en el m-ésimo pliegue; S b denota
m
la media de las funciones de supervivencia estimada para el m-ésimo pliegue y S −m denota la media de las
b
funciones de supervivencia estimada cuando el m-ésimo pliegue es removido. Es decir, para el cálculo de este
error cuadrático utilizamos una división 50 : 50 de los datos en un conjunto de entrenamiento y un conjunto
de prueba, ası́ el ı́ndice m también denota el conjunto de prueba y −m denota el conjunto de entrenamiento.
Las funciones de supervivencia estimadas son evaluadas utilizando las covariables correspondientes a los
individuos, es decir,
N N
b (t) = 1 X Sb (t)
S b (t) = 1 X Sb
y S
m m,k −m −m,k (t)
N N
k=1 k=1

donde N indica la mitad del número de individuos, Sbm,k (t) es la función de supervivencia estimada para
el k-ésimo individuo en el conjunto de prueba, y Sb−m,k (t) es la función de supervivencia estimada para el
k-ésimo individuo en el conjunto de entrenamiento. Aquı́

T
Sbm,k (t) = Sb0,m (t)exp(Xm,k βm ) ,
b

donde Xm,k es el vector de covariables del k-ésimo individuo en el conjunto de prueba y Sb0,m es el estimador
de Nelson-Aalen de la función de supervivencia para este conjunto. Análogamente se define Sb−m,k (t) para
los datos de entrenamiento.

5. Estudio de simulación.

En esta sección se describe el estudio de simulación que se presenta en este trabajo, en donde se simulan
datos multivariados que representan las expresiones de genes de una cantidad pequeña de pacientes, para los
cuales también se cuenta con un tiempo de supervivencia observado o censurado. En estudios anteriores, ver
[7] y [8], se han comparado algunos métodos de reducción de dimensión mediante simulaciones de datos con-
siderando matrices de covarianza diagonales, sin embargo es bien sabido que los genes están correlacionados,
por lo que en este trabajo se hace un estudio donde se consideran matrices no diagonales.
El procedimiento de simulación se divide en dos partes: 1) generar los valores de las expresiones de los
genes, y 2) generar los tiempos de supervivencia y censura. En las siguientes dos secciones se explica como
se llevaron a cabo cada una de estas partes.
10 Reducción de la dimensionalidad de microarreglos ADN en el análisis de supervivencia

5.1. Simulación de los valores de las expresiones de los genes.

En este estudio se simularon matrices de datos X de p × n, donde p representa el número de genes y n el


número de pacientes del microarreglo ADN, con p  n. Las distribuciones multivariadas para las columnas
de la matriz X fueron de dos tipos: normales multivariadas y lognormales multivariadas.
Para el caso normal multivariado se tomó el vector media µ = 0 (de tamaño p × 1) y una ma-
triz de covarianza Toeplitz simétrica Σ = T oeplitz(1, c, c2 , . . . , cp−1 ), con c = 0.2, 0.5 y 0.8. Notemos
que cuando el valor de c aumenta la correlación entre los genes aumenta también. Para el caso lognor-
mal multivariado se tomó la exponencial de matrices X como las del caso normal multivariado, lo que
produjo distribuciones lognormales multivariada con media µ = e1/2 1p y matrices de covarianza Σ =
2 p−1
T oeplitz(e(e − 1), e(ec − 1), e(ec − 1), . . . , e(ec − 1)), con c = 0.2, 0.5, 0.8. En este caso también se tiene
que al amentar c aumenta la correlación entre las variables. Los valores de n y p para las simulaciones fueron
n = 100, p = 200, 500, 1000, 1500, 2000. Para cada escenario se simularon s = 1000 matrices X.

5.2. Simulación de los tiempos de la supervivencia y censura.

Para cada matriz de expresiones de genes X, generamos los tiempos de supervivencia y de censura análo-
gamente a como se hace en [7], de tal manera que su función de supervivencia siga un modelo proporcional
de Cox. Generamos el tiempo de supervivencia del i-ésimo individuo, yi , independiente del tiempo de cen-
sura, ci , con i = 1, . . . , n. En estas simulaciones se considera la distribución exponencial para el tiempo
de supervivencia y censura inicial, con función de densidad (f.d.) f0 (t) = λ exp(−λt). En otras palabras
y0i ∼ Exp(λy ) y c0i ∼ Exp(λc ), donde y0i y c0i denotan el tiempo de supervivencia y de censura inicial,
respectivamente, para el i-ésimo individuo. El tiempo de supervivencia y de censura para el i-ésimo indi-
viduo es yi = y0i exp(−XiT β) y ci = c0i exp(−XiT β), respectivamente. Aquı́, Xi es el vector de covariables
correspondientes al i-ésimo individuo.
El tiempo observado para el i-ésimo individuo es Ti = mı́n(yi , ci ), y el indicador de censura correspon-
diente es δi = I(yi < ci ), con δi = 1 si el evento ha ocurrido y δi = 0 si el tiempo de vida es censurado por la
T
derecha. Ası́, la función de supervivencia de Ti está dada por S(t|x) = S0 (t)exp(Xi β ) , donde S0 es la función
de supervivencia de la distribución exponencial Exp(λy + λc ), por lo que los tiempos observados Ti siguen
un modelo proporcional de Cox con función de supervivencia inicial exponencial.
La razón de censura está dada por P (yi > ci ) = λc /(λy + λc ) bajo la distribución exponencial. En
nuestras simulaciones fijamos λy = 2 y λc = 1 para obtener 1/3 de la censura, análogamente a como se hace
en las simulaciones de [7]. Por otro lado, se genera un vector aleatorio β fijo de p × 1 donde las entradas son
N (0, σ 2 ) con σ = 0.2.

6. Resultados de las simulaciones.

Para cada matriz de datos simulada se redujo la dimensión utilizando ACP con 80 % de la variabilidad
explicada. También se redujo la dimensión con CPS utilizando la primera componente principal supervisada.
A continuación se muestra el desempeño de los métodos de reducción de dimensión ACP y CPS utilizando
las medidas de bondad de ajuste ave(d2 .ind) y ave(bias.ind), presentadas en la Sección 4.1.

6.1. Datos normales multivariados

Considerando datos normales multivariados, en las figuras 1, 2 y 3 se comparan el error cuadrático medio
ave(d2 .ind) y el sesgo ave(bias.ind) de los dos métodos, para c = 0.2, 0.5 y 0.8, respectivamente. En estas
figuras se observa que el método ACP tiene un mejor desempeño que el método CPS para reducir la dimensión
de los datos y posteriormente estimar el modelo proporcional de Cox, ya que mayormente el método ACP
tiene menor error cuadrático medio y sesgo que el método CPS. Además se observa un patrón creciente del
E. Alamilla-Jiménez y A. Bolı́var-Cimé 11

(a) ave(d2 .ind) (b) ave(bias.ind)

Figura 1: Error cuadrático medio y sesgo para datos normales con Σ = T oeplitz(1, 0.2, 0.22 , . . . , 0.2p−1 ).

(a) ave(d2 .ind) (b) ave(bias.ind)

Figura 2: Error cuadrático medio y sesgo para datos normales con Σ = T oeplitz(1, 0.5, 0.52 , . . . , 0.5p−1 ).

(a) ave(d2 .ind) (b) ave(bias.ind)

Figura 3: Error cuadrático medio y sesgo para datos normales con Σ = T oeplitz(1, 0.8, 0.82 , . . . , 0.8p−1 ).

error cuadrático medio (excepto para ACP cuando c = 0.2 y p = 2000) y un patrón decreciente del sesgo
cuando la dimensión de los datos aumenta, en todos los escenarios considerados y para los dos métodos. Es
decir, al aumentar la dimensión el error cuadrático medio crece mientras que el sesgo decrece.
12 Reducción de la dimensionalidad de microarreglos ADN en el análisis de supervivencia

(a) ACP (b) CPS

Figura 4: Error cuadrático medio ave(d2 .ind) para cada valor de p al variar c con datos normales.

En la Figura 4 se compara para cada método, el error cuadrático medio al variar el valor de c con datos
normales multivariados. Se observa para ambos métodos, que para cada valor de la dimensión de los datos
p (excepto para p = 200 con CPS), cuando la correlación entre los genes aumenta (es decir el valor de
c aumenta) el error cuadrático medio disminuye. Para el sesgo no se observó ningún patrón al variar la
correlación entre los genes para ningún método.

6.2. Datos lognormales multivariados

Para los datos lognormales se observa un comportamiento muy distinto al observado en el caso normal.
En las figuras 5, 6 y 7 se presentan el error cuadrático medio y sesgo para los dos métodos, para c = 0.2, 0.5
y 0.8, respectivamente. En estas gráficas se observa que el error cuadrático médio del método CPS tiene un
comportamiento aproximadamente constante cuando la dimensión aumenta, mientras que para ACP este
error tiene un comportamiento oscilatorio. Esto se observó para los tres valores de c. Se observa también
que casi siempre el método ACP tiene menor error cuadrático que CPS. Con respecto al sesgo, se observa
un patrón oscilatorio cuando la dimensión crece para ambos métodos. Al variar el valor de c el sesgo no
cambia mucho. Se observa también que ACP tiene menor sesgo que CPS casi siempre. Por tanto, con datos
lognormales multivariados también resultó mejor ACP en comparación con CPS.
En la Figura 8 se compara para cada método el error cuadrático medio al variar c. Se observa que para

(a) ave(d2 .ind) (b) ave(bias.ind)

Figura 5: Error cuadrático medio y sesgo para datos lognormales con Σ = T oeplitz(1, 0.2, 0.22 , . . . , 0.2p−1 ).
E. Alamilla-Jiménez y A. Bolı́var-Cimé 13

(a) ave(d2 .ind) (b) ave(bias.ind)

Figura 6: Error cuadrático medio y sesgo para datos lognormales con Σ = T oeplitz(1, 0.5, 0.52 , . . . , 0.5p−1 ).

(a) ave(d2 .ind) (b) ave(bias.ind)

Figura 7: Error cuadrático medio y sesgo para datos lognormales con Σ = T oeplitz(1, 0.8, 0.82 , . . . , 0.8p−1 ).

(a) ACP (b) CPS

Figura 8: Error cuadrático medio ave(d2 .ind) para cada valor de p al variar c con datos lognormales.

p ≤ 1500, mientras más grande es el valor de c (y por tanto la correlación entre los genes es mayor) menor
es el error cuadrático para ACP; después de este valor no hay un patrón claro. Lo mismo pasa con CPS pero
para p ≤ 1000; después de este valor los errores cuadráticos fueron muy similares. Los sesgos fueron muy
similares al variar c para casi todos los valores de p y no se observó ningún patrón claro, esto sucedió con
ambos métodos.
14 Reducción de la dimensionalidad de microarreglos ADN en el análisis de supervivencia

7. Análisis de supervivencia con datos de microarreglos ADN reales.

En las siguientes dos secciones se utilizan los métodos de reducción de dimensión ACP y CPS para reducir
la dimensión de datos de microarreglos ADN encontrados en la literatura, para posteriormente estimar la
función de supervivencia mediante el modelo proporcional de Cox.

7.1. Pacientes con linfoma de células B grandes difuso.

Se tienen datos, proporcionados por [2], de la supervivencia de 240 pacientes con linfoma de células B
grandes difuso, para los cuales también se tienen las expresiones de sus genes en un microarreglo ADN. Las
variables que influyen en el estudio son el tiempo de supervivencia desde el inicio del estudio hasta que ocurre
el evento o haya una censura, y el indicador del evento (0 = Vivo, 1= Muerto). Las covariables del estudio
son los niveles de expresión de los genes, que en total fueron 7399. El número de pacientes considerados fue de
240 de los cuales 138 fallecieron durante el estudio (experimentaron el evento) y el resto fueron censurados.
Debido a que para esta clase de datos se tiene que el número de covariables, que son los niveles de
expresión de los genes, es mucho más grande que el número de pacientes, se procede a reducir la dimensión
de los datos mediante ACP y posteriormente se estima el modelo proporcional de Cox. Para ello se tomaron
como covariables las primeras componentes principales que explican el 80 % de la variabilidad de los datos,
en total fueron K0 = 85 componentes principales. La Tabla 1 muestra que los componentes principales del
modelo son significativos (al 5 %) según los tres criterios.

Test Estadı́stico G.L. p-valor


Razón de verosimilitudes 206.2 85 4.634 × 10−12
Wald 165.3 85 4.211 × 10−7
Puntajes 211 85 1.051 × 10−12

Tabla 1: Pruebas globales al reducir dimensión con ACP.

Por otro lado hicimos uso del método CPS para deducir la dimensión de los datos y posteriormente estimar
el modelo proporcional de Cox, tomando como covariable la primera CPS. Se eligió sólo una componente
principal supervisada ya que esta componente es la que contiene la mayor información de los datos, y en la
práctica es común utilizar sólo la primera componente principal supervisada. En la Tabla 2 se muestra que
la primera CPS del modelo es significativo (al 5 %) según los tres criterios.

Test Estadı́stico G.L. p-valor


Razón de verosimilitudes 42.85 1 5.908 × 10−11
Wald 44.97 1 1.997 × 10−11
Puntajes 45.78 1 1.321 × 10−11

Tabla 2: Pruebas globales al reducir dimensión con CPS.

En la prueba estadı́stica a nivel global para verificar el supuesto de riesgos proporcionales, se obtiene un
p-valor de 0.176 cuando se reduce dimensión con ACP, y un p-valor de 0.183 cuando se reduce con CPS.
Por lo tanto concluimos que no existe evidencia significativa al 5 % de que se viole el supuesto de riesgos
proporcionales a nivel global en ambos casos. En la Figura 9 se observa un buen ajuste de la estimación
del modelo proporcional de Cox a los datos cuando se reduce la dimensión con ACP y también cuando se
hace con CPS, ya que la función de riesgo acumulada estimada (mediante el estimador de Nelson-Aalen) de
los residuales de Cox-Snell se encuentra cerca de la recta identidad en ambos casos. Consultar [3] y [5] para
mayor detalle de estas técnicas de validación del modelo.
En la Figura 10 se comparan las curvas de supervivencia estimadas mediante el estimador de Kaplan
y Meier y el modelo proporcial de Cox utilizando ACP y CPS para reducir la dimensión de los datos, el
E. Alamilla-Jiménez y A. Bolı́var-Cimé 15

(a) ACP (b) CPS

Figura 9: Residuales Cox-Snell contra su función de riesgo acumulada estimada, cuando se reduce dimensión
con ACP en (a) y con CPS en (b). La linea punteada representa la recta identidad.

vector de covariables que se emplea para las gráficas es el vector media de las covariables. Se observa que
la curva del modelo proporcional de Cox después de reducir dimensión con ACP decrece más rápido que
el estimador de Kaplan y Meier. Por otro lado, la estimación del modelo proporcional de Cox utilizando la
primera componente principal supervisada como única covariable, presenta un comportamiento muy similar
al del estimador de Kaplan y Meier, sin embargo decrece apenas más rápido que este último.

Figura 10: Comparación de curvas de supervivencia estimadas mediante el estimador de Kaplan y Meier y
el modelo proporcial de Cox utilizando ACP y CPS.
16 Reducción de la dimensionalidad de microarreglos ADN en el análisis de supervivencia

Para determinar cual de los dos métodos proporciona un menor error de estimación, se utilizó el error
cuadrático medio de la función de supervivencia estimada CV (surv.error), descrito en la Sección 4.2, divi-
diendo los datos aleatoriamente en dos partes iguales 1000 veces (s = 1000). Los resultados de los errores
para ambos métodos se muestran a en la Tabla 3. Se observa que para esta clase de datos el método CPS
resultó tener menor error que el método ACP, por lo que es recomendable utilizar CPS para reducir la
dimensión de estos datos y posteriormente estimar el modelo proporcional de Cox.

ACP CPS
CV (surv.error) 0.2605887 0.03307715

Tabla 3: Comparación de métodos de reducción de dimensión utilizando CV (surv.error).

7.2. Pacientes con cáncer de mama.

Se tienen datos de la supervivencia de 78 mujeres con cáncer de mama para los cuales también se tienen
las expresiones de sus genes en un microarreglo ADN. Estos datos son proporcionados por [9]. Las variables
que influyen en el estudio son el tiempo de supervivencia desde el inicio del estudio hasta que ocurra el
evento o una censura, y el indicador del evento (0 = Vivo, 1= Muerto). Las covariables del estudio son los
niveles de expresión de los genes, que en total fueron 4751. El número de mujeres consideradas fue de 78 de
las cuales 34 fallecieron durante el estudio (experimentaron el evento) y el resto fueron censurados por la
derecha.
Se reduce la dimensión de los datos con ACP y posteriormente se estima el modelo proporcional de
Cox. Para ello se tomaron como covariables las primeras componentes principales que explican el 60 %
de la variabilidad de los datos, en total fueron K0 = 15 componentes principales. No se consideró una
variabilidad explicada mucho más alta ya que, al ser más grande el número de componentes principales
necesarias, no se tenı́a la convergencia de las rutinas computacionales del software R para la estimación de
los parámetros del modelo proporcional de Cox. La Tabla 4 muestra que los componentes principales del
modelo son significativos (al 5 %) según dos criterios.

Test Estadı́stico G.L. p-valor


Razón de verosimilitudes 25.2 15 0.04738
Wald 21.46 15 0.1229
Puntajes 25.67 15 0.04169

Tabla 4: Pruebas globales al reducir dimensión con ACP.

Por otro lado, hicimos uso del método CPS para reducir la dimensión de los datos, posteriormente
estimamos el modelo proporcional de Cox tomando como covariable la primera CPS como única covariable.
En la Tabla 5 se muestra que la primera CPS del modelo es significativo (al 5 %) según los tres criterios.

Test Estadı́stico G.L. p-valor


Razón de verosimilitudes 24.01 1 9.592 × 10−7
Wald 25.93 1 3.536 × 10−7
Puntajes 30.13 1 4.035 × 10−8

Tabla 5: Pruebas globales al reducir dimensión con CPS.

En la prueba estadı́stica a nivel global para verificar el supuesto de riesgos proporcionales, se obtiene un
p-valor de 0.208 cuando se reduce dimensión con ACP, y un p-valor de 0.103 cuando se reduce con CPS.
Por lo tanto concluimos que no existe evidencia significativa al 5 % de que se viole el supuesto de riesgos
E. Alamilla-Jiménez y A. Bolı́var-Cimé 17

proporcionales a nivel global en ambos casos. En la Figura 11 se observa un buen ajuste de la estimación del
modelo proporcional de Cox a los datos cuando se reduce la dimensión con ACP y también cuando se hace
con CPS, ya que la función de riesgo acumulada estimada (mediante el estimador de Nelson-Aalen) de los
residuales de Cox-Snell se encuentra cerca de la recta identidad en ambos casos.

(a) ACP (b) CPS

Figura 11: Residuales Cox-Snell contra su función de riesgo acumulada estimada, cuando se reduce dimensión
con ACP en (a) y con CPS en (b). La linea punteada representa la recta identidad.

Figura 12: Comparación de curvas de supervivencia estimadas mediante el estimador de Kaplan y Meier y
el modelo proporcial de Cox utilizando ACP y CPS.

En la Figura 12 se comparan las curvas de supervivencia estimadas mediante el estimador de Kaplan


y Meier y el modelo proporcial de Cox utilizando ACP y CPS para reducir la dimensión de los datos, el
18 Reducción de la dimensionalidad de microarreglos ADN en el análisis de supervivencia

vector de covariables que se emplea para las gráficas es el vector media de las covariables. Notamos que la
curva del modelo proporcional de Cox después de reducir dimensión con ACP, no decrece tan rápido como
el estimador de Kaplan y Meier. Por otro lado, la estimación del modelo proporcional de Cox utilizando la
primera componente principal supervisada como única covariable, presenta un comportamiento muy similar
al del estimador de Kaplan y Meier, sin embargo no decrece tan rápido como éste.
Para determinar cuál de los dos métodos proporciona un menor error de estimación, se utilizó el error
cuadrático medio de la función de supervivencia estimada CV (surv.error), definido anteriormente, dividien-
do los datos aleatoriamente en dos partes iguales 1000 veces (s = 1000). Los resultados de los errores para
ambos métodos se muestran en la Tabla 6. Se observa que para estos datos no hay una diferencia signifi-
cativa al utilizar un método u otro, por lo que se puede utilizar cualquiera de ellos para estimar el modelo
proporcional de Cox.

ACP CPS
CV (surv.error) 0.4459428 0.4422514

Tabla 6: Comparación de métodos de reducción de dimensión utilizando CV (suv.error).

8. Conclusiones

En las simulaciones realizadas en este trabajo, suponiendo que los vectores de expresiones de genes de
los pacientes son normales o lognormales multivariados con matriz de covarianza Toeplitz (una matriz no
diagonal), y con tiempos observados de supervivencia y censura que siguen un modelo proporcional de Cox,
se observó que el método ACP tiene mejores resultados que el método CPS para reducir la dimensión de los
datos y posteriormente estimar el modelo proporcional de Cox, ya que el error cuadrático medio ave(d2 .ind)
y el sesgo ave(bias.ind) fueron menores para ACP que para CPS en la mayorı́a de los casos considerados.
Generalmente se observó que cuando la correlación entre los genes crece el error cuadrático medio decrece,
mientras que para el sesgo no se observó ningún patrón claro bajo estas circunstancias.
Con respecto a los datos de microarreglos ADN reales encontrados en la literatura, en el ejemplo de
pacientes con linfoma de células B grandes difuso se encontró que el método CPS genera un menor error
en la estimación de la función de supervivencia que el método ACP. En el ejemplo de mujeres con cáncer
de mama no se observó gran diferencia en el error de estimación de la función de supervivencia al utilizar
ambos métodos, por lo que para estos datos los dos métodos se desempeñan en forma similar y no hay
diferencia entre considerar uno u otro. Estos resultados son diferentes a los obtenidos en las simulaciones
debido a que las distribuciones de las expresiones de los genes en estos ejemplos no necesariamente siguen la
misma distribución de los datos en las simulaciones, de igual forma los tiempos observados de supervivencia
y censura podrı́an seguir otra distribución diferente a la considerada en las simulaciones.
Los métodos de reducción de dimensión de datos multivariados considerados, Análisis de Componentes
Principales y Componentes Principales Supervisadas, demostraron ser muy útiles para reducir la dimensión
de datos de microarreglos ADN y posteriormente estimar la función de supervivencia mediante un modelo
proporcional de Cox. No puede decirse que en general uno es mejor que otro, pues depende de los datos
con los que se cuenta, un análisis similar al llevado a cabo en este trabajo para los datos reales es útil para
decidir que método utilizar.

Agradecimientos
Agradecemos a la Universidad Juárez Autónoma de Tabasco por el apoyo brindado a los autores de este
trabajo durante la elaboración del mismo. Este trabajo fue parcialmente financiado por PRODEP a través
del proyecto de investigación UJAT-PTC-178.
E. Alamilla-Jiménez y A. Bolı́var-Cimé 19

Referencias
[1] E. Bair, T. Hastie, D. Paul, and R. Tibshirani. Prediction by supervised principal components. Manuscrito
disponible en http://www.stanford.edu/∼hastie/Papers/spca.pdf., September 2004.
[2] E. Bair and R. Tibshirani. Semi-supervised methods to predict patient survival from gene expression data.
Plos Biology, 2(4):511–522, 2004.
[3] P. Grambsch and T. Therneau. Proportional hazards tests and diagnostics based on weighted residuals.
Biometrika, 81:515–26, 1994.
[4] J. Kalbfleisch and R. Prentice. The Statistical analysis of failure time data. John Wiley & Sons, 2002.
[5] J. P. Klein and M. L. Moeschberger. Survival analysis - techniques for censored and truncated data.
Springer, New York, 2003.

[6] R. J. Muirhead. Aspects of multivariate statistical theory. John Wiley & Sons, Hoboken, New Jersey,
2005.
[7] T. S. Nguyen and J. Rojo. Dimension reduction of microarray data in the presence of a censored survival
response: A simulation study. SAGMB, 8(1):Artı́culo 4, 2009.

[8] T. S. Nguyen and J. Rojo. Dimension reduction of microarray gene expression data: the accelerated
failure time model. J Bioinform Comput Biol, 7(6):939–954, 2009.
[9] L. van‘t Veer, H. Dai, M. van de Vijver, Y. He, and A. Hart. Expression profiling predicts clinical outcome
of breast cancer. Nature, 415:530–536, 2002.

También podría gustarte