ABolivar-EAlamilla Final Final

Abstraction & Application 14 (2016) 1 − 19 UADY
Reducción de la dimensionalidad de microarreglos ADN para

estimar la función de supervivencia
a
Edgar Alamilla-Jiménez, b Addy Bolı́var-Cimé
a b
, Universidad Juárez Autónoma de Tabasco
División Académica de Ciencias Básicas
a
linking 1990@hotmail.com, b addy.bolivar@ujat.mx
Abstract
In this work it is shown how some dimensional reduction methods can be applied to DNA microarray
data, to estimate the survival function by a Cox proportional hazard model where the covariates are
the microarray gene expression data. The dimension reduction methods considered here were Principal
Component Analysis and Supervised Principal Components. A simulation study is done to compare the
behavior of these methods in the estimation of the Cox proportional hazard model, considering non
diagonal covariance matrices for the data, since it is well known that the gene expressions are correlated.
Further, it is presented an analysis with real microarray data of the literature to compare both methods.
Resumen
En este trabajo se muestra como algunos métodos de reducción de dimensión pueden ser aplicados
a datos de microarreglos ADN, para estimar la función de supervivencia mediante un modelo de riesgos
proporcionales de Cox donde las covariables son las expresiones de genes del microarreglo. Los métodos
de reducción de dimension considerados en este trabajo fueron Análisis de Componentes Principales y
Componentes Principales Supervisadas. Un estudio de simulación es hecho para comparar el compor-
tamiento de estos métodos en la estimación del modelo de riesgos proporcionales de Cox, considerando
matrices de covarianza no diagonal para los datos, ya que es bien sabido que las expresiones de los genes
son correlacionadas. También se presenta un análisis utilizando datos de microarreglos ADN reales de la
literatura donde se comparan ambos métodos.
Keywords and phrases : Survival analysis, Cox proportional hazard model, DNA microarray data, Principal Component
Analysis, Supervised Principal Components
2010 M athematics Subject Classif ication: 62N01, 62N02, 62H20, 62H25.
1. Introducción
Los estudios de microarreglos ADN permiten a los cientı́ficos llevar a cabo de forma rápida y eficiente
análisis simultáneos de miles de genes en un solo experimento, con el fin de conocer el comportamiento
de estos bajo determinadas situaciones. Los análisis de microarreglos ADN pretenden, entre otras cosas,
identificar los genes que están relacionados con un proceso biológico y la interacción entre ellos, desde el
punto de vista estadı́stico y matemático.
1
2 Reducción de la dimensionalidad de microarreglos ADN en el análisis de supervivencia
Los datos de microarreglos ADN son datos matriciales p × n donde p representa el número de genes
analizados y n es el número de individuos estudiados. Debido a que se analiza una gran cantidad de genes
(miles de ellos), en esta clase de datos p es usualmente mucho más grande que n. Sin embargo, ya que los
datos de microarreglos generalmente incluyen información de la supervivencia de los pacientes, es importante
analizar los tiempos de supervivencia de los pacientes en términos de sus correspondientes niveles de expresión
de genes. Cuando se supone un modelo de riesgos proporcionales de Cox (modelo proporcional de Cox) para
la función de supervivencia de los individuos utilizando las expresiones de los genes como covariables, debido
a que p > n la estimación del modelo proporcional de Cox es complicada, ya que se tienen que estimar muchos
parámetros con pocos datos. Una manera de hacer frente a la gran dimensionalidad de los datos es primero
reducir la dimensión de estos utilizando métodos de reducción de dimensión, como por ejemplo Análisis de
Componentes Principales (ACP) o Componentes Principales Supervisadas (CPS), y posteriormente estimar
el modelo proporcional de Cox.
Algo muy interesante es la comparación de los métodos de reducción de dimensión en términos del error
cuadrático medio y el sesgo de la estimación de la función de supervivencia. En este trabajo se explica en qué
consisten los dos métodos de reducción de dimensión ACP y CPS, y se comparan estos métodos mediante
estudios de simulación considerando matrices de covarianza no diagonal para los vectores de expresiones de
genes correspondientes a los individuos. Se consideraron únicamente estos dos métodos debido a que ACP es
uno de los más conocidos para hacer reducción de dimensión y CPS es una variante de él, no tan conocido pero
que ha demostrado ser muy útil; ver [2]. En trabajos anteriores, ver por ejemplo [7] y [8], se hicieron estudios
de simulación considerando matrices de covarianza diagonal para datos de microarreglos ADN, sin embargo
es bien sabido que algunos genes están correlacionados con otros y es necesario hacer estudios considerando
matrices de covarianza no diagonales. Por otro lado, se llevó a cabo un análisis de supervivencia con datos
de microarreglos ADN reales encontrados en la literatura, reduciendo la dimensión de los datos mediante
ACP y CPS, y posteriormente estimando el modelo proporcional de Cox. Para estos análisis se compararon
ambos métodos mediante un error cuadrático medio que se calcula utilizando validación cruzada.
A continuación se describe como está dividido este trabajo. En la Sección 2 se expone brevemente el
modelo proporcional de Cox. En la Sección 3 se presentan los métodos de reducción de dimensión que serán
considerados en este trabajo, ACP y CPS. En la Sección 4 se describen las medidas de bondad de ajuste
utilizadas para hacer la comparación entre los dos métodos. En la Sección 5 se describen los escenarios de
los estudios de simulación para la comparación de los métodos de reducción de dimensión; los resultados
de dichas simulaciones se presentan en la Sección 6. En la Sección 7 se muestran ejemplos con datos de
microarreglos ADN reales para ilustrar cómo los métodos ACP y CPS pueden ser utilizados para reducir la
dimensión de datos y posteriormente estimar el modelo proporcional de Cox. Finalmente se presenta una
sección de conclusiones.
2. Modelo proporcional de Cox
Comúnmente, los sujetos bajo estudio tienen algunas caracterı́sticas adicionales que pueden afectar su
tiempo de supervivencia. Por ejemplo, los sujetos pueden tener variables demográficas registradas, tales co-
mo la edad, el género, estatus socio-económicos o de educación; variables de comportamiento tales como los
hábitos en la dieta, historial de tabaquismo, el nivel de actividad fı́sica, o el consumo de alcohol; o variables
fisiológicas, tales como la presión arterial, el nivel de glucosa, los niveles de hemoglobina, el pulso cardı́aco
o los niveles de expresión de sus genes. Tales variables pueden ser utilizadas como covariables (variables
explicativas, factores de riesgo, variables independientes) en la explicación del tiempo de supervivencia (va-
riable de respuesta, variable dependiente). El modelo proporcional de Cox es un tipo especial de modelo
para la función de supervivencia que permite incorporar covariables de los individuos en la predicción de su
supervivencia. Este modelo se describe a continuación tomando como referencia [5].
Se consideran datos basados en una muestra de tamaño n que consisten en la tripleta (Tj , δj , Zj (t)),
j = 1, 2, . . . , n, donde Tj es el tiempo en el estudio del j-ésimo paciente, δj es el indicador de la ocurrencia
del evento para el paciente j-ésimo (δj = 1 si el evento ha ocurrido y δj = 0 si el tiempo de vida es censurado
por la derecha) y Zj (t) = (Zj1 (t), . . . , Zjp (t))T es el vector de covariables para el individuo j-ésimo en
el tiempo t. Aquı́ las Zjk (t)0 s, k = 1, 2, . . . , p, pueden ser covariables dependientes del tiempo cuyo valor
E. Alamilla-Jiménez y A. Bolı́var-Cimé 3
cambia con el tiempo o pueden ser valores constantes (fijos) conocidos en el tiempo 0. Cabe mencionar que
en este trabajo se considerará como covariables únicamente a las expresiones de los genes y se supondrá
que no cambian con el tiempo. Este último supuesto es válido en el caso en que pueda considerarse que las
expresiones de los genes no varı́an mucho durante el tiempo del estudio.
Definición 2.1 Sea h(t|Z) la razón de riesgo en el tiempo t para un individuo con vector de covariables Z.
El modelo proporcional de Cox está dado por:
h(t|Z) = h0 (t) exp(β T Z), (2.1)
donde h0 (t) es una razón de riesgo inicial y β = (β1 , . . . , βp )T es un vector de parámetros.
Se dice que éste es un modelo semiparamétrico porque se supone una forma paramétrica solo para el
efecto de la covariable. La razón de riesgo inicial es tratado como no paramétrico.
El modelo proporcional de Cox a menudo se llama modelo de riesgos proporcionales, porque si observamos
dos individuos con vectores de covariables Z y Z∗ el cociente de sus razones de riesgo es una constante:
Pp " p #
h(t|Z) h0 (t) exp [ k=1 βk Zk ] X
∗
= Pp = exp βk (Zk − Zk ) , (2.2)
h(t|Z∗ ) h0 (t) exp [ k=1 βk Zk∗ ]
k=1
por lo que las razones de riesgo son proporcionales.
2.1. Estimación del modelo por máxima verosimilitud
Supongamos que la censura es no informativa, es decir, dada Zj el evento y el tiempo de censura para el j-
ésimo paciente son independientes. Supongamos además que no hay repetición en los tiempos de los eventos.
Sea Z(i)k la k-ésima covariable asociada al individuo cuyo tiempo de falla es ti , donde t1 < t2 < · · · < tn .
Definimos el conjunto en riesgo al tiempo ti , R(ti ), como el conjunto de todos los individuos que se encuentran
en el estudio en un momento justo antes de ti . La verosimilitud parcial, basada en la función de riesgo
especificada en (2.1), se expresa como
D Pp
Y exp βk Z(i)k
k=1
L(β) = P Pp . (2.3)
i=1 j∈R(ti ) exp [ k=1 βk Zjk ]
Esta función es tratada como una verosimilitud usual y la inferencia se lleva a cabo por los medios usuales.
La log-verosimilitud `(β) = ln [L(β)] está dada por
 !
X p
D X D
X X p
X
`(β) = βk Z(i)k − ln  exp βk Zjk  . (2.4)
i=1 k=1 i=1 j∈R(ti ) k=1
El estimador de máxima verosimilitud parcial de β se encuentra maximizando (2.3), o equivalentemente

maximizando (2.4). Sea Uh (β) = ∂`(β)/∂βh , h = 1, 2, . . . , p, entonces
D D
P Pp
j∈R(ti ) Zjh exp [ k=1 βk Zjk ]
X X
Uh (β) = Z(i)h − P Pp . (2.5)
i=1 i=1 j∈R(ti ) exp [ k=1 βk Zjk ]
El estimador de máxima verosimilitud de β se encuentra resolviendo el sistema de las p ecuaciones no lineales

Uh (β) = 0, h = 1, 2, . . . , p, lo cual tiene que hacerse por métodos numéricos. Note que (2.4) no depende de
la función de riesgo inicial h0 (x), por lo que las inferencias se pueden hacer sobre los efectos de las variables
explicativas sin h0 (x).
La matriz de información es el negativo de la matriz de la segundas derivadas de la log-verosimilitud
(2.4) y es denotada por I(β).
2.2. Significancia de las variables del modelo.
Una vez que se ha ajustado un modelo proporcional de Cox, se verifica que sean significativas las variables
del modelo, es decir, se llevan a cabo pruebas para contrastar la hipótesis nula de que los coeficientes del
modelo proporcional de Cox son todos iguales a cero. A continuación se presentan tres pruebas estadı́sticas
para probar la hipótesis nula H0 : β = β0 . Estas pruebas utilizan estadı́sticos de prueba que siguen aproxi-
madamente una distribución chi-cuadrada con p grados de libertad para muestras grandes si H0 es cierta.
Sea b = (b1 , b2 , . . . , bp )T el estimador de máxima verosimilitud para β.
La primera prueba de hipótesis que se considera para el vector β del modelo proporcional de Cox, es
la basada en la distribución asintótica normal del estimador de máxima verosimilitud, nos referimos a la
prueba de Wald. Aquı́ se supone que para muestras grandes, b es un vector aleatorio de distribución normal
y matriz de covarianza estimada por I −1 (b). La prueba de Wald se basa en el estadı́stico
χ2W = (b − β0 )T I −1 (b)(b − β0 ). (2.6)
La segunda prueba es la prueba de razón de verosimilitud, la cual se basa en el estadı́stico

χ2LR = 2 [`(β) − `(β0 )] . (2.7)
La tercera prueba es llamada prueba de puntajes (scores test), esta prueba está basada en U (β) =
(U1 (β), . . . , Up (β))T , el vector de puntajes, donde Uh (β) está definida por (2.5). Para muestras grandes,
U (β) es aproximadamente normal p-multivariada con media 0 y covariaza I(β) cuando H0 es verdadera. El
estadı́stico utilizado en esta prueba es
χ2SC = U (β0 )T I −1 (β0 )U (β0 ). (2.8)
3. Métodos de reducción de dimensión
En esta sección se presentan dos métodos para la reducción de la dimensión de datos multivariados, que
serán utilizados a lo largo del presente trabajo. Estos métodos son Análisis de Componentes Principales y
Componentes Principales Supervisadas.
3.1. Análisis de Componentes Principales
En muchas situaciones prácticas se toman observaciones de un gran número de variables correlacionadas

y en tal caso es natural buscar formas de reducir la dimensión de los datos, es decir, la cantidad de variables,
sin sacrificar demasiado la información contenida en la matriz de covarianza. Una de estas técnicas de
exploración de datos, desarrollado por Hotelling (1933), es el Análisis de Componentes Principales (ACP).
A continuación se presenta brevemente la descripción dada en [6] de este método.
En este análisis los ejes de coordenadas (representando las variables originales) son rotados para dar un
nuevo sistema de coordenadas, que representan las nuevas variables, las cuales tienen ciertas propiedades
óptimas de varianza. Esto es equivalente a hacer una transformación ortogonal especial de las variables
originales. El ACP tiene que ver con el intento de caracterizar o explicar la variabilidad de una variable
vectorial y reemplazarla por una nueva variable vectorial con el menor número de componentes con gran
variación.
3.1.1. Componentes principales poblacionales.
Sea X un vector aleatorio de p × 1 con media µ y matriz de covarianzas Σ. Sean λ1 ≥ λ2 ≥ · · · ≥ λp

(> 0) eigenvalores de Σ y H = [h1 . . . hp ] una matriz ortogonal de p × p tal que
H T ΣH = Λ ≡ diag(λ1 , . . . , λp ), (3.1)
de modo que hi es un eigenvector de Σ correspondiente al eigenvalor λi . Consideremos el vector U = H T X =

(U1 , . . . , Up )T , entonces Cov(U ) = Λ, de modo que U1 , . . . , Up son todos no correlacionados y Var(Ui ) = λi ,
i = 1, . . . , p. Las componentes U1 , . . . , Up de U son llamadas las componentes principales poblacionales de X.
La primera componente principal poblacional es U1 = hT1 X, su varianza es λ1 ; la segunda componente prin-
cipal poblacional es U2 = hT2 X con varianza λ2 , y ası́ sucesivamente. Además, las componentes principales
poblacionales tienen la siguiente propiedad óptima dada por el Teorema 9.2.1 de [6]: la primera componente
principal poblacional U1 es la combinación lineal normalizada de las componentes de X con la mayor va-
rianza posible, y la máxima varianza es λ1 ; luego, de todas las combinaciones lineales normalizadas de las
componentes de X que están no correlacionados con U1 , la segunda componente principal poblacional U2
tiene varianza máxima, dada por λ2 ; y ası́ sucesivamente. En general, de todas las combinaciones lineales
normalizadas que no están correlacionados con U1 , . . . , Uk−1 , la k-ésima componente principal tiene varianza
máxima dada por λk , con k = 1, . . . , p.
3.1.2. Componentes principales muestrales.
Supongamos que X1 , . . . , Xn es una muestra aleatoria de tamaño n. Sea S la matriz de covarianza

muestral dada por
n
1 X
S= (Xi − X)(Xi − X)T ,
n − 1 i=1
Pn
donde X = i=1 Xi /n es la media muestral. Sean l1 > · · · > lp los eigenvalores de S. Comúnmente estos
son distintos con probabilidad uno y son estimadores de los eigenvalores λ1 ≥ λ2 ≥ · · · ≥ λp de Σ. Recuerde
que λ1 , . . . , λp son las varianzas de las componentes principales poblacionales. Sea V = [v1 · · · vp ] una matriz
ortogonal tal que
V T SV = L ≡ diag(l1 , . . . , lp ), (3.2)
por lo que vi es el eigenvector normalizado de S correspondientes al eigenvalor li , el cual es un estimador

del eigenvector hi de Σ, i = 1, . . . , p. Las componentes principales muestrales (o simplemente componentes
principales) se definen como las componentes U b1 , . . . , U b = V T X, éstas son estimadores de las
bp del vector U
componentes principales poblacionales dadas por las componentes de U = H T X.
Una medida de la variabilidad total en los vectores Xi es λ1 + λ2 + · · · + λp . Debido a que l1 , . . . , lp
son estimaciones de las varianzas de las componentes principales poblacionales, se tiene que una estimación
de la variabilidad total es l1 + l2 + · · · + lp . La proporción de variabilidad explicada por cada una de las
componentes principales muestrales U b1 , Ub2 , . . . , U
bp , está dada por
l lp
Pp 1 , . . . , Pp ,
i=1 li i=1 li
respectivamente. Además, la proporción de variabilidad acumulada de las componentes principales muestrales

está dada por Pp
l l1 + l2 li
Pp 1 , P p , . . . , Pi=1
p = 1,
i=1 li i=1 li i=1 li
para U
b1 , U
b2 , . . . , U
bp , respectivamente.
Para reducir la dimensión de los datos utilizando ACP, lo que comúnmente se hace es tomar las primeras
K componentes principales muestrales tales que la proporción de variabilidad acumulada
PK
l
Ppi=1 i
i=1 li
sea una proporción alta, la cual es determinada por el experimentador o estadı́stico. Por lo que si se reduce
a dimensión K, entonces los vectores originales son transformados a
Yi = W T Xi , (3.3)
para i = 1, 2, . . . , n, donde W = [v1 , . . . , vK ].

Cuando se desea estimar el modelo proporcional de Cox utilizando datos (vectores de covariables) con
dimensión mayor al tamaño de la muestra, una vez que se aplica ACP para reducir la dimensión de los datos
se estima el modelo proporcional de Cox tomando al vector Yi en (3.3) como el vector de covariables del
i-ésimo individuo, para i = 1, 2, . . . , n.
3.2. Componentes Principales Supervisadas
A continuación se detalla la descripción dada en [1] y [2] del método de Componentes Principales Super-
visadas (CPS) para reducir la dimensión de datos multivariados.
Sea X una matriz de p × n, donde p indica el número de niveles de expresión de los genes y n es el
número de pacientes. Asumimos que las filas de X (variables) han sido centradas para tener media cero. La
Descomposición en Valores Singulares (DVS) de X está dada por
X = U DV T ,
donde U es una matriz ortogonal de p × n, D es una matriz diagonal de n × n y V es una matriz ortogonal
de n × n. Además, los elementos en la diagonal D son las raı́ces cuadradas de los eigenvalores de XX T y U
es la matriz de sus correspondientes eigenvectores.
En el método CPS se propone que las primeras columnas de V sean usadas como predictores (o covaria-
bles) continuos de la función de supervivencia para cada paciente. Note que X T u1 , donde u1 es la primera
columna de U , es la primera componente principal muestral, y se tiene que la primera columna de V es
X T u1
v1 = ,
d1
donde d1 es la raı́z cuadrada del valor propio más grande de XX T , es decir, v1 es la primera componente
principal dividida entre de la raı́z cuadrada de su varianza (d1 ).
En teorı́a podemos calcular V usando toda la matriz de datos X. En la práctica sin embargo muchos
de los genes en X son no correlacionados con la supervivencia de los pacientes y si usamos la matriz en-
tera X para calcular V , la calidad del predictor resultante es muy pobre. Podemos resolver esta dificultad
usando solamente los genes con “Cox scores”grandes, los cuales se definen a continuación. Sea `j (β) la
log verosimilitud parcial (2.4) considerando únicamente la covariable correspondiente al gen j-ésimo y sean
Uj (β0 ) = d`j /dβ |β=β0 , Ij (β0 ) = −d2 `j /d2 β |β=β0 . Entonces el Cox score correspondiente al j-ésimo gen es
el estadı́stico de puntaje (2.8) para H0 : β = 0, dado en este caso por
Uj (0)2
sj = ,
Ij (0)
para j = 1, 2, . . . , p. Los Cox scores miden la correlación de los genes con la supervivencia de los pacientes.
3.2.1. Descripción del método CPS
Formalmente en el procedimiento de CPS consideraremos una matriz X 0 que consiste solamente en los
0
genes con Cox scores más grandes en valor absoluto que algún umbral Γ y calculamos la DVS de X
X 0 = U DV T .
Posteriormente se toma como covariable de los individuos para el modelo proporcional de Cox a la primera
columna de la matriz V (un vector con n entradas), es decir, con este procedimiento reducimos la dimensión
de los datos a uno. A la columna i-ésima de V se le llama i-ésima componente principal supervisada.
En resumen, una vez que tenemos el valor óptimo de Γ, denotado por Γ∗ y cuya obtención se describe
en la siguiente sección, el procedimiento para calcular las componentes principales supervisadas y estimar el
modelo proporcional de Cox se presenta a continuación:
1. Calculamos el Cox score para cada gen.
2. Seleccionamos los genes con Cox score mayores en valor absoluto a Γ∗ y formamos una nueva matriz
X 0 que solo contiene a estos genes.
0
3. Calculamos la DVS de X , por lo que tenemos V = X 0 U D−1 .
4. Utilizamos la primera columna de V (la primera componente principal supervisada) como la covariable
del modelo proporcional de Cox.
3.2.2. Obtención del umbral óptimo
A continuación se describe el procedimiento de validación cruzada, que se proporciona en [2], para la

elección del valor óptimo Γ∗ :
1. Elegir un conjunto G de posibles valores de Γ. Se recomienda elegir como G a 30 valores igualmente

espaciados entre el percentil 90 de los Cox scores y el máximo de los Cox scores.
2. Para cada Γ en G, dividimos las columnas de X en k particiones aleatorias. Comúnmente se toma

k = 10.
3. Para cada partición obtenemos la matriz X

e que resulta de eliminar esta partición de las columnas de
X. Los datos en X se llaman “datos de entrenamiento” y los elementos de la partición se llaman “datos
e
de prueba”. La matriz cuyas columnas son los datos de prueba es denotada por Y . Para las matrices
X
e y Y considerar únicamente los genes con Cox score mayor en valor absoluto a Γ.
4. Calcular la descomposición DVS de X

e
e = U DV T ,
X
posteriormente calcular Vb = Y T U D−1 .
5. Ajustar el modelo proporcional de Cox a los datos de prueba utilizando la primera columna de Vb como
covariable, y calcular el estadı́stico chi-cuadrada para la prueba de puntaje asociada a H0 : β = 0,
la cual coincide con la prueba log-rank descrita en la Sección 4.2.4 de [4]. Denotaremos el estadı́stico
chi-cuadrada para la i-ésima partición por wi .
6. Promediamos las wi0 s sobre las particiones y denotamos a este promedio por wΓ , el cual está dado por
P10
i=1 wi
wΓ = .
10
7. El umbral óptimo Γ∗ es el valor Γ ∈ G donde se alcanza el máximo de los wΓ0 s, es decir
wΓ∗ = máx {wΓ } .

Γ∈G
Se puede tratar de mejorar el desempeño del método CPS empleando las primeras k ≥ 2 columnas de V
(las primeras k componentes principales supervisadas), en lugar de simplemente tomar la primera columna
de V . Comúnmente no se utilizan más de k = 3 componentes principales supervisadas. El procedimiento de
aplicación es similar al descrito anteriormente, salvo en la elección del umbral óptimo Γ∗ y al número de
componentes principales supervisadas empleadas al final para estimar el modelo proporcional de Cox; para
mayor detalle consultar [2]. Cabe mencionar que en este trabajo solo se aplicó el método de CPS tomando
una componente principal supervisada, es decir la primera columna de V como covariable, por simplicidad
y debido a que el método nos indica que la mayor variabilidad de los datos se encuentra en la primera
componente.
4. Medidas de bondad de ajuste.
En esta sección presentamos un error cuadrático medio y un sesgo de la estimación de la función de

supervivencia, tomados de [7], que servirán para medir los errores y sesgos de la función de supervivencia
estimada para los datos simulados. Las medidas de bondad de ajuste seleccionadas de [7] son las que se
consideran más importantes debido a que cuantifican el error de la estimación de la función de supervivencia
de cada individuo bajo un modelo proporcional de Cox, y es de interés principal en la práctica la curva de
la función de supervivencia de los individuos.
4.1. Error cuadrático medio y sesgo de la estimación de la función superviven-

cia.
La primera medida de bondad de ajuste, ave(d2 .ind), es un error cuadrático medio del estimador de
supervivencia, donde la función de supervivencia es evaluada utilizando las covariables correspondientes a
los individuos. El ave(d2 .ind) es definido como:
s n 2
1 XX X
ave(d2 .ind) = Sik (t) − Sbik (t) , (4.1)
sn i=1
k=1 t∈Ds
con T T b
Sik (t) = S0 (t)exp(Xk (i) β)
y Sbik = Sb0 (t)exp(Xk (i) β) ,
donde k = 1, 2, . . . , n indica el k-ésimo individuo, i = 1, 2, . . . , s indica la i-ésima simulación, Xk (i) son las
covariables correspondientes al k-ésimo individuo de la i-ésima simulación, Sb0 es el estimador de Nelson-
Aalen de la función de supervivencia inicial (definido en la Sección 4.2 de [5]), y DS corresponde al conjunto
de los tiempos de muerte observados en la i-ésima simulación. Para la i-ésima simulación, el vector βb de p × 1
es obtenido por βb = W βbcox donde W es la matriz obtenida desde el paso de la reducción de dimensión (ACP
o CPS) para transformar los datos, y βbcox son los parámetros estimados obtenidos del modelo proporcional
de Cox después de reducir la dimensión.
En los métodos de reducción de dimensión tenemos inicialmente X una matriz de p × n, donde p indica
el número de los genes y n es el número de pacientes, entonces la transformación de los datos es la siguiente:
Para ACP:
Y = X T W,
donde W = [v1 , . . . , vK0 ] es la matriz cuyas columnas v1 , . . . , vK0 son los eigenvectores que corresponden
a los K0 eigenvalores más grandes de la matriz de covarianza muestral.
Para CPS:
e T U D−1 ,
V =X
donde X e = M X, M T = [ei , . . . , ei ] y el conjunto de subı́ndices {i1 , . . . , ik } corresponde a los genes
1 k
con valor absoluto de Cox score mayor al valor óptimo Γ∗ , considerando que ei es el vector con un 1 en
la i-ésima entrada y cero en las otras. Como se está tomando la primera columna de V como la única
covariable, tenemos que
v1 = V e 1 = Xe T U D−1 e1 = X T W,
donde W = M T U D−1 e1 .
La segunda medida de bondad de ajuste, ave(bias.ind), está en términos del sesgo de la función de
supervivencia estimada. Para esta medida se calcula el sesgo de la función de supervivencia estimada en los
deciles de la función de supervivencia teórica. El ave(bias.ind) es definido como:
s Xn
!
X 1 X
ave(bias.ind) = (Sbik (tq ) − Sik (tq )) , (4.2)
sn i=1
t∈D k=1
donde D es el conjunto de los deciles tq , con q = 0.1, 0.2, . . . , 0.9, y la supervivencia estimada en los deciles es
exp(Xk (i)T β)
c T

Sbik (tq ) = Sb0 (tq ) . El decil tq se calcula mediante tq = S0−1 q exp(−Xk (i) β) ya que Sik (tq ) = q.
4.2. Error cuadrático medio para la comparación de los métodos considerando

datos reales.
Para comparar los diferentes métodos de reducción de dimensión para la estimación de la función de
supervivencia, suponiendo un modelo proporcional de Cox con datos encontrados en la literatura, se procede
a dividir los datos aleatoriamente en dos partes iguales un número s de veces y se emplea el siguiente error
cuadrático medio definido en [7] mediante validación cruzada:
s M
1 X X X hb b (t) 2
i
CV (surv.error) = S −m (t) − S m (4.3)
sM i=1 m=1
t∈Dm
donde i = 1, . . . , s es el ı́ndice correspondiente a la i-ésima iteración; m = 1, . . . , M es el ı́ndice del pliegue

de la validación cruzada, M = 2; Dm es el conjunto de tiempos de muerte en el m-ésimo pliegue; S b denota
m
la media de las funciones de supervivencia estimada para el m-ésimo pliegue y S −m denota la media de las
b
funciones de supervivencia estimada cuando el m-ésimo pliegue es removido. Es decir, para el cálculo de este
error cuadrático utilizamos una división 50 : 50 de los datos en un conjunto de entrenamiento y un conjunto
de prueba, ası́ el ı́ndice m también denota el conjunto de prueba y −m denota el conjunto de entrenamiento.
Las funciones de supervivencia estimadas son evaluadas utilizando las covariables correspondientes a los
individuos, es decir,
N N
b (t) = 1 X Sb (t)
S b (t) = 1 X Sb
y S
m m,k −m −m,k (t)
N N
k=1 k=1
donde N indica la mitad del número de individuos, Sbm,k (t) es la función de supervivencia estimada para
el k-ésimo individuo en el conjunto de prueba, y Sb−m,k (t) es la función de supervivencia estimada para el
k-ésimo individuo en el conjunto de entrenamiento. Aquı́
T
Sbm,k (t) = Sb0,m (t)exp(Xm,k βm ) ,
b
donde Xm,k es el vector de covariables del k-ésimo individuo en el conjunto de prueba y Sb0,m es el estimador
de Nelson-Aalen de la función de supervivencia para este conjunto. Análogamente se define Sb−m,k (t) para
los datos de entrenamiento.
5. Estudio de simulación.
En esta sección se describe el estudio de simulación que se presenta en este trabajo, en donde se simulan
datos multivariados que representan las expresiones de genes de una cantidad pequeña de pacientes, para los
cuales también se cuenta con un tiempo de supervivencia observado o censurado. En estudios anteriores, ver
[7] y [8], se han comparado algunos métodos de reducción de dimensión mediante simulaciones de datos con-
siderando matrices de covarianza diagonales, sin embargo es bien sabido que los genes están correlacionados,
por lo que en este trabajo se hace un estudio donde se consideran matrices no diagonales.
El procedimiento de simulación se divide en dos partes: 1) generar los valores de las expresiones de los
genes, y 2) generar los tiempos de supervivencia y censura. En las siguientes dos secciones se explica como
se llevaron a cabo cada una de estas partes.
5.1. Simulación de los valores de las expresiones de los genes.
En este estudio se simularon matrices de datos X de p × n, donde p representa el número de genes y n el

número de pacientes del microarreglo ADN, con p n. Las distribuciones multivariadas para las columnas
de la matriz X fueron de dos tipos: normales multivariadas y lognormales multivariadas.
Para el caso normal multivariado se tomó el vector media µ = 0 (de tamaño p × 1) y una ma-
triz de covarianza Toeplitz simétrica Σ = T oeplitz(1, c, c2 , . . . , cp−1 ), con c = 0.2, 0.5 y 0.8. Notemos
que cuando el valor de c aumenta la correlación entre los genes aumenta también. Para el caso lognor-
mal multivariado se tomó la exponencial de matrices X como las del caso normal multivariado, lo que
produjo distribuciones lognormales multivariada con media µ = e1/2 1p y matrices de covarianza Σ =
2 p−1
T oeplitz(e(e − 1), e(ec − 1), e(ec − 1), . . . , e(ec − 1)), con c = 0.2, 0.5, 0.8. En este caso también se tiene
que al amentar c aumenta la correlación entre las variables. Los valores de n y p para las simulaciones fueron
n = 100, p = 200, 500, 1000, 1500, 2000. Para cada escenario se simularon s = 1000 matrices X.
5.2. Simulación de los tiempos de la supervivencia y censura.
Para cada matriz de expresiones de genes X, generamos los tiempos de supervivencia y de censura análo-
gamente a como se hace en [7], de tal manera que su función de supervivencia siga un modelo proporcional
de Cox. Generamos el tiempo de supervivencia del i-ésimo individuo, yi , independiente del tiempo de cen-
sura, ci , con i = 1, . . . , n. En estas simulaciones se considera la distribución exponencial para el tiempo
de supervivencia y censura inicial, con función de densidad (f.d.) f0 (t) = λ exp(−λt). En otras palabras
y0i ∼ Exp(λy ) y c0i ∼ Exp(λc ), donde y0i y c0i denotan el tiempo de supervivencia y de censura inicial,
respectivamente, para el i-ésimo individuo. El tiempo de supervivencia y de censura para el i-ésimo indi-
viduo es yi = y0i exp(−XiT β) y ci = c0i exp(−XiT β), respectivamente. Aquı́, Xi es el vector de covariables
correspondientes al i-ésimo individuo.
El tiempo observado para el i-ésimo individuo es Ti = mı́n(yi , ci ), y el indicador de censura correspon-
diente es δi = I(yi < ci ), con δi = 1 si el evento ha ocurrido y δi = 0 si el tiempo de vida es censurado por la
T
derecha. Ası́, la función de supervivencia de Ti está dada por S(t|x) = S0 (t)exp(Xi β ) , donde S0 es la función
de supervivencia de la distribución exponencial Exp(λy + λc ), por lo que los tiempos observados Ti siguen
un modelo proporcional de Cox con función de supervivencia inicial exponencial.
La razón de censura está dada por P (yi > ci ) = λc /(λy + λc ) bajo la distribución exponencial. En
nuestras simulaciones fijamos λy = 2 y λc = 1 para obtener 1/3 de la censura, análogamente a como se hace
en las simulaciones de [7]. Por otro lado, se genera un vector aleatorio β fijo de p × 1 donde las entradas son
N (0, σ 2 ) con σ = 0.2.
6. Resultados de las simulaciones.
Para cada matriz de datos simulada se redujo la dimensión utilizando ACP con 80 % de la variabilidad
explicada. También se redujo la dimensión con CPS utilizando la primera componente principal supervisada.
A continuación se muestra el desempeño de los métodos de reducción de dimensión ACP y CPS utilizando
las medidas de bondad de ajuste ave(d2 .ind) y ave(bias.ind), presentadas en la Sección 4.1.
6.1. Datos normales multivariados
Considerando datos normales multivariados, en las figuras 1, 2 y 3 se comparan el error cuadrático medio
ave(d2 .ind) y el sesgo ave(bias.ind) de los dos métodos, para c = 0.2, 0.5 y 0.8, respectivamente. En estas
figuras se observa que el método ACP tiene un mejor desempeño que el método CPS para reducir la dimensión
de los datos y posteriormente estimar el modelo proporcional de Cox, ya que mayormente el método ACP
tiene menor error cuadrático medio y sesgo que el método CPS. Además se observa un patrón creciente del
(a) ave(d2 .ind) (b) ave(bias.ind)
Figura 1: Error cuadrático medio y sesgo para datos normales con Σ = T oeplitz(1, 0.2, 0.22 , . . . , 0.2p−1 ).
error cuadrático medio (excepto para ACP cuando c = 0.2 y p = 2000) y un patrón decreciente del sesgo
cuando la dimensión de los datos aumenta, en todos los escenarios considerados y para los dos métodos. Es
decir, al aumentar la dimensión el error cuadrático medio crece mientras que el sesgo decrece.
(a) ACP (b) CPS
Figura 4: Error cuadrático medio ave(d2 .ind) para cada valor de p al variar c con datos normales.
En la Figura 4 se compara para cada método, el error cuadrático medio al variar el valor de c con datos
normales multivariados. Se observa para ambos métodos, que para cada valor de la dimensión de los datos
p (excepto para p = 200 con CPS), cuando la correlación entre los genes aumenta (es decir el valor de
c aumenta) el error cuadrático medio disminuye. Para el sesgo no se observó ningún patrón al variar la
correlación entre los genes para ningún método.
6.2. Datos lognormales multivariados
Para los datos lognormales se observa un comportamiento muy distinto al observado en el caso normal.
En las figuras 5, 6 y 7 se presentan el error cuadrático medio y sesgo para los dos métodos, para c = 0.2, 0.5
y 0.8, respectivamente. En estas gráficas se observa que el error cuadrático médio del método CPS tiene un
comportamiento aproximadamente constante cuando la dimensión aumenta, mientras que para ACP este
error tiene un comportamiento oscilatorio. Esto se observó para los tres valores de c. Se observa también
que casi siempre el método ACP tiene menor error cuadrático que CPS. Con respecto al sesgo, se observa
un patrón oscilatorio cuando la dimensión crece para ambos métodos. Al variar el valor de c el sesgo no
cambia mucho. Se observa también que ACP tiene menor sesgo que CPS casi siempre. Por tanto, con datos
lognormales multivariados también resultó mejor ACP en comparación con CPS.
En la Figura 8 se compara para cada método el error cuadrático medio al variar c. Se observa que para
Figura 5: Error cuadrático medio y sesgo para datos lognormales con Σ = T oeplitz(1, 0.2, 0.22 , . . . , 0.2p−1 ).
(a) ACP (b) CPS
Figura 8: Error cuadrático medio ave(d2 .ind) para cada valor de p al variar c con datos lognormales.
p ≤ 1500, mientras más grande es el valor de c (y por tanto la correlación entre los genes es mayor) menor
es el error cuadrático para ACP; después de este valor no hay un patrón claro. Lo mismo pasa con CPS pero
para p ≤ 1000; después de este valor los errores cuadráticos fueron muy similares. Los sesgos fueron muy
similares al variar c para casi todos los valores de p y no se observó ningún patrón claro, esto sucedió con
ambos métodos.
7. Análisis de supervivencia con datos de microarreglos ADN reales.
En las siguientes dos secciones se utilizan los métodos de reducción de dimensión ACP y CPS para reducir
la dimensión de datos de microarreglos ADN encontrados en la literatura, para posteriormente estimar la
función de supervivencia mediante el modelo proporcional de Cox.
7.1. Pacientes con linfoma de células B grandes difuso.
Se tienen datos, proporcionados por [2], de la supervivencia de 240 pacientes con linfoma de células B
grandes difuso, para los cuales también se tienen las expresiones de sus genes en un microarreglo ADN. Las
variables que influyen en el estudio son el tiempo de supervivencia desde el inicio del estudio hasta que ocurre
el evento o haya una censura, y el indicador del evento (0 = Vivo, 1= Muerto). Las covariables del estudio
son los niveles de expresión de los genes, que en total fueron 7399. El número de pacientes considerados fue de
240 de los cuales 138 fallecieron durante el estudio (experimentaron el evento) y el resto fueron censurados.
Debido a que para esta clase de datos se tiene que el número de covariables, que son los niveles de
expresión de los genes, es mucho más grande que el número de pacientes, se procede a reducir la dimensión
de los datos mediante ACP y posteriormente se estima el modelo proporcional de Cox. Para ello se tomaron
como covariables las primeras componentes principales que explican el 80 % de la variabilidad de los datos,
en total fueron K0 = 85 componentes principales. La Tabla 1 muestra que los componentes principales del
modelo son significativos (al 5 %) según los tres criterios.
Test Estadı́stico G.L. p-valor

Razón de verosimilitudes 206.2 85 4.634 × 10−12
Wald 165.3 85 4.211 × 10−7
Puntajes 211 85 1.051 × 10−12
Tabla 1: Pruebas globales al reducir dimensión con ACP.
Por otro lado hicimos uso del método CPS para deducir la dimensión de los datos y posteriormente estimar
el modelo proporcional de Cox, tomando como covariable la primera CPS. Se eligió sólo una componente
principal supervisada ya que esta componente es la que contiene la mayor información de los datos, y en la
práctica es común utilizar sólo la primera componente principal supervisada. En la Tabla 2 se muestra que
la primera CPS del modelo es significativo (al 5 %) según los tres criterios.

Wald 44.97 1 1.997 × 10−11
Puntajes 45.78 1 1.321 × 10−11
Tabla 2: Pruebas globales al reducir dimensión con CPS.
En la prueba estadı́stica a nivel global para verificar el supuesto de riesgos proporcionales, se obtiene un
p-valor de 0.176 cuando se reduce dimensión con ACP, y un p-valor de 0.183 cuando se reduce con CPS.
Por lo tanto concluimos que no existe evidencia significativa al 5 % de que se viole el supuesto de riesgos
proporcionales a nivel global en ambos casos. En la Figura 9 se observa un buen ajuste de la estimación
del modelo proporcional de Cox a los datos cuando se reduce la dimensión con ACP y también cuando se
hace con CPS, ya que la función de riesgo acumulada estimada (mediante el estimador de Nelson-Aalen) de
los residuales de Cox-Snell se encuentra cerca de la recta identidad en ambos casos. Consultar [3] y [5] para
mayor detalle de estas técnicas de validación del modelo.
En la Figura 10 se comparan las curvas de supervivencia estimadas mediante el estimador de Kaplan
y Meier y el modelo proporcial de Cox utilizando ACP y CPS para reducir la dimensión de los datos, el
(a) ACP (b) CPS
Figura 9: Residuales Cox-Snell contra su función de riesgo acumulada estimada, cuando se reduce dimensión
con ACP en (a) y con CPS en (b). La linea punteada representa la recta identidad.
vector de covariables que se emplea para las gráficas es el vector media de las covariables. Se observa que
la curva del modelo proporcional de Cox después de reducir dimensión con ACP decrece más rápido que
el estimador de Kaplan y Meier. Por otro lado, la estimación del modelo proporcional de Cox utilizando la
primera componente principal supervisada como única covariable, presenta un comportamiento muy similar
al del estimador de Kaplan y Meier, sin embargo decrece apenas más rápido que este último.
Figura 10: Comparación de curvas de supervivencia estimadas mediante el estimador de Kaplan y Meier y
el modelo proporcial de Cox utilizando ACP y CPS.
Para determinar cual de los dos métodos proporciona un menor error de estimación, se utilizó el error
cuadrático medio de la función de supervivencia estimada CV (surv.error), descrito en la Sección 4.2, divi-
diendo los datos aleatoriamente en dos partes iguales 1000 veces (s = 1000). Los resultados de los errores
para ambos métodos se muestran a en la Tabla 3. Se observa que para esta clase de datos el método CPS
resultó tener menor error que el método ACP, por lo que es recomendable utilizar CPS para reducir la
dimensión de estos datos y posteriormente estimar el modelo proporcional de Cox.
ACP CPS
CV (surv.error) 0.2605887 0.03307715
Tabla 3: Comparación de métodos de reducción de dimensión utilizando CV (surv.error).
7.2. Pacientes con cáncer de mama.
Se tienen datos de la supervivencia de 78 mujeres con cáncer de mama para los cuales también se tienen
las expresiones de sus genes en un microarreglo ADN. Estos datos son proporcionados por [9]. Las variables
que influyen en el estudio son el tiempo de supervivencia desde el inicio del estudio hasta que ocurra el
evento o una censura, y el indicador del evento (0 = Vivo, 1= Muerto). Las covariables del estudio son los
niveles de expresión de los genes, que en total fueron 4751. El número de mujeres consideradas fue de 78 de
las cuales 34 fallecieron durante el estudio (experimentaron el evento) y el resto fueron censurados por la
derecha.
Se reduce la dimensión de los datos con ACP y posteriormente se estima el modelo proporcional de
Cox. Para ello se tomaron como covariables las primeras componentes principales que explican el 60 %
de la variabilidad de los datos, en total fueron K0 = 15 componentes principales. No se consideró una
variabilidad explicada mucho más alta ya que, al ser más grande el número de componentes principales
necesarias, no se tenı́a la convergencia de las rutinas computacionales del software R para la estimación de
los parámetros del modelo proporcional de Cox. La Tabla 4 muestra que los componentes principales del
modelo son significativos (al 5 %) según dos criterios.

Razón de verosimilitudes 25.2 15 0.04738
Wald 21.46 15 0.1229
Puntajes 25.67 15 0.04169
Tabla 4: Pruebas globales al reducir dimensión con ACP.
Por otro lado, hicimos uso del método CPS para reducir la dimensión de los datos, posteriormente
estimamos el modelo proporcional de Cox tomando como covariable la primera CPS como única covariable.
En la Tabla 5 se muestra que la primera CPS del modelo es significativo (al 5 %) según los tres criterios.

Wald 25.93 1 3.536 × 10−7
Puntajes 30.13 1 4.035 × 10−8
Tabla 5: Pruebas globales al reducir dimensión con CPS.
En la prueba estadı́stica a nivel global para verificar el supuesto de riesgos proporcionales, se obtiene un
p-valor de 0.208 cuando se reduce dimensión con ACP, y un p-valor de 0.103 cuando se reduce con CPS.
Por lo tanto concluimos que no existe evidencia significativa al 5 % de que se viole el supuesto de riesgos
proporcionales a nivel global en ambos casos. En la Figura 11 se observa un buen ajuste de la estimación del
modelo proporcional de Cox a los datos cuando se reduce la dimensión con ACP y también cuando se hace
con CPS, ya que la función de riesgo acumulada estimada (mediante el estimador de Nelson-Aalen) de los
residuales de Cox-Snell se encuentra cerca de la recta identidad en ambos casos.
(a) ACP (b) CPS
Figura 11: Residuales Cox-Snell contra su función de riesgo acumulada estimada, cuando se reduce dimensión
con ACP en (a) y con CPS en (b). La linea punteada representa la recta identidad.
Figura 12: Comparación de curvas de supervivencia estimadas mediante el estimador de Kaplan y Meier y
el modelo proporcial de Cox utilizando ACP y CPS.
En la Figura 12 se comparan las curvas de supervivencia estimadas mediante el estimador de Kaplan

y Meier y el modelo proporcial de Cox utilizando ACP y CPS para reducir la dimensión de los datos, el
vector de covariables que se emplea para las gráficas es el vector media de las covariables. Notamos que la
curva del modelo proporcional de Cox después de reducir dimensión con ACP, no decrece tan rápido como
el estimador de Kaplan y Meier. Por otro lado, la estimación del modelo proporcional de Cox utilizando la
primera componente principal supervisada como única covariable, presenta un comportamiento muy similar
al del estimador de Kaplan y Meier, sin embargo no decrece tan rápido como éste.
Para determinar cuál de los dos métodos proporciona un menor error de estimación, se utilizó el error
cuadrático medio de la función de supervivencia estimada CV (surv.error), definido anteriormente, dividien-
do los datos aleatoriamente en dos partes iguales 1000 veces (s = 1000). Los resultados de los errores para
ambos métodos se muestran en la Tabla 6. Se observa que para estos datos no hay una diferencia signifi-
cativa al utilizar un método u otro, por lo que se puede utilizar cualquiera de ellos para estimar el modelo
proporcional de Cox.
ACP CPS
CV (surv.error) 0.4459428 0.4422514
Tabla 6: Comparación de métodos de reducción de dimensión utilizando CV (suv.error).
8. Conclusiones
En las simulaciones realizadas en este trabajo, suponiendo que los vectores de expresiones de genes de
los pacientes son normales o lognormales multivariados con matriz de covarianza Toeplitz (una matriz no
diagonal), y con tiempos observados de supervivencia y censura que siguen un modelo proporcional de Cox,
se observó que el método ACP tiene mejores resultados que el método CPS para reducir la dimensión de los
datos y posteriormente estimar el modelo proporcional de Cox, ya que el error cuadrático medio ave(d2 .ind)
y el sesgo ave(bias.ind) fueron menores para ACP que para CPS en la mayorı́a de los casos considerados.
Generalmente se observó que cuando la correlación entre los genes crece el error cuadrático medio decrece,
mientras que para el sesgo no se observó ningún patrón claro bajo estas circunstancias.
Con respecto a los datos de microarreglos ADN reales encontrados en la literatura, en el ejemplo de
pacientes con linfoma de células B grandes difuso se encontró que el método CPS genera un menor error
en la estimación de la función de supervivencia que el método ACP. En el ejemplo de mujeres con cáncer
de mama no se observó gran diferencia en el error de estimación de la función de supervivencia al utilizar
ambos métodos, por lo que para estos datos los dos métodos se desempeñan en forma similar y no hay
diferencia entre considerar uno u otro. Estos resultados son diferentes a los obtenidos en las simulaciones
debido a que las distribuciones de las expresiones de los genes en estos ejemplos no necesariamente siguen la
misma distribución de los datos en las simulaciones, de igual forma los tiempos observados de supervivencia
y censura podrı́an seguir otra distribución diferente a la considerada en las simulaciones.
Los métodos de reducción de dimensión de datos multivariados considerados, Análisis de Componentes
Principales y Componentes Principales Supervisadas, demostraron ser muy útiles para reducir la dimensión
de datos de microarreglos ADN y posteriormente estimar la función de supervivencia mediante un modelo
proporcional de Cox. No puede decirse que en general uno es mejor que otro, pues depende de los datos
con los que se cuenta, un análisis similar al llevado a cabo en este trabajo para los datos reales es útil para
decidir que método utilizar.
Agradecimientos
Agradecemos a la Universidad Juárez Autónoma de Tabasco por el apoyo brindado a los autores de este
trabajo durante la elaboración del mismo. Este trabajo fue parcialmente financiado por PRODEP a través
del proyecto de investigación UJAT-PTC-178.
Referencias
[1] E. Bair, T. Hastie, D. Paul, and R. Tibshirani. Prediction by supervised principal components. Manuscrito
disponible en http://www.stanford.edu/∼hastie/Papers/spca.pdf., September 2004.
[2] E. Bair and R. Tibshirani. Semi-supervised methods to predict patient survival from gene expression data.
Plos Biology, 2(4):511–522, 2004.
[3] P. Grambsch and T. Therneau. Proportional hazards tests and diagnostics based on weighted residuals.
Biometrika, 81:515–26, 1994.
[4] J. Kalbfleisch and R. Prentice. The Statistical analysis of failure time data. John Wiley & Sons, 2002.
[5] J. P. Klein and M. L. Moeschberger. Survival analysis - techniques for censored and truncated data.
Springer, New York, 2003.
[6] R. J. Muirhead. Aspects of multivariate statistical theory. John Wiley & Sons, Hoboken, New Jersey,
2005.
[7] T. S. Nguyen and J. Rojo. Dimension reduction of microarray data in the presence of a censored survival
response: A simulation study. SAGMB, 8(1):Artı́culo 4, 2009.
[8] T. S. Nguyen and J. Rojo. Dimension reduction of microarray gene expression data: the accelerated
failure time model. J Bioinform Comput Biol, 7(6):939–954, 2009.
[9] L. van‘t Veer, H. Dai, M. van de Vijver, Y. He, and A. Hart. Expression profiling predicts clinical outcome
of breast cancer. Nature, 415:530–536, 2002.

ABolivar-EAlamilla Final Final

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

ABolivar-EAlamilla Final Final

Cargado por

Copyright:

Formatos disponibles

Abstraction & Application 14 (2016) 1 − 19 UADY

Reducción de la dimensionalidad de microarreglos ADN para

2010 M athematics Subject Classif ication: 62N01, 62N02, 62H20, 62H25.

2. Modelo proporcional de Cox

h(t|Z) = h0 (t) exp(β T Z), (2.1)

donde h0 (t) es una razón de riesgo inicial y β = (β1 , . . . , βp )T es un vector de parámetros.

por lo que las razones de riesgo son proporcionales.

2.1. Estimación del modelo por máxima verosimilitud

El estimador de máxima verosimilitud parcial de β se encuentra maximizando (2.3), o equivalentemente

El estimador de máxima verosimilitud de β se encuentra resolviendo el sistema de las p ecuaciones no lineales

2.2. Significancia de las variables del modelo.

La segunda prueba es la prueba de razón de verosimilitud, la cual se basa en el estadı́stico

3. Métodos de reducción de dimensión

3.1. Análisis de Componentes Principales

En muchas situaciones prácticas se toman observaciones de un gran número de variables correlacionadas

3.1.1. Componentes principales poblacionales.

Sea X un vector aleatorio de p × 1 con media µ y matriz de covarianzas Σ. Sean λ1 ≥ λ2 ≥ · · · ≥ λp

de modo que hi es un eigenvector de Σ correspondiente al eigenvalor λi . Consideremos el vector U = H T X =

3.1.2. Componentes principales muestrales.

Supongamos que X1 , . . . , Xn es una muestra aleatoria de tamaño n. Sea S la matriz de covarianza

por lo que vi es el eigenvector normalizado de S correspondientes al eigenvalor li , el cual es un estimador

respectivamente. Además, la proporción de variabilidad acumulada de las componentes principales muestrales

para i = 1, 2, . . . , n, donde W = [v1 , . . . , vK ].

3.2. Componentes Principales Supervisadas

3.2.1. Descripción del método CPS

1. Calculamos el Cox score para cada gen.

3.2.2. Obtención del umbral óptimo

A continuación se describe el procedimiento de validación cruzada, que se proporciona en [2], para la

1. Elegir un conjunto G de posibles valores de Γ. Se recomienda elegir como G a 30 valores igualmente

2. Para cada Γ en G, dividimos las columnas de X en k particiones aleatorias. Comúnmente se toma

3. Para cada partición obtenemos la matriz X

4. Calcular la descomposición DVS de X

posteriormente calcular Vb = Y T U D−1 .

7. El umbral óptimo Γ∗ es el valor Γ ∈ G donde se alcanza el máximo de los wΓ0 s, es decir

wΓ∗ = máx {wΓ } .

4. Medidas de bondad de ajuste.

En esta sección presentamos un error cuadrático medio y un sesgo de la estimación de la función de

4.1. Error cuadrático medio y sesgo de la estimación de la función superviven-

4.2. Error cuadrático medio para la comparación de los métodos considerando

donde i = 1, . . . , s es el ı́ndice correspondiente a la i-ésima iteración; m = 1, . . . , M es el ı́ndice del pliegue

5.1. Simulación de los valores de las expresiones de los genes.

En este estudio se simularon matrices de datos X de p × n, donde p representa el número de genes y n el

5.2. Simulación de los tiempos de la supervivencia y censura.

6. Resultados de las simulaciones.

6.1. Datos normales multivariados

(a) ave(d2 .ind) (b) ave(bias.ind)

(a) ave(d2 .ind) (b) ave(bias.ind)

(a) ave(d2 .ind) (b) ave(bias.ind)

(a) ACP (b) CPS

6.2. Datos lognormales multivariados

(a) ave(d2 .ind) (b) ave(bias.ind)

(a) ave(d2 .ind) (b) ave(bias.ind)

(a) ave(d2 .ind) (b) ave(bias.ind)

(a) ACP (b) CPS

7. Análisis de supervivencia con datos de microarreglos ADN reales.

7.1. Pacientes con linfoma de células B grandes difuso.

Test Estadı́stico G.L. p-valor

Tabla 1: Pruebas globales al reducir dimensión con ACP.

Test Estadı́stico G.L. p-valor

Tabla 2: Pruebas globales al reducir dimensión con CPS.

(a) ACP (b) CPS

Tabla 3: Comparación de métodos de reducción de dimensión utilizando CV (surv.error).

7.2. Pacientes con cáncer de mama.

Test Estadı́stico G.L. p-valor