Está en la página 1de 5

El modelo de azar proporcional:

la regresión de Cox
Alfonso Luis Palmer Pol y Jose Maria Losilla Vidal

El Análisis de la Supervivencia (Palmer, 1988) engloba una variedad de técnicas estadísticas


que permiten analizar variables aleatorias con valores positivos. Estas variables generalmente
representan el intervalo de tiempo transcurrido desde el inicio del seguimiento hasta el momento
en el que se produce un determinado desenlace. El desenlace es el suceso objeto de estudio que
se caracteriza por un cambio cualitativo brusco. Una característica fundamental del análisis es
que permite utilizar los denominados datos incompletos, es decir datos que contienen información
parcial sobre el suceso estudiado.
Las aplicaciones de estas técnicas en ingeniería impulsaron el estudio sobre los modelos
paramétricos, que se utilizan cuando puede asumirse un modelo o distribución para la población
origen de la muestra, tales como, entre otras, las distribuciones exponencial, Weibull, lognormal
o gamma.
Por el contrario, las aplicaciones en medicina impulsaron los modelos no paramétricos utilizados
cuando se desconoce la distribución teórica. En ellos los sujetos se ordenan en función del valor
de la variable aleatoria. Estos últimos son los modelos habituales utilizados en las aplicaciones
realizadas en el campo de las Ciencias del Comportamiento.
El aspecto descriptivo del análisis consiste en estimar las funciones de supervivencia, de azar
y de densidad de la variable estudiada, así como un conjunto de índices estadísticos tales como
la media, variancia, cuantilas y representaciones gráficas.
Una segunda utilidad del análisis consiste en poder comparar dos o más distribuciones de
supervivencia de manera que podemos evaluar estadísticamente su igualdad o diferencias.

Identificación de factores pronóstico: dependencia sobre variables explicativas

El tercer aspecto fundamental del modelo consiste en estudiar los modelos que pueden
utilizarse para representar los efectos de un conjunto de variables explicativas sobre la variable
tiempo de supervivencia. Suponemos así que para cada sujeto tenemos un vector de variables
explicativas o concomitantes. Las componentes de dicho vector pueden representar tratamientos,
propiedades intrínsecas de los sujetos o variables exógenas.
Por otra parte dichas variables pueden ser clasificadas como dependientes o independientes
del tiempo.
En el análisis de datos de supervivencia hay dos familias de modelos que han sido
extensamente usados:
En el modelo de vida acelerado ('accelerated life model') la relación entre la función de
supervivencia para dos grupos (codificados por 1,0) viene determinada por una constante k tal
que
En el modelo de azar proporcional ('proportional hazards model') se utiliza la función de azar
de manera que

Modelo de azar proporcional (proportional hazard model)

En los métodos de regresión paramétricos se requiere hipotetizar la forma paramétrica de la


distribución de supervivencia. Dicha forma en general se presupone exponencial lo cual produce
una función de azar constante. Sin embargo, dicha forma paramétrica será generalmente
desconocida.
Otro problema presentado por los modelos paramétricos es que no permiten la utilización de
variables explicativas dependientes del tiempo. Cox (1972) inició una importante rama del
análisis de la supervivencia resolviendo ambos problemas con un modelo de regresión que
permite la evaluación no paramétrica de la relación entre funciones de azar. Cox describe la
relación como:
[11
h(t) = ho(t) exp(x'B)

donde h(t) es el valor de la función de riesgo para un individuo con vector concomitante x, h o(t)
es una función arbitraria de azar de linea base y B es un vector de coeficientes de regresión
desconocidos que parametrizan el modelo.
El modelo presupone, en primer lugar, una relación multiplicativa entre la función arbitraria
de azar y la función log-lineal de las covariates. Estees el denominado supuesto de proporcionalidad
según el cual el ratio de azar es constante, para todo par de observaciones, en cualquier instante
t. Asimismo, presupone un efecto log-lineal de las covariates sobre la función de azar, es decir
que las covariates actúan sobre la función de azar de forma multiplicativa
Una ventaja fundamental de la formulación de Cox radica en el hecho que puede realizarse
una inferencia de los efectos de la información concomitante sin conocer la forma de la
distribución de supervivencia.
A partir de la ecuación [11 dividiendo ambos miembros por h0(t) y tomando logaritmos
neperianos obtenemos:
[21

Esta ecuación permite obtener soluciones a dos intereses:


(1) Permite obtener el subconjunto de variables concomitantes que se relacionan
significativamente con la función de azar, es decir con la longitud de supervivenvia individual.
Al igual que en los métodos clásicos de regresión múltiple, dichas variables pueden obtenerse
utilizando un método stepwise.
(2) El modelo de Cox define un índice pronóstico o ratio de azar para cada observación, dado
por el miembro izquierdo de la ecuación [21.
Si las variables independientes se centran, entonces:
siendo mi el valor medio de la variable i.

En la ecuación [2], h0(t) representa el valor de la función de azar para cada individuo cuando todas
las variables independientes toman el valor nulo. En la ecuación [3], h0(t) representa el valor de
la función de azar cuando todas las variables independientes toman su valor promedio. Así pues
el ratio de azar o índice pronóstico representa el ratio de riesgo de cambio para un sujeto con
valores pronóstico x l ,....,xn, respecto a un sujeto con valores pronóstico promedio para todas las
variables (lo que Adolphe Quetelet definió en 1835 como "el hombre promedio").

Estimación de los coeficientes

Los parámetros del modelo de Cox no pueden ser estimados por el método de máxima
verosimilitud al ser desconocida la forma específica de la función arbitraria de azar.
Cox (1975) propuso un método de estimación denominado verosimilitud parcial siendo las
verosimilitudes condicionales y marginales casos particulares del anterior.
El método de verosimilitud parcial se diferencia del método de verosimilitud ordinario en el
sentido de que mientras el método ordinario se basa en el producto de las verosimilitudes para
todos los individuos de la muestra, el método parcial se basa en el producto de las verosimilitudes
de todos los sucesos ocurridos.
Para estimar los coeficientes B en el modelo de Cox, en ausencia de conocimiento de h0(t),
éste propuso la siguiente función de verosimilitud:

[4]

Esta expresión L(B) no es una verdadera función de verosimilitud ya que no puede derivarse
como la probabilidad de algún resultado observado bajo el modelo de estudio, si bien, como
indica Cox (1975), puede tratarse como una función de verosimilitud ordinaria a efectos de
realizar estimaciones de B.
Dichas estimaciones son consistentes (Cox, 1975; Tsiatis, 1981) y eficientes (Efron, 1977).

Estimación stepwise de los coeficientes

La estimación de los parámetros Bj puede realizarse por medio del método de regresión
stepwise donde el orden de entrada de cada variable viene determinado por hacer máximo el valor
del logaritmo de la función de verosimilitud LL(Bj).
La primera variable x 1 en la ecuación será aquella tal que LL(B 1) maximiza la función
LL(Bj). La segunda variable x2 incluída en la ecuación será aquella variable de las p-1 restantes
cuyo valor LL(B 1,B2) es máximo.
El proceso de inclusión continúa hasta que la inclusión de una variable k ya no produce un
incremento significativo.
Pruebas de hipótesis del modelo

Una vez obtenida la expresión de verosimilitud parcial para el problema de estudio ésta se
resuelve como si fuera una expresión de verosimilitud ordinaria completa. Para ello se calcula
el vector de puntuaciones o vector de primeras derivadas determinado por:

El vector U(B) tiene media=0 y matriz de covariancias I(B) denominada matriz de información
esperada o de Fisher, cuyos elementos vienen dados por:

La matriz de información observada I,,,(B) tiene elementos definidos por:

se distribuye asintóticamente según una distribución de ji- cuadrado con k (número de covariates
en el modelo) grados de libertad.
Este resultado permite probar la hipótesis nula según la cual el vector B de coeficientes de
regresión es un vector nulo.
Los coeficientes de regresión indican la relación existente entre la covariate correspondiente y
la función de azar. Un valor positivo del coeficiente supone un aumento en el valor de la función
de azar para el sujeto, lo que conlleva una relación negativa con el tiempo de supervivencia. Un
coeficiente negativo tiene una interpretación opuesta a la explicada.

Estratificación

El modelo de azar proporcional requiere que para todo par de individuos en cualquier instante
t el ratio entre sus tasas de azar sea constante:

donde i,j son dos individuos y la constante c puede depender de variables explicativas pero no
del tiempo.
Cuando tengamos un factor que produce funciones de azar que difieren significativamente
de la proporcionalidad en sus diferentes niveles, la estrategia a seguir (Kalbfleisch, Prentice,
1980) consiste en definir una función de azar para cada uno de los k niveles del factor:

para j= 1,2,._k. Las funciones de azar de linea base h o,(t) son arbitrarias y no están relacionadas
entre sí, mientras que los coeficientes de regresión son iguales para todos los estratos.

Referencias

COX, D.R. (1972). Regression models and life-tables. Journal of the Royal Statistical Society,
Series B 34, 187-202.
COX, D.R. (1975). Partial likelihood. Biometrika 62, 269-276.
EFRON, B. (1977). The efficiency of Cox's likelihood function for censored data. Journal of the
American Statistical Association 72, 557-565.
KALBFLEISCH, J.D.- PRENTICE, R.L. (1980). The statistical analysis offailure time data.
N.Y.: John Wiley and Sons.
PALMER, A. (1988). Análisis de la supervivencia. Barcelona: Universidad Autónoma de
Barcelona.
TSIATIS, A. (1981). A large sample study of Cox's regression model. Annals of Statistics 9, 93-
108.

También podría gustarte