Manual PDF

Análisis de supervivencia
y análisis multivariado
Miguel Ángel Martínez González, Jokin de Irala–Estévez
NOCIONES DE ANÁLISIS DE SUPERVIVENCIA

© Editorial El manual moderno Fotocopiar sin autorización es un delito.
En este apartado se exponen los principios del estudio formal de factores pronósticos que
condicionan la supervivencia de un paciente1-4. También se puede considerar como resulta-
do la aparición de complicaciones o la curación en vez de la muerte. En este segundo caso
lo que se suele estudiar es la “supervivencia libre de complicaciones”. Por tanto, aunque se
le siga denominando análisis de supervivencia, no siempre tiene que ser la muerte el acon-
tecimiento de desenlace. Pero en principio debe tratarse de acontecimientos que, como la
muerte, marcan un punto de no retorno. Los procedimientos más habituales requieren
además que el desenlace sólo pueda ocurrir una vez como la muerte.
Para valorar el pronóstico, en ambas situaciones, suelen aplicarse técnicas estadísticas
de análisis de supervivencia3. La supervivencia incorpora el concepto dinámico del tiempo
y es por tanto una variable compuesta de dos elementos: respuesta y tiempo. La respuesta
o desenlace de interés no es una cantidad numérica1, como la presión arterial, ni una cua-
lidad dicotómica como enfermar o no, sino que toma la forma de “tiempo transcurrido hasta
un suceso” (time-to-event), lo que supone utilizar como desenlace o respuesta (“variable
1
2 Manual de medicina basada en la evidencia (Capítulo 17)
dependiente” en la jerga matemática) la combinación de ambas cosas (cualidad + variable

numérica).
– La cualidad corresponde a si se ha producido o no el suceso y es una variable dicotómica
(muerte, recidiva, aparición de una complicación o un nuevo síntoma, etc.).
– La variable numérica indica cuánto tiempo ha tardado en llegarse a ese desenlace.
En estas situaciones se deben emplear los llamados métodos de análisis de supervivencia. El
tiempo de supervivencia tiene una característica que lo hace inadecuado para otro tipo de
análisis estadísticos: la existencia de información truncada o individuos censurados (censored).
Se dice que un paciente ofrece una información truncada o es un individuo censurado
cuando se acaba el periodo de seguimiento para él, por un motivo distinto del desenlace o
resultado que se está estudiando. Por ejemplo, los pacientes que no mueren durante el
tiempo de seguimiento que dura el estudio no presentarán el resultado que se está obser-
vando, y por tanto se desconocerá cuál es para ellos su tiempo de supervivencia. Serían
truncados o censurados tanto los que llegan al final del estudio sin sufrir el desenlace
(supervivientes), como los que lo abandonan por su voluntad (abandonos, o pérdidas, lost
to follow–up) o los retirados por los investigadores (retiradas, withdrawals).
Los métodos más habituales (Kaplan–Meier, Log–Rank, Cox, ver más adelante) asumen
que los sujetos que se van del estudio antes de su finalización (censurados) se habrían com-
portado del mismo modo que los que han sido seguidos hasta el final. A este supuesto básico
se le llama censura no informativa5. Con ello se quiere expresar que saber que han sido
censurados no informa adicionalmente respecto a su pronóstico. Desde el punto de vista
práctico se requiere asumir que quienes se censuraron precozmente no sean sujetos peculiares.
Si no existiese información censurada, es decir, si todos los sujetos fuesen seguidos
completamente durante el mismo periodo de tiempo hasta que se produjera su muerte o
el acontecimiento que sea, se podrían usar otros métodos más sencillos. En la figura 17–1
Figura 17–1. Seguimiento de 6 pacientes. Se han observado 3 muertes (pacientes 1, 3 y 6, repre-

sentados con cruces). Dos pacientes están censurados por seguir vivos al concluirse el estudio
(pacientes 2 y 5). Otro (paciente 4) también está censurado, pero porque se perdió después de 4
años de seguimiento.
Análisis de supervivencia y análisis multivariado 3
se representa el tiempo de seguimiento de cada paciente por una línea. Hay dos situaciones
posibles: aquéllos cuyo periodo de seguimiento acaba porque fallecen (representados por
una cruz) o aquellos que están vivos cuando dejan de ser observados (se van del estudio, se
trasladan de ciudad, acaban el estudio estando vivos), en estos se representa su final por
una señal de visto bueno.
Por ejemplo, el primer paciente murió tras haber estado 5 años en el estudio y el
último paciente entró tarde y murió a los 3,5 años de entrar en el estudio. A pesar de que
el seguimiento de cada paciente suele haberse empezado en fechas de calendario diferen-
tes, debe imaginarse que todos han empezado el estudio en la misma fecha. Esto supone
asumir que se trata de pacientes “homogéneos” en el sentido de que los distintos tiempos
de entrada en el estudio no están relacionados con el efecto de interés.
Cuadro 17–1. Preparación de los datos para hacer un análisis de supervivencia
PACIENTE TIEMPO ESTADO
5 1, 5 0
3 2 1
6 3, 5 1
2 4 0
4 4 0
1 5 1
La primera columna indica el número de identificación de cada paciente. La segunda, el tiempo durante el cual se le ha obser-
vado. La tercera columna indica el estado del paciente al final del seguimiento. Se ha asignado un 1 a los que han fallecido
(su tiempo de seguimiento es, por tanto, la duración de su supervivencia) y un 0 a los que seguían vivos al final del segui-
miento. Es muy importante que los datos se hayan ordenado según el tiempo de observación en orden ascendente
Un supuesto importante en el diseño de estudios de factores pronósticos es que se

trate de una cohorte de incepción. Esto supone que todos entrarán en el estudio en el mismo
momento de la historia natural de su enfermedad. Si los momentos de entrada en el estu-
dio corresponden a distintas fases de la evolución de la enfermedad se producirá un sesgo
en los resultados.
Con los pacientes de la figura 17–1, los datos para hacer un análisis de supervivencia
serán los que muestra la cuadro 17–1. La variable estado se ha codificado así: fallecido=1;
vivo=0. Es posible así estimar la probabilidad de la supervivencia para un periodo dado. Si
existen dos o más grupos también se pueden comparar sus probabilidades de superviven-
cia. El método más usado es el de Kaplan–Meier que no asume que los datos tengan una
distribución particular, ni se basa en utilizar parámetros de resumen (media, desviación
estándar, etc.). El único supuesto importante que se exige para aplicarlo es que la censura
no sea informativa. Aunque ya lo hemos comentado, vale la pena insistir en que este su-
puesto significa que la probabilidad de ser censurado no sea distinta, según los pacientes
presenten un peor o mejor pronóstico. La probabilidad de ser censurado debe ser indepen-
diente del efecto de interés. Es decir, no puede aplicarse el método de Kaplan–Meier con
garantías si se sabe que los que se retiran del estudio antes de que acabe son pacientes
peculiares, que probablemente tendrán una supervivencia distinta (mejor o peor) de los
que son seguidos hasta el final.
En el ejemplo de los 6 pacientes antes comentado, si se excluyen los casos de los cuales
no se sabe cuánto han tardado en morir, ya que la última información sobre ellos es que
seguían vivos Pacientes censurados (pacientes 5, 2 y 4 que se han sombreado); y se conside-
ran sólo aquellos que se sabe cuanto han tardado en morir (pacientes 3, 6 y 1), se podría
calcular fácilmente la supervivencia.
Si nos olvidásemos de los censurados, podría pensarse que la supervivencia (S) en cada
tiempo valdría:
• A los dos años: ha muerto 1 y sobreviven 2........................ S2 = 2/3 = 0,67 (67%)
• A los 3,5 años: han muerto 2 y sobrevive 1 ........................ S3,5 = 1/3 = 0,33 (33%)
• A los 5 años: han muerto los 3 ............................................ S5 = 0/3 = 0 (0%)
Pero hacer esto no es correcto, pues supone, por un lado desaprovechar la información que
proporcionan los sujetos 5, 2 y 4 y, por otro lado, algo más importante: no es verdad, por
ejemplo que a los 3,5 años la supervivencia sea del 33%, ya que los pacientes número 2 y 4
han sobrevivido al menos 4 años. Por tanto, hay que usar un método que incluya en los
cálculos a estos pacientes, como el 5, 2 y 4, de los que tenemos una información “truncada”
o “censurada”. En el método de Kaplan–Meier para aprovechar esta información la super-
vivencia a tiempo t (St) se define como:
Si
St = Π
ni
Donde la letra pi mayúscula (P) es un símbolo análogo al sumatorio (S), pero que significa
“productorio” o “multiplicatorio”, es decir, en vez de expresar “sumar todo” quiere decir
“multiplicar todo”; si son los supervivientes en el tiempo ti, y ni son los que están a riesgo de
fallecer al inicio del tiempo ti. Es el producto de una serie de probabilidades condicionales,
y se calcula por multiplicación. La condición es haber llegado vivo hasta el instante inme-
diatamente anterior a ese tiempo ti. Lo que expresa este estimador de Kaplan–Meier no es
una única cantidad, sino una función que variará a lo largo del tiempo, por eso se indica
como St, donde el subíndice t indica que la supervivencia será distinta de un tiempo a otro.
En la cuadro 17–2 se representa, paso a paso cómo se calcula el estimador de Kaplan–
Meier para los datos del ejemplo.
Cualquier análisis de supervivencia se suele acompañar de la respectiva representación
gráfica para expresar visualmente cómo va disminuyendo la probabilidad de sobrevivir a
medida que pasa el tiempo. Siempre se sitúa el tiempo en el eje de abscisas (“x”) y la
estimación del el porcentaje de los que sobreviven en el eje de ordenadas (“y”). Las curvas
de supervivencia calculadas con el método de Kaplan–Meier son un procedimiento des-
criptivo: sirven para resumir la historia de una serie de pacientes en cuanto a su riesgo de
fallecimiento, o visto en términos positivos, en cuanto a su probabilidad de supervivencia.
Cuadro 17–2. Estimación de la supervivencia por el método de Kaplan-Meier
PACIENTE TIEMPO ESTADO
5 1, 5 0
3 2 1 4/5 = 0, 8 0, 8
6 3, 5 1 3/4 = 0, 75 0, 8 × 0, 75 = 0, 6
2 4 0
4 4 0
1 5 1 0/1 = 0 0, 6 × 0 = 0
Las 3 primeras columnas coinciden con las del cuadro 17–1. La penúltima columna estima la proporción de pacientes que so-
breviven más allá de cada tiempo, pero sólo se cálcula para aquellos tiempos en los que se observa algún fallecimiento. Por
ejemplo, hay 5 pacientes a riesgo de fallecer a los 2 años (ni = 4), éstos son los pacientes 3, 6, 2, 4 y 1; de ellos sobrevi-
ven 4 (si = 4). El cociente si / ni = 0, 8 estima la probabilidad de sobrevivir 2 o más años. La última columna corresponde al es-
timador de Kaplan-Meier y va multimplicando los cocientes si / ni de cada tiempo por el producto previo. Así, podremos decir
que la supervivencia acumulada a los 2 años era del 80%, a los 3, 5 años del 60% y a los 5 años del 0%
Como muestra la figura 17–2, para construir una curva de supervivencia se deben dar
los siguientes pasos:
a. Ordenar ascendentemente los tiempos de supervivencia (o tiempos de observación).

b. Hacer una cuadro donde una columna (ti) corresponda a los tiempos de observación
para cada participante y otra al estado de los individuos al finalizar su periodo de
seguimiento.
c. Calcular para cada periodo de tiempo el cociente entre los que sobreviven y los que
están a riesgo de fallecer (si/ni). Se crea otra columna para estos cocientes entre
quienes sobreviven (si) y los que están a riesgo (ni) de fallecer (son los que entran
vivos en ese tiempo). En esta columna sólo hay datos para cuando alguien fallece. Es
importante hacer notar que entre los que entran a riesgo de morir (ni) se incluyen
también el individuo o individuos que van a morir en ese periodo, aunque mueran
justamente en el inicio del periodo.
d. Multiplicar en cada periodo de tiempo los cocientes (si/ni) por los de los tiempos
anteriores. La supervivencia en ese momento será precisamente este producto.
e. Finalmente, siempre es recomendable representarlo gráficamente. Se debe empezar con
una supervivencia de 1, que se mantiene hasta que se produce el primer falleci-
miento. En ese momento la gráfica da un salto correspondiente al descenso de la super-
vivencia a partir de ese momento (en el ejemplo pasa a 0,80). Y así sucesivamente.
Cuando el más largo de los tiempos corresponde a alguien que seguía vivo al final del
periodo de observación, se deja una línea horizontal al final. Si todos hubieran fallecido
(como sucede en el ejemplo) se traza una vertical hasta el punto 0 de supervivencia. En la
figura 17–2 se ha presentado la curva que de Kaplan–Meier correspondiente a los datos del
ejemplo. Se observa en la figura 17–3 que los saltos se dan sólo cuando ocurre alguna
muerte, cabría preguntarse entonces: si sólo los pacientes fallecidos provocan un salto en la
1,0
,9
,8
,7
,6
Supervivencia acumulada
,5
,4
,3
,2
,1
0,0
1 2 3 4 5 6
TIEMPO (AÑOS)
Figura 17–2. Curva de Kaplan-Meier representando la supervivencia acumulada durante el se-
guimiento de 6 pacientes. Puede observarse que, como es lógico, sólo hay cambios en la super-
vivencia cuando muere algún paciente. Se han observado 3 muertes (a los 2, 3,5 y 5 años). Los
otros 3 pacientes están censurados.
curva ¿cómo influyen los individuos que no fallecen (censurados) en las estimaciones de la
supervivencia? La respuesta es que cada dato censurado influye disminuyendo el denomi-
nador de los cocientes si/ni, con lo que, aunque un individuo truncado no provoque un
salto, sí provoca una mayor magnitud en el tamaño del siguiente salto.
En la cuadro 17–3 hay otro ejemplo con su solución. Se ha representado la curva de
Kaplan-Meíer de este segundo ejemplo en la figura 17–3.
Cuadro 17–3. Cálculos para obtener la

estimación de Kaplan-Meier 1,0
,9
si
Π
si
TIEMPO ESTADO ni ni ,8
Supervivencia acumulada
,7
1 0 ,6
1 1 9/10 = 0, 9 0, 9 ,5
2 1 ,4
2 1 6/8 = 0, 75 0, 9 × 75 = 0, 68 ,3
3 0 ,2
3 0 ,1
5 1 3/4 = 0, 75 0,68 × 0, 75 = 0, 51 0,0

0 1 2 3 4 5 6 7 8 9 10 11
7 1 2/3 = 0, 75 0, 51 × 0, 67 = 0, 34
A
9 1 1/2 = 0, 50 0, 34 × 0, 50 = 0, 17 Fi 17 3 K l M i t ió
Figura 17–3. Kaplan-Meier: representa-
11 0
ción gráfica
Para comparar dos o más curvas de supervivencia se usan diversas pruebas estadísticas
de contraste de hipótesis. La más empleada es el test del Log–Rank. Su hipótesis nula es que
las supervivencias de los grupos que se comparan (2 o más) son las mismas.
Aunque lo que está realmente indicado para comparar la supervivencia de diferentes
grupos de pacientes será habitualmente el test del log-rank, en medicina, en cambio, se ha
hecho práctica común (pero no por eso acertada) comparar la supervivencia usando como
referencia un punto común en el tiempo. Por ejemplo, para comparar dos tratamientos o
dos series, se tiende a usar como medida de resultado cuál es la supervivencia de los pacien-
tes a los 5 años. Pero esto es básicamente incorrecto. Dos situaciones muy distintas pueden
dar lugar a los mismos resultados de supervivencia a 5 años como se ve en la figura 17–4,
donde los grupos A y tienen exactamente una supervivencia del 50% a los 5 años. Sin
embargo, se observa claramente que los pacientes del grupo B tienen una peor superviven-
cia desde el principio del estudio.
Figura 17–4. Curvas de Kaplan-Meier representando la supervivencia acumulada de dos grupos

de pacientes (A y B). Aunque la supervivencia del grupo A es mejor durante el seguimiento, al
final se igualan las curvas a los 5 años. Si sólo se comparasen los porcentajes de supervivencia
en un punto el tiempo (a los 5 años) se estaría desperdiciando mucha información y se llegaría a
la conclusión equivocada de que el pronóstico de los dos grupos es idéntico. El test del log-rank
tiene en cuenta todos los puntos en el tiempo para comparar la supervivencia de ambos grupos.
Lo que hay que hacer en cambio para comparar dos o más curvas de supervivencia es
usar diversos tests específicamente diseñados para ello y que tienen en cuenta toda la
historia de seguimiento de los pacientes en vez de considerar sólo un punto en el tiempo, es
decir detectan diferencias persistentes a lo largo del tiempo en la supervivencia.
Cuando el evento de resultado es poco frecuente o si las curvas son aproximadamente

paralelas (no se cruzan) el log-rank es el método más indicado. También se le conoce como
test de Mantel y Haenszel. Cuando las curvas se cruzan (al principio hay mejor supervi-
vencia en un grupo y luego en el otro), entonces puede estar indicado el uso de otro test de
comparación de curvas de supervivencia que se llama de Wilcoxon (o también de Breslow).
Un tercer test que se emplea con menos frecuencia es el de Tarone–Ware. En estos tests se
hace una ponderación y se le da distinto peso a las diferencias según ocurran más precoz o
más tardíamente a lo largo del seguimiento. En resumen, puede decirse que estos tests
tienen las siguientes características comunes:
• Hipótesis nula (H0): las supervivencias de los grupos que se comparan (2 ó más) es la
misma.
• Hipótesis alternativa (H1): al menos uno de los grupos tiene una supervivencia diferente.
• Estadístico utilizado: jicuadrado con k-1 grados de libertad, siendo k el número de
grupos (nº de curvas que se comparan).
ERROR ESTÁNDAR E INTERVALOS DE CONFIANZA

PARA LA SUPERVIVENCIA
Si se desea calcular un intervalo de confianza para la estimación de la supervivencia a un

determinado tiempo se puede realizar a partir del error estándar de cada estimación de la
supervivencia acumulada. Este error estándar para cada tiempo (EESt) es el producto de la
supervivencia estimada para ese tiempo por la raíz de la suma de los cocientes entre el
número de fallecidos en cada momento y el producto de supervivientes y pacientes a
riesgo en ese tiempo3. Es decir,
Así, para la supervivencia acumulada a 2 años que aparece en la cuadro 17–3, su error
estándar se calcularía multiplicando la supervivencia estimada (0,68) por la suma de los
cocientes entre fallecidos y el producto de totales por supervivientes sumando los del
tiempo previo (1/(10 × 9)) y los de ese tiempo (2/(8x6)). Es decir, el error estándar valdría
EES2=0,68 × [(1/90)+(2/48)]0,5 = 0,16. En cambio, para la supervivencia al año, EES1=0,9 ×
(1/90)0,5= 0,095. Para los 5 años, EES1= 0,19.
Una aproximación poco fina pero conservadora para estimar los intervalos de confianza al
95% será aplicar la siguiente expresión:
IC 95% St = Superv t ± 1,96 EE
(1,96 es el valor z de la normal para un error alfa bilateral del 5%)

Por ejemplo, si en el listado de SPSS vemos la salida que aparece en las tres primeras
columnas de la cuadro 17–4 (corresponden a los datos del ejemplo de la cuadro 17–3), las
estimaciones de supervivencia con sus límites de confianza serían las presentadas en las dos
últimas columnas de la tabla.
Cuadro 17–4. Método desaconsejable para estimar los intervalos de confianza

de la supervivenciar
TIEMPO SUPERVIVENCIA IC 95%
1 0, 9 0, 0949 0, 71 1, 09
2 0, 675 0, 1551 0, 37 0, 99
5 0, 5063 0, 1868 0, 14 0, 88
7 0, 3375 0, 1857 -0, 03 0, 71
9 0, 1688 0, 1512 -0, 13 0, 47
Con los datos del cuadro 17–3 se han calculado los errores estándar y la estimación de los intervalos de confianza al 95% para
la supervivencia. Las 2 primeras columnas coinciden con la primera y la última del cuadro 17–3, la tercera columna recoge los
errores estándar (son los que suelen presentar los programas de software convencionales, como SPSS) y las dos últimas el in-
tervalo de confianza calculado simplemente al restar y sumar 1, 96 veces el error estándar a cada estimación de la superviven-
cia. como puede verse, hay límites de confianza que exceden de 1 y otros que son negativos, lo cual es absurdo. En el cuadro
17–5 se presentan las estimaciones más adecuadas, libres de este problema.
Pero, el método simplista de sumar y restar 1,96 veces el error estándar a la supervi-
vencia estimada es desaconsejable porque proporciona intervalos de confianza que son ne-
gativos y otros que exceden de 1,0, lo cual es absurdo. Se puede usar otra expresión más
adecuada3, calculando un error estándar transformado (EEt).
Método recomendable para estimar los intervalos de confianza de la Supervivencia
1 n −s IC 95% St = St EXP (± 1, 96EEt)

EEt = ×∑ i i
(ln[S ]) 2
ni si
Donde ln significa logaritmo natural (neperiano) y EXP supone elevar a la cantidad corres-
pondiente el número e, base de los logaritmos naturales. Así, para la supervivencia a 5 años
del ejemplo anterior (S5 = 0,5063), el intervalo de confianza al 95% sería:
1  1 2 1 
EEt = × + + = 0,54
(ln[0,5063]) 10 × 9 8 × 6 4 × 3 
2
IC 95% = 0,5063EXP ( ±1,96×0,54) = 0,14 − 0,79

En la cuadro 17–5 se recogen los intervalos de confianza para cada tiempo, así calculados.
Puede apreciarse que los intervalos de confianza son más estrechos y además nunca son
inferiores a 0 ni superiores a 1.
Cuadro 17–5. Con los mismos datos de los dos cuadros anteriores se han calculado los
errores estándar transformados (EEt) y la estimación de los intervalos de confianza al
95% para la supervivencia donde ya se calculan con la expresión adecuada para que
no sobrepasen nunca la unidad o el 0. Este método es el más aconsejable
Método recomendable para estimar los intervalos de confianza de la supervivencia
1 n −s
EEt = ×∑ i i
(ln[S ])
TIEMPO SUPERVIVENCIA 2 IC 95%
ni si
1 0, 9 1 0, 47 0, 99
2 0, 675 0, 58 0, 29 0, 88
5 0, 5063 0, 54 0, 14 0, 79
7 0, 3375 0, 51 0, 05 0, 67
9 0, 1688 0, 83 0, 00 0, 70
Puede programarse una hoja de cálculo (p. ej., en Microsoft Excel) para obtener intervalos
de confianza al 95% de la supervivencia a partir del output convencional que proporciona
un paquete estadístico de análisis de supervivencia. Se indican a continuación las órdenes
que deben dársele a la hoja de cálculo5. Si se ha introducido el valor de la supervivencia en
la casilla A2 y su error estándar convencional (el que aparece por ejemplo en SPSS en la
casilla B2), deberá indicarse
C2 = (((B2/A2)^2) * (1/(LN(A2))^2))^0,5 Devolverá el error estándar transformado

D2 = (A2)^EXP(1,96*C2) Devolverá el límite inferior de confian-
za al 95%
E2 = A2^EXP(-1,96*C2) Devolverá el límite superior de confian-
za al 95%
Puede encontrarse un programa en Excel ya preparado en la siguiente dirección de internet
www.unav.es/preventiva —> docencia —> bioestadística
ANÁLISIS MULTIVARIADO
En la medicina basada en la evidencia resulta útil aplicar modelos multivariantes para

intentar explicar un fenómeno, teniendo en consideración varias variables simultáneamen-
te o para realizar predicciones. Por ejemplo, puede resultar de interés conocer qué factores
pronósticos influyen en la supervivencia de los pacientes con infarto de miocardio, o si la
supervivencia de los pacientes con un determinado tumor se ve afectada por diversos
tratamientos (quimioterapia, radioterapia) u otros factores, como por ejemplo, el estado
psicológico del paciente. En general, la aplicación de una técnica de análisis multivariante
significa que se tienen en cuenta simultáneamente muchas variables en el análisis de los
datos. La principal ventaja que ofrecen estas técnicas, es que permiten controlar de modo
eficiente muchos factores de confusión al mismo tiempo cuando se trata de estudiar aso-
ciaciones potencialmente causales entre una determinada exposición y un efecto o desen-
lace. Ésta ha sido y sigue siendo su principal aplicación en la investigación médica en las
últimas 3 décadas. El ajuste multivariante supone la aplicación de un modelo matemático
que hace más comparables a los grupos de individuos expuestos y no expuestos, evitando
la distorsión que supondría que, por ejemplo, los expuestos fuesen de mayor edad o se
encontrasen con mayor frecuencia sometidos a otros factores pronósticos distintos del que
se está estudiando. Así se consigue que la comparación de interés quede depurada de otros
factores y se pueda apreciar mejor cuál es su efecto verdaderamente independiente. Hay
muchos procedimientos y técnicas de ajuste multivariante. Los más utilizados se suelen
basar en un modelo de regresión. El más simple es la regresión lineal.
REGRESIÓN MÚLTIPLE
Se emplea cuando se desea estudiar como influyen varios factores (o variables indepen-
dientes) en una sola variable de respuesta (la variable dependiente o desenlace), que ha de
ser en este caso una variable cuantitativa numérica, como por ejemplo la talla o el peso. La
ecuación de la regresión lineal simple es la ecuación de una recta; éste es el modelo mate-
mático más sencillo:
y = a + bx
Donde “y” es la variable dependiente o desenlace, mientras que “x” es la variable indepen-
diente o factor predictor. A la constante “a” se le llama ordenada en el origen y al coeficiente
“b”, se le llama pendiente de la recta. Pero esta ecuación se puede generalizar para el caso en
que haya más de una variable independiente. Supongamos que haya 3 variables indepen-
dientes o factores predictores: x1, x2, x3. Podría construirse la ecuación:
y = a + b1x1 + b2x2 + b3x3
Cada variable independiente xi tiene un coeficiente de regresión propio bi (análogo a la

“pendiente”). Así como la ecuación simple de una recta se puede concebir imaginariamente
en un plano de dos dimensiones, la ecuación multivariante con 3 predictores independien-
tes no es imaginable, ya que se necesitaría un espacio de 4 dimensiones. Aunque no sea
imaginable, sí resulta comprensible e interpretable. El coeficiente bi de cada variable inde-
pendiente xi se interpretará como el cambio en la variable dependiente (“y”), por unidad
de cambio en cada variable independiente (x1, x2 o x3) a igualdad de nivel de las otras
variables independientes. Por ejemplo, supongamos que la talla (cm) de una muestra de
niños se utiliza como variable dependiente (y), intentando predecirla a partir de tres facto-
res o variables independientes, x1, x2 y x3 que corresponden respectivamente a la edad en

años del niño (edad: x1), la talla del padre en cm (TPADRE: x2) y la talla de la madre
también en cm (TMADRE: x3) y resulta la siguiente ecuación:
y = 30 + 8 x1 + 0,06x2 + 0,07x3
Talla = 30 + 8(Edad) + 0,06(Tallapadre) + 0,07(Tallamadre)
La interpretación será que por cada año más de edad que cumple el niño su talla aumenta
en 8 cm, independientemente de cuál sea la talla del padre o de la madre. Por cada cm más
de altura del padre, el niño tendrá, (sea cual sea su edad y sea cual sea la talla de su madre)
0,06 cm más de altura. Y por cada cm más de altura de la madre, el niño será 0,07 cm más
alto, independientemente de cuál sea la altura de su padre y cuál sea su edad.
Es posible también introducir variables categóricas en el modelo tales como el sexo del
niño. Para ello introduciríamos en el modelo otra nueva variable (sexo= x4), con dos códi-
gos: varón = 1 y mujer = 0. Generalmente se le da el valor 0 a aquella categoría en la que se
espera un nivel menor o basal. Cómo las niñas suelen tener una menor talla que los niños
se les da en este ejemplo el valor 0. Un ejemplo del modelo que se obtendría al ajustar así
una regresión múltiple sería el siguiente:
y = 30 + 4x1 +8x2
Talla = 30 + 30 +4(Sexo) +8(Edad)
En realidad tenemos 2 ecuaciones de regresión, una para los niños:
talla = 30 + 4(Sexo) + 8(Edad) = 30 + 4 + 8(Edad) = 34 + 8(Edad)
y otra para las niñas:
talla = 30 + 4(Sexo) + 8(Edad) = 30 + 0 + 8(Edad) = 30 + 8(Edad)
En resumen, la regresión múltiple se usa cuando se valoran diversos predictores de un

resultado o desenlace que tiene carácter cuantitativo. Es decir, se usa cuando la variable
dependiente es cuantitativa (tensión arterial, índice de masa corporal, glucemia, etc.). Es
deseable que la variable cuantitativa que se usa como resultado siga una distribución aproxi-
madamente normal (gaussiana).
REGRESIÓN LOGÍSTICA
Los modelos matemáticos derivados de la regresión múltiple son muy útiles en

epidemiología, pues desempeñan un papel importante en el control de los sesgos de confu-
sión, pero se basan en una serie de supuestos cuyo cumplimiento no siempre es fácil com-
probar. Por ejemplo, no siempre existe una relación lineal entre la variable de exposición
(variable independiente, “x”) y la variable de respuesta (variable dependiente, “y”). Cuando
lo que se desea conocer es cómo una serie de factores influyen en una variable binaria o
dicotómica, es decir con dos posibilidades, como por ejemplo estar sano o enfermo, res-
ponder a un tratamiento o no responder, etc. en vez de utilizar la regresión lineal, se va a
utilizar la regresión logística. En este caso, al ser dicotómica la respuesta o resultado, se
hablaría de regresión logística binaria.
La regresión logística se usará, por tanto, cuando se valoran diversos predictores de un
resultado o desenlace que tiene carácter dicotómico. Por ejemplo cuando se intentan valorar
las variables que pueden predecir la aparición de diabetes. El coeficiente bi de cada uno de
los predictores utilizado como exponente del número e, base de los logaritmos naturales,
equivale a la odds ratio (OR), como se explica a continuación.
La función logística es aquélla que halla, para cada individuo, según los valores de un
factor predictor (x), la probabilidad (p) de que presente el efecto o desenlace estudiado. La
expresión de la función logística es:
Con una manipulación algebraica de esta ecuación, tomando logaritmos neperianos (ln), se
obtiene una función llamada logit y hace que se parezca a la regresión lineal:
ln (p/1-p) = a + bx
Esta expresión, en efecto, es muy similar a la sencilla ecuación de la recta. El único cambio es
que se ha sustituido la variable dependiente (“y”) por otra expresión. Ahora la variable de-
pendiente es el logaritmo neperiano (ln) de la probabilidad (p) de que ocurra un suceso,
dividido por la probabilidad de que no ocurra (1–p). A ln (p/1-p) se le llama el logit. Es decir:
logit = ln (p/1-p)
Debemos decir que lo que hay dentro del paréntesis (p/1-p) corresponde al concepto de odds.
A este cociente se le llama en inglés “odds” y en español se ha querido traducir por “ventaja”.
Una odds es la probabilidad (p) dividida por el complementario de la probabilidad (1-p).
p
odds =
1− p
Podremos afirmar por tanto que
logit = ln (p/1-p) = ln (odds) = a + bx
Es más fácil calcular una odds que definirla. Si en un estudio que incluye a 250 pacientes
obesos, 50 de ellos han desarrollado después diabetes, la odds de desarrollar diabetes se
calcularía dividiendo 50 entre 200 (odds =1/4). También puede expresarse como una odds
= 1:4 y se interpreta como que apareció un diabético por cada 4 no-diabéticos.
P (diabetes) 50 / 250 50 1
ODDS = = = =
P (no diabetes) 200 / 250 200 4
Un segundo ejemplo: si en una muestra de 100 individuos que padecieron un infarto, 75

quedan sin secuelas, la proporción (p) de individuos sin secuelas es 0,75 o el 75%. En
cambio, la odds de quedar sin secuelas será: 75/25 = 3.
Para transformar una odds en una proporción se divide la odds por (1 + odds):
odds
p=
1 + odds
En el ejemplo de los que quedan sin secuelas en el infarto p = 3 /(1+3) = 0,75. Y en el

ejemplo de los diabéticos p = 0,25 / (1+ 0,25) = 0,2.
Cuando se dividen dos odds, resulta una razón de odds u odds ratio6. La traducción más
lógica es “razón de odds” o “razón de ventajas”. Pero el término odds ratio, que es cada vez
más utilizado en la literatura médica, ha recibido diversas traducciones al castellano: razón
de oportunidades, razón de momios, razón de posibilidades, oportunidad relativa, razón de
probabilidades o razón de productos cruzados. Una buena opción que sirve para evitar
confusiones y va siendo mayoritaria es incorporar directamente el término inglés y decir
siempre odds ratio (abreviadamente, OR), lo mismo que con otros términos originalmente
ingleses, pero que ya son de uso habitual en castellano. ¿Qué es, por tanto, una odds ratio?
Puede verse con el siguiente ejemplo. Supongamos que en un estudio de intervención para
que diabéticos fumadores dejaran de fumar, se consiguió el abandono del tabaco en 25 de
los 147 asignados a la intervención especial y en sólo 3 de los 133 asignados al grupo
control7. La cuadro 17–6 recoge los resultados.
Cuadro 17–6. Resultadode un estudio de intervención sobre 280 diabéticos fumadores

CEDE NO CEDE
INTERVENCIÓN 25 122 147
CONTROL 3 130 133
28 252 280
Odds de cede en grupo Intervención = 25/122 = 0, 205

Odds de cede en grupo Control = 3/130 = 0, 023
Odds Ratio (OR) = oddsINTERV / oddsCONTROL =0, 205/0, 023 = 8, 88
Or = razón producto cruzado = 25 × 130 = 8, 88

122 ×3
De ellos, 147 fueron asignados aleatoriamente al grupo de intervención y de 130 al grupo control. En total
dejaron de fumar 28, 25 de ellos en el grupo de intervención y 3 en el grupo control
Como puede apreciarse en la cuadro 17–6, la odds ratio (OR) es simplemente el co-
ciente entre las odds del resultado, en este caso, el resultado es dejar de fumar. También
puede calcularse la odds ratio mediante el cociente de los productos cruzados de la tabla
2x2 (figura 17–5). El resultado (OR = 8,88) significa que para la intervención se ha obser-
vado una efectividad que casi 9 veces mayor que para el grupo control.
Figura 17–5. La odds ratio (OR) se calcula en un tabla 2 × 2 mediante la rzón de los productos
cruzados.
Nos hemos detenido en explicar el concepto de odds ratio (OR) porque esta medida
de asociación es el fruto más interesante que se suele obtener habitualmente al hacer una
regresión logística. Calcular la OR mediante regresión logística aporta la ventaja de que se
puede ajustar esta medida por otras variables que también pudiesen influir en el resultado
(p. ej., en el caso anterior podría pensarse que es más fácil que respondan bien a una
intervención los diabéticos con mayor nivel educativo y debería plantearse la cuestión de si
el nivel educativo medio del grupo de intervención y del grupo control eran similares). A
esas otras variables se les llama «factores de confusión» y se pueden controlar o «ajustar por
ellos» mediante un modelo de regresión logística8-9. En efecto, volviendo a la regresión
logística, la ecuación antes vista
ln (p/1-p) = a + bx
se puede extender a situaciones multivariables, donde en vez de un solo factor predictor

(x), <NI>haya una serie de predictores (x1, x2,...xp):
ln (p/1-p) = a + b1x1 + b2x2 +... + bpxp
que podría escribirse también así:
ln (p/1-p) = a + b1x1 + b2x2 +... + bpxp

La transformación logarítmica es necesaria para adaptarse a un fenómeno como la probabi-

lidad, cuyos límites teóricos son tan estrechos como 0 y 1. En cambio, los límites teóricos
de ln (odds) son desde –infinito hasta +infinito. La interpretación de la regresión logística
es bastante directa, ya que cada coeficiente de regresión bi expresa el logaritmo neperiano
de la odds ratio (OR) de que ocurra un fenómeno por unidad de cambio del factor predictor
(variable independiente, xi).
bi = ln (OR)
Tomando antilogaritmos, tendríamos:
OR = antilog(bi)
Esto hace a la regresión logística un procedimiento muy útil para construir modelos mate-
máticos que ajusten por factores de confusión, ya que sus resultados son interpretables
como odds ratios estimadas en el supuesto de que los demás factores incluidos en el mode-
lo (los otros predictores: x2, x3,...xp) fuesen exactamente iguales para los individuos de los
grupos que se comparan. Por este motivo, la regresión logística es muy utilizada, cada vez
más, tanto en epidemiología de factores de riesgo como en epidemiología clínica, ya que
libera a las estimaciones de la presencia de confusores indeseados8.
Por ejemplo, si a los datos de la cuadro 17–6 le aplicamos una regresión logística
univariante, utilizando como variable dependiente (resultado) el cese del tabaco y como
variable independiente la intervención, un programa convencional (SPSS) encontraría los
resultados recogidos en la cuadro 17–7.
Cuadro 17–7. Resultados ofrecidos por un programa convencional (SPSS)

para una regresión logística binaria
B E.T. Wald gl Sig. Expo(B)
Paso INTERV 2, 183 , 624 12, 252 1 , 000 8, 874
1a Constante -3, 768 , 584 41, 665 1 , 000 , 023

La variable dependiente (respuesta) es el cese del hábito tabáquico. La variable independiente es la intervención (“INTERV”).
La odds ratio viene expresada por Exp(B)
La salida de ordenador presenta el coeficiente b que vale 2,183, su error estándar (E.T.),
un test estadístico (test de Wald) y el valor de la odds ratio (Exp(B)). Esta odds ratio es
equivalente a la calculada “a mano”. Sin embargo, podemos pedirle al ordenador que ajuste la esti-
mación de la odds ratio por otras variables potencialmente confusoras, por ejemplo, la edad y
el sexo, entonces los resultados serían los presentados en la cuadro 17–8.
Ahora puede afirmarse que a igualdad de sexo y edad, la intervención tiene una odds
ratio de 9,3 para lograr el cese del tabaco. Esto es lo que significa que se haya ajustado. Se
ajusta por una variable cuando se introduce esa variable en el modelo. Con este ejemplo, se
aprecia que resulta interesante la regresión logística porque puede servir para estimar la
fuerza de la asociación de cada factor con el desenlace de una manera independiente. La
estimación independiente quiere decir que se han controlado otros factores (se ha “liberado”
a la odds ratio de esos factores de confusión).
Cuadro 17–8. Regresión logística
B E.T. Wald gl Sig. Expo(B)
Paso INTERV 2, 228 , 626 12, 664 1 , 000 9, 278

a
1 SEXO , 228 , 614 , 138 1 , 710 1, 257
EDAD , 025 , 016 2, 593 1 , 107 1, 026
Constante -5, 496 1, 432 14, 723 1 , 000 , 004
La variable dependiente sigue el cese del tabaco. Ahora se han añadido dos nuevas variables independientes (sexo: 1 = hom-
bre; 2 = mujer) y edad (en años). La odds ratio (9, 278) de la intervención ahora estaría ajustada por edad y sexo. Se aprecia
que es más probable el cese en mujeres (ORajustada = 1, 026) para cada año adicional de edad.
Si se desea saber cuál es la odds ratio para una diferencia de edad de 10 años, se multi-
plicaría por 10 el coeficiente de la edad (0,025) y se elevaría el número e a la cantidad
resultante.
Por cada 10 años más de edad aumentaría en un 28,4% la odds de dejar el tabaco, indepen-
dientemente de que el paciente hubiera sido sometido o no a la intervención y de su sexo.
Esto significa que estamos comparando dos sujetos que están en el mismo grupo (ya sea el
grupo de intervención o el de control) y que son del mismo sexo, pero que se llevan 10
años de diferencia. Entonces es más probable que el mayor de ellos sea el que deje de
fumar. Pero esta ventaja con la edad no resulta estadísticamente significativa, ya que el
valor p para la edad en el test de Wald fue de 0,107.
De todos modos, siempre estamos ante el paradigma de la estadística, porque com-
paramos un “efecto” con un “error”4-5, y habría que considerar que las estimaciones de
odds ratios nunca son perfectas y existe una amplia variabilidad individual, que en princi-
pio es aleatoria. No se pueden establecer predicciones individuales, pero los modelos son
útiles para saber cuál será la respuesta promedio en un grupo suficientemente numeroso
de pacientes. Para “medir” la fuerza del efecto de la intervención se utiliza la /odds ratio6. Lo
más interesante es que el efecto favorable de la intervención se da a igualdad de nivel de
edad y sexo. Es decir, de modo independiente de la edad y sexo. El modelo está “ajustado”
por edad y sexo9. Cada predictor independiente (xi) que se introduzca en el modelo supo-
ne un ajuste y un control del sesgo de confusión que ese predictor podría provocar. Al igual
que en la regresión lineal múltiple, es posible introducir variables independientes (xi) cate-
góricas o dicotómicas en los modelos (el sexo en nuestro caso). También es posible incluir
como variables independientes, variables cualitativas con varias categorías, como estado
civil (soltero, casado, viudo, etc.). Pero ello requeriría la creación de una serie de variables
artificiales también conocidas como variables indicadoras o variables dummy.
La regresión logística se emplea habitualmente en uno de los diseños epidemiológicos
mas utilizados: los estudios de casos y controles8. Sin embargo en los de estudios de casos
y controles emparejados no se debe aplicar la regresión logística convencional, sino que se
ha de utilizar un tipo especial de regresión logística: la regresión logística condicional
Los resultados obtenidos en la cuadro 17–7 deberían presentarse en un trabajo de investi-
gación de manera resumida, indicando simplemente cuál es la estimación de la odds ratio
ajustada (y quizá también sin ajustar o «cruda) para cada variable y cuál es su intervalo de
confianza, habitualmente calculado al 95%. Los paquetes estadísticos suelen tener opcio-
nes para pedir los intervalos de confianza. Se calculan así:
LA REGRESIÓN DE COX (PROPORTIONAL HAZARDS MODEL)
En 1972 Cox publicó un articulo, Regression models and life tables (Modelos de regresión y
tablas de vida) que se ha convertido en un auténtico bestseller, ya que es uno de los artículos
más citados en la bibliografía científica10-11. Se utiliza la regresión de Cox (proportional
hazards model), cuando la variable dependiente esté relacionada con la supervivencia de los
individuos y se desee averiguar simultáneamente el efecto independiente una serie de fac-
tores sobre esta supervivencia.
Por ejemplo, si se deseara saber en qué medida el trasplante de hígado mejora la super-
vivencia de los pacientes con hepatocarcinoma y simultáneamente se desea valorar el efec-
to del estadio tumoral y de otros factores (sexo, edad, etc.) sobre la supervivencia de los
pacientes, se empleará la regresión de Coxe:12. Téngase en cuenta que no se trata sólo de
saber el efecto sobre la supervivencia después de un tiempo determinado de seguimiento
(p. ej., la supervivencia a los 5 años), sino de valorar cuál es el efecto sobre la función de
supervivencia a lo largo de todo el periodo de observación de los pacientes, sea cual sea el
punto temporal que se elija para la comparación. Si sólo interesase estudiar el efecto sobre
la supervivencia en un punto del tiempo (p. ej., a los 5 años), entonces bastaría con un
análisis de regresión logística, porque la variable de respuesta sería dicotómica (sí sobrevi-
ven o no sobreviven). Sólo la regresión de Cox permite afirmar que una supervivencia más
ventajosa puede ser atribuida a un determinado tratamiento, porque, por ejemplo, com-
prueba que a igualdad de edad, sexo, estadio tumoral, etc., los pacientes que fueron trata-
dos con transplante hepático sobrevivieron más en cualquier punto posible dentro del
seguimiento que ha existido en el estudio. A este procedimiento multivariable de tener en
cuenta los niveles de todos los demás factores y poder asegurar que un efecto pertenece
realmente a una determinada variable y no a los otros factores, se le denomina “ajustar” por
esos otros factores como hemos visto en la regresión logística.
La ecuación de la regresión de Cox es:
Donde lambda dependiente del tiempo, lt como se recoge en la figura 17–7, es la tasa (en
inglés hazard) de fallecer más allá del instante “t” (es decir, la tasa instantánea de fallecer).
En lo demás, todo es bastante parecido al análisis de regresión logística. La tasa se diferen-
cia del riesgo en que la tasa expresa la rapidez con la cual se enferma (fallecimientos por
unidad de tiempo), mientras que el riesgo sólo es una proporción y no tiene en cuenta más
que el número de sujetos inicialmente a riesgo de fallecer. El hazard es una tasa instantá-
nea, que conceptualmente corresponde a una duración de tiempo infinitesimal.
Se demuestra que para un factor pronóstico dicotómico xi cuyo valor sea 1 para los
expuestos a ese factor y 0 para los no expuestos, la razón de hazards (hazard ratio, HR) será:
Esta medida de asociación aunque se expresa por algunos como un riesgo relativo y se
interpreta como tal (razón de proporciones) es en realidad una hazard ratio, y se asemeja
más a la razón de densidades de incidencia (RDI, razón de tasas) que a la razón de inciden-
cias acumuladas (razón de proporciones o riesgo relativo). Una hazard ratio de 2 significa,
en realidad, que se multiplica por 2 la rapidez con la cual fallecen los sujetos que están
expuestos al factor pronóstico que se estudia. Un hazard ratio de 1, significa que el efecto
del factor es nulo: no es un factor que afecte al pronóstico. Un hazard ratio de 0,5 significa
que esa exposición en vez de asociarse a un mal pronóstico, lo mejora, ya que reduce la
velocidad de ocurrencia de fallecimientos a la mitad. Si la exposición fuese cuantitativa
habría que elevar el número e al coeficiente correspondiente (bi), pero multiplicando antes
el coeficiente por el incremento en unidades de la variable independiente cuyo hazard
ratio queramos estimar, tal como se podía hacer en el ejemplo de regresión logística con la
edad para calcular una odds ratio. Cuando se emplea el modelo de regresión de Cox, se
asume que la razón de tasas (hazard ratio) es constante a lo largo del tiempo. Hay métodos
para verificar si es cierta esta suposición y también hay técnicas que permiten trabajar con
modelos de riesgo no proporcionales cuya descripción y análisis superan los objetivos de
este texto.
POTENCIA ESTADÍSTICA Y TAMAÑO MUESTRAL
La expresión para calcular aproximadamente el número necesario de eventos3 que deben

observarse en un análisis de supervivencia es
4( z α / 2 + z β ) 2
n=
[ln(HR)]2
Donde:
n: número de eventos que deben observarse
z±/2 = valor de la distribución normal para el error alfa deseado (a 2 colas)
z² = valor de la distribución normal para el error beta deseado (a 1 cola)
HR = hazard ratio (equivalente al riesgo relativo, responde a la pregunta ¿cuántas
veces esperamos que sea superior el evento en un grupo que en otro?)
Así, para un riesgo relativo de 1,5, con un error alfa de 0,05 (z=1,96) y un error beta de 0,2
(potencia del 80%, z=0,84), necesitaríamos observar 256 eventos.
4(1,96 + 1,28) 2
256 =
[ln(1,5)]2
En la siguiente cuadro y figura se representan diversos supuestos, con el número necesario
de eventos que se deben observar.
Potencia = 90% 80% 60%

HR ↓ ↓ ↓
1, 2 1265 945 590
1, 3 611 457 285
1, 4 372 278 174
1, 5 256 191 120
1, 6 191 143 89
1, 7 150 112 70
1, 8 122 91 57
1, 9 103 77 48
2 88 66 41
2, 1 77 58 36
2, 2 68 51 32
2, 3 61 46 29
2, 4 55 41 26
2, 5 51 38 24
2, 6 47 35 22
2, 7 43 32 20
2, 8 40 30 19
2, 9 38 28 18
3 35 27 17
REFERENCIAS
1. Greenhalgh T. Statistics for the non–statistician. I: Different types of data need different statistical
tests. BMJ 1997: 364–6. 4.
2. Altman DG. Practical statistics for medical research. Londres, Chapman and Hall, 1991. 3.
3. Collet D. Modelling survival data in medical research. Londres, Chapman and Hall, 1994.
4. Martínez-González MA, de Irala J, Seguí-Gómez M (eds.). Métodos en Salud Pública (4ª ed.).
Pamplona: Ulzama Digital, 2003.
5. Martínez González MA, De Irala Estévez J, Faulín Fajardo FJ (eds.). Bioestadística amigable.
Madrid: Díaz de Santos, 2001.
6. Martínez–González MA, de Irala J, Guillen F. ¿Qué es una odds ratio? Med Clin 1999; 112: 416–422.
7. Canga N, de Irala J, Vara E, Duaso MJ, Ferrer A, Martínez-González MA. Intervention study for
smoking cessation in diabetic patients, a randomized controlled trial in both clinical and primary care
settings. Diabetes Care 2000;23:1455-60.
8. De Irala J, Martínez-González MA, Seguí-Gómez M (eds.). Epidemiología aplicada Barcelona:
Ariel. 2004.
9. De Irala J, Martínez-González MA, Guillén-Grima F. ¿Qué es un factor de confusión? Med Clin
(Barc.) 2001;117:377-385. (fe errores: Med Clin (Barc.) 2001;117: 775).
10. Cox DR. Regression model and life tables. J Roy Statist Soc B 1972; 34: 187–220.
11. Cox DR, Oakes D. The analysis of survival data. Londres, Chapman and Hall, 1984.
12. Sangro B, Herraiz M, Martínez-González MA, Bilbao I, Herrero I, Beloqui O, Betés M, de la
Peña A, Cienfuegos JA, Quiroga J, Prieto J. Prognosis of hepatocellular carcinoma in relation to
treatment: a multivariate analysis of 178 patients from a single European institution. Surgery
1998;124:575-83.

Manual PDF

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Manual PDF

Cargado por

Copyright:

Formatos disponibles

Análisis de supervivencia

NOCIONES DE ANÁLISIS DE SUPERVIVENCIA

dependiente” en la jerga matemática) la combinación de ambas cosas (cualidad + variable

Figura 17–1. Seguimiento de 6 pacientes. Se han observado 3 muertes (pacientes 1, 3 y 6, repre-

Cuadro 17–1. Preparación de los datos para hacer un análisis de supervivencia

PACIENTE TIEMPO ESTADO

Un supuesto importante en el diseño de estudios de factores pronósticos es que se

• A los dos años: ha muerto 1 y sobreviven 2........................ S2 = 2/3 = 0,67 (67%)

• A los 5 años: han muerto los 3 ............................................ S5 = 0/3 = 0 (0%)

Cuadro 17–2. Estimación de la supervivencia por el método de Kaplan-Meier

PACIENTE TIEMPO ESTADO

a. Ordenar ascendentemente los tiempos de supervivencia (o tiempos de observación).

Cuadro 17–3. Cálculos para obtener la

5 1 3/4 = 0, 75 0,68 × 0, 75 = 0, 51 0,0

Figura 17–4. Curvas de Kaplan-Meier representando la supervivencia acumulada de dos grupos

Cuando el evento de resultado es poco frecuente o si las curvas son aproximadamente

ERROR ESTÁNDAR E INTERVALOS DE CONFIANZA

Si se desea calcular un intervalo de confianza para la estimación de la supervivencia a un

IC 95% St = Superv t ± 1,96 EE

(1,96 es el valor z de la normal para un error alfa bilateral del 5%)

Cuadro 17–4. Método desaconsejable para estimar los intervalos de confianza

TIEMPO SUPERVIVENCIA IC 95%

Método recomendable para estimar los intervalos de confianza de la Supervivencia

1 n −s IC 95% St = St EXP (± 1, 96EEt)

IC 95% = 0,5063EXP ( ±1,96×0,54) = 0,14 − 0,79

Método recomendable para estimar los intervalos de confianza de la supervivencia

C2 = (((B2/A2)^2) * (1/(LN(A2))^2))^0,5 Devolverá el error estándar transformado

En la medicina basada en la evidencia resulta útil aplicar modelos multivariantes para

y = a + b1x1 + b2x2 + b3x3

Cada variable independiente xi tiene un coeficiente de regresión propio bi (análogo a la

res o variables independientes, x1, x2 y x3 que corresponden respectivamente a la edad en

En realidad tenemos 2 ecuaciones de regresión, una para los niños:

talla = 30 + 4(Sexo) + 8(Edad) = 30 + 4 + 8(Edad) = 34 + 8(Edad)

y otra para las niñas:

talla = 30 + 4(Sexo) + 8(Edad) = 30 + 0 + 8(Edad) = 30 + 8(Edad)

En resumen, la regresión múltiple se usa cuando se valoran diversos predictores de un

Los modelos matemáticos derivados de la regresión múltiple son muy útiles en

Podremos afirmar por tanto que

logit = ln (p/1-p) = ln (odds) = a + bx

Un segundo ejemplo: si en una muestra de 100 individuos que padecieron un infarto, 75

En el ejemplo de los que quedan sin secuelas en el infarto p = 3 /(1+3) = 0,75. Y en el

Cuadro 17–6. Resultadode un estudio de intervención sobre 280 diabéticos fumadores

Odds de cede en grupo Intervención = 25/122 = 0, 205

Or = razón producto cruzado = 25 × 130 = 8, 88

se puede extender a situaciones multivariables, donde en vez de un solo factor predictor

ln (p/1-p) = a + b1x1 + b2x2 +... + bpxp

que podría escribirse también así:

ln (p/1-p) = a + b1x1 + b2x2 +... + bpxp

La transformación logarítmica es necesaria para adaptarse a un fenómeno como la probabi-

Tomando antilogaritmos, tendríamos:

Cuadro 17–7. Resultados ofrecidos por un programa convencional (SPSS)

Paso INTERV 2, 183 , 624 12, 252 1 , 000 8, 874

1a Constante -3, 768 , 584 41, 665 1 , 000 , 023

Cuadro 17–8. Regresión logística

B E.T. Wald gl Sig. Expo(B)

Paso INTERV 2, 228 , 626 12, 664 1 , 000 9, 278

LA REGRESIÓN DE COX (PROPORTIONAL HAZARDS MODEL)

POTENCIA ESTADÍSTICA Y TAMAÑO MUESTRAL

La expresión para calcular aproximadamente el número necesario de eventos3 que deben

Potencia = 90% 80% 60%

También podría gustarte