Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Manual PDF
Manual PDF
y análisis multivariado
Miguel Ángel Martínez González, Jokin de Irala–Estévez
En este apartado se exponen los principios del estudio formal de factores pronósticos que
condicionan la supervivencia de un paciente1-4. También se puede considerar como resulta-
do la aparición de complicaciones o la curación en vez de la muerte. En este segundo caso
lo que se suele estudiar es la “supervivencia libre de complicaciones”. Por tanto, aunque se
le siga denominando análisis de supervivencia, no siempre tiene que ser la muerte el acon-
tecimiento de desenlace. Pero en principio debe tratarse de acontecimientos que, como la
muerte, marcan un punto de no retorno. Los procedimientos más habituales requieren
además que el desenlace sólo pueda ocurrir una vez como la muerte.
Para valorar el pronóstico, en ambas situaciones, suelen aplicarse técnicas estadísticas
de análisis de supervivencia3. La supervivencia incorpora el concepto dinámico del tiempo
y es por tanto una variable compuesta de dos elementos: respuesta y tiempo. La respuesta
o desenlace de interés no es una cantidad numérica1, como la presión arterial, ni una cua-
lidad dicotómica como enfermar o no, sino que toma la forma de “tiempo transcurrido hasta
un suceso” (time-to-event), lo que supone utilizar como desenlace o respuesta (“variable
1
2 Manual de medicina basada en la evidencia (Capítulo 17)
se representa el tiempo de seguimiento de cada paciente por una línea. Hay dos situaciones
posibles: aquéllos cuyo periodo de seguimiento acaba porque fallecen (representados por
una cruz) o aquellos que están vivos cuando dejan de ser observados (se van del estudio, se
trasladan de ciudad, acaban el estudio estando vivos), en estos se representa su final por
una señal de visto bueno.
Por ejemplo, el primer paciente murió tras haber estado 5 años en el estudio y el
último paciente entró tarde y murió a los 3,5 años de entrar en el estudio. A pesar de que
el seguimiento de cada paciente suele haberse empezado en fechas de calendario diferen-
tes, debe imaginarse que todos han empezado el estudio en la misma fecha. Esto supone
asumir que se trata de pacientes “homogéneos” en el sentido de que los distintos tiempos
de entrada en el estudio no están relacionados con el efecto de interés.
5 1, 5 0
3 2 1
6 3, 5 1
2 4 0
4 4 0
1 5 1
La primera columna indica el número de identificación de cada paciente. La segunda, el tiempo durante el cual se le ha obser-
vado. La tercera columna indica el estado del paciente al final del seguimiento. Se ha asignado un 1 a los que han fallecido
(su tiempo de seguimiento es, por tanto, la duración de su supervivencia) y un 0 a los que seguían vivos al final del segui-
miento. Es muy importante que los datos se hayan ordenado según el tiempo de observación en orden ascendente
© Editorial El manual moderno Fotocopiar sin autorización es un delito.
peculiares, que probablemente tendrán una supervivencia distinta (mejor o peor) de los
que son seguidos hasta el final.
En el ejemplo de los 6 pacientes antes comentado, si se excluyen los casos de los cuales
no se sabe cuánto han tardado en morir, ya que la última información sobre ellos es que
seguían vivos Pacientes censurados (pacientes 5, 2 y 4 que se han sombreado); y se conside-
ran sólo aquellos que se sabe cuanto han tardado en morir (pacientes 3, 6 y 1), se podría
calcular fácilmente la supervivencia.
Si nos olvidásemos de los censurados, podría pensarse que la supervivencia (S) en cada
tiempo valdría:
• A los 3,5 años: han muerto 2 y sobrevive 1 ........................ S3,5 = 1/3 = 0,33 (33%)
Pero hacer esto no es correcto, pues supone, por un lado desaprovechar la información que
proporcionan los sujetos 5, 2 y 4 y, por otro lado, algo más importante: no es verdad, por
ejemplo que a los 3,5 años la supervivencia sea del 33%, ya que los pacientes número 2 y 4
han sobrevivido al menos 4 años. Por tanto, hay que usar un método que incluya en los
cálculos a estos pacientes, como el 5, 2 y 4, de los que tenemos una información “truncada”
o “censurada”. En el método de Kaplan–Meier para aprovechar esta información la super-
vivencia a tiempo t (St) se define como:
Si
St = Π
ni
Donde la letra pi mayúscula (P) es un símbolo análogo al sumatorio (S), pero que significa
“productorio” o “multiplicatorio”, es decir, en vez de expresar “sumar todo” quiere decir
“multiplicar todo”; si son los supervivientes en el tiempo ti, y ni son los que están a riesgo de
fallecer al inicio del tiempo ti. Es el producto de una serie de probabilidades condicionales,
y se calcula por multiplicación. La condición es haber llegado vivo hasta el instante inme-
diatamente anterior a ese tiempo ti. Lo que expresa este estimador de Kaplan–Meier no es
una única cantidad, sino una función que variará a lo largo del tiempo, por eso se indica
como St, donde el subíndice t indica que la supervivencia será distinta de un tiempo a otro.
En la cuadro 17–2 se representa, paso a paso cómo se calcula el estimador de Kaplan–
Meier para los datos del ejemplo.
Cualquier análisis de supervivencia se suele acompañar de la respectiva representación
gráfica para expresar visualmente cómo va disminuyendo la probabilidad de sobrevivir a
medida que pasa el tiempo. Siempre se sitúa el tiempo en el eje de abscisas (“x”) y la
estimación del el porcentaje de los que sobreviven en el eje de ordenadas (“y”). Las curvas
de supervivencia calculadas con el método de Kaplan–Meier son un procedimiento des-
criptivo: sirven para resumir la historia de una serie de pacientes en cuanto a su riesgo de
fallecimiento, o visto en términos positivos, en cuanto a su probabilidad de supervivencia.
Análisis de supervivencia y análisis multivariado 5
5 1, 5 0
3 2 1 4/5 = 0, 8 0, 8
6 3, 5 1 3/4 = 0, 75 0, 8 × 0, 75 = 0, 6
2 4 0
4 4 0
1 5 1 0/1 = 0 0, 6 × 0 = 0
Las 3 primeras columnas coinciden con las del cuadro 17–1. La penúltima columna estima la proporción de pacientes que so-
breviven más allá de cada tiempo, pero sólo se cálcula para aquellos tiempos en los que se observa algún fallecimiento. Por
ejemplo, hay 5 pacientes a riesgo de fallecer a los 2 años (ni = 4), éstos son los pacientes 3, 6, 2, 4 y 1; de ellos sobrevi-
ven 4 (si = 4). El cociente si / ni = 0, 8 estima la probabilidad de sobrevivir 2 o más años. La última columna corresponde al es-
timador de Kaplan-Meier y va multimplicando los cocientes si / ni de cada tiempo por el producto previo. Así, podremos decir
que la supervivencia acumulada a los 2 años era del 80%, a los 3, 5 años del 60% y a los 5 años del 0%
Como muestra la figura 17–2, para construir una curva de supervivencia se deben dar
los siguientes pasos:
importante hacer notar que entre los que entran a riesgo de morir (ni) se incluyen
también el individuo o individuos que van a morir en ese periodo, aunque mueran
justamente en el inicio del periodo.
d. Multiplicar en cada periodo de tiempo los cocientes (si/ni) por los de los tiempos
anteriores. La supervivencia en ese momento será precisamente este producto.
e. Finalmente, siempre es recomendable representarlo gráficamente. Se debe empezar con
una supervivencia de 1, que se mantiene hasta que se produce el primer falleci-
miento. En ese momento la gráfica da un salto correspondiente al descenso de la super-
vivencia a partir de ese momento (en el ejemplo pasa a 0,80). Y así sucesivamente.
Cuando el más largo de los tiempos corresponde a alguien que seguía vivo al final del
periodo de observación, se deja una línea horizontal al final. Si todos hubieran fallecido
(como sucede en el ejemplo) se traza una vertical hasta el punto 0 de supervivencia. En la
figura 17–2 se ha presentado la curva que de Kaplan–Meier correspondiente a los datos del
ejemplo. Se observa en la figura 17–3 que los saltos se dan sólo cuando ocurre alguna
muerte, cabría preguntarse entonces: si sólo los pacientes fallecidos provocan un salto en la
6 Manual de medicina basada en la evidencia (Capítulo 17)
1,0
,9
,8
,7
,6
Supervivencia acumulada
,5
,4
,3
,2
,1
0,0
1 2 3 4 5 6
TIEMPO (AÑOS)
Figura 17–2. Curva de Kaplan-Meier representando la supervivencia acumulada durante el se-
guimiento de 6 pacientes. Puede observarse que, como es lógico, sólo hay cambios en la super-
vivencia cuando muere algún paciente. Se han observado 3 muertes (a los 2, 3,5 y 5 años). Los
otros 3 pacientes están censurados.
curva ¿cómo influyen los individuos que no fallecen (censurados) en las estimaciones de la
supervivencia? La respuesta es que cada dato censurado influye disminuyendo el denomi-
nador de los cocientes si/ni, con lo que, aunque un individuo truncado no provoque un
salto, sí provoca una mayor magnitud en el tamaño del siguiente salto.
En la cuadro 17–3 hay otro ejemplo con su solución. Se ha representado la curva de
Kaplan-Meíer de este segundo ejemplo en la figura 17–3.
,9
si
Π
si
TIEMPO ESTADO ni ni ,8
Supervivencia acumulada
,7
1 0 ,6
1 1 9/10 = 0, 9 0, 9 ,5
2 1 ,4
2 1 6/8 = 0, 75 0, 9 × 75 = 0, 68 ,3
3 0 ,2
3 0 ,1
Para comparar dos o más curvas de supervivencia se usan diversas pruebas estadísticas
de contraste de hipótesis. La más empleada es el test del Log–Rank. Su hipótesis nula es que
las supervivencias de los grupos que se comparan (2 o más) son las mismas.
Aunque lo que está realmente indicado para comparar la supervivencia de diferentes
grupos de pacientes será habitualmente el test del log-rank, en medicina, en cambio, se ha
hecho práctica común (pero no por eso acertada) comparar la supervivencia usando como
referencia un punto común en el tiempo. Por ejemplo, para comparar dos tratamientos o
dos series, se tiende a usar como medida de resultado cuál es la supervivencia de los pacien-
tes a los 5 años. Pero esto es básicamente incorrecto. Dos situaciones muy distintas pueden
dar lugar a los mismos resultados de supervivencia a 5 años como se ve en la figura 17–4,
donde los grupos A y tienen exactamente una supervivencia del 50% a los 5 años. Sin
embargo, se observa claramente que los pacientes del grupo B tienen una peor superviven-
cia desde el principio del estudio.
© Editorial El manual moderno Fotocopiar sin autorización es un delito.
Lo que hay que hacer en cambio para comparar dos o más curvas de supervivencia es
usar diversos tests específicamente diseñados para ello y que tienen en cuenta toda la
historia de seguimiento de los pacientes en vez de considerar sólo un punto en el tiempo, es
decir detectan diferencias persistentes a lo largo del tiempo en la supervivencia.
8 Manual de medicina basada en la evidencia (Capítulo 17)
• Hipótesis nula (H0): las supervivencias de los grupos que se comparan (2 ó más) es la
misma.
• Hipótesis alternativa (H1): al menos uno de los grupos tiene una supervivencia diferente.
• Estadístico utilizado: jicuadrado con k-1 grados de libertad, siendo k el número de
grupos (nº de curvas que se comparan).
Así, para la supervivencia acumulada a 2 años que aparece en la cuadro 17–3, su error
estándar se calcularía multiplicando la supervivencia estimada (0,68) por la suma de los
cocientes entre fallecidos y el producto de totales por supervivientes sumando los del
tiempo previo (1/(10 × 9)) y los de ese tiempo (2/(8x6)). Es decir, el error estándar valdría
EES2=0,68 × [(1/90)+(2/48)]0,5 = 0,16. En cambio, para la supervivencia al año, EES1=0,9 ×
(1/90)0,5= 0,095. Para los 5 años, EES1= 0,19.
Una aproximación poco fina pero conservadora para estimar los intervalos de confianza al
95% será aplicar la siguiente expresión:
Por ejemplo, si en el listado de SPSS vemos la salida que aparece en las tres primeras
columnas de la cuadro 17–4 (corresponden a los datos del ejemplo de la cuadro 17–3), las
estimaciones de supervivencia con sus límites de confianza serían las presentadas en las dos
últimas columnas de la tabla.
1 0, 9 0, 0949 0, 71 1, 09
2 0, 675 0, 1551 0, 37 0, 99
5 0, 5063 0, 1868 0, 14 0, 88
7 0, 3375 0, 1857 -0, 03 0, 71
9 0, 1688 0, 1512 -0, 13 0, 47
Con los datos del cuadro 17–3 se han calculado los errores estándar y la estimación de los intervalos de confianza al 95% para
la supervivencia. Las 2 primeras columnas coinciden con la primera y la última del cuadro 17–3, la tercera columna recoge los
errores estándar (son los que suelen presentar los programas de software convencionales, como SPSS) y las dos últimas el in-
tervalo de confianza calculado simplemente al restar y sumar 1, 96 veces el error estándar a cada estimación de la superviven-
cia. como puede verse, hay límites de confianza que exceden de 1 y otros que son negativos, lo cual es absurdo. En el cuadro
17–5 se presentan las estimaciones más adecuadas, libres de este problema.
Pero, el método simplista de sumar y restar 1,96 veces el error estándar a la supervi-
vencia estimada es desaconsejable porque proporciona intervalos de confianza que son ne-
gativos y otros que exceden de 1,0, lo cual es absurdo. Se puede usar otra expresión más
adecuada3, calculando un error estándar transformado (EEt).
© Editorial El manual moderno Fotocopiar sin autorización es un delito.
Donde ln significa logaritmo natural (neperiano) y EXP supone elevar a la cantidad corres-
pondiente el número e, base de los logaritmos naturales. Así, para la supervivencia a 5 años
del ejemplo anterior (S5 = 0,5063), el intervalo de confianza al 95% sería:
1 1 2 1
EEt = × + + = 0,54
(ln[0,5063]) 10 × 9 8 × 6 4 × 3
2
En la cuadro 17–5 se recogen los intervalos de confianza para cada tiempo, así calculados.
Puede apreciarse que los intervalos de confianza son más estrechos y además nunca son
inferiores a 0 ni superiores a 1.
Cuadro 17–5. Con los mismos datos de los dos cuadros anteriores se han calculado los
errores estándar transformados (EEt) y la estimación de los intervalos de confianza al
95% para la supervivencia donde ya se calculan con la expresión adecuada para que
no sobrepasen nunca la unidad o el 0. Este método es el más aconsejable
1 n −s
EEt = ×∑ i i
(ln[S ])
TIEMPO SUPERVIVENCIA 2 IC 95%
ni si
1 0, 9 1 0, 47 0, 99
2 0, 675 0, 58 0, 29 0, 88
5 0, 5063 0, 54 0, 14 0, 79
7 0, 3375 0, 51 0, 05 0, 67
9 0, 1688 0, 83 0, 00 0, 70
Puede programarse una hoja de cálculo (p. ej., en Microsoft Excel) para obtener intervalos
de confianza al 95% de la supervivencia a partir del output convencional que proporciona
un paquete estadístico de análisis de supervivencia. Se indican a continuación las órdenes
que deben dársele a la hoja de cálculo5. Si se ha introducido el valor de la supervivencia en
la casilla A2 y su error estándar convencional (el que aparece por ejemplo en SPSS en la
casilla B2), deberá indicarse
ANÁLISIS MULTIVARIADO
te o para realizar predicciones. Por ejemplo, puede resultar de interés conocer qué factores
pronósticos influyen en la supervivencia de los pacientes con infarto de miocardio, o si la
supervivencia de los pacientes con un determinado tumor se ve afectada por diversos
tratamientos (quimioterapia, radioterapia) u otros factores, como por ejemplo, el estado
psicológico del paciente. En general, la aplicación de una técnica de análisis multivariante
significa que se tienen en cuenta simultáneamente muchas variables en el análisis de los
datos. La principal ventaja que ofrecen estas técnicas, es que permiten controlar de modo
eficiente muchos factores de confusión al mismo tiempo cuando se trata de estudiar aso-
ciaciones potencialmente causales entre una determinada exposición y un efecto o desen-
lace. Ésta ha sido y sigue siendo su principal aplicación en la investigación médica en las
últimas 3 décadas. El ajuste multivariante supone la aplicación de un modelo matemático
que hace más comparables a los grupos de individuos expuestos y no expuestos, evitando
la distorsión que supondría que, por ejemplo, los expuestos fuesen de mayor edad o se
encontrasen con mayor frecuencia sometidos a otros factores pronósticos distintos del que
se está estudiando. Así se consigue que la comparación de interés quede depurada de otros
factores y se pueda apreciar mejor cuál es su efecto verdaderamente independiente. Hay
muchos procedimientos y técnicas de ajuste multivariante. Los más utilizados se suelen
basar en un modelo de regresión. El más simple es la regresión lineal.
REGRESIÓN MÚLTIPLE
Se emplea cuando se desea estudiar como influyen varios factores (o variables indepen-
dientes) en una sola variable de respuesta (la variable dependiente o desenlace), que ha de
ser en este caso una variable cuantitativa numérica, como por ejemplo la talla o el peso. La
ecuación de la regresión lineal simple es la ecuación de una recta; éste es el modelo mate-
mático más sencillo:
y = a + bx
© Editorial El manual moderno Fotocopiar sin autorización es un delito.
Donde “y” es la variable dependiente o desenlace, mientras que “x” es la variable indepen-
diente o factor predictor. A la constante “a” se le llama ordenada en el origen y al coeficiente
“b”, se le llama pendiente de la recta. Pero esta ecuación se puede generalizar para el caso en
que haya más de una variable independiente. Supongamos que haya 3 variables indepen-
dientes o factores predictores: x1, x2, x3. Podría construirse la ecuación:
y = 30 + 8 x1 + 0,06x2 + 0,07x3
Talla = 30 + 8(Edad) + 0,06(Tallapadre) + 0,07(Tallamadre)
La interpretación será que por cada año más de edad que cumple el niño su talla aumenta
en 8 cm, independientemente de cuál sea la talla del padre o de la madre. Por cada cm más
de altura del padre, el niño tendrá, (sea cual sea su edad y sea cual sea la talla de su madre)
0,06 cm más de altura. Y por cada cm más de altura de la madre, el niño será 0,07 cm más
alto, independientemente de cuál sea la altura de su padre y cuál sea su edad.
Es posible también introducir variables categóricas en el modelo tales como el sexo del
niño. Para ello introduciríamos en el modelo otra nueva variable (sexo= x4), con dos códi-
gos: varón = 1 y mujer = 0. Generalmente se le da el valor 0 a aquella categoría en la que se
espera un nivel menor o basal. Cómo las niñas suelen tener una menor talla que los niños
se les da en este ejemplo el valor 0. Un ejemplo del modelo que se obtendría al ajustar así
una regresión múltiple sería el siguiente:
y = 30 + 4x1 +8x2
Talla = 30 + 30 +4(Sexo) +8(Edad)
REGRESIÓN LOGÍSTICA
dicotómica, es decir con dos posibilidades, como por ejemplo estar sano o enfermo, res-
ponder a un tratamiento o no responder, etc. en vez de utilizar la regresión lineal, se va a
utilizar la regresión logística. En este caso, al ser dicotómica la respuesta o resultado, se
hablaría de regresión logística binaria.
La regresión logística se usará, por tanto, cuando se valoran diversos predictores de un
resultado o desenlace que tiene carácter dicotómico. Por ejemplo cuando se intentan valorar
las variables que pueden predecir la aparición de diabetes. El coeficiente bi de cada uno de
los predictores utilizado como exponente del número e, base de los logaritmos naturales,
equivale a la odds ratio (OR), como se explica a continuación.
La función logística es aquélla que halla, para cada individuo, según los valores de un
factor predictor (x), la probabilidad (p) de que presente el efecto o desenlace estudiado. La
expresión de la función logística es:
Con una manipulación algebraica de esta ecuación, tomando logaritmos neperianos (ln), se
obtiene una función llamada logit y hace que se parezca a la regresión lineal:
ln (p/1-p) = a + bx
Esta expresión, en efecto, es muy similar a la sencilla ecuación de la recta. El único cambio es
que se ha sustituido la variable dependiente (“y”) por otra expresión. Ahora la variable de-
pendiente es el logaritmo neperiano (ln) de la probabilidad (p) de que ocurra un suceso,
dividido por la probabilidad de que no ocurra (1–p). A ln (p/1-p) se le llama el logit. Es decir:
logit = ln (p/1-p)
© Editorial El manual moderno Fotocopiar sin autorización es un delito.
Debemos decir que lo que hay dentro del paréntesis (p/1-p) corresponde al concepto de odds.
A este cociente se le llama en inglés “odds” y en español se ha querido traducir por “ventaja”.
Una odds es la probabilidad (p) dividida por el complementario de la probabilidad (1-p).
p
odds =
1− p
Es más fácil calcular una odds que definirla. Si en un estudio que incluye a 250 pacientes
obesos, 50 de ellos han desarrollado después diabetes, la odds de desarrollar diabetes se
calcularía dividiendo 50 entre 200 (odds =1/4). También puede expresarse como una odds
= 1:4 y se interpreta como que apareció un diabético por cada 4 no-diabéticos.
14 Manual de medicina basada en la evidencia (Capítulo 17)
P (diabetes) 50 / 250 50 1
ODDS = = = =
P (no diabetes) 200 / 250 200 4
odds
p=
1 + odds
Como puede apreciarse en la cuadro 17–6, la odds ratio (OR) es simplemente el co-
ciente entre las odds del resultado, en este caso, el resultado es dejar de fumar. También
puede calcularse la odds ratio mediante el cociente de los productos cruzados de la tabla
2x2 (figura 17–5). El resultado (OR = 8,88) significa que para la intervención se ha obser-
vado una efectividad que casi 9 veces mayor que para el grupo control.
Figura 17–5. La odds ratio (OR) se calcula en un tabla 2 × 2 mediante la rzón de los productos
cruzados.
Nos hemos detenido en explicar el concepto de odds ratio (OR) porque esta medida
de asociación es el fruto más interesante que se suele obtener habitualmente al hacer una
regresión logística. Calcular la OR mediante regresión logística aporta la ventaja de que se
puede ajustar esta medida por otras variables que también pudiesen influir en el resultado
© Editorial El manual moderno Fotocopiar sin autorización es un delito.
(p. ej., en el caso anterior podría pensarse que es más fácil que respondan bien a una
intervención los diabéticos con mayor nivel educativo y debería plantearse la cuestión de si
el nivel educativo medio del grupo de intervención y del grupo control eran similares). A
esas otras variables se les llama «factores de confusión» y se pueden controlar o «ajustar por
ellos» mediante un modelo de regresión logística8-9. En efecto, volviendo a la regresión
logística, la ecuación antes vista
ln (p/1-p) = a + bx
bi = ln (OR)
OR = antilog(bi)
Esto hace a la regresión logística un procedimiento muy útil para construir modelos mate-
máticos que ajusten por factores de confusión, ya que sus resultados son interpretables
como odds ratios estimadas en el supuesto de que los demás factores incluidos en el mode-
lo (los otros predictores: x2, x3,...xp) fuesen exactamente iguales para los individuos de los
grupos que se comparan. Por este motivo, la regresión logística es muy utilizada, cada vez
más, tanto en epidemiología de factores de riesgo como en epidemiología clínica, ya que
libera a las estimaciones de la presencia de confusores indeseados8.
Por ejemplo, si a los datos de la cuadro 17–6 le aplicamos una regresión logística
univariante, utilizando como variable dependiente (resultado) el cese del tabaco y como
variable independiente la intervención, un programa convencional (SPSS) encontraría los
resultados recogidos en la cuadro 17–7.
La salida de ordenador presenta el coeficiente b que vale 2,183, su error estándar (E.T.),
un test estadístico (test de Wald) y el valor de la odds ratio (Exp(B)). Esta odds ratio es
Análisis de supervivencia y análisis multivariado 17
equivalente a la calculada “a mano”. Sin embargo, podemos pedirle al ordenador que ajuste la esti-
mación de la odds ratio por otras variables potencialmente confusoras, por ejemplo, la edad y
el sexo, entonces los resultados serían los presentados en la cuadro 17–8.
Ahora puede afirmarse que a igualdad de sexo y edad, la intervención tiene una odds
ratio de 9,3 para lograr el cese del tabaco. Esto es lo que significa que se haya ajustado. Se
ajusta por una variable cuando se introduce esa variable en el modelo. Con este ejemplo, se
aprecia que resulta interesante la regresión logística porque puede servir para estimar la
fuerza de la asociación de cada factor con el desenlace de una manera independiente. La
estimación independiente quiere decir que se han controlado otros factores (se ha “liberado”
a la odds ratio de esos factores de confusión).
Si se desea saber cuál es la odds ratio para una diferencia de edad de 10 años, se multi-
plicaría por 10 el coeficiente de la edad (0,025) y se elevaría el número e a la cantidad
resultante.
© Editorial El manual moderno Fotocopiar sin autorización es un delito.
Por cada 10 años más de edad aumentaría en un 28,4% la odds de dejar el tabaco, indepen-
dientemente de que el paciente hubiera sido sometido o no a la intervención y de su sexo.
Esto significa que estamos comparando dos sujetos que están en el mismo grupo (ya sea el
grupo de intervención o el de control) y que son del mismo sexo, pero que se llevan 10
años de diferencia. Entonces es más probable que el mayor de ellos sea el que deje de
fumar. Pero esta ventaja con la edad no resulta estadísticamente significativa, ya que el
valor p para la edad en el test de Wald fue de 0,107.
De todos modos, siempre estamos ante el paradigma de la estadística, porque com-
paramos un “efecto” con un “error”4-5, y habría que considerar que las estimaciones de
odds ratios nunca son perfectas y existe una amplia variabilidad individual, que en princi-
pio es aleatoria. No se pueden establecer predicciones individuales, pero los modelos son
útiles para saber cuál será la respuesta promedio en un grupo suficientemente numeroso
de pacientes. Para “medir” la fuerza del efecto de la intervención se utiliza la /odds ratio6. Lo
más interesante es que el efecto favorable de la intervención se da a igualdad de nivel de
18 Manual de medicina basada en la evidencia (Capítulo 17)
edad y sexo. Es decir, de modo independiente de la edad y sexo. El modelo está “ajustado”
por edad y sexo9. Cada predictor independiente (xi) que se introduzca en el modelo supo-
ne un ajuste y un control del sesgo de confusión que ese predictor podría provocar. Al igual
que en la regresión lineal múltiple, es posible introducir variables independientes (xi) cate-
góricas o dicotómicas en los modelos (el sexo en nuestro caso). También es posible incluir
como variables independientes, variables cualitativas con varias categorías, como estado
civil (soltero, casado, viudo, etc.). Pero ello requeriría la creación de una serie de variables
artificiales también conocidas como variables indicadoras o variables dummy.
La regresión logística se emplea habitualmente en uno de los diseños epidemiológicos
mas utilizados: los estudios de casos y controles8. Sin embargo en los de estudios de casos
y controles emparejados no se debe aplicar la regresión logística convencional, sino que se
ha de utilizar un tipo especial de regresión logística: la regresión logística condicional
Los resultados obtenidos en la cuadro 17–7 deberían presentarse en un trabajo de investi-
gación de manera resumida, indicando simplemente cuál es la estimación de la odds ratio
ajustada (y quizá también sin ajustar o «cruda) para cada variable y cuál es su intervalo de
confianza, habitualmente calculado al 95%. Los paquetes estadísticos suelen tener opcio-
nes para pedir los intervalos de confianza. Se calculan así:
En 1972 Cox publicó un articulo, Regression models and life tables (Modelos de regresión y
tablas de vida) que se ha convertido en un auténtico bestseller, ya que es uno de los artículos
más citados en la bibliografía científica10-11. Se utiliza la regresión de Cox (proportional
hazards model), cuando la variable dependiente esté relacionada con la supervivencia de los
individuos y se desee averiguar simultáneamente el efecto independiente una serie de fac-
tores sobre esta supervivencia.
Por ejemplo, si se deseara saber en qué medida el trasplante de hígado mejora la super-
vivencia de los pacientes con hepatocarcinoma y simultáneamente se desea valorar el efec-
to del estadio tumoral y de otros factores (sexo, edad, etc.) sobre la supervivencia de los
pacientes, se empleará la regresión de Coxe:12. Téngase en cuenta que no se trata sólo de
saber el efecto sobre la supervivencia después de un tiempo determinado de seguimiento
(p. ej., la supervivencia a los 5 años), sino de valorar cuál es el efecto sobre la función de
supervivencia a lo largo de todo el periodo de observación de los pacientes, sea cual sea el
punto temporal que se elija para la comparación. Si sólo interesase estudiar el efecto sobre
la supervivencia en un punto del tiempo (p. ej., a los 5 años), entonces bastaría con un
análisis de regresión logística, porque la variable de respuesta sería dicotómica (sí sobrevi-
ven o no sobreviven). Sólo la regresión de Cox permite afirmar que una supervivencia más
ventajosa puede ser atribuida a un determinado tratamiento, porque, por ejemplo, com-
prueba que a igualdad de edad, sexo, estadio tumoral, etc., los pacientes que fueron trata-
dos con transplante hepático sobrevivieron más en cualquier punto posible dentro del
seguimiento que ha existido en el estudio. A este procedimiento multivariable de tener en
Análisis de supervivencia y análisis multivariado 19
cuenta los niveles de todos los demás factores y poder asegurar que un efecto pertenece
realmente a una determinada variable y no a los otros factores, se le denomina “ajustar” por
esos otros factores como hemos visto en la regresión logística.
La ecuación de la regresión de Cox es:
Donde lambda dependiente del tiempo, lt como se recoge en la figura 17–7, es la tasa (en
inglés hazard) de fallecer más allá del instante “t” (es decir, la tasa instantánea de fallecer).
En lo demás, todo es bastante parecido al análisis de regresión logística. La tasa se diferen-
cia del riesgo en que la tasa expresa la rapidez con la cual se enferma (fallecimientos por
unidad de tiempo), mientras que el riesgo sólo es una proporción y no tiene en cuenta más
que el número de sujetos inicialmente a riesgo de fallecer. El hazard es una tasa instantá-
nea, que conceptualmente corresponde a una duración de tiempo infinitesimal.
Se demuestra que para un factor pronóstico dicotómico xi cuyo valor sea 1 para los
expuestos a ese factor y 0 para los no expuestos, la razón de hazards (hazard ratio, HR) será:
Esta medida de asociación aunque se expresa por algunos como un riesgo relativo y se
interpreta como tal (razón de proporciones) es en realidad una hazard ratio, y se asemeja
más a la razón de densidades de incidencia (RDI, razón de tasas) que a la razón de inciden-
cias acumuladas (razón de proporciones o riesgo relativo). Una hazard ratio de 2 significa,
en realidad, que se multiplica por 2 la rapidez con la cual fallecen los sujetos que están
expuestos al factor pronóstico que se estudia. Un hazard ratio de 1, significa que el efecto
© Editorial El manual moderno Fotocopiar sin autorización es un delito.
del factor es nulo: no es un factor que afecte al pronóstico. Un hazard ratio de 0,5 significa
que esa exposición en vez de asociarse a un mal pronóstico, lo mejora, ya que reduce la
velocidad de ocurrencia de fallecimientos a la mitad. Si la exposición fuese cuantitativa
habría que elevar el número e al coeficiente correspondiente (bi), pero multiplicando antes
el coeficiente por el incremento en unidades de la variable independiente cuyo hazard
ratio queramos estimar, tal como se podía hacer en el ejemplo de regresión logística con la
edad para calcular una odds ratio. Cuando se emplea el modelo de regresión de Cox, se
asume que la razón de tasas (hazard ratio) es constante a lo largo del tiempo. Hay métodos
para verificar si es cierta esta suposición y también hay técnicas que permiten trabajar con
modelos de riesgo no proporcionales cuya descripción y análisis superan los objetivos de
este texto.
4( z α / 2 + z β ) 2
n=
[ln(HR)]2
Donde:
n: número de eventos que deben observarse
z±/2 = valor de la distribución normal para el error alfa deseado (a 2 colas)
z² = valor de la distribución normal para el error beta deseado (a 1 cola)
HR = hazard ratio (equivalente al riesgo relativo, responde a la pregunta ¿cuántas
veces esperamos que sea superior el evento en un grupo que en otro?)
Así, para un riesgo relativo de 1,5, con un error alfa de 0,05 (z=1,96) y un error beta de 0,2
(potencia del 80%, z=0,84), necesitaríamos observar 256 eventos.
4(1,96 + 1,28) 2
256 =
[ln(1,5)]2
En la siguiente cuadro y figura se representan diversos supuestos, con el número necesario
de eventos que se deben observar.
REFERENCIAS
1. Greenhalgh T. Statistics for the non–statistician. I: Different types of data need different statistical
tests. BMJ 1997: 364–6. 4.
2. Altman DG. Practical statistics for medical research. Londres, Chapman and Hall, 1991. 3.
3. Collet D. Modelling survival data in medical research. Londres, Chapman and Hall, 1994.
4. Martínez-González MA, de Irala J, Seguí-Gómez M (eds.). Métodos en Salud Pública (4ª ed.).
Pamplona: Ulzama Digital, 2003.
5. Martínez González MA, De Irala Estévez J, Faulín Fajardo FJ (eds.). Bioestadística amigable.
Madrid: Díaz de Santos, 2001.
6. Martínez–González MA, de Irala J, Guillen F. ¿Qué es una odds ratio? Med Clin 1999; 112: 416–422.
7. Canga N, de Irala J, Vara E, Duaso MJ, Ferrer A, Martínez-González MA. Intervention study for
smoking cessation in diabetic patients, a randomized controlled trial in both clinical and primary care
settings. Diabetes Care 2000;23:1455-60.
8. De Irala J, Martínez-González MA, Seguí-Gómez M (eds.). Epidemiología aplicada Barcelona:
Ariel. 2004.
9. De Irala J, Martínez-González MA, Guillén-Grima F. ¿Qué es un factor de confusión? Med Clin
(Barc.) 2001;117:377-385. (fe errores: Med Clin (Barc.) 2001;117: 775).
10. Cox DR. Regression model and life tables. J Roy Statist Soc B 1972; 34: 187–220.
11. Cox DR, Oakes D. The analysis of survival data. Londres, Chapman and Hall, 1984.
12. Sangro B, Herraiz M, Martínez-González MA, Bilbao I, Herrero I, Beloqui O, Betés M, de la
Peña A, Cienfuegos JA, Quiroga J, Prieto J. Prognosis of hepatocellular carcinoma in relation to
treatment: a multivariate analysis of 178 patients from a single European institution. Surgery
1998;124:575-83.
© Editorial El manual moderno Fotocopiar sin autorización es un delito.