Documentos de Académico
Documentos de Profesional
Documentos de Cultura
y anlisis multivariado
Miguel ngel Martnez Gonzlez, Jokin de IralaEstvez
(Captulo 17)
Figura 171. Seguimiento de 6 pacientes. Se han observado 3 muertes (pacientes 1, 3 y 6, representados con cruces). Dos pacientes estn censurados por seguir vivos al concluirse el estudio
(pacientes 2 y 5). Otro (paciente 4) tambin est censurado, pero porque se perdi despus de 4
aos de seguimiento.
se representa el tiempo de seguimiento de cada paciente por una lnea. Hay dos situaciones
posibles: aqullos cuyo periodo de seguimiento acaba porque fallecen (representados por
una cruz) o aquellos que estn vivos cuando dejan de ser observados (se van del estudio, se
trasladan de ciudad, acaban el estudio estando vivos), en estos se representa su final por
una seal de visto bueno.
Por ejemplo, el primer paciente muri tras haber estado 5 aos en el estudio y el
ltimo paciente entr tarde y muri a los 3,5 aos de entrar en el estudio. A pesar de que
el seguimiento de cada paciente suele haberse empezado en fechas de calendario diferentes, debe imaginarse que todos han empezado el estudio en la misma fecha. Esto supone
asumir que se trata de pacientes homogneos en el sentido de que los distintos tiempos
de entrada en el estudio no estn relacionados con el efecto de inters.
Cuadro 171. Preparacin de los datos para hacer un anlisis de supervivencia
PACIENTE
TIEMPO
ESTADO
1, 5
3, 5
La primera columna indica el nmero de identificacin de cada paciente. La segunda, el tiempo durante el cual se le ha observado. La tercera columna indica el estado del paciente al final del seguimiento. Se ha asignado un 1 a los que han fallecido
(su tiempo de seguimiento es, por tanto, la duracin de su supervivencia) y un 0 a los que seguan vivos al final del seguimiento. Es muy importante que los datos se hayan ordenado segn el tiempo de observacin en orden ascendente
(Captulo 17)
peculiares, que probablemente tendrn una supervivencia distinta (mejor o peor) de los
que son seguidos hasta el final.
En el ejemplo de los 6 pacientes antes comentado, si se excluyen los casos de los cuales
no se sabe cunto han tardado en morir, ya que la ltima informacin sobre ellos es que
seguan vivos Pacientes censurados (pacientes 5, 2 y 4 que se han sombreado); y se consideran slo aquellos que se sabe cuanto han tardado en morir (pacientes 3, 6 y 1), se podra
calcular fcilmente la supervivencia.
Si nos olvidsemos de los censurados, podra pensarse que la supervivencia (S) en cada
tiempo valdra:
A los dos aos: ha muerto 1 y sobreviven 2........................ S2 = 2/3 = 0,67
(67%)
A los 3,5 aos: han muerto 2 y sobrevive 1 ........................ S3,5 = 1/3 = 0,33
(33%)
(0%)
Pero hacer esto no es correcto, pues supone, por un lado desaprovechar la informacin que
proporcionan los sujetos 5, 2 y 4 y, por otro lado, algo ms importante: no es verdad, por
ejemplo que a los 3,5 aos la supervivencia sea del 33%, ya que los pacientes nmero 2 y 4
han sobrevivido al menos 4 aos. Por tanto, hay que usar un mtodo que incluya en los
clculos a estos pacientes, como el 5, 2 y 4, de los que tenemos una informacin truncada
o censurada. En el mtodo de KaplanMeier para aprovechar esta informacin la supervivencia a tiempo t (St) se define como:
St =
Si
ni
Donde la letra pi mayscula (P) es un smbolo anlogo al sumatorio (S), pero que significa
productorio o multiplicatorio, es decir, en vez de expresar sumar todo quiere decir
multiplicar todo; si son los supervivientes en el tiempo ti, y ni son los que estn a riesgo de
fallecer al inicio del tiempo ti. Es el producto de una serie de probabilidades condicionales,
y se calcula por multiplicacin. La condicin es haber llegado vivo hasta el instante inmediatamente anterior a ese tiempo ti. Lo que expresa este estimador de KaplanMeier no es
una nica cantidad, sino una funcin que variar a lo largo del tiempo, por eso se indica
como St, donde el subndice t indica que la supervivencia ser distinta de un tiempo a otro.
En la cuadro 172 se representa, paso a paso cmo se calcula el estimador de Kaplan
Meier para los datos del ejemplo.
Cualquier anlisis de supervivencia se suele acompaar de la respectiva representacin
grfica para expresar visualmente cmo va disminuyendo la probabilidad de sobrevivir a
medida que pasa el tiempo. Siempre se sita el tiempo en el eje de abscisas (x) y la
estimacin del el porcentaje de los que sobreviven en el eje de ordenadas (y). Las curvas
de supervivencia calculadas con el mtodo de KaplanMeier son un procedimiento descriptivo: sirven para resumir la historia de una serie de pacientes en cuanto a su riesgo de
fallecimiento, o visto en trminos positivos, en cuanto a su probabilidad de supervivencia.
TIEMPO
ESTADO
1, 5
4/5 = 0, 8
0, 8
3, 5
3/4 = 0, 75
0, 8 0, 75 = 0, 6
0/1 = 0
0, 6 0 = 0
Las 3 primeras columnas coinciden con las del cuadro 171. La penltima columna estima la proporcin de pacientes que sobreviven ms all de cada tiempo, pero slo se clcula para aquellos tiempos en los que se observa algn fallecimiento. Por
ejemplo, hay 5 pacientes a riesgo de fallecer a los 2 aos (ni = 4), stos son los pacientes 3, 6, 2, 4 y 1; de ellos sobreviven 4 (si = 4). El cociente si / ni = 0, 8 estima la probabilidad de sobrevivir 2 o ms aos. La ltima columna corresponde al estimador de Kaplan-Meier y va multimplicando los cocientes si / ni de cada tiempo por el producto previo. As, podremos decir
que la supervivencia acumulada a los 2 aos era del 80%, a los 3, 5 aos del 60% y a los 5 aos del 0%
Como muestra la figura 172, para construir una curva de supervivencia se deben dar
los siguientes pasos:
a. Ordenar ascendentemente los tiempos de supervivencia (o tiempos de observacin).
b. Hacer una cuadro donde una columna (ti) corresponda a los tiempos de observacin
para cada participante y otra al estado de los individuos al finalizar su periodo de
seguimiento.
c. Calcular para cada periodo de tiempo el cociente entre los que sobreviven y los que
estn a riesgo de fallecer (si/ni). Se crea otra columna para estos cocientes entre
quienes sobreviven (si) y los que estn a riesgo (ni) de fallecer (son los que entran
vivos en ese tiempo). En esta columna slo hay datos para cuando alguien fallece. Es
importante hacer notar que entre los que entran a riesgo de morir (ni) se incluyen
tambin el individuo o individuos que van a morir en ese periodo, aunque mueran
justamente en el inicio del periodo.
d. Multiplicar en cada periodo de tiempo los cocientes (si/ni) por los de los tiempos
anteriores. La supervivencia en ese momento ser precisamente este producto.
e. Finalmente, siempre es recomendable representarlo grficamente. Se debe empezar con
una supervivencia de 1, que se mantiene hasta que se produce el primer fallecimiento. En ese momento la grfica da un salto correspondiente al descenso de la supervivencia a partir de ese momento (en el ejemplo pasa a 0,80). Y as sucesivamente.
Cuando el ms largo de los tiempos corresponde a alguien que segua vivo al final del
periodo de observacin, se deja una lnea horizontal al final. Si todos hubieran fallecido
(como sucede en el ejemplo) se traza una vertical hasta el punto 0 de supervivencia. En la
figura 172 se ha presentado la curva que de KaplanMeier correspondiente a los datos del
ejemplo. Se observa en la figura 173 que los saltos se dan slo cuando ocurre alguna
muerte, cabra preguntarse entonces: si slo los pacientes fallecidos provocan un salto en la
(Captulo 17)
1,0
,9
,8
,7
Supervivencia acumulada
,6
,5
,4
,3
,2
,1
0,0
1
TIEMPO (AOS)
Figura 172. Curva de Kaplan-Meier representando la supervivencia acumulada durante el seguimiento de 6 pacientes. Puede observarse que, como es lgico, slo hay cambios en la supervivencia cuando muere algn paciente. Se han observado 3 muertes (a los 2, 3,5 y 5 aos). Los
otros 3 pacientes estn censurados.
curva cmo influyen los individuos que no fallecen (censurados) en las estimaciones de la
supervivencia? La respuesta es que cada dato censurado influye disminuyendo el denominador de los cocientes si/ni, con lo que, aunque un individuo truncado no provoque un
salto, s provoca una mayor magnitud en el tamao del siguiente salto.
En la cuadro 173 hay otro ejemplo con su solucin. Se ha representado la curva de
Kaplan-Meer de este segundo ejemplo en la figura 173.
Cuadro 173. Clculos para obtener la
estimacin de Kaplan-Meier
ni
,9
si
ni
3/4 = 0, 75
0,68 0, 75 = 0, 51
2/3 = 0, 75
0, 51 0, 67 = 0, 34
1/2 = 0, 50
0, 34 0, 50 = 0, 17
11
9/10 = 0, 9
6/8 = 0, 75
0, 9
0, 9 75 = 0, 68
,8
Supervivencia acumulada
TIEMPO ESTADO
si
1,0
,7
,6
,5
,4
,3
,2
,1
0,0
0
10
11
Fi
17 3 K l M i
t i
Figura 173. Kaplan-Meier: representacin grfica
Lo que hay que hacer en cambio para comparar dos o ms curvas de supervivencia es
usar diversos tests especficamente diseados para ello y que tienen en cuenta toda la
historia de seguimiento de los pacientes en vez de considerar slo un punto en el tiempo, es
decir detectan diferencias persistentes a lo largo del tiempo en la supervivencia.
(Captulo 17)
As, para la supervivencia acumulada a 2 aos que aparece en la cuadro 173, su error
estndar se calculara multiplicando la supervivencia estimada (0,68) por la suma de los
cocientes entre fallecidos y el producto de totales por supervivientes sumando los del
tiempo previo (1/(10 9)) y los de ese tiempo (2/(8x6)). Es decir, el error estndar valdra
EES2=0,68 [(1/90)+(2/48)]0,5 = 0,16. En cambio, para la supervivencia al ao, EES1=0,9
(1/90)0,5= 0,095. Para los 5 aos, EES1= 0,19.
Una aproximacin poco fina pero conservadora para estimar los intervalos de confianza al
95% ser aplicar la siguiente expresin:
IC 95% St = Superv t 1,96 EE
(1,96 es el valor z de la normal para un error alfa bilateral del 5%)
Por ejemplo, si en el listado de SPSS vemos la salida que aparece en las tres primeras
columnas de la cuadro 174 (corresponden a los datos del ejemplo de la cuadro 173), las
estimaciones de supervivencia con sus lmites de confianza seran las presentadas en las dos
ltimas columnas de la tabla.
Cuadro 174. Mtodo desaconsejable para estimar los intervalos de confianza
de la supervivenciar
TIEMPO
SUPERVIVENCIA
IC 95%
0, 9
0, 0949
0, 71
1, 09
0, 675
0, 1551
0, 37
0, 99
0, 5063
0, 1868
0, 14
0, 88
0, 3375
0, 1857
-0, 03
0, 71
0, 1688
0, 1512
-0, 13
0, 47
Con los datos del cuadro 173 se han calculado los errores estndar y la estimacin de los intervalos de confianza al 95% para
la supervivencia. Las 2 primeras columnas coinciden con la primera y la ltima del cuadro 173, la tercera columna recoge los
errores estndar (son los que suelen presentar los programas de software convencionales, como SPSS) y las dos ltimas el intervalo de confianza calculado simplemente al restar y sumar 1, 96 veces el error estndar a cada estimacin de la supervivencia. como puede verse, hay lmites de confianza que exceden de 1 y otros que son negativos, lo cual es absurdo. En el cuadro
175 se presentan las estimaciones ms adecuadas, libres de este problema.
Pero, el mtodo simplista de sumar y restar 1,96 veces el error estndar a la supervivencia estimada es desaconsejable porque proporciona intervalos de confianza que son negativos y otros que exceden de 1,0, lo cual es absurdo. Se puede usar otra expresin ms
adecuada3, calculando un error estndar transformado (EEt).
Mtodo recomendable para estimar los intervalos de confianza de la Supervivencia
EEt =
1
n s
i i
2
(ln[S ])
ni si
Donde ln significa logaritmo natural (neperiano) y EXP supone elevar a la cantidad correspondiente el nmero e, base de los logaritmos naturales. As, para la supervivencia a 5 aos
del ejemplo anterior (S5 = 0,5063), el intervalo de confianza al 95% sera:
EEt =
1
2
1
1
+
+
= 0,54
2
(ln[0,5063]) 10 9 8 6 4 3
IC 95% = 0,5063EXP ( 1,960,54) = 0,14 0,79
10
(Captulo 17)
En la cuadro 175 se recogen los intervalos de confianza para cada tiempo, as calculados.
Puede apreciarse que los intervalos de confianza son ms estrechos y adems nunca son
inferiores a 0 ni superiores a 1.
Cuadro 175. Con los mismos datos de los dos cuadros anteriores se han calculado los
errores estndar transformados (EEt) y la estimacin de los intervalos de confianza al
95% para la supervivencia donde ya se calculan con la expresin adecuada para que
no sobrepasen nunca la unidad o el 0. Este mtodo es el ms aconsejable
Mtodo recomendable para estimar los intervalos de confianza de la supervivencia
EEt =
n s
1
i i
2
(ln[S ])
ni si
TIEMPO
SUPERVIVENCIA
IC 95%
0, 9
0, 47
0, 99
0, 675
0, 58
0, 29
0, 88
0, 5063
0, 54
0, 14
0, 79
0, 3375
0, 51
0, 05
0, 67
0, 1688
0, 83
0, 00
0, 70
Puede programarse una hoja de clculo (p. ej., en Microsoft Excel) para obtener intervalos
de confianza al 95% de la supervivencia a partir del output convencional que proporciona
un paquete estadstico de anlisis de supervivencia. Se indican a continuacin las rdenes
que deben drsele a la hoja de clculo5. Si se ha introducido el valor de la supervivencia en
la casilla A2 y su error estndar convencional (el que aparece por ejemplo en SPSS en la
casilla B2), deber indicarse
C2 = (((B2/A2)^2) * (1/(LN(A2))^2))^0,5
D2 = (A2)^EXP(1,96*C2)
E2 = A2^EXP(-1,96*C2)
ANLISIS MULTIVARIADO
En la medicina basada en la evidencia resulta til aplicar modelos multivariantes para
intentar explicar un fenmeno, teniendo en consideracin varias variables simultneamen-
11
te o para realizar predicciones. Por ejemplo, puede resultar de inters conocer qu factores
pronsticos influyen en la supervivencia de los pacientes con infarto de miocardio, o si la
supervivencia de los pacientes con un determinado tumor se ve afectada por diversos
tratamientos (quimioterapia, radioterapia) u otros factores, como por ejemplo, el estado
psicolgico del paciente. En general, la aplicacin de una tcnica de anlisis multivariante
significa que se tienen en cuenta simultneamente muchas variables en el anlisis de los
datos. La principal ventaja que ofrecen estas tcnicas, es que permiten controlar de modo
eficiente muchos factores de confusin al mismo tiempo cuando se trata de estudiar asociaciones potencialmente causales entre una determinada exposicin y un efecto o desenlace. sta ha sido y sigue siendo su principal aplicacin en la investigacin mdica en las
ltimas 3 dcadas. El ajuste multivariante supone la aplicacin de un modelo matemtico
que hace ms comparables a los grupos de individuos expuestos y no expuestos, evitando
la distorsin que supondra que, por ejemplo, los expuestos fuesen de mayor edad o se
encontrasen con mayor frecuencia sometidos a otros factores pronsticos distintos del que
se est estudiando. As se consigue que la comparacin de inters quede depurada de otros
factores y se pueda apreciar mejor cul es su efecto verdaderamente independiente. Hay
muchos procedimientos y tcnicas de ajuste multivariante. Los ms utilizados se suelen
basar en un modelo de regresin. El ms simple es la regresin lineal.
REGRESIN MLTIPLE
Se emplea cuando se desea estudiar como influyen varios factores (o variables independientes) en una sola variable de respuesta (la variable dependiente o desenlace), que ha de
ser en este caso una variable cuantitativa numrica, como por ejemplo la talla o el peso. La
ecuacin de la regresin lineal simple es la ecuacin de una recta; ste es el modelo matemtico ms sencillo:
y = a + bx
Donde y es la variable dependiente o desenlace, mientras que x es la variable independiente o factor predictor. A la constante a se le llama ordenada en el origen y al coeficiente
b, se le llama pendiente de la recta. Pero esta ecuacin se puede generalizar para el caso en
que haya ms de una variable independiente. Supongamos que haya 3 variables independientes o factores predictores: x1, x2, x3. Podra construirse la ecuacin:
y = a + b1x1 + b2x2 + b3x3
12
(Captulo 17)
La interpretacin ser que por cada ao ms de edad que cumple el nio su talla aumenta
en 8 cm, independientemente de cul sea la talla del padre o de la madre. Por cada cm ms
de altura del padre, el nio tendr, (sea cual sea su edad y sea cual sea la talla de su madre)
0,06 cm ms de altura. Y por cada cm ms de altura de la madre, el nio ser 0,07 cm ms
alto, independientemente de cul sea la altura de su padre y cul sea su edad.
Es posible tambin introducir variables categricas en el modelo tales como el sexo del
nio. Para ello introduciramos en el modelo otra nueva variable (sexo= x4), con dos cdigos: varn = 1 y mujer = 0. Generalmente se le da el valor 0 a aquella categora en la que se
espera un nivel menor o basal. Cmo las nias suelen tener una menor talla que los nios
se les da en este ejemplo el valor 0. Un ejemplo del modelo que se obtendra al ajustar as
una regresin mltiple sera el siguiente:
y = 30 + 4x1 +8x2
Talla = 30 + 30 +4(Sexo) +8(Edad)
REGRESIN LOGSTICA
Los modelos matemticos derivados de la regresin mltiple son muy tiles en
epidemiologa, pues desempean un papel importante en el control de los sesgos de confusin, pero se basan en una serie de supuestos cuyo cumplimiento no siempre es fcil comprobar. Por ejemplo, no siempre existe una relacin lineal entre la variable de exposicin
(variable independiente, x) y la variable de respuesta (variable dependiente, y). Cuando
lo que se desea conocer es cmo una serie de factores influyen en una variable binaria o
13
dicotmica, es decir con dos posibilidades, como por ejemplo estar sano o enfermo, responder a un tratamiento o no responder, etc. en vez de utilizar la regresin lineal, se va a
utilizar la regresin logstica. En este caso, al ser dicotmica la respuesta o resultado, se
hablara de regresin logstica binaria.
La regresin logstica se usar, por tanto, cuando se valoran diversos predictores de un
resultado o desenlace que tiene carcter dicotmico. Por ejemplo cuando se intentan valorar
las variables que pueden predecir la aparicin de diabetes. El coeficiente bi de cada uno de
los predictores utilizado como exponente del nmero e, base de los logaritmos naturales,
equivale a la odds ratio (OR), como se explica a continuacin.
La funcin logstica es aqulla que halla, para cada individuo, segn los valores de un
factor predictor (x), la probabilidad (p) de que presente el efecto o desenlace estudiado. La
expresin de la funcin logstica es:
Con una manipulacin algebraica de esta ecuacin, tomando logaritmos neperianos (ln), se
obtiene una funcin llamada logit y hace que se parezca a la regresin lineal:
ln (p/1-p) = a + bx
Esta expresin, en efecto, es muy similar a la sencilla ecuacin de la recta. El nico cambio es
que se ha sustituido la variable dependiente (y) por otra expresin. Ahora la variable dependiente es el logaritmo neperiano (ln) de la probabilidad (p) de que ocurra un suceso,
dividido por la probabilidad de que no ocurra (1p). A ln (p/1-p) se le llama el logit. Es decir:
logit = ln (p/1-p)
Debemos decir que lo que hay dentro del parntesis (p/1-p) corresponde al concepto de odds.
A este cociente se le llama en ingls odds y en espaol se ha querido traducir por ventaja.
Una odds es la probabilidad (p) dividida por el complementario de la probabilidad (1-p).
odds =
p
1 p
Es ms fcil calcular una odds que definirla. Si en un estudio que incluye a 250 pacientes
obesos, 50 de ellos han desarrollado despus diabetes, la odds de desarrollar diabetes se
calculara dividiendo 50 entre 200 (odds =1/4). Tambin puede expresarse como una odds
= 1:4 y se interpreta como que apareci un diabtico por cada 4 no-diabticos.
14
ODDS =
(Captulo 17)
P (diabetes)
50 / 250
50 1
=
=
=
P (no diabetes) 200 / 250 200 4
p=
odds
1 + odds
NO CEDE
INTERVENCIN
25
122
147
CONTROL
130
133
28
252
280
= 25/122
= 0, 205
= 3/130
= 0, 023
= 8, 88
= 8, 88
25 130
122 3
De ellos, 147 fueron asignados aleatoriamente al grupo de intervencin y de 130 al grupo control. En total
dejaron de fumar 28, 25 de ellos en el grupo de intervencin y 3 en el grupo control
15
Como puede apreciarse en la cuadro 176, la odds ratio (OR) es simplemente el cociente entre las odds del resultado, en este caso, el resultado es dejar de fumar. Tambin
puede calcularse la odds ratio mediante el cociente de los productos cruzados de la tabla
2x2 (figura 175). El resultado (OR = 8,88) significa que para la intervencin se ha observado una efectividad que casi 9 veces mayor que para el grupo control.
Figura 175. La odds ratio (OR) se calcula en un tabla 2 2 mediante la rzn de los productos
cruzados.
Nos hemos detenido en explicar el concepto de odds ratio (OR) porque esta medida
de asociacin es el fruto ms interesante que se suele obtener habitualmente al hacer una
regresin logstica. Calcular la OR mediante regresin logstica aporta la ventaja de que se
puede ajustar esta medida por otras variables que tambin pudiesen influir en el resultado
(p. ej., en el caso anterior podra pensarse que es ms fcil que respondan bien a una
intervencin los diabticos con mayor nivel educativo y debera plantearse la cuestin de si
el nivel educativo medio del grupo de intervencin y del grupo control eran similares). A
esas otras variables se les llama factores de confusin y se pueden controlar o ajustar por
ellos mediante un modelo de regresin logstica8-9. En efecto, volviendo a la regresin
logstica, la ecuacin antes vista
ln (p/1-p) = a + bx
16
(Captulo 17)
La transformacin logartmica es necesaria para adaptarse a un fenmeno como la probabilidad, cuyos lmites tericos son tan estrechos como 0 y 1. En cambio, los lmites tericos
de ln (odds) son desde infinito hasta +infinito. La interpretacin de la regresin logstica
es bastante directa, ya que cada coeficiente de regresin bi expresa el logaritmo neperiano
de la odds ratio (OR) de que ocurra un fenmeno por unidad de cambio del factor predictor
(variable independiente, xi).
bi = ln (OR)
Esto hace a la regresin logstica un procedimiento muy til para construir modelos matemticos que ajusten por factores de confusin, ya que sus resultados son interpretables
como odds ratios estimadas en el supuesto de que los dems factores incluidos en el modelo (los otros predictores: x2, x3,...xp) fuesen exactamente iguales para los individuos de los
grupos que se comparan. Por este motivo, la regresin logstica es muy utilizada, cada vez
ms, tanto en epidemiologa de factores de riesgo como en epidemiologa clnica, ya que
libera a las estimaciones de la presencia de confusores indeseados8.
Por ejemplo, si a los datos de la cuadro 176 le aplicamos una regresin logstica
univariante, utilizando como variable dependiente (resultado) el cese del tabaco y como
variable independiente la intervencin, un programa convencional (SPSS) encontrara los
resultados recogidos en la cuadro 177.
E.T.
Wald
gl
Sig.
Expo(B)
Paso
INTERV
2, 183
, 624
12, 252
, 000
8, 874
1a
Constante
-3, 768
, 584
41, 665
, 000
, 023
La variable dependiente (respuesta) es el cese del hbito tabquico. La variable independiente es la intervencin (INTERV).
La odds ratio viene expresada por Exp(B)
La salida de ordenador presenta el coeficiente b que vale 2,183, su error estndar (E.T.),
un test estadstico (test de Wald) y el valor de la odds ratio (Exp(B)). Esta odds ratio es
17
equivalente a la calculada a mano. Sin embargo, podemos pedirle al ordenador que ajuste la estimacin de la odds ratio por otras variables potencialmente confusoras, por ejemplo, la edad y
el sexo, entonces los resultados seran los presentados en la cuadro 178.
Ahora puede afirmarse que a igualdad de sexo y edad, la intervencin tiene una odds
ratio de 9,3 para lograr el cese del tabaco. Esto es lo que significa que se haya ajustado. Se
ajusta por una variable cuando se introduce esa variable en el modelo. Con este ejemplo, se
aprecia que resulta interesante la regresin logstica porque puede servir para estimar la
fuerza de la asociacin de cada factor con el desenlace de una manera independiente. La
estimacin independiente quiere decir que se han controlado otros factores (se ha liberado
a la odds ratio de esos factores de confusin).
Paso
a
INTERV
SEXO
EDAD
Constante
E.T.
Wald
gl
Sig.
Expo(B)
2, 228
, 626
12, 664
, 000
9, 278
, 228
, 614
, 138
, 710
1, 257
, 025
, 016
2, 593
, 107
1, 026
-5, 496
1, 432
14, 723
, 000
, 004
La variable dependiente sigue el cese del tabaco. Ahora se han aadido dos nuevas variables independientes (sexo: 1 = hombre; 2 = mujer) y edad (en aos). La odds ratio (9, 278) de la intervencin ahora estara ajustada por edad y sexo. Se aprecia
que es ms probable el cese en mujeres (ORajustada = 1, 026) para cada ao adicional de edad.
Si se desea saber cul es la odds ratio para una diferencia de edad de 10 aos, se multiplicara por 10 el coeficiente de la edad (0,025) y se elevara el nmero e a la cantidad
resultante.
Por cada 10 aos ms de edad aumentara en un 28,4% la odds de dejar el tabaco, independientemente de que el paciente hubiera sido sometido o no a la intervencin y de su sexo.
Esto significa que estamos comparando dos sujetos que estn en el mismo grupo (ya sea el
grupo de intervencin o el de control) y que son del mismo sexo, pero que se llevan 10
aos de diferencia. Entonces es ms probable que el mayor de ellos sea el que deje de
fumar. Pero esta ventaja con la edad no resulta estadsticamente significativa, ya que el
valor p para la edad en el test de Wald fue de 0,107.
De todos modos, siempre estamos ante el paradigma de la estadstica, porque comparamos un efecto con un error4-5, y habra que considerar que las estimaciones de
odds ratios nunca son perfectas y existe una amplia variabilidad individual, que en principio es aleatoria. No se pueden establecer predicciones individuales, pero los modelos son
tiles para saber cul ser la respuesta promedio en un grupo suficientemente numeroso
de pacientes. Para medir la fuerza del efecto de la intervencin se utiliza la /odds ratio6. Lo
ms interesante es que el efecto favorable de la intervencin se da a igualdad de nivel de
18
(Captulo 17)
edad y sexo. Es decir, de modo independiente de la edad y sexo. El modelo est ajustado
por edad y sexo9. Cada predictor independiente (xi) que se introduzca en el modelo supone un ajuste y un control del sesgo de confusin que ese predictor podra provocar. Al igual
que en la regresin lineal mltiple, es posible introducir variables independientes (xi) categricas o dicotmicas en los modelos (el sexo en nuestro caso). Tambin es posible incluir
como variables independientes, variables cualitativas con varias categoras, como estado
civil (soltero, casado, viudo, etc.). Pero ello requerira la creacin de una serie de variables
artificiales tambin conocidas como variables indicadoras o variables dummy.
La regresin logstica se emplea habitualmente en uno de los diseos epidemiolgicos
mas utilizados: los estudios de casos y controles8. Sin embargo en los de estudios de casos
y controles emparejados no se debe aplicar la regresin logstica convencional, sino que se
ha de utilizar un tipo especial de regresin logstica: la regresin logstica condicional
Los resultados obtenidos en la cuadro 177 deberan presentarse en un trabajo de investigacin de manera resumida, indicando simplemente cul es la estimacin de la odds ratio
ajustada (y quiz tambin sin ajustar o cruda) para cada variable y cul es su intervalo de
confianza, habitualmente calculado al 95%. Los paquetes estadsticos suelen tener opciones para pedir los intervalos de confianza. Se calculan as:
19
cuenta los niveles de todos los dems factores y poder asegurar que un efecto pertenece
realmente a una determinada variable y no a los otros factores, se le denomina ajustar por
esos otros factores como hemos visto en la regresin logstica.
La ecuacin de la regresin de Cox es:
Donde lambda dependiente del tiempo, lt como se recoge en la figura 177, es la tasa (en
ingls hazard) de fallecer ms all del instante t (es decir, la tasa instantnea de fallecer).
En lo dems, todo es bastante parecido al anlisis de regresin logstica. La tasa se diferencia del riesgo en que la tasa expresa la rapidez con la cual se enferma (fallecimientos por
unidad de tiempo), mientras que el riesgo slo es una proporcin y no tiene en cuenta ms
que el nmero de sujetos inicialmente a riesgo de fallecer. El hazard es una tasa instantnea, que conceptualmente corresponde a una duracin de tiempo infinitesimal.
Se demuestra que para un factor pronstico dicotmico xi cuyo valor sea 1 para los
expuestos a ese factor y 0 para los no expuestos, la razn de hazards (hazard ratio, HR) ser:
Esta medida de asociacin aunque se expresa por algunos como un riesgo relativo y se
interpreta como tal (razn de proporciones) es en realidad una hazard ratio, y se asemeja
ms a la razn de densidades de incidencia (RDI, razn de tasas) que a la razn de incidencias acumuladas (razn de proporciones o riesgo relativo). Una hazard ratio de 2 significa,
en realidad, que se multiplica por 2 la rapidez con la cual fallecen los sujetos que estn
expuestos al factor pronstico que se estudia. Un hazard ratio de 1, significa que el efecto
del factor es nulo: no es un factor que afecte al pronstico. Un hazard ratio de 0,5 significa
que esa exposicin en vez de asociarse a un mal pronstico, lo mejora, ya que reduce la
velocidad de ocurrencia de fallecimientos a la mitad. Si la exposicin fuese cuantitativa
habra que elevar el nmero e al coeficiente correspondiente (bi), pero multiplicando antes
el coeficiente por el incremento en unidades de la variable independiente cuyo hazard
ratio queramos estimar, tal como se poda hacer en el ejemplo de regresin logstica con la
edad para calcular una odds ratio. Cuando se emplea el modelo de regresin de Cox, se
asume que la razn de tasas (hazard ratio) es constante a lo largo del tiempo. Hay mtodos
para verificar si es cierta esta suposicin y tambin hay tcnicas que permiten trabajar con
modelos de riesgo no proporcionales cuya descripcin y anlisis superan los objetivos de
este texto.
20
n=
(Captulo 17)
4( z / 2 + z ) 2
Donde:
[ln(HR)]2
As, para un riesgo relativo de 1,5, con un error alfa de 0,05 (z=1,96) y un error beta de 0,2
(potencia del 80%, z=0,84), necesitaramos observar 256 eventos.
256 =
4(1,96 + 1,28) 2
[ln(1,5)]2
90%
80%
60%
HR
1, 2
1265
945
590
1, 3
611
457
285
1, 4
372
278
174
1, 5
256
191
120
1, 6
191
143
89
1, 7
150
112
70
1, 8
122
91
57
1, 9
103
77
48
88
66
41
2, 1
77
58
36
2, 2
68
51
32
2, 3
61
46
29
2, 4
55
41
26
2, 5
51
38
24
2, 6
47
35
22
2, 7
43
32
20
2, 8
40
30
19
2, 9
38
28
18
35
27
17
21
REFERENCIAS
1. Greenhalgh T. Statistics for the nonstatistician. I: Different types of data need different statistical
tests. BMJ 1997: 3646. 4.
2. Altman DG. Practical statistics for medical research. Londres, Chapman and Hall, 1991. 3.
3. Collet D. Modelling survival data in medical research. Londres, Chapman and Hall, 1994.
4. Martnez-Gonzlez MA, de Irala J, Segu-Gmez M (eds.). Mtodos en Salud Pblica (4 ed.).
Pamplona: Ulzama Digital, 2003.
5. Martnez Gonzlez MA, De Irala Estvez J, Fauln Fajardo FJ (eds.). Bioestadstica amigable.
Madrid: Daz de Santos, 2001.
6. MartnezGonzlez MA, de Irala J, Guillen F. Qu es una odds ratio? Med Clin 1999; 112: 416422.
7. Canga N, de Irala J, Vara E, Duaso MJ, Ferrer A, Martnez-Gonzlez MA. Intervention study for
smoking cessation in diabetic patients, a randomized controlled trial in both clinical and primary care
settings. Diabetes Care 2000;23:1455-60.
8. De Irala J, Martnez-Gonzlez MA, Segu-Gmez M (eds.). Epidemiologa aplicada Barcelona:
Ariel. 2004.
9. De Irala J, Martnez-Gonzlez MA, Guilln-Grima F. Qu es un factor de confusin? Med Clin
(Barc.) 2001;117:377-385. (fe errores: Med Clin (Barc.) 2001;117: 775).
10. Cox DR. Regression model and life tables. J Roy Statist Soc B 1972; 34: 187220.
11. Cox DR, Oakes D. The analysis of survival data. Londres, Chapman and Hall, 1984.
12. Sangro B, Herraiz M, Martnez-Gonzlez MA, Bilbao I, Herrero I, Beloqui O, Bets M, de la
Pea A, Cienfuegos JA, Quiroga J, Prieto J. Prognosis of hepatocellular carcinoma in relation to
treatment: a multivariate analysis of 178 patients from a single European institution. Surgery
1998;124:575-83.