Está en la página 1de 222

Modelos Lineales Generalizados

Víctor Moreno 2004

1
Esquema
• Teoría estadística avanzada:
• Modelos lineales generalizados.
• Función de verosimilitud.
• Prueba de la razón de verosimilitud.
• Aproximaciones cuadráticas: test del "score" y test de Wald.
• Modelos para proporciones. Regresión logística.
• Pruebas de asociación y de tendencia.
• Control de la confusión.
• Exploración de interacciones.
• Bondad de ajuste
• Aplicaciones específicas:
– Análisis de casos y controles.
• Modelo logístico condicional
– Generación de escalas de pronóstico.
• Valoración de la capacidad predictiva.
• Análisis discriminante logístico.
• Regresión logística politómica:
– Regresión multinomial
– Modelos ordinales
2
Modelo lineal de regresión

E (y | x ) = a + b x
y  N ( m, s ) 2

y cuantitativa continua ÎÂ: {-¥, +¥}

No hay restricciones sobre X

3
Análisis de respuesta binaria
• Nos interesa un modelo de regresión:

E (y | x ) = a + b x
• Y: la variable respuesta es binaria:

{ 1 : evento
Y = 0 : no evento

• Si se agrupan los datos, E(y|x) = m = Sy/n = p


: proporción de eventos
› Modelo para proporciones
4
ML general para respuestas binarias

• pÎ{0,1}, difícilmente normal

• además no queremos restricciones sobre


los parámetros a,b
• sin ellas, el modelo lineal podría generar
predicciones imposibles para p

5
Modelos lineales generalizados
• Extensión del modelo lineal para acomodar:
– Respuesta con distribución no normal
– Transformaciones linearizantes
• Componentes del modelo:
– Respuesta (Y) observada en unidades
independientes con valores fijos de variables
explicativas (X)
– Las variables X afectan la respuesta según un
modelo lineal:

h = b1 x1 + ... + b p x p
6
• Puede ser necesario transformar la
respuesta para conseguir linealidad:
h=g(m) m: valor medio de la respuesta
• La distribución de probabilidad de la
respuesta pertenece a la familia exponencial:

Transformación g(m)
– Normal identidad: =
– Binomial logit: log(m/{1- m })
– Poisson log(m)
– Gamma inversa: -1/m
7
Utilidad de cada distribución
• Normal: Cuantitativa continua
> Regresión lineal

• Binomial: Binaria (proporciones)


> Regresión logística

• Poisson: Recuento (discreta >=0 )


> Regresión Poisson / Log-lineal

• Gamma: Cuantitativa contínua > 0


8
Interés de los MLG
• Comparten la teoría estadística
necesaria para:
– Estimar los coeficientes y sus varianzas
• Máxima verosimilidtud, mediante iteraciones
de ajustes por mínimos cuadrados ponderados

– Tests de hipótesis sobre coeficientes


• Análisis de varianza / deviance (desvianza)

– Tests de bondad de ajuste del modelo


• R2 y equivalentes no lineales
9
Modelo logístico
æ m ö
logçç ÷÷ = a + b1x1 + ... + bpxp
è1-m ø
• Y: la variable respuesta es binaria:

{ 1 : evento
Y = 0 : no evento

• Si se agrupan los datos, m: proporción de


eventos m = p = Sy/n
› Modelo para proporciones
10
Función logística
z
y 1 e
z = log f ( z) = =
1- y 1 + e-z 1+ ez

1.0
0.8
0.6
f(z)

0.4
0.2
0.0

-6 -4 -2 0 2 4 6
z
11
Propiedades
• f(z) siempre entre 0 y 1
=> Útil para modelar proporciones

• Permite valores de z entre -¥ y +¥


=> Cualquier valor del predictor lineal
• Simétrica alrededor de 0:
z f(z) 1-f(z)
-¥ 0 1
-2 0.11 0.88
0 0.5 0.5
2 0.88 0.11
¥ 1 0

• Entre -2 y 2 es casi lineal y varía un 80%


12
Predicciones del modelo

Y= { 1 : evento
0 : no evento

1
Pr(y=1|x1 ,...,xk )=
1+e -(a +b1 x1 +...+bk xk )

13
Otras transformaciones
• Probit: F-1(p)
• Complementario log-log: log(-log(1-p))

1.0
0.8

logit
cloglog
probit
0.6
Pr(z)

0.4
0.2
0.0

-6 -4 -2 0 2 4 6

z 14
Condiciones para aplicar el modelo
• Observaciones independientes
– si hay dependencia se genera “sobredispersión”
La varianza de p: var(p) = p(1-p)
se puede modelar var(p) = fp(1-p)

• Si se estudia la aparición de un evento, el


tiempo de seguimiento debe ser igual para
todos los individuos. Se puede modelar
“mortalidad al año”, pero no puede haber
censuras.
15
Ejemplos de aplicación
• Estudios de casos y controles
– P(ser caso | X:factores de riesgo y confusores)
• Estudios de factores pronóstico, para
tiempos de seguimiento corto e igual para
todos los individuos
– P(morir antes de 35 días tras un infarto | X)
• Estudios de métodos diagnósticos
– P(enfermo | resultado de la prueba)
• Estudios de cualquier característica binaria
– P(ser fumador | X:condiciones)
– P(ser tratado en el hospital | X) 16
Variables
• Respuesta / Dependiente: BINARIA
• Independientes: cualquier tipo
– Binarias
– Categóricas
• se codifican con variables indicadoras “dummy”
– Cuantitativas
• pueden emplearse transformaciones:
– logaritmo
– potencia
– polinomios
– “splines”
17
Caso 1. Variable binaria
• Estudio de la relación entre el virus de la
hepatitis B y la cirrosis hepática, a partir de
un diseño de casos y controles:
Cirrosis Controles
HbsAg 51 9 60
+
HbsAg 149 191 340
-

200 200 400

18
Hepatitis B * grupo Crosstabulation

grupo
control cirrosis Total
Hepatitis HBsAg - Count 191 149 340
B % within Hepatitis B 56.2% 43.8% 100.0%
% within grupo 95.5% 74.5% 85.0%
HBsAg + Count 9 51 60
% within Hepatitis B 15.0% 85.0% 100.0%
% within grupo 4.5% 25.5% 15.0%
Total Count 200 200 400
% within Hepatitis B 50.0% 50.0% 100.0%
% within grupo 100.0% 100.0% 100.0%
Chi-Square Tests Risk Estimate

Asymp.
Sig. Exact Sig. Exact Sig. 95% Confidence
Value df (2-sided) (2-sided) (1-sided) Interval
Pearson Chi-Square 34.588b 1 .000 Value Lower Upper
Continuity Correctiona 32.961 1 .000 Odds Ratio for Hepatitis B
7.264 3.465 15.229
Likelihood Ratio 37.654 1 .000 (HBsAg - / HBsAg +)
Fisher's Exact Test .000 .000 For cohort grupo = control 3.745 2.036 6.890
Linear-by-Linear For cohort grupo =
34.502 1 .000 .516 .439 .605
Association cirrosis
N of Valid Cases 400 N of Valid Cases 400
a. Computed only for a 2x2 table
b. 0 cells (.0%) have expected count less than 5. The minimum expected count is
30.00.
19
Odds: medida de riesgo
P (suceso ) P (suceso )
odds = =
P (no suceso ) 1 - P (suceso )

• Cuántas veces más probable es que ocurra un


suceso respecto a que no ocurra
• puede tomar valores de {0,+¥}

P (y = 1) P (y = 1)
odds = =
P (y = 0) 1 - P ( y = 1)
20
Odds-ratio: medida de asociación
odds (enfermedad | expuestos )
OR =
odds (enfermedad | no expuestos )
P (y = 1 | x = 1) / P (y = 0 | x = 1)
OR =
P (y = 1 | x = 0) / P (y = 0 | x = 0)
(1 ) /(1 - 1 - (a + b ) )
OR = 1 + e 1+e
- (a + b )

(1 )/(1 - 1 - (a ) )
1+e - (a )
1+e
OR = e b

21
Odds-ratio
• Por cuánto se multiplica el riesgo de cirrosis
si se está infectado respecto a no estar
infectado
• riesgo relativo: razón de odds
• puede tomar valores de {0,+¥}

P(cirr|+)/P(cont|+)
OR = = e b = e1.98 = 7.26
P(cirr|-)/P(cont|-)

0.850/(1-0.850)
OR = = 7.26
0.438/(1-0.438)
22
Simetria del odds-ratio

odds (exposicion | enfermos )


OR =
odds (exposicion | no e nfermos )

P (x = 1 | y = 1) / P (x = 0 | y = 1)
OR =
P (x = 1 | y = 0) / P (x = 0 | y = 0)

OR = e b

23
Modelo logístico
Logit{ P(cirrosis|HBsAg) } = a + bHBsAg

• Variables:
– Respuesta: grupo 1(cirrosis) 0(control)
– independiente: HBsAg 1(+) 0(-)

• Modelo ajustado:
Variable B S.E. Wald df Sig R Exp(B)

HBSAG 1.9825 .3777 27.5571 1 .0000 .2147 7.2612


Constant -.2483 .1093 5.1617 1 .0231

24
Verificación
1 1
p(cirrosis | HBsAg = 0) = -a
= = 0.438
1+ e 1+ e -(-0.25)

1 1
p(cirrosis | HBsAg = 1) = -(a + b )
= -(-0.25+1.98)
= 0.850
1+ e 1+ e

p(cirr | +)/p(cont | +) b
OR = = e = e1.98 = 7.26
p(cirr | -)/p(cont | -)

0.850/(1 - 0.850)
OR = = 7.26
0.438/(1 - 0.438) 25
Interpretación de los coeficientes
• Constante: a = logit{P(cirrosis|HBsAg=0)}
– logit de P(evento en los no expuestos)
• En un estudio de casos y controles no tiene interés
pues depende del la relación entre el número de casos
y de controles, que se fija en el diseño, y de los
códigos que se empleen en la variable exposición.
• En un estudio de cohortes es una estimación de interés
• Coeficientes: b = log(OR)
– OR = eb : cuantifica la magnitud de la asociación
entre la respuesta y el factor de interés
• El código de la exposición debe ser exp: 1 + no exp
26
La codificación es esencial para
interpretar los coeficientes
• exp =1 / no exp=0 OR(evento/exp) = eb

• exp =0 / no exp=1 OR(evento/exp) = e-b

• exp =2 / no exp=1 OR(evento/exp) = eb

• exp =1 / no exp=-1 OR(evento/exp) = e2b

27
Estadística en regresión logística
• Ajustar el modelo: estimar los parámetros
• Máxima verosimilitud
– Variable dependiente binaria: distribución
binomial:
L(X | p) = Õ 1 æç yi ö÷ px i (1 - px ) ni - yi
N n y

è iø
h i = a + å b xi

1
px =
1 + e -h
æ ni ö + y η - n log(1 + e η i )
logL(X | p) = åi çè yi ÷ø i i i
log
28
Elementos de interés
• Parámetros: (a,b)
• Matriz de varianza-covarianza:
æ V(a) C(a, b1 ) C(a, b1 ) ö
ç ÷
å = ç C(a, b1 ) V(b1 ) C(b1, b2 ) ÷
ç C(a, b ) C(b , b ) V(b ) ÷
è 1 2 1 2 ø
• Valor de logL cuando es máximo:
– “Likelihood value”
– Tiene asociados unos “grados de libertad”:
g.l. = #observaciones - #parámetros - 1
29
Elementos derivados
• OR = eb
– permite interpretar los coeficientes como
riesgos

• Errores estándar de b: eeb =ÖV(b)


– permite calcular intervalos de confianza y
realizar tests de hipótesis

• Deviance = -2 * logL
– permite: valorar el ajuste del modelo (datos agrupados)
realizar test de hipótesis (comparando modelos)

30
Análisis de los coeficientes
• {b, eeb}
• Test de Wald: z = b/eeb ~ N(0,1)
– |z| > 1.96 -> b ¹ 0 -> OR ¹ 1
asociación significativa
– p-valor = F-1(z)

• Intervalo de confianza (al 95%)


– para b: b ± 1.96eeb : simétricos

– para OR: eb±1.96eeb : {eb-1.96eeb ; eb+1.96eeb }


asimétricos
31
Prueba de asociación global
• Test de razón de verosimilitud (TRV)
– Equivale al c2 de Pearson

• Es necesario ajustar 2 modelos y comparar


las deviances: “Análisis de deviance”:
Modelo deviance g.l. Ddeviance D g.l.

a Da g.l. a
a+b Da+b g.l. a+b Da- Da+b gla- gla+b

• Ddeviance ~ c2 con Dg.l.


32
Beginning Block Number 0. Initial Log Likelihood Function

-2 Log Likelihood 805.2976

* Constant is included in the model.

Beginning Block Number 1. Method: Enter 10.436

Variable(s) Entered on Step Number


1.. NKCAL NTILES of TKCAL

-2 Log Likelihood 794.861

Chi-Square df Significance

Model 10.436 4 .0337


Block 10.436 4 .0337
Step 10.436 4 .0337

33
Aproximaciones al TRV
• Aproximaciones cuadráticas a la función de
verosimilitud:
• Test de Wald
– aproxima la función de verosimilitud coincidiendo
en el valor del máximo.

• Test del “score”


– aproxima la función de verosimilitud coincidiendo
en el valor nulo

34
Aproximaciones cuadráticas a LogL
-5

Wald
-10
logL

-15

score
-20

-0.6 -0.4 -0.2 0.0 0.2 0.4 0.6

35
Ajuste del modelo
• Deviance residual. Diferencia con la deviance
de un modelo saturado (tantos coeficientes
como observaciones). Sólo es interpretable si
se trabaja con datos agrupados.
• Criterio de información de Akaike
AIC = -2*logL + 2*#b
• Criterio de Schwarz (SC) o BIC
AIC = -2*logL + #b*log(N)
penalizan el uso de parámetros no informativos.
Son útiles para comparar modelos no anidados.
36
Caso 2. Variable categórica:
Relación entre tabaco y cáncer de
colon en Mallorca
TABAC * GROUP Crosstabulation

GROUP
caso control Total
TABAC No fumador Count 152 164 316
% within GROUP 53.1% 55.6% 54.4%
Ex-fumador Count 37 68 105
% within GROUP 12.9% 23.1% 18.1%
Fumador Count 97 63 160
% within GROUP 33.9% 21.4% 27.5%
Total Count 286 295 581
% within GROUP 100.0% 100.0% 100.0%

37
Codificación con variables auxiliares
TABACO Exfuma Fuma

No fuma 0 0
Categorias
de la
variable
Ex 1 0
original
fumador
Fumador 0 1

• Son necesarias (k-1) variables auxiliares para el


modelo pues la primera corresponde a la constante
(siempre vale 0)
38
Modelo logístico
Parameter
Value Freq Coding
(1) (2)
TABAC
No fumador 1.00 316 .000 .000
Ex-fumador 2.00 105 1.000 .000
Fumador 3.00 160 .000 1.000

...

Variable B S.E. Wald df Sig R Exp(B)

TABAC 16.3242 2 .0003 .1237


TABAC(1) -.5326 .2333 5.2127 1 .0224 -.0632 .5871
TABAC(2) .5076 .1971 6.6295 1 .0100 .0758 1.6612
Constant -.0760 .1126 .4555 1 .4997

39
Interpretación del modelo
• logit(Pr(cancer|tabaco) =
a + b1ExFuma + b2Fumador

• exp(b1) = OR de ex-fuma vs no fuma


• exp(b2) = OR de fuma vs no fuma
• a = logit(Pr(cancer|no fuma) )

• Si se desea el OR de ex-fuma vs fuma:


exp(b2-b1) o cambiar la categoría de
referencia
40
Precaución al analizar variables
categóricas
• Es importante que la categoría de referencia
tenga un número suficiente de casos para
evitar inestabilidad en el modelo:

EDAD N b e OR (IC95%)

20-29 8 - - 1
30-39 250 0.5 3.2 1.6 (0.003;812)
40-49 73 .07 3.1 2.0 (0.004;992)
50-59 32 1.2 3.0 3.3 (0.005;1339)
41
Caso 3. Variable cuantitativa
• Estudio de la relación entre la edad y la
mortalidad por cardiopatía isquémica en
diabéticos:
EDAD Causa de muerte N p
Otra CI
20-29 9 1 10 0.10
30-34 13 2 15 0.13
35-39 9 3 12 0.25
40-44 10 5 15 0.33
45-49 7 6 13 0.46
50-54 3 5 8 0.63
55-59 4 13 17 0.76
60-69 2 8 10 0.80
Total 57 43 100 0.43
42
1.0 2

logit(p)
P(MCI)

.8 1

.6 0

.4 -1

.2 -2

0.0 -3
20 30 40 50 60 70 20 30 40 50 60 70

Edad Edad

43
Ajuste del modelo logístico

Logit{ P(MCI|EDAD) } = a + bEDAD

• Variables:
– Respuesta: causa muerte 1(ci) 0(otra)
– independiente: edad (en años)
• Modelo ajustado:

Variable B S.E. Wald df Sig R Exp(B)

EDAD .1050 .0231 20.7044 1 .0000 .3700 1.1107


Constant -5.0370 1.0861 21.5076 1 .0000

44
Interpretación de los coeficientes
1
p(MCI | EDAD) =
1+e -( -5.04 + 0.105 *EDAD)

• Constante: a = logit{P(MCI|EDAD=0)}

a = -5.04 -> P(MCI|EDAD=0) = 0.0065


– No tiene interés en esta situación, pero puede
serlo si cambiamos el “0” de la variable:
– ED30 = (EDAD-30)
a = -1.82 -> P(MCI|EDAD=30) = 0.14
45
1.0

P(MCI) .8

.6

.4

.2

0.0
20 30 40 50 60 70

Edad

46
• Coeficientes: b = log(OR)
– OR = eb : cuantifica la magnitud de la asociación
entre la respuesta (mortalidad por CI) y el
cambio factor de interés en una unidad (aumento
de EDAD en 1 año)

– OR = 1.11 (para 10 años: e10b = 2.86)


– El modelo supone linealidad {en escala logit(mCI)}
para todos los posibles valores de EDAD

– Se pueden emplear transformaciones de las


variables cuantitativas para conseguir mejorar la
linealidad (más adelante) 47
Detección rápidad de nolinealidad
• Ajustar un modelo cuadrático

E(Y/X) = a + blX + b cX 2

• El coeficiente bc permite detectar curvatura


en la función de riesgo

48
Otras opciones con variables
cuantitativas
• Transformaciones
– Log(X)
– potencia: Xr
• Polinomios:
– logit(p) = a + b1X + b2X2 + b3X3 + ... bkXk
• No deben emplearse grados muy elevados, normalmente sólo 2 ó 3
• Los coeficientes son muy difíciles de interpretar, se usan
fundamentalmente para ajustar otras variables de manera fina

• “Splines”
49
Variables cuantitativas categorizadas
• Si la relación “dosis-respuesta” no es lineal
para una variable cuantitativa, ésta se suele
categorizar y modelar como categórica:

• Ejemplo: la relación entre la ingesta calórica


total y cáncer colorrectal
– Las Kcal pueden categorizarse en 5 grupos según
quintiles y comparar cada grupo respecto al
primero

50
Caso 4. Energía y cancer colorrectal
GROUP * NTILES of TKCAL Crosstabulation

NTILES of TKCAL
1 2 3 4 5 Total
GROUP control Count 72 60 59 56 48 295
% within NTILES of
62.1% 51.7% 50.4% 48.3% 41.4% 50.8%
TKCAL
caso Count 44 56 58 60 68 286
% within NTILES of
37.9% 48.3% 49.6% 51.7% 58.6% 49.2%
TKCAL
Total Count 116 116 117 116 116 581
% within NTILES of
100.0% 100.0% 100.0% 100.0% 100.0% 100.0%
TKCAL

Variable B S.E. Wald df Sig R Exp(B)

TKCAL 10.2006 4 .0372 .0523


TKCAL(1) .4235 .2667 2.5208 1 .1124 .0254 1.5273
TKCAL(2) .4754 .2661 3.1915 1 .0740 .0385 1.6086
TKCAL(3) .5615 .2667 4.4312 1 .0353 .0549 1.7532
TKCAL(4) .8408 .2686 9.7969 1 .0017 .0984 2.3182
Constant -.4925 .1914 6.6234 1 .0101

51
logit(Pr(caso))
-0.4 -0.2 0.0 0.2

1
2
3

Total kcal
4
5

52
1 Modelo de heterogeneidad
(categórico)

Un coeficiente para cada dummy


Test: TRVa (D deviance con k-1 g.l.)
Variable B S.E. Wald df Sig R Exp(B)

NTKCAL 10.2006 4 .0372 .0523


NTKCAL(1) .4235 .2667 2.5208 1 .1124 .0254 1.5273
NTKCAL(2) .4754 .2661 3.1915 1 .0740 .0385 1.6086
NTKCAL(3) .5615 .2667 4.4312 1 .0353 .0549 1.7532
NTKCAL(4) .8408 .2686 9.7969 1 .0017 .0984 2.3182
Constant -.4925 .1914 6.6234 1 .0101

Chi-cuadrado gl Sig.
TKCAL 10.436 4 .034
53
2. Test de tendencia para
variables ordinales
• La variable se codifica con valores crecientes
en 1 unidad de categoría en categoría
(1,2,3,...)
• Un único coeficiente, que recoge la variación
promedio
• Test: TRVt (D deviance con 1 g.l.)
Variable B S.E. Wald df Sig R Exp(B)

NTKCAL .1810 .0595 9.2406 1 .0024 .0948 1.1984


Constant -.5745 .1976 8.4571 1 .0036
Chi-cuadrado gl Sig.
TKCAL 9.326 1 .002
54
3. Test de desviación de la
linealidad
• Test: diferencia del modelo de
heterogeneidad y el de tendencia:
TRVDL: D deviance con k-2 g.l.

Modelo categórico: -2 Log Likelihood 794.861

Modelo tendencia: -2 Log Likelihood 795.928

Desviación de la linealidad:

Cambio en -2 Log Likelihood = 1.067 (NS con 3 g.l.)

55
Estrategia de análisis multivariante
• 1º Análisis bivariante
– cada variable por separado
– identificar variables de interés (significativas o
no)
• 2º Análisis combinado de las variables
– equivale a un análisis estratificado
– cada factor está ajustado por los demás del
modelo
• 3º Análisis de interacciones
– modificación del efecto de una variable por otra

56
Caso 5. Energía y ácido fólico
(densidad) en el cáncer colorrectal
Tabla de contingencia GROUP * NTILES of DFOLIC

NTILES of DFOLIC
1 2 3 4 Total
GROUP control Recuento 62 68 80 85 295
% de GROUP 21,0% 23,1% 27,1% 28,8% 100,0%
caso Recuento 83 77 66 60 286
% de GROUP 29,0% 26,9% 23,1% 21,0% 100,0%
Total Recuento 145 145 146 145 581
% de GROUP 25,0% 25,0% 25,1% 25,0% 100,0%

Variables en la ecuación

I.C. 95,0% para EXP(B)


B E.T. Wald gl Sig. Exp(B) Inferior Superior
Paso
a
NDFOLIC 9,050 3 ,029
1 NDFOLIC(1) -,167 ,236 ,502 1 ,479 ,846 ,532 1,344
NDFOLIC(2) -,484 ,236 4,197 1 ,040 ,616 ,388 ,979
NDFOLIC(3) -,640 ,238 7,236 1 ,007 ,527 ,331 ,841
Constante ,292 ,168 3,020 1 ,082 1,339
a. Variable(s) introducida(s) en el paso 1: NDFOLIC.

57
Tendencia
Variables en la ecuación

I.C. 95,0% para EXP(B)


B E.T. Wald gl Sig. Exp(B) Inferior Superior
Paso
a NDFOLIC -,224 ,075 8,860 1 ,003 ,799 ,690 ,926
1 Constante ,529 ,206 6,609 1 ,010 1,696
a. Variable(s) introducida(s) en el paso 1: NDFOLIC.

Tendencia Heterogeneidad
Pruebas omnibus sobre los coeficientes del modelo Pruebas omnibus sobre los coeficientes del modelo

Chi-cuadrado gl Sig. Chi-cuadrado gl Sig.


Paso 1 Paso 8,974 1 ,003 Paso 1 Paso 9,148 3 ,027
Bloque 8,974 1 ,003 Bloque 9,148 3 ,027
Modelo 8,974 1 ,003 Modelo 9,148 3 ,027

58
Análisis ajustado
• Si en un modelo se incluye más de una
variable, los coeficientes de cada variable se
interpretan como ajustados por las demás

• Ajustado equivale a un “promedio ponderado”


en los estratos de las variables de ajuste

• Este análisis anula el efecto de confusión que


pudiera haber

59
Confusión

Exposición Enfermedad

Variable
confusora

• El análisis crudo de la asociación entre una


exposición y una enfermedad no excluye la
posibilidad de que interfiera una tercera
variable (la confusora)
60
Exploración de la confusión
1. Análisis de la asociación en cada estrato
de la confusora potencial. Comparar los
coeficientes crudos con los de cada
estrato. Este método permite también
explorar si hay interacción.

2. Comparación del modelo crudo con el


ajustado por la confusora. Cambios
superiores a un 20% de los coeficientes
(b) indican confusión importante
61
Análisis del efecto del ac. fólico
ajustado por ingesta calórica total

Ac. Fólico Cáncer

Ingesta
calórica

62
Análisis estratificado
Variables en la ecuación

NTILES of TKCAL B E.T. Wald gl Sig. Exp(B)


1 Paso
a
NDFOLIC -,072 ,183 ,155 1 ,694 ,930
1 Constante -,274 ,584 ,221 1 ,638 ,760
2 Paso
a
NDFOLIC -,090 ,161 ,313 1 ,576 ,914
1 Constante ,157 ,444 ,125 1 ,724 1,170
3 Paso
a
NDFOLIC -,266 ,176 2,264 1 ,132 ,767
1 Constante ,659 ,487 1,834 1 ,176 1,933
4 Paso
a
NDFOLIC -,239 ,172 1,937 1 ,164 ,787
1 Constante ,638 ,450 2,009 1 ,156 1,892
5 Paso
a
NDFOLIC -,196 ,189 1,078 1 ,299 ,822
1 Constante ,754 ,437 2,980 1 ,084 2,126
a. Variable(s) introducida(s) en el paso 1: NDFOLIC.

En general la estimación por estratos de


calorías muestra un efecto protector
menor al análisis crudo
63
Análisis ajustado
Variables en la ecuación

I.C. 95,0% para EXP(B)


B E.T. Wald gl Sig. Exp(B) Inferior Superior
Paso
a
NDFOLIC -,224 ,075 8,860 1 ,003 ,799 ,690 ,926
1 Constante ,529 ,206 6,609 1 ,010 1,696
a. Variable(s) introducida(s) en el paso 1: NDFOLIC.
Variables en la ecuación

I.C. 95,0% para EXP(B)


B E.T. Wald gl Sig. Exp(B) Inferior Superior
Paso
a NDFOLIC -,171 ,078 4,787 1 ,029 ,842 ,723 ,982
1 NTKCAL 6,191 4 ,185
NTKCAL(1) ,338 ,271 1,557 1 ,212 1,402 ,825 2,382
NTKCAL(2) ,397 ,269 2,169 1 ,141 1,487 ,877 2,521
NTKCAL(3) ,453 ,272 2,774 1 ,096 1,573 ,923 2,681
NTKCAL(4) ,680 ,279 5,940 1 ,015 1,973 1,142 3,408
Constante ,023 ,303 ,006 1 ,940 1,023
a. Variable(s) introducida(s) en el paso 1: NTKCAL.

El análisis ajustado confirma la confusión

64
Interacción
Pruebas omnibus sobre los coeficientes del modelo

Chi-cuadrado gl Sig.
Paso 1 Paso 1,008 4 ,909
Bloque 1,008 4 ,909
Modelo 16,256 9 ,062

Variables en la ecuación

I.C. 95,0% para EXP(B)


B E.T. Wald gl Sig. Exp(B) Inferior Superior
Paso
a
NDFOLIC -,072 ,183 ,155 1 ,694 ,930 ,649 1,333
1 NTKCAL 2,815 4 ,589
NTKCAL(1) ,431 ,734 ,345 1 ,557 1,539 ,365 6,486
NTKCAL(2) ,934 ,760 1,508 1 ,219 2,543 ,573 11,286
NTKCAL(3) ,912 ,737 1,530 1 ,216 2,489 ,587 10,559
NTKCAL(4) 1,029 ,729 1,989 1 ,158 2,797 ,670 11,684
NDFOLIC * NTKCAL 1,005 4 ,909
NDFOLIC by NTKCAL(1) -,018 ,244 ,005 1 ,942 ,982 ,609 1,585
NDFOLIC by NTKCAL(2) -,193 ,255 ,576 1 ,448 ,824 ,500 1,358
NDFOLIC by NTKCAL(3) -,167 ,252 ,442 1 ,506 ,846 ,517 1,385
NDFOLIC by NTKCAL(4) -,124 ,263 ,222 1 ,638 ,883 ,527 1,481
Constante -,274 ,584 ,221 1 ,638 ,760
a. Variable(s) introducida(s) en el paso 1: NDFOLIC * NTKCAL .

65
Interpretación de la interacción
• Modificación del efecto (riesgo) de una
variable al ira acompañada de otra
• Cambia la referencia en la comparación:
– Efectos principales:
• riesgo promedio entre categorías de la otra variable
• (Riesgo del a. fólico ajustado por calorías, pero como
promedio entre las diferentes categorías de calorías)
– Interacción:
• Riesgo específico respecto a una categoría de
referencia combinada (consumo bajo fólico y calorías)

66
Caso 6. Alcohol y tabaco
GRUPO * Alcohol * Tabaco Crosstabulation

Count
Alcohol
Tabaco no bebe moderado importante Total
Fuma GRUPO control 55 30 62 147
caso 40 45 96 181
Total 95 75 158 328
No fuma GRUPO control 60 73 52 185
caso 20 91 106 217
Total 80 164 158 402

Variable B S.E. Wald df Sig Exp(B) Lower Upper

BEBE 38.9446 2 .0000


BEBE(1) .9284 .2060 20.3189 1 .0000 2.5306 1.6900 3.7891
BEBE(2) 1.2226 .1977 38.2415 1 .0000 3.3958 2.3050 5.0030
Constant -.6505 .1593 16.6853 1 .0000

FUMA(1) .0485 .1495 .1054 1 .7455 1.0497 .7831 1.4070


Constant .5140 .1110 3.5117 1 .0609

67
Variable B S.E. Wald df Sig R

FUMA(1) .1171 .1572 .5550 1 .4563 .0000


BEBE 39.3270 2 .0000 .1874
BEBE(1) .9560 .2095 20.8179 1 .0000 .1368
BEBE(2) 1.2286 .1980 38.5011 1 .0000 .1905
Constant -.5975 .1742 11.7675 1 .0006

95% CI for Exp(B)


Variable Exp(B) Lower Upper

FUMA(1) 1.1242 .8261 1.5299


BEBE(1) 2.6013 1.7252 3.9223
BEBE(2) 3.4163 2.3175 5.0362

FUMA y moder 2.9244 * calculadora


FUMA y inten 3.8406 *

Variable B S.E. Wald df Sig

FUMA(1) .7802 .3314 5.5408 1 .0186


BEBE 34.4581 2 .0000
BEBE(1) 1.3190 .3022 19.0444 1 .0000
BEBE(2) 1.8108 .3088 34.3960 1 .0000
BEBE * FUMA 6.8430 2 .0327
BEBE(1) by FUMA(1) -.5951 .4360 1.8630 1 .1723
BEBE(2) by FUMA(1) -1.0551 .4063 6.7450 1 .0094
Constant -1.0986 .2582 18.1042 1 .0000 68
Interpretación de modelos con
interacciones
95% CI for Exp(B)
Variable Exp(B) Lower Upper

1. No fuma No bebe

FUMA(1) 2.1818 1.1395 4.1777 Fuma No bebe


BEBE(1) 3.7397 2.0681 6.7626 No fuma Moderado
BEBE(2) 6.1154 3.3389 11.2005 No fuma Intenso

BEBE(1) by FUMA(1) .5515 .2347 1.2962


BEBE(2) by FUMA(1) .3481 .1570 .7719

2.1818*3.7397*.5515 = 4.4998 Fuma Moderado


2.1818*6.1154*.3481 = 4.6445 Fuma Intenso

• Ignorar la interacción supone infraestimar


los riesgos respecto a no fumar y no beber
69
10

No fuma
Fuma

No bebe moderado intenso


10

No fuma

Fuma

no interaccion

1
70
No bebe moderado intenso
Riesgo para cada combinación
• Modelo efectos principales:
– a + b1F + b2M + b3I NB M I
F eβ1 eβ1 + β2 eβ1 + β3
NF 1 eβ2 eβ3

• Modelo efectos principales + interacción:


– a + b1F + b2M + b3I + b4F· M + b5F· I
NB M I
F eβ1 eβ1 + β2 + β4 eβ1 + β3 + β5
NF 1 eβ2 eβ3
71
• Es fundamental emplear modelos jerárquicos:
– Si hay una interacción, los efectos principales
deben estar también: A + B + A.B

• Modelo SATURADO
– Tiene tantos parámetros como observaciones
– Todas las variables y sus interacciones
– No explica más que los datos
– Son útiles si se trabaja con datos agrupados
(el SPSS no lo permite)

72
Intervalos de confianza con
interacciones
• Se pueden calcular si se dispone de la matriz
de varianza-covarianza de los parámetros:
V(b1 + b2) = V(b1) + V(b2) -2C(b1,b2)

• Es más fácil crear una nueva variable


combinación de las categorías de las que
interaccionan: FUMABEBE
– NF-NB; NF-M; NF-I; F-NB; F-M; F-I

73
Variable B S.E. Wald df Sig R

FUMABEBE 43.5691 5 .0000 .1827


FUMABEBE(1) 1.3190 .3022 19.0444 1 .0000 .1302
FUMABEBE(2) 1.8108 .3088 34.3960 1 .0000 .1794
FUMABEBE(3) .7802 .3314 5.5408 1 .0186 .0593
FUMABEBE(4) 1.5041 .3496 18.5093 1 .0000 .1281
FUMABEBE(5) 1.5358 .3053 25.3052 1 .0000 .1522
Constant -1.0986 .2582 18.1042 1 .0000

95% CI for Exp(B)


Variable Exp(B) Lower Upper

1 NF - NB
FUMABEBE(1) 3.7397 2.0681 6.7626 NF - M
FUMABEBE(2) 6.1154 3.3389 11.2005 NF - I
FUMABEBE(3) 2.1818 1.1395 4.1777 F - NB
FUMABEBE(4) 4.5000 2.2679 8.9288 F - M
FUMABEBE(5) 4.6452 2.5534 8.4504 F - I

74
Diagnóstico en Regresión logística
• Verificar que el modelo es adecuado
– Bondad de ajuste
• Con datos agrupados: deviance residual
• Con datos individuales hace falta una
referencia, que puede obtenerse a partir del
modelo saturado, siempre que se trabaje con
pocas variables y éste sea estimable
• Otros estadísticos:
– S(O-E)2/E sobre cada observación
– Hosmer y Lemeshow: S(O-E)2/E sobre 10
categorías de p

75
Residuales
• Diferencia (observado - esperado) para cada
observación
– hay múltiples posibilidades:
• Estandarizados
• Deviance ...
• Se pueden hacer gráficas para intentar
dertectar patrones no aleatorios
– Son poco útiles a no ser que se trabaje con
variables cuantitativas

76
Observaciones influyentes
• Individuos que modifican de manera
importante el ajuste del modelo y la
estimación de los parámetros
• Delta-betas: Db
– Modificación de cada parámetro al eliminar una
observación cada vez
– Si son grandes: modelo inestable (típico de N ¯)

77
.06

.04

.02

0.00

Dfbeta for BEBE(1)


-.02
Dfbeta for BEBE(2)

Dfbeta for FUMA(1)


-.04
Dfbeta for BEBE(1) b

-.06 Dfbeta for BEBE(2) b


0 2 4 6 8 10 12 14

NF-NB

78
Modelos predictivos
• El objetivo del modelo puede ser:
– generar una ecuación con capacidad predictiva,
como una clasificación (análisis discriminante)
– buscar qué factores tienen capacidad predictiva

• Si la respuesta es la aparición de un evento,


pueden llamarse modelos pronósticos

• En este tipo de estudios es típico contar con


un gran número de variables a explorar

79
Métodos de selección automática
• Adelante:
1 Se inicia con un modelo vacío (sólo a)
2 Se ajusta un modelo y se calcula el p valor de
incluir cada variable por separado
3 Se selecciona el modelo con la más significativa
4 Se ajusta un modelo con la(s) variable(s)
seleccionada(s) y se calcula el p valor de añadir
cada variable no seleccionada por separado
5 Se selecciona el modelo con la más significativa
6 Se repite 4-5 hasta que no queden variables
significativas para incluir.
80
• Atrás:
1 Se inicia con un modelo con TODAS las variables
candidatas
2 Se eliminanan, una a una, cada variable y se
calcula la pérdida de ajuste al eliminar
3 Se selecciona para eliminar la menos significativa
4 Se repite 2-3 hasta que todas las variables
incluidas sean significativas y no pueda eliminarse
ninguna sin que se pierda ajuste.

81
Stepwise
• Se combinan los métodos adelante y atrás.
• Puede empezarse por el modelo vacío o por el
completo, pero en cada paso se exploran las
variables incluidas, por si deben salir y las no
seleccionadas, por si deben entrar

• No todos los métodos llegan a la misma


solución necesariamente

82
Consideraciones
• Criterio exclusivamente estadístico: no se
tienen en cuenta otros “conocimientos” sobre
las variables más interesantes a incluir
(aunque se puede forzar a que algunas
variables siempre estén en el modelo)
• Si hay un conjunto de variables muy
correlacionadas, sólo 1 será seleccionada
• No es fácil tener en cuenta interacciones
entre variables (los modelos deben ser
jerárquicos)
83
Valoración de la capacidad
predictiva del modelo
• Area bajo la curva ROC construída para
todos los posibles puntos de corte de h para
clasificar los individuos en +/-:
Realidad
+ -
VP FP
+
Modelo
h = b1 x1 + ... + b p x p > k - FN VN

84
Cálculo de área bajo ROC
• Guardar los valores que predice el modelo
(esperados)
• Calcular la U de Mann-Whitney respecto a
los esperados:

U
AUC = 1 -
n +n -
• n+ y n- son el número esperado de + y - resp.

85
Test Statisticsa GROUP

Predicted Frequency Percent


Value Valid control 295 50.8
Mann-Whitney U 26273.500 caso 286 49.2
Wilcoxon W 69933.500 Total 581 100.0
Z -7.866
Asymp. Sig. (2-tailed) .000
a. Grouping Variable: GROUP

U 26273
AUC = 1 - =1- = 0.69
n+n- 295 ´ 286

Un AUC=0.5 corresponde a una capacidad


predictiva nula. El máximo es 1.
86
Elección del punto de corte óptimo
• Debe optimizarse la sensibilidad y la
especificidad, y elegir un punto según la
naturaleza del modelo predictivo

• El cambio en el punto de corte corresponde a


emplear diferentes constantes en el modelo
logístico
• Con frecuencia la constante estimada (a)
consigue una sensibilidad y especificidad
máxima, pero puede no ser el caso.
87
Validación del modelo
• El cálculo de la capacidad predictiva (CP) del
modelo sobre la misma muestra que lo generó
siempre es optimista, y debe validarse:
• Diferentes estrategias:
– Probar el modelo en otra muestra diferente
– Elaborar el modelo con un 75% de la muestra y
calcular la CP en el 25% restante
– Usar la misma muestra, pero calcular los
indicadores de CP mediante técnicas de
bootstrap o validación cruzada, que corrigen el
“optimismo”
88
Regresión multinomial
• La variable dependiente es categórica con
más de 2 grupos
• Puede analizarse con Regresión logística
politómica (modelo multinomial)
• Se elige una categoría como referencia y se
modelan varios logits simultáneamente, uno
para cada una de las restantes categorías
respecto a la de referencia

89
Ejemplo: Hábito tabáquico
• La variable resultado tiene 3 categorías:
– Fumador
– Ex-fumador
– No fumador (referencia)
• Se modelan 2 logits simultáneamente:
– logit(fumador/No fumador| z) = a1 + b1z
– logit(Ex-fumador/No fumador| z) = a2 + b2z

• Las covariables (z) son comunes pero se


estiman coeficientes diferentes para cada
logit (incluso diferente constante) 90
Caso 7. Acido fólico y tabaco
Resumen del procesamiento de los casos

N Porcentaje marginal
TABAC2 Fumador 160 27.5%
Ex-fumador 105 18.1%
Fumador 316 54.4%

NTILES of TKCAL 1 116 20.0%


2 116 20.0%
3 117 20.1%
4 116 20.0%
5 116 20.0%

Válidos 581 100.0%


Perdidos 0
Total 581

91
Contrastes de la razón de verosimilitud

Efecto -2 logL Chi-cuadrado gl Sig.


Intersección 140.294(a) .000 0 .
NTFOLIC 153.247 12.953 2 .002
NTKCAL 170.333 3 0.039 8 .000
Estimaciones de los parámetros

Intervalo de confianza
al 95% para Exp(B)
Límite Límite
TABAC2(a) B Error típ. Wald gl Sig. Exp(B) inferior superior
Fumador Intersección .347 .434 .639 1 .424
NTFOLIC -.192 .108 3.136 1 .077 .825 .667 1.021
[NTKCAL=1] -1.157 .375 9.515 1 .002 .314 .151 .656
[NTKCAL=2] -.715 .345 4.287 1 .038 .489 .249 .963
[NTKCAL=3] -.712 .331 4.622 1 .032 .491 .256 .939
[NTKCAL=4] -.145 .307 .224 1 .636 .865 .474 1.578
[NTKCAL=5] 0(b) . . 0 . . . .
Ex-fumador Intersección .887 .485 3.339 1 .068
NTFOLIC -.438 .126 12.049 1 .001 .645 .504 .826
[NTKCAL=1] -1.903 .444 18.389 1 .000 .149 .062 .356
[NTKCAL=2] -1.498 .416 12.944 1 .000 .224 .099 .506
[NTKCAL=3] -.707 .358 3.913 1 .048 .493 .245 .994
[NTKCAL=4] -.631 .360 3.071 1 .080 .532 .263 1.078
[NTKCAL=5] 0(b) . . 0 . . . .
a La categoría de referencia es: Fumador.
b Este parámetro se ha establecido a cero porque es redundante.

92
Regresión ordinal
• La variable respuesta tiene más de 2
categorías ordenadas
• Se modela un único logit que recoge la
relación (de tendencia) entre la respuesta y
las covariables
• Hay varios modelos posibles según interese
modelar la tendencia:
– odds proporcionales (acumualado)
– categorías adyacentes (parejas)

93
Odds-proporcionales
• Se compara un promedio de los posibles logit
acumulados (respecto a la 1ª categoría):

Logit Respuesta
Muy Bajo Alto Muy
bajo alto
1
2
3

• Cada logit tiene una constante diferente pero


comparten el coeficiente de las covariables
94
• Modelo de odds proporcionales:

logitk (y > yk | z) = a k + β z

– y = 1,2, ... C
– k = 2,3, ... C

• Supone que el cambio entre diferentes


puntos de corte de la respuesta es constante
(b), pero parte de diferentes niveles (ak)
95
Caso 8. Estudio de la “clase funcional”
• En pacientes operados de cirugía cardíaca la
clase funcional es una variable importante.
Se ha agrupado en 3 categorías ordenadas:

CLASEFUN baja / media / alta

• Un probable determinante de la clase


funcional es el hecho de haber sido
intervenido previamente: REOPER: sí/no

96
3 categorías: 2 logits
logit(baja / media-alta) = a1 +b REOPER
logit(baja-media / alta) = a2 +b REOPER
Tabla de contingencia Classe funcional * Reoperació

Reoperació

NO SI Total
Classe funcional Classe II Recuento 337 31 368
% de Classe
91.6% 8.4% 100.0%
funcional
Classe III Recuento 533 64 597
% de Classe
89.3% 10.7% 100.0%
funcional
Classe IV Recuento 238 38 276
% de Classe
86.2% 13.8% 100.0%
funcional
Total Recuento 1108 133 1241
% de Classe
89.3% 10.7% 100.0%
funcional

97
Response Profile
Ordered Total
Value CLASEFUN Frequency

1 1-medio-alto 873
2 0-bajo 368

Standard
Parameter DF Estimate Error Chi-Square Pr > ChiSq

Intercept 1 0.4644 0.2431 3.6476 0.0561


REOPER 1 0.3632 0.2152 2.8483 0.0915

Response Profile

Ordered Total
Value CLASEFUN Frequency

1 1-alto 276
2 0-bajo-medio 965

Standard
Parameter DF Estimate Error Chi-Square Pr > ChiSq

Intercept 1 -1.6764 0.2413 48.2484 <.0001


REOPER 1 0.3801 0.2054 3.4249 0.0642

98
Response Profile

Ordered Total
Value CLASEFUN Frequency

1 2-alto 276
2 1-medio 597
3 0-bajo 368

Score Test for the Proportional Odds Assumption

Chi-Square DF Pr > ChiSq

0.0047 1 0.9451

Standard
Parameter DF Estimate Error Chi-Square Pr > ChiSq

Intercept 1 -1.6674 0.2054 65.9314 <.0001


Intercept2 1 0.4546 0.1991 5.2111 0.0224
REOPER 1 0.3722 0.1726 4.6518 0.0310

99
ordinal
Estimaciones de los parámetros

Intervalo de confianza 95%

Límite
Estimación Error típ. Wald gl Sig. Límite inferior superior
Umbral [CLASE = 2.00] -.923 .166 30.825 1 .000 -1.249 -.597
[CLASE = 3.00] 1.199 .168 50.976 1 .000 .870 1.528
Ubicación [REOPER=1] .372 .173 4.652 1 .031 .034 .711
[REOPER=2] 0(a) . . 0 . . .
Función de vínculo: Logit.
a Este parámetro se establece en cero porque es redundante.

multinomial
Estimaciones de los parámetros

Intervalo de confianza al 95% para


Clase funcional(a) B Error típ. Wald gl Sig. Exp(B) Exp(B)

Límite inferior Límite superior


Alta Intersección .204 .242 .708 1 .400
[REOPER=1] -.551 .256 4.625 1 .032 .576 .349 .952
[REOPER=2] 0(b) . . 0 . . . .
Media Intersección .725 .219 10.974 1 .001
[REOPER=1] -.266 .230 1.347 1 .246 .766 .488 1.202
[REOPER=2] 0(b) . . 0 . . . .
a La categoría de referencia es: baja.
b Este parámetro se ha establecido a cero porque es redundante.

100
Modelos log-lineales
• Análisis de datos categóricos donde el
objetivo es analizar la relaciones entre
variables
• No hay una respuesta y otras covariables

• Limitaciones del método:


– No se pueden analizar variable cuantitativas si no
se categorizan previamente

101
Versión log-lineal del modelo logístico
• Un modelo logístico en el que las covariables
sean categóricas se puede formular como un
modelo Poisson:

• logit(Y) = X+Z Y~Bin | Multinom


• log(f) = X*Z +Y+ (X+Z)*Y f~Poi
– f: frecuencias en la tabla de clasificación entre
X,Z,Y
– X*Z = X + Z + X· Z

102
Ajuste mediante regresión de Poisson
• Respuesta (Y):
• la frecuencia observada en cada celda de
la tabla de clasificación multidimensional
• Transformación: log(Y)
• Distribución de probabilidad: Poisson
• Modelos jerárquicos:

log(Y ) = a + b1X + b2Z + b3X ·Z


• Interesan las interacciones (X· Z): valoran la
asociación entre variables
103
Caso 9. Tablas multidimensionames
• Estudio de la relación entre el consumo de
macronutrientes (aportan energía)
– Carbohidratos
– Lípidos
– Porteínas

• Se han categorizado según terciles

104
Table of NTCARB by NTLIP

NTCARB NTLIP

Frequency‚ 1‚ 2‚ 3‚ Total
ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ
1 ‚ 58 ‚ 31 ‚ 9 ‚ 98
ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ
2 ‚ 29 ‚ 40 ‚ 30 ‚ 99
ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ
3 ‚ 11 ‚ 28 ‚ 59 ‚ 98
ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ Table of NTLIP by NTPROT
Total 98 99 98 295
NTLIP NTPROT

Frequency‚ 1‚ 2‚ 3‚ Total
ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ
1 ‚ 76 ‚ 20 ‚ 2 ‚ 98
ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ
2 ‚ 19 ‚ 52 ‚ 28 ‚ 99
ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ
Table of NTCARB by NTPROT 3 ‚ 3 ‚ 27 ‚ 68 ‚ 98
ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ
NTCARB NTPROT Total 98 99 98 295
Frequency‚ 1‚ 2‚ 3‚ Total
ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ
1 ‚ 61 ‚ 27 ‚ 10 ‚ 98
ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ
2 ‚ 25 ‚ 44 ‚ 30 ‚ 99
ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ
3 ‚ 12 ‚ 28 ‚ 58 ‚ 98
ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ
Total 98 99 98 295
105
proc freq data=glm6.coloncon noprint;
tables ntcarb*ntlip*ntprot/out=dieta sparse; run;

* efectos principales;
proc genmod data=dieta;
class ntcarb ntlip ntprot;
model count= ntcarb ntlip ntprot /dist=p type3; run;

* modelo saturado;
proc genmod data=dieta;
class ntcarb ntlip ntprot;
model count= ntcarb|ntlip|ntprot /dist=p type3;run;

* interacciones de orden 2 máximo;


proc genmod data=dieta;
class ntcarb ntlip ntprot;
model count= ntcarb|ntlip|ntprot@2 /dist=p type3;run;

106
Efectos principales: (Categorías según terciles!)
LR Statistics For Type 3 Analysis

Chi-
Source DF Square Pr > ChiSq

NTCARB 2 0.01 0.9966


NTLIP 2 0.01 0.9966
NTPROT 2 0.01 0.9966

Modelo saturado:
LR Statistics For Type 1 Analysis

Chi-
Source Deviance DF Square Pr > ChiSq

Intercept 295.1403
NTCARB 295.1335 2 0.01 0.9966
NTLIP 295.1268 2 0.01 0.9966
NTCARB*NTLIP 215.6327 4 79.49 <.0001
NTPROT 215.6259 2 0.01 0.9966
NTCARB*NTPROT 133.7620 4 81.86 <.0001
NTLIP*NTPROT 6.5854 4 127.18 <.0001
NTCARB*NTLIP*NTPROT 0.0000 8 6.59 0.5820

107
Modelo sin la interacción de 3er nivel
LR Statistics For Type 3 Analysis

Chi-
Source DF Square Pr > ChiSq

NTCARB 2 3.48 0.1756


NTLIP 2 15.03 0.0005
NTCARB*NTLIP 4 16.92 0.0020
NTPROT 2 14.12 0.0009
NTCARB*NTPROT 4 19.29 0.0007
NTLIP*NTPROT 4 127.18 <.0001

Este modelo tiene muchos parámetros (18): es difícil de


interpretar

108
Modelo con tendencias
data dietat; set dieta;
carb=ntcarb;
prot=ntprot;
lip=ntlip;
proc genmod data=dietat;
class ntcarb ntlip ntprot;
model count= ntcarb ntlip ntprot carb*lip carb*prot lip*prot
/dist=p type3; run;

tendencias DF
Deviance 8 6.5854
Log Likelihood 554.6633

categórico
Deviance 17 14.9648
Log Likelihood 550.4736

Apenas se pierde ajuste por la diferencia


en grados de libertad
109
Standard Wald 95% Chi-
Parameter DF Estimate Error Confidence Limits Square Pr > ChiSq

Intercept 1 -20.6778 1.8731 -24.3490 -17.0065 121.86 <.0001


NTCARB 1 1 4.3983 0.5636 3.2936 5.5030 60.90 <.0001
NTCARB 2 1 2.4976 0.3616 1.7888 3.2064 47.70 <.0001
NTCARB 3 0 0.0000 0.0000 0.0000 0.0000 . .
NTLIP 1 1 8.6910 0.9377 6.8531 10.5289 85.90 <.0001
NTLIP 2 1 5.1457 0.5923 3.9849 6.3065 75.48 <.0001
NTLIP 3 0 0.0000 0.0000 0.0000 0.0000 . .
NTPROT 1 1 8.6910 0.9377 6.8531 10.5289 85.90 <.0001
NTPROT 2 1 5.1457 0.5923 3.9849 6.3065 75.48 <.0001
NTPROT 3 0 0.0000 0.0000 0.0000 0.0000 . .
carb*lip 1 0.5498 0.1440 0.2676 0.8320 14.58 0.0001
carb*prot 1 0.5498 0.1440 0.2676 0.8320 14.58 0.0001
lip*prot 1 1.6230 0.1896 1.2513 1.9946 73.25 <.0001
Scale 0 1.0000 0.0000 1.0000 1.0000

LR Statistics For Type 3 Analysis

Chi-
Source DF Square Pr > ChiSq

NTCARB 2 83.77 <.0001


NTLIP 2 171.16 <.0001
NTPROT 2 171.16 <.0001
carb*lip 1 15.34 <.0001
carb*prot 1 15.34 <.0001
lip*prot 1 122.23 <.0001
110
Análisis de conteos
• Cualquier variable que se derive de contar
unidades individuales es susceptible de ser
estudiada con modelos de regresión de
Poisson
• Ejemplos:
– Casos de cáncer en un territorio en un periodo
– Células con anomalías cromosómicas
– Accidentes de tráfico

111
Modelos para tasas
• Si las unidades de observación donde se ha
realizado el conteo no son comparables por
corresponder a
– diferente tamaño de muestra
– diferente duración del periodo de observación

• Se puede realizar una estandarización


interna: modelos para tasas

112
offset
casos y
tasa = =
personas - tiempo a riesgo N ·t
æ y ö
log ç ÷ = a + bX
è N ·t ø
log( y ) = log(N ·t ) + a + b X

• Queremos que log(N· t) esté en el predictor,


pero sin que se le estime un coeficiente (b=1)
• Se puede definir como un offset en el modelo
113
Caso 10. Modelo para tasas
• Estimación de la tendencia en la incidencia
del cáncer de mama en Tarragona
• Variables:
– y: número de casos
– edat: grupo de edad (de 0 a 35 agrupado)
– per: año de diagnóstico (80-96)
– pob: población de cada año y grupo de edad

114
data mama;
set glm6.mama;
if edat<8 then edat=8;
lpob=log(pob);
per2=per*per;
proc genmod data=mama;
class edat;
model y=edat per/dist=p offset=lpob type1;
run;
Standard Wald 95% Chi-
Parameter DF Estimate Error Confidence Limits Square Pr > ChiSq

Intercept 1 -8.2851 0.3186 -8.9095 -7.6607 676.38 <.0001


EDAT 8 1 -2.9333 0.1009 -3.1312 -2.7355 844.54 <.0001
EDAT 9 1 -0.7936 0.1025 -0.9946 -0.5926 59.90 <.0001
EDAT 10 1 -0.5359 0.0991 -0.7302 -0.3416 29.22 <.0001
EDAT 11 1 -0.4774 0.0987 -0.6709 -0.2840 23.39 <.0001
EDAT 12 1 -0.3227 0.0962 -0.5112 -0.1342 11.26 0.0008
EDAT 13 1 -0.1211 0.0937 -0.3048 0.0626 1.67 0.1963
EDAT 14 1 -0.0994 0.0946 -0.2849 0.0860 1.11 0.2931
EDAT 15 1 -0.0252 0.0956 -0.2125 0.1621 0.07 0.7922
EDAT 16 1 -0.0019 0.0988 -0.1955 0.1917 0.00 0.9849
EDAT 17 1 0.1106 0.1037 -0.0926 0.3138 1.14 0.2860
EDAT 18 0 0.0000 0.0000 0.0000 0.0000 . .
PER 1 0.0240 0.0034 0.0172 0.0307 48.65 <.0001
Scale 0 1.0000 0.0000 1.0000 1.0000
115
Análisis de la desviación de la
linealidad
proc genmod data=mama;
class edat;
model x=edat per per2/dist=p offset=lpob type1;
run;

LR Statistics For Type 1 Analysis

Chi-
Source Deviance DF Square Pr > ChiSq

Intercept 4909.2800
EDAT 924.5612 10 3984.72 <.0001
PER 875.5584 1 49.00 <.0001
per2 873.9444 1 1.61 0.2039

116
Estimación del riesgo relativo
• RR: razón de tasas
• Cada año el aumento en log(tasa) = 0.0240
• RR = exp(b)
• Porcentage de incremento anual: (RR -1)*100

Parameter RR LCL UCL PIA LCL_PIA UCL_PIA

PER 1.02 1.02 1.03 2.43 1.74 3.12

117
proc genmod data=mama;
class edat;
model x=edat per /dist=p offset=lpob type1;
ods output ParameterEstimates=Parms;
run;
data Parms;
set Parms;
RR=exp(Estimate);
LCL=exp(LowerCL);
UCL=exp(UpperCL);
PIA=(RR-1)*100;
LCL_PIA=(LCL-1)*100;
UCL_PIA=(UCL-1)*100;
format RR LCL UCL PIA LCL_PIA UCL_PIA f8.3 ;
run;
proc print data=Parms noobs;
var parameter RR LCL UCL PIA LCL_PIA UCL_PIA;
where parameter='PER';
run;

118
Análisis de la supervivencia

Víctor Moreno
2004
Esquema
• Diseño de estudios de seguimiento
• Supervivencia: tiempo hasta un evento
• Censuras
• Funciones estadísticas
• Estimación de la probabilidad de sobrevivir
• Comparación de curvas de supervivencia
Diseño de un estudio prospectivo
– Estudio de cohortes (registros)
– Ensayo clínico

Incio del Fin del Fin del


estudio Reclutamiento Estudio

0 t1 t2

Reclutamiento Seguimiento
Variable de interés
• Tiempo hasta que ocurre un suceso
tiempo tiempo
entrada suceso

• Eventos:
• muerte: supervivencia
• recaída/metástasis: “tiempo libre de enfermedad”
• curación
• transplante
40

30

20

10

Std. Dev = 157.82


Mean = 121.6
0 N = 137.00
0.

10

20

30

40

50

60

70

80

90

10
0

0.

0.

0.

0.

0.

0.

0.

0.

0.

00
0

.0
TIEMPO Descriptive Statistics

N Minimum Maximum Mean Std. Skewness Kurtosis


Statistic Statistic Statistic Statistic Deviation
Statistic Statistic Std. Error Statistic Std. Error
TIEMPO 137 1 999 121.63 157.82 3.127 .207 13.070 .411
Valid N (listwise) 137
30

20

10

Std. Dev = 1.33


Mean = 4.09
0 N = 137.00
0.00 1.00 2.00 3.00 4.00 5.00 6.00 7.00
.50 1.50 2.50 3.50 4.50 5.50 6.50

LOGT
Descriptive Statistics

N Minimum Maximum Mean Std. Skewness Kurtosis


Statistic Statistic Statistic Statistic Deviation
Statistic Statistic Std. Error Statistic Std. Error
LOGT 137 .00 6.91 4.0934 1.3279 -.546 .207 .366 .411
Valid N (listwise) 137
Datos Censurados
• Para algunos pacientes el evento de
interés puede no haber ocurrido
durante el tiempo de observación (t)
• Información incompleta: T>t

• Se necesitan dos variables para


caracterizar los datos de
supervivencia
– T: tiempo de observación
– d: indicador del estado (binario)
Causas de censuras
• Final programado del estudio para el
análisis
• Pérdidas de seguimiento
• Abandonos

• Muerte por otras causas diferentes


de la de interés
Tipos de censura
• Tipo I. Todos los individuos se siguen
hasta una fecha fin de estudio
– Por la derecha: Pacientes vivos al finalizar el
estudio
Pacientes perdidos o abandonos
– En intervalo: Las visitas de control son
espaciadas
– Por la izquierda: Se desconoce la fecha de inicio

• Tipo II. Los individuos se siguen hasta


que han ocurrido r eventos
Truncamiento
• Los individuos entran en el estudio por un
criterio determinado y los que no cumplen el
criterio no son visibles al investigador.
• Ejemplo:
• Interesa estudiar la edad al morir pero sólo
se estudian ancianos de un asilo
– Inicio: edad al ingresar al asilo (truncamiento)
– Final: edad al morir
• Los muertos anteriores a la jubilación no
pueden entrar en el asilo, por tanto los
datos están truncados por la izquierda
Escalas de tiempo

• Calendario: Inicio a fin del estudio

• Tiempo del paciente en el estudio:


entrada a salida (por muerte o censura)

• Otras escalas pueden ser de interés:


– edad “en el momento actual”
– duración de una exposición
20
15
patient

10
5
0

0 2 4 6 8 10

calendar time
20
15
patient

10
5
0

0 2 4 6 8 10

survival time
sorted patient

0 5 10 15 20

0
2
4
survival time
6
8
10
Descripción de la supervivencia
• T es cuantitativa continua
• Descripción:
– Supervivencia: Probabilidad de
sobrevivir t o más:
S(t) = Pr (T ³ t)
• Acumulativa
– Percentiles: tiempo que sobrevive
una proporción de la población
Proporción que sobrevive t o más
1.0
0.8
Survival probability

0.6
0.4

S(5)=0.3
0.2
0.0

0 2 4 6 8 10

Survival time
Tiempo mediano de
supervivencia
1.0
0.8
Survival probability
0.6

S(t)=0.5
0.4
0.2
0.0

median

0 2 4 6 8 10

Survival time
Tiempo medio de supervivencia

• Media = área bajo S(t)

1.0
• No estimable si S(t)

Survival probability
0.8
no llega a 0

0.6
• Sesgado

0.4
(T asimétrico)
• No es un buen
resumen 0.2
0.0

0 2 4 6 8 10

Survival time
Función de distribución
(de la mortalidad): F(t)
• Pr(morir en t o antes) : acumulada
• Ejemplos:
– Pr(morir a los 65 años o antes)
– Pr(recidivar a los 3 años o antes)

F(t) = Pr(T£ t)

• Es equivalente a S(t): eventos acumulados


Función de distribución: F(t)
0.8
0.6
F(t)

0.4
0.2
0.0

0 2 4 6 8 10 12 14
Tiempo
Función densidad: f(t)
• Tasa de mortalidad instantánea en t
• Tiempo en el denominador (d)
• f(t) ´ d = Pr(morir entre t y t+d)

• Ejemplos:
– Pr(morir a los 65 años)
– Pr(tener un reinfarto a los 2 meses del 1º)

• Estimación:
Pr( t £ T £ t + d)
f( t) = lim
d ®0 d
Función de riesgo (Hazard)
• Tasa de mortalidad en el momento (t a
t+d) condicional a estar vivo en t
Pr(t £ T £ t + d | t £ T)
h(t) = lim
d®0 d
– Es una tasa de mortalidad instantánea:
• Tiempo en el denominador (d)
• h(t)´d = Pr(morir entre t y t+d |vivo en t)

• Util para modelar la supervivencia


Riesgo integrado
• Tasa de mortalidad acumulada
t
H(t) = ò h(u)du
0

• Relacionada directamente con la


función de supervivencia:

S(t) = exp(-H(t)) H(t) = -log(S(t))


Densidad: f(t) vs riesgo: h(t)
• Las dos son probabilidades instantáneas
• La diferencia es el denominador:
– densidad: toda la población
– riesgo: la población viva antes de t

• Ejemplo:
– f(65): Pr(morir a los 65,00-65,99 años)
– h(65): Pr(morir a los 65,00-65,99 años |
vivo a los 65)
• es mayor pues el denominador es menor
densidad: f(t) y riesgo: h(t)

0.13
0.10

0.12
0.08

0.11
f(x)

h(x)
0.06

0.10
0.04

0.09
0.02

0.08
0 5 10 15
Tiempo 0 5 10 15
Tiempo
Relaciones entre funciones

f(t) S' (t)


h(t) = = -
S(t) S(t)
dlnS(t)
= -
dt
t
S(t) = exp[- ò h(u)du]
0

= exp[-H(t)]
Estimación de S(t)
• Si no hay censuras
función de supervivencia empírica:
~ Número de individuos que sobreviven ³ t
S( t ) =
Número de individuos en la muestra

S(t) es una función escalonada. Se mantiene


constante entre los tiempos de dos muertes
~

adyacentes
Estimador de Kaplan-Meier de S(t)
• Se divide el tiempo en ‘k’ intervalos de
manera que cada intervalo acaba justo
cuando un paciente (o varios si hay empates)
muere o queda censurado
d d d
1 2 k
n n n
1 2 k

• Para cada intervalo ‘i = 1 · · · k’:


– ni están vivos al inicio
– di mueren al final. di suele ser 1, pero varios
eventos pueden registrarse en el mismo tiempo
por problemas de redondeo o es 0 si censura.
• Probabilidad de morir en el intervalo,
TÎ(ti-1,ti], condicional a estar vivo al inicio
pi = di / ni
• Probabilidad de sobrevivir al final de
intervalo, T>ti , condicional a estar vivo al
inicio
si = 1 - pi = 1 - di / ni
• Como los intervalos son independientes, la
probabilidad acumulada de sobrevivir t desde
el tiempo 0
t t t
æ di ö
S(t) =Õ si
i=1
= Õ (1 - p )
i=1
i = Õ çç 1 - ÷÷
i=1 è ni ø
Cálculos de Kaplan-Meier

Time ni di ci 1 - di / ni = si S(t)
0 20 - - - 1.00
1 20 1 1 - 1 / 20 = 0.95 0.95
3 19 1 1 1 - 1 / 19 = 0.95 0.90
4 17 2 1 - 2 / 17 = 0.88 0.79
6 15 1 1 - 1 / 15 = 0.93 0.74
7 14 1 1 - 0 / 14 = 1.00 0.74
9 13 1 1 - 1 / 13 = 0.92 0.68
12 12 1 2 1 - 1 / 12 = 0.92 0.63
15 9 2 1 1-2/9 = 0.78 0.49
18 6 1 2 1-1/6 = 0.83 0.41
21 3 1 1-0/3 = 1.00 0.41
25 2 2 1-0/2 = 1.00 0.41
Tiempo mediano de supervivencia

1.0
Survival probability
0.6
0.4 0.8
0.2

median
0.0

0 5 10 15 20 25

Survival time
Precisión de S(t)
• El error estándar de S(t) se puede
calcular para cada tiempo mediante la
fórmula de Greenwood:
1
2

ì ^
ü ^ æ k
di ö
e.e íS( t )ý » S( t )çç å ÷÷
î þ è i=1 ni (ni - di ) ø

• El intervalo de confianza al 95% se calcula


de la manera usual:
S(t) ± 1.96 e.e.{S(t)}
Bandas de confianza para S(t)

1.0
0.8
0.6
0.4
0.2
0.0

0 5 10 15 20 25
IC 95% para S(t)
• Para valores de S(t) cercanos a 1 y 0
el IC podría contener valores no
válidos para una probabilidad (<0 ó >1)
• Se debe calcular el e.e. De una
transformación de S(t)

• logaritmo: log(S) ¬
• logit: log{S/(1-S)}
• log-log: log{-log(S)}
log(S)
• Var{log(S)} ~ Var(S)/{S log(S)}2

f = ee{log(S)} = Var{logS}1/2 = ee(S)/{Slog(S)}

IC 95% = Sexp(±1.96f)
Estimación de S(t) para datos
agrupados. Método de la tabla de vida
• El tiempo se divide en bandas amplias,
usualmente de tamaño fijo (3m, 6m, 1a)
• Para cada banda ‘i = 1 · · · k’:
– ni están vivos al inicio
– di mueren en la banda
– ci son censurados en la banda
• Las observaciones censuradas se supone
que se distribuyen de manera uniforme a lo
largo de la banda
• Las personas a riesgo se ajustan para
tener en cuenta las observaciones
censuradas
ni’ = ni - ci / 2
• Probabilidad de morir en la banda,
condicional a estar vivo al inicio
pi = di / ni’
• Probabilidad de sobrevivir la banda,
condicional a estar vivo al inicio
si = 1 - pi = 1 - di / ni’
• Como las bandas son independientes, la
probabilidad acumulada de sobrevivir t
desde el tiempo 0
t t
æ
t
di ö
S(t) =Õ si
i=1
= Õ (1 - p )
i=1
i = Õ çç 1 -
i=1 è
÷÷
ni - ci/2 ø

• El método de tabla de vida permite estimar


la función de riesgo h(t), suponiendo que la
tasa de mortalidad es constante en la banda
di
h( t ) =
[ni - (di + ci )/2] ti
• ti es la amplitud de la banda en unidades de
tiempo
Comparación de grupos
• Comparaciones puntuales
– Probabilidad de sobrevivir cierto tiempo
(supervivencia a 1 ó 3 ó 5 años)
– Tiempo Mediano de supervivencia u otros
percentiles

• Comparación global de la curva


– Tests no paramétricos
– Modelos paramétricos o semi-paramétricos
Survival probability
0.0 0.2 0.4 0.6 0.8 1.0

0
2
4
6

Survival time
8
10
12
14
Comparación de 2 grupos
• El tiempo se divide en intervalos de acuerdo
con los tiempos de los eventos
• Para cada intervalo se crea una tabla de 2x2
dai sigue una distribución
Grupo Muerto Vivo
hipergeométrica
A dai nai Bajo la hipótesis de
independencia, el número
B nbi esperado de muertes es

naidi nainbidi (ni - di )


di ni-di ni eai = vai =
ni 2
ni (ni - 1)
Test de Log-rank

ZL = å (dai - eai ) VL = å vai


i i
2
Z 2
L
~c
VL 1

Test de Wilcoxon
ZW = å ni (dai - eai ) VW = å n v 2
i ai
i 2
i
ZW 2
~c
VW 1
En general

Z = åwi (dai - eai) V = åw v2


i ai
i i

• Log-rank • Wilcoxon
– wi = 1 – wi = ni
– más poder para – Más poder para
detectar diferencias al detectar
final de la curva diferencias al
– Más poder si los riesgos inicio de la curva
son proporcionales:
lb=y la
• Se pueden usar otros pesos
– Tarone-Ware: wi = Öni
– Peto: wi = Si
• Como todos los tests usan (O-E), ninguno es
bueno cuando las curvas se cruzan
Survival probability

1.0
0.8
0.6
0.4
0.2
0.0

0 2 4 6 8 10 12 14
Survival time
Más de 2 grupos

• Z y V se pueden generalizar para la


comparación de más de 2 grupos (g)

Grupo Muerto Vivo Zk = å wi (dki - eki )


i
A dai nai
k = 1 to g - 1
B dbi nbi
V: matriz de varianza-
C dbi nci
covarianza
D ndi
Z'V -1Z ~ c2g-1
di ni-di ni
Ejemplo
41 pacientes con leucemia se randomizan para recibir tratamiento con
placebo o 6-MP

Placebo:
1 2 2 2 3 4 4 5 5 8 8 8 8 11 11 12 12 15 17 22 23

6-MP:
6 6 6 7 10 13 16 22 23 6+ 9+ 10+ 11+ 17+ 19+ 20+ 25+ 32+ 34+ 35+
Placebo
time n.risk n.event survival s.e. 95% CI
1 21 1 0.95 0.046 0.86 1.00
2 20 3 0.81 0.085 0.65 0.99
3 17 1 0.76 0.093 0.59 0.96
4 16 2 0.66 0.103 0.49 0.90
5 14 2 0.57 0.108 0.39 0.82
8 12 4 0.38 0.106 0.22 0.65
11 8 2 0.28 0.098 0.14 0.56
12 6 2 0.19 0.085 0.07 0.46
15 4 1 0.14 0.076 0.05 0.40
17 3 1 0.09 0.064 0.02 0.35
22 2 1 0.04 0.046 0.00 0.32
23 1 1 0.00 - - -

6-MP
time n.risk n.event survival s.e. 95% CI
6 20 3 0.85 0.079 0.70 1.00
7 16 1 0.79 0.090 0.63 0.99
10 14 1 0.74 0.100 0.56 0.96
13 11 1 0.67 0.111 0.48 0.93
16 10 1 0.60 0.119 0.41 0.89
22 6 1 0.50 0.135 0.29 0.85
23 5 1 0.40 0.141 0.20 0.80
Survival description

Group n events mean se(mean) median 0.95LCL 0.95UCL


Placebo 21 21 8.71 1.37 8 4 12
6-MP 20 9 22.46 2.91 23 13 NA

1.0
0.8

6-MP
0.6
S(t)

0.4

Placebo
0.2
0.0

0 5 10 15 20 25 30 35

weeks
Survival comparison

Test Statistics for Equality of Survival Distributions


for GROUP

Statistic df Significance

Log Rank 14,95 1 ,0001


Breslow 12,13 1 ,0005
Tarone-Ware 13,57 1 ,0002

=================================================
Call:
survdiff(formula = Surv(time, censor) ~ group)

N Observed Expected (O-E)^2/E (O-E)^2/V


group=1 21 21 11.3 8.45 14.9
group=2 20 9 18.7 5.07 14.9

Chisq= 14.9 on 1 degrees of freedom, p= 0.0001


Test de tendencia
• Cuando los grupos están definidos por una
variable ordinal: - Categorías de edad
- Grupos de dosis
- Estadío tumoral

• Similar al test de Mantel-Haenszel para


tendencias en proporciones
Z = å wk (dk. - ek. ) dk. = å dki ek. = å eki
k i i

wk codifica la métrica de la tendencia:


1 2 3 4 para tendencia lineal
Z2/V ~ c21 Solo 1 grado de libertad
1.0

S(t)
.8 Karnofski
<=60%
61_70%
.6
71_80%
81_90%
.4 91+ %

.2

0.0
0 12 24 36 48 60
Time (months)

Test Statistics for Equality of Survival Distributions for KARNOFS


Statistic df Significance
Log Rank 134.17 4 .0000

Test Statistics for Equality of Survival Distributions for KARNOFS


with Trend, metric = ( -2, -1, 0, 1, 2 )

Statistic df Significance
Log Rank 117.07 1 .0000
Test estratificado
• Ajuste de factores de confusión mediante un
test no paramétrico
• Se comparan grupos controlando el efecto de un
atercera variable. La comparación entre grupos
se realiza dentro de cada categoría (estrato) de
la variable confusora.
• Zk y Vk se calculan para cada estrato y después
se combinan.
åk Zk 2
Para 2 grupos, k estratos: ~ c1
åV
k
k

• Se puede generalizar a más de 2 grupos


1.0

.9

.8

.7

.6

.5

.4
pO2
.3 > 70
.2

.1 <=70
0.0
0 10 20 30 40 50 60 70

Time (months)

Test Statistics for Equality of Survival Distributions for PO2

Statistic df Significance
Log Rank 10.12 1 .0015
Survival Functions Survival Functions Survival Functions
KARNOFS = 91 + % KARNOFS = 81_90 % KARNOFS = 71_80 %
1.2 1.2 1.2

1.0 1.0 1.0

.8 .8 .8

.6 .6 .6
pO2 pO2 pO2
.4 .4 .4
> 70 > 70 > 70
Cum Survival

Cum Survival

Cum Survival
.2 .2 .2
> 70-censored > 70-censored > 70-censored

0.0 <=70 0.0 <=70 0.0 <=70

-.2 <=70-censored -.2 <=70-censored -.2 <=70-censored


0 10 20 30 40 50 60 0 10 20 30 40 50 60 70 0 10 20 30 40

Time (months) Time (months) Time (months)

Survival Functions Survival Functions


KARNOFS = 61_70 % KARNOFS = <= 60 %
1.2 1.2

1.0 1.0

.8 .8

.6 .6
pO2 pO2
.4 .4
> 70 > 70
Cum Survival

Cum Survival
.2 .2
> 70-censored > 70-censored

0.0 <=70 0.0 <=70

-.2 <=70-censored -.2 <=70-censored


0 10 20 30 40 0 2 4 6 8 10 12 14 16 18

Time (months) Time (months)

Test Statistics for Equality of Survival Distributions for PO2


Adjusted for KARNOFS
Statistic df Significance
Log Rank 2.34 1 .1262
Supervivencia específica
• En general interesa estudiar la supervivencia
de una población con un tumor concreto.
Interesan las muertes por el tumor
• Las muertes por otras causas se ignoran y se
considera al paciente censurado a partir del
momento en que muere
• En un registro de tumores no siempre se
conoce la causa de la muerte
• Los certificados de defunción tienen calidad
dudosa para algunas causas de muerte
Supervivencia relativa

• Se ignora la causa de muerte. Se supone que


todos los pacientes con cáncer mueren por
el tumor
• Se corrige la supervivencia observada
dividiendo por la esperada según la
mortalidad general (en función de la edad,
el sexo y el año)
• La supervivencia relativa estima la s. neta
Modelos para análisis de la
supervivencia
• Paramétricos: Se especifica una
distribución de probabilidad para T y una
escala de medida de diferencias entre
grupos

• Semi-paramétricos: La distribución para


T es libre (no paramétrica), pero se
especifica la escala de medida de diferencias
® Modelo de Cox
Modelo lineal generalizado
• La variable dependiente a modelar (Y) está
relacionada con el tiempo: S(t), h(t)
• Una transformación de la media de Y se
puede explicar mediante una combinación
lineal de covariables:

g(m ) = a + β x
• g(m) suele ser log(m)
Variable dependiente
• Tiempo hasta la muerte:
g(T) = a + bX

• Riesgo: Pr(morir en t):


g{h(t)} = a + bX

• Supervivencia: Pr(morir > t):


g{S(t)} = a + bX
Diferencias en supervivencia

1.0
2.0

0.8
0.6
1.5
h(t)

S(t)

0.4
1.0

0.2
0.5

0.0
0 1 2 3 4 5 0 1 2 3 4 5
Tiempo Tiempo

• Es más sencillo definir los modelos respecto


a la función de riesgo h(t) que respecto a la
de supervivencia S(t)
Función de riesgo
f(t)
h(t) =
S(t)
• Probabilidad de morir en t, a condición de
estar vivo antes.
• Riesgo instantáneo, que puede variar con el
tiempo

• Si se especifica: Modelo paramétrico


Modelos paramétricos
Modelo h(t)
• Exponencial l (constante)
• Weibull lktk-1
• log-normal f(t)/S(t)
• log-logístico lktk-1/(1+ltk)
• Pareto f/t
• Gompertz feat
• Gamma f(t)/S(t)
Modelo de riesgos proporcionales
• Las diferencias de riesgo entre grupos se
mantienen en proporción a lo largo del tiempo
• Diferencias constantes en escala log
10
5
h(t)

1
0.5
0.1

0 1 2 3 4 5
Tiempo
formulación
h(t|x) = j(x)h0(t)
• Para asegurar que j(x) siempre es positivo
j(x) = exp(bx)

h(t|x) = exp(bx) h0(t)

• Modelos con j(x) = (1+ bx) son difíciles de


ajustar, pero se pueden emplear
Interpretación del modelo
• El cambio en una unidad de la covariable x
multiplica el riesgo por exp(b)

h(t | x)
exp(b) =
h0 (t)

• Si x es binaria {0,1}, h1 (t)


exp(b) =
h0 (t)
• exp(b) = riesgo relativo (HR)
Condición de proporcionalidad
h(t | x)
• Se asume que = cte
h0 (t)
• Si no se cumple, la estimación de b será un
promedio de la razón de riesgos entre grupos
(en escala log)
1
0.5
h(t)

0.1

0 1 2 3 4 5
Tiempo
Relaciones entre funciones
f(t) ìf(t) no son fáciles de
h(t) = í estimar por ser
S(t) îh(t) Pr instantáneas

t
S(t) = exp[ - ò h(u)du]
0

= exp[ -H(t)]

Proporcionalidad en h(t) Þ
H(t) = -log[S(t)] proporcionalidad en H(t)
En escala de S(t)
S(t|x) = S0(t)exp(bx) h(t|x) = exp(bx) h0(t)
1.0

1
0.8

0.5
0.6
S(t)

h(t)
0.4
0.2

0.1
0 1 2 3 4 5 0 1 2 3 4 5
Tiempo Tiempo

• En algunos casos exp(b) corresponde con la


variación relativa del percentil (mediana
relativa): “modelos de tiempo acelerado”
Modelo de Cox
• Modelo de riesgos proporcionales semi-
paramétrico:
h(t|x) = exp(bx) h0(t)
• h0(t): la función de riesgo del grupo de
referencia no se modela, se estima por un
método no paramétrico
• exp(bx): el parámetro cuantifica diferencias
en riesgo entre grupos (que deben ser
proporcionales en el tiempo)
Riesgos relativos
• Los parámetros miden diferencias en riesgo
respecto al grupo de referencia

æ h(t | x) ö
logçç ÷÷ = b1x1 + b 2 x2 + ... + b k xk
è h0 (t) ø

• HR = exp(b)

• No hay constante, no se puede identificar si


no se modela h0(t)
Ejemplo: estadio tumoral

æ h(t | estadio) ö
logçç ÷÷ = b1e1 + b2e2
è h0 (t) ø
ìe0 : local
ï ì0 : au sen te
estadio : íe1 : regional í
ïe : diseminado î1 : pre sen te
î 2
log(h)

10
diseminado

5
b2

regional
1

b1 local
0.5
0.1

0 1 2 3 4 5
Tiempo

æ h1 ö æ h2 ö
b1 = logçç ÷÷ b2 = logçç ÷÷
è h0 ø è h0 ø
Supervivencia en
cáncer de pulmón
Survival Function
1.0

.8

.6

.4
Cum Survival

.2
Survival Function

0.0 Censored
0 20 40 60 80 100

Supervivencia (mesos)
Life Table
Survival Variable SEGUIM Supervivencia (mesos)

Number Number Number Number Cumul


Intrvl Entrng Wdrawn Exposd of Propn Propn Propn Proba-
Start this During to Termnl Termi- Sur- Surv bility Hazard
Time Intrvl Intrvl Risk Events nating viving at End Densty Rate
------ ------ ------ ------ ------ ------ ------ ------ ------ ------
.0 610.0 27.0 596.5 116.0 .1945 .8055 .8055 .0648 .0718
3.0 467.0 27.0 453.5 128.0 .2822 .7178 .5782 .0758 .1095
6.0 312.0 17.0 303.5 74.0 .2438 .7562 .4372 .0470 .0926
9.0 221.0 12.0 215.0 56.0 .2605 .7395 .3233 .0380 .0998
12.0 153.0 9.0 148.5 32.0 .2155 .7845 .2537 .0232 .0805
15.0 112.0 7.0 108.5 18.0 .1659 .8341 .2116 .0140 .0603
18.0 87.0 10.0 82.0 13.0 .1585 .8415 .1780 .0112 .0574
21.0 64.0 6.0 61.0 12.0 .1967 .8033 .1430 .0117 .0727
24.0 46.0 3.0 44.5 6.0 .1348 .8652 .1237 .0064 .0482
27.0 37.0 2.0 36.0 4.0 .1111 .8889 .1100 .0046 .0392
30.0 31.0 3.0 29.5 5.0 .1695 .8305 .0913 .0062 .0617
33.0 23.0 1.0 22.5 4.0 .1778 .8222 .0751 .0054 .0650
36.0 18.0 2.0 17.0 2.0 .1176 .8824 .0663 .0029 .0417
39.0 14.0 2.0 13.0 1.0 .0769 .9231 .0612 .0017 .0267
42.0 11.0 2.0 10.0 1.0 .1000 .9000 .0551 .0020 .0351
45.0 8.0 1.0 7.5 .0 .0000 1.0000 .0551 .0000 .0000
48.0+ 7.0 5.0 4.5 2.0 .4444 .5556 .0306 ** **
Supervivencia Hazard Function
1.0 .12

.10
.8
.08

.6 .06

.04
.4
Cum Survival

.02

.2

Hazard
0.00

0.0 -.02
0 10 20 30 40 50 0 10 20 30 40 50

Supervivencia (mesos) Supervivencia (mesos)

Kaplan-Meier

Survival Time Standard Error 95% Confidence Interval

Mean: 13.2 .9 ( 11.4, 15.0 )


(Limited to 82.0 )
Median: 7.0 .5 ( 6.1, 7.9 )
Percentiles

25.00 50.00 75.00

Value 15.00 7.00 3.00


Standard Error 1.19 .45 .23
Survival Functions
1.0

ESTCLIN
.8
EST IV

.6
EST IIIB

.4
EST IIIA
Cum Survival

.2

EST I/II
0.0
0 20 40 60

Supervivencia (mesos)
2

-1

-2 ESTCLIN

EST IV
Log minus log

-3
EST IIIB
-4
EST IIIA

-5 EST I/II
,4 1 3 5 20 40
,5 2 4 10 30 50

Supervivencia (mesos)
Indicator Parameter Coding
Value Freq (1) (2) (3)
ESTCLIN
EST I/II 129 .000 .000 .000
EST IIIA 135 1.000 .000 .000
EST IIIB 189 .000 1.000 .000

---------------------- Variables in the Equation ----------------------

Variable B S.E. Wald df Sig R Exp(B)

ESTCLIN 80.7922 3 .0000 .1189


ESTCLIN(1) .6435 .1516 18.0257 1 .0000 .0550 1.9030
ESTCLIN(2) .9895 .1433 47.6928 1 .0000 .0929 2.6898
ESTCLIN(3) 1.2800 .1484 74.3659 1 .0000 .1169 3.5965
Tipos de variable
• El modelo de Cox permite que las variables
independientes (Covariables) sean de
cualquier naturaleza:
– Binarias: {0;1}
– Categóricas: codificación con “dummies”
respecto a una de referencia
Ordinales: categorías ordenadas
análisis de tendencia
– Continuas
Función de verosimilitud
• Pr(un sujeto con las covariables x(i) muere en ti a
condición de que uno de los sujetos vivos en ese
momento R(ti) muere)
• Pr(sujeto muere en ti | un muerto en ti)

Pr(sujeto muere en ti | estaba vivo antes)


=
Pr(un muerto en ti | estaba vivo antes)

h(ti | x(i) ) h0 (ti )e


β x(i)

= =
åjÎR h(ti | xj )
i
å jÎRi
h0 (ti )e
β xj
Elementos de interés
• Parámetros: (b)
• Matriz de varianza-covarianza: S=I-1(b)

æ V(b1 ) C(b1,b2 ) C(b1,b3 ) ö


ç ÷
å = ç C(b1,b2 ) V(b2 ) C(b2 , b3 ) ÷
ç C(b ,b ) C(b , b ) V(b ) ÷
è 1 3 3 2 3 ø
• Valor de logL cuando es máximo:
– “Likelihood value”
– Tiene asociados unos “grados de libertad”:
g.l. = #observaciones - #parámetros - 1
Elementos derivados
• HR = eb
– permite interpretar los coeficientes como
riesgos relativos

• Errores estándar de b: eeb =ÖV(b)


– permite calcular intervalos de confianza y
realizar tests de hipótesis

• Deviance = -2 * logL
– permite: realizar test de hipótesis (comparando modelos)
Diagnóstico en modelos de Cox
• Asumción de proporcionalidad en los riesgos
– Métodos gráficos
– Métodos estadísticos
– Situaciones graves
– Soluciones posibles
• Ajuste del modelo
– Modelos con intención predictiva
– Idoneidad del uso de variables cuantitativas
• Observaciones influyentes
– Delta-betas
Verificación de la
proporcionalidad en los riesgos

• Métodos gráficos
– log{-log(S)} vs log(t)
– log(HR) vs t

• Métodos estadísticos
– Introducir una interacción covariable-tiempo
Quimioterapia en cáncer de pulmón
Descriptiva Kaplan-Meier
n events mean se(mean) median 0.95LCL 0.95UCL
quimio=1 496 390 12.8 1.03 6 6 7
quimio=2 114 84 13.7 1.06 10 9 14

Test de logrank
n Observed Expected (O-E)^2/E (O-E)^2/V
quimio=1 496 390 365 1.75 8.38
quimio=2 114 84 109 5.84 8.38

Chisq= 8.4 on 1 degrees of freedom, p= 0.00379


Función de supervivencia

1.0
0.8
0.6

Quimio
No quimio
0.4
0.2
0.0

0 20 40 60 80
Modelo de Cox
coef exp(coef) se(coef) z p
quimio -0.347 0.707 0.121 -2.88 0.004

exp(coef) exp(-coef) lower .95 upper .95


quimio 0.707 1.42 0.558 0.895

Rsquare= 0.014 (max possible= 1 )


Likelihood ratio test= 8.90 on 1 df, p=0.00284
Wald test = 8.28 on 1 df, p=0.00402
Score (logrank) test = 8.37 on 1 df, p=0.00381

Test de proporcionalidad en los riesgos

rho chisq p
quimio 0.179 15.2 9.9e-05
Gráficas log(-log S) vs log(t)

1
0
log(-log S)

-1
-2

Quimio
No quimio
-3

0.5 1.0 2.0 5.0 10.0 20.0 50.0


Estimación de b para quimioterapia en función del tiempo

2
1
Beta(t) for quimio

0
-1

1.4 2.8 4.3 5.9 8.1 11 16 28


Time
1
0
-1
log -log S
-2

No op
No radical
Radical
-3
-4

0.5 1.0 2.0 5.0 10.0 20.0 50.0


Beta(t) for as.factor(cirugia)2
-3 -2 -1 0 1 2

1.4 2.8 4.3

Time
5.9 8.1 11
16
28
Beta(t) for as.factor(cirugia)3

-2 -1 0 1
1.4 2.8 4.3

Time
5.9 8.1 11
16
28
No proporcionalidad en los riesgos
• Si es muy evidente: modelo no interpretable
– Las curvas muestran diferencias pero se cruzan

• Si las curvas se juntan al principio o al final,


b estima el “promedio” de las diferencias:
– Si b significativo: hay diferencias claras
– Si b NO significativo: es posible que en algún
momento existan diferencias pero quedan
enmascaradas porque en otro tiempo no se dan

• Si las curvas se solapan: no diferencias


Posibles soluciones
• No proporcionalidad en covariables
importantes:
– Modelo de Cox estratificado:

L(X | p) = Õ
s =1
e å bx 0
å e å bxi
iÎR 1
Õ
s =2
e å bx 0
å e å bxi
iÎR 2
Õ
s =3
e å bx0
å e å bxi
iÎR 3

– Los sets se generan entre los individuos de cada


estrato
h(t)
0.1 0.2 0.5 1.0 2.0 5.0 10.0

5
10
años
15
20
25
h(t)

0.1 0.2 0.5 1.0 2.0 5.0 10.0


5
10

años
15
20
25
h(t)

0.1 0.2 0.5 1.0 2.0 5.0 10.0

5
10

años
15
20
25
2

-1

-2
Log minus log

GRUP
-3
1.00

-4 .00
.4 1 3 5 20 40
.5 2 4 10 30 50

Supervivencia (mesos)
Modelo ignorando grupo de riesgo

Variable B S.E. Wald df Sig R Exp(B)

CIRUGIA 67.2278 2 .0000 .1093


CIRUGIA(1) -.5077 .2294 4.8995 1 .0269 -.0234 .6019
CIRUGIA(2) -1.3516 .1685 64.3733 1 .0000 -.1085 .2588

Modelo ajustado por grupo de riesgo

Variable B S.E. Wald df Sig R Exp(B)

CIRUGIA 69.8900 2 .0000 .1116


CIRUGIA(1) -.5510 .2296 5.7613 1 .0164 -.0267 .5764
CIRUGIA(2) -1.4141 .1734 66.4715 1 .0000 -.1104 .2431
GRUPO -1.2339 .1520 65.8913 1 .0000 -.1099

Modelo estratificado por grupo de riesgo

Variable B S.E. Wald df Sig R Exp(B)

CIRUGIA 61.4289 2 .0000 .1075


CIRUGIA(1) -.5217 .2295 5.1665 1 .0230 -.0253 .5935
CIRUGIA(2) -1.3221 .1731 58.3395 1 .0000 -.1065 .2666
Covariables dependientes del
tiempo
• El modelo de Cox estándar supone que las
covariables se miden a tiempo 0
• Si una covariable cambia de estado con el
tiempo debe tratarse de manera especial
• Ejemplos:
– Sucesos intercurrentes:
• Recidivas / metástasis
• Transplantes
– Marcadores biológicos
• Evolución CD4 / CEA / ...
Sucesos intercurrentes
• El valor de una covariable cambia en un
momento del tiempo tras el inicio del
seguimiento
• La contribución del individuo se divide en 2
intervalos:
– inicio hasta el suceso: z=0
– suceso hasta último control: z = 1
10
log(h)
5
1
0.5
0.1

0 1 2 3 4 5

Tiempo
• Es necesario tener en cuenta estos cambios
al calcular la función de verosimilitud

• Ignorar cuando ocurre el suceso (suponer que


ocurre en el tiempo 0) hace que buena parte
del tiempo se considere a un individuo
“afectado” cuando no lo está
• Si la aparición del suceso sólo se da al final,
en individuos que viven lo suficiente, pueden
resultar estimaciones contradictorias
Riesgo asociado a la recidiva
Funciones de supervivencia
1,1
1,0
,9
Supervivencia acum

,8
,7
RECIDIVA
,6 1,00

,5 1,00-censurado

,4 ,00
,3 ,00-censurado
0 20 40 60 80 100

TIEMPO
Survival Time Standard Error 95% Confidence Interval
RECIDIVA = ,00
Median: 54,00 8,32 ( 37,70; 70,30 )

RECIDIVA = 1,00
Median: 69,00 7,66 ( 53,99; 84,01 )

Chi-Square df Sig
Change (-2LL) from
Previous Step 2,889 1 ,0892

Variable B S.E. Wald df Sig R Exp(B)

RECIDIVA -,2828 ,1691 2,7965 1 ,0945 -,0216 ,7536

=====================================================================

Chi-Square df Sig
Change (-2LL) from
Previous Step 16,252 1 ,0001

Variable B S.E. Wald df Sig R Exp(B)

T_COV_ ,7573 ,1803 17,6389 1 ,0000 ,0959 2,1326