Está en la página 1de 19

UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS

FACULTAD DE MEDICINA HUMANA


Mg. Ysela Agero P.
PROGRAMA DE SEGUNDA ESPECIALIDAD PROFESIONAL EN
EPIDEMIOLOGA DE CAMPO - PREC
ANALISIS DE REGRESIN
ANALISIS DE REGRESIN
LOGISTICA BINARIA
LOGISTICA BINARIA
Los mtodos de regresin se han convertido en parte integrante de muchos
anlisis de datos relacionados con la descripcin de la relacin causal entre
una variable respuesta (variable dependiente, efecto, etc.) y una o ms
variables predictivas (variables regresoras, variables independientes,
covariables, factores, etc.). Particularmente, el anlisis de regresin lineal se
utiliza para modelar la relacin causal entre una variable respuesta continua y
un conjunto de variables explicativas continuas, las cuales se relacionan
linealmente con la respuesta. Pero a menudo ocurre que, la variable respuesta
(variable dependiente, efecto, etc.) no es continua sino ms bien categrica y
toma slo dos (binaria) o ms (multinomial) posibles valores.
En estas clases se pretende introducir los conceptos relacionados con el
manejo de los modelos de regresin logstica incondicional, es decir, modelos
basados en observaciones independientes. Existen modificaciones del modelo
incondicional que nos permiten manejar datos dependientes, como ocurre para
los estudios caso-control pareados que tambin son tratados en la literatura
referida a la regresin logstica.
ANALISIS DE REGRESION LOGISTICA
Antes de comenzar el estudio del modelo de regresin logstica es importante
entender que el objetivo de un anlisis usando los modelos de regresin, en
general, es el mismo que cuando se usa cualquier otra tcnica de construccin
de modelos usada en estadstica, esto es,
ANALISIS DE REGRESION LOGISTICA
Encontrar el mejor ajuste y el ms parsimonioso, pero que a Encontrar el mejor ajuste y el ms parsimonioso, pero que a
la vez, sea un modelo biolgicamente razonable para explicar la vez, sea un modelo biolgicamente razonable para explicar
la relacin entre un efecto (variable respuesta) y un conjunto de la relacin entre un efecto (variable respuesta) y un conjunto de
factores(variables explicativas factores(variables explicativas ). ).
Recordemos que al construir modelos se tiene que seguir una serie de pasos:

Identificacin y formular el modelo ideal (terico).

Obtencin de los datos para contrastarlos con el modelo

Estimacin de parmetros

Validacin del modelo

Uso del modelo (prediccion, estimacin, clasificacin, etc.)


Si el modelo no es vlido volver a la etapa de identificacin proponer un nuevo
posible modelo.
La eleccin del modelo adecuado en la etapa de identificacin depender de
los objetivos de la investigacin, de la experiencia del investigador en el
tema en cuestin, de la cantidad de posibles modelos que conozca, del tipo
de datos con los que cuenta, etc.
Por ejemplo, si la variable respuesta es binaria (dicotmica) un posible
modelo a elegirse en la etapa de identificacin ser el modelo logstico.
Cada una de las etapas en el anlisis de datos tiene sus particularidades
dependiendo del modelo elegido en la etapa de identificacin. Pero, el
anlisis de regresin logstica y el de regresin lineal tienen similitudes y
diferencias las cuales intentaremos ilustrar con el ejemplo siguiente.
ANALISIS DE REGRESION LOGISTICA
Ejemplo. Asociacin entre la enfermedad cardiovascular y la edad
Se realiza un estudio con una muestra aleatoria de tamao 100 de una
poblacin de individuos adultos. El objetivo es evaluar la asociacin entre la
presencia de enfermedad coronaria (EC) y la edad. La tabla registra la
identificacin (ID), edad, y enfermedad coronaria (EC = 1: enfermedad
presente, EC = 0 : no presenta evidencia de enfermedad).
ID EDAD EC
1 20 0
2 23 0
3 24 0
:: :: ::
::: ::: :::
98 64 1
99 65 1
100 69 1
Dato
s
Edad
77 77 77 77 77 77 77
E
n
f
e
r
m
e
d
a
d

C
o
r
o
n
a
r
i
a
. 77
. 77
.7
.7
.7
.7
. 77
-.7
Diagrama de dispersin
Edad vs EC
ANALISIS DE REGRESION LOGISTICA
El grfico anterior no permite visualizar claramente la distribucin de la
enfermedad cardiovascular en las distintas edades , por lo que se construy una
tabla de contingencia entre las edades agrupadas y la presencia o ausencia de la
enfermedad. La ltima columna de la tabla contiene las prevalencias de ECV
Grupo de
edad
Nmero
de
sujetos
Enfermedad
coronaria
Prevalencia
de
enfermedad
Ausente Presente
20-29 10 9 1 0.10
30-34 15 13 2 0.13
35-39 12 9 3 0.25
40-44 15 10 5 0.33
45-49 13 7 6 0.46
50-54 8 3 5 0.63
55-59 17 4 13 0.76
60-69 10 2 8 0.80
Total 100 57 43 0.43
Tabla. Enfermedad cardiovascular (ECV) y grupo de edad
ANALISIS DE REGRESION LOGISTICA
Ejemplo. Asociacin entre la enfermedad cardiovascular y la edad
7
, 00
, 00
, 00
, 00
7
- 0000 - 7777 - 0000 - 7777 - 7777 - 7777 - 7777 - 7777
Grupo de edad
P
r
e
v
a
l
e
n
c
i
a

d
e

E
C
Observar que la relacin
entre la prevalencia de
EC y la edad no es lineal,
sino ms bien presenta la
forma de una curva en
forma de S (curva
sigmoidea).
Figura. Prevalencia de EC
y edad.
ANALISIS DE REGRESION LOGISTICA
Ejemplo. Asociacin entre la enfermedad cardiovascular y la edad
ECV presente 7
ECV ausente 7

'

Y
Definamos la variable respuesta
como:
La variable independiente es
continua

X : Edad
( )
7 7
7 7
/ ( )
7
X
X
e
E Y X x x
e

+
+

+
Consideremos un modelo logstico
Este modelo constituye un mayor acercamiento a la realidad biolgica, pues,
tiene ms sentido pensar que la influencia de un factor de riesgo sobre la
probabilidad de tener una enfermedad se asemeja ms a una curva de tipo
sigmoidea que a una recta.
ANALISIS DE REGRESION LOGISTICA
Ejemplo. Asociacin entre la enfermedad cardiovascular y la edad
Cuando una variable explicativa es numrica se puede incorporar en el
modelo tal cual.
Ejemplo :
Para introducir las variables explicativas : Nmero de cigarros que fuma
y nivel de colesterol en mg/dl en un modelo de prediccin de
enfermedad coronaria, definimos :
Variables explicativas Numricas
X
1
: Nmero de cigarros que fuma;

X
2
: Nivel de colesterol en mg/dl
ANALISIS DE REGRESION LOGISTICA
Variables explicativas categricas
ANALISIS DE REGRESION LOGISTICA
Cuando una variable explicativa es categrica se transforma definiendo
variables artificiales.
Por ejemplo, en el modelo de prediccin de enfermedad coronaria, se desea
introducir las variables explicativas :
X
1
: Hbito de fumar
X
2
: Nivel de colesterol

'

fuma No 7
Fuma 7
7
X
7
Elevado 7
Normal 7
X

'

Cuando una variable explicativa es categrica con ms de dos categoras se


transforma definiendo variables artificiales.
Si el nmero de categoras es L se fija una de ellas como referencia y se
define L-1 variables artificiales
Ejemplo : Masa corporal (peso/talla
2
) medido con tres categoras (L=3).
7
Sobrepeso 7
Normal 7
X

'

Normal
Masa corporal= Sobrepeso
Obesidad

'

7
Obesidad 7
Normal 7
X

'

Se fijar como referencia la categora normal y se construirn 2 variables


artificiales
ANALISIS DE REGRESION LOGISTICA
Variables explicativas categricas politmicas
Modelo de regresin logstica
Modelo de regresin logstica
mltiple
mltiple
El modelo supone que :
1. Las observaciones de la variable respuesta (Y
i
) : i=1,2,,n) son
independientes entre si.
2. La distribucin de la respuesta es Y
i
B(
i
) ; para i=1,2,...,n
(Bernoulli)
3. Las variables explicativas (X
1
, X
2
,,X
K
) son independientes entre si.
4. V(Y
i
) =
i
(1-
i
); i=1,2,...,n (Varianzas no son constantes.
7 77
7 77
...
7 7
...
( / ,.... ) ( )
7
k k
k k
x x
k k
x x
e
E Y X x X x X
e

+ + +
+ + +

+
ANALISIS DE REGRESION LOGISTICA
El modelo de regresin logstica puede extenderse para k variables explicativas X
k

y se denomina modelo de regresin logstica mltiple.
Siguiendo la lgica del modelo de regresin lineal, la relacin entre el predictor
y la respuesta debe ser lineal, por lo que se necesita una transformacin que
permita expresar el modelo como una relacin lineal entre los dos miembros
de la igualdad.
Se propone una transformacin denominada, transformacin logit .
7 77
( )
logit( ( )) ln ...
( ) 7

_
+ + +

,
k k
X
X x x
X

ANALISIS DE REGRESION LOGISTICA
Modelo de regresin logstica
Modelo de regresin logstica
mltiple
mltiple
Esta transformacin consiste en dividir la proporcin de xitos, (x), que puede
ser una prevalencia, entre uno menos la proporcin de xitos, 1- (x) y
aplicarle el logaritmo a este cociente.

Se podran utilizar mtodos numricos de optimizacin para calcular los


estimadores del vector de parmetros por el mtodo de mxima
verosimilitud).

Dado que el modelo de regresin logstica es un miembro de la familia de


modelos lineales generalizados, la estimacin de los parmetros se realizar
por el mtodo de mnimos cuadrados , iterativamente reponderados.

El procedimiento ms utilizado para realizar la estimacin es el mtodo


score de Fisher el cual se basa en la funcin score obtenida a partir de la
funcin de verosimilitud ( Nelder y Wedderburn (1972)).
Estimacin de parmetros
ANALISIS DE REGRESION LOGISTICA
Estimacin de parmetros
ANALISIS DE REGRESION LOGISTICA
Ejemplo. Asociacin entre la enfermedad cardiovascular y la edad
El modelo ajustado es:
7 7
( )

ln . . 77777777
( ) 7

_
+ +

,
x
x edad
x
Aplicndole la transformacin inversa
. . edad 7777 7777
. . edad 7777 7777

( )
7

+
+

+
e
x
e
Variables en la ecuacin
,777 ,777 , 0000
- , 7777 ,777 ,777
edad
Constante
Paso
7
a
B Sig. Exp(B)
Variable(s) introducida(s) en el paso : edad. 7
a.
Los coeficientes del modelo no
tienen una interpretacin directa
Para facilitar la interpretacin de los coeficientes del modelo consideremos un
modelo con una sola variable explicativa numrica:
7
( )

ln ( )

( ) 7

_
+

,
i o
x
x x
x
El valor ajustado para una edad x

+1 valor de ser :
7

( ) 7

ln ( ) ( ) 7
( ) 7 7

_ +
+ +

+
,
i i o
x
x x
x
Ventaja (Odds)
para x
Ventaja (Odds)
para (x+1)
ANALISIS DE REGRESION LOGISTICA
Interpretacin de los coeficientes estimados
El valor estimado para una edad x

ser :
La diferencia de ventajas (odds)
Aplicando el antilogaritmo
7


( ) ( ) ln(Ventaja( ) ln(Ventaja( ) 7 7 + + x x x x
7
Ventaja( ) 7

ln
Ventaja( )

_ +


,
x
x
7
Ventaja( ) ( ) 7 7
Ventaja( ) ( )

+ +

Estimado
x Odds x
OR e
x Odds x
El OR se puede interpretar como el incremento en la chance de tener el
evento dado que un individuo tiene un valor de la variable x+1 comparado con
la chance de un individuo que tiene un valor x.
ANALISIS DE REGRESION LOGISTICA
Interpretacin de los coeficientes estimados
Ejemplo
Aplicando el antilogaritmo
7


( ) ( ) ln(Ventaja( ) ln(Ventaja( ) 7 7 + + x x x x
7
Ventaja( ) 7

ln
Ventaja( )

_ +


,
x
x
7
Ventaja( ) ( ) 7 7
Ventaja( ) ( )

+ +

Estimado
x Odds x
OR e
x Odds x
El OR se puede interpretar como el incremento en la chance de tener el
evento dado que un individuo tiene un valor de la variable x+1 comparado con
la chance de un individuo que tiene un valor x.
ANALISIS DE REGRESION LOGISTICA
Interpretacin de los coeficientes estimados


Ejemplo:
Ejemplo:Asociacin entre la enfermedad Asociacin entre la enfermedad
cardiovascular y la edad cardiovascular y la edad
La ecuacin ajustada es:
. . 7777 7777
. . 7777 7777
( )
7

+
+

+
Edad
Edad
e
x
e
. 7777
Ventaja( ) ( ) 7 7
. 0000
Ventaja( ) ( )
+ +

Estimado
x Odds x
OR e
x Odds x
El OR estimado indica que una persona con (x+1) aos de
edad tiene 1.117 veces ms chance (posibilidad o ventaja)
de presentar enfermedad coronaria s comparado con otra
persona con edad x.
O, por cada ao adicional en la edad de las personas , el
riesgo estimado de tener enfermedad coronaria es 1.117
ms.

ANALISIS DE REGRESION LOGISTICA
Interpretacin de los coeficientes estimados
Calculamos la razn de ventajas

También podría gustarte