Está en la página 1de 12

REGRESION LOGISTICA simple

Cuando la variable dependiente es discreta dicotómica y la variable


independiente cuantitativa, se tiene en cuenta el modelo de la regresión
logística simple y permite establecer la relación entre ellas.

Ejemplo: Si la característica consiste en la presencia o ausencia de la


enfermedad del miocardio (Y) en una población de personas de 30 a 69
años de edad. Se tiene que la variable queda definida como:

1 Presencia de la enfermedad del miocardio con probabilidad π.


Y=

0 ausencia de enfermedad del miocardio con probabilidad 1-π.

Por consiguiente, la media aritmética de los valores de Y está dado por


π.
La función logística esta expresada de la siguiente manera:

1
f(x) =───────, donde - ∞ < x < ∞ , 0 ≤ f(x) ≤ 1 .
1 + e-x
El gráfico que le corresponde a la función logística está dada por:

g(x)

0,75

0,5

0,25

0
X
Si queremos establecer una relación entre la enfermedad del miocardio
(Y) y la edad de la persona (X), mediante el modelo de regresión
logística. Dicho modelo se establece como:

1
Π (x) = -( α +β * x)
, -∞ ≤ x ≤ ∞ , 0 ≤ y ≤ 1
1+ e

Donde: π (x) nos indica la probabilidad de que la persona tenga la


enfermedad del miocardio para un valor específico de la edad x de la
persona. La variable X puede ser continua o discreta dicotómica (es
decir, puede tomar valores de 0 ó 1)
α +β * x
Esta probabilidad lo podemos expresar como: π (x) = αe+β * x .
e +1
Además, se tiene que 1 - π (x) nos indica la probabilidad de no tener la
enfermedad del miocardio.

Por consiguiente, el cociente de estas dos probabilidades, nos da como


resultado un odds θ en favor de la enfermedad. Esta razón se establece
como:
π (x)
θ= = eα +β * x
1 - π (x)

El logaritmo natural de este odds, genera una transformación logística


que está dado por:

π (x)
ln = α + β * x , el nombre que recibe dicha transformación es Logit.
1 - π (x)
Consideremos una muestra aleatoria de tamaño n dada por (x1,y1),
(x2,y2), ..., (xn, yn).
Para estimar α y ß se utiliza el método de máxima verosimilitud y
^ ^
si ß es el estimador máximo verosímil de ß y ES(ß) es el error estándar
estimado de dicho estimador, por consiguiente, el test de Wald queda
expresado como :
^
ß
W =------ → N(0,1)
^
ES(ß)
Ejemplo 1
Una muestra de 54 ancianos es sometida a un examen siquiátrico para
determinar si presentan o no síntomas de senilidad. Una prueba de la
escala Weschller de inteligencia para adultos (WAIS) es usada como
variable independiente. Los datos se encuentran en la tabla 1. Los
puntajes WAIS de la muestra van de 4 a 20. Los valores altos de esta
prueba indica un funcionamiento intelectual más efectivo.
Tabla 1

X Y X Y X Y X Y X Y
9 1 7 1 7 0 17 0 13 0
13 1 5 1 16 0 14 0 13 0
6 1 14 1 9 0 19 0 9 0
8 1 13 0 9 0 9 0 15 0
10 1 16 0 11 0 11 0 10 0
4 1 10 0 13 0 14 0 11 0
14 1 12 0 15 0 10 0 12 0
8 1 11 0 13 0 16 0 4 0
11 1 14 0 10 0 10 0 14 0
7 1 15 0 11 0 16 0 20 0
9 1 18 0 6 0 14 0
Donde Y es la variable dependiente y que toma los valores:

1 si presenta signos de senílidad y


0 si no presenta signos de senílidad

X es la variable independiente y toma como valores los puntajes del


test de WAIS.

El presente estudio es de tipo transversal, por consiguiente, el propósito


es evaluar si el factor (puntajes del test WAIS) está asociado a los
síntomas de senelidad en ancianos, es decir, en otras palabras si los
puntajes del test WAIS predicen síntomas de senelidad en ancianos.
Utilizando el paquete estadístico SPSS, ajustamos estos datos al
modelo de regresión logística mediante un ajuste máximo verosímil y
obtenemos los siguientes resultados:
Regresión logística
Resumen de los modelos

R cuadrado R cuadrado
-2 log de la de Cox y de
Paso verosimilitud Snell Nagelkerke
1 51.017a .181 .266
a. La estimación ha finalizado en el número de
iteración 5 porque las estimaciones de los
parámetros han cambiado en menos de .001.

Prueba que mide la bondad de ajuste de los datos al modelo


Prueba de Hosmer y Lemeshow

Paso Chi-cuadrado gl Sig.


1 5.991 8 .648

Tabla de clasificacióna

Pronosticado
Sintomas de
senelidad Porcentaje
Observado No Si correcto
Paso 1 Sintomas de No 37 3 92.5
senelidad Si 9 5 35.7
Porcentaje global 77.8
a. El valor de corte es .500

Variables en la ecuación

I.C. 95.0% para


EXP(B)
B E.T. Wald gl Sig. Exp(B) Inferior Superior
Paso
a
Prueba -.324 .114 8.057 1 .005 .724 .579 .905
1 Constante 2.404 1.192 4.069 1 .044 11.068
a. Variable(s) introducida(s) en el paso 1: Prueba.
De la tabla de variables obtenemos la siguiente ecuación:

π
log( ) = a + bX = 2.404 - .324X
1-π
donde a=2.404 y b=-0.324. Como el estimado b de ß es negativo, nos
indica que la probabilidad de los síntomas de senilidad decrece en los
niveles altos del WAIS.
La hipótesis nula Ho: ß=0 establece, que la probabilidad de senilidad es
la misma en todos los niveles de la escala WAIS.
^
El error estándar del estimador de ß es ES(ß)=0.114. Para contrastar
Ho: ß=0, consideramos el estadístico W=-0.324/0.114=-2.84. Utilizando
la distribución normal para un valor de z=-2.84, resulta un P-valor de
p=.0046 para H1:ß≠0; y p=.0023 para Ha:ß <0. Por tanto, hay una fuerte
evidencia de una asociación negativa entre la presencia de senilidad y
los valores dados por el WAIS.
Ejemplo 2
Supongamos que estamos interesados en estudiar, en un
periodo determinado, si la edad joven de la madre es
un factor de riesgo del bajo peso al nacer.

Edad de la madre: ≤ 20 años (Edad joven de la madre)


> 20 años
Peso al nacer: ≤ 2500 grs (Bajo peso al nacer).
> 2500 grs
En dicha asociación, podría influir el nivel
socioeconómico, y para controlarla, consideramos a
las madres del nivel socioeconómico bajo. De los
registros disponibles de la maternidad de Lima, en un
determinado periodo, seleccionamos una muestra
sistemática aleatoria de historias, obteniéndose
resultados en la siguiente tabla:

Edad Peso al nacer


de la Total
madre <=2500 >2500

<= 20 20 40 60
> 20 15 135 150
Total 35 175 210

Evento: Bajo peso al nacer


Factor: Edad joven de la madre.
Para procesar los datos, utilizamos el paquete SPSS,
el cuál proporciona los siguientes resultados:

---------------------- Variables in the Equation --

Variable B S.E. Wald df Sig R Exp(B)


EDAD 1,5041 ,3861 15,1752 1 ,0001 ,2290 4,50
Constant -1,2164 ,1800

Por tanto, la ecuación de regresión logistica


estimada queda como:

1
Π(x) =
1+ e-1.2164+1.5041x

La estimación del odds ratio (OR) del bajo peso al


nacer con respecto a la edad joven de la madre está
dado por: OR= eß =e1.5041 = 4.500.
Si OR=4.5, nos indica que el riesgo de un nacimiento
de bajo peso al nacer es de 4.5 veces más cuando la
madre es joven en relación a las madres que tienen
mas de 20 años de edad.
Calculando el intervalo de confianza del 95% para el
odds ratio OR, se tiene en cuenta el error estándar
de ß es ES(ß)=0.3861, para un nivel de confianza del
95% el valor del coeficiente Z que le corresponde es
de 1.96. Por consiguiente, los límites de confianza
quedan establecido como:

L1 = e 1.5041 - 1.96*0.3861
= 2.1
L2 = e 1.5041 + 1.96*0.3861
= 9.6

Por consiguiente, el riesgo de tener un nacimiento


con bajo peso al nacer en madres jóvenes está
comprendido entre 2.1 y 9.5 veces más en relación a
madres que tienen más de 20 años de edad. Como el
intervalo no contiene a la unidad, nos está indicando
que OR es estadísticamente significativo, por tanto,
la edad joven de la madre es un factor de riesgo del
bajo peso al nacer.

También podría gustarte