Está en la página 1de 6

EST-203 ESTADISTICA II Arturo Calderón G.

-2014 1

Capítulo II Regresión no lineal y Regresión Logística

2. Regresión con variable dependiente dicotómica: Regresión Logística

En este caso Y es dicotómica, por ejemplo Y = 0 si el paciente no se recupera e


Y = 1 si el paciente sí se recupera.

Ejemplo
Una investigación trata de explicar el estado de los pacientes de un tipo no agresivo
de cáncer en función de las variables:

X1 = Pronmed = Pronóstico médico inicial (0-100; 0=Peor, 100=Mejor)


X2 = Evitación = Afrontamiento de evitación
X3 = Intrusiones = Pensamientos intrusos

La variable respuesta es Y = Resultados = Estado después de cierto tiempo de


tratamiento, que se registró con sólo dos valores (1 = Mejoró, 0 = Empeoró o sigue
igual). Un gráfico de dispersión múltiple resultó:
Resultados
Pronóstico médico
inicial (0-100)
Afrontamiento de
evitación
Pensamientos
intrusivos

Resultados Pronóstico médico Afrontamiento de Pensamientos


inicial (0-100) evitación intrusivos

El gráfico muestra ciertos problemas, siendo el principal que la variable respuesta Y


sólo toma dos valores y restringe la nube de puntos. No queda claro que haya algún
tipo de relación lineal, aunque sí se observan tendencias, por ejemplo: cuando el pro-
nóstico inicial es pobre el paciente no mejora o permanece igual en su estado clínico.
Si aplicamos de todos modos un modelo Y=β0 + β1X1 +β2X2 +β3X3 + ε de regresión
lineal múltiple, obtenemos de SPSS las tablas
EST-203 ESTADISTICA II Arturo Calderón G.-2014 2

b
Tabla 1 Resumen del modelo
R cuadrado Error típ. de la
Modelo R R cuadrado corregida estimación
a
1 ,761 ,579 ,559 ,298
a. Variables predictoras: (Constante), Intrusiones, Pronmed,
Evitación
b. Variable dependiente: Resultados
b
Tabla 2 ANOVA
Suma de Media
Modelo cuadrados gl cuadrática F Sig.
a
1 Regresión 7,582 3 2,527 28,448 ,000
Residual 5,508 62 ,089
Total 13,091 65
a. Variables predictoras: (Constante), Intrusiones, Pronmed, Evitación
b. Variable dependiente: Resultados
a
Tabla 3 Coeficientes
Coeficientes no Coeficientes
estandarizados tipificados
Modelo B Error típ. Beta t Sig.
1 (Constante) ,276 ,110 2,506 ,015
Pronmed ,010 ,001 ,655 7,608 ,000
Evitación -,017 ,006 -,277 -2,828 ,006
Intrusiones ,006 ,006 ,095 ,999 ,322
a. Variable dependiente: Resultados

Los resultados parecen convincentes, con una prueba F global significativa y en las
pruebas t-Student individuales se obtienen resultados coherentes: hay relación signi-
ficativa del estado con el pronóstico (a mejor pronóstico mejor estado) y con el
afrontamiento de evitación (a más evitación peor estado). Pero hay dos problemas:
• El estado Y no es continuo y la interpretación de los coeficientes B1 y B2 es
forzada
• Algo más fuerte es que los valores de las variables predictoras no resultan en
valores 0 o 1 de la variable respuesta Estado (Y) sino en valores decimales e inclu-
so fuera de rango, lo que es inadmisible. Por ejemplo:

Caso Resultados Pronmed Evitación Intrusión Pronóstico


105 1 33 17 20 0.42072
106 1 50 7 15 0.72185
108 1 90 2 2 1.11197

Lo que sucede es que el modelo lineal no es aplicable. El modelo y el método de esti-


mación de mínimos cuadrados así como las pruebas de significación ya no son vá-
EST-203 ESTADISTICA II Arturo Calderón G.-2014 3

lidos. Necesitamos cambiar la forma del modelo que relaciona la variable respuesta
Y con las variables independientes.

Lo anterior motiva el modelo de regresión logística, donde estaremos interesados no


en los valores de Y sino en las probabilidades de esto valores. Cambiamos el enfoque
a uno donde interesa pronosticar la probabilidad de un evento y relacionarla con
variables que expliquen la magnitud de la probabilidad.

Se adapta el modelo y se cambia método de estimación y de contrastes de hipótesis:


el método se llama de Máxima verosimilitud (Maximun Likelihood en inglés) o de
máxima probabilidad.

El modelo
Sea 1 la probabilidad de un evento A de interés, entonces repre-
senta cuantas veces es más probable que ocurra A a que no ocurra (“chance de A”) y
su logaritmo neperiano (que se llama “logit”) mide de modo continuo y de
-∞ a +∞ cómo cambia esta chance. En el modelo de regresión logística ponemos esta
medida de la chance en función de las variables independientes:

Por ejemplo, si β1 >0 entonces, conforme el pronóstico inicial es mejor, mayor


probabilidad de mejoría del paciente.

Gráficamente:
Figura 1 Relación entre p y Logit(p)
1 5.0
0.01 -4.6 4.0
0.05 -2.9 3.0
logit p = ln(p/(1-p)

2.0
0.10 -2.2
1.0
0.20 -1.4
0.0
0.30 -0.8 -1.0
0.40 -0.4 -2.0
0.50 0.0 -3.0
0.60 0.4 -4.0
0.70 0.8 -5.0
0.80 1.4 0.00 0.10 0.20 0.30 0.40 0.50 0.60 0.70 0.80 0.90 1.00
0.90 2.2 p
0.95 2.9

0.99 4.6 1
EST-203 ESTADISTICA II Arturo Calderón G.-2014 4

Análisis estadístico del modelo logístico


Los pasos son similares a los del caso lineal, previa estimación de parámetros, tene-
mos:

(1) Contraste global de H0: β1=β2=β3=0 (con el Test de máxima verosimilitud).

(2) Ajuste del modelo (con el R2 de Nagelkerke y la matriz de confusión que SPSS
llama “Tabla de Clasificación”).

(3) Contrastes individuales para cada Xj, H0: βj=0 vs H1 donde H1 puede ser de una
cola o de dos colas (con el Test de Wald).

(4) Importancia relativa de cada v.i. con el indicador Exp(B) (que se interpreta en
términos del cociente : A mayor exponencial Exp(B), más importante la
correspondiente v.i.

Ejemplo
En el estudio de cáncer y la asociación de los resultados del tratamiento con ciertas
variables clínicas y psicológicas, aplicamos el procedimiento Binary Logistic del mó-
dulo Regression SPSS a la base de datos CANCER.SAV (en intranet), obteniendo
varios cuadros, pero los que se interpretan son:

Primero: El Test global de H0: β1=β2=β3=0 que SPSS llama “Prueba omnibus”, en
donde se mira la significación del modelo
Tabla 1 Pruebas omnibus sobre los coeficientes
del modelo
Chi
cuadrado gl Sig.
Paso 1 Paso 45,695 3 ,000
Bloque 45,695 3 ,000
Modelo 45,695 3 ,000

Se observa que el modelo resulta significativo (Sig.=0.000<0.05), así que rechazamos


H0: β1=β2=β3=0 y sabemos entonces que al menos una de las variables independien-
tes tiene efecto en la mejoría

Segundo: Evaluamos el ajuste del modelo final, en la tabla “Resumen del modelo”
(“Model Summary”) que muestra el R2 de Nagelkerke de 0.724 indica que hay una
verosimilitud de 72.4% en este modelo en comparación con el modelo donde no se
postula ninguna v.i. como asociada a la mejoría.
EST-203 ESTADISTICA II Arturo Calderón G.-2014 5

Tabla 2 Resumen del modelo


R cuadrado R cuadrado
-2 log de la de Cox y de
Paso verosimilitud Snell Nagelkerke
1 31,650a ,500 ,724
a. La estimación ha finalizado en el número de
iteración 6 porque las estimaciones de los
parámetros han cambiado en menos de .001.

También es importante ver la tabla “matriz de confusión” que SPSS llama “Tabla de
clasificación” (“Classification Table”)
Tabla 3 Tabla de clasificacióna
Pronosticado
Resultados Porcentaje
Observado Empeoró/Sin cambio Mejoró correcto
Paso 1 Resultados Empeoró/Sin cambio 14 4 77,8
Mejoró 3 45 93,8
Porcentaje global 89,4
a. El valor de corte es .500

Se encuentra que el modelo clasifica bien al 77.8% de casos donde no hubo mejora y
al 93.8% de casos donde sí la hubo. En promedio, el modelo logra clasificar bien al
89.4% de los casos, que es un % apreciable en relación al 50% que se espera si se
hace clasificación al azar.

Tercero: Examinamos la significación de cada coeficiente (o sea de cada variable


independiente) en el cuadro “Variables en la ecuación” (“Variables in the equation”)
Tabla 4 Variables en la ecuación
B E.T. Wald gl Sig. Exp(B)
a
Paso 1 Pronmed ,082 ,021 14,950 1 ,000 1,085
Evitación -,162 ,078 4,331 1 ,037 ,851
Intrusiones ,059 ,081 ,528 1 ,467 1,061
Constante -1,611 1,178 1,870 1 ,171 ,200
a. Variable(s) introducida(s) en el paso 1: Pronmed, Evitación, Intrusiones.

SPSS muestra el estadístico de Wald y al lado la significación (a dos colas) del


correspondiente coeficiente. Notamos que sólo Pronmed (el pronóstico clínico
inicial) y Evitación resultan significativas. Es importante ver el signo de cada
coeficiente. Así:
Pronmed tiene B1=0.082 > 0, es decir, a mejor pronóstico mayor probabilidad de
mejoría.
Evitación tiene B2=-0.162 < 0, o sea que, a mayor evitación menor probabilidad de
mejoría.
EST-203 ESTADISTICA II Arturo Calderón G.-2014 6

Lo anterior se basa en que, en general, si H0: βj=0 es cierta el estadístico de


Wald ~! 0,1 y debiera ser cero. Si cae lejos de cero, se rechaza H0.
Por razones de conveniencia computacional, SPSS eleva al cuadrado $ y lo presenta
como Wald, esto es $% & que tiene distribución Chi2 con k = 1 grado de
libertad. Manualmente, se rechazará H0: βj=0 si Wald es mayor que el percentil 95 de
la tabla Chi2 con k = 1 grado de libertad.

Cuarto: Evaluamos la importancia relativa de las v.i. significativas con el Exp(B), que
se interpreta en términos de la chance donde ' , que en este caso sería
la probabilidad de mejoría. Exp(B) figura en la última columna de la tabla “Variables
en la ecuación”. En general, a mayor valor más importancia relativa.
Tabla 4 Variables en la ecuación
B E.T. Wald gl Sig. Exp(B)
a
Paso 1 Pronmed ,082 ,021 14,950 1 ,000 1,085
Evitación -,162 ,078 4,331 1 ,037 ,851
Intrusiones ,059 ,081 ,528 1 ,467 1,061
Constante -1,611 1,178 1,870 1 ,171 ,200
a. Variable(s) introducida(s) en el paso 1: Pronmed, Evitación, Intrusiones.

En el caso de Pronmed: Exp(B1)=1.085 indica que por cada punto adicional en el


pronóstico inicial, la nueva chance de mejoría es 1.085 veces la antigua chance de
mejoría (esto es debido a que B1>0).

En cambio en el caso de Evitación: Exp(B2)=0.851 indica que por cada punto adi-
cional en Evitación la nueva chance de mejoría es 0.851 veces la antigua (pues
B2<0).