Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Regresion Lineal y Logistica PDF
Regresion Lineal y Logistica PDF
El botn muestra la ventana de ms abajo (que dejamos como est). En ella se especifican los
valores P para entrar (Entrada 0,05) y P para salir (Salida 0,10) tpicos del procedimiento por pasos (que
no es el del caso actual), as como que se desea que la ecuacin a ajustar contenga el trmino a = altura en
el origen (casilla Incluir constante en la ecuacin). Si se desmarca esta ltima casilla, SPSS ajustar la
ecuacin y = ixi; como est marcada, ajustar lo tradicional: y = + ixi.
Tras todo ello, una vez regresados a la ventana principal, se pulsa para que SPSS responda a
todo lo solicitado
GUIN DE LA PRCTICA III: Regresin Lineal Mltiple 23
20,00000
Unstandardized Residual
0,00000
-20,00000
40,00000
20,00000
Unstandardized Residual
0,00000
-20,00000
El resto de las selecciones son como antes. Con el botn aparece la ventana de abajo
(izquierda); tras marcar sus casillas como se indica se pulsa . Con el botn aparece la
ventana de abajo (derecha); tras dejarla como est (pues ya tiene asignado todo lo que se precisa) se pulsa
. Una vez en la ventana principal, se pulsa para que SPSS proporciones los resultados
que siguen.
Resultados: interpretacin y anlisis de los mismos
La primera salida de SPSS es similar a la de la tabla de abajo (Variables introducidas /eliminadas): por
simplificacin, en ella (y en adelante) se acortan los nombres de las variables. En ella se indican las
variables que han sido introducidas en cada uno de los pasos del procedimiento, las que se han eliminado
(aqu, ninguna) y el criterio empleado. En el ejemplo el proceso ha seguido tres pasos: en el primero se ha
introducido REDUREA, en el segundo la DOSIS y en el ltimo paso la ALBMINA (por tanto el modelo
final contiene esas tres variables, pero no la CREATININA). Esto ya indica que para predecir el
HEMATOCRITO basta considerar las variables REDUREA, DOSIS y ALBMINA (cada una de las
cuales proporciona una informacin extra sobre el hematocrito a la que proporcionan las dems), pues la
CREATININA no aade nada nuevo sobre las otras tres (su informacin est contenida en ellas).
28 Anlisis Estadstico con Ordenador de Datos Mdicos
Variables introducidas/eliminadas(a)
Variables
Modelo Variables introducidas eliminadas Mtodo
1 Por pasos (criterio: Prob. de F para entrar <= ,050,
REDEUREA
Prob. de F para salir >= ,100).
2 Por pasos (criterio: Prob. de F para entrar <= ,050,
DOSIS
Prob. de F para salir >= ,100).
3 Por pasos (criterio: Prob. de F para entrar <= ,050,
ALBUMINA
Prob. de F para salir >= ,100).
a Variable dependiente: HEMATO
La segunda salida es similar a la de la tabla de abajo (Resumen del modelo). Ella presenta los valores del
coeficiente de determinacin para cada uno de los tres modelos. Ntese que R va aumentando conforme
van entrando ms variables en el modelo (lo que puede no ocurrir si las variables tienen datos faltantes).
Para el Modelo 1 (en el que slo est REDUREA) R2 = 0,061: solo el 6,1% de la variabilidad del valor
hematocrito se debe a la reduccin de urea tras la sesin de hemodilisis.
Resumen del modelo
R cuadrado Error tp. de
Modelo R R cuadrado corregida la estimacin
1 ,248(a) ,061 ,051 3,69292
2 ,319(b) ,102 ,082 3,63209
3 ,394(c) ,155 ,128 3,54138
a Variables predictoras: (Constante), REDEUREA
b Variables predictoras: (Constante), REDEUREA, DOSIS
c Variables predictoras: (Constante), REDEUREA, DOSIS, ALBMINA
La tercera tabla (ANOVA de ms abajo) presenta el anlisis de la varianza del test global para cada uno
de los modelos: H0 1 = 2 = = K = 0 (independencia global) vs.H1 En alguna ocasin i 0
(dependencia global) para K = 1, 2 o 3 respectivamente. Su significado ya fue descrito en la Actividad 1.
ANOVA(d)
Suma de Media
Modelo cuadrados gl cuadrtica F Sig.
1 Regresin 83,786 1 83,786 6,144 ,015(a)
Residual 1281,939 94 13,638
Total 1365,724 95
2 Regresin 138,859 2 69,429 5,263 ,007(b)
Residual 1226,866 93 13,192
Total 1365,724 95
3 Regresin 211,919 3 70,640 5,633 ,001(c)
Residual 1153,806 92 12,541
Total 1365,724 95
a Variables predictoras: (Constante), REDEUREA
b Variables predictoras: (Constante), REDEUREA, DOSIS
c Variables predictoras: (Constante), REDEUREA, DOSIS, ALBMINA
d Variable dependiente: HEMATOCRITO
La cuarta tabla (Coeficientes de ms abajo) da los estimadores, intervalos y tests para los parmetros de
cada uno de los modelos (tambin de modo similar al descrito en la Actividad 1). El mayor inters radica
en el Modelo 3: HEMATOCRITO = 13,713 + 0,165REDUREA 0,062DOSIS + 2,354ALBMINA
para valores constantes de las otras variables independientes, el valor hematocrito aumenta con la
reduccin de urea y la albmina, pero disminuye con la dosis. El resto de las interpretaciones son como en
la Actividad 1. Como ninguno de los valores P de esta tabla es 10% ninguna variable sale del
modelo.
Finalmente, la tabla Variables excluidas de ms abajo, muestra los tests para cada una de las variables
candidatas a entrar en el modelo tras cada uno de los pasos (pero que finalmente no fueron seleccionadas
en el mismo). As, tras el primer paso (Modelo 1 que contiene solo a REDUREA), el valor ms pequeo de
GUIN DE LA PRCTICA III: Regresin Lineal Mltiple 29
P es el correspondiente a la variable DOSIS (P = 0,044 0,05) esa fue la variable que entr para formar
el Modelo 2 acompaando a REDUREA. Tras el segundo paso (Modelo 2 que contiene a REDUREA y
DOSIS), quedaban fuera la albmina y la creatinina y, como la de menor valor de P es la ALBMINA (P
= 0,018 0,05) esa fue la variable que entr para formar el Modelo 3 acompaando a REDUREA y
DOSIS. Tras el tercer paso (Modelo 3 que contiene a REDUREA, DOSIS y ALBMINA), la nica que
queda fuera es la creatinina: ella no entra en el modelo pues su valor P = 0,207 > 0,05.
Coeficientes(a)
Coeficientes no Coeficientes Intervalo de confianza
estandarizados estandarizados para B al 95%
Error Lmite Lmite
Modelo B tp. Beta t Sig. inferior superior
1 (Constante) 16,774 5,104 3,287 ,001 6,640 26,907
REDEUREA ,203 ,082 ,248 2,479 ,015 ,040 ,366
2 (Constante) 20,233 5,298 3,819 ,000 9,713 30,753
REDEUREA ,195 ,081 ,238 2,415 ,018 ,035 ,356
DOSIS -,053 ,026 -,201 -2,043 ,044 -,104 -,001
3 (Constante) 13,713 5,829 2,353 ,021 2,136 25,290
REDEUREA ,165 ,080 ,201 2,067 ,042 ,006 ,323
DOSIS -,062 ,026 -,236 -2,432 ,017 -,113 -,011
ALBMINA 2,354 ,975 ,237 2,414 ,018 ,417 4,292
a Variable dependiente: HEMATOCRITO
Variables excluidas(d)
Estadsticos
de
colinealidad
Correlacin
Modelo Beta dentro t Sig. parcial Tolerancia
1 ALBMINA ,201(a) 2,022 ,046 ,205 ,978
CREATININA -,129(a) -1,299 ,197 -,133 1,000
DOSIS -,201(a) -2,043 ,044 -,207 ,997
2 ALBMINA ,237(b) 2,414 ,018 ,244 ,956
CREATININA -,109(b) -1,100 ,274 -,114 ,988
3 CREATININA -,122(c) -1,270 ,207 -,132 ,985
a Variables predictoras en el modelo: (Constante), REDEUREA
b Variables predictoras en el modelo: (Constante), REDEUREA, DOSIS
c Variables predictoras en el modelo: (Constante), REDEUREA, DOSIS, ALBMINA
d Variable dependiente: HEMATOCRITO
Guin Prctica IV
REGRESIN LOGSTICA
_____________________________________________________________________________
Notas previas
Abrir SPSS, abrir el archivo y curiosear sobre las variables hasta entender la estructura del archivo: la
variable cuya probabilidad p se desea predecir es el ser hiperutilizador de los servicios de atencin
primaria (Hiperutilizacin 0=No, 1=S 1 es la enfermedad), las variables de apoyo (xi), todas ellas
dicotmicas, son el sexo (Sexo 0=Hombre, 1=Mujer 1 es el factor de riesgo), la edad (Edad
0=<65 aos, 1=65 aos 1 es el factor de riesgo) y la presencia de una patologa crnica (Crnica
0=No, 1=S 1 es el factor de riesgo).
El objetivo es analizar el problema empleando la ecuacin de regresin logstica logit (p) = + 1(Sexo)
+ 2(Edad) + 3(Crnica).
SPSS siempre entiende que la enfermedad (el problema) es el valor ms alto de la variable que se seale
como tal de ah que antes se le asignara el valor 1 a la s hiperutilizacin.
Peticin de resultados: ventana principal
Pulsando Analizar Regresin Logstica binaria...., se abre la ventana general de la regresin
logstica (izquierda). En ella ya se han realizado las acciones de pasar la variable objetivo (Hiper-
utilizacin) a la caja de Dependientes (variable y = logit p) y las variables Sexo, Edad y Crnica a la caja
de Covariables (variables x1, x2 y x3).
Adicionalmente, pulsando en la caja Mtodo se despliega la ventana de abajo (derecha). En ella se ha
seleccionado Introducir (marcada de oficio) a fin de ajustar el modelo con todas las variables que se
pusieron en el cajn de Covariables. La opcin Adelante:Condicional (mtodo paso a paso ascendente
similar al ya visto en regresin mltiple) no la vemos, pero su objetivo es similar al del captulo anterior.
32 Anlisis Estadstico con Ordenador de Datos Mdicos
La ventana Variable de seleccin no la vemos.
An falta por definir qu categora es la de referencia (la de no riesgo) en cada una de las covariables
categricas incluidas en el problema (todas en nuestro caso). Con tal fin hay que seleccionar una a una las
covariables y utilizar los botones y opciones presentes en Cambiar contraste en cada una de ellas (abajo
se ilustra como quedara la ventana en nuestro ejemplo):
En Contraste elegir siempre Indicador;
En Categora de referencia hay que indicar cul es la categora de no riesgo para la variable
seleccionada. SPSS ofrece por defecto la Ultima (dejarlo as cuando sea lo apropiado), pero en
nuestro caso siempre es la Primera (pues el valor 0 alude siempre al no riesgo), que es la que hay
que marcar en las tres variables.
Por ltimo, para que el cambio sea efectivo hay que pulsar el botn Cambiar: en ese momento, en la
ventana Covariables categricas el texto Sexo(indicador) cambia a Sexo(indicador(primera))
cuando se seleccion Primera. Si se hubiera dejado Ultima, aparecera solo Sexo(indicador)
GUIN DE LA PRCTICA IV: Regresin Logstica 33
Pulsando se regresa a la pantalla principal (abajo): ahora ya indica de qu tipo es cada covariable.
El botn no lo vemos.
El botn permite obtener estadsticos y grficos, o cambiar el criterio de construccin del
modelo. Tras pulsarlo aparece una ventana como la de abajo (ya rellenada en lo que interesa) de la que se
sale pulsando y de la que conviene destacar:
La tercera salida de SPSS es la tabla de abajo: indica cmo se han codificado las variables categricas del
problema (todas en nuestro caso) y las frecuencias obtenidas. Obsrvese que como las tres covariables son
binarias cada una da lugar a una sola covariable de valores 0/1.
Codificaciones de variables categricas
Codificacin
de parmetros
Frecuencia (1)
Sufrir No 655 ,000
enfermedad S
457 1,000
crnica
Edad < 65 aos 502 ,000
cortada en >=65 aos
610 1,000
65 aos
Sexo Hombre 475 ,000
Mujer 637 1,000
La cuarta salida de SPSS (abajo) no tiene inters.
Tabla de clasificacin(a,b)
Observado Pronosticado
Ser hiperutilizador Porcentaje
No S correcto
Paso 0 Ser No
793 0 100,0
hiperutilizador
S 319 0 ,0
Porcentaje global 71,3
a En el modelo se incluye una constante.
b El valor de corte es ,500
GUIN DE LA PRCTICA IV: Regresin Logstica 35
La quinta salida de SPSS es la tabla de abajo: analiza el modelo con solo el trmino independiente (sin
inters).
Variables en la ecuacin
La sexta salida de SPSS es la tabla de abajo: permite saber si las diferentes variables presentes el modelo,
consideradas individualmente, estn asociadas o no con la variables dependiente es un anlisis
univariante. Como en todos los casos P ( Sig.) 5% considerada cada covariable individualmente (es
decir, sin contemplar las otras), todas estn asociadas con la hiperutilizacin. Su inters es menor.
Variables que no estn en la ecuacin
Puntuacin gl Sig.
Paso 0 Variables SEXO(1) 13,353 1 ,000
EDAD(1) 63,922 1 ,000
CRON(1) 88,726 1 ,000
Estadsticos globales 116,521 3 ,000
La sptima salida de SPSS es la tabla de abajo: presenta diferentes tests globales dependiendo del mtodo
de construccin del modelo empleado solo nos interesa la fila Modelo (que es la que alude al mtodo de
Introducir que se ha empleado). Ella alude al test global H0: 1 = 2 = = K = 0 (independencia global)
vs. H1: Alguna igualdad no es cierta (dependencia global). En nuestro caso:
Como exp 2
= 119,363 (g.l. = 3 = n de covariables) da P = 0,000 0,05 al menos una de las variables
presentes en el modelo (que incluye a todas las variables) est asociada a la hiperutilizacin.
Esta es la primera tabla relevante: si ella no diera significativa, el problema finaliza (ninguna variable
influye en la infeccin).
Pruebas omnibus sobre los coeficientes del modelo
Chi-cuadrado gl Sig.
Paso 1 Paso 119,364 3 ,000
Bloque 119,364 3 ,000
Modelo 119,364 3 ,000
Puesto que el test global dio significativo conviene ver las medidas de resumen de la octava salida de
SPSS (tabla de abajo). Segn ella, el 10,2% de la variabilidad de la hiperutilizacin es debida a la relacin
de esta variable con el sexo, la edad y el padecer una enfermedad crnica (en trminos de la R2 de Cox-
Snell). En el caso del coeficiente de Nagelkerke: el 14,6% de la variabilidad de la hiperutilizacin la
explican las tres variables presentes en el modelo.
Resumen de los modelos
R cuadrado R cuadrado
-2 log de la de Cox y de
Paso verosimilitud Snell Nagelkerke
1 1213,537(a) ,102 ,146
Para evaluar si el modelo logstico ajustado es el adecuado hay que contrastar H0: Los datos de la muestra
se representan bien por un modelo logstico vs. H1: Los datos de la muestra no se representan bien por un
modelo logstico. La novena salida de SPSS (tabla de abajo) responde a esa pregunta. Como exp 2
= 1,719
(g.l. = 5 = n de covariables) da P = 0,886 > 0,10 el test no es significativo y el modelo se ajusta bien a los
datos puede aceptarse todo lo que sigue y lo anterior.
36 Anlisis Estadstico con Ordenador de Datos Mdicos
Prueba de Hosmer y Lemeshow
Paso Chi-cuadrado gl Sig.
1 1,719 5 ,886
La dcima salida de SPSS es la tabla de abajo (sin inters).
Tabla de clasificacin(a)
Observado Pronosticado
Ser hiperutilizador Porcentaje
No S correcto
Paso 1 Ser No
793 0 100,0
hiperutilizador
S 319 0 ,0
Porcentaje global 71,3
La tabla ms importante es la de la undcima y ltima salida de SPSS (abajo). Ella es la que proporciona
(para el modelo que incluye las tres variables):
Columna B: Los estimadores bi de las pendientes i de cada una de las variables y al estimador a de la
altura en el origen (en la ltima fila = Constante).
Columna E.T.: Los valores de los errores tpico o estndar ee (bi) y ee (a).
Columnas Wald, gl y Sig.: Los resultados del test H0: i = 0 para cada variable y del test H0: = 0 para
la altura. Este test es fiable cuando es significativo, pero cuando no lo es (pero est cerca de la
significacin). En nuestro caso los resultados para las diferentes variables son:
(a) Sexo: exp
2
=0,827 (g.l.=1) P = 0,363 >>0,05 teniendo en cuenta el efecto de la edad y del
padecimiento de alguna enfermedad crnica, el sexo no est asociado con la hiperutilizacin;
(b) Edad: exp
2
=25,349 (g.l.=1) P = 0,000 0,05 teniendo en cuenta el efecto del sexo y del
padecimiento de alguna enfermedad crnica, la edad s est asociado con la hiperutilizacin;
(c) Crnica: exp
2
=49,818 (g.l.=1) P = 0,000 0,05 teniendo en cuenta el efecto del sexo y de la
edad, el padecimiento de alguna enfermedad crnica s est asociado con la hiperutilizacin.
Columna Exp(B): Las estimaciones de Oi (odds-ratio) para cada una de las variables del modelo la
fuerza de asociacin de cada una de ellas con la hiperutilizacin. En el caso de la edad se obtiene un
valor de 2,22 los pacientes que tienen 65 aos o ms tienen 2,22 veces ms riesgo de ser
hiperutilizadores que los que tienen menos de 65 aos. El caso de Constante no tiene inters.
Columna I.C.: El intervalo de confianza (al 95%) para las Oi del prrafo anterior. En el caso del
intervalo para el sexo el intervalo es (0,854; 1,54) que contiene el valor 1! es posible que la
hiperutilizacin sea independiente del sexo (en valores constantes de las dems variables), lo que ya
se haba visto con el test de Wald!
Variables en la ecuacin
I.C. 95,0% para
EXP(B)
B E.T. Wald gl Sig. Exp(B) Inferior Superior
Paso SEXO(1) ,137 ,150 ,827 1 ,363 1,147 ,854 1,540
1(a) EDAD(1) ,798 ,158 25,349 1 ,000 2,220 1,628 3,029
CRNICA(1) 1,028 ,146 49,818 1 ,000 2,796 2,102 3,720
Constante -1,968 ,146 180,451 1 ,000 ,140
a Variable(s) introducida(s) en el paso 1: SEXO, EDAD, CRNICA.
IV.2: Actividad 2
Estudiar qu variables influye sobre la presencia de una infeccin postoperatoria (en pacientes intervenidos
de apendicitis aguda) en base al fichero de datos Infeccion que contiene las siguientes 8 variables:
GUIN DE LA PRCTICA IV: Regresin Logstica 37
TRATAMIENTO Grupo al que fueron asignados los pacientes: 0 = Antibiticos; 1 = Irrigacin
NUPAC Nmero del paciente.
SEXO Sexo del paciente: 0 = Hombre; 1 = Mujer.
EDAD Edad del paciente (en aos).
DURACLI Duracin de la clnica (en horas).
TIPAPEN Tipo de apndice: 1 = Normal; 2 = Flemonoso; 3 = Gangrenoso.
DURACINT Duracin de la intervencin (en minutos).
INFEC Infectado en las 72 horas posteriores a la operacin: 0 = No; 1 = S.
Notas previas
Abrir SPSS, abrir el archivo y curiosear sobre las variables hasta entender la estructura del archivo: la
variable cuya probabilidad p se desea predecir es el sufrir una infeccin (Infec 0=No, 1=S 1 es la
enfermedad), las variables de apoyo (xi) son el tratamiento aplicado (Tratamiento dicotmico
1=Irrigacin es el factor de riesgo), el sexo (Sexo dicotmico 1 es el factor de riesgo), la edad
(Edad cuantitativo a ms edad, ms riesgo), la duracin de la clnica (Duracli cuantitativo a ms
duracin, ms riesgo), el tipo de apndice (Tipapen categrico con 3 clases dar lugar a dos variables
Tipapen(1) Flemonoso s/no y Tipapen(2) Gangrenoso s/no si se entiende que Normal = categora
de no riesgo) y la duracin de la intervencin (Duracint cuantitativo a ms duracin, ms riesgo).
El objetivo es analizar el problema empleando la ecuacin de regresin logstica logit (p) = +
1Tratamiento + 2Sexo + 3Edad + 4Duracli + 5Tipapen(1) + 6Tipapen(2) + 7Duracint.
SPSS siempre entiende que la enfermedad (el problema) es el valor ms alto de la variable que se seale
como tal de ah que antes se le asignara el valor 1 a la s infeccin.
Peticin de resultados
Pulsando Analizar Regresin Logstica binaria...., se abre la ventana general de la regresin
logstica (abajo). En ella ya se han realizado las acciones de pasar la variable objetivo (Infec) a la caja de
Dependientes (variable y = logit p), el resto de las variables (salvo Nupac) a la caja de Covariables y
dejado la seleccin de Introducir (para que as SPSS contemple a todas las variables).
38 Anlisis Estadstico con Ordenador de Datos Mdicos
El siguiente paso consiste en indicarle a SPSS qu variables son categricas (las dems las contemplar
como cuantitativas), para lo cual se pulsa el botn y, en la ventana que se obtiene (la de ms
abajo, que contempla las acciones que siguen) se pasan las covariables categricas Tratamiento, Sexo y
Tipapen del cajn Covariables al cajn Covariables categricas.
El siguiente paso es identificar la categora de referencia (de no riesgo) de cada una de estas covariables
categricas. Para ello, con cada una de las tres covariables implicadas hay que actuar as (abajo se indica
cmo quedara la ventana anterior tras las operaciones que siguen):
Tratamiento: los investigadores del estudio pensaban que el tratamiento con antibiticos era el de
menor riesgo de infeccin 0=Antibitico es la categora de referencia pinchar sobre la covariable
Tratamiento en la caja de Covariables categricas, seleccionar Primera en la opcin Categora de
referencia y pulsar el botn .
Sexo: los investigadores no tenan claro cul poda ser la categora de referencia se puede elegir la
que sea si elegimos 0=Hombre (la Primera) se actuar igual que arriba (pero con la covariable
Sexo).
Tipapen: el tipo de apndice presenta tres categoras (de menos a ms deterioro del apndice)
conforme mayor sea la categora, ms deteriorado estar el apndice mayor riesgo de infeccin
postoperatoria existir el apndice 1=Normal ser la categora de referencia (de menor riesgo) y
las categoras 2=Flemonoso y 3=Gangrenoso sern dos categoras de riesgo. Como 1=Normal
tiene el valor ms bajo l se emplear como categora de referencia la Primera actuar como
arriba (pero con la covariable Tipapen).
GUIN DE LA PRCTICA IV: Regresin Logstica 39