Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Regresion Lineal y Logistica PDF
Regresion Lineal y Logistica PDF
El botón muestra la ventana de más abajo (que dejamos como está). En ella se especifican los
valores P para entrar (Entrada 0,05) y P para salir (Salida 0,10) típicos del procedimiento por pasos (que
no es el del caso actual), así como que se desea que la ecuación a ajustar contenga el término a = altura en
el origen (casilla Incluir constante en la ecuación). Si se desmarca esta última casilla, SPSS ajustará la
ecuación y = ixi; como está marcada, ajustará lo tradicional: y = + ixi.
Tras todo ello, una vez regresados a la ventana principal, se pulsa para que SPSS responda a
todo lo solicitado
GUIÓN DE LA PRÁCTICA III: Regresión Lineal Múltiple 23
20,00000
Unstandardized Residual
0,00000
-20,00000
40,00000
20,00000
Unstandardized Residual
0,00000
-20,00000
El resto de las selecciones son como antes. Con el botón aparece la ventana de abajo
(izquierda); tras marcar sus casillas como se indica se pulsa . Con el botón aparece la
ventana de abajo (derecha); tras dejarla como está (pues ya tiene asignado todo lo que se precisa) se pulsa
. Una vez en la ventana principal, se pulsa para que SPSS proporciones los resultados
que siguen.
Resultados: interpretación y análisis de los mismos
La primera salida de SPSS es similar a la de la tabla de abajo (“Variables introducidas /eliminadas”): por
simplificación, en ella (y en adelante) se acortan los nombres de las variables. En ella se indican las
variables que han sido introducidas en cada uno de los pasos del procedimiento, las que se han eliminado
(aquí, ninguna) y el criterio empleado. En el ejemplo el proceso ha seguido tres pasos: en el primero se ha
introducido REDUREA, en el segundo la DOSIS y en el último paso la ALBÚMINA (por tanto el modelo
final contiene esas tres variables, pero no la CREATININA). Esto ya indica que para predecir el
HEMATOCRITO basta considerar las variables REDUREA, DOSIS y ALBÚMINA (cada una de las
cuales proporciona una información extra sobre el hematocrito a la que proporcionan las demás), pues la
CREATININA no añade nada nuevo sobre las otras tres (su información está contenida en ellas).
28 Análisis Estadístico con Ordenador de Datos Médicos
Variables introducidas/eliminadas(a)
Variables
Modelo Variables introducidas eliminadas Método
1 Por pasos (criterio: Prob. de F para entrar <= ,050,
REDEUREA
Prob. de F para salir >= ,100).
2 Por pasos (criterio: Prob. de F para entrar <= ,050,
DOSIS
Prob. de F para salir >= ,100).
3 Por pasos (criterio: Prob. de F para entrar <= ,050,
ALBUMINA
Prob. de F para salir >= ,100).
a Variable dependiente: HEMATO
La segunda salida es similar a la de la tabla de abajo (“Resumen del modelo”). Ella presenta los valores del
coeficiente de determinación para cada uno de los tres modelos. Nótese que R va aumentando conforme
van entrando más variables en el modelo (lo que puede no ocurrir si las variables tienen datos faltantes).
Para el Modelo 1 (en el que sólo está REDUREA) R2 = 0,061: solo el 6,1% de la variabilidad del valor
hematocrito se debe a la reducción de urea tras la sesión de hemodiálisis.
Resumen del modelo
R cuadrado Error típ. de
Modelo R R cuadrado corregida la estimación
1 ,248(a) ,061 ,051 3,69292
2 ,319(b) ,102 ,082 3,63209
3 ,394(c) ,155 ,128 3,54138
a Variables predictoras: (Constante), REDEUREA
b Variables predictoras: (Constante), REDEUREA, DOSIS
c Variables predictoras: (Constante), REDEUREA, DOSIS, ALBÚMINA
La tercera tabla (“ANOVA” de más abajo) presenta el análisis de la varianza del test global para cada uno
de los modelos: H0 1 = 2 =… = K = 0 (independencia global) vs.H1 “En alguna ocasión i 0”
(dependencia global) para K = 1, 2 o 3 respectivamente. Su significado ya fue descrito en la Actividad 1.
ANOVA(d)
Suma de Media
Modelo cuadrados gl cuadrática F Sig.
1 Regresión 83,786 1 83,786 6,144 ,015(a)
Residual 1281,939 94 13,638
Total 1365,724 95
2 Regresión 138,859 2 69,429 5,263 ,007(b)
Residual 1226,866 93 13,192
Total 1365,724 95
3 Regresión 211,919 3 70,640 5,633 ,001(c)
Residual 1153,806 92 12,541
Total 1365,724 95
a Variables predictoras: (Constante), REDEUREA
b Variables predictoras: (Constante), REDEUREA, DOSIS
c Variables predictoras: (Constante), REDEUREA, DOSIS, ALBÚMINA
d Variable dependiente: HEMATOCRITO
La cuarta tabla (“Coeficientes” de más abajo) da los estimadores, intervalos y tests para los parámetros de
cada uno de los modelos (también de modo similar al descrito en la Actividad 1). El mayor interés radica
en el Modelo 3: HEMATOCRITO = 13,713 + 0,165REDUREA 0,062DOSIS + 2,354ALBÚMINA
para valores constantes de las otras variables independientes, el valor hematocrito aumenta con la
reducción de urea y la albúmina, pero disminuye con la dosis. El resto de las interpretaciones son como en
la Actividad 1. Como ninguno de los valores P de esta tabla es 10% ninguna variable “sale del
modelo”.
Finalmente, la tabla “Variables excluidas” de más abajo, muestra los tests para cada una de las variables
candidatas a entrar en el modelo tras cada uno de los pasos (pero que finalmente no fueron seleccionadas
en el mismo). Así, tras el primer paso (Modelo 1 que contiene solo a REDUREA), el valor más pequeño de
GUIÓN DE LA PRÁCTICA III: Regresión Lineal Múltiple 29
P es el correspondiente a la variable DOSIS (P = 0,044 0,05) esa fue la variable que entró para formar
el Modelo 2 acompañando a REDUREA. Tras el segundo paso (Modelo 2 que contiene a REDUREA y
DOSIS), quedaban fuera la albúmina y la creatinina y, como la de menor valor de P es la ALBÚMINA (P
= 0,018 0,05) esa fue la variable que entró para formar el Modelo 3 acompañando a REDUREA y
DOSIS. Tras el tercer paso (Modelo 3 que contiene a REDUREA, DOSIS y ALBÚMINA), la única que
queda fuera es la creatinina: ella no entra en el modelo pues su valor P = 0,207 > 0,05.
Coeficientes(a)
Coeficientes no Coeficientes Intervalo de confianza
estandarizados estandarizados para B al 95%
Error Límite Límite
Modelo B típ. Beta t Sig. inferior superior
1 (Constante) 16,774 5,104 3,287 ,001 6,640 26,907
REDEUREA ,203 ,082 ,248 2,479 ,015 ,040 ,366
2 (Constante) 20,233 5,298 3,819 ,000 9,713 30,753
REDEUREA ,195 ,081 ,238 2,415 ,018 ,035 ,356
DOSIS -,053 ,026 -,201 -2,043 ,044 -,104 -,001
3 (Constante) 13,713 5,829 2,353 ,021 2,136 25,290
REDEUREA ,165 ,080 ,201 2,067 ,042 ,006 ,323
DOSIS -,062 ,026 -,236 -2,432 ,017 -,113 -,011
ALBÚMINA 2,354 ,975 ,237 2,414 ,018 ,417 4,292
a Variable dependiente: HEMATOCRITO
Variables excluidas(d)
Estadísticos
de
colinealidad
Correlación
Modelo Beta dentro t Sig. parcial Tolerancia
1 ALBÚMINA ,201(a) 2,022 ,046 ,205 ,978
CREATININA -,129(a) -1,299 ,197 -,133 1,000
DOSIS -,201(a) -2,043 ,044 -,207 ,997
2 ALBÚMINA ,237(b) 2,414 ,018 ,244 ,956
CREATININA -,109(b) -1,100 ,274 -,114 ,988
3 CREATININA -,122(c) -1,270 ,207 -,132 ,985
a Variables predictoras en el modelo: (Constante), REDEUREA
b Variables predictoras en el modelo: (Constante), REDEUREA, DOSIS
c Variables predictoras en el modelo: (Constante), REDEUREA, DOSIS, ALBÚMINA
d Variable dependiente: HEMATOCRITO
Guión Práctica IV
REGRESIÓN LOGÍSTICA
_____________________________________________________________________________
Notas previas
Abrir SPSS, abrir el archivo y curiosear sobre las variables hasta entender la estructura del archivo: la
variable cuya probabilidad p se desea predecir es el “ser hiperutilizador de los servicios de atención
primaria” (Hiperutilización 0=No, 1=Sí 1 es la “enfermedad”), las variables de apoyo (xi), todas ellas
dicotómicas, son el sexo (Sexo 0=Hombre, 1=Mujer 1 es el “factor de riesgo”), la edad (Edad
0=<65 años, 1=65 años 1 es el “factor de riesgo”) y la presencia de una patología crónica (Crónica
0=No, 1=Sí 1 es el “factor de riesgo”).
El objetivo es analizar el problema empleando la ecuación de regresión logística “logit (p) = + 1(Sexo)
+ 2(Edad) + 3(Crónica).
SPSS siempre entiende que la “enfermedad” (el problema) es el valor más alto de la variable que se señale
como tal de ahí que antes se le asignara el valor 1 a la “sí hiperutilización”.
Petición de resultados: ventana principal
Pulsando Analizar Regresión Logística binaria...., se abre la ventana general de la regresión
logística (izquierda). En ella ya se han realizado las acciones de pasar la variable objetivo (Hiper-
utilización) a la caja de Dependientes (variable y = logit p) y las variables Sexo, Edad y Crónica a la caja
de Covariables (variables x1, x2 y x3).
Adicionalmente, pulsando en la caja Método se despliega la ventana de abajo (derecha). En ella se ha
seleccionado Introducir (marcada de oficio) a fin de ajustar el modelo con todas las variables que se
pusieron en el cajón de Covariables. La opción Adelante:Condicional (método paso a paso ascendente
similar al ya visto en regresión múltiple) no la vemos, pero su objetivo es similar al del capítulo anterior.
32 Análisis Estadístico con Ordenador de Datos Médicos
La ventana Variable de selección no la vemos.
Aún falta por definir qué categoría es la de referencia (la de “no riesgo”) en cada una de las covariables
categóricas incluidas en el problema (todas en nuestro caso). Con tal fin hay que seleccionar una a una las
covariables y utilizar los botones y opciones presentes en Cambiar contraste en cada una de ellas (abajo
se ilustra como quedaría la ventana en nuestro ejemplo):
En Contraste elegir siempre Indicador;
En Categoría de referencia hay que indicar cuál es la categoría de “no riesgo” para la variable
seleccionada. SPSS ofrece por defecto la “Ultima” (dejarlo así cuando sea lo apropiado), pero en
nuestro caso siempre es la “Primera” (pues el valor 0 alude siempre al “no riesgo”), que es la que hay
que marcar en las tres variables.
Por último, para que el cambio sea efectivo hay que pulsar el botón Cambiar: en ese momento, en la
ventana Covariables categóricas el texto “Sexo(indicador)” cambia a “Sexo(indicador(primera))”
cuando se seleccionó “Primera”. Si se hubiera dejado “Ultima”, aparecería solo “Sexo(indicador)”
GUIÓN DE LA PRÁCTICA IV: Regresión Logística 33
Pulsando se regresa a la pantalla principal (abajo): ahora ya indica de qué tipo es cada covariable.
El botón no lo vemos.
El botón permite obtener estadísticos y gráficos, o cambiar el criterio de construcción del
modelo. Tras pulsarlo aparece una ventana como la de abajo (ya rellenada en lo que interesa) de la que se
sale pulsando y de la que conviene destacar:
La tercera salida de SPSS es la tabla de abajo: indica cómo se han codificado las variables categóricas del
problema (todas en nuestro caso) y las frecuencias obtenidas. Obsérvese que como las tres covariables son
binarias cada una da lugar a una sola covariable de valores 0/1.
Codificaciones de variables categóricas
Codificación
de parámetros
Frecuencia (1)
Sufrir No 655 ,000
enfermedad Sí
457 1,000
crónica
Edad < 65 años 502 ,000
cortada en >=65 años
610 1,000
65 años
Sexo Hombre 475 ,000
Mujer 637 1,000
La cuarta salida de SPSS (abajo) no tiene interés.
Tabla de clasificación(a,b)
Observado Pronosticado
Ser hiperutilizador Porcentaje
No Sí correcto
Paso 0 Ser No
793 0 100,0
hiperutilizador
Sí 319 0 ,0
Porcentaje global 71,3
a En el modelo se incluye una constante.
b El valor de corte es ,500
GUIÓN DE LA PRÁCTICA IV: Regresión Logística 35
La quinta salida de SPSS es la tabla de abajo: analiza el modelo con solo el término independiente (sin
interés).
Variables en la ecuación
La sexta salida de SPSS es la tabla de abajo: permite saber si las diferentes variables presentes el modelo,
consideradas individualmente, están asociadas o no con la variables dependiente es un análisis
univariante. Como en todos los casos P ( Sig.) 5% considerada cada covariable individualmente (es
decir, sin contemplar las otras), todas están asociadas con la hiperutilización. Su interés es menor.
Variables que no están en la ecuación
Puntuación gl Sig.
Paso 0 Variables SEXO(1) 13,353 1 ,000
EDAD(1) 63,922 1 ,000
CRON(1) 88,726 1 ,000
Estadísticos globales 116,521 3 ,000
La séptima salida de SPSS es la tabla de abajo: presenta diferentes tests globales dependiendo del método
de construcción del modelo empleado solo nos interesa la fila Modelo (que es la que alude al método de
“Introducir” que se ha empleado). Ella alude al test global H0: 1 = 2 = … = K = 0 (independencia global)
vs. H1: “Alguna igualdad no es cierta” (dependencia global). En nuestro caso:
Como exp 2
= 119,363 (g.l. = 3 = nº de covariables) da P = 0,000 0,05 al menos una de las variables
presentes en el modelo (que incluye a todas las variables) está asociada a la hiperutilización.
Esta es la primera tabla relevante: si ella no diera significativa, el problema finaliza (ninguna variable
influye en la infección).
Pruebas omnibus sobre los coeficientes del modelo
Chi-cuadrado gl Sig.
Paso 1 Paso 119,364 3 ,000
Bloque 119,364 3 ,000
Modelo 119,364 3 ,000
Puesto que el test global dio significativo conviene ver las medidas de resumen de la octava salida de
SPSS (tabla de abajo). Según ella, el 10,2% de la variabilidad de la hiperutilización es debida a la relación
de esta variable con el sexo, la edad y el padecer una enfermedad crónica (en términos de la R2 de Cox-
Snell). En el caso del coeficiente de Nagelkerke: el 14,6% de la variabilidad de la hiperutilización la
explican las tres variables presentes en el modelo.
Resumen de los modelos
R cuadrado R cuadrado
-2 log de la de Cox y de
Paso verosimilitud Snell Nagelkerke
1 1213,537(a) ,102 ,146
Para evaluar si el modelo logístico ajustado es el adecuado hay que contrastar H0: “Los datos de la muestra
se representan bien por un modelo logístico” vs. H1: “Los datos de la muestra no se representan bien por un
modelo logístico”. La novena salida de SPSS (tabla de abajo) responde a esa pregunta. Como exp 2
= 1,719
(g.l. = 5 = nº de covariables) da P = 0,886 > 0,10 el test no es significativo y el modelo se ajusta bien a los
datos puede aceptarse todo lo que sigue y lo anterior.
36 Análisis Estadístico con Ordenador de Datos Médicos
Prueba de Hosmer y Lemeshow
Paso Chi-cuadrado gl Sig.
1 1,719 5 ,886
La décima salida de SPSS es la tabla de abajo (sin interés).
Tabla de clasificación(a)
Observado Pronosticado
Ser hiperutilizador Porcentaje
No Sí correcto
Paso 1 Ser No
793 0 100,0
hiperutilizador
Sí 319 0 ,0
Porcentaje global 71,3
La tabla más importante es la de la undécima y última salida de SPSS (abajo). Ella es la que proporciona
(para el modelo que incluye las tres variables):
Columna B: Los estimadores bi de las pendientes i de cada una de las variables y al estimador a de la
altura en el origen (en la última fila = “Constante”).
Columna E.T.: Los valores de los errores típico o estándar ee (bi) y ee (a).
Columnas Wald, gl y Sig.: Los resultados del test H0: i = 0 para cada variable y del test H0: = 0 para
la altura. Este test es fiable cuando es significativo, pero cuando no lo es (pero está cerca de la
significación). En nuestro caso los resultados para las diferentes variables son:
(a) Sexo: exp
2
=0,827 (g.l.=1) P = 0,363 >>0,05 teniendo en cuenta el efecto de la edad y del
padecimiento de alguna enfermedad crónica, el sexo no está asociado con la hiperutilización;
(b) Edad: exp
2
=25,349 (g.l.=1) P = 0,000 0,05 teniendo en cuenta el efecto del sexo y del
padecimiento de alguna enfermedad crónica, la edad sí está asociado con la hiperutilización;
(c) Crónica: exp
2
=49,818 (g.l.=1) P = 0,000 0,05 teniendo en cuenta el efecto del sexo y de la
edad, el padecimiento de alguna enfermedad crónica sí está asociado con la hiperutilización.
Columna Exp(B): Las estimaciones de Oi (odds-ratio) para cada una de las variables del modelo la
fuerza de asociación de cada una de ellas con la hiperutilización. En el caso de la edad se obtiene un
valor de 2,22 los pacientes que tienen 65 años o más tienen 2,22 veces más riesgo de ser
hiperutilizadores que los que tienen menos de 65 años. El caso de “Constante” no tiene interés.
Columna I.C.: El intervalo de confianza (al 95%) para las Oi del párrafo anterior. En el caso del
intervalo para el sexo el intervalo es (0,854; 1,54) ¡que contiene el valor 1! es posible que la
hiperutilización sea independiente del sexo (en valores constantes de las demás variables), ¡lo que ya
se había visto con el test de Wald!
Variables en la ecuación
I.C. 95,0% para
EXP(B)
B E.T. Wald gl Sig. Exp(B) Inferior Superior
Paso SEXO(1) ,137 ,150 ,827 1 ,363 1,147 ,854 1,540
1(a) EDAD(1) ,798 ,158 25,349 1 ,000 2,220 1,628 3,029
CRÓNICA(1) 1,028 ,146 49,818 1 ,000 2,796 2,102 3,720
Constante -1,968 ,146 180,451 1 ,000 ,140
a Variable(s) introducida(s) en el paso 1: SEXO, EDAD, CRÓNICA.
IV.2: Actividad 2
Estudiar qué variables influye sobre la presencia de una infección postoperatoria (en pacientes intervenidos
de apendicitis aguda) en base al fichero de datos Infeccion que contiene las siguientes 8 variables:
GUIÓN DE LA PRÁCTICA IV: Regresión Logística 37
TRATAMIENTO Grupo al que fueron asignados los pacientes: 0 = Antibióticos; 1 = Irrigación
NUPAC Número del paciente.
SEXO Sexo del paciente: 0 = Hombre; 1 = Mujer.
EDAD Edad del paciente (en años).
DURACLI Duración de la clínica (en horas).
TIPAPEN Tipo de apéndice: 1 = Normal; 2 = Flemonoso; 3 = Gangrenoso.
DURACINT Duración de la intervención (en minutos).
INFEC Infectado en las 72 horas posteriores a la operación: 0 = No; 1 = Sí.
Notas previas
Abrir SPSS, abrir el archivo y curiosear sobre las variables hasta entender la estructura del archivo: la
variable cuya probabilidad p se desea predecir es el “sufrir una infección” (Infec 0=No, 1=Sí 1 es la
“enfermedad”), las variables de apoyo (xi) son el tratamiento aplicado (Tratamiento dicotómico
1=Irrigación es el “factor de riesgo”), el sexo (Sexo dicotómico 1 es el “factor de riesgo”), la edad
(Edad cuantitativo a más edad, más riesgo), la duración de la clínica (Duracli cuantitativo a más
duración, más riesgo), el tipo de apéndice (Tipapen categórico con 3 clases dará lugar a dos variables
Tipapen(1) Flemonoso sí/no y Tipapen(2) Gangrenoso sí/no si se entiende que Normal = categoría
de no riesgo) y la duración de la intervención (Duracint cuantitativo a más duración, más riesgo).
El objetivo es analizar el problema empleando la ecuación de regresión logística “logit (p) = +
1Tratamiento + 2Sexo + 3Edad + 4Duracli + 5Tipapen(1) + 6Tipapen(2) + 7Duracint.
SPSS siempre entiende que la “enfermedad” (el problema) es el valor más alto de la variable que se señale
como tal de ahí que antes se le asignara el valor 1 a la “sí infección”.
Petición de resultados
Pulsando Analizar Regresión Logística binaria...., se abre la ventana general de la regresión
logística (abajo). En ella ya se han realizado las acciones de pasar la variable objetivo (Infec) a la caja de
Dependientes (variable y = logit p), el resto de las variables (salvo Nupac) a la caja de Covariables y
dejado la selección de Introducir (para que así SPSS contemple a todas las variables).
38 Análisis Estadístico con Ordenador de Datos Médicos
El siguiente paso consiste en indicarle a SPSS qué variables son categóricas (las demás las contemplará
como cuantitativas), para lo cual se pulsa el botón y, en la ventana que se obtiene (la de más
abajo, que contempla las acciones que siguen) se pasan las covariables categóricas Tratamiento, Sexo y
Tipapen del cajón Covariables al cajón Covariables categóricas.
El siguiente paso es identificar la categoría de referencia (de “no riesgo”) de cada una de estas covariables
categóricas. Para ello, con cada una de las tres covariables implicadas hay que actuar así (abajo se indica
cómo quedaría la ventana anterior tras las operaciones que siguen):
Tratamiento: los investigadores del estudio pensaban que el tratamiento con antibióticos era el de
menor riesgo de infección 0=Antibiótico es la categoría de referencia pinchar sobre la covariable
Tratamiento en la caja de Covariables categóricas, seleccionar Primera en la opción Categoría de
referencia y pulsar el botón .
Sexo: los investigadores no tenían claro cuál podía ser la categoría de referencia se puede elegir la
que sea si elegimos 0=Hombre (la “Primera”) se actuará igual que arriba (pero con la covariable
Sexo).
Tipapen: el tipo de apéndice presenta tres categorías (de menos a más deterioro del apéndice)
conforme mayor sea la categoría, más deteriorado estará el apéndice mayor riesgo de infección
postoperatoria existirá el apéndice “1=Normal” será la categoría de referencia (de menor riesgo) y
las categorías “2=Flemonoso” y “3=Gangrenoso” serán dos categorías de riesgo. Como “1=Normal”
tiene el valor más bajo él se empleará como categoría de referencia la Primera actuar como
arriba (pero con la covariable Tipapen).
GUIÓN DE LA PRÁCTICA IV: Regresión Logística 39