Regresion Lineal y Logistica PDF

Guión Práctica III
REGRESIÓN LINEAL MÚLTIPLE

_____________________________________________________________________________
III.0. Archivos implicados en este guión (tipo)

 Tiempo_Recuperacion (SPSS).
 Insuficiencia_Renal (SPSS).
III.1: Análisis con todas las variables: Actividad 1

Se desea determinar de qué depende el tiempo (y) que tarda una rata en recuperar su tensión arterial
tras la administración de una droga hipotensora. Se sabe que hay al menos dos factores que pueden influir
sobre dicho tiempo la dosis empleada (es de esperar que a mayor dosis, mayor tiempo de recuperación) y la
presión sistólica media que la rata ha tenido durante la hipotensión (pues el efecto de la droga dependerá de
la situación inicial de cada rata). El objetivo es conocer el efecto conjunto de las dos variables sobre el
tiempo de recuperación. Los datos están en el archivo Tiempo_Recuperacion (que no recoge la dosis, sino
el logaritmo de la dosis, pues de lo contrario surgen problemas con el modelo).
¡Es el mismo ejemplo de clase  la interpretación de sus resultados es como allí!
Notas previas
 Abrir SPSS, abrir el archivo y curiosear sobre las variables hasta entender la estructura del archivo: la
variable a predecir (y) es el “tiempo de recuperación” (tiempo), las variables de apoyo (xi) son el
“logaritmo de la dosis” (ldosis) y la “presión sistólica media” (presión).
 El objetivo es analizar el problema empleando la ecuación de regresión “tiempo =  + 1(ldosis) +
2(presión).
 Para aplicar el modelo es preciso verificar las condiciones de aplicación del mismo: Normalidad +
Linealidad + Homogeneidad de Varianzas ( + No Interacción).
Petición de resultados: ventana principal
 Pulsando Analizar  Regresión  Lineales..., se abre la ventana general de la regresión lineal múltiple
de abajo (izquierda). En ella ya se han realizado las acciones de pasar la variable objetivo (tiempo) a la
caja de Dependientes (variable y) y las variables ldosis y presión a la caja de Independientes (variables
x1 y x2).
 Adicionalmente, pulsando en la caja Método se despliega la ventana de abajo (derecha). En ella se ha
seleccionado Introducir a fin de ajustar el modelo con todas las variables que se pusieron en el cajón de
Independientes. Más adelante se ilustrará la opción Pasos suc. (método paso a paso ascendente).
Petición de resultados: botones

22 Análisis Estadístico con Ordenador de Datos Médicos
 En la parte inferior aparecen cuatro botones. Cada uno de ellos despliega una ventana de la que se sale
pulsando cuando se la haya rellenado convenientemente.
 El botón despliega la ventana de más abajo (izquierda) que ya está rellenada en lo que interesa:
 Estimaciones (premarcada): para obtener las estimaciones puntuales de los parámetros del modelo +
sus errores estándar + el test de que son significativamente distintos de cero.
 Ajuste del modelo (premarcada), para obtener el coeficiente de determinación (corregido y no-
corregido).
 Intervalos de confianza (marcada de modo adicional) para obtener los intervalos de confianza de los
parámetros del modelo.
 El botón no lo vemos.
 El botón despliega la ventana de más abajo (derecha) con dos casillas ya marcadas: Valores
pronosticados No tipificados (predicciones y) y Residuos No tipificados (residuos y ŷ ). Esto obliga a
SPSS a calcular tales valores en todos los individuos y a mostrarlos como nuevas variables que se añaden
al final del archivo de datos de trabajo (PRE_1 y RES_1 respectivamente).
 El botón muestra la ventana de más abajo (que dejamos como está). En ella se especifican los
valores P para entrar (Entrada 0,05) y P para salir (Salida 0,10) típicos del procedimiento por pasos (que
no es el del caso actual), así como que se desea que la ecuación a ajustar contenga el término a = altura en
el origen (casilla Incluir constante en la ecuación). Si se desmarca esta última casilla, SPSS ajustará la
ecuación y = ixi; como está marcada, ajustará lo tradicional: y =  + ixi.
 Tras todo ello, una vez regresados a la ventana principal, se pulsa para que SPSS responda a
todo lo solicitado
GUIÓN DE LA PRÁCTICA III: Regresión Lineal Múltiple 23
Resultados: interpretación y análisis de los mismos

 La primera salida de SPSS es la tabla de abajo: indica las variables implicadas y el método elegido.
Variables introducidas/eliminadas(b)
Variables Variables
Modelo introducidas eliminadas Método
1 Presión
sistólica
media, . Introducir
Logaritmo
de la dosis(a)
a Todas las variables solicitadas introducidas
b Variable dependiente: Tiempo de recuperación
 A continuación aparece el resumen que sigue, especificando los valores de R y R2 (corregido = 0,170 o no
= 0,202) que, siendo similares, indica que el no corregido estima bien.
Resumen del modelo
R cuadrado Error típ. de
Modelo R R cuadrado corregida la estimación
1 ,449(a) ,202 ,170 14,83776
a Variables predictoras: (Constante), Presión sistólica media, Logaritmo de la dosis
 La tercera tabla presenta el análisis de la varianza del test global,
H0  1 = 2 = … = K=0 (independencia global)
H1  “En alguna ocasión i  0” (dependencia global).
que en nuestro caso P = 0,004  rechazar la hipótesis nula  concluir que al menos una de las dos
variables está asociada con la variable dependiente. Si el test no diera significativo  ninguna variable
está asociada con la dependiente y el problema finaliza.
ANOVA(b)
Suma de Media
Modelo cuadrados gl cuadrática F Sig.
1 Regresión 2783,220 2 1391,610 6,321 ,004(a)
11007,949 50 220,159
Residual
13791,170 52
Total
a Variables predictoras: (Constante), Presión sistólica media, Logaritmo de la dosis
b Variable dependiente: Tiempo de recuperación
 La penúltima tabla que aparece (la última no interesa) es la de más abajo, la cual especifica lo siguiente (no
se comenta la columna “Coeficientes estandarizados” pues no se la ha estudiado en clase):
 Fila 1: El estimador de  (la altura en el origen) es a = 23,011, con un intervalo de confianza de
13,716 a 59,737 (al 95%) que contiene al 0 (lo que indica que es posible que α = 0). Esto se ve
corroborado por el contraste de hipótesis para H0 ≡ α = 0, que da un valor P = 0,214 > 0,05  concluir
H0  es aceptable un modelo sin término independiente. Como este no era el problema actual, el
resultado no tiene interés.
 Fila 2: El estimador de 1 (el coeficiente del “Logaritmo de la dosis”) es b1 = 23,639, con un intervalo
de confianza de 9,884 a 37,393 (al 95%) que no contiene al 0 (lo que indica que 1  0). Esto se ve
corroborado por el contraste de hipótesis para H0 ≡ β1 = 0, que da un valor P = 0,001  0,05 
rechazar H0  para presiones fijadas, existe asociación entre la dosis y el tiempo  la dosis añade
información extra acerca del tiempo sobre la proporcionada por la presión.
 Fila 3: Proporciona datos similares a los de la Fila 2, pero ahora para la variable “Presión sistólica
media”, que también resulta ser significativa.
 Como consecuencia de todo ello, tanto la dosis como la presión son relevantes para predecir el tiempo
(no pudiéndose omitir ninguna de ellas sin una pérdida relevante de información).
Coeficientes(a)
Coeficientes no Coeficientes Intervalo de confianza
Modelo estandarizados estandarizados t Sig. para B al 95%
Límite Límite
B Error típ. Beta inferior superior
1 (Constante) 23,011 18,285 1,258 ,214 -13,716 59,737
Logaritmo de
23,639 6,848 ,494 3,452 ,001 9,884 37,393
la dosis
Presión -
-,715 ,301 -,339 ,022 -1,320 -,109
sistólica media 2,371
a Variable dependiente: Tiempo de recuperación
Verificación del modelo
 Otro de los resultados que se solicitaron fueron las Predicciones y los Residuales. Si se observa el archivo
de datos, al final del mismo aparecen estas dos variables: PRE_1 y RES_1 respectivamente (el 1 alude a
que son los 1os valores solicitados (si se solicitara otra regresión también daría PRE_2 y RES_2).
 Según se vio en las clases de teoría hay que verificar el modelo, lo que exige verificar lo siguiente:
 Normalidad: la variable y tiene que ser al menos continua: el “tiempo” lo es.
 Homogeneidad de varianzas: graficar RES_1 (eje y) vs. PRE_1 (eje x).
 Linealidad: graficar RES_1 (eje y) vs. ldosis (eje x) + RES_1 (eje y) vs. presión (eje x).
 No interacción: graficar RES_1 (eje y) vs. (ldosis)(presión) (eje x).
 Lo último exige determinar la nueva variable (ldosis)(presión) = dp. Para ello (como se vio en la Troncal)
hay que ejecutar Transformar  Calcular variable hasta que aparezca la pantalla de más abajo que hay
que rellenar como se indica. Tras pulsar la variable queda creada al final del fichero.
 La gráfica aludida en “Homogeneidad de varianzas” se obtiene como en la Troncal: Gráficos  Cuadros
de diálogo antiguos  Dispersión/Puntos  Dispersión simple  hasta que aparezca la
pantalla de más abajo que hay que rellenar como se indica. Tras pulsar SPSS sacará la gráfica
solicitada en el Visor de Resultados: gráfica (a) de la siguiente página.
 Las otras tres gráficas -“Linealidad en Dosis”  gráfica (b), “Linealidad en Presión  gráfica (c) y “No
interacción”  gráfica (d)- se obtienen de modo similar. Todas las gráficas se comentan al pié de ellas.
 La conclusión es que el modelo analizado en todo lo anterior es aceptable.

40,00000
20,00000
Unstandardized Residual
0,00000
-20,00000
1,00 1,50 2,00 2,50 3,00

Logaritmo de la dosis
(a) Indicios de no “Homogeneidad de varianzas” (b) Lineal en la “Dosis”
40,00000
20,00000
Unstandardized Residual
0,00000
-20,00000
50,00 100,00 150,00 200,00 250,00

dp
(c) Lineal en la “Presión” (d) Lineal en la “DosisPresión”
III.2: Selección del mínimo conjunto de variables: Actividad 2

Se desea saber de qué variables depende fundamentalmente el valor hematocrito de un paciente renal
tras una sesión de diálisis. Para ello se llevó a cabo un estudio con 96 pacientes renales en los que, tras una
sesión de diálisis, se midieron diversas variables. Los datos están en el archivo Insuficiencia_Renal.
Determinar el menor conjunto posible de variables que ayuden a predecir el valor hematocrito.
Notas previas
variable a predecir (y) es el “valor hematocrito” (hematocrito), las variables de apoyo (xi) son cuatro: la
“albúmina en sangre” (albúmina), el “nivel de creatinina” (creatinina), la “reducción de urea tras la
sesión” (redurea) y la “dosis de eritropoyetina administrada” (dosis).
 El objetivo es seleccionar el menor conjunto de variables xi que permiten predecir y.
 Para aplicar el modelo es preciso verificar las condiciones de aplicación del mismo: Normalidad +
Linealidad + Homogeneidad de Varianzas ( + No Interacción). No se verá puesto que ya se practicó con
esto en el ejemplo anterior.
Petición de resultados
 El modo de actuar es similar al del ejemplo anterior: pulsar Analizar  Regresión  Lineales...,
introducir “hematocrito” en la caja Dependientes, el resto de las variables en la caja Independientes y,
como única novedad, seleccionar Pasos suc. en la caja Método (pues se desea seleccionar el mínimo
conjunto de variables por el método ascendente). La ventana principal de “Regresión lineal” quedará como
abajo.
 El resto de las selecciones son como antes. Con el botón aparece la ventana de abajo
(izquierda); tras marcar sus casillas como se indica se pulsa . Con el botón aparece la
ventana de abajo (derecha); tras dejarla como está (pues ya tiene asignado todo lo que se precisa) se pulsa
. Una vez en la ventana principal, se pulsa para que SPSS proporciones los resultados
que siguen.
 La primera salida de SPSS es similar a la de la tabla de abajo (“Variables introducidas /eliminadas”): por
simplificación, en ella (y en adelante) se acortan los nombres de las variables. En ella se indican las
variables que han sido introducidas en cada uno de los pasos del procedimiento, las que se han eliminado
(aquí, ninguna) y el criterio empleado. En el ejemplo el proceso ha seguido tres pasos: en el primero se ha
introducido REDUREA, en el segundo la DOSIS y en el último paso la ALBÚMINA (por tanto el modelo
final contiene esas tres variables, pero no la CREATININA). Esto ya indica que para predecir el
HEMATOCRITO basta considerar las variables REDUREA, DOSIS y ALBÚMINA (cada una de las
cuales proporciona una información extra sobre el hematocrito a la que proporcionan las demás), pues la
CREATININA no añade nada nuevo sobre las otras tres (su información está contenida en ellas).
Variables introducidas/eliminadas(a)
Variables
Modelo Variables introducidas eliminadas Método
1 Por pasos (criterio: Prob. de F para entrar <= ,050,
REDEUREA
Prob. de F para salir >= ,100).
DOSIS
ALBUMINA
a Variable dependiente: HEMATO
 La segunda salida es similar a la de la tabla de abajo (“Resumen del modelo”). Ella presenta los valores del
coeficiente de determinación para cada uno de los tres modelos. Nótese que R va aumentando conforme
van entrando más variables en el modelo (lo que puede no ocurrir si las variables tienen datos faltantes).
Para el Modelo 1 (en el que sólo está REDUREA) R2 = 0,061: solo el 6,1% de la variabilidad del valor
hematocrito se debe a la reducción de urea tras la sesión de hemodiálisis.
Resumen del modelo
R cuadrado Error típ. de
Modelo R R cuadrado corregida la estimación
1 ,248(a) ,061 ,051 3,69292
2 ,319(b) ,102 ,082 3,63209
3 ,394(c) ,155 ,128 3,54138
a Variables predictoras: (Constante), REDEUREA
b Variables predictoras: (Constante), REDEUREA, DOSIS
c Variables predictoras: (Constante), REDEUREA, DOSIS, ALBÚMINA
 La tercera tabla (“ANOVA” de más abajo) presenta el análisis de la varianza del test global para cada uno
de los modelos: H0  1 = 2 =… = K = 0 (independencia global) vs.H1  “En alguna ocasión i  0”
(dependencia global) para K = 1, 2 o 3 respectivamente. Su significado ya fue descrito en la Actividad 1.
ANOVA(d)
Suma de Media
Modelo cuadrados gl cuadrática F Sig.
1 Regresión 83,786 1 83,786 6,144 ,015(a)
Residual 1281,939 94 13,638
Total 1365,724 95
2 Regresión 138,859 2 69,429 5,263 ,007(b)
Residual 1226,866 93 13,192
Total 1365,724 95
3 Regresión 211,919 3 70,640 5,633 ,001(c)
Residual 1153,806 92 12,541
Total 1365,724 95
a Variables predictoras: (Constante), REDEUREA
b Variables predictoras: (Constante), REDEUREA, DOSIS
c Variables predictoras: (Constante), REDEUREA, DOSIS, ALBÚMINA
d Variable dependiente: HEMATOCRITO
 La cuarta tabla (“Coeficientes” de más abajo) da los estimadores, intervalos y tests para los parámetros de
cada uno de los modelos (también de modo similar al descrito en la Actividad 1). El mayor interés radica
en el Modelo 3: HEMATOCRITO = 13,713 + 0,165REDUREA  0,062DOSIS + 2,354ALBÚMINA
 para valores constantes de las otras variables independientes, el valor hematocrito aumenta con la
reducción de urea y la albúmina, pero disminuye con la dosis. El resto de las interpretaciones son como en
la Actividad 1. Como ninguno de los valores P de esta tabla es 10%  ninguna variable “sale del
modelo”.
 Finalmente, la tabla “Variables excluidas” de más abajo, muestra los tests para cada una de las variables
candidatas a entrar en el modelo tras cada uno de los pasos (pero que finalmente no fueron seleccionadas
en el mismo). Así, tras el primer paso (Modelo 1 que contiene solo a REDUREA), el valor más pequeño de
P es el correspondiente a la variable DOSIS (P = 0,044  0,05)  esa fue la variable que entró para formar
el Modelo 2 acompañando a REDUREA. Tras el segundo paso (Modelo 2 que contiene a REDUREA y
DOSIS), quedaban fuera la albúmina y la creatinina y, como la de menor valor de P es la ALBÚMINA (P
= 0,018  0,05)  esa fue la variable que entró para formar el Modelo 3 acompañando a REDUREA y
DOSIS. Tras el tercer paso (Modelo 3 que contiene a REDUREA, DOSIS y ALBÚMINA), la única que
queda fuera es la creatinina: ella no entra en el modelo pues su valor P = 0,207 > 0,05.
Coeficientes(a)
Coeficientes no Coeficientes Intervalo de confianza
estandarizados estandarizados para B al 95%
Error Límite Límite
Modelo B típ. Beta t Sig. inferior superior
1 (Constante) 16,774 5,104 3,287 ,001 6,640 26,907
REDEUREA ,203 ,082 ,248 2,479 ,015 ,040 ,366
2 (Constante) 20,233 5,298 3,819 ,000 9,713 30,753
REDEUREA ,195 ,081 ,238 2,415 ,018 ,035 ,356
DOSIS -,053 ,026 -,201 -2,043 ,044 -,104 -,001
3 (Constante) 13,713 5,829 2,353 ,021 2,136 25,290
REDEUREA ,165 ,080 ,201 2,067 ,042 ,006 ,323
DOSIS -,062 ,026 -,236 -2,432 ,017 -,113 -,011
ALBÚMINA 2,354 ,975 ,237 2,414 ,018 ,417 4,292
a Variable dependiente: HEMATOCRITO
Variables excluidas(d)
Estadísticos
de
colinealidad
Correlación
Modelo Beta dentro t Sig. parcial Tolerancia
1 ALBÚMINA ,201(a) 2,022 ,046 ,205 ,978
CREATININA -,129(a) -1,299 ,197 -,133 1,000
DOSIS -,201(a) -2,043 ,044 -,207 ,997
2 ALBÚMINA ,237(b) 2,414 ,018 ,244 ,956
CREATININA -,109(b) -1,100 ,274 -,114 ,988
3 CREATININA -,122(c) -1,270 ,207 -,132 ,985
a Variables predictoras en el modelo: (Constante), REDEUREA
b Variables predictoras en el modelo: (Constante), REDEUREA, DOSIS
c Variables predictoras en el modelo: (Constante), REDEUREA, DOSIS, ALBÚMINA
d Variable dependiente: HEMATOCRITO
Guión Práctica IV
REGRESIÓN LOGÍSTICA
_____________________________________________________________________________
IV.0. Archivos implicados en este guión (tipo)

 Hiperutilizador (SPSS).
 Infeccion (SPSS).
IV.1: Actividad 1
Se desea determinar de qué depende la hiperutilización de los servicios de atención primaria (uso
excesivo de los mismos). Para ello se tomó una muestra de 1.112 pacientes que habían acudido a las
consultas de Atención Primaria de varios Centros de Salud y se les clasificó según las tres covariables Sexo,
Edad y Sufrir Patología Crónica y según que hubieran sido en ese año Hiperutilizadores o no. Se desea
determinar cuáles de las tres variables anteriores influyen en ser o no hiperutilizador (cuando se las
considera actuando de modo conjunto). Los datos figuran en el archivo: Hiperutilizador.
Notas previas
variable cuya probabilidad p se desea predecir es el “ser hiperutilizador de los servicios de atención
primaria” (Hiperutilización  0=No, 1=Sí  1 es la “enfermedad”), las variables de apoyo (xi), todas ellas
dicotómicas, son el sexo (Sexo  0=Hombre, 1=Mujer  1 es el “factor de riesgo”), la edad (Edad 
0=<65 años, 1=65 años  1 es el “factor de riesgo”) y la presencia de una patología crónica (Crónica 
0=No, 1=Sí  1 es el “factor de riesgo”).
 El objetivo es analizar el problema empleando la ecuación de regresión logística “logit (p) =  + 1(Sexo)
+ 2(Edad) + 3(Crónica).
 SPSS siempre entiende que la “enfermedad” (el problema) es el valor más alto de la variable que se señale
como tal  de ahí que antes se le asignara el valor 1 a la “sí hiperutilización”.
Petición de resultados: ventana principal
 Pulsando Analizar  Regresión  Logística binaria...., se abre la ventana general de la regresión
logística (izquierda). En ella ya se han realizado las acciones de pasar la variable objetivo (Hiper-
utilización) a la caja de Dependientes (variable y = logit p) y las variables Sexo, Edad y Crónica a la caja
de Covariables (variables x1, x2 y x3).
 Adicionalmente, pulsando en la caja Método se despliega la ventana de abajo (derecha). En ella se ha
seleccionado Introducir (marcada de oficio) a fin de ajustar el modelo con todas las variables que se
pusieron en el cajón de Covariables. La opción Adelante:Condicional (método paso a paso ascendente
similar al ya visto en regresión múltiple) no la vemos, pero su objetivo es similar al del capítulo anterior.
 La ventana Variable de selección no la vemos.
Petición de resultados: botones

 El botón (que se ilumina sólo cuando hay alguna variable en el cajón de las Covariables)
permite indicar qué covariables son categóricas (pues SPSS trata todas las variables como numéricas
-discretas o continuas- a menos que se le diga que son categóricas). Al pulsarlo aparece la ventana de abajo
que ya está rellenada como se desea: como en nuestro caso todas las covariables son categóricas, se han
pasado todas ellas de la caja Covariables a la caja Covariables categóricas. Hay que tener en cuenta que:
 Cada covariable categórica será sustituida por una o más covariables.
 Cuando la covariable es binaria (como las de nuestro caso) se creará una variable que tendrá un cero en
la categoría de referencia y un 1 en la categoría de riesgo.
 Cuando la covariable tiene K categorías, se crearán K1 covariables codificadas como se explicó en las
clases de teoría.
 Aún falta por definir qué categoría es la de referencia (la de “no riesgo”) en cada una de las covariables
categóricas incluidas en el problema (todas en nuestro caso). Con tal fin hay que seleccionar una a una las
covariables y utilizar los botones y opciones presentes en Cambiar contraste en cada una de ellas (abajo
se ilustra como quedaría la ventana en nuestro ejemplo):
 En Contraste elegir siempre Indicador;
 En Categoría de referencia hay que indicar cuál es la categoría de “no riesgo” para la variable
seleccionada. SPSS ofrece por defecto la “Ultima” (dejarlo así cuando sea lo apropiado), pero en
nuestro caso siempre es la “Primera” (pues el valor 0 alude siempre al “no riesgo”), que es la que hay
que marcar en las tres variables.
 Por último, para que el cambio sea efectivo hay que pulsar el botón Cambiar: en ese momento, en la
ventana Covariables categóricas el texto “Sexo(indicador)” cambia a “Sexo(indicador(primera))”
cuando se seleccionó “Primera”. Si se hubiera dejado “Ultima”, aparecería solo “Sexo(indicador)”
GUIÓN DE LA PRÁCTICA IV: Regresión Logística 33
 Pulsando se regresa a la pantalla principal (abajo): ahora ya indica de qué tipo es cada covariable.
 El botón no lo vemos.
 El botón permite obtener estadísticos y gráficos, o cambiar el criterio de construcción del
modelo. Tras pulsarlo aparece una ventana como la de abajo (ya rellenada en lo que interesa) de la que se
sale pulsando y de la que conviene destacar:
 Bondad de ajuste de Hosmer-Lemeshow: Test para verificar si el modelo de regresión logística

ajusta bien o no a los datos  H0: “El modelo ajusta bien” vs. H1: “El modelo no ajusta bien”. Si el
test da significativo (P  0,10 en este caso), nada de lo que se calcule es válido.
 IC para exp(B): Calcula el intervalo de confianza para las razones del producto cruzado de todas las
variables presentes en el modelo. La ventana a su derecha permite fijar la confianza deseada (el 95%
marcado por defecto).
 Incluir constante en la ecuación: Si se marca, ajusta un modelo con término independiente ; si se
quita la marca, ajusta un modelo sin término independiente . Lo usual es lo primero (por ello SPSS lo
tiene marcado por defecto).
Pulsando ya y a continuación aparecen los resultados siguientes:

 La primera salida de SPSS es la tabla de abajo: indica el número total de casos presentes en el estudio
(1.112) y el de casos perdidos (0).
Resumen del procesamiento de los casos
Casos no ponderados(a) N Porcentaje
Casos seleccionados Incluidos en el análisis 1112 100,0
Casos perdidos 0 ,0
Total 1112 100,0
Casos no seleccionados 0 ,0
Total 1112 100,0
a Si está activada la ponderación, consulte la tabla de clasificación para
ver el número total de casos.
 La segunda salida de SPSS es la tabla de abajo: indica la codificación empleada para la variable
dependiente, tanto real (No/Sí) como interna (0/1) ( etiquetas de valor). Se entiende que 1 = “enfermedad”.
Codificación de la variable dependiente
Valor Valor
original interno
No 0
Sí 1
 La tercera salida de SPSS es la tabla de abajo: indica cómo se han codificado las variables categóricas del
problema (todas en nuestro caso) y las frecuencias obtenidas. Obsérvese que como las tres covariables son
binarias  cada una da lugar a una sola covariable de valores 0/1.
Codificaciones de variables categóricas
Codificación
de parámetros
Frecuencia (1)
Sufrir No 655 ,000
enfermedad Sí
457 1,000
crónica
Edad < 65 años 502 ,000
cortada en >=65 años
610 1,000
65 años
Sexo Hombre 475 ,000
Mujer 637 1,000
 La cuarta salida de SPSS (abajo) no tiene interés.
Tabla de clasificación(a,b)
Observado Pronosticado
Ser hiperutilizador Porcentaje
No Sí correcto
Paso 0 Ser No
793 0 100,0
hiperutilizador
Sí 319 0 ,0
Porcentaje global 71,3
a En el modelo se incluye una constante.
b El valor de corte es ,500
 La quinta salida de SPSS es la tabla de abajo: analiza el modelo con solo el término independiente (sin
interés).
Variables en la ecuación
B E.T. Wald gl Sig. Exp(B)

Paso 0 Constante -,911 ,066 188,645 1 ,000 ,402
 La sexta salida de SPSS es la tabla de abajo: permite saber si las diferentes variables presentes el modelo,
consideradas individualmente, están asociadas o no con la variables dependiente  es un análisis
univariante. Como en todos los casos P ( Sig.)  5%  considerada cada covariable individualmente (es
decir, sin contemplar las otras), todas están asociadas con la hiperutilización. Su interés es menor.
Variables que no están en la ecuación
Puntuación gl Sig.
Paso 0 Variables SEXO(1) 13,353 1 ,000
EDAD(1) 63,922 1 ,000
CRON(1) 88,726 1 ,000
Estadísticos globales 116,521 3 ,000
 La séptima salida de SPSS es la tabla de abajo: presenta diferentes tests globales dependiendo del método
de construcción del modelo empleado  solo nos interesa la fila Modelo (que es la que alude al método de
“Introducir” que se ha empleado). Ella alude al test global H0: 1 = 2 = … = K = 0 (independencia global)
vs. H1: “Alguna igualdad no es cierta” (dependencia global). En nuestro caso:
 Como  exp 2
= 119,363 (g.l. = 3 = nº de covariables) da P = 0,000  0,05  al menos una de las variables
presentes en el modelo (que incluye a todas las variables) está asociada a la hiperutilización.
 Esta es la primera tabla relevante: si ella no diera significativa, el problema finaliza (ninguna variable
influye en la infección).
Pruebas omnibus sobre los coeficientes del modelo
Chi-cuadrado gl Sig.
Paso 1 Paso 119,364 3 ,000
Bloque 119,364 3 ,000
Modelo 119,364 3 ,000
 Puesto que el test global dio significativo  conviene ver las medidas de resumen de la octava salida de
SPSS (tabla de abajo). Según ella, el 10,2% de la variabilidad de la hiperutilización es debida a la relación
de esta variable con el sexo, la edad y el padecer una enfermedad crónica (en términos de la R2 de Cox-
Snell). En el caso del coeficiente de Nagelkerke: el 14,6% de la variabilidad de la hiperutilización la
explican las tres variables presentes en el modelo.
Resumen de los modelos
R cuadrado R cuadrado
-2 log de la de Cox y de
Paso verosimilitud Snell Nagelkerke
1 1213,537(a) ,102 ,146
 Para evaluar si el modelo logístico ajustado es el adecuado hay que contrastar H0: “Los datos de la muestra
se representan bien por un modelo logístico” vs. H1: “Los datos de la muestra no se representan bien por un
modelo logístico”. La novena salida de SPSS (tabla de abajo) responde a esa pregunta. Como  exp 2
= 1,719
(g.l. = 5 = nº de covariables) da P = 0,886 > 0,10  el test no es significativo y el modelo se ajusta bien a los
datos  puede aceptarse todo lo que sigue y lo anterior.
Prueba de Hosmer y Lemeshow
Paso Chi-cuadrado gl Sig.
1 1,719 5 ,886
 La décima salida de SPSS es la tabla de abajo (sin interés).
Tabla de clasificación(a)
Observado Pronosticado
Ser hiperutilizador Porcentaje
No Sí correcto
Paso 1 Ser No
793 0 100,0
hiperutilizador
Sí 319 0 ,0
Porcentaje global 71,3
 La tabla más importante es la de la undécima y última salida de SPSS (abajo). Ella es la que proporciona
(para el modelo que incluye las tres variables):
 Columna B: Los estimadores bi de las pendientes i de cada una de las variables y al estimador a de la
altura en el origen  (en la última fila = “Constante”).
 Columna E.T.: Los valores de los errores típico o estándar ee (bi) y ee (a).
 Columnas Wald, gl y Sig.: Los resultados del test H0: i = 0 para cada variable y del test H0:  = 0 para
la altura. Este test es fiable cuando es significativo, pero cuando no lo es (pero está cerca de la
significación). En nuestro caso los resultados para las diferentes variables son:
(a) Sexo: exp
2
=0,827 (g.l.=1)  P = 0,363 >>0,05  teniendo en cuenta el efecto de la edad y del
padecimiento de alguna enfermedad crónica, el sexo no está asociado con la hiperutilización;
(b) Edad: exp
2
=25,349 (g.l.=1)  P = 0,000  0,05  teniendo en cuenta el efecto del sexo y del
padecimiento de alguna enfermedad crónica, la edad sí está asociado con la hiperutilización;
(c) Crónica: exp
2
=49,818 (g.l.=1)  P = 0,000  0,05  teniendo en cuenta el efecto del sexo y de la
edad, el padecimiento de alguna enfermedad crónica sí está asociado con la hiperutilización.
 Columna Exp(B): Las estimaciones de Oi (odds-ratio) para cada una de las variables del modelo  la
fuerza de asociación de cada una de ellas con la hiperutilización. En el caso de la edad se obtiene un
valor de 2,22  los pacientes que tienen 65 años o más tienen 2,22 veces más riesgo de ser
hiperutilizadores que los que tienen menos de 65 años. El caso de “Constante” no tiene interés.
 Columna I.C.: El intervalo de confianza (al 95%) para las Oi del párrafo anterior. En el caso del
intervalo para el sexo el intervalo es (0,854; 1,54) ¡que contiene el valor 1!  es posible que la
hiperutilización sea independiente del sexo (en valores constantes de las demás variables), ¡lo que ya
se había visto con el test de Wald!
I.C. 95,0% para
EXP(B)
B E.T. Wald gl Sig. Exp(B) Inferior Superior
Paso SEXO(1) ,137 ,150 ,827 1 ,363 1,147 ,854 1,540
1(a) EDAD(1) ,798 ,158 25,349 1 ,000 2,220 1,628 3,029
CRÓNICA(1) 1,028 ,146 49,818 1 ,000 2,796 2,102 3,720
Constante -1,968 ,146 180,451 1 ,000 ,140
a Variable(s) introducida(s) en el paso 1: SEXO, EDAD, CRÓNICA.
IV.2: Actividad 2
Estudiar qué variables influye sobre la presencia de una infección postoperatoria (en pacientes intervenidos
de apendicitis aguda) en base al fichero de datos Infeccion que contiene las siguientes 8 variables:
TRATAMIENTO Grupo al que fueron asignados los pacientes: 0 = Antibióticos; 1 = Irrigación
NUPAC Número del paciente.
SEXO Sexo del paciente: 0 = Hombre; 1 = Mujer.
EDAD Edad del paciente (en años).
DURACLI Duración de la clínica (en horas).
TIPAPEN Tipo de apéndice: 1 = Normal; 2 = Flemonoso; 3 = Gangrenoso.
DURACINT Duración de la intervención (en minutos).
INFEC Infectado en las 72 horas posteriores a la operación: 0 = No; 1 = Sí.
Notas previas
variable cuya probabilidad p se desea predecir es el “sufrir una infección” (Infec  0=No, 1=Sí  1 es la
“enfermedad”), las variables de apoyo (xi) son el tratamiento aplicado (Tratamiento  dicotómico 
1=Irrigación es el “factor de riesgo”), el sexo (Sexo  dicotómico  1 es el “factor de riesgo”), la edad
(Edad  cuantitativo  a más edad, más riesgo), la duración de la clínica (Duracli  cuantitativo  a más
duración, más riesgo), el tipo de apéndice (Tipapen  categórico con 3 clases  dará lugar a dos variables
Tipapen(1)  Flemonoso sí/no y Tipapen(2)  Gangrenoso sí/no si se entiende que Normal = categoría
de no riesgo) y la duración de la intervención (Duracint  cuantitativo   a más duración, más riesgo).
 El objetivo es analizar el problema empleando la ecuación de regresión logística “logit (p) =  +
1Tratamiento + 2Sexo + 3Edad + 4Duracli + 5Tipapen(1) + 6Tipapen(2) + 7Duracint.
 SPSS siempre entiende que la “enfermedad” (el problema) es el valor más alto de la variable que se señale
como tal  de ahí que antes se le asignara el valor 1 a la “sí infección”.
Petición de resultados
 Pulsando Analizar  Regresión  Logística binaria...., se abre la ventana general de la regresión
logística (abajo). En ella ya se han realizado las acciones de pasar la variable objetivo (Infec) a la caja de
Dependientes (variable y = logit p), el resto de las variables (salvo Nupac) a la caja de Covariables y
dejado la selección de Introducir (para que así SPSS contemple a todas las variables).
 El siguiente paso consiste en indicarle a SPSS qué variables son categóricas (las demás las contemplará
como cuantitativas), para lo cual se pulsa el botón y, en la ventana que se obtiene (la de más
abajo, que contempla las acciones que siguen) se pasan las covariables categóricas Tratamiento, Sexo y
Tipapen del cajón Covariables al cajón Covariables categóricas.
 El siguiente paso es identificar la categoría de referencia (de “no riesgo”) de cada una de estas covariables
categóricas. Para ello, con cada una de las tres covariables implicadas hay que actuar así (abajo se indica
cómo quedaría la ventana anterior tras las operaciones que siguen):
 Tratamiento: los investigadores del estudio pensaban que el tratamiento con antibióticos era el de
menor riesgo de infección  0=Antibiótico es la categoría de referencia  pinchar sobre la covariable
Tratamiento en la caja de Covariables categóricas, seleccionar Primera en la opción Categoría de
referencia  y pulsar el botón .
 Sexo: los investigadores no tenían claro cuál podía ser la categoría de referencia  se puede elegir la
que sea  si elegimos 0=Hombre (la “Primera”) se actuará igual que arriba (pero con la covariable
Sexo).
 Tipapen: el tipo de apéndice presenta tres categorías (de menos a más deterioro del apéndice) 
conforme mayor sea la categoría, más deteriorado estará el apéndice  mayor riesgo de infección
postoperatoria existirá  el apéndice “1=Normal” será la categoría de referencia (de menor riesgo) y
las categorías “2=Flemonoso” y “3=Gangrenoso” serán dos categorías de riesgo. Como “1=Normal”
tiene el valor más bajo  él se empleará como categoría de referencia la Primera  actuar como
arriba (pero con la covariable Tipapen).
 Tras pulsar se regresa a la pantalla inicial en la que pulsaremos a fin de marcar

“Bondad de ajuste” e “IC para exp(B)” como en la Actividad 1. La nueva ventana es la misma de entonces
(abajo aparece con las selecciones ya marcadas). Tras pulsar se regresa a la pantalla inicial, en la
que ya solo hay que pulsar para que SPSS dé las respuestas a lo solicitado.

En lo que sigue solo se reseñan y comentan las salidas de mayor interés(el resto son similares a las de la
Actividad 1)muchas de las cuales fueron comentadas con más profundidad en las clases de teoría
 La primera salida de interés (abajo) alude a las codificaciones empleadas con las covariables categóricas:
una variable para las dos dicotómicas (Sexo y Tratamiento) y dos variables para Tipapen (pues tiene 3
niveles), cada uno con indicación del valor que indica la ausencia de riesgo (el 0).
Codificaciones de variables categóricas
Codificación de
parámetros
Frecuencia (1) (2)
Tipo de apéndice Normal 27 ,000 ,000
Flemonoso 88 1,000 ,000
Gangrenoso 5 ,000 1,000
Sexo del paciente Hombre 72 ,000
Mujer 48 1,000
Tratamiento al que Tratados con
60 ,000
fueron asignados los antibióticos
pacientes Tratados con irrigación 60 1,000
 La siguiente salida (abajo) proporciona el test global de independencia (fila Modelo). Como es
significativo (P = 0,000)  podemos decir que al menos una de las variables presentes en el modelo está
asociada con la variable dependiente.
 La tabla de abajo permite determinar la fuerza de la relación entre las 7 covariables estudiadas y la variable
a predecir (Infección).
Resumen de los modelos
R cuadrado R cuadrado
-2 log de la de Cox y de
Paso verosimilitud Snell Nagelkerke
1 42,344(a) ,308 ,599
 La tabla de abajo permite aceptar que el modelo logístico ajustado se ajusta bien a los datos (pues P =
0,480 > 0,10  se acepta H0).
Prueba de Hosmer y Lemeshow
Paso Chi-cuadrado gl Sig.
1 7,538 8 ,480
 La tabla más relevante es la de abajo: ella proporciona los estimadores puntuales y por intervalo de  y de
las siete i, permite determinar que la relación buscada es
Logit (p) = 11,422 + 0,282Tratamiento  0,374Sexo + 0,129Edad  0,043Duracli 
0,435Tipapen(1)  0,326Tipapen(2) + 0,109Duracint
(en donde p alude a la probabilidad de padecer una infección), permite realizar el test de independencia
para cada una de las 7 covariables (columna Wald, gl y Sig.) y evaluar la fuerza de la asociación entre la
variable de respuesta y cada una de las covariables cuando el resto de las variables presentes en el modelo
permanecen constantes (tres últimas columnas).
I.C. 95,0% para
EXP(B)
B E.T. Wald gl Sig. Exp(B) Inferior Superior
Paso TRATAMIENTO(1) ,282 ,882 ,102 1 ,749 1,326 ,235 7,472
1(a) SEXO(1) -,374 ,867 ,186 1 ,666 ,688 ,126 3,763
EDAD ,129 ,035 13,888 1 ,000 1,138 1,063 1,217
DURACLI -,043 ,023 3,455 1 ,063 ,958 ,915 1,002
TIPAPEN ,231 2 ,891
TIPAPEN(1) -,435 ,906 ,230 1 ,631 ,647 ,110 3,824
TIPAPEN(2) -,326 2,684 ,015 1 ,903 ,722 ,004 139,153
DURACINT ,109 ,038 8,229 1 ,004 1,115 1,035 1,201
Constante -11,422 2,859 15,956 1 ,000 ,000
a Variable(s) introducida(s) en el paso 1: TRATAMIENTO, SEXO, EDAD, DURACLI, TIPAPEN, DURACINT.

Regresion Lineal y Logistica PDF

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Regresion Lineal y Logistica PDF

Cargado por

Copyright:

Formatos disponibles

Guión Práctica III

REGRESIÓN LINEAL MÚLTIPLE

III.0. Archivos implicados en este guión (tipo)

III.1: Análisis con todas las variables: Actividad 1

Petición de resultados: botones

Resultados: interpretación y análisis de los mismos

 La conclusión es que el modelo analizado en todo lo anterior es aceptable.

1,00 1,50 2,00 2,50 3,00

(a) Indicios de no “Homogeneidad de varianzas” (b) Lineal en la “Dosis”

50,00 100,00 150,00 200,00 250,00

(c) Lineal en la “Presión” (d) Lineal en la “DosisPresión”

III.2: Selección del mínimo conjunto de variables: Actividad 2

IV.0. Archivos implicados en este guión (tipo)

Petición de resultados: botones

 Bondad de ajuste de Hosmer-Lemeshow: Test para verificar si el modelo de regresión logística

Pulsando ya y a continuación aparecen los resultados siguientes:

Resultados: interpretación y análisis de los mismos

B E.T. Wald gl Sig. Exp(B)

¡Es el mismo ejemplo de clase  la interpretación de sus resultados es como allí!

 Tras pulsar se regresa a la pantalla inicial en la que pulsaremos a fin de marcar

Resultados: interpretación y análisis de los mismos

También podría gustarte