Regresion Lineal y Logistica PDF

Guin Prctica III
REGRESIN LINEAL MLTIPLE

_____________________________________________________________________________
III.0. Archivos implicados en este guin (tipo)

Tiempo_Recuperacion (SPSS).
Insuficiencia_Renal (SPSS).
III.1: Anlisis con todas las variables: Actividad 1

Se desea determinar de qu depende el tiempo (y) que tarda una rata en recuperar su tensin arterial
tras la administracin de una droga hipotensora. Se sabe que hay al menos dos factores que pueden influir
sobre dicho tiempo la dosis empleada (es de esperar que a mayor dosis, mayor tiempo de recuperacin) y la
presin sistlica media que la rata ha tenido durante la hipotensin (pues el efecto de la droga depender de
la situacin inicial de cada rata). El objetivo es conocer el efecto conjunto de las dos variables sobre el
tiempo de recuperacin. Los datos estn en el archivo Tiempo_Recuperacion (que no recoge la dosis, sino
el logaritmo de la dosis, pues de lo contrario surgen problemas con el modelo).
Es el mismo ejemplo de clase la interpretacin de sus resultados es como all!
Notas previas
Abrir SPSS, abrir el archivo y curiosear sobre las variables hasta entender la estructura del archivo: la
variable a predecir (y) es el tiempo de recuperacin (tiempo), las variables de apoyo (xi) son el
logaritmo de la dosis (ldosis) y la presin sistlica media (presin).
El objetivo es analizar el problema empleando la ecuacin de regresin tiempo = + 1(ldosis) +
2(presin).
Para aplicar el modelo es preciso verificar las condiciones de aplicacin del mismo: Normalidad +
Linealidad + Homogeneidad de Varianzas ( + No Interaccin).
Peticin de resultados: ventana principal
Pulsando Analizar Regresin Lineales..., se abre la ventana general de la regresin lineal mltiple
de abajo (izquierda). En ella ya se han realizado las acciones de pasar la variable objetivo (tiempo) a la
caja de Dependientes (variable y) y las variables ldosis y presin a la caja de Independientes (variables
x1 y x2).
Adicionalmente, pulsando en la caja Mtodo se despliega la ventana de abajo (derecha). En ella se ha
seleccionado Introducir a fin de ajustar el modelo con todas las variables que se pusieron en el cajn de
Independientes. Ms adelante se ilustrar la opcin Pasos suc. (mtodo paso a paso ascendente).
Peticin de resultados: botones

22 Anlisis Estadstico con Ordenador de Datos Mdicos
En la parte inferior aparecen cuatro botones. Cada uno de ellos despliega una ventana de la que se sale
pulsando cuando se la haya rellenado convenientemente.
El botn despliega la ventana de ms abajo (izquierda) que ya est rellenada en lo que interesa:
Estimaciones (premarcada): para obtener las estimaciones puntuales de los parmetros del modelo +
sus errores estndar + el test de que son significativamente distintos de cero.
Ajuste del modelo (premarcada), para obtener el coeficiente de determinacin (corregido y no-
corregido).
Intervalos de confianza (marcada de modo adicional) para obtener los intervalos de confianza de los
parmetros del modelo.
El botn no lo vemos.
El botn despliega la ventana de ms abajo (derecha) con dos casillas ya marcadas: Valores
pronosticados No tipificados (predicciones y) y Residuos No tipificados (residuos y y ). Esto obliga a
SPSS a calcular tales valores en todos los individuos y a mostrarlos como nuevas variables que se aaden
al final del archivo de datos de trabajo (PRE_1 y RES_1 respectivamente).
El botn muestra la ventana de ms abajo (que dejamos como est). En ella se especifican los
valores P para entrar (Entrada 0,05) y P para salir (Salida 0,10) tpicos del procedimiento por pasos (que
no es el del caso actual), as como que se desea que la ecuacin a ajustar contenga el trmino a = altura en
el origen (casilla Incluir constante en la ecuacin). Si se desmarca esta ltima casilla, SPSS ajustar la
ecuacin y = ixi; como est marcada, ajustar lo tradicional: y = + ixi.
Tras todo ello, una vez regresados a la ventana principal, se pulsa para que SPSS responda a
todo lo solicitado
GUIN DE LA PRCTICA III: Regresin Lineal Mltiple 23
Resultados: interpretacin y anlisis de los mismos

La primera salida de SPSS es la tabla de abajo: indica las variables implicadas y el mtodo elegido.
Variables introducidas/eliminadas(b)
Variables Variables
Modelo introducidas eliminadas Mtodo
1 Presin
sistlica
media, . Introducir
Logaritmo
de la dosis(a)
a Todas las variables solicitadas introducidas
b Variable dependiente: Tiempo de recuperacin
A continuacin aparece el resumen que sigue, especificando los valores de R y R2 (corregido = 0,170 o no
= 0,202) que, siendo similares, indica que el no corregido estima bien.
Resumen del modelo
R cuadrado Error tp. de
Modelo R R cuadrado corregida la estimacin
1 ,449(a) ,202 ,170 14,83776
a Variables predictoras: (Constante), Presin sistlica media, Logaritmo de la dosis
La tercera tabla presenta el anlisis de la varianza del test global,
H0 1 = 2 = = K=0 (independencia global)
H1 En alguna ocasin i 0 (dependencia global).
que en nuestro caso P = 0,004 rechazar la hiptesis nula concluir que al menos una de las dos
variables est asociada con la variable dependiente. Si el test no diera significativo ninguna variable
est asociada con la dependiente y el problema finaliza.
ANOVA(b)
Suma de Media
Modelo cuadrados gl cuadrtica F Sig.
1 Regresin 2783,220 2 1391,610 6,321 ,004(a)
11007,949 50 220,159
Residual
13791,170 52
Total
a Variables predictoras: (Constante), Presin sistlica media, Logaritmo de la dosis
b Variable dependiente: Tiempo de recuperacin
La penltima tabla que aparece (la ltima no interesa) es la de ms abajo, la cual especifica lo siguiente (no
se comenta la columna Coeficientes estandarizados pues no se la ha estudiado en clase):
Fila 1: El estimador de (la altura en el origen) es a = 23,011, con un intervalo de confianza de
13,716 a 59,737 (al 95%) que contiene al 0 (lo que indica que es posible que = 0). Esto se ve
corroborado por el contraste de hiptesis para H0 = 0, que da un valor P = 0,214 > 0,05 concluir
H0 es aceptable un modelo sin trmino independiente. Como este no era el problema actual, el
resultado no tiene inters.
Fila 2: El estimador de 1 (el coeficiente del Logaritmo de la dosis) es b1 = 23,639, con un intervalo
de confianza de 9,884 a 37,393 (al 95%) que no contiene al 0 (lo que indica que 1 0). Esto se ve
corroborado por el contraste de hiptesis para H0 1 = 0, que da un valor P = 0,001 0,05
rechazar H0 para presiones fijadas, existe asociacin entre la dosis y el tiempo la dosis aade
informacin extra acerca del tiempo sobre la proporcionada por la presin.
Fila 3: Proporciona datos similares a los de la Fila 2, pero ahora para la variable Presin sistlica
media, que tambin resulta ser significativa.
Como consecuencia de todo ello, tanto la dosis como la presin son relevantes para predecir el tiempo
(no pudindose omitir ninguna de ellas sin una prdida relevante de informacin).
Coeficientes(a)
Coeficientes no Coeficientes Intervalo de confianza
Modelo estandarizados estandarizados t Sig. para B al 95%
Lmite Lmite
B Error tp. Beta inferior superior
1 (Constante) 23,011 18,285 1,258 ,214 -13,716 59,737
Logaritmo de
23,639 6,848 ,494 3,452 ,001 9,884 37,393
la dosis
Presin -
-,715 ,301 -,339 ,022 -1,320 -,109
sistlica media 2,371
a Variable dependiente: Tiempo de recuperacin
Verificacin del modelo
Otro de los resultados que se solicitaron fueron las Predicciones y los Residuales. Si se observa el archivo
de datos, al final del mismo aparecen estas dos variables: PRE_1 y RES_1 respectivamente (el 1 alude a
que son los 1os valores solicitados (si se solicitara otra regresin tambin dara PRE_2 y RES_2).
Segn se vio en las clases de teora hay que verificar el modelo, lo que exige verificar lo siguiente:
Normalidad: la variable y tiene que ser al menos continua: el tiempo lo es.
Homogeneidad de varianzas: graficar RES_1 (eje y) vs. PRE_1 (eje x).
Linealidad: graficar RES_1 (eje y) vs. ldosis (eje x) + RES_1 (eje y) vs. presin (eje x).
No interaccin: graficar RES_1 (eje y) vs. (ldosis)(presin) (eje x).
Lo ltimo exige determinar la nueva variable (ldosis)(presin) = dp. Para ello (como se vio en la Troncal)
hay que ejecutar Transformar Calcular variable hasta que aparezca la pantalla de ms abajo que hay
que rellenar como se indica. Tras pulsar la variable queda creada al final del fichero.
La grfica aludida en Homogeneidad de varianzas se obtiene como en la Troncal: Grficos Cuadros
de dilogo antiguos Dispersin/Puntos Dispersin simple hasta que aparezca la
pantalla de ms abajo que hay que rellenar como se indica. Tras pulsar SPSS sacar la grfica
solicitada en el Visor de Resultados: grfica (a) de la siguiente pgina.
Las otras tres grficas -Linealidad en Dosis grfica (b), Linealidad en Presin grfica (c) y No
interaccin grfica (d)- se obtienen de modo similar. Todas las grficas se comentan al pi de ellas.
La conclusin es que el modelo analizado en todo lo anterior es aceptable.

40,00000
20,00000
Unstandardized Residual
0,00000
-20,00000
1,00 1,50 2,00 2,50 3,00

Logaritmo de la dosis
(a) Indicios de no Homogeneidad de varianzas (b) Lineal en la Dosis
40,00000
20,00000
Unstandardized Residual
0,00000
-20,00000
50,00 100,00 150,00 200,00 250,00

dp
(c) Lineal en la Presin (d) Lineal en la DosisPresin
III.2: Seleccin del mnimo conjunto de variables: Actividad 2

Se desea saber de qu variables depende fundamentalmente el valor hematocrito de un paciente renal
tras una sesin de dilisis. Para ello se llev a cabo un estudio con 96 pacientes renales en los que, tras una
sesin de dilisis, se midieron diversas variables. Los datos estn en el archivo Insuficiencia_Renal.
Determinar el menor conjunto posible de variables que ayuden a predecir el valor hematocrito.
Notas previas
variable a predecir (y) es el valor hematocrito (hematocrito), las variables de apoyo (xi) son cuatro: la
albmina en sangre (albmina), el nivel de creatinina (creatinina), la reduccin de urea tras la
sesin (redurea) y la dosis de eritropoyetina administrada (dosis).
El objetivo es seleccionar el menor conjunto de variables xi que permiten predecir y.
Para aplicar el modelo es preciso verificar las condiciones de aplicacin del mismo: Normalidad +
Linealidad + Homogeneidad de Varianzas ( + No Interaccin). No se ver puesto que ya se practic con
esto en el ejemplo anterior.
Peticin de resultados
El modo de actuar es similar al del ejemplo anterior: pulsar Analizar Regresin Lineales...,
introducir hematocrito en la caja Dependientes, el resto de las variables en la caja Independientes y,
como nica novedad, seleccionar Pasos suc. en la caja Mtodo (pues se desea seleccionar el mnimo
conjunto de variables por el mtodo ascendente). La ventana principal de Regresin lineal quedar como
abajo.
El resto de las selecciones son como antes. Con el botn aparece la ventana de abajo
(izquierda); tras marcar sus casillas como se indica se pulsa . Con el botn aparece la
ventana de abajo (derecha); tras dejarla como est (pues ya tiene asignado todo lo que se precisa) se pulsa
. Una vez en la ventana principal, se pulsa para que SPSS proporciones los resultados
que siguen.
La primera salida de SPSS es similar a la de la tabla de abajo (Variables introducidas /eliminadas): por
simplificacin, en ella (y en adelante) se acortan los nombres de las variables. En ella se indican las
variables que han sido introducidas en cada uno de los pasos del procedimiento, las que se han eliminado
(aqu, ninguna) y el criterio empleado. En el ejemplo el proceso ha seguido tres pasos: en el primero se ha
introducido REDUREA, en el segundo la DOSIS y en el ltimo paso la ALBMINA (por tanto el modelo
final contiene esas tres variables, pero no la CREATININA). Esto ya indica que para predecir el
HEMATOCRITO basta considerar las variables REDUREA, DOSIS y ALBMINA (cada una de las
cuales proporciona una informacin extra sobre el hematocrito a la que proporcionan las dems), pues la
CREATININA no aade nada nuevo sobre las otras tres (su informacin est contenida en ellas).
Variables introducidas/eliminadas(a)
Variables
Modelo Variables introducidas eliminadas Mtodo
1 Por pasos (criterio: Prob. de F para entrar <= ,050,
REDEUREA
Prob. de F para salir >= ,100).
DOSIS
ALBUMINA
a Variable dependiente: HEMATO
La segunda salida es similar a la de la tabla de abajo (Resumen del modelo). Ella presenta los valores del
coeficiente de determinacin para cada uno de los tres modelos. Ntese que R va aumentando conforme
van entrando ms variables en el modelo (lo que puede no ocurrir si las variables tienen datos faltantes).
Para el Modelo 1 (en el que slo est REDUREA) R2 = 0,061: solo el 6,1% de la variabilidad del valor
hematocrito se debe a la reduccin de urea tras la sesin de hemodilisis.
Resumen del modelo
R cuadrado Error tp. de
Modelo R R cuadrado corregida la estimacin
1 ,248(a) ,061 ,051 3,69292
2 ,319(b) ,102 ,082 3,63209
3 ,394(c) ,155 ,128 3,54138
a Variables predictoras: (Constante), REDEUREA
b Variables predictoras: (Constante), REDEUREA, DOSIS
c Variables predictoras: (Constante), REDEUREA, DOSIS, ALBMINA
La tercera tabla (ANOVA de ms abajo) presenta el anlisis de la varianza del test global para cada uno
de los modelos: H0 1 = 2 = = K = 0 (independencia global) vs.H1 En alguna ocasin i 0
(dependencia global) para K = 1, 2 o 3 respectivamente. Su significado ya fue descrito en la Actividad 1.
ANOVA(d)
Suma de Media
Modelo cuadrados gl cuadrtica F Sig.
1 Regresin 83,786 1 83,786 6,144 ,015(a)
Residual 1281,939 94 13,638
Total 1365,724 95
2 Regresin 138,859 2 69,429 5,263 ,007(b)
Residual 1226,866 93 13,192
Total 1365,724 95
3 Regresin 211,919 3 70,640 5,633 ,001(c)
Residual 1153,806 92 12,541
Total 1365,724 95
a Variables predictoras: (Constante), REDEUREA
b Variables predictoras: (Constante), REDEUREA, DOSIS
c Variables predictoras: (Constante), REDEUREA, DOSIS, ALBMINA
d Variable dependiente: HEMATOCRITO
La cuarta tabla (Coeficientes de ms abajo) da los estimadores, intervalos y tests para los parmetros de
cada uno de los modelos (tambin de modo similar al descrito en la Actividad 1). El mayor inters radica
en el Modelo 3: HEMATOCRITO = 13,713 + 0,165REDUREA 0,062DOSIS + 2,354ALBMINA
para valores constantes de las otras variables independientes, el valor hematocrito aumenta con la
reduccin de urea y la albmina, pero disminuye con la dosis. El resto de las interpretaciones son como en
la Actividad 1. Como ninguno de los valores P de esta tabla es 10% ninguna variable sale del
modelo.
Finalmente, la tabla Variables excluidas de ms abajo, muestra los tests para cada una de las variables
candidatas a entrar en el modelo tras cada uno de los pasos (pero que finalmente no fueron seleccionadas
en el mismo). As, tras el primer paso (Modelo 1 que contiene solo a REDUREA), el valor ms pequeo de
P es el correspondiente a la variable DOSIS (P = 0,044 0,05) esa fue la variable que entr para formar
el Modelo 2 acompaando a REDUREA. Tras el segundo paso (Modelo 2 que contiene a REDUREA y
DOSIS), quedaban fuera la albmina y la creatinina y, como la de menor valor de P es la ALBMINA (P
= 0,018 0,05) esa fue la variable que entr para formar el Modelo 3 acompaando a REDUREA y
DOSIS. Tras el tercer paso (Modelo 3 que contiene a REDUREA, DOSIS y ALBMINA), la nica que
queda fuera es la creatinina: ella no entra en el modelo pues su valor P = 0,207 > 0,05.
Coeficientes(a)
Coeficientes no Coeficientes Intervalo de confianza
estandarizados estandarizados para B al 95%
Error Lmite Lmite
Modelo B tp. Beta t Sig. inferior superior
1 (Constante) 16,774 5,104 3,287 ,001 6,640 26,907
REDEUREA ,203 ,082 ,248 2,479 ,015 ,040 ,366
2 (Constante) 20,233 5,298 3,819 ,000 9,713 30,753
REDEUREA ,195 ,081 ,238 2,415 ,018 ,035 ,356
DOSIS -,053 ,026 -,201 -2,043 ,044 -,104 -,001
3 (Constante) 13,713 5,829 2,353 ,021 2,136 25,290
REDEUREA ,165 ,080 ,201 2,067 ,042 ,006 ,323
DOSIS -,062 ,026 -,236 -2,432 ,017 -,113 -,011
ALBMINA 2,354 ,975 ,237 2,414 ,018 ,417 4,292
a Variable dependiente: HEMATOCRITO
Variables excluidas(d)
Estadsticos
de
colinealidad
Correlacin
Modelo Beta dentro t Sig. parcial Tolerancia
1 ALBMINA ,201(a) 2,022 ,046 ,205 ,978
CREATININA -,129(a) -1,299 ,197 -,133 1,000
DOSIS -,201(a) -2,043 ,044 -,207 ,997
2 ALBMINA ,237(b) 2,414 ,018 ,244 ,956
CREATININA -,109(b) -1,100 ,274 -,114 ,988
3 CREATININA -,122(c) -1,270 ,207 -,132 ,985
a Variables predictoras en el modelo: (Constante), REDEUREA
b Variables predictoras en el modelo: (Constante), REDEUREA, DOSIS
c Variables predictoras en el modelo: (Constante), REDEUREA, DOSIS, ALBMINA
d Variable dependiente: HEMATOCRITO
Guin Prctica IV
REGRESIN LOGSTICA
_____________________________________________________________________________
IV.0. Archivos implicados en este guin (tipo)

Hiperutilizador (SPSS).
Infeccion (SPSS).
IV.1: Actividad 1
Se desea determinar de qu depende la hiperutilizacin de los servicios de atencin primaria (uso
excesivo de los mismos). Para ello se tom una muestra de 1.112 pacientes que haban acudido a las
consultas de Atencin Primaria de varios Centros de Salud y se les clasific segn las tres covariables Sexo,
Edad y Sufrir Patologa Crnica y segn que hubieran sido en ese ao Hiperutilizadores o no. Se desea
determinar cules de las tres variables anteriores influyen en ser o no hiperutilizador (cuando se las
considera actuando de modo conjunto). Los datos figuran en el archivo: Hiperutilizador.
Notas previas
variable cuya probabilidad p se desea predecir es el ser hiperutilizador de los servicios de atencin
primaria (Hiperutilizacin 0=No, 1=S 1 es la enfermedad), las variables de apoyo (xi), todas ellas
dicotmicas, son el sexo (Sexo 0=Hombre, 1=Mujer 1 es el factor de riesgo), la edad (Edad
0=<65 aos, 1=65 aos 1 es el factor de riesgo) y la presencia de una patologa crnica (Crnica
0=No, 1=S 1 es el factor de riesgo).
El objetivo es analizar el problema empleando la ecuacin de regresin logstica logit (p) = + 1(Sexo)
+ 2(Edad) + 3(Crnica).
SPSS siempre entiende que la enfermedad (el problema) es el valor ms alto de la variable que se seale
como tal de ah que antes se le asignara el valor 1 a la s hiperutilizacin.
Peticin de resultados: ventana principal
Pulsando Analizar Regresin Logstica binaria...., se abre la ventana general de la regresin
logstica (izquierda). En ella ya se han realizado las acciones de pasar la variable objetivo (Hiper-
utilizacin) a la caja de Dependientes (variable y = logit p) y las variables Sexo, Edad y Crnica a la caja
de Covariables (variables x1, x2 y x3).
Adicionalmente, pulsando en la caja Mtodo se despliega la ventana de abajo (derecha). En ella se ha
seleccionado Introducir (marcada de oficio) a fin de ajustar el modelo con todas las variables que se
pusieron en el cajn de Covariables. La opcin Adelante:Condicional (mtodo paso a paso ascendente
similar al ya visto en regresin mltiple) no la vemos, pero su objetivo es similar al del captulo anterior.
La ventana Variable de seleccin no la vemos.
Peticin de resultados: botones

El botn (que se ilumina slo cuando hay alguna variable en el cajn de las Covariables)
permite indicar qu covariables son categricas (pues SPSS trata todas las variables como numricas
-discretas o continuas- a menos que se le diga que son categricas). Al pulsarlo aparece la ventana de abajo
que ya est rellenada como se desea: como en nuestro caso todas las covariables son categricas, se han
pasado todas ellas de la caja Covariables a la caja Covariables categricas. Hay que tener en cuenta que:
Cada covariable categrica ser sustituida por una o ms covariables.
Cuando la covariable es binaria (como las de nuestro caso) se crear una variable que tendr un cero en
la categora de referencia y un 1 en la categora de riesgo.
Cuando la covariable tiene K categoras, se crearn K1 covariables codificadas como se explic en las
clases de teora.
An falta por definir qu categora es la de referencia (la de no riesgo) en cada una de las covariables
categricas incluidas en el problema (todas en nuestro caso). Con tal fin hay que seleccionar una a una las
covariables y utilizar los botones y opciones presentes en Cambiar contraste en cada una de ellas (abajo
se ilustra como quedara la ventana en nuestro ejemplo):
En Contraste elegir siempre Indicador;
En Categora de referencia hay que indicar cul es la categora de no riesgo para la variable
seleccionada. SPSS ofrece por defecto la Ultima (dejarlo as cuando sea lo apropiado), pero en
nuestro caso siempre es la Primera (pues el valor 0 alude siempre al no riesgo), que es la que hay
que marcar en las tres variables.
Por ltimo, para que el cambio sea efectivo hay que pulsar el botn Cambiar: en ese momento, en la
ventana Covariables categricas el texto Sexo(indicador) cambia a Sexo(indicador(primera))
cuando se seleccion Primera. Si se hubiera dejado Ultima, aparecera solo Sexo(indicador)
GUIN DE LA PRCTICA IV: Regresin Logstica 33
Pulsando se regresa a la pantalla principal (abajo): ahora ya indica de qu tipo es cada covariable.
El botn no lo vemos.
El botn permite obtener estadsticos y grficos, o cambiar el criterio de construccin del
modelo. Tras pulsarlo aparece una ventana como la de abajo (ya rellenada en lo que interesa) de la que se
sale pulsando y de la que conviene destacar:
Bondad de ajuste de Hosmer-Lemeshow: Test para verificar si el modelo de regresin logstica

ajusta bien o no a los datos H0: El modelo ajusta bien vs. H1: El modelo no ajusta bien. Si el
test da significativo (P 0,10 en este caso), nada de lo que se calcule es vlido.
IC para exp(B): Calcula el intervalo de confianza para las razones del producto cruzado de todas las
variables presentes en el modelo. La ventana a su derecha permite fijar la confianza deseada (el 95%
marcado por defecto).
Incluir constante en la ecuacin: Si se marca, ajusta un modelo con trmino independiente ; si se
quita la marca, ajusta un modelo sin trmino independiente . Lo usual es lo primero (por ello SPSS lo
tiene marcado por defecto).
Pulsando ya y a continuacin aparecen los resultados siguientes:

La primera salida de SPSS es la tabla de abajo: indica el nmero total de casos presentes en el estudio
(1.112) y el de casos perdidos (0).
Resumen del procesamiento de los casos
Casos no ponderados(a) N Porcentaje
Casos seleccionados Incluidos en el anlisis 1112 100,0
Casos perdidos 0 ,0
Total 1112 100,0
Casos no seleccionados 0 ,0
Total 1112 100,0
a Si est activada la ponderacin, consulte la tabla de clasificacin para
ver el nmero total de casos.
La segunda salida de SPSS es la tabla de abajo: indica la codificacin empleada para la variable
dependiente, tanto real (No/S) como interna (0/1) ( etiquetas de valor). Se entiende que 1 = enfermedad.
Codificacin de la variable dependiente
Valor Valor
original interno
No 0
S 1
La tercera salida de SPSS es la tabla de abajo: indica cmo se han codificado las variables categricas del
problema (todas en nuestro caso) y las frecuencias obtenidas. Obsrvese que como las tres covariables son
binarias cada una da lugar a una sola covariable de valores 0/1.
Codificaciones de variables categricas
Codificacin
de parmetros
Frecuencia (1)
Sufrir No 655 ,000
enfermedad S
457 1,000
crnica
Edad < 65 aos 502 ,000
cortada en >=65 aos
610 1,000
65 aos
Sexo Hombre 475 ,000
Mujer 637 1,000
La cuarta salida de SPSS (abajo) no tiene inters.
Tabla de clasificacin(a,b)
Observado Pronosticado
Ser hiperutilizador Porcentaje
No S correcto
Paso 0 Ser No
793 0 100,0
hiperutilizador
S 319 0 ,0
Porcentaje global 71,3
a En el modelo se incluye una constante.
b El valor de corte es ,500
La quinta salida de SPSS es la tabla de abajo: analiza el modelo con solo el trmino independiente (sin
inters).
Variables en la ecuacin
B E.T. Wald gl Sig. Exp(B)

Paso 0 Constante -,911 ,066 188,645 1 ,000 ,402
La sexta salida de SPSS es la tabla de abajo: permite saber si las diferentes variables presentes el modelo,
consideradas individualmente, estn asociadas o no con la variables dependiente es un anlisis
univariante. Como en todos los casos P ( Sig.) 5% considerada cada covariable individualmente (es
decir, sin contemplar las otras), todas estn asociadas con la hiperutilizacin. Su inters es menor.
Variables que no estn en la ecuacin
Puntuacin gl Sig.
Paso 0 Variables SEXO(1) 13,353 1 ,000
EDAD(1) 63,922 1 ,000
CRON(1) 88,726 1 ,000
Estadsticos globales 116,521 3 ,000
La sptima salida de SPSS es la tabla de abajo: presenta diferentes tests globales dependiendo del mtodo
de construccin del modelo empleado solo nos interesa la fila Modelo (que es la que alude al mtodo de
Introducir que se ha empleado). Ella alude al test global H0: 1 = 2 = = K = 0 (independencia global)
vs. H1: Alguna igualdad no es cierta (dependencia global). En nuestro caso:
Como exp 2
= 119,363 (g.l. = 3 = n de covariables) da P = 0,000 0,05 al menos una de las variables
presentes en el modelo (que incluye a todas las variables) est asociada a la hiperutilizacin.
Esta es la primera tabla relevante: si ella no diera significativa, el problema finaliza (ninguna variable
influye en la infeccin).
Pruebas omnibus sobre los coeficientes del modelo
Chi-cuadrado gl Sig.
Paso 1 Paso 119,364 3 ,000
Bloque 119,364 3 ,000
Modelo 119,364 3 ,000
Puesto que el test global dio significativo conviene ver las medidas de resumen de la octava salida de
SPSS (tabla de abajo). Segn ella, el 10,2% de la variabilidad de la hiperutilizacin es debida a la relacin
de esta variable con el sexo, la edad y el padecer una enfermedad crnica (en trminos de la R2 de Cox-
Snell). En el caso del coeficiente de Nagelkerke: el 14,6% de la variabilidad de la hiperutilizacin la
explican las tres variables presentes en el modelo.
Resumen de los modelos
R cuadrado R cuadrado
-2 log de la de Cox y de
Paso verosimilitud Snell Nagelkerke
1 1213,537(a) ,102 ,146
Para evaluar si el modelo logstico ajustado es el adecuado hay que contrastar H0: Los datos de la muestra
se representan bien por un modelo logstico vs. H1: Los datos de la muestra no se representan bien por un
modelo logstico. La novena salida de SPSS (tabla de abajo) responde a esa pregunta. Como exp 2
= 1,719
(g.l. = 5 = n de covariables) da P = 0,886 > 0,10 el test no es significativo y el modelo se ajusta bien a los
datos puede aceptarse todo lo que sigue y lo anterior.
Prueba de Hosmer y Lemeshow
Paso Chi-cuadrado gl Sig.
1 1,719 5 ,886
La dcima salida de SPSS es la tabla de abajo (sin inters).
Tabla de clasificacin(a)
Observado Pronosticado
Ser hiperutilizador Porcentaje
No S correcto
Paso 1 Ser No
793 0 100,0
hiperutilizador
S 319 0 ,0
Porcentaje global 71,3
La tabla ms importante es la de la undcima y ltima salida de SPSS (abajo). Ella es la que proporciona
(para el modelo que incluye las tres variables):
Columna B: Los estimadores bi de las pendientes i de cada una de las variables y al estimador a de la
altura en el origen (en la ltima fila = Constante).
Columna E.T.: Los valores de los errores tpico o estndar ee (bi) y ee (a).
Columnas Wald, gl y Sig.: Los resultados del test H0: i = 0 para cada variable y del test H0: = 0 para
la altura. Este test es fiable cuando es significativo, pero cuando no lo es (pero est cerca de la
significacin). En nuestro caso los resultados para las diferentes variables son:
(a) Sexo: exp
2
=0,827 (g.l.=1) P = 0,363 >>0,05 teniendo en cuenta el efecto de la edad y del
padecimiento de alguna enfermedad crnica, el sexo no est asociado con la hiperutilizacin;
(b) Edad: exp
2
=25,349 (g.l.=1) P = 0,000 0,05 teniendo en cuenta el efecto del sexo y del
padecimiento de alguna enfermedad crnica, la edad s est asociado con la hiperutilizacin;
(c) Crnica: exp
2
=49,818 (g.l.=1) P = 0,000 0,05 teniendo en cuenta el efecto del sexo y de la
edad, el padecimiento de alguna enfermedad crnica s est asociado con la hiperutilizacin.
Columna Exp(B): Las estimaciones de Oi (odds-ratio) para cada una de las variables del modelo la
fuerza de asociacin de cada una de ellas con la hiperutilizacin. En el caso de la edad se obtiene un
valor de 2,22 los pacientes que tienen 65 aos o ms tienen 2,22 veces ms riesgo de ser
hiperutilizadores que los que tienen menos de 65 aos. El caso de Constante no tiene inters.
Columna I.C.: El intervalo de confianza (al 95%) para las Oi del prrafo anterior. En el caso del
intervalo para el sexo el intervalo es (0,854; 1,54) que contiene el valor 1! es posible que la
hiperutilizacin sea independiente del sexo (en valores constantes de las dems variables), lo que ya
se haba visto con el test de Wald!
I.C. 95,0% para
EXP(B)
B E.T. Wald gl Sig. Exp(B) Inferior Superior
Paso SEXO(1) ,137 ,150 ,827 1 ,363 1,147 ,854 1,540
1(a) EDAD(1) ,798 ,158 25,349 1 ,000 2,220 1,628 3,029
CRNICA(1) 1,028 ,146 49,818 1 ,000 2,796 2,102 3,720
Constante -1,968 ,146 180,451 1 ,000 ,140
a Variable(s) introducida(s) en el paso 1: SEXO, EDAD, CRNICA.
IV.2: Actividad 2
Estudiar qu variables influye sobre la presencia de una infeccin postoperatoria (en pacientes intervenidos
de apendicitis aguda) en base al fichero de datos Infeccion que contiene las siguientes 8 variables:
TRATAMIENTO Grupo al que fueron asignados los pacientes: 0 = Antibiticos; 1 = Irrigacin
NUPAC Nmero del paciente.
SEXO Sexo del paciente: 0 = Hombre; 1 = Mujer.
EDAD Edad del paciente (en aos).
DURACLI Duracin de la clnica (en horas).
TIPAPEN Tipo de apndice: 1 = Normal; 2 = Flemonoso; 3 = Gangrenoso.
DURACINT Duracin de la intervencin (en minutos).
INFEC Infectado en las 72 horas posteriores a la operacin: 0 = No; 1 = S.
Notas previas
variable cuya probabilidad p se desea predecir es el sufrir una infeccin (Infec 0=No, 1=S 1 es la
enfermedad), las variables de apoyo (xi) son el tratamiento aplicado (Tratamiento dicotmico
1=Irrigacin es el factor de riesgo), el sexo (Sexo dicotmico 1 es el factor de riesgo), la edad
(Edad cuantitativo a ms edad, ms riesgo), la duracin de la clnica (Duracli cuantitativo a ms
duracin, ms riesgo), el tipo de apndice (Tipapen categrico con 3 clases dar lugar a dos variables
Tipapen(1) Flemonoso s/no y Tipapen(2) Gangrenoso s/no si se entiende que Normal = categora
de no riesgo) y la duracin de la intervencin (Duracint cuantitativo a ms duracin, ms riesgo).
El objetivo es analizar el problema empleando la ecuacin de regresin logstica logit (p) = +
1Tratamiento + 2Sexo + 3Edad + 4Duracli + 5Tipapen(1) + 6Tipapen(2) + 7Duracint.
SPSS siempre entiende que la enfermedad (el problema) es el valor ms alto de la variable que se seale
como tal de ah que antes se le asignara el valor 1 a la s infeccin.
Peticin de resultados
Pulsando Analizar Regresin Logstica binaria...., se abre la ventana general de la regresin
logstica (abajo). En ella ya se han realizado las acciones de pasar la variable objetivo (Infec) a la caja de
Dependientes (variable y = logit p), el resto de las variables (salvo Nupac) a la caja de Covariables y
dejado la seleccin de Introducir (para que as SPSS contemple a todas las variables).
El siguiente paso consiste en indicarle a SPSS qu variables son categricas (las dems las contemplar
como cuantitativas), para lo cual se pulsa el botn y, en la ventana que se obtiene (la de ms
abajo, que contempla las acciones que siguen) se pasan las covariables categricas Tratamiento, Sexo y
Tipapen del cajn Covariables al cajn Covariables categricas.
El siguiente paso es identificar la categora de referencia (de no riesgo) de cada una de estas covariables
categricas. Para ello, con cada una de las tres covariables implicadas hay que actuar as (abajo se indica
cmo quedara la ventana anterior tras las operaciones que siguen):
Tratamiento: los investigadores del estudio pensaban que el tratamiento con antibiticos era el de
menor riesgo de infeccin 0=Antibitico es la categora de referencia pinchar sobre la covariable
Tratamiento en la caja de Covariables categricas, seleccionar Primera en la opcin Categora de
referencia y pulsar el botn .
Sexo: los investigadores no tenan claro cul poda ser la categora de referencia se puede elegir la
que sea si elegimos 0=Hombre (la Primera) se actuar igual que arriba (pero con la covariable
Sexo).
Tipapen: el tipo de apndice presenta tres categoras (de menos a ms deterioro del apndice)
conforme mayor sea la categora, ms deteriorado estar el apndice mayor riesgo de infeccin
postoperatoria existir el apndice 1=Normal ser la categora de referencia (de menor riesgo) y
las categoras 2=Flemonoso y 3=Gangrenoso sern dos categoras de riesgo. Como 1=Normal
tiene el valor ms bajo l se emplear como categora de referencia la Primera actuar como
arriba (pero con la covariable Tipapen).
Tras pulsar se regresa a la pantalla inicial en la que pulsaremos a fin de marcar

Bondad de ajuste e IC para exp(B) como en la Actividad 1. La nueva ventana es la misma de entonces
(abajo aparece con las selecciones ya marcadas). Tras pulsar se regresa a la pantalla inicial, en la
que ya solo hay que pulsar para que SPSS d las respuestas a lo solicitado.

En lo que sigue solo se resean y comentan las salidas de mayor inters(el resto son similares a las de la
Actividad 1)muchas de las cuales fueron comentadas con ms profundidad en las clases de teora
La primera salida de inters (abajo) alude a las codificaciones empleadas con las covariables categricas:
una variable para las dos dicotmicas (Sexo y Tratamiento) y dos variables para Tipapen (pues tiene 3
niveles), cada uno con indicacin del valor que indica la ausencia de riesgo (el 0).
Codificaciones de variables categricas
Codificacin de
parmetros
Frecuencia (1) (2)
Tipo de apndice Normal 27 ,000 ,000
Flemonoso 88 1,000 ,000
Gangrenoso 5 ,000 1,000
Sexo del paciente Hombre 72 ,000
Mujer 48 1,000
Tratamiento al que Tratados con
60 ,000
fueron asignados los antibiticos
pacientes Tratados con irrigacin 60 1,000
La siguiente salida (abajo) proporciona el test global de independencia (fila Modelo). Como es
significativo (P = 0,000) podemos decir que al menos una de las variables presentes en el modelo est
asociada con la variable dependiente.
La tabla de abajo permite determinar la fuerza de la relacin entre las 7 covariables estudiadas y la variable
a predecir (Infeccin).
Resumen de los modelos
R cuadrado R cuadrado
-2 log de la de Cox y de
Paso verosimilitud Snell Nagelkerke
1 42,344(a) ,308 ,599
La tabla de abajo permite aceptar que el modelo logstico ajustado se ajusta bien a los datos (pues P =
0,480 > 0,10 se acepta H0).
Prueba de Hosmer y Lemeshow
Paso Chi-cuadrado gl Sig.
1 7,538 8 ,480
La tabla ms relevante es la de abajo: ella proporciona los estimadores puntuales y por intervalo de y de
las siete i, permite determinar que la relacin buscada es
Logit (p) = 11,422 + 0,282Tratamiento 0,374Sexo + 0,129Edad 0,043Duracli
0,435Tipapen(1) 0,326Tipapen(2) + 0,109Duracint
(en donde p alude a la probabilidad de padecer una infeccin), permite realizar el test de independencia
para cada una de las 7 covariables (columna Wald, gl y Sig.) y evaluar la fuerza de la asociacin entre la
variable de respuesta y cada una de las covariables cuando el resto de las variables presentes en el modelo
permanecen constantes (tres ltimas columnas).
I.C. 95,0% para
EXP(B)
B E.T. Wald gl Sig. Exp(B) Inferior Superior
Paso TRATAMIENTO(1) ,282 ,882 ,102 1 ,749 1,326 ,235 7,472
1(a) SEXO(1) -,374 ,867 ,186 1 ,666 ,688 ,126 3,763
EDAD ,129 ,035 13,888 1 ,000 1,138 1,063 1,217
DURACLI -,043 ,023 3,455 1 ,063 ,958 ,915 1,002
TIPAPEN ,231 2 ,891
TIPAPEN(1) -,435 ,906 ,230 1 ,631 ,647 ,110 3,824
TIPAPEN(2) -,326 2,684 ,015 1 ,903 ,722 ,004 139,153
DURACINT ,109 ,038 8,229 1 ,004 1,115 1,035 1,201
Constante -11,422 2,859 15,956 1 ,000 ,000
a Variable(s) introducida(s) en el paso 1: TRATAMIENTO, SEXO, EDAD, DURACLI, TIPAPEN, DURACINT.

Regresion Lineal y Logistica PDF

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Regresion Lineal y Logistica PDF

Cargado por

Copyright:

Formatos disponibles

Guin Prctica III

REGRESIN LINEAL MLTIPLE

III.0. Archivos implicados en este guin (tipo)

III.1: Anlisis con todas las variables: Actividad 1

Peticin de resultados: botones

Resultados: interpretacin y anlisis de los mismos

La conclusin es que el modelo analizado en todo lo anterior es aceptable.

1,00 1,50 2,00 2,50 3,00

(a) Indicios de no Homogeneidad de varianzas (b) Lineal en la Dosis

50,00 100,00 150,00 200,00 250,00

(c) Lineal en la Presin (d) Lineal en la DosisPresin

III.2: Seleccin del mnimo conjunto de variables: Actividad 2

IV.0. Archivos implicados en este guin (tipo)

Peticin de resultados: botones

Bondad de ajuste de Hosmer-Lemeshow: Test para verificar si el modelo de regresin logstica

Pulsando ya y a continuacin aparecen los resultados siguientes:

Resultados: interpretacin y anlisis de los mismos

B E.T. Wald gl Sig. Exp(B)

Es el mismo ejemplo de clase la interpretacin de sus resultados es como all!

Tras pulsar se regresa a la pantalla inicial en la que pulsaremos a fin de marcar

Resultados: interpretacin y anlisis de los mismos

También podría gustarte