Está en la página 1de 9

Revista Salud, Sexualidad y Sociedad 1(4), 2009

REGRESIN LOGSTICA APLICADA A LA EPIDEMIOLOGA


LOGISTIC APPLIED FOR REGRESSION EPIDEMIOLOGY
Dra. Jully Pahola Caldern Saldaa
Dr. Luis Alzamora de los Godos Urcia

RESUMEN
El siguiente artculo presenta la regresin logstica como un mtodo aplicado a las ciencias de la salud, en especial a la
epidemiologa, con lo que se trabajan los coeficientes del modelo logstico como cuantificadora de riesgo, las variables cualitativas
en el modelo logstico, la interaccin y confusin, la colinealidad, el tamao de la muestra, la seleccin de modelos, el mtodo de
mxima verosimilitud y la prueba de Wald de significacin de los parmetros, en todo este aplicativo se coloca un ejemplo en de
reporte final de regresin logstica binaria en SPSS y su interpretacin .
Palabras Claves: Regresin logstica, epidemiologa.
ABSTRACT
The following article presents the logistic regression like an applied for method the sciences of health, specially to epidemiology, so
that the coefficients of the logistic model like quantifiers of risk, the qualitative variables in the logistic model, the interaction and
confusion, the colineality, the size of sign, the selection of models, the procedure of maximum verisimilitude and Wald's sample of
significance of the parameters, in everything are worked up this application an example is placed in of final report of logistic binary
regression in SPSS and your interpretation.
Key words: Logistic regression, epidemiology.

INTRODUCCIN
No cabe ninguna duda que la regresin logstica es una
de las herramientas estadsticas con mejor capacidad
para el anlisis de datos en investigacin clnica y
epidemiologa, de ah su amplia utilizacin.
El objetivo primordial que resuelve esta tcnica es el de
modelar cmo influye en la probabilidad de aparicin de
un suceso, habitualmente dicotmico, la presencia o no
de diversos factores y el valor o nivel de los mismos.
Tambin puede ser usada para estimar la probabilidad
de aparicin de cada una de las posibilidades de un
suceso con ms de dos categoras (politmico o
multinomial).
De todos es sabido que este tipo de situaciones se
aborda mediante tcnicas de regresin. Sin embargo, la
metodologa de la regresin lineal no es aplicable ya
que ahora la variable respuesta slo presenta dos
valores (nos centraremos en el caso dicotmico), como
puede ser presencia/ausencia de alguna enfermedad o
suceso, por ejemplo hipertensin.
Si clasificamos el valor de la variable respuesta como 0
cuando no se presenta el suceso (ausencia de

hipertensin) y con el valor 1 cuando s est presente


(paciente hipertenso), y buscamos cuantificar la posible
relacin entre la presencia de hipertensin y, por
ejemplo, la cantidad media de sal consumida al da
como posible factor de riesgo, podramos caer en la
tentacin de utilizar una regresin lineal

y estimar, a partir de nuestros datos, por el


procedimiento habitual de mnimos cuadrados, los
coeficientes a y b de la ecuacin. Sin embargo, y
aunque esto es posible matemticamente, nos conduce
a la obtencin de resultados absurdos, ya que cuando
se calcule la funcin obtenida para diferentes valores
de consumo de sal se obtendr resultados que, en
general, sern diferentes de 0 y 1, los nicos realmente
posibles en este caso, ya que esa restriccin no se
impone en la regresin lineal, en la que la respuesta
puede en principio tomar cualquier valor.
Si utilizamos cmo variable dependiente la probabilidad
p de que un paciente padezca hipertensin y
construimos la siguiente funcin:

1. Doctor of Philosophy in Public Health (Ph. D.). U.M. U.S.A. Docente de Postgrado en Salud de la Universidad Nacional Federico Villareal.
2. Doctor of Philosophy in Public Health (Ph. D.). U.M. U.S.A. Docente de Postgrado en Salud de la Universidad Inca Garcilaso de la Vega.

Revista Salud, Sexualidad y Sociedad 1(4), 2009

Aahora s tenemos una variable que puede tomar


cualquier valor, por lo que podemos plantearnos el
buscar para ella una ecuacin de regresin tradicional:

Que se puede convertir con una pequea manipulacin


algebraica en

Y este es precisamente el tipo de ecuacin que se


conoce como modelo logstico, donde el nmero de
factores puede ser ms de uno, as en el exponente
que figura en el denominador de la ecuacin podramos
tener:

la haya en esa situacin. Igualmente podramos


calcular el odds de presencia de hipertensin cuando el
consumo de sal es inferior a esa cantidad. Si dividimos
el primer odds entre el segundo, hemos calculado un
cociente de odds, esto es un odds ratio, que de alguna
manera cuantifica cunto ms probable es la aparicin
de hipertensin cuando se consume mucha sal (primer
odds) respecto a cundo se consume poca. La nocin
que se est midiendo es parecida a la que encontramos
en lo que se denomina riesgo relativo que
corresponde al cociente de la probabilidad de que
aparezca un suceso (hipertensin) cuando est
presente el factor (consumo elevado de sal) respecto a
cuando no lo est. De hecho cuando la prevalencia del
suceso es baja (< 20 %) el valor del odds ratio y el
riesgo relativo es muy parecido, pero no es as cuando
el suceso es bastante comn, hecho que a menudo se
ignora y ser objeto de un comentario ms extenso en
un nuevo artculo.
Si en la ecuacin de regresin tenemos un factor
dicotmico, como puede ser por ejemplo si el sujeto es
no fumador, el coeficiente b de la ecuacin para ese
factor est directamente relacionado con el odds ratio
OR de ser fumador respecto a no serlo

b1.consumo_sal + b2.edad + b3.sexo + b4.fumador


Los coeficientes del modelo logstico como
cuantificadores de riesgo
Una de las caractersticas que hacen tan interesante la
regresin logstica es la relacin que stos guardan con
un parmetro de cuantificacin de riesgo conocido en la
literatura como "odds ratio" (aunque puede tener
traduccin al castellano, renunciamos a ello para evitar
confusin ya que siempre se utiliza la terminologa
inglesa).
El odds asociado a un suceso es el cociente entre la
probabilidad de que ocurra frente a la probabilidad de
que no ocurra:

Siendo p la probabilidad del suceso. As, por ejemplo,


podemos calcular el odds de presencia de hipertensin
cuando el consumo diario de sal es igual o superior a
una cierta cantidad, que en realidad determina cuntas
veces es ms probable que haya hipertensin a que no

Es decir que exp(b) es una medida que cuantifica el


riesgo que representa poseer el factor correspondiente
respecto a no poseerlo, suponiendo que el resto de
variables del modelo permanecen constantes.
Cuando la variable es numrica, como puede ser por
ejemplo la edad, o el ndice de masa corporal, es una
medida que cuantifica el cambio en el riesgo cuando se
pasa de un valor del factor a otro, permaneciendo
constantes el resto de variables. As el odds ratio que
supone pasar de la edad X1 a la edad X2, siendo b el
coeficiente correspondiente a la edad en el modelo
logstico es:

Ntese que se trata de un modelo en el que el aumento


o disminucin del riesgo al pasar de un valor a otro del
factor es proporcional al cambio, es decir a la diferencia
entre los dos valores, pero no al punto de partida,
quiere esto decir que el cambio en el riesgo, con el

Revista Salud, Sexualidad y Sociedad 1(4), 2009

modelo logstico, es el mismo cuando pasamos de 40 a


50 aos que cuando pasamos de 80 a 90.
Cuando el coeficiente b de la variable es positivo
obtendremos un odds ratio mayor que 1 y corresponde
por tanto a un factor de riesgo. Por el contrario, si b es
negativo el odds ratio ser menor que 1 y se trata de un
factor de proteccin.
Las variables cualitativas en el modelo logstico
Puesto que la metodologa empleada para la
estimacin del modelo logstico se basa en la utilizacin
de variables cuantitativas, al igual que en cualquier otro
procedimiento de regresin, es incorrecto que en l
intervengan variables cualitativas, ya sean nominales u
ordinales.
La asignacin de un nmero a cada categora no
resuelve el problema ya que si tenemos, por ejemplo, la
variable ejercicio fsico con tres posibles respuestas:
sedentario, realiza ejercicio espordicamente, realiza
ejercicio frecuentemente, y le asignamos los valores 0,
1, 2, significa a efectos del modelo, que efectuar
ejercicio fsico frecuentemente es dos veces mayor que
solo hacerlo espordicamente, lo cual no tienen ningn
sentido. Ms absurdo sera si se trata, a diferencia de
sta, de una variable nominal, sin ninguna relacin de
orden entre las respuestas, como puede ser el estado
civil.
La solucin a este problema es crear tantas variables
dicotmicas como nmero de respuestas - 1. Estas
nuevas variables, artificialmente creadas, reciben en la
literatura anglosajona el nombre de "dummy",
traducindose
en
espaol
con
diferentes
denominaciones como pueden ser variables internas,
indicadoras, o variables diseo.
As por ejemplo si la variable en cuestin recoge datos
de tabaquismo con las siguientes respuestas: Nunca
fum, Ex-fumador, Actualmente fuma menos de 10
cigarrillos diarios, Actualmente fuma 10 o ms
cigarrillos diarios, tenemos 4 posibles respuestas por lo
que construiremos 3 variables internas dicotmicas
(valores 0,1), existiendo diferentes posibilidades de
codificacin,
que
conducen
a
diferentes
interpretaciones, y siendo la ms habitual la siguiente:
I1

I2

I3

Nunca fum

Ex- fumador

Menos de 10 cigarrillos diarios

10 o ms cigarrillos diarios

En este tipo de codificacin el coeficiente de la


ecuacin de regresin para cada variable diseo
(siempre transformado con la funcin exponencial), se
corresponde al odds ratio de esa categora con
respecto al nivel de referencia (la primera respuesta),
en nuestro ejemplo cuantifica cmo cambia el riesgo
respecto a no haber fumado nunca.
Existen otras posibilidades entre las que se destaca
con un ejemplo para una variable cualitativa de tres
respuestas:
I1

I2

Respuesta 1

Respuesta 2

Respuesta 3

Con esta codificacin cada coeficiente se interpreta


como una media del cambio del riesgo al pasar de una
categora a la siguiente.
En el caso una categora que NO pueda ser
considerada de forma natural como nivel de referencia,
como por ejemplo el grupo sanguneo, un posible
sistema de clasificacin es:
I1

I2

Respuesta 1

-1

-1

Respuesta 2

Respuesta 3

Donde cada coeficiente de las variables indicadoras


tiene una interpretacin directa como cambio en el
riesgo con respecto a la media de las tres respuestas.
Bondad del ajuste

Revista Salud, Sexualidad y Sociedad 1(4), 2009

Siempre que se construye un modelo de regresin es


fundamental, antes de pasar a extraer conclusiones, el
corroborar que el modelo calculado se ajusta
efectivamente a los datos usados para estimarlo.
En el caso de la regresin logstica una idea bastante
intuitiva es calcular la probabilidad de aparicin del
suceso, presencia de hipertensin en nuestro caso,
para todos los pacientes de la muestra. Si el ajuste es
bueno, es de esperar que un valor alto de probabilidad
se asocie con presencia real de hipertensin, y
viceversa, si el valor de esa probabilidad calculada es
bajo, cabe esperar tambin ausencia de hipertensin.
Esta idea intuitiva se lleva a cabo formalmente
mediante la prueba conocida como de HosmerLemeshow (1989), que bsicamente consiste en dividir
el recorrido de la probabilidad en deciles de riesgo (esto
es probabilidad de hipertensin < 0.1, < 0.2, y as hasta
<1) y calcular tanto la distribucin de hipertensos, como
no hipertensos prevista por la ecuacin y los valores
realmente observados. Ambas distribuciones, esperada
y observada, se contrastan mediante una prueba de
chi.

considerar que puede haber otros factores que


modifiquen esa relacin.
As, por ejemplo, si se est estudiando la posible
relacin, como factor de riesgo, entre el sndrome de
apnea nocturna y la probabilidad de padecer
hipertensin, dicha relacin puede ser diferente si se
tiene en cuenta otras variables como pueden ser la
edad, el sexo o el ndice de masa corporal. Por ello en
un modelo de regresin logstica podran ser incluidas
como variables independientes, adems del dato de
apnea. En la ecuacin obtenida al considerar como
variables dependientes APNEA, EDAD, SEXO, IMC, el
exp(coeficiente de la ecuacin para APNEA) nos
determina el odds ratio debido a la apena, ajustado o
controlado para el resto de los factores.
A las variables que, adems del factor de inters (en el
ejemplo EDAD, SEXO, IMC), se introducen en el
modelo, se las denomina en la literatura de diferentes
formas: variables control, variables extraas,
covariantes, o factores de confusin.
Interaccin

En la presentacin final de los datos de regresin


logstica debiera figurar siempre algn tipo de prueba
de bondad de ajuste y las conclusiones comentadas
que de ella se deducen, pues en el caso de la prueba
Hosmer-Lemeshow es ms ilustrativo que el propio
resultado del contraste, los valores de la distribucin
obtenida.

Cuando la relacin entre el factor en estudio y la


variable dependiente se modifica segn el valor de una
tercera estamos hablando de interaccin. As en
nuestro ejemplo, supongamos que la probabilidad de
padecer HTA cuando se tiene sndrome de apnea
aumenta con la edad. En este caso decimos que existe
interaccin entre las variables EDAD y APNEA.

Interaccin y confusin

Si nos fijamos slo en el exponente del modelo


logstico, en el caso de no considerar interaccin ste
ser:

El empleo de tcnicas de regresin logstica sirve para


dos objetivos:
1. Estimar la relacin entre dos variables
teniendo en cuenta la presencia de otros
factores
2. Construir un modelo que permita predecir el
valor de la variable dependiente (en regresin
logstica la probabilidad del suceso) para unos
valores determinados de un conjunto de
variables pronstico
Cuando el objetivo es estimar la relacin o asociacin
entre dos variables, los modelos de regresin permiten

Si deseamos considerar la presencia de interaccin


entre APNEA y EDAD el modelo cambia:

Si la variable APNEA es dicotmica (valores 0 y 1) la


relacin entre HTA y APNEA vendr cuantificada por b1
en el primer modelo mientras que en el segundo

Revista Salud, Sexualidad y Sociedad 1(4), 2009

es decir que ahora esa relacin se modifica en funcin


del valor de la EDAD.

Para entenderlo supongamos el caso extremo, en el


que se introduce en el modelo dos veces la misma
variable, tendramos entonces el siguiente trmino.

Algunas precauciones
La amplia disponibilidad de programas que permiten el
acceso a sofisticadas pruebas estadsticas como el
SPSS, el Epi-Info 2002, Systat entre otros, pueden
conducir a la utilizacin inadecuada y mecnica de
stas. En particular los modelos de regresin requieren
de quien los construye un mnimo de comprensin de la
filosofa subyacente, as como no slo el conocimiento
de las ventajas, sino tambin de los problemas y
debilidades de stas tcnicas. La utilizacin de
procedimientos matemticos a menudo nos convence
de que estamos introduciendo "objetividad" en los
resultados y ello es as en cierta medida, pero tambin
lleva aparejada una gran carga de subjetividad, donde
se incluye desde la misma eleccin de un modelo
matemtico determinado, hasta la seleccin de las
variables en l contenidas.
Una de las primeras consideraciones que hay que
hacer es que la relacin entre la variable independiente
y la probabilidad del suceso no cambie de sentido, ya
que en ese caso no nos sirve el modelo logstico. Esto
es algo que habitualmente no ocurre en los estudios
clnicos, pero por ello es ms fcil pasarlo por alto
cuando se presenta.
Un ejemplo muy claro de esa situacin se da si
estamos evaluando la probabilidad de nacimiento un
nio con bajo peso (de riesgo) en funcin de la edad de
la madre. Hasta una edad esa probabilidad puede
aumentar a medida que la edad de la madre disminuye
(madres muy jvenes) y a partir de una edad (madres
muy mayores) la probabilidad puede aumentar a
medida que lo hace la edad de la madre. En este caso
el modelo logstico no sera adecuado.
Colinealidad
Otro problema que se puede presentar en los modelos
de regresin, no slo logsticos, es que las variables
que intervienen estn muy correlacionadas, lo que
conduce a un modelo desprovisto de sentido y por lo
tanto a unos valores de los coeficientes no
interpretables. A esta situacin, de variables
independientes correlacionadas, se la denomina
colinealidad.

o lo que es lo mismo

Donde la suma b1+b2 admite infinitas posibilidades a la


hora de dividir en dos sumandos el valor de un
coeficiente, por lo que la estimacin obtenida de b1 y
b2 no tiene realmente ningn sentido.
Un ejemplo de esta situacin se podra dar si incluimos
en la ecuacin variables como la hemoglobina y el
hematocrito que est altamente correlacionado.
Tamao de muestra
Como regla "de andar por casa" podemos considerar
necesario disponer de al menos 10(k + 1) casos para
estimar un modelo con k variables independientes; es
decir, al menos 10 casos por cada variable que
interviene en el modelo, considerando tambin la
variable dependiente (la probabilidad del suceso), no es
cierto que una misma muestra calculada para un
estudio analtico sirva para el modelo logstico.
Conviene llamar la atencin respecto a que las
cualitativas intervienen como c - 1 variables en el
modelo, al construir a partir de ellas las
correspondientes variables internas.
Seleccin de modelos
Al estar hablando de modelos que pueden ser
multivariantes, un aspecto de inters es cmo
seleccionar el mejor conjunto de variables
independientes a incluir en el modelo.
La definicin de mejor modelo depende del tipo y el
objetivo del estudio. En un modelo con finalidad
predictiva se considerar como mejor modelo aquel que
produce predicciones ms fiables, mientras que en un
modelo que pretende estimar la relacin entre dos
variables (corrigiendo el efecto de otras), se
considerar mejor aquel con el que se consigue una

Revista Salud, Sexualidad y Sociedad 1(4), 2009

estimacin ms precisa del coeficiente de la variable de


inters. Esto se olvida a menudo y sin embargo
conduce a estrategias de modelado completamente
diferentes. As en el segundo caso un covariante con
coeficiente estadsticamente significativo pero cuya
inclusin en la ecuacin no modifica el valor del
coeficiente de la variable de inters, ser excluido de la
ecuacin, ya que no se trata de un factor de confusin:
la relacin entre la variable de inters y la probabilidad
no se modifica si se tiene en cuenta esa variable. Sin
embargo si lo que se busca un modelo predicitivo s
que se incluir en la ecuacin pues ahora lo que
buscamos es predicciones ms fiables.
Otra consideracin que hay que hacer siempre que se
analizan datos es distinguir entre diferencias
numricas, diferencias estadsticamente significativas y
diferencias clnicamente relevantes. No siempre
coinciden los tres conceptos.
Lo primero que habr que plantear es el modelo
mximo, o lo que es lo mismo el nmero mximo de
variables dependientes que pueden ser incluidas en la
ecuacin, considerando tambin las interacciones si
fuera conveniente.
Aunque existen diferentes procedimientos para escoger
el modelo slo hay tres mecanismos bsicos para ello:
empezar con una sola variable dependiente e ir
aadiendo nuevas variables segn un criterio prefijado
(procedimiento hacia adelante), o bien empezar con el
modelo mximo e ir eliminando de l variables segn
un criterio prefijado (procedimiento hacia atrs). El
tercer mtodo, denominado en la literatura "stepwise",
combina los dos anteriores y en cada paso se puede
tanto aadir una variable como eliminar otra que ya
estaba en la ecuacin, dependiendo de los hallazgos
de otros estudios.
En el caso de la regresin logstica el criterio para
decidir en cada paso si escogemos un nuevo modelo
frente al actual viene dado por el logaritmo del cociente
de verosimilitudes de los modelos.
La funcin de verosimilitud de un modelo es una
medida de cun compatible es ste con los datos
realmente observados. Si al aadir una nueva variable
al modelo no mejora la verosimilitud de forma
apreciable, en sentido estadstico, sta variable no se
incluye en la ecuacin.

Para evaluar la significacin estadstica de una variable


concreta dentro del modelo, nos fijaremos en el valor
de chi (estadstico de Wald) correspondiente al
coeficiente de la variable y en su nivel de probabilidad
El mtodo de mxima verosimilitud
Supone que las observaciones fueron generadas por
una distribucin de probabilidades cuyos parmetros
hay que estimar. Para llevar a cabo la estimacin se
construye la funcin de verosimilitud que es una
medida de la incertidumbre en la estimacin de valores
hipotticos del o de los parmetros. Supongamos que
el valor hipottico del parmetro q es q' entonces la
funcin de verosimilitud ser:
L(q'/Y, M) = K(Y)P(Y/q')
Donde la funcin de verosimilitud L representa la
incertidumbre asociada a q', dada las observaciones (Y)
y el modelo (M). El mtodo consiste en encontrar el
valor de q' que maximiza la verosimilitud de que los
datos fueron producidos por el modelo (King G.: 1989:
24). Son muchos los clculos tcnicos de este mtodo
de estimacin, sin embargo, dejaremos su presentacin
en este punto para enfocarnos hacia las ideas centrales
que organizan esta forma de atacar el problema.
Queremos destacar el hecho que el planteamiento del
mtodo de estimacin mximo verosmil introduce el
supuesto de que las observaciones se generan por un
mecanismo aleatorio. Esta es una forma de "organizar"
la experiencia. Reconoce un papel activo del sujeto, es
ste quien decide si el modelo adecuado para
representar un conjunto de datos es la distribucin
binomial o multinomial, etc. La eleccin no es arbitraria
sino que se apoya en el examen del procedimiento que
se sigui para generar las observaciones y las
caractersticas tericas de las distribuciones de
probabilidades.
Prueba de Wald de significacin de los parmetros
Es posible que algunas de las supuestas variables
explicativas no sean tales y no tengan ningn efecto
sobre la variable respuesta; para poder identificarlas y
eliminarlas del modelo, se recurre a la prueba de Wald,
la cual se limita a contrastar la hiptesis de nulidad del
coeficiente

asociado a la variable Xj:

Revista Salud, Sexualidad y Sociedad 1(4), 2009

H0j: "Xj no influye sobre Y:


frente a la alternativa:
H1j: "Xj influye sobre Y:

=0"

Se quiere investigar la efectividad de la acupuntura en


el tratamiento de las molestias lumbares.

".

El programa calcula los coeficientes asociados a cada


una de las variables explicativas: tratamiento (0.78),
sexo (1.45), edad (-0.01) y consumo de sicofrmacos
(1.91). En cuanto a los contrastes de Wald, todos ellos
aceptan la nulidad de los coeficientes, excepto el
correspondiente a la variable sobre consumo de
sicofrmacos; la interpretacin de los resultados es que
ni el tratamiento, ni el sexo, ni la edad influyen sobre la
declaracin del paciente sobre su mejora, pero s el
haber sido consumidor de sicofrmacos, lo que induce
a pensar que son los pacientes ms sugestionables los
que dicen haber mejorado, independientemente de
donde hayan sido colocadas las agujas, de su sexo y
de su edad.

El estadstico de contraste para la j-sima variable


explicativa es

que se distribuye como una


con 1 grado de libertad
cuando la muestra es grande, siendo s2j la varianza del
estimador de
. El contraste se realiza a un nivel de
significacin del 5%.
Caso
Se ha realizado un ensayo clnico para determinar la
capacidad analgsica de la acupuntura en el
tratamiento de los dolores lumbares. A este fin se les
ha aplicado el tratamiento a 40 pacientes colocando las
agujas en los lugares indicados por la medicina
tradicional china, y a otros 40 un tratamiento placebo
consistente en situar las agujas de forma aleatoria
sobre la superficie cutnea (tradicional=1, placebo=0).
Adems, se sabe de cada uno de ellos el sexo
(mujer=0, hombre=1), la edad (aos cumplidos) y el
historial de consumo de sicofrmacos (no consumi=0,
consumo ocasional=1, regular=2, frecuente=3,
dependencia=4). Transcurridos dos meses de
tratamiento, el individuo declara que ha experimentado
mejora (Y=1) o que los dolores se mantienen o que
han aumentado (Y=0):
Resultado Tratamiento Sexo
(0-1)
(0-1)
(0-1)

Edad
(aos)

(Fuente: L. C. Silva Ayaguer (1995) Excursin a la


regresin logstica en ciencias de la salud. Ed. Daz de
Santos, Madrid.)
EJEMPLO DE TRABAJO EN EL SPSS
Primero se selecciona la base de datos en la se desea
trabajar, teniendo cuidado que la variable dependiente
que sea motivo del anlisis sea dicotmica.

Sicofrmacos
(0-4)

49

35

23

54

43

63

25

41

22

33

...

...

...

...

...

Posteriormente se va al men contextual y se


selecciona ANALIZE, al cual se la un Clik.

Revista Salud, Sexualidad y Sociedad 1(4), 2009

Luego se va a la seccin de regresin y se selecciona


binary Logistic la cual est referida a la regresin
logstica binaria.
Posteriormente se reportan los resultados en el SPSS
de la siguiente forma, los cuales solamente se
seleccionan dos cuadros:
Logistic Regression
Case Processing Summary
Unweighted Cases
Selected Cases

N
Included in Analysis
Missing Cases
Total

52
14
66
0
66

Unselected Cases
Total

Posteriormente se ingresa en el casillero de Depndent


la variable dependiente, la cual debe ser dicotmica, en
este ejemplo se esta tomando es de un estudio de
casos y controles de mortalidad materna, la variable
condicin se categoriza en Muerte Materna y
sobreviviente. Las variables independientes, como se
ha visto con anterioridad de preferencia deben ser
cuantitativa o categorizarlas de manera lgica para el
anlisis, para este caso y para evitar confusin
emplearemos variables cuantitativas como edad, edad
gestacional, peso materno, talla materna, n de hijos
vivos, intervalo ntergensico y nmero de controles
prenatales. Dichas variables se colocan en el casillero
de covariates.

Percent
78,8
21,2
100,0
,0
100,0

a. If weight is in effect, see classification table for the total


number of cases.

Dependent Variable Encoding


Original Value
Internal Value
Muerte Materna
0
Sobreviviente
1

Block 0: Beginning Block


Classification Tablea,b
Predicted

Step 0

Observed
Condicin

Muerte Materna
Sobreviviente

Condicin
Muerte
Materna
Sobreviviente
0
24
0
28

Overall Percentage

Percentage
Correct
,0
100,0
53,8

a. Constant is included in the model.


b. The cut value is ,500
Variables in the Equation

Step 0

Constant

B
,154

S.E.
,278

Wald
,307

df
1

Sig.
,579

Exp(B)
1,167

Revista Salud, Sexualidad y Sociedad 1(4), 2009

Variables not in the Equation

Step
0

Variables

Score
,677
,604
,427
1,250
7,117
,558
1,072
17,056

EDAD10
EDADGE21
PESOMA22
TALMAT23
NHJSNV25
ININTE27
NCPN28

Overall Statistics

df

Sig.
,411
,437
,513
,264
,008
,455
,300
,017

1
1
1
1
1
1
1
7

Omnibus Tests of Model Coefficients


Chi-square
23,586
23,586
23,586

Step
Block
Model

df

Sig.
,001
,001
,001

7
7
7

-2 Log
likelihood
48,194

Cox & Snell


R Square
,365

B
Edad
Edad Gestacional
Peso Materno
Talla Materna
N de Hijos
Int. Intergensico
N de CPN
Constante

Nagelkerke
R Square
,487

Classification Tablea

Step 1

Condicin
Muerte
Materna
Sobreviviente
16
8
6
22

Muerte Materna
Sobreviviente

Overall Percentage

Percentage
Correct
66,7
78,6
73,1

1.
2.
3.

a. The cut value is ,500


Variables in the Equation

Step
a
1

EDAD10
EDADGE21
PESOMA22
TALMAT23
NHJSNV25
ININTE27
NCPN28
Constant

B
,166
-,038
-,019
-9,559
-,936
,095
,385
12,876

S.E.
,092
,041
,038
7,213
,346
,147
,174
10,057

Wald
3,269
,873
,247
1,756
7,331
,419
4,903
1,639

df
1
1
1
1
1
1
1
1

Sig.
,071
,350
,619
,185
,007
,518
,027
,200

Exp(B)
1,181
,962
,981
,000
,392
1,100
1,469
390681,5

gl

1,250
7,117
,558
1,072
17,056

1
1
1
1
1
1
1
7

Sig (p).
,411
,437
,513
,264
,008
,455
,300
,017

,166
-,038
-,019
-9,559
-,936
,095
,385
12,876

S.E.
,092
,041
,038
7,213
,346
,147
,174
10,057

gl
1
1
1
1
1
1
1
1

Sig (p).
OR
,071
1,181
,350
,962
,619
,981
,185
,000
,007
,392
,518
1,100
,027
1,469
,200 390681,50

Int. Conf. 95,0% (OR)


Mnimo
Mximo
,986
1,413
,888
1,043
,910
1,058
,000
97,265
,199
,772
,825
1,466
1,045
2,064

REFERENCIAS BIBLIOGRFICAS

Predicted

Observed
Condicin

Valor Chi
,677
,604

Todos los variables

Model Summary

Step
1

Edad
Edad gestacional
Peso Materno
Talla Materna
N de Hijos
Interv. Intergenesico
N de CPN

Se selecciona el segundo cuadro ya que realiza la


interaccin de riesgo entre las muertes maternas y las
sobrevivientes, mientras que el primero solamente hace
una asociacin simple a la muerte materna sin
comparacin con las sobrevivientes.

Block 1: Method = Enter

Step 1

Variables

95,0% C.I.for EXP(B)


Lower
Upper
,986
1,413
,888
1,043
,910
1,058
,000
97,265
,199
,772
,825
1,466
1,045
2,064

4.

5.

a. Variable(s) entered on step 1: EDAD10, EDADGE21, PESOMA22, TALMAT23, NHJSNV25, ININTE27, NCPN28.

REPORTE FINAL DE REGRESIN LOGSTICA


BINARIA EN SPSS Y SU INTERPRETACIN

6.

Los cuadros marcados se editan en el SPSS y se


escogen las pruebas de acuerdo al anlisis de la
informacin

7.

Recibido: 02/11/2008

8.

Ayaguer S. Excursin a la regresin logstica en


ciencias de la salud. Ed. Daz de Santos. Madrid 1995.
Hosmer D, Lemeshow S, Wiley J. Applied Logistic
Regresin. New York. 1989.
Abraira V, Prez de Vargas A. Mtodos multivariantes en
bioestadstica Ed. Centro de Estudios Ramn Areces.
Madrid. 1996.
Breslow N, Das N. Los mtodos estadsticos en la
investigacin de cncer: el anlisis de estudios del casomando. Lyon, Francia: IARC la Publicacin Cientfica; ;
1981; 1 (32).
Hosmer D, Lemeshow S. La regresin logistica aplicada
(las Series de Wiley en la Probabilidad y la Estadstica
Matemtica. La Probabilidad aplicada y Seccin de la
Estadstica). Nueva York: John Wiley; 1989.
Kleinbaum D, Kupper L, Morgenstern H., Investigacin
Epidemiolgica: los Principios y los mtodos
cuantitativos. Nueva York: Van Nostrand Reinhold; 1982.
Kleinbaum D, Kupper L, Muller K. El anlisis de la
regresin aplicada y otros mtodos multivariantes.
Segunda edicin. Boston: Duxbury Press; 1987.
Kleinbaum D. Las estadsticas en las ciencias de salud:
Logistic regression. Nueva York: Springer-Verlag; 1994.

Aceptado: 06/01/2009

También podría gustarte