Documentos de Académico
Documentos de Profesional
Documentos de Cultura
TFM Luis Gómez Maldonado-U.sevilla
TFM Luis Gómez Maldonado-U.sevilla
de la Salud
Departamento de Medicina Preventiva y Salud Pública
Universidad de Sevilla
ÍNDICE
1. Introducción ......................................................................1
2. Objetivos ............................................................................2
I
Luis Gómez Maldonado Máster en Bioestadística Aplicada en CC. Salud
Trabajo Fin de Máster
II
Luis Gómez Maldonado Máster en Bioestadística Aplicada en CC. Salud
Trabajo Fin de Máster
III
Luis Gómez Maldonado Máster en Bioestadística Aplicada en CC. Salud
Trabajo Fin de Máster
1. Introducción
La hipertensión arterial afecta ya a más del 20% de los individuos de las sociedades
industrializadas, mientras que, a día de hoy, la diabetes está considerada como la enfermedad
endocrina con mayor incidencia entre la población.
La principal finalidad de este Trabajo Final de Máster será la de, a partir de los microdatos de
la Encuesta Nacional de Salud 2011-2012, construir un modelo de regresión logística binaria
de tipo explicativo mediante el que estimaremos la relación de la variable independiente
principal (Haber padecido o no diabetes) y un grupo de posibles factores de riesgo como el
sexo, la edad, tener problemas de sobrepeso, llevar una vida sedentaria, fumar, o beber en
exceso, con la variable dependiente (Haber padecido o no HTA).
También analizaremos qué factores de riesgo son variables confusoras (la asociación entre
dos variables cambia de manera significativa al considerar, o no, otra variable),
1
Luis Gómez Maldonado Máster en Bioestadística Aplicada en CC. Salud
Trabajo Fin de Máster
modificadoras del efecto (en este caso, la asociación varía según los diferentes niveles de otra
u otras variables) o incluso ambas, para después pasar a evaluar la bondad del ajuste del
modelo a los datos observados y acabar con un resumen de las principales conclusiones
extraídas de los resultados obtenidos.
2. Objetivos
El análisis de los datos deberá de estar siempre al servicio de los objetivos del estudio de
investigación, y no al contrario. El primer paso que tendremos que abordar es el de definir de
manera muy clara todo aquello que pretendemos conseguir mediante el trabajo de
investigación, y una vez hecho esto, aplicar los procedimientos de análisis estadístico que
más se adecúen a la consecución de dichos objetivos, especialmente en los análisis
multivariantes, dada la alta probabilidad de encontrar relaciones espurias o de escasa
importancia por no saber cómo explorarlas o por la imprecisión de los datos (error aleatorio).
Dicho esto, pasamos a enumerar los objetivos de este Trabajo Final de Máster:
Objetivo general:
Objetivos específicos:
2
Luis Gómez Maldonado Máster en Bioestadística Aplicada en CC. Salud
Trabajo Fin de Máster
3. Material y método
La secuencia temporal es de tipo transversal ya que los datos de los sujetos incluidos en el
estudio se refieren a un momento de tiempo determinado entre julio de 2011 y junio 2012,
periodo en el que se realizó la recogida de datos para la elaboración de la Encuesta Nacional
de Salud 2011-2012.
Estas características encajan a nuestro estudio dentro de los llamados estudios de asociación
cruzada.
3
Luis Gómez Maldonado Máster en Bioestadística Aplicada en CC. Salud
Trabajo Fin de Máster
4
Luis Gómez Maldonado Máster en Bioestadística Aplicada en CC. Salud
Trabajo Fin de Máster
Diabetes*Sexo.
Las mujeres diabéticas tienen un 34,6% más de riesgo de padecer HTA que los
hombres diabéticos, mientras que en el caso de las personas no diabéticas esta
diferencia es sólo del 5%
Diabetes*IMC.
En el grupo de los obesos, las personas con diabetes tienen 1,6 veces mayor
probabilidad de padecer HTA que los no diabéticos, en tanto que en el grupo de las
personas con sobrepeso, las probabilidades de que los enfermos de diabetes sean
también hipertensos se incrementan en un 54% con respecto a las de los no diabéticos.
IMC*Edad.
Para las personas con edades comprendidas entre 40 y 64 años, las personas con
obesidad tienen 4,4 veces mayor probabilidad de padecer HTA que las personas sin
problemas de sobrepeso, mientras que las personas con sobrepeso tienen 2,5 veces
mayor probabilidad de padecer HTA que las que no lo tienen.
En el grupo de los mayores de 65 años, las probabilidades de que los obesos sufran
también de HTA se incrementan en un 118% con respecto a las de las personas sin
problemas de sobrepeso, en tanto que para las personas con sobrepeso el incremento
es del 52%.
6
Luis Gómez Maldonado Máster en Bioestadística Aplicada en CC. Salud
Trabajo Fin de Máster
7
Luis Gómez Maldonado Máster en Bioestadística Aplicada en CC. Salud
Trabajo Fin de Máster
Además de todos estos, existen otros factores de riesgo que también aumentan las
probabilidades de sufrir hipertensión arterial pero que, lamentablemente, no recoge la
Encuesta Nacional de Salud 2011-2012. Algunos de dichos factores son:
La raza y el grupo étnico: la HTA se presenta con más frecuencia en adultos de raza
negra que en adultos caucásicos o hispanos.
Consumo excesivo de sal.
No consumir suficiente potasio en la alimentación.
Y los antecedentes familiares…
Al estar basado nuestro estudio en los datos relativos a la población adulta de la Encuesta
Nacional de Salud 2011-2012, el instrumento de medida es el cuestionario de adultos (15
años y más) diseñado para la recogida de los datos de dicha encuesta. El cuestionario se
encuentra disponible en el siguiente enlace:
http://www.ine.es/metodologia/t15/ense_adu12.zip
8
Luis Gómez Maldonado Máster en Bioestadística Aplicada en CC. Salud
Trabajo Fin de Máster
9
Luis Gómez Maldonado Máster en Bioestadística Aplicada en CC. Salud
Trabajo Fin de Máster
Aguayo Canela, Mariano; Lora Monge, Estrella. Cómo hacer una Regresión Logística
binaria “paso a paso” (II): análisis multivariante. Fabis. 2007.
http://www.fabis.org/html/archivos/docuweb/regresion_logistica_2r.pdf
Aguayo Canela, Mariano; Lora Monge, Estrella. Confusión e interacción (2): su
abordaje en el análisis multivariante. Fabis. 2007.
http://www.fabis.org/html/archivos/docuweb/Confu_Inter_2r.pdf
http://web.udl.es/Biomath/Bioestadistica/Dossiers/Doctorat/Regresion%20logisti
ca.pdf
www.seh-lelha.org/rlogis1.htm
www.seh-lelha.org/pdf/rlogis2.pdf
www.hrc.es/bioest/Reglog_1.html
www.hrc.es/bioest/Reglog_2.html
10
Luis Gómez Maldonado Máster en Bioestadística Aplicada en CC. Salud
Trabajo Fin de Máster
11
Luis Gómez Maldonado Máster en Bioestadística Aplicada en CC. Salud
Trabajo Fin de Máster
Los modelos de regresión logística binaria son unos modelos estadísticos que se utilizan para
conocer la relación entre una variable dependiente cualitativa dicotómica y una o más
variables explicativas independientes, o covariables, ya sean cualitativas o cuantitativas,
siendo la ecuación inicial del modelo de tipo exponencial, si bien su transformación
logarítmica (logit) permite su uso como una función lineal.
Por sus características, los modelos de regresión logística permiten dos finalidades:
En nuestro caso, ese va a ser también el objetivo a seguir al tratarse de un modelo explicativo
que estima la mejor relación entre las variables independientes (Diabetes, Sexo, Edad,
IMC…) y la variable dependiente HTA con el fin de determinar aquellos factores que
modifican la probabilidad de ser hipertenso.
12
Luis Gómez Maldonado Máster en Bioestadística Aplicada en CC. Salud
Trabajo Fin de Máster
13
Luis Gómez Maldonado Máster en Bioestadística Aplicada en CC. Salud
Trabajo Fin de Máster
En el caso de las variables cuantitativas Edad e IMC, SPSS nos proporciona estos resultados:
La edad media de los sujetos del estudio es de 50,18 años, teniendo el individuo más joven 15
y el mayor 103. Como la mediana es de 49, la mitad de las observaciones estarán por debajo
de esa edad, y la otra mitad por encima. En promedio, los datos se alejan 18,41 años de la
media, y la distribución es asimétrica a la derecha (hay más valores separados de la media a
la derecha que a la izquierda) y platicúrtica (menos apuntada que la normal).
En el caso del IMC la media es 26,04, mientras que el índice más bajo registrado es 13,78 y
el más alto 59,17. La mediana es de 25,53, luego la mitad de los individuos tendrán un IMC
inferior a dicho valor, y la otra mitad superior. En promedio, las observaciones distan 4,5
kg/m2 de la media, y su distribución es asimétrica positiva y leptocúrtica (más apuntada que
la normal).
14
Luis Gómez Maldonado Máster en Bioestadística Aplicada en CC. Salud
Trabajo Fin de Máster
Se descarta que las variables Edad e IMC sigan una distribución normal, tal y como
determinan tanto la prueba de normalidad de Kolmogorov-Smirnov (p-valor < 0,05) como la
observación directa de sus correspondientes histogramas:
Una vez realizados los análisis descriptivos univariantes, pasaremos a explorar la posible
asociación entre la variable dependiente (Haber padecido o no HTA) y la variable
independiente principal o factor en estudio (Haber padecido o no Diabetes) y las de control
(Sexo, Edad, IMC…), medidas en su mayoría como categóricas y tomadas de una en una,
para hacer valoraciones bivariantes.
15
Luis Gómez Maldonado Máster en Bioestadística Aplicada en CC. Salud
Trabajo Fin de Máster
cuadrado, aun sabiendo que pudieran tratarse de estimaciones sesgadas si existiese confusión,
o de estimaciones poco informativas si existiese interacción con terceras variables.
La primera relación que estudiaremos será la existente entre el factor en estudio Diabetes
(codificada con “0” (No la ha padecido) y “1” (Sí la ha padecido)) y la variable dependiente
HTA (codificada de la misma manera).
16
Luis Gómez Maldonado Máster en Bioestadística Aplicada en CC. Salud
Trabajo Fin de Máster
Si nos fijamos en las tablas anteriores, vemos como el factor en estudio Diabetes está
asociado con la variable HTA, siendo la proporción de personas diabéticas con hipertensión
(60,5%) casi tres veces mayor que la que se da entre las no diabéticas (22,9%), (χ2 =
1.242,61; p-valor < 0,05).
La asociación entre las variables Diabetes y HTA es fuerte (OR entre 3 y 10). El valor de la
odds ratio obtenido (5,159) lo interpretamos como que las personas con Diabetes tienen una
probabilidad 5,2 veces mayor que los no diabéticos de padecer hipertensión.
17
Luis Gómez Maldonado Máster en Bioestadística Aplicada en CC. Salud
Trabajo Fin de Máster
El programa SPSS nos muestra unas tablas con las codificaciones de las variables que hemos
introducido, codificaciones que son “internas” o propias del programa. Así, en el caso de la
variable dependiente HTA ha establecido que la categoría “1” es la de “Sí”, es decir,
identifica al grupo de individuos hipertensos, que son los que queremos predecir. Y en el caso
del factor en estudio Diabetes la categoría “0” es “No (No diabético)” y la categoría “1” es
“Sí (Diabético)”.
18
Luis Gómez Maldonado Máster en Bioestadística Aplicada en CC. Salud
Trabajo Fin de Máster
Observamos como la variable Sexo se asocia con la variable HTA, de manera que existe una
mayor proporción de población hipertensa entre las mujeres (28,1%) que entre los hombres
(24,2%), (χ2 = 39,664; p-valor < 0,05).
19
Luis Gómez Maldonado Máster en Bioestadística Aplicada en CC. Salud
Trabajo Fin de Máster
Podemos decir que, en términos globales, la asociación entre las variables Sexo y HTA es
bastante débil (OR entre 1,2 y 1,5), a pesar de ser estadísticamente significativa debido
seguramente al elevado tamaño muestral. Dicho valor de la odds ratio se interpreta como que
las mujeres tienen una probabilidad 1,2 veces mayor que la de los hombres de padecer alguna
vez hipertensión arterial a lo largo de su vida, o sea, prácticamente la misma.
Sigamos con la variable Edad. Al ser la edad una variable numérica, evaluaremos en este
caso su posible relación con la variable HTA a través de una comparación de medias, siempre
que se cumplan las premisas para aplicar las pruebas paramétricas. Alternativamente,
podemos categorizar la edad en una variable cualitativa, tal y como haremos más adelante.
20
Luis Gómez Maldonado Máster en Bioestadística Aplicada en CC. Salud
Trabajo Fin de Máster
La diferencia de medias de edad entre los hipertensos y los no hipertensos es (65,8 – 46,52)
de 19,28 años, y los IC95% de dichas medias en cada grupo están muy lejos de superponerse,
por lo que claramente existen diferencias estadísticamente significativas y por tanto, las
variables Edad y HTA sí van a estar relacionadas en la población.
Por otro lado, las pruebas de normalidad detectan problemas en ambos grupos, por lo que no
podríamos aplicar en sentido estricto los tests paramétricos:
21
Luis Gómez Maldonado Máster en Bioestadística Aplicada en CC. Salud
Trabajo Fin de Máster
No obstante, y dado que el tamaño muestral es tan grande (n > 100) podemos aplicar el test T
de Student, para así obtener una medida de asociación (diferencia de medias) y su intervalo
de confianza correspondiente.
La prueba T viene a corroborar lo que ya establecimos observando los IC95% de las medias de
ambos grupos, existen diferencias significativas entre las edades de los hipertensos y los no
hipertensos, estando comprendida dicha diferencia entre los 18,79 años y los 19,75, luego hay
asociación entre las dos variables.
En este caso, la odds ratio obtenida es 1,07 y el contraste de hipótesis asociado a través del
estadístico de Wald es significativo (p-valor < 0,05). Dicha OR se interpreta como el riesgo
22
Luis Gómez Maldonado Máster en Bioestadística Aplicada en CC. Salud
Trabajo Fin de Máster
que tiene una persona de una determinada edad de padecer hipertensión arterial si la
comparamos con una persona un año más joven, por ejemplo, la probabilidad de que una
persona de 50 años padezca hipertensión es 1,07 veces mayor que la de una persona de 49.
En este caso, la variable R_Edad presenta una clara asociación con la variable HTA, ya que
existe una mayor proporción de población hipertensa entre los grupos de mayor edad (53,4%
para los individuos de 65 años o más) que entre los más jóvenes (24% para el grupo de entre
40 y 64 años, y tan sólo un 4,5% para el grupo de entre 15 y 39 años), con (χ2 = 3.819,834; p-
valor < 0,05).
23
Luis Gómez Maldonado Máster en Bioestadística Aplicada en CC. Salud
Trabajo Fin de Máster
Al haber categorizado la variable original Edad (continua) en una variable cualitativa con tres
grupos, SPSS no nos proporcionará la tabla con la odds ratio, teniendo que para poder
obtener una medida de la fuerza de la asociación entre las variables R_Edad y HTA recurrir a
la Regresión Logística Binaria.
Las dos nuevas variables dummys creadas son R_Edad (1) y R_Edad (2). Hemos establecido
como categoría de referencia el grupo de edades entre 15 y 39 años (con ceros en ambas
variables), luego R_Edad (1) es una variable dicotómica en la que el valor “1” se corresponde
con el grupo entre 40 y 64 años, y R_Edad (2) es otra variable dicotómica en la que se le
asigna el valor “1” a los individuos con 65 años o más.
24
Luis Gómez Maldonado Máster en Bioestadística Aplicada en CC. Salud
Trabajo Fin de Máster
Con las nuevas variables dummys hemos podido obtener su OR al ser dicotómicas, de
manera que podemos concluir diciendo que, en comparación con el grupo de entre 15 y 39
años, tener entre 40 y 64 años multiplica por 6,57 y tener 65 años o más multiplica por 24,12
las probabilidades de padecer hipertensión arterial, siendo en ambos casos el p-valor menor
que 0,05.
Por último, incluiremos en este apartado el análisis detallado de la posible asociación entre la
variable R2_IMC (Índice de Masa Corporal: codificada con “1” (Sin problemas de
sobrepeso), “2” (Sobrepeso) y “3” (Obesidad)) y la variable dependiente HTA.
25
Luis Gómez Maldonado Máster en Bioestadística Aplicada en CC. Salud
Trabajo Fin de Máster
Tal y como se desprende de las tablas anteriores, la variable R2_IMC también presenta
asociación con la variable HTA, ya que existe una mayor proporción de población hipertensa
entre los individuos con obesidad (44,3%) o sobrepeso (29,7%) que entre los que no
presentan problemas de sobrepeso (tan sólo un 12,9% padecen hipertensión), (χ2 = 1.435,432;
p-valor < 0,05).
Al igual que hicimos con la variable Edad, hemos categorizado la variable original IMC
(continua) en una nueva variable cualitativa con tres grupos, R2_IMC, por lo que para medir
la fuerza de la asociación entre las variables R2_IMC y HTA tendremos que utilizar la
Regresión Logística Binaria.
Tras obtener las odds ratio de la tabla anterior podemos concluir que, en comparación con no
tener problemas de sobrepeso, tener sobrepeso multiplica por 2,87 y ser obeso multiplica por
5,38 las probabilidades de padecer hipertensión, resultando en ambos casos la prueba de
Wald significativa (p-valor < 0,05).
26
Luis Gómez Maldonado Máster en Bioestadística Aplicada en CC. Salud
Trabajo Fin de Máster
p-valor IC95% de la OR
Variable independiente β
asociado al OR = e
categórica Inferior Superior
contraste
DIABETES < 0,001 5,159 4,674 5,695
SEXO < 0,001 1,221 1,147 1,299
EDAD (categorizada)
EDAD(1) < 0,001 6,656 5,859 7,561
EDAD(2) < 0,001 24,119 21,215 27,42
IMC (cat.)
IMC(1) < 0,001 2,866 2,643 3,108
IMC(2) < 0,001 5,382 4,905 5,907
FUMA (recodificada)
FUMA(1) 0,509 (NS) 0,974 0,902 1,053
FUMA(2) < 0,001 0,413 0,379 0,45
ACTFISICA (rec.) < 0,001 2,966 2,685 3,276
CMD [Alcohol] (rec.)
CMD(1) < 0,001 1,543 1,447 1,645
CMD(2) 0,011 1,272 1,056 1,533
ANSIDEPRE (rec.)
ANSIDEPRE(1) < 0,001 2,112 1,915 2,329
ANSIDEPRE(2) < 0,001 2,87 2,575 3,198
MEDCOLESTEROL_2SEM < 0,001 5,846 5,376 6,356
27
Luis Gómez Maldonado Máster en Bioestadística Aplicada en CC. Salud
Trabajo Fin de Máster
Como deseamos explorar tanto confusión como modificación de efecto (interacción) en una
asociación, y dado que podrían darse ambos fenómenos de manera simultánea, deberemos de
proceder primero evaluando si existe interacción entre las covariables y, detectada o
descartada ésta, valorar entonces si hay o no confusión.
Comenzaremos este apartado analizando la interacción y la confusión que pueda existir entre
las variables Diabetes y Sexo. Para ello, las introducimos juntas en el modelo (término
Diabetes*Sexo) mediante el botón >a*b> del menú Logística binaria del programa SPSS, así
como las componentes elementales Diabetes y Sexo, que deben entrar también para cumplir
con el principio jerárquico, sin olvidarnos de señalar que ambas variables son categóricas y
que la categoría de referencia es la primera. El resultado final de las variables incluidas en la
ecuación de regresión logística es el que aparece en la siguiente tabla:
Dado que el término de interacción es significativo (p = 0,004 < 0,1), no podemos rechazar1
la existencia de modificación de efecto entre las variables Diabetes y Sexo. También es
estadísticamente significativo el coeficiente de regresión de la variable Diabetes (p < 0,001),
y su OR ajustada por la variable Sexo es 4,432, un 16,4% inferior a la OR bruta (OR =
5,159), luego nos encontramos que Sexo actúa como variable confusora negativa al provocar
la atenuación de la asociación real entre Diabetes y HTA, por lo que debemos considerarla
como parte del modelo.
1
Se dice que hay interacción cuando el término de interacción tiene un coeficiente de regresión cuyo contraste
de hipótesis tiene un p-valor significativo, en general < 0,1
28
Luis Gómez Maldonado Máster en Bioestadística Aplicada en CC. Salud
Trabajo Fin de Máster
En este caso, contamos con dos términos de interacción (relativos a los cruces de las
categorías “Ser diabético/Tener en 40 y 64 años” y “Ser diabético/Tener 65 años o más”), y
aunque solamente resulte significativo el segundo de los términos de interacción (p < 0,1),
consideraremos que existe modificación del efecto entre las variables Diabetes y Edad. Por
otra parte, el coeficiente de regresión de la variable Diabetes es estadísticamente significativo
(p < 0,001), y la OR ajustada por la variable Edad es de 4,026, un 28,14% menor que la OR
bruta, por lo que consideramos que la Edad es variable confusora (negativa), entrando así en
el modelo.
Estudiemos a continuación la interacción y la confusión que pueda existir entre las variables
Diabetes e IMC:
Al igual que en el análisis anterior, contamos con dos términos de interacción (relativos a los
cruces de las categorías “Ser diabético/Tener sobrepeso” y “Ser diabético/Padecer de
obesidad”), resultando ambos significativos (p < 0,1), lo que nos hace concluir que existe
modificación del efecto entre las variables Diabetes e IMC. Nuevamente, es estadísticamente
significativo el coeficiente de regresión de la variable Diabetes (p < 0,001), y la OR ajustada
29
Luis Gómez Maldonado Máster en Bioestadística Aplicada en CC. Salud
Trabajo Fin de Máster
por la variable IMC es de 7,842, un 52,01% mayor que la OR bruta, lo que se interpreta como
que el IMC es variable confusora positiva al haberse hallado una exageración de la asociación
real entre Diabetes y HTA, por lo que también formará parte del modelo.
Para finalizar este apartado, abordaremos el estudio de la interacción y la confusión entre las
variables Diabetes y CMD (Alcohol):
De los dos coeficientes de interacción (relativos a los cruces de las categorías “Ser
diabético/No beber alcohol” y “Ser diabético/Beber de manera excesiva”), ninguno de los dos
resulta estadísticamente significativo (p < 0,1), por lo que podemos descartar que exista
modificación de efecto. Para estudiar si la variable CMD podría causar confusión en la
relación principal que se evalúa, reestimaremos el modelo anterior excluyendo el término de
interacción Diabetes*CMD:
30
Luis Gómez Maldonado Máster en Bioestadística Aplicada en CC. Salud
Trabajo Fin de Máster
Resumimos en la siguiente tabla los resultados obtenidos del análisis de las interacciones y
las confusiones entre el factor en estudio (Diabetes) con cada una de las variables de control:
p-valor
Variación
Interacciones / Confusiones asociado al OR = eβ
OR ajustada
contraste
De dicha tabla se desprende que todas las variables de control, salvo CMD, interactúan con el
factor en estudio (Diabetes), modificando así su efecto sobre la variable dependiente (HTA).
Aunque existan algunos términos de interacción no significativos en las interacciones
31
Luis Gómez Maldonado Máster en Bioestadística Aplicada en CC. Salud
Trabajo Fin de Máster
Por otra parte, hemos descubierto que Sexo, Edad, IMC, ActFisica y MedColesterol_2Sem
son variables confusoras ya que al ser introducidas en el modelo la OR de la variable
principal (Diabetes) cambia en al menos un 10%.
Estos resultados están a la espera de ser validados con la estimación de un nuevo modelo en
el que se introduzcan conjuntamente todas las interacciones y variables confusoras hasta
ahora detectadas.
Procedemos a estimar mediante el procedimiento Intro del programa SPSS el modelo final de
RLM, incluyendo en dicho modelo la variable independiente que queremos controlar,
Diabetes, junto con las posibles variables confusoras y los términos de interacción que hemos
observado estadísticamente significativos:
32
Luis Gómez Maldonado Máster en Bioestadística Aplicada en CC. Salud
Trabajo Fin de Máster
p-valor IC95% de la OR
β
Variables en la ecuación asociado al OR = e
contraste Inferior Superior
33
Luis Gómez Maldonado Máster en Bioestadística Aplicada en CC. Salud
Trabajo Fin de Máster
A continuación, pasamos a reestimar nuestro modelo de RLM incluyendo en esta ocasión las
variables e interacciones marcadas en azul en la tabla resumen anterior, proporcionando
SPSS los siguientes resultados:
p-valor IC95% de la OR
β
Variables en la ecuación asociado al OR = e
contraste Inferior Superior
34
Luis Gómez Maldonado Máster en Bioestadística Aplicada en CC. Salud
Trabajo Fin de Máster
Como puede comprobarse a simple vista, la mayoría de las variables e interacciones incluidas
en el modelo alcanzan la significación estadística, siendo la más dudosa la interacción
Diabetes*Edad al resultar uno de sus coeficientes no significativo (p ≥ 0,1), mientras que la
variable Sexo (NS) permanecerá en el modelo, por el principio jerárquico, al ser significativa
la interacción Diabetes*Sexo.
Ahora bien, este modelo presenta un problema, si nos fijamos en la tabla de la prueba de
Hosmer y Lemeshow, vemos que el test Chi cuadrado de la prueba es significativo (p < 0,05),
lo que nos indica que los resultados predichos son diferentes de los observados, por lo que el
modelo no puede considerarse aceptable.
Para solventar este problema, decidimos incluir una nueva interacción en el modelo, pero en
este caso entre dos variables confusoras, concretamente la interacción IMC*Edad.
Justificamos la incorporación de esta interacción dado que según la Sociedad Española de
Hipertensión-Liga Española para la Lucha contra la Hipertensión Arterial (SEH-LELHA), a
medida que aumenta el peso se elevan las cifras de presión arterial, especialmente en los
menores de 40 años.
35
Luis Gómez Maldonado Máster en Bioestadística Aplicada en CC. Salud
Trabajo Fin de Máster
36
Luis Gómez Maldonado Máster en Bioestadística Aplicada en CC. Salud
Trabajo Fin de Máster
p-valor IC95% de la OR
β
Variables en la ecuación Β asociado al OR = e
contraste Inf. Sup.
La mayoría de las covariables incluidas mantienen la significación estadística (p < 0,05 para
el factor en estudio o las variables confusoras, y p < 0,1 para los términos de interacción) en
el contraste de hipótesis que las relaciona con la variable dependiente HTA, salvo la variable
Sexo que, aun siendo no significativa con un p-valor de 0,251, permanece en el modelo por la
aplicación del principio jerárquico al resultar significativa la interacción entre las variables
Diabetes y Sexo. Tampoco alcanza la significación estadística el primer coeficiente de la
interacción entre IMC y Edad (p-valor = 0,526), lo que no afecta a la entrada de dicha
interacción en el modelo al sí ser significativos sus otros tres coeficientes.
37
Luis Gómez Maldonado Máster en Bioestadística Aplicada en CC. Salud
Trabajo Fin de Máster
Podemos comprobar cómo los valores de OR obtenidos son inferiores a los calculados en el
análisis bivariante, aunque bastante similares en el caso de las variables Sexo e IMC. Estos
valores de OR están ajustados para cada variable y representan una estimación de su fuerza
de asociación con HTA, controladas todas las demás variables incluidas en el modelo.
El modelo, con seis variables y tres interacciones, tiene una capacidad de clasificar
correctamente al 79,3% de los casos analizados, como ilustra la siguiente tabla, aunque
clasifica “bastante mejor” a las personas no hipertensas (92,7%) que a las hipertensas (38%):
38
Luis Gómez Maldonado Máster en Bioestadística Aplicada en CC. Salud
Trabajo Fin de Máster
Siendo
Alternativamente:
En el caso de la ecuación de RL, lo que obtenemos para cada combinación de valores de las
diferentes variables predictoras incluidas en el modelo es una probabilidad, un valor entre 0 y
1, y mediante él cada individuo debe ser clasificado en una de las dos categorías que
establece la variable dependiente, en nuestro caso, “Haber padecido HTA” o “No haber
padecido HTA”. En general, si el valor de probabilidad predicho está entre 0 y 0,5 el
individuo se clasifica como mientras que si la probabilidad calculada es > 0,5 el sujeto
se clasifica como Este punto de corte (0,5) es el asumido por defecto por SPSS, siendo
deseable modificarlo por su valor óptimo, que es aquel que mejora la clasificación del
modelo maximizando la suma de la sensibilidad y la especificidad.
39
Luis Gómez Maldonado Máster en Bioestadística Aplicada en CC. Salud
Trabajo Fin de Máster
Una de las formas de evaluar el modelo es comprobando cómo clasifica a los individuos de la
muestra en comparación con el gold estándar (la realidad, lo observado). SPSS analiza
automáticamente, tras seleccionar las variables del modelo, cuál sería la clasificación de los
individuos del estudio tras aplicar la ecuación obtenida, y crea una tabla 2x2 con los valores
pronosticados y los realmente observados, como hemos visto en el apartado anterior.
Para determinar el punto de corte óptimo, deberemos de obtener la curva ROC, habiendo
guardado previamente los valores de probabilidad pronosticados por el modelo de RL para
cada individuo de la muestra (Botón “Guardar”, opción “Probabilidades”). Con ello se
genera una nueva variable de forma automática, que aparecerá en la ventana de datos con el
nombre PRE_1 (etiqueta: “Probabilidad pronosticada”). Luego hay que ir al procedimiento
Analizar y seleccionar Curva COR…
40
Luis Gómez Maldonado Máster en Bioestadística Aplicada en CC. Salud
Trabajo Fin de Máster
41
Luis Gómez Maldonado Máster en Bioestadística Aplicada en CC. Salud
Trabajo Fin de Máster
De la tabla anterior se desprende que el punto de corte óptimo está en torno al valor 0,2 que
es el que maximiza el índice de Youden. Si reestimamos nuestro modelo considerando dicho
punto de corte, obtendremos una nueva tabla de clasificación:
42
Luis Gómez Maldonado Máster en Bioestadística Aplicada en CC. Salud
Trabajo Fin de Máster
Evaluamos la bondad del ajuste del modelo construido a través del test de Hosmer-
Lemeshow:
43
Luis Gómez Maldonado Máster en Bioestadística Aplicada en CC. Salud
Trabajo Fin de Máster
El test Chi cuadrado de la prueba no es significativo (p-valor = 0,808 ≥ 0,05), lo que nos
indica que no existen motivos para pensar que los resultados predichos sean diferentes de los
observados (o que si hay diferencias pueden explicarse razonablemente debido al azar o a
errores de muestreo), por tanto, el modelo puede considerarse aceptable. Por otra parte, la
tabla de contingencia para la prueba de Hosmer y Lemeshow nos da información adicional
sobre cada categoría de riesgo, de manera que podemos comprobar en qué regiones de la
predicción el modelo se ajusta peor a los datos.
Otras medidas utilizadas para valorar el ajuste del modelo en su conjunto, complementarias a
la prueba de Hosmer-Lemeshow, son la devianza, que corresponde a menos dos veces el
logaritmo neperiano de la verosimilitud, y los coeficientes de determinación R2 de Cox y
Snell y de Nagelkerke, que expresan la proporción (en tanto por uno) de la variabilidad
explicada por el modelo. Un modelo perfecto tendría un valor de la devianza muy pequeño y
un R2 cercano a uno.
44
Luis Gómez Maldonado Máster en Bioestadística Aplicada en CC. Salud
Trabajo Fin de Máster
5. Conclusiones finales
45
Luis Gómez Maldonado Máster en Bioestadística Aplicada en CC. Salud
Trabajo Fin de Máster
Para las personas con edades comprendidas entre 40 y 64 años, las personas con
obesidad tienen 4,4 veces mayor probabilidad de padecer
HTA que las personas sin problemas de sobrepeso, en tanto que las personas con
sobrepeso tienen 2,5 veces mayor probabilidad de padecer
HTA que las que no lo tienen.
En el grupo de los mayores de 65 años, las probabilidades de que los obesos sufran
también de HTA se incrementan en un 118% con respecto a
las de las personas sin problemas de sobrepeso, mientras que para las personas con
sobrepeso esta diferencia es de 1,5 veces con respecto a las
personas que no tienen sobrepeso.
46
Luis Gómez Maldonado Máster en Bioestadística Aplicada en CC. Salud
Trabajo Fin de Máster
47