TFM Luis Gómez Maldonado-U.sevilla

Máster en Bioestadística Aplicada en CC.
de la Salud
Departamento de Medicina Preventiva y Salud Pública
Universidad de Sevilla
Trabajo Fin de Máster

ESTUDIO DE LA RELACIÓN DE LA
HIPERTENSIÓN ARTERIAL CON LA DIABETES Y
OTROS FACTORES DE RIESGO MEDIANTE
REGRESIÓN LOGÍSTICA BINARIA
Luis Gómez Maldonado
Tutor: Juan Polo Padillo

Sevilla, marzo de 2014
Luis Gómez Maldonado Máster en Bioestadística Aplicada en CC. Salud
ÍNDICE
1. Introducción ......................................................................1
2. Objetivos ............................................................................2
3. Material y método .............................................................3

3.1. Tipo de estudio ....................................................................................... 3
3.2. Ámbito del estudio ................................................................................. 4
3.3. Periodo de estudio .................................................................................. 4
3.4. Unidad de análisis .................................................................................. 4
3.5. Variables incluidas en el estudio............................................................ 4
3.5.1. Variable dependiente .......................................................................................................... 4
3.5.2. Variable independiente ....................................................................................................... 4
3.5.3. Variables confusoras .......................................................................................................... 5
3.5.4. Variables modificadoras del efecto..................................................................................... 6
3.5.5. Otras variables de control .................................................................................................. 7
3.5.6. Factores de riesgo no disponibles ...................................................................................... 8
3.6. Instrumentos de medida ......................................................................... 8
3.7. Fuentes de información y Bibliografía .................................................. 9
3.8. Plan de análisis ..................................................................................... 11
3.8.1. Métodos estadísticos utilizados......................................................................................... 11
3.8.2. Justificación de la utilización de dichas técnicas estadísticas.......................................... 12
I
4. Resultados e interpretación de los mismos....................13

4.1. Análisis descriptivos univariantes ....................................................... 13
4.2. Exploración de las asociaciones bivariantes ........................................ 15
4.3. Evaluación de las posibles interacciones o modificaciones de efecto y/o
factores de confusión ............................................................................... 28
4.4. Construcción del modelo de Regresión Logística Múltiple ................ 32
4.5. Evaluación del modelo de Regresión Logística Múltiple .................... 39
5. Conclusiones finales ........................................................45
II
III
1. Introducción
Dos de los principales factores de riesgo cardiovascular, la hipertensión arterial (HTA) y la

diabetes, tienden a estar asociadas con mucha frecuencia debido a la existencia de
mecanismos comunes para ambas enfermedades crónicas.
La hipertensión arterial afecta ya a más del 20% de los individuos de las sociedades
industrializadas, mientras que, a día de hoy, la diabetes está considerada como la enfermedad
endocrina con mayor incidencia entre la población.
Actualmente, el porcentaje de población que sufre de diabetes en el mundo es de entre el 3 y

el 4%. La edad de máxima aparición se sitúa sobre los 60 años, siendo la prevalencia en la
tercera edad de entre un 5 y un 10%, en tanto que en la población infantil la frecuencia es de
1 por cada 500-1.000 niños.
Mediante diversos estudios epidemiológicos se ha podido comprobar que aproximadamente

entre un 40 y un 60% de los diabéticos son también hipertensos. Según datos de la Encuesta
Nacional de Salud 2011-2012, este porcentaje se sitúa en torno al 58% en el caso de la
población residente en España.
Es muy importante el estudio de la asociación hipertensión-diabetes ya que la HTA empeora

y acelera el daño que la diabetes ejerce sobre las arterias, provocando que las personas
hipertensas y diabéticas sufran con mayor frecuencia que las que únicamente padecen
diabetes y mucho más que las sanas, infarto de miocardio, insuficiencia renal, accidentes
vasculares cerebrales (trombosis), enfermedad vascular periférica, etc., que incluso puede
llegar a ocasionar la muerte del paciente.
La principal finalidad de este Trabajo Final de Máster será la de, a partir de los microdatos de
la Encuesta Nacional de Salud 2011-2012, construir un modelo de regresión logística binaria
de tipo explicativo mediante el que estimaremos la relación de la variable independiente
principal (Haber padecido o no diabetes) y un grupo de posibles factores de riesgo como el
sexo, la edad, tener problemas de sobrepeso, llevar una vida sedentaria, fumar, o beber en
exceso, con la variable dependiente (Haber padecido o no HTA).
También analizaremos qué factores de riesgo son variables confusoras (la asociación entre
dos variables cambia de manera significativa al considerar, o no, otra variable),
1
modificadoras del efecto (en este caso, la asociación varía según los diferentes niveles de otra
u otras variables) o incluso ambas, para después pasar a evaluar la bondad del ajuste del
modelo a los datos observados y acabar con un resumen de las principales conclusiones
extraídas de los resultados obtenidos.
2. Objetivos
El análisis de los datos deberá de estar siempre al servicio de los objetivos del estudio de
investigación, y no al contrario. El primer paso que tendremos que abordar es el de definir de
manera muy clara todo aquello que pretendemos conseguir mediante el trabajo de
investigación, y una vez hecho esto, aplicar los procedimientos de análisis estadístico que
más se adecúen a la consecución de dichos objetivos, especialmente en los análisis
multivariantes, dada la alta probabilidad de encontrar relaciones espurias o de escasa
importancia por no saber cómo explorarlas o por la imprecisión de los datos (error aleatorio).
Dicho esto, pasamos a enumerar los objetivos de este Trabajo Final de Máster:
Objetivo general:
 Estudiar la relación entre la hipertensión arterial (HTA) y la diabetes a partir de los

datos de la Encuesta Nacional de Salud 2011-2012.
Objetivos específicos:
 Realizar un análisis descriptivo univariante de las variables presentes en el estudio.

 Explorar las relaciones bivariantes entre las posibles variables predictoras (Diabetes,
Sexo, Edad, IMC…) y la variable dependiente HTA.
 Determinar cómo y en qué medida afectan los siguientes posibles factores de riesgo a
la asociación entre hipertensión y diabetes:
 Sexo (la prevalencia de hipertensión arterial es significativamente inferior en
la mujer que en el varón hasta los 50 años, invirtiéndose esta relación a partir
de dicha edad).
 Edad (la HTA aumenta considerablemente con la edad).
 Tener problemas de sobrepeso u obesidad.
 Hipercolesterolemia.
2
 Consumir alcohol en exceso.

 No realizar suficiente actividad física.
 Fumar.
 Sufrir de estrés y/o ansiedad.
 Construir un modelo de RLM que nos permita obtener una estimación de la odds ratio
entre ambas enfermedades ajustada por aquellos factores de riesgo que sean
confusores o modificadores del efecto.
 Estimar a través de la curva ROC el punto de corte óptimo para el modelo calculado.
 Evaluar la bondad de ajuste del modelo final mediante el test de Hosmer y
Lemeshow, la devianza y los coeficientes de determinación R2 de Cox y Snell y de
Nagelkerke.
3. Material y método
3.1. Tipo de estudio
La finalidad de nuestro estudio es descriptiva pues pretende describir la asociación entre la

hipertensión arterial, la diabetes y el resto de factores de riesgo citados anteriormente (edad,
sexo, tener problemas de sobrepeso…), pero sin llegar a asumir una relación causal entre
dichas variables.
La secuencia temporal es de tipo transversal ya que los datos de los sujetos incluidos en el
estudio se refieren a un momento de tiempo determinado entre julio de 2011 y junio 2012,
periodo en el que se realizó la recogida de datos para la elaboración de la Encuesta Nacional
de Salud 2011-2012.
El estudio es observacional al no ser el factor de estudio controlado en ningún momento por

el investigador, limitándose éste a analizar las respuestas dadas por los sujetos durante la
cumplimentación de los cuestionarios.
Estas características encajan a nuestro estudio dentro de los llamados estudios de asociación
cruzada.
3
3.2. Ámbito del estudio
Se estudiaron los 21.007 individuos de 15 años o más entrevistados mediante el cuestionario

de adultos de la Encuesta Nacional de Salud 2011-2012, que constituyen una muestra
representativa de la población española de dicha edad.
3.3. Periodo de estudio
La recogida de la información de la Encuesta Nacional de Salud 2011-2012 se realizó

mediante entrevista asistida por ordenador (CAPI) o entrevista telefónica entre julio de 2011
y junio de 2012.
3.4. Unidad de análisis
La investigación se dirige al conjunto de personas mayores de 15 años que residen en

viviendas familiares principales.
3.5. Variables incluidas en el estudio
3.5.1. Variable dependiente
 HTA: Haber padecido o no hipertensión arterial.

Variable cualitativa dicotómica codificada con “0” (No ha padecido HTA) y “1” (Sí
ha padecido HTA). Se corresponde con la variable G21a_1 del cuestionario de adulto
de la ENSE 2011-2012.
3.5.2. Variable independiente
 Diabetes: Haber padecido o no diabetes.

Variable cualitativa dicotómica codificada con “0” (No ha padecido diabetes) y “1”
(Sí ha padecido diabetes). Se corresponde con la variable G21a_11 del cuestionario
de adulto de la ENSE 2011-2012.
4
3.5.3. Variables confusoras
Mediante criterios exclusivamente estadísticos hemos detectado los siguientes factores de

confusión en la relación entre HTA y diabetes:
 Sexo: Sexo del individuo entrevistado.

Variable cualitativa dicotómica codificada con “1” (hombre) y “2” (mujer). Se
corresponde con la variable SEXOa del cuestionario de adulto de la ENSE 2011-2012.
La OR ajustada a esta variable (4,432) disminuye un 16,4% en comparación con la
OR bruta entre HTA y diabetes (5,159).
 Edad (categorizada): Edad del individuo entrevistado.
Variable cualitativa con tres categorías codificada con “1” (15-39), “2” (40-64) y “3”
(65 o más). Resulta de la categorización de la variable numérica EDADa en los
grupos especificados. La OR ajustada a esta variable (4,026) disminuye un 28,14% en
comparación con la OR bruta entre HTA y diabetes (5,159).
 IMC (categorizada): Índice de Masa Corporal del individuo entrevistado.
Variable cualitativa con tres categorías codificada con “1” (sin problemas de
sobrepeso), “2” (sobrepeso) y “3” (obesidad). Resulta de la categorización de la
variable calculada mediante la expresión en los grupos
especificados, asignándole los valores “1” cuando el IMC sea inferior a 25, “2”
cuando esté comprendido entre 25 y 30, y “3” cuando resulte superior a 30. La OR
ajustada a esta variable (7,842) se incrementa un 52,01% respecto a la OR bruta entre
HTA y diabetes (5,159).
 ActFisica (recodificada): Frecuencia con la que realiza alguna actividad física en
su tiempo libre.
Variable cualitativa dicotómica codificada con “1” (frecuentemente) y “2” (no
realiza/ocasionalmente). Resulta de la recodificación de la variable cualitativa U129
en los grupos especificados. La OR ajustada a esta variable (6,872) se incrementa un
33,2% respecto a la OR bruta entre HTA y diabetes (5,159).
 MedColesterol_2Sem: Consumo de medicamentos para bajar el colesterol
durante las dos últimas semanas.
Variable cualitativa dicotómica codificada con “0” (no ha consumido) y “1” (sí ha
consumido). Se corresponde con la variable P82_18a del cuestionario de adulto de la
ENSE 2011-2012. La OR ajustada a esta variable (4,287) disminuye un 20,34% en
comparación con la OR bruta entre HTA y diabetes (5,159).
5
3.5.4. Variables modificadoras del efecto
En el modelo final, han resultado significativas las siguientes interacciones:
 Diabetes*Sexo.
Las mujeres diabéticas tienen un 34,6% más de riesgo de padecer HTA que los
hombres diabéticos, mientras que en el caso de las personas no diabéticas esta
diferencia es sólo del 5%
 Diabetes*IMC.
En el grupo de los obesos, las personas con diabetes tienen 1,6 veces mayor
probabilidad de padecer HTA que los no diabéticos, en tanto que en el grupo de las
personas con sobrepeso, las probabilidades de que los enfermos de diabetes sean
también hipertensos se incrementan en un 54% con respecto a las de los no diabéticos.
 IMC*Edad.
Para las personas con edades comprendidas entre 40 y 64 años, las personas con
obesidad tienen 4,4 veces mayor probabilidad de padecer HTA que las personas sin
problemas de sobrepeso, mientras que las personas con sobrepeso tienen 2,5 veces
mayor probabilidad de padecer HTA que las que no lo tienen.
En el grupo de los mayores de 65 años, las probabilidades de que los obesos sufran
también de HTA se incrementan en un 118% con respecto a las de las personas sin
problemas de sobrepeso, en tanto que para las personas con sobrepeso el incremento
es del 52%.
6
3.5.5. Otras variables de control
Además de las variables confusoras y las interacciones descritas, también se ha estudiado el

efecto de los siguientes factores de riesgo sobre la relación entre la HTA y la diabetes:
 Fuma (recodificada): ¿Fuma actualmente?

Variable cualitativa con tres categorías codificada con “1” (no ha fumado nunca), “2”
(ex-fumador) y “3” (fumador). Resulta de la recodificación de la variable S105 en los
grupos especificados. La OR ajustada a esta variable (5,104) disminuye en apenas un
1% en comparación con la OR bruta entre HTA y diabetes (5,159).
 CMD (categorizada): Consumo medio diario de alcohol semanal (de lunes a
domingo).
Variable cualitativa con tres categorías codificada con “1” (consumo moderado), “2”
(no consume alcohol) y “3” (consumo excesivo). Resulta de la categorización de la
variable calculada mediante la expresión en los grupos especificados,
asignándole los valores “1” cuando el CMD sea inferior a 30 gramos de alcohol puro,
“2” cuando sea 0, y “3” cuando resulte superior a 30 gramos, en el caso de los
hombres; mientras que para las mujeres, se asignará “1” cuando el CMD esté por
debajo de 20 gramos de alcohol puro, “2” cuando sea 0, y “3” cuando esté por encima
de 20 gramos. La OR ajustada a esta variable (4,783) disminuye un 7,86% respecto a
la OR bruta entre HTA y diabetes (5,159), por lo que al ser dicha variación inferior a
un 10%, no será considerada la variable CMD como factor de confusión.
 AnsiDepre (recodificada): Ansiedad, depresión.
Variable cualitativa con tres categorías codificada con “1” (ni ansioso ni depresivo),
“2” (ansiedad o depresión leve) y “3” (ansiedad o depresión moderada/elevada).
Resulta de la recodificación de la variable I26.5 en los grupos especificados. La OR
ajustada a esta variable (4,924) disminuye un 4,77% en comparación con la OR bruta
entre HTA y diabetes (5,159).
7
3.5.6. Factores de riesgo no disponibles
Además de todos estos, existen otros factores de riesgo que también aumentan las
probabilidades de sufrir hipertensión arterial pero que, lamentablemente, no recoge la
Encuesta Nacional de Salud 2011-2012. Algunos de dichos factores son:
 La raza y el grupo étnico: la HTA se presenta con más frecuencia en adultos de raza
negra que en adultos caucásicos o hispanos.
 Consumo excesivo de sal.
 No consumir suficiente potasio en la alimentación.
 Y los antecedentes familiares…
3.6. Instrumentos de medida
Al estar basado nuestro estudio en los datos relativos a la población adulta de la Encuesta
Nacional de Salud 2011-2012, el instrumento de medida es el cuestionario de adultos (15
años y más) diseñado para la recogida de los datos de dicha encuesta. El cuestionario se
encuentra disponible en el siguiente enlace:
http://www.ine.es/metodologia/t15/ense_adu12.zip
8
3.7. Fuentes de información y Bibliografía
A continuación, un listado con las principales fuentes de información consultadas para la

elaboración de nuestro estudio:
 Microdatos de la Encuesta Nacional de Salud 2011-2012. Ministerio de Sanidad,

Servicios Sociales e Igualdad. Instituto Nacional de Estadística. 2013.
http://www.ine.es/prodyser/micro_ensalud.htm
 Rotaeche del Campo R., Aguirrezabala Jaca J., Balagué Gea L., Gorroñogoitia Iturbe
A., Idarreta Mendiola I., Mariñelarena Mañeru E., Mozo Avellaned C., Ruiz de
Velasco Artaza E., Torcal Laguna J. Guía de Práctica Clínica sobre Hipertensión
Arterial (actualización 2007). Osakidetza. GPC. Vitoria-Gasteiz. 2008.
http://www9.euskadi.net/sanidad/osteba/datos/gpc_07-3.pdf
 Giuseppe Mancia, Guy De Backer, Anna Dominiczak, Renata Cifkova, Robert
Fagard, Giuseppe Germano, Guido Grassi, Anthony M. Heagerty, Sverre E. Kjeldsen,
Stephane Laurent, Krzysztof Narkiewicz, Luis Ruilope, Andrzej Rynkiewicz, Roland
E. Schmieder, Harry A.J. Struijker Boudier y Alberto Zanchetti. Guías de práctica
clínica para el tratamiento de la hipertensión arterial. Sociedad Europea de
Hipertensión (ESH) y Sociedad Europea de Cardiología (ESC). 2007.
http://www.revespcardiol.org/es/pdf/13109650/S300/
 NICE clinical guideline 127. Hypertension: clinical management of primary
hypertension in adults. National Institute for Health and Care Excellence (UK). 2011.
http://www.nice.org.uk/nicemedia/live/13561/56008/56008.pdf
 Sitio web de la Asociación de la Sociedad Española de Hipertensión - Liga Española
para la lucha contra la hipertensión arterial (SEH-LELHA).
http://www.seh-lelha.org/
 Portal del Club del Hipertenso (SEH-LELHA). http://www.clubdelhipertenso.es/
 Sitio web sobre la Hipertensión Arterial del Instituto Nacional del Corazón, los
Pulmones y la Sangre de los Estados Unidos (NHLBI).
http://www.nhlbi.nih.gov/health-spanish/health-topics/temas/hbp/
 Argimón Pallás, Josep María; Jiménez Villa, Josep. Métodos de investigación clínica
y epidemiológica. Tercera edición. Madrid: Elsevier España; 2004.
 Hosmer DW, Lemeshow S. Applied logistic regression. Second edition. New York:
John Wiley & Sons; 2000.
9
 Aguayo Canela, Mariano; Lora Monge, Estrella. Cómo hacer una Regresión Logística
binaria “paso a paso” (II): análisis multivariante. Fabis. 2007.
http://www.fabis.org/html/archivos/docuweb/regresion_logistica_2r.pdf
 Aguayo Canela, Mariano; Lora Monge, Estrella. Confusión e interacción (2): su
abordaje en el análisis multivariante. Fabis. 2007.
http://www.fabis.org/html/archivos/docuweb/Confu_Inter_2r.pdf
 http://web.udl.es/Biomath/Bioestadistica/Dossiers/Doctorat/Regresion%20logisti
ca.pdf
 www.seh-lelha.org/rlogis1.htm
 www.seh-lelha.org/pdf/rlogis2.pdf
 www.hrc.es/bioest/Reglog_1.html
 www.hrc.es/bioest/Reglog_2.html
10
3.8. Plan de análisis
3.8.1. Métodos estadísticos utilizados
 Análisis descriptivos univariantes:

 Medidas de resumen de las variables numéricas Edad e IMC:
 Medidas de posición central: media aritmética, mediana.
 Medidas de dispersión: mínimo, máximo, rango, desviación típica,
rango intercuartílico.
 Medidas de forma: asimetría, curtosis.
 Medidas de resumen de las variables cualitativas:
 Proporción y porcentaje.
 Histogramas de frecuencias de las variables numéricas Edad e IMC.
 Inferencia estadística:
 Estimación de las proporciones por intervalos de confianza.
 Contrastes de hipótesis:
 Prueba T de igualdad de medias para muestras independientes.
 Prueba de Levene para la igualdad de varianzas.
 Pruebas no paramétricas:
 Prueba de normalidad de Kolmogorov-Smirnov.
 Análisis de tablas de contingencia:
 Contraste chi-cuadrado de independencia.
 Medida de la fuerza de la asociación: Odds ratio (OR).
 Regresión logística binaria:
 Medida de la fuerza de la asociación: OR, OR ajustada, I.C. de la OR.
 Evaluación de las posibles interacciones y/o factores de confusión.
 Construcción del modelo de Regresión Logística Multivariante.
 Evaluación del modelo de Regresión Logística Multivariante:
 Curva ROC: determinación del punto de corte óptimo mediante el
índice de Youden.
 Sensibilidad, especificidad y porcentaje global correctamente
clasificado.
 Prueba de Hosmer y Lemeshow.
 Devianza, R2 de Cox y Snell y de Nagelkerke.
11
3.8.2. Justificación de la utilización de dichas técnicas estadísticas
Los modelos de regresión logística binaria son unos modelos estadísticos que se utilizan para
conocer la relación entre una variable dependiente cualitativa dicotómica y una o más
variables explicativas independientes, o covariables, ya sean cualitativas o cuantitativas,
siendo la ecuación inicial del modelo de tipo exponencial, si bien su transformación
logarítmica (logit) permite su uso como una función lineal.
Por sus características, los modelos de regresión logística permiten dos finalidades:
 Cuantificar la importancia de la relación existente entre cada una de las covariables y

la variable dependiente, lo que lleva implícito también clarificar la existencia de
interacción y confusión entre covariables respecto a la variable dependiente (es decir,
conocer la odds ratio para cada covariable).
 Clasificar individuos dentro de las categorías (presente/ausente) de la variable
dependiente, según la probabilidad que tenga de pertenecer a una de ellas dada la
presencia de determinadas covariables.
La regresión logística es una de las herramientas estadísticas más utilizadas en el análisis de

datos en investigación clínica y epidemiológica, siendo el objetivo principal de esta técnica el
de modelizar la influencia que tiene la presencia o no de determinados factores y el valor o
nivel de los mismos sobre la probabilidad de aparición de un suceso, habitualmente
dicotómico.
En nuestro caso, ese va a ser también el objetivo a seguir al tratarse de un modelo explicativo
que estima la mejor relación entre las variables independientes (Diabetes, Sexo, Edad,
IMC…) y la variable dependiente HTA con el fin de determinar aquellos factores que
modifican la probabilidad de ser hipertenso.
12
4. Resultados e interpretación de los mismos
4.1. Análisis descriptivos univariantes
Comenzaremos el apartado de resultados con un resumen del estudio descriptivo univariante

del conjunto de variables presentes en nuestro trabajo, tal y como ilustra la siguiente tabla en
relación a las variables cualitativas:
IC95% del porcentaje

Característica de interés Porcentaje (%)
Inferior Superior
Hipertensos 26,24 25,65 26,83

Diabéticos 8,90 8,51 9,29
Hombres 45,93 45,26 46,60
Mujeres 54,07 53,40 54,74
15 – 39 años 30,58 29,96 31,20
40 – 64 años 41,36 40,69 42,03
65 años o más 28,07 27,46 28,68
Sin sobrepeso 41,01 40,34 41,68
Sobrepeso 33,83 33,19 34,47
Obesidad 15,93 0,1544 16,42
Bebe con moderación 42,58 41,91 43,25
No bebe alcohol 54,43 53,76 55,10
Bebe alcohol en exceso 2,99 2,76 3,22
No realiza actividad física o
80,81 80,28 81,34
lo hace ocasionalmente
No fumadores 54,68 0,54 0,554
Ex-fumadores 19,90 19,36 20,44
Fumadores 25,31 24,72 25,90
Sin ansiedad ni depresión 83,62 83,12 84,12
Ansiedad o depresión leve 9,27 8,88 9,66
Ansiedad o depresión
7,02 6,67 7,37
moderada/elevada
13
En el caso de las variables cuantitativas Edad e IMC, SPSS nos proporciona estos resultados:
Descriptivos Edad IMC
Media 50,18 26,04

Límite inferior 49,92 25,97
IC95% para la media
Límite superior 50,45 26,1
Mediana 49 25,53
Desviación típica 18,41 4,5
Mínimo 15 13,78
Máximo 103 59,17
Rango 88 45,39
Rango intercuartílico 28 5,69
Asimetría 0,181 0,839
Curtosis -0,803 1,713
La edad media de los sujetos del estudio es de 50,18 años, teniendo el individuo más joven 15
y el mayor 103. Como la mediana es de 49, la mitad de las observaciones estarán por debajo
de esa edad, y la otra mitad por encima. En promedio, los datos se alejan 18,41 años de la
media, y la distribución es asimétrica a la derecha (hay más valores separados de la media a
la derecha que a la izquierda) y platicúrtica (menos apuntada que la normal).
En el caso del IMC la media es 26,04, mientras que el índice más bajo registrado es 13,78 y
el más alto 59,17. La mediana es de 25,53, luego la mitad de los individuos tendrán un IMC
inferior a dicho valor, y la otra mitad superior. En promedio, las observaciones distan 4,5
kg/m2 de la media, y su distribución es asimétrica positiva y leptocúrtica (más apuntada que
la normal).
14
Mediante los histogramas, corroboraremos visualmente la asimetría y la curtosis de ambas

distribuciones:
Se descarta que las variables Edad e IMC sigan una distribución normal, tal y como
determinan tanto la prueba de normalidad de Kolmogorov-Smirnov (p-valor < 0,05) como la
observación directa de sus correspondientes histogramas:
4.2. Exploración de las asociaciones bivariantes
Una vez realizados los análisis descriptivos univariantes, pasaremos a explorar la posible
asociación entre la variable dependiente (Haber padecido o no HTA) y la variable
independiente principal o factor en estudio (Haber padecido o no Diabetes) y las de control
(Sexo, Edad, IMC…), medidas en su mayoría como categóricas y tomadas de una en una,
para hacer valoraciones bivariantes.
El objetivo de esta exploración preliminar es el de tener una primera aproximación a la

estimación de la medida de la asociación, la odds ratio (OR), clasificando a las variables
según el valor de esta medida y de su significación estadística en el contraste de hipótesis Chi
15
cuadrado, aun sabiendo que pudieran tratarse de estimaciones sesgadas si existiese confusión,
o de estimaciones poco informativas si existiese interacción con terceras variables.
Exploraremos las asociaciones bivariantes mediante el análisis de las tablas de contingencia,

para a continuación realizar el análisis de Regresión Logística Binaria, para comprobar cómo
se distribuyen los individuos en las diferentes categorías, establecer claramente la categoría
de referencia (categoría basal) y observar cómo se obtienen los mismos resultados por ambos
métodos.
La primera relación que estudiaremos será la existente entre el factor en estudio Diabetes
(codificada con “0” (No la ha padecido) y “1” (Sí la ha padecido)) y la variable dependiente
HTA (codificada de la misma manera).
16
Si nos fijamos en las tablas anteriores, vemos como el factor en estudio Diabetes está
asociado con la variable HTA, siendo la proporción de personas diabéticas con hipertensión
(60,5%) casi tres veces mayor que la que se da entre las no diabéticas (22,9%), (χ2 =
1.242,61; p-valor < 0,05).
La asociación entre las variables Diabetes y HTA es fuerte (OR entre 3 y 10). El valor de la
odds ratio obtenido (5,159) lo interpretamos como que las personas con Diabetes tienen una
probabilidad 5,2 veces mayor que los no diabéticos de padecer hipertensión.
Realicemos el correspondiente análisis de Regresión Logística Binaria:
17
El programa SPSS nos muestra unas tablas con las codificaciones de las variables que hemos
introducido, codificaciones que son “internas” o propias del programa. Así, en el caso de la
variable dependiente HTA ha establecido que la categoría “1” es la de “Sí”, es decir,
identifica al grupo de individuos hipertensos, que son los que queremos predecir. Y en el caso
del factor en estudio Diabetes la categoría “0” es “No (No diabético)” y la categoría “1” es
“Sí (Diabético)”.
El resultado final muestra el coeficiente β de la variable Diabetes (1,641), su error típico o

estándar (E.T. = 0,05), el estadístico de Wald del contraste de hipótesis (siendo H0: β = 0), los
grados de libertad (gl = 1) y el valor p asociado al contraste (Sig. = 0,000). Seguidamente
aparece Exp(β), que se corresponde con la OR de la variable analizada (Diabetes) con la
dependiente predicha (HTA), y que como podemos comprobar proporciona un resultado
idéntico al obtenido mediante el procedimiento “Tablas de contingencia”: 5,159 con un IC95%
entre 4,674 y 5,695.
De forma similar procedemos a explorar la asociación entre otras variables presumiblemente

predictoras o de control y nuestra variable dependiente, empezando a analizar lo que ocurre
con la relación entre la variable Sexo (codificada con “1” (hombre) y “2” (mujer)) y la
variable dependiente HTA.
18
Observamos como la variable Sexo se asocia con la variable HTA, de manera que existe una
mayor proporción de población hipertensa entre las mujeres (28,1%) que entre los hombres
(24,2%), (χ2 = 39,664; p-valor < 0,05).
19
Podemos decir que, en términos globales, la asociación entre las variables Sexo y HTA es
bastante débil (OR entre 1,2 y 1,5), a pesar de ser estadísticamente significativa debido
seguramente al elevado tamaño muestral. Dicho valor de la odds ratio se interpreta como que
las mujeres tienen una probabilidad 1,2 veces mayor que la de los hombres de padecer alguna
vez hipertensión arterial a lo largo de su vida, o sea, prácticamente la misma.
Veamos ahora que saldría a través de una Regresión Logística Binaria…
La tabla anterior muestra el coeficiente de regresión β de la variable Sexo (0,199), su error

típico, el estadístico de Wald del contraste de hipótesis H0: β = 0, los grados de libertad y el
p-valor asociado al contraste (< 0,05). También nos aparece la columna Exp(β), que se
corresponde con la odds ratio de la variable Sexo con la dependiente predicha HTA, y con
idéntico resultado al obtenido mediante el procedimiento “Tablas de contingencia”, junto con
su intervalo de confianza al 95% (1,147, 1,299).
Sigamos con la variable Edad. Al ser la edad una variable numérica, evaluaremos en este
caso su posible relación con la variable HTA a través de una comparación de medias, siempre
que se cumplan las premisas para aplicar las pruebas paramétricas. Alternativamente,
podemos categorizar la edad en una variable cualitativa, tal y como haremos más adelante.
Lo primero que haremos será realizar un análisis descriptivo de la variable Edad

considerando los grupos establecidos por la variable HTA (No/Sí), utilizando para ello el
procedimiento Explorar del programa SPSS:
20
La diferencia de medias de edad entre los hipertensos y los no hipertensos es (65,8 – 46,52)
de 19,28 años, y los IC95% de dichas medias en cada grupo están muy lejos de superponerse,
por lo que claramente existen diferencias estadísticamente significativas y por tanto, las
variables Edad y HTA sí van a estar relacionadas en la población.
Por otro lado, las pruebas de normalidad detectan problemas en ambos grupos, por lo que no
podríamos aplicar en sentido estricto los tests paramétricos:
21
No obstante, y dado que el tamaño muestral es tan grande (n > 100) podemos aplicar el test T
de Student, para así obtener una medida de asociación (diferencia de medias) y su intervalo
de confianza correspondiente.
La prueba T viene a corroborar lo que ya establecimos observando los IC95% de las medias de
ambos grupos, existen diferencias significativas entre las edades de los hipertensos y los no
hipertensos, estando comprendida dicha diferencia entre los 18,79 años y los 19,75, luego hay
asociación entre las dos variables.
Si exploramos dicha asociación mediante una regresión logística simple, introduciendo

directamente la variable Edad como independiente y no categórica, el resultado sería:
En este caso, la odds ratio obtenida es 1,07 y el contraste de hipótesis asociado a través del
estadístico de Wald es significativo (p-valor < 0,05). Dicha OR se interpreta como el riesgo
22
que tiene una persona de una determinada edad de padecer hipertensión arterial si la
comparamos con una persona un año más joven, por ejemplo, la probabilidad de que una
persona de 50 años padezca hipertensión es 1,07 veces mayor que la de una persona de 49.
Con el fin de ganar en eficiencia y claridad en la interpretación categorizaremos la variable

Edad en otra variable nueva de tipo cualitativo, R_Edad. Para esta nueva variable
consideraremos tres intervalos de edad, de 15 a 39 años, de 40 a 64 y de 65 años o más.
Dicho esto, pasemos a estudiar la asociación entre la variable categorizada R_Edad
(codificada con “1” (15-39), “2” (40-64) y “3” (65 o más)) y la variable dependiente HTA.
En este caso, la variable R_Edad presenta una clara asociación con la variable HTA, ya que
existe una mayor proporción de población hipertensa entre los grupos de mayor edad (53,4%
para los individuos de 65 años o más) que entre los más jóvenes (24% para el grupo de entre
40 y 64 años, y tan sólo un 4,5% para el grupo de entre 15 y 39 años), con (χ2 = 3.819,834; p-
valor < 0,05).
23
Al haber categorizado la variable original Edad (continua) en una variable cualitativa con tres
grupos, SPSS no nos proporcionará la tabla con la odds ratio, teniendo que para poder
obtener una medida de la fuerza de la asociación entre las variables R_Edad y HTA recurrir a
la Regresión Logística Binaria.
Al introducir la variable R_Edad con tres categorías, SPSS la convierte automáticamente en

otras dos variables dicotómicas dummys, para poder así calcular la odds ratio de cada
categoría frente a la de referencia (15 – 39):
Las dos nuevas variables dummys creadas son R_Edad (1) y R_Edad (2). Hemos establecido
como categoría de referencia el grupo de edades entre 15 y 39 años (con ceros en ambas
variables), luego R_Edad (1) es una variable dicotómica en la que el valor “1” se corresponde
con el grupo entre 40 y 64 años, y R_Edad (2) es otra variable dicotómica en la que se le
asigna el valor “1” a los individuos con 65 años o más.
24
Con las nuevas variables dummys hemos podido obtener su OR al ser dicotómicas, de
manera que podemos concluir diciendo que, en comparación con el grupo de entre 15 y 39
años, tener entre 40 y 64 años multiplica por 6,57 y tener 65 años o más multiplica por 24,12
las probabilidades de padecer hipertensión arterial, siendo en ambos casos el p-valor menor
que 0,05.
Por último, incluiremos en este apartado el análisis detallado de la posible asociación entre la
variable R2_IMC (Índice de Masa Corporal: codificada con “1” (Sin problemas de
sobrepeso), “2” (Sobrepeso) y “3” (Obesidad)) y la variable dependiente HTA.
25
Tal y como se desprende de las tablas anteriores, la variable R2_IMC también presenta
asociación con la variable HTA, ya que existe una mayor proporción de población hipertensa
entre los individuos con obesidad (44,3%) o sobrepeso (29,7%) que entre los que no
presentan problemas de sobrepeso (tan sólo un 12,9% padecen hipertensión), (χ2 = 1.435,432;
p-valor < 0,05).
Al igual que hicimos con la variable Edad, hemos categorizado la variable original IMC
(continua) en una nueva variable cualitativa con tres grupos, R2_IMC, por lo que para medir
la fuerza de la asociación entre las variables R2_IMC y HTA tendremos que utilizar la
Regresión Logística Binaria.
Tras obtener las odds ratio de la tabla anterior podemos concluir que, en comparación con no
tener problemas de sobrepeso, tener sobrepeso multiplica por 2,87 y ser obeso multiplica por
5,38 las probabilidades de padecer hipertensión, resultando en ambos casos la prueba de
Wald significativa (p-valor < 0,05).
26
Y así, seguiremos explorando todas y cada una de las variables independientes o

presumiblemente predictoras de la variable respuesta (HTA), obteniendo al final el siguiente
cuadro resumen en el que se muestran todas las medidas de asociación encontradas y los p-
valores para cada contraste:
p-valor IC95% de la OR
Variable independiente β
asociado al OR = e
categórica Inferior Superior
contraste
DIABETES < 0,001 5,159 4,674 5,695
SEXO < 0,001 1,221 1,147 1,299
EDAD (categorizada)
EDAD(1) < 0,001 6,656 5,859 7,561
EDAD(2) < 0,001 24,119 21,215 27,42
IMC (cat.)
IMC(1) < 0,001 2,866 2,643 3,108
IMC(2) < 0,001 5,382 4,905 5,907
FUMA (recodificada)
FUMA(1) 0,509 (NS) 0,974 0,902 1,053
FUMA(2) < 0,001 0,413 0,379 0,45
ACTFISICA (rec.) < 0,001 2,966 2,685 3,276
CMD [Alcohol] (rec.)
CMD(1) < 0,001 1,543 1,447 1,645
CMD(2) 0,011 1,272 1,056 1,533
ANSIDEPRE (rec.)
ANSIDEPRE(1) < 0,001 2,112 1,915 2,329
ANSIDEPRE(2) < 0,001 2,87 2,575 3,198
MEDCOLESTEROL_2SEM < 0,001 5,846 5,376 6,356
p-valor IC95% de la diferencia de

Variable independiente Diferencia medias
asociado al
numérica de medias
contraste Inferior Superior
EDAD < 0,001 19,273 18,792 19,753

IMC < 0,001 2,984 2,834 3,134
27
4.3. Evaluación de las posibles interacciones o modificaciones de efecto y/o

factores de confusión
Como deseamos explorar tanto confusión como modificación de efecto (interacción) en una
asociación, y dado que podrían darse ambos fenómenos de manera simultánea, deberemos de
proceder primero evaluando si existe interacción entre las covariables y, detectada o
descartada ésta, valorar entonces si hay o no confusión.
Comenzaremos este apartado analizando la interacción y la confusión que pueda existir entre
las variables Diabetes y Sexo. Para ello, las introducimos juntas en el modelo (término
Diabetes*Sexo) mediante el botón >a*b> del menú Logística binaria del programa SPSS, así
como las componentes elementales Diabetes y Sexo, que deben entrar también para cumplir
con el principio jerárquico, sin olvidarnos de señalar que ambas variables son categóricas y
que la categoría de referencia es la primera. El resultado final de las variables incluidas en la
ecuación de regresión logística es el que aparece en la siguiente tabla:
Dado que el término de interacción es significativo (p = 0,004 < 0,1), no podemos rechazar1
la existencia de modificación de efecto entre las variables Diabetes y Sexo. También es
estadísticamente significativo el coeficiente de regresión de la variable Diabetes (p < 0,001),
y su OR ajustada por la variable Sexo es 4,432, un 16,4% inferior a la OR bruta (OR =
5,159), luego nos encontramos que Sexo actúa como variable confusora negativa al provocar
la atenuación de la asociación real entre Diabetes y HTA, por lo que debemos considerarla
como parte del modelo.
1
Se dice que hay interacción cuando el término de interacción tiene un coeficiente de regresión cuyo contraste
de hipótesis tiene un p-valor significativo, en general < 0,1
28
Veamos qué ocurre entre las variables Diabetes y Edad:
En este caso, contamos con dos términos de interacción (relativos a los cruces de las
categorías “Ser diabético/Tener en 40 y 64 años” y “Ser diabético/Tener 65 años o más”), y
aunque solamente resulte significativo el segundo de los términos de interacción (p < 0,1),
consideraremos que existe modificación del efecto entre las variables Diabetes y Edad. Por
otra parte, el coeficiente de regresión de la variable Diabetes es estadísticamente significativo
(p < 0,001), y la OR ajustada por la variable Edad es de 4,026, un 28,14% menor que la OR
bruta, por lo que consideramos que la Edad es variable confusora (negativa), entrando así en
el modelo.
Estudiemos a continuación la interacción y la confusión que pueda existir entre las variables
Diabetes e IMC:
Al igual que en el análisis anterior, contamos con dos términos de interacción (relativos a los
cruces de las categorías “Ser diabético/Tener sobrepeso” y “Ser diabético/Padecer de
obesidad”), resultando ambos significativos (p < 0,1), lo que nos hace concluir que existe
modificación del efecto entre las variables Diabetes e IMC. Nuevamente, es estadísticamente
significativo el coeficiente de regresión de la variable Diabetes (p < 0,001), y la OR ajustada
29
por la variable IMC es de 7,842, un 52,01% mayor que la OR bruta, lo que se interpreta como
que el IMC es variable confusora positiva al haberse hallado una exageración de la asociación
real entre Diabetes y HTA, por lo que también formará parte del modelo.
Para finalizar este apartado, abordaremos el estudio de la interacción y la confusión entre las
variables Diabetes y CMD (Alcohol):
De los dos coeficientes de interacción (relativos a los cruces de las categorías “Ser
diabético/No beber alcohol” y “Ser diabético/Beber de manera excesiva”), ninguno de los dos
resulta estadísticamente significativo (p < 0,1), por lo que podemos descartar que exista
modificación de efecto. Para estudiar si la variable CMD podría causar confusión en la
relación principal que se evalúa, reestimaremos el modelo anterior excluyendo el término de
interacción Diabetes*CMD:
El coeficiente de regresión de la variable Diabetes es estadísticamente significativo (p <

0,001), y su OR ajustada por la variable CMD es 4,945, un 4,33% inferior a la OR bruta
(variación de la OR bruta < 10%), por lo que el consumo medio diario de alcohol no causa
confusión en la asociación real entre Diabetes y HTA, quedándose así fuera del modelo.
30
Resumimos en la siguiente tabla los resultados obtenidos del análisis de las interacciones y
las confusiones entre el factor en estudio (Diabetes) con cada una de las variables de control:
p-valor
Variación
Interacciones / Confusiones asociado al OR = eβ
OR ajustada
contraste
DIABETES < 0,001 5,159 -

DIABETES / SEXO < 0,001 4,432 -16,4%
DIABETES(1)*SEXO(1) 0,004 1,336
DIABETES / EDAD < 0,001 4,026 -28,14%
DIABETES(1)*EDAD(1) 0,767 (NS) 1,103
DIABETES(1)*EDAD(2) 0,029 0,49
DIABETES / IMC < 0,001 7,842 +52,01%
DIABETES(1)*IMC(1) < 0,001 0,444
DIABETES(1)*IMC(2) < 0,001 0,42
DIABETES / FUMA < 0,001 5,104 -1,08% (NC)
DIABETES(1)*FUMA(1) 0,089 0,816
DIABETES(1)*FUMA(2) 0,956 (NS) 0,992
DIABETES / ACTFISICA < 0,001 6,872 +33,2%
DIABETES(1)*ACTFISICA(1) 0,043 0,665
DIABETES / CMD < 0,001 4,783 -7,86% (NC)
DIABETES(1)*CMD(1) 0,69 (NS) 1,045
DIABETES(1)*CMD(2) 0,606 (NS) 1,188
DIABETES / ANSIDEPRE < 0,001 4,924 -4,77% (NC)
DIABETES(1)*ANSIDEPRE(1) 0,751 (NS) 1,051
DIABETES(1)*ANSIDEPRE(2) 0,042 0,724
DIABETES / MEDCOLESTEROL < 0,001 4,287 -20,34%
DIABETES(1)*MEDCOLESTEROL(1) < 0,001 0,545
De dicha tabla se desprende que todas las variables de control, salvo CMD, interactúan con el
factor en estudio (Diabetes), modificando así su efecto sobre la variable dependiente (HTA).
Aunque existan algunos términos de interacción no significativos en las interacciones
31
Diabetes*Edad, Diabetes*Fuma y Diabetes*AnsiDepre, la presencia de al menos un término

de interacción estadísticamente significativo nos hace ya aceptar que se produzca interacción
entre las variables en cuestión.
Por otra parte, hemos descubierto que Sexo, Edad, IMC, ActFisica y MedColesterol_2Sem
son variables confusoras ya que al ser introducidas en el modelo la OR de la variable
principal (Diabetes) cambia en al menos un 10%.
Estos resultados están a la espera de ser validados con la estimación de un nuevo modelo en
el que se introduzcan conjuntamente todas las interacciones y variables confusoras hasta
ahora detectadas.
4.4. Construcción del modelo de Regresión Logística Multivariante
Procedemos a estimar mediante el procedimiento Intro del programa SPSS el modelo final de
RLM, incluyendo en dicho modelo la variable independiente que queremos controlar,
Diabetes, junto con las posibles variables confusoras y los términos de interacción que hemos
observado estadísticamente significativos:
32
Obteniendo los resultados que se resumen en la siguiente tabla:
β
Variables en la ecuación asociado al OR = e
DIABETES 0,002 3,63 1,633 8,069

SEXO 0,063 (NS) 0,918 0,838 1,005
EDAD (categorizada)
EDAD(1) < 0,001 4,112 3,583 4,72
EDAD(2) < 0,001 12,052 10,412 13,95
IMC (cat.)
IMC(1) < 0,001 2,06 1,869 2,27
IMC(2) < 0,001 3,364 3 3,772
FUMA (recodificada)
FUMA(1) 0,117 (NS) 0,918 0,824 1,022
FUMA(2) < 0,001 0,768 0,687 0,858
ACTFISICA (rec.) < 0,001 1,363 1,206 1,541
ANSIDEPRE (rec.)
ANSIDEPRE(1) < 0,001 1,482 1,297 1,694
ANSIDEPRE(2) < 0,001 1,777 1,527 2,068
DIABETES(1)*SEXO(1) 0,027 1,363 1,036 1,792
DIABETES(1)*EDAD(1) 0,974 (NS) 1,011 0,512 1,996
DIABETES(1)*EDAD(2) 0,038 0,489 0,249 0,962
DIABETES(1)*IMC(1) < 0,001 0,591 0,435 0,805
DIABETES(1)*IMC(2) < 0,001 0,574 0,415 0,793
DIABETES(1)*FUMA(1) 0,388 (NS) 1,144 0,843 1,553
DIABETES(1)*FUMA(2) 0,217 (NS) 0,796 0,554 1,143
DIABETES(1)*ACTFISICA(1) 0,783 (NS) 0,936 0,582 1,503
DIABETES(1)*ANSIDEPR(1) 0,193 (NS) 1,275 0,885 1,838
DIABETES(1)*ANSIDEPR(2) 0,191 (NS) 0,776 0,531 1,135
DIABETES(1)*MEDCOLEST(1) 0,411 (NS) 1,112 0,863 1,434
33
Se observa como el coeficiente de regresión de la variable Sexo no es estadísticamente

significativo (p ≥ 0,05), por lo que a priori dicha variable podría salir del modelo, no
obstante, y dado que el término de la interacción entre Diabetes y Sexo sí es significativo, se
quedará en el modelo por la aplicación del principio jerárquico. Además de éste, también son
estadísticamente significativos los términos de las interacciones Diabetes*Edad y
Diabetes*IMC, por lo que su presencia en el modelo también estará asegurada. En cambio,
las variables Fuma y AnsiDepre saldrán del modelo al no ser factores de confusión, ni
tampoco haberse detectado interacciones entre ellas y la variable principal (Diabetes) con el
efecto estudiado (HTA).
A continuación, pasamos a reestimar nuestro modelo de RLM incluyendo en esta ocasión las
variables e interacciones marcadas en azul en la tabla resumen anterior, proporcionando
SPSS los siguientes resultados:
β
Variables en la ecuación asociado al OR = e
DIABETES 0,001 3,352 1,685 6,666

SEXO 0,577 (NS) 1,024 0,942 1,114
EDAD (categorizada)
EDAD(1) < 0,001 4,209 3,672 4,824
EDAD(2) < 0,001 12,97 11,236 14,97
IMC (cat.)
IMC(1) < 0,001 2,097 1,903 2,310
IMC(2) < 0,001 3,539 3,16 3,964
ACTFISICA (recodificada) < 0,001 1,372 1,22 1,544
DIABETES(1)*SEXO(1) 0,008 1,374 1,088 1,736
DIABETES(1)*EDAD(1) 0,809 (NS) 1,086 0,557 2,115
DIABETES(1)*EDAD(2) 0,069 0,542 0,28 1,049
DIABETES(1)*IMC(1) 0,001 0,596 0,44 0,806
DIABETES(1)*IMC(2) 0,001 0,573 0,417 0,787
34
Como puede comprobarse a simple vista, la mayoría de las variables e interacciones incluidas
en el modelo alcanzan la significación estadística, siendo la más dudosa la interacción
Diabetes*Edad al resultar uno de sus coeficientes no significativo (p ≥ 0,1), mientras que la
variable Sexo (NS) permanecerá en el modelo, por el principio jerárquico, al ser significativa
la interacción Diabetes*Sexo.
Ahora bien, este modelo presenta un problema, si nos fijamos en la tabla de la prueba de
Hosmer y Lemeshow, vemos que el test Chi cuadrado de la prueba es significativo (p < 0,05),
lo que nos indica que los resultados predichos son diferentes de los observados, por lo que el
modelo no puede considerarse aceptable.
Para solventar este problema, decidimos incluir una nueva interacción en el modelo, pero en
este caso entre dos variables confusoras, concretamente la interacción IMC*Edad.
Justificamos la incorporación de esta interacción dado que según la Sociedad Española de
Hipertensión-Liga Española para la Lucha contra la Hipertensión Arterial (SEH-LELHA), a
medida que aumenta el peso se elevan las cifras de presión arterial, especialmente en los
menores de 40 años.
35
Tras la introducción de estos cambios en el modelo, la interacción Diabetes*Edad, de la que

ya existían dudas de que alcanzara significación estadística, pasa a ser no significativa,
saliendo por tanto del modelo.
36
Volvemos a reestimar el modelo excluyendo dicha interacción, obteniendo así el modelo

definitivo:
β
Variables en la ecuación Β asociado al OR = e
contraste Inf. Sup.
DIABETES 0,787 < 0,001 2,196 1,641 2,94

SEXO 0,049 0,251 (NS) 1,05 0,966 1,142
EDAD (categorizada)
EDAD(1) 1,556 < 0,001 4,74 3,753 5,985
EDAD(2) 2,996 < 0,001 20,01 15,77 25,39
IMC (cat.)
IMC(1) 1,028 < 0,001 2,796 2,104 3,716
IMC(2) 1,803 < 0,001 6,071 4,436 8,307
ACTFISICA (recodificada) 0,303 < 0,001 1,353 1,202 1,523
MEDCOLESTEROL_2SEM 0,946 < 0,001 2,575 2,33 2,846
DIABETES(1)*SEXO(1) 0,248 0,039 1,282 1,012 1,624
DIABETES(1)*IMC(1) -0,354 0,029 0,702 0,511 0,964
DIABETES(1)*IMC(2) -0,291 0,084 0,747 0,537 1,040
IMC(1)*EDAD(1) -0,101 0,526 (NS) 0,904 0,661 1,236
IMC(1)*EDAD(2) -0,607 < 0,001 0,545 0,396 0,749
IMC(2)*EDAD(1) -0,32 0,07 0,726 0,514 1,027
IMC(2)*EDAD(2) -1,022 < 0,001 0,36 0,252 0,515
CONSTANTE -3,958 < 0,001 0,019
La mayoría de las covariables incluidas mantienen la significación estadística (p < 0,05 para
el factor en estudio o las variables confusoras, y p < 0,1 para los términos de interacción) en
el contraste de hipótesis que las relaciona con la variable dependiente HTA, salvo la variable
Sexo que, aun siendo no significativa con un p-valor de 0,251, permanece en el modelo por la
aplicación del principio jerárquico al resultar significativa la interacción entre las variables
Diabetes y Sexo. Tampoco alcanza la significación estadística el primer coeficiente de la
interacción entre IMC y Edad (p-valor = 0,526), lo que no afecta a la entrada de dicha
interacción en el modelo al sí ser significativos sus otros tres coeficientes.
37
Podemos comprobar cómo los valores de OR obtenidos son inferiores a los calculados en el
análisis bivariante, aunque bastante similares en el caso de las variables Sexo e IMC. Estos
valores de OR están ajustados para cada variable y representan una estimación de su fuerza
de asociación con HTA, controladas todas las demás variables incluidas en el modelo.
El modelo, con seis variables y tres interacciones, tiene una capacidad de clasificar
correctamente al 79,3% de los casos analizados, como ilustra la siguiente tabla, aunque
clasifica “bastante mejor” a las personas no hipertensas (92,7%) que a las hipertensas (38%):
La proporción de la variabilidad de HTA explicada por este modelo no es demasiada buena

(un 33,8% según el R2 de Nagelkerke), es decir, sigue existiendo un porcentaje importante de
“influencia” sobre el hecho de padecer hipertensión arterial que no depende de las variables
analizadas:
38
A continuación, plantearemos la ecuación de regresión logística que se construye a partir de

los coeficientes obtenidos. No obstante, y dada la proporción tan baja de variabilidad
explicada por nuestro modelo, habrá que ser prudentes a la hora de utilizar dicha ecuación
con fines predictivos:
Siendo
Donde esto es, la probabilidad de que un individuo presente la característica

evaluada, en nuestro caso que sea hipertenso.
Alternativamente:
4.5. Evaluación del modelo de Regresión Logística Multivariante
En el caso de la ecuación de RL, lo que obtenemos para cada combinación de valores de las
diferentes variables predictoras incluidas en el modelo es una probabilidad, un valor entre 0 y
1, y mediante él cada individuo debe ser clasificado en una de las dos categorías que
establece la variable dependiente, en nuestro caso, “Haber padecido HTA” o “No haber
padecido HTA”. En general, si el valor de probabilidad predicho está entre 0 y 0,5 el
individuo se clasifica como mientras que si la probabilidad calculada es > 0,5 el sujeto
se clasifica como Este punto de corte (0,5) es el asumido por defecto por SPSS, siendo
deseable modificarlo por su valor óptimo, que es aquel que mejora la clasificación del
modelo maximizando la suma de la sensibilidad y la especificidad.
39
Una de las formas de evaluar el modelo es comprobando cómo clasifica a los individuos de la
muestra en comparación con el gold estándar (la realidad, lo observado). SPSS analiza
automáticamente, tras seleccionar las variables del modelo, cuál sería la clasificación de los
individuos del estudio tras aplicar la ecuación obtenida, y crea una tabla 2x2 con los valores
pronosticados y los realmente observados, como hemos visto en el apartado anterior.
Para determinar el punto de corte óptimo, deberemos de obtener la curva ROC, habiendo
guardado previamente los valores de probabilidad pronosticados por el modelo de RL para
cada individuo de la muestra (Botón “Guardar”, opción “Probabilidades”). Con ello se
genera una nueva variable de forma automática, que aparecerá en la ventana de datos con el
nombre PRE_1 (etiqueta: “Probabilidad pronosticada”). Luego hay que ir al procedimiento
Analizar y seleccionar Curva COR…
40
La variable a contrastar es la que se ha creado en el paso anterior (PRE_1) y la variable de

estado es la dependiente de nuestro estudio (HTA), debiendo señalarse el valor de la variable
estado que se pronostica por el modelo (en nuestro caso “1”, el valor correspondiente a la
categoría “Haber padecido HTA”), obteniendo de esta manera los siguientes resultados:
41
Vemos como la sensibilidad y la especificidad del modelo calculado varía según se

establezca un punto de corte u otro para clasificar a los individuos en un grupo de predicción
y que el área bajo la curva, AUC, es 0,818. Este es el poder de discriminación del modelo
construido, un 81,8% del máximo posible, que en resumen es bueno (AUC entre 0,75 y 0,9).
Evidentemente es estadísticamente significativo (siendo la hipótesis nula la no
discriminación, que en la gráfica ROC corresponde a los puntos que forman la diagonal).
Para determinar el punto de corte óptimo calcularemos el índice de Youden correspondiente

para cada uno de los puntos de las coordenadas de la curva ROC, seleccionando aquel punto
que nos proporcione el mayor valor de dicho índice. El índice de Youden viene dado por:
De la tabla anterior se desprende que el punto de corte óptimo está en torno al valor 0,2 que
es el que maximiza el índice de Youden. Si reestimamos nuestro modelo considerando dicho
punto de corte, obtendremos una nueva tabla de clasificación:
42
Donde podemos apreciar como el modelo obtenido clasificaría correctamente a la mayoría de

las personas con hipertensión arterial en concreto a 4.005 de las 4.686 personas
hipertensas de nuestro estudio, por lo que su sensibilidad sería del 85,5% (4.005/4.686); por
otra parte, clasifica correctamente a 8.983 (de 14.332) sujetos no hipertensos por lo
que la especificidad del modelo es del 62,7% (8.989/14.332). Y de forma global diríamos que
ha clasificado correctamente al 68,3% de los individuos ([4.005+8.989]/19.018).
Evaluamos la bondad del ajuste del modelo construido a través del test de Hosmer-
Lemeshow:
43
El test Chi cuadrado de la prueba no es significativo (p-valor = 0,808 ≥ 0,05), lo que nos
indica que no existen motivos para pensar que los resultados predichos sean diferentes de los
observados (o que si hay diferencias pueden explicarse razonablemente debido al azar o a
errores de muestreo), por tanto, el modelo puede considerarse aceptable. Por otra parte, la
tabla de contingencia para la prueba de Hosmer y Lemeshow nos da información adicional
sobre cada categoría de riesgo, de manera que podemos comprobar en qué regiones de la
predicción el modelo se ajusta peor a los datos.
Otras medidas utilizadas para valorar el ajuste del modelo en su conjunto, complementarias a
la prueba de Hosmer-Lemeshow, son la devianza, que corresponde a menos dos veces el
logaritmo neperiano de la verosimilitud, y los coeficientes de determinación R2 de Cox y
Snell y de Nagelkerke, que expresan la proporción (en tanto por uno) de la variabilidad
explicada por el modelo. Un modelo perfecto tendría un valor de la devianza muy pequeño y
un R2 cercano a uno.
Aunque ya interpretamos la tabla anterior en el apartado relativo a la construcción del modelo

para justificar la no conveniencia de usar nuestro modelo con fines predictivos dado el bajo
porcentaje de variabilidad explicada del mismo, entre un 22,7 y un 33,8%, se aconseja
considerar directamente la R2 de Nagelkerke, ya que la R2 de Cox y Snell tiene un valor
máximo inferior a 1, incluso para un modelo perfecto, mientras que la R2 de Nagelkerke
corrige la escala del estadístico para cubrir el rango completo de 0 a 1.
44
5. Conclusiones finales
 No hacer ejercicio físico o realizarlo ocasionalmente incrementa las posibilidades de

padecer hipertensión arterial en un 35,4% en comparación a si se
hace de manera frecuente.
 Las personas con hipercolesterolemia tienen 2,6 veces mayor
riesgo de ser hipertensas que las que tienen normales sus niveles de colesterol.
 En el grupo de los hombres, los diabéticos tienen 2,2 veces mayor
probabilidad de padecer HTA que los no diabéticos, mientras que en el grupo de las
mujeres, las probabilidades de que las enfermas de diabetes sean también hipertensas
se incrementan en un 182% con respecto a las de las no
diabéticas.
 Las mujeres diabéticas tienen un 34,6% más de riesgo de
padecer HTA que los hombres diabéticos, en tanto que en el caso de las personas no
diabéticas esta diferencia se reduce al 5%
 En general, la mujer tiene más posibilidades que el hombre de padecer HTA.
 En el grupo de los obesos, las personas con diabetes tienen 1,6
veces mayor probabilidad de padecer HTA que los no diabéticos, mientras
que en el grupo de las personas con sobrepeso, la probabilidad de que los enfermos de
diabetes sean también hipertensos se incrementa en un 54%
si la comparamos con la de los no diabéticos.
 Dentro del grupo de los diabéticos, las personas con sobrepeso, y con obesidad,
tienen, respectivamente, 2 y 4,5
veces mayor probabilidad de padecer HTA que aquellas que no tienen problemas de
sobrepeso.
 En el caso de los no diabéticos, estas diferencias se hacen todavía mayores, siendo de
2,8 veces para las personas con sobrepeso, y 6,1
veces para las que tienen obesidad, con respecto a la categoría de referencia
(sin sobrepeso).
 Las personas entre 40 y 64 años y los mayores de 65 sin problemas de sobrepeso
tienen respectivamente, 4,7 y 20 veces mayor
riesgo de padecer HTA que los jóvenes entre 15 y 39 años sin sobrepeso.
45
 Para las personas con edades comprendidas entre 40 y 64 años, las personas con
obesidad tienen 4,4 veces mayor probabilidad de padecer
HTA que las personas sin problemas de sobrepeso, en tanto que las personas con
sobrepeso tienen 2,5 veces mayor probabilidad de padecer
HTA que las que no lo tienen.
 En el grupo de los mayores de 65 años, las probabilidades de que los obesos sufran
también de HTA se incrementan en un 118% con respecto a
las de las personas sin problemas de sobrepeso, mientras que para las personas con
sobrepeso esta diferencia es de 1,5 veces con respecto a las
personas que no tienen sobrepeso.
46
47

TFM Luis Gómez Maldonado-U.sevilla

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

TFM Luis Gómez Maldonado-U.sevilla

Cargado por

Copyright:

Formatos disponibles

Máster en Bioestadística Aplicada en CC.

Trabajo Fin de Máster

Luis Gómez Maldonado

Tutor: Juan Polo Padillo

3. Material y método .............................................................3

4. Resultados e interpretación de los mismos....................13

5. Conclusiones finales ........................................................45

Dos de los principales factores de riesgo cardiovascular, la hipertensión arterial (HTA) y la

Actualmente, el porcentaje de población que sufre de diabetes en el mundo es de entre el 3 y

Mediante diversos estudios epidemiológicos se ha podido comprobar que aproximadamente

Es muy importante el estudio de la asociación hipertensión-diabetes ya que la HTA empeora

 Estudiar la relación entre la hipertensión arterial (HTA) y la diabetes a partir de los

 Realizar un análisis descriptivo univariante de las variables presentes en el estudio.

 Consumir alcohol en exceso.

3.1. Tipo de estudio

La finalidad de nuestro estudio es descriptiva pues pretende describir la asociación entre la

El estudio es observacional al no ser el factor de estudio controlado en ningún momento por

3.2. Ámbito del estudio

Se estudiaron los 21.007 individuos de 15 años o más entrevistados mediante el cuestionario

3.3. Periodo de estudio

La recogida de la información de la Encuesta Nacional de Salud 2011-2012 se realizó

3.4. Unidad de análisis

La investigación se dirige al conjunto de personas mayores de 15 años que residen en

3.5. Variables incluidas en el estudio

3.5.1. Variable dependiente

 HTA: Haber padecido o no hipertensión arterial.

3.5.2. Variable independiente

 Diabetes: Haber padecido o no diabetes.

3.5.3. Variables confusoras

Mediante criterios exclusivamente estadísticos hemos detectado los siguientes factores de

 Sexo: Sexo del individuo entrevistado.

3.5.4. Variables modificadoras del efecto

En el modelo final, han resultado significativas las siguientes interacciones:

3.5.5. Otras variables de control

Además de las variables confusoras y las interacciones descritas, también se ha estudiado el

 Fuma (recodificada): ¿Fuma actualmente?

3.5.6. Factores de riesgo no disponibles

3.6. Instrumentos de medida

3.7. Fuentes de información y Bibliografía

A continuación, un listado con las principales fuentes de información consultadas para la

 Microdatos de la Encuesta Nacional de Salud 2011-2012. Ministerio de Sanidad,

3.8. Plan de análisis

3.8.1. Métodos estadísticos utilizados

 Análisis descriptivos univariantes:

3.8.2. Justificación de la utilización de dichas técnicas estadísticas

 Cuantificar la importancia de la relación existente entre cada una de las covariables y

La regresión logística es una de las herramientas estadísticas más utilizadas en el análisis de

4. Resultados e interpretación de los mismos

4.1. Análisis descriptivos univariantes

Comenzaremos el apartado de resultados con un resumen del estudio descriptivo univariante

IC95% del porcentaje

Hipertensos 26,24 25,65 26,83

Descriptivos Edad IMC

Media 50,18 26,04

Mediante los histogramas, corroboraremos visualmente la asimetría y la curtosis de ambas

4.2. Exploración de las asociaciones bivariantes

El objetivo de esta exploración preliminar es el de tener una primera aproximación a la

Exploraremos las asociaciones bivariantes mediante el análisis de las tablas de contingencia,

Realicemos el correspondiente análisis de Regresión Logística Binaria:

El resultado final muestra el coeficiente β de la variable Diabetes (1,641), su error típico o

De forma similar procedemos a explorar la asociación entre otras variables presumiblemente

Veamos ahora que saldría a través de una Regresión Logística Binaria…

La tabla anterior muestra el coeficiente de regresión β de la variable Sexo (0,199), su error

DiabetesEdad, DiabetesFuma y Diabetes*AnsiDepre, la presencia de al menos un término