Documentos de Académico
Documentos de Profesional
Documentos de Cultura
José Tessler
Cantidad de Cantidad de
variables variables Análisis
dependientes independientes
1 1 Univariado
1 2 Bivariado
1 ≥2 Multivariado
CONCEPTOS GENERALES
Ejemplo
Supongamos que en un estudio multicéntrico participan 5 centros:
HIGA Hospital Intezonal General de Agudos
OSFA Obra Social de Fulanos y Afines
OSEP Obra Social de Empleados Públicos
MIMO Mutual de la Industria Medio Ociosa
AMLA Asociación Mutual de Linyeras y Afines
En la tabla 2 mostramos cómo podrían verse los datos de los primeros 10 pacientes.
En la tabla 3 vemos como quedan ahora los datos de los 10 pacientes de la tabla 2.
Tabla 3. Datos simulados de los 10 pacientes de tabla 2, con las variables dummy.
# ID: numero de identificación del paciente.
Variables dummy
# ID Sexo Edad Centro ... ... ... ... Evento
OSFA OSEP MIMO AMLA
1 M 76 MIMO 0 0 1 0 ... ... ... ... 0
2 F 53 OSEP 0 1 0 0 ... ... ... ... 0
3 F 70 AMLA 0 0 0 1 ... ... ... ... 0
4 M 73 OSFA 1 0 0 0 ... ... ... ... 1
5 F 83 OSEP 0 1 0 0 ... ... ... ... 1
6 M 53 HIGA 0 0 0 0 ... ... ... ... 0
7 F 79 HIGA 0 0 0 0 ... ... ... ... 0
8 F 58 HIGA 0 0 0 0 ... ... ... ... 1
9 M 79 AMLA 0 0 0 1 ... ... ... ... 0
10 M 55 AMLA 0 0 0 1 ... ... ... ... 0
EJEMPLO
Utilizaremos como ejemplo los datos del archivo Integr-0.xls (Es un archivo de Excel®). Este ar-
chivo ha sido extraido de una base real de datos de más de 800 pacientes, eligiendo al azar
100 pacientes normotensos y 100 hipertensos.
El archivo contiene las siguientes variables:
PAC Número de identificación del paciente en este archivo.
SEXO
EDAD
PESO
TALLA
PAS Presión arterial sistólica
INTRODUCCIÓN AL ANÁLISIS MULTIVARIADO – PÁGINA 4
Variable
Coeficiente Otros estadísticos p
predictora
Constante Y0 DS, ES, t, F, etc Valor
X1 b1 DS, ES, t, F, etc Valor
X2 b2 DS, ES, t, F, etc Valor
::::::::::::::: ::::::::::::::: DS, ES, t, F, etc Valor
Xk bk DS, ES, t, F, etc Valor
Variable
Coeficiente ES t p
predictora
Constante 18,8165 18,4897 1,02 0,3101
Edad 0,58122 0,07007 8,29 0,0000
Peso -0,16314 0,08614 -1,89 0,0597
Talla 0,05508 0,10775 0,51 0,6098
PAD 0,90386 0,10342 8,74 0,0000
VMC 0,00271 0,000767 3,53 0,0005
Interpretación
La ordenada al origen nos dice que un individuo con 0 años de edad, 0 kg de peso, 0 cm de
talla, 0 mmHg de PAD y 0 mL / min de VMC tendría 18,817 mmHg de PAS.
Los coeficientes de regresión nos indican que:
PAS aumenta 0,581 mmHg por cada año de edad
PAS disminuye 0,163 mmHg por cada kg de peso
PAS aumenta 0,055 mmHg por cada cm de estatura
PAS aumenta 0,904 mmHg por cada mmHg de PAD
PAS aumenta 0,003 mmHg por cada mL / min de VMC
Ejemplo
Tomemos como ejemplo un individuo de 65 años, 66 kg de peso, 170 cm de estatura (BMI =
22,8), 90 mmHg de PAD y 3000 mL / min de VMC. Podemos calcular la PAS esperada según
la ecuación obtenida:
PAS = 18,817 + 0,581 • 65 – 0,163 • 66 + 0,055 • 170 + 0,904 • 90 + 0,003 • 3000 = 145,5
Es decir, la PAS esperada para nuestro paciente es 145,5 mmHg.
Valor de p
Si observamos la tabla 5, vemos que los coeficientes de regresión del peso y la talla no son
significativos. Si los eliminamos de la ecuación obtenemos:
PAS = 18,817 + 0,581 • 65 + 0,904 • 90 + 0,003 • 3000 = 146,9
La diferencia entre ambas ecuaciones es muy pequeña, pero ello no siempre es asÍ. Supon-
gamos que el coeficiente de regresión de peso en lugar de ser –0,163 fuera 1,630 con un ES
de 1,583. El coeficiente seguiría siendo no significativo, pero el resultado de la ecuación que lo
incluye cambiaría:
PAS = 18,817 + 0,581 • 65 + 1,630 • 66 + 0,055 • 170 + 0,904 • 90 + 0,003 • 3000 = 263,9
En este caso el incluir o no el peso cambia totalmente el resultado. La decisión de incluir o no
en la ecuación a las variables cuyos coeficientes de regresión sean no significativas debe ser
tomada antes de efectuar el análisis estadístico, idealmente, al confeccionar el protocolo expe-
rimental. Pero nunca debe aceptarse a priori que la exclusión de esas variables no tiene
efectos clínicamente relevantes sobre el resultado.
Un enfoque más avanzado del problema es estimar el IC95 del PAS. Pero ello escapa a los
objetivos de este texto.
Coeficiente de determinación
Recordemos que r2 nos indica cuánto de la variancia de la variable dependiente está determi-
nado por la variancia de la variable independiente. De manera menos estricta, pero más fácil
de comprender, r2 nos indica cuanto del valor de Y es explicable por el valor de X.
En el caso de la regresión lineal múltiple, nos indica cuánto del valor de Y es explicables por
las variables independientes.
INTRODUCCIÓN AL ANÁLISIS MULTIVARIADO – PÁGINA 7
En nuestro ejemplo, r2 = 0,4681, lo que nos indica que nuestra ecuación solamente explica el
46,81 % del valor de Y.
MODELO
Cuando decidimos efectuar la regresión incluyendo algunas variables independientes y otras
no, estamos eligiendo un modelo que pensamos puede sernos útil para predecir el valor de la
variable dependiente. Si cambiamos las variables incluidas, el resultado final puede cambiar
sustancialmente. Por este motivo, siempre deben indicarse todas las variables estudiadas y el
criterio utilizado para incluir o no una variable en el modelo. Si en un trabajo falta esta informa-
ción es imposible evaluar la validez del modelo empleado y debe desconfiarse del resultado.
Un concepto fundamental es que
Otro dato que siempre se debe tomar en cuenta es el resultado de los análisis univariados.
Estos no deben ser desechados ni ignorados por el hecho de haber efectuado un análisis mul-
tivaraido.
Y = Y0 + b 1 • g + b 2 • c + b 3 • e
Figura 1. Esquema de una regresión por pasos anterógrada.
Vemos que, como es obvio, el r2 al incluir todas las variables (paso 1) es el mismo que obtu-
vimos anteriormente (página 7). Luego en el paso 2 se elimina la talla y en el paso 3 el peso,
quedando el mismo modelo que en la regresión anterógrada y con el mismo r2.
Este ejemplo nos muestra que el resultado de la regresión por pasos es independiente de
que sea anterógrada o retrógrada.
Aplicación a nuestro paciente ejemplo de la página 6
La ecuación que obtuvimos mediante la regresión por pasos fue
PAS = 16,498 + 0,590 • Edad + 0,902 • PAD + 0,003 • VMC
Si comparamos con la ecuación de página 5 vemos que los coeficientes de ambas ecuaciones
son parecidos o iguales, siendo la mayor diferencia la de la ordenada en el origen.
Aplicando la ecuación obtenida a nuestro paciente ejemplo,
PAS = 16,498 + 0,590 • 65 + 0,902 • 90 + 0,003 • 3000 = 145,0
La ventaja de utilizar la regresión por pasos es que nos permite obtener un modelo basado en
parámetros estadísticos preestablecidos y aleja la subjetividad en la elección de las variables a
incluir. Idealmente, pueden incluirse todas las variables estudiadas, pero ello está condiciona-
do al tamaño de la muestra (ver al final de este texto).
REGRESIÓN LOGÍSTICA
Cuando la variable dependiente es dicotómica puede efectuarse análisis de regresión median-
te procedimientos especiales, como la regresión probítica o la regresión logística. La primera
se aplica fundamentalmente en Farmacología y en Toxicología experimentales y tiene poca
aplicación en investigación clínica, por lo que no la consideraremos en este texto. En cambio,
la segunda tiene importantes aplicaciones en investigación clínica.
El término “logística” proviene de que en ella se emplean los logits, por lo que en primer lugar
explicaremos que son los logits.
LOGITS
Podemos definir al logit como el logaritmo natural de la proporción de eventos dividida por la
proporción de no eventos. Si llamamos “y” al logit y “p” a la proporción de eventos, la propor-
ción de no eventos será 1 – p. En consecuencia,
y = ln [p / (1 – p)]
INTRODUCCIÓN AL ANÁLISIS MULTIVARIADO – PÁGINA 11
Ejemplo
Supongamos que se produjeron eventos en el 20 % de los pacientes. En consecuencia la pro-
porción de eventos es 0,2 y el logit será
y = ln (0,2 / 0,8) = ln 0,25 = -1,386
Si p = 0,5 el logit es
y = ln (0,5 / 0,5) = ln 1 = 0
Si p = 0,8 el logit es
y = ln (0,8 / 0,2) = ln 4 = 1,386
Si p = 0 el logit es
y = ln (0 / 1) = ln 0 = -∞
Si p = 1 el logit es
y = ln (1 / 0) = ln ∞ = ∞
Estos ejemplos nos muestran que:
Un logit < 0 (número negativo) nos indica una proporción menor de 0,5 (porcentaje menor
del 50 %).
Un logit = 0 nos indica una proporción de 0,5 (porcentaje igual al 50 %).
Un logit > 0 (número positivo) nos indica una proporción mayor de 0,5 (porcentaje mayor
del 50 %).
Relación entre logit y odds
Si de 100 pacientes 20 presentan un evento:
p = 0,2
1 – p = 0,8
p / (1 – p) = 0,25
El odds es 20 / 80 = 0,25. Vemos, pues, que
p / (1 – p) = odds
En consecuencia podemos redefinir logit:
y = ln (odds)
ANÁLISIS DE REGRESIÓN
Para cada individuo la proporción de eventos es 1 ó 0 (si tuvo el evento es el 100 % y si no lo presen-
tó, el 0 %) y, por lo tanto, el logit será ∞ ó -∞, respectivamente. Como no podemos trabajar con
infinitos, la regresión requiere un procedimiento especial que era engorroso e insumía mucho
tiempo cuando debía hacerse a mano, pero que ahora se efectúa rápidamente por medio de
software.
El análisis se basa en un cálculo iterativo:
INTRODUCCIÓN AL ANÁLISIS MULTIVARIADO – PÁGINA 12
a) Se atribuye una proporción cercana a 1 pero menor de 1 a los eventos y una proporción
cercana a 0 pero mayor de 0 a los no eventos. Esto permite calcular un logit no infinito.
b) Se calcula una primera ecuación.
c) En base a la ecuación calculada y los datos observados se corrigen los logits individuales
y se calcula una segunda ecuación.
d) Y se continua así hasta que la diferencia entre 2 ecuaciones sucesivas sea lo suficiente-
mente pequeña. Esto se denomina convergencia. La mayoría (pero no todos) los software
que efectúan regresión logística permiten elegir el criterio de convergencia. Sin embargo,
para quien no está familiarizado con el procedimiento es preferible utilizar el criterio que
propone el programa.
Interpretación de las ecuaciones
Supongamos que efectuamos una regresión logística y obtuvimos una ecuación
y = y0 + b1 • HTA + b2 • EDAD
donde HTA es la variable dicotómica hipertensión arterial (Sí – No) y edad es una variable
cuantitativa.
Significado de b
El coeficiente de correlación nos indica cuánto se incrementa “y” por cada unidad de incremen-
to de “x”.
COEFICIENTE DE REGRESIÓN DE UNA VARIABLE DICOTÓMICA
Las variables dicotómicas (en nuestro caso, HTA) tienen solamente 2 valores: 0 y 1. Por lo
tanto, b nos indica cuánto aumenta “y” (el logit) cuando X pasa de 0 a 1. Recordemos, ade-
más, que logit es el logaritmo natural del odds. Por lo tanto, en nuestra ecuación:
b1 = ln(odds)HTA = 1 – ln(odds)HTA= 0
Como la resta de 2 logaritmos es el logaritmo de un cociente, podemos escribir
b1 = ln(oddsHTA = 1 / oddsHTA= 0)
Por lo tanto,
b1 = ln(OR)
Es decir, en el caso de una variable independiente dicotómica el coeficiente de regresión es el
logaritmo natural del odds ratio (OR) y, por lo tanto:
antilogaritmo natural de b = eb = OR
Si calculamos el intervalo de confianza de b:
IC95(b) = b ± 1,96 ES(b) [todos los software calculan ES(b)]
podemos calcular el IC95 del OR:
IC95(OR) = antilogaritmo natural de IC95(b) = eIC95(b)
INTRODUCCIÓN AL ANÁLISIS MULTIVARIADO – PÁGINA 13
Esta es una evaluación especialmente útil debido a que nos informa de la capacidad de pre-
dicción del modelo, si la frecuencia de eventos no es muy baja ni muy alta. En el ejemplo de la
tabla 8, el modelo tiene una sensibilidad del 81,3 % y una especificidad del 94,9 %.
Si la frecuencia de eventos es muy baja o muy alta, la información sobre sensibilidad y / o especificidad puede no
corresponderse con la realidad.
Regresión logística por pasos
También en el caso de la regresión logística puede efectuarse una regresión por pasos. Tiene
los mismos principios y se interpreta de igual manera que la que ya vimos para variable de-
pendiente cuantitativa (página 7). No todos los software efectúan regresión logística por pasos,
pero es factible efectuarla completando manualmente la regresión logística. No nos extende-
remos en la técnica en este texto.
REGRESIÓN DE COX
A los fines prácticos podemos considerarla similar a la regresión logística, con la que tiene 2
diferencias:
Se aplica a datos incompletos (estudios de sobrevida).
Se estima el hazard ratio (HR) en lugar del OR. HR es idéntico a riesgo relativo (RR). Es
importante tener en cuenta esta identidad pues algunos software indican HR y otros RR y
ambos están indicando exactamente lo mismo.
INTRODUCCIÓN AL ANÁLISIS MULTIVARIADO – PÁGINA 16
TAMAÑO DE MUESTRA
Es necesario un número mínimo de eventos para que los resultados de regresión logística o
de Cox sean válidos. Por este motivo, en los protocolos prospectivos debe preverse continuar
el seguimiento o aumentar el número de pacientes (si es un estudio de corte transversal o de
seguimiento corto) si el número de eventos observados es menor al estimado al confeccionar
el protocolo. (Ver texto sobre análisis de sobrevida, página 11.)