Está en la página 1de 16

INTRODUCCIÓN AL ANÁLISIS MULTIVARIADO

José Tessler

El análisis estadístico puede ser uni, bi o multivariado, de acuerdo a la cantidad de variables


independientes (tabla 1). En este texto introduciremos conceptos elementales de análisis mul-
tivariado.

Tabla 1. Análisis uni, bi y multivariado.

Cantidad de Cantidad de
variables variables Análisis
dependientes independientes
1 1 Univariado
1 2 Bivariado
1 ≥2 Multivariado

CONCEPTOS GENERALES

NATURALEZA DE LAS VARIABLES


En el análisis multivariado tanto la variable dependiente como las independientes pueden ser
categóricas o cuantitativas. Las variables categóricas deben ser dicotómicas o ser trans-
formadas en dicotómicas. Las variables independientes pueden ser:
 Todas cuantitativas.
 Todas categóricas.
 Algunas cuantitativas y otras categóricas.
Como vemos, el análisis multivariado admite muchas más posibilidades que el univariado.
Las variables dicotómicas pueden indicarse mediante palabras, letras o números. Sin embar-
go, hay programas (por ejemplo, Statistix 7.0®) que solamente aceptan los números 0 (negati-
vo) y 1 (positivo).
Variables dummy
Dijimos más arriba que las variables cualitativas deben ser dicotómicas o deben transformarse
en dicotómicas. Para las variables independientes esta transformación se efectúa creando
las así llamadas variables dummy, que son variables dicotómicas inexistentes pero que las
creamos para poder efectuar el análisis estadístico.
INTRODUCCIÓN AL ANÁLISIS MULTIVARIADO – PÁGINA 2

Ejemplo
Supongamos que en un estudio multicéntrico participan 5 centros:
HIGA Hospital Intezonal General de Agudos
OSFA Obra Social de Fulanos y Afines
OSEP Obra Social de Empleados Públicos
MIMO Mutual de la Industria Medio Ociosa
AMLA Asociación Mutual de Linyeras y Afines
En la tabla 2 mostramos cómo podrían verse los datos de los primeros 10 pacientes.

Tabla 2. Datos simulados de 10 pacientes.


# ID: numero de identificación del paciente.

# ID Sexo Edad Centro ... ... ... ... Evento


1 M 76 MIMO ... ... ... ... 0
2 F 53 OSEP ... ... ... ... 0
3 F 70 AMLA ... ... ... ... 0
4 M 73 OSFA ... ... ... ... 1
5 F 83 OSEP ... ... ... ... 1
6 M 53 HIGA ... ... ... ... 0
7 F 79 HIGA ... ... ... ... 0
8 F 58 HIGA ... ... ... ... 1
9 M 79 AMLA ... ... ... ... 0
10 M 55 AMLA ... ... ... ... 0

Creación de las variables dummy


Si una variable independiente cualitativa tiene k categorías, deben crearse k – 1 variables
dummy. En nuestro ejemplo, la variable centro tiene 5 categorías, por lo cual debemos crear 4
variables dummy. Los pasos a seguir son los siguientes:
a) Se toma una de las categorías como referencia. En nuestro ejemplo tomaremos como refe-
rencia al centro HIGA.
b) Cada una de las otras categorías pasa a ser una variable dummy. En nuestro ejemplo:
OSFA, OSEP, MIMO, AMLA (tabla 3).
c) A los pacientes a quienes corresponde la categoría de referencia se les coloca un “0” en
cada una de las variables dummy. En nuestro ejemplo a los 3 pacientes del HIGA se les
coloca un “0” en cada una de las 4 variables dummy (tabla 3, página 3).
A los pacientes a quienes les corresponde otra categoría, se les coloca un “1” en la variable
correspondiente y un “0” en las restantes. Por ejemplo a un paciente de OSFA, se le coloca
un “1” en la variable OSFA y un “0” en OSEP, MIMO y AMLA.
INTRODUCCIÓN AL ANÁLISIS MULTIVARIADO – PÁGINA 3

En la tabla 3 vemos como quedan ahora los datos de los 10 pacientes de la tabla 2.

Tabla 3. Datos simulados de los 10 pacientes de tabla 2, con las variables dummy.
# ID: numero de identificación del paciente.

Variables dummy
# ID Sexo Edad Centro ... ... ... ... Evento
OSFA OSEP MIMO AMLA
1 M 76 MIMO 0 0 1 0 ... ... ... ... 0
2 F 53 OSEP 0 1 0 0 ... ... ... ... 0
3 F 70 AMLA 0 0 0 1 ... ... ... ... 0
4 M 73 OSFA 1 0 0 0 ... ... ... ... 1
5 F 83 OSEP 0 1 0 0 ... ... ... ... 1
6 M 53 HIGA 0 0 0 0 ... ... ... ... 0
7 F 79 HIGA 0 0 0 0 ... ... ... ... 0
8 F 58 HIGA 0 0 0 0 ... ... ... ... 1
9 M 79 AMLA 0 0 0 1 ... ... ... ... 0
10 M 55 AMLA 0 0 0 1 ... ... ... ... 0

En el ejemplo que utilizamos la variable dependiente es categórica, pero si fuera cuantitativa


se aplica exactamente el mismo procedimiento a las variables independientes categóricas.
Variables dependientes categóricas no dicotómicas
Para los análisis multivariados con variable dependiente categórica, ésta debe ser dicotómi-
ca. Si no lo fuera, deben agruparse las categorías para transformarla en dicotómica. La crea-
ción de variables dummy no se aplica a la variable dependiente.

ANÁLISIS MULTIVARIADO CON VARIABLE DEPENDIENTE CUANTITATIVA

EJEMPLO
Utilizaremos como ejemplo los datos del archivo Integr-0.xls (Es un archivo de Excel®). Este ar-
chivo ha sido extraido de una base real de datos de más de 800 pacientes, eligiendo al azar
100 pacientes normotensos y 100 hipertensos.
El archivo contiene las siguientes variables:
PAC Número de identificación del paciente en este archivo.
SEXO
EDAD
PESO
TALLA
PAS Presión arterial sistólica
INTRODUCCIÓN AL ANÁLISIS MULTIVARIADO – PÁGINA 4

PAD Presión arterial diastólica


FC Frecuencia cardíaca
DS Descarga sistólica
RPT Resistencia periférica total
Supondremos que deseamos estudiar la función
PAS = f(EDAD, PESO, TALLA, PAD, VMC)
Recordar que a la izquierda del signo “=” se coloca la variable dependiente y entre paréntesis después de la “f”,
las independientes.

La variable volumen minuto cardíaco (VMC) la creamos como VMC = FC • DS.

REGRESIÓN CON TODAS LAS VARIABLES


Ecuación de regresión
Recordemos que la ecuación de la recta en la regresión univariada es
Y = Y0 + b • X (o, también, Y = a + b • X)
donde:
Y variable dependiente
Y0, a ordenada al origen
b coeficiente de regresión lineal
X variable independiente
En la regresión multivariada, la ecuación se generaliza de la siguiente manera:
Y = Y0 + b1 • X1 + b2 • X2 + ........... + bk • Xk
donde
k número de variables independientes
X1,X2.....Xk distintas variables independientes
b1,b2.....bk respectivos coeficientes de regresión lineal
Como vemos la ecuación es una suma de regresiones lineales, por lo que el término regresión
lineal múltiple es más apropiado que el más generalmente usado de regresión multivariada,
pues ésta puede ser también no lineal (pero no lo consideraremos en este texto).
Output de los software
La mayor parte de los software expresa el resultado de la regresión mediante una tabla del
tipo de la tabla 4 (página 5) y, en la misma página, la tabla 5 nos muestra el resultado obtenido
con nuestro ejemplo.
.
INTRODUCCIÓN AL ANÁLISIS MULTIVARIADO – PÁGINA 5

Tabla 4. Tabla tipo de la mayor parte de los softwa-


re para la ecuación de regresión lineal múltiple.

Variable
Coeficiente Otros estadísticos p
predictora
Constante Y0 DS, ES, t, F, etc Valor
X1 b1 DS, ES, t, F, etc Valor
X2 b2 DS, ES, t, F, etc Valor
::::::::::::::: ::::::::::::::: DS, ES, t, F, etc Valor
Xk bk DS, ES, t, F, etc Valor

Tabla 5. Aplicación de la tabla 4 al ejemplo de este texto.


®
Los resultados se obtuvieron con el software Statistix 7 .

Variable
Coeficiente ES t p
predictora
Constante 18,8165 18,4897 1,02 0,3101
Edad 0,58122 0,07007 8,29 0,0000
Peso -0,16314 0,08614 -1,89 0,0597
Talla 0,05508 0,10775 0,51 0,6098
PAD 0,90386 0,10342 8,74 0,0000
VMC 0,00271 0,000767 3,53 0,0005

En consecuencia, la ecuación obtenida fue (redondeando a 3 decimales)


PAS = 18,817 + 0,581 • Edad – 0,163 • Peso + 0,055 • Talla + 0,904 • PAD + 0,003 • VMC
Unidades de los coeficientes
Las unidades de la ordenada al origen son las de la variable dependiente. En nuestro ejemplo,
18,817 mmHg
Las unidades de cada coeficiente de regresión son las de la variable dependiente divididas por
las de la respectiva variable independiente. En nuestro ejemplo:
 0,581 mmHg / año
 -0,163 mmHg / kg
 0,055 mmHg / cm
 0,904 (no tiene unidades pues mmHg / mmHg se simplifican)
 0,003 mmHg / mL
INTRODUCCIÓN AL ANÁLISIS MULTIVARIADO – PÁGINA 6

Interpretación
La ordenada al origen nos dice que un individuo con 0 años de edad, 0 kg de peso, 0 cm de
talla, 0 mmHg de PAD y 0 mL / min de VMC tendría 18,817 mmHg de PAS.
Los coeficientes de regresión nos indican que:
 PAS aumenta 0,581 mmHg por cada año de edad
 PAS disminuye 0,163 mmHg por cada kg de peso
 PAS aumenta 0,055 mmHg por cada cm de estatura
 PAS aumenta 0,904 mmHg por cada mmHg de PAD
 PAS aumenta 0,003 mmHg por cada mL / min de VMC
Ejemplo
Tomemos como ejemplo un individuo de 65 años, 66 kg de peso, 170 cm de estatura (BMI =
22,8), 90 mmHg de PAD y 3000 mL / min de VMC. Podemos calcular la PAS esperada según
la ecuación obtenida:
PAS = 18,817 + 0,581 • 65 – 0,163 • 66 + 0,055 • 170 + 0,904 • 90 + 0,003 • 3000 = 145,5
Es decir, la PAS esperada para nuestro paciente es 145,5 mmHg.
Valor de p
Si observamos la tabla 5, vemos que los coeficientes de regresión del peso y la talla no son
significativos. Si los eliminamos de la ecuación obtenemos:
PAS = 18,817 + 0,581 • 65 + 0,904 • 90 + 0,003 • 3000 = 146,9
La diferencia entre ambas ecuaciones es muy pequeña, pero ello no siempre es asÍ. Supon-
gamos que el coeficiente de regresión de peso en lugar de ser –0,163 fuera 1,630 con un ES
de 1,583. El coeficiente seguiría siendo no significativo, pero el resultado de la ecuación que lo
incluye cambiaría:
PAS = 18,817 + 0,581 • 65 + 1,630 • 66 + 0,055 • 170 + 0,904 • 90 + 0,003 • 3000 = 263,9
En este caso el incluir o no el peso cambia totalmente el resultado. La decisión de incluir o no
en la ecuación a las variables cuyos coeficientes de regresión sean no significativas debe ser
tomada antes de efectuar el análisis estadístico, idealmente, al confeccionar el protocolo expe-
rimental. Pero nunca debe aceptarse a priori que la exclusión de esas variables no tiene
efectos clínicamente relevantes sobre el resultado.
Un enfoque más avanzado del problema es estimar el IC95 del PAS. Pero ello escapa a los
objetivos de este texto.
Coeficiente de determinación
Recordemos que r2 nos indica cuánto de la variancia de la variable dependiente está determi-
nado por la variancia de la variable independiente. De manera menos estricta, pero más fácil
de comprender, r2 nos indica cuanto del valor de Y es explicable por el valor de X.
En el caso de la regresión lineal múltiple, nos indica cuánto del valor de Y es explicables por
las variables independientes.
INTRODUCCIÓN AL ANÁLISIS MULTIVARIADO – PÁGINA 7

En nuestro ejemplo, r2 = 0,4681, lo que nos indica que nuestra ecuación solamente explica el
46,81 % del valor de Y.

MODELO
Cuando decidimos efectuar la regresión incluyendo algunas variables independientes y otras
no, estamos eligiendo un modelo que pensamos puede sernos útil para predecir el valor de la
variable dependiente. Si cambiamos las variables incluidas, el resultado final puede cambiar
sustancialmente. Por este motivo, siempre deben indicarse todas las variables estudiadas y el
criterio utilizado para incluir o no una variable en el modelo. Si en un trabajo falta esta informa-
ción es imposible evaluar la validez del modelo empleado y debe desconfiarse del resultado.
Un concepto fundamental es que

en los análisis multivariados el resultado y, en consecuencia, las conclusiones depen-


den del modelo utilizado.

Otro dato que siempre se debe tomar en cuenta es el resultado de los análisis univariados.
Estos no deben ser desechados ni ignorados por el hecho de haber efectuado un análisis mul-
tivaraido.

REGRESIÓN POR PASOS


El término inglés stepwise regression puede traducirse como “regresión por pasos”, “regresión por etapas” o “re-
gresión escalonada” utilizando escalón en el sentido figurado de pasos sucesivos o etapas. Cualquiera de las
traducciones es aceptable.
Regresión por pasos anterógrada (en inglés: forward stepwise regression)
a) Se efectúa una regresión univariada con cada una de las variables independientes y se
selecciona la de mayor r2.
b) Luego se efectúa una regresión bivariada con la variable seleccionada y cada una de las
otras. Se selecciona la que más incrementa el r2.
c) Luego se efectua una regresión con las 2 variables ya seleccionadas y cada una de las
restantes. Se selecciona la que más incrementa el r2.
d) Y así se continua hasta que ninguna variable incremente r2 de manera relevante.
Este proceso está esquematizado en la figura 1 (página 8) donde a, b,......, h son las variables
independientes:
a) En primer lugar efectuamos regresiones univariadas: Y = f(a) , Y = f(b) , etc. y selecciona-
mos la variable “g” pues Y = f(g) es la que mostró mayor correlación (mayor r2).
b) Ahora efectuamos regresiones bivariadas: Y = f(g,a) , Y = f(g,b) , etc. y seleccionamos
como segunda variable “c” pues Y = f(g,c) es la que mostró mayor correlación (mayor r2).
Es decir, “c” fue la variable que más aumentó la correlación.
INTRODUCCIÓN AL ANÁLISIS MULTIVARIADO – PÁGINA 8

SEAN a, b, c, d, e, f, g, h: VARIABLES INDEPENDIENTES

Y = f(a) Y = f(b) Y = f(c) Y = f(d) Y = f(e) Y = f(f) Y = f(g) Y = f(h)

Y = f(g,a) Y = f(g,b) Y = f(g,c) Y = f(g,d) Y = f(g,e) Y = f(g,f) Y = f(g,h)

Y = f(g,c,a) Y = f(g,c,b) Y = f(g,c,d) Y = f(g,c,e) Y = f(g,c,f) Y = f(g,c,h)

Y = f(g,c,e,a) Y = f(g,c,e,b) Y = f(g,c,e,d) Y = f(g,c,e,f) Y = f(g,c,e,h)

Y = Y0 + b 1 • g + b 2 • c + b 3 • e
Figura 1. Esquema de una regresión por pasos anterógrada.

c) Efectuamos ahora regresiones con 3 variables independientes: Y = f(g,c,a) , Y = f(g,c,b) ,


etc. y seleccionamos la variable “e” pues Y = f(g,c,e) es la que mostró mayor correlación
(mayor r2). Es decir, “e” fue la variable que más aumentó la correlación.
d) Efectuamos ahora regresiones con 4 variables independientes: Y = f(g,c,e,a) , Y = f(g,c,e,b)
etc. y no seleccionamos ninguna otra pues ninguna incrementó relevantemente la correla-
ción.
Nuestro modelo queda expresado como:
Y = Y0 + b1 • g + b2 • c + b3 • e
Criterios para incluir o excluir variables
En la regresión con todas las variables el criterio para incluir o no una variable en el modelo lo
fijábamos empíricamente. En la regresión por pasos podemos (si es factible, ver más adelan-
te) incluir a todas las variables y el software las incluye o no según un criterio estadístico que
debemos fijar. La mayor parte de los software pide un valor de p, de t o de F. Son equivalen-
tes:
 p = 0,05
 t=2
 F=4
Como el análisis multivariado debe hacerse con un número relativamente grande de pacien-
tes, los grados de libertad de t son
gl > 30
por lo que t = 2 corresponde a p ≅ 0,05.
Como cada coeficiente de regresión tiene 1 grado de libertad, F = t2 y, en consecuencia, F = 4
corresponde a p ≅ 0,05.
INTRODUCCIÓN AL ANÁLISIS MULTIVARIADO – PÁGINA 9

Como vemos, los 3 criterios son equivalentes.


Ejemplo
Cuando efectuamos la regresión por pasos anterógrada en nuestro ejemplo
PAS = f(EDAD, PESO, TALLA, PAS, VMC)
El software dio el resultado que se muestra en la tabla 6.

Tabla 6. Regresión por pasos anterógrada.


®
Los resultados se obtuvieron con el software Statistix 7 .
• No incluido X Incluido

Paso r2 Edad Peso Talla PAD VMC


1 0,0000 • • • • •
2 0,2599 • • • X •
3 0,4231 X • • X •
4 0,4571 X • • X X

a) Vemos que en el primer paso no se incluye ninguna variable y r2 = 0 (corresponde a la or-


denada al origen y supone que todas las variables independientes valen 0, por lo que no
hay correlación con ninguna).
b) En el segundo paso se incluyó PAD y r2 fue 0,2599.
c) En el tercer paso se incluyó la edad y r2 aumentó a 0,4231.
d) En el cuarto paso se incluyó VMC y r2 aumentó a 0,4571.
e) Ninguna otra variable quedó incluida en el modelo.
En consecuencia nuestro modelo es
PAS = f(EDAD, PAD, VMC)
2
Valor de r
En nuestro modelo r2 = 0,4571, mientras que cuando efectuamos la regresión con las 5 varia-
bles obtuvimos r2 = 0,4681. La diferencia entre ambos coeficientes es del 2,3 %, realmente
muy pequeña.
Los r2 que se obtienen en la regresión por pasos son solamente muy poco menores que los
obtenidos utilizando todas las variables. Es decir, el agregado del resto de las variables no
aumenta de manera relevante el coeficiente de determinación.
Regresión por pasos retrógrada (en inglés: backward stepwise regression)
En este caso se comienza por efectuar la regresión con todas las variables y luego se van eli-
minando de a una las que no afectan mayormente el valor de r2. Veamos que es lo que ocurrió
en nuestro ejemplo (tabla 7).
INTRODUCCIÓN AL ANÁLISIS MULTIVARIADO – PÁGINA 10

Tabla 7. Regresión por pasos retrógrada.


®
Los resultados se obtuvieron con el software Statistix 7 .
• No incluido X Incluido

Paso r2 Edad Peso Talla PAD VMC


1 0,4681 X X X X X
2 0,4674 X X • X X
3 0,4571 X • • X X

Vemos que, como es obvio, el r2 al incluir todas las variables (paso 1) es el mismo que obtu-
vimos anteriormente (página 7). Luego en el paso 2 se elimina la talla y en el paso 3 el peso,
quedando el mismo modelo que en la regresión anterógrada y con el mismo r2.
Este ejemplo nos muestra que el resultado de la regresión por pasos es independiente de
que sea anterógrada o retrógrada.
Aplicación a nuestro paciente ejemplo de la página 6
La ecuación que obtuvimos mediante la regresión por pasos fue
PAS = 16,498 + 0,590 • Edad + 0,902 • PAD + 0,003 • VMC
Si comparamos con la ecuación de página 5 vemos que los coeficientes de ambas ecuaciones
son parecidos o iguales, siendo la mayor diferencia la de la ordenada en el origen.
Aplicando la ecuación obtenida a nuestro paciente ejemplo,
PAS = 16,498 + 0,590 • 65 + 0,902 • 90 + 0,003 • 3000 = 145,0
La ventaja de utilizar la regresión por pasos es que nos permite obtener un modelo basado en
parámetros estadísticos preestablecidos y aleja la subjetividad en la elección de las variables a
incluir. Idealmente, pueden incluirse todas las variables estudiadas, pero ello está condiciona-
do al tamaño de la muestra (ver al final de este texto).

REGRESIÓN LOGÍSTICA
Cuando la variable dependiente es dicotómica puede efectuarse análisis de regresión median-
te procedimientos especiales, como la regresión probítica o la regresión logística. La primera
se aplica fundamentalmente en Farmacología y en Toxicología experimentales y tiene poca
aplicación en investigación clínica, por lo que no la consideraremos en este texto. En cambio,
la segunda tiene importantes aplicaciones en investigación clínica.
El término “logística” proviene de que en ella se emplean los logits, por lo que en primer lugar
explicaremos que son los logits.

LOGITS
Podemos definir al logit como el logaritmo natural de la proporción de eventos dividida por la
proporción de no eventos. Si llamamos “y” al logit y “p” a la proporción de eventos, la propor-
ción de no eventos será 1 – p. En consecuencia,
y = ln [p / (1 – p)]
INTRODUCCIÓN AL ANÁLISIS MULTIVARIADO – PÁGINA 11

Ejemplo
Supongamos que se produjeron eventos en el 20 % de los pacientes. En consecuencia la pro-
porción de eventos es 0,2 y el logit será
y = ln (0,2 / 0,8) = ln 0,25 = -1,386
Si p = 0,5 el logit es
y = ln (0,5 / 0,5) = ln 1 = 0
Si p = 0,8 el logit es
y = ln (0,8 / 0,2) = ln 4 = 1,386
Si p = 0 el logit es
y = ln (0 / 1) = ln 0 = -∞
Si p = 1 el logit es
y = ln (1 / 0) = ln ∞ = ∞
Estos ejemplos nos muestran que:
 Un logit < 0 (número negativo) nos indica una proporción menor de 0,5 (porcentaje menor
del 50 %).
 Un logit = 0 nos indica una proporción de 0,5 (porcentaje igual al 50 %).
 Un logit > 0 (número positivo) nos indica una proporción mayor de 0,5 (porcentaje mayor
del 50 %).
Relación entre logit y odds
Si de 100 pacientes 20 presentan un evento:
 p = 0,2
 1 – p = 0,8
 p / (1 – p) = 0,25
El odds es 20 / 80 = 0,25. Vemos, pues, que
p / (1 – p) = odds
En consecuencia podemos redefinir logit:
y = ln (odds)

ANÁLISIS DE REGRESIÓN
Para cada individuo la proporción de eventos es 1 ó 0 (si tuvo el evento es el 100 % y si no lo presen-
tó, el 0 %) y, por lo tanto, el logit será ∞ ó -∞, respectivamente. Como no podemos trabajar con
infinitos, la regresión requiere un procedimiento especial que era engorroso e insumía mucho
tiempo cuando debía hacerse a mano, pero que ahora se efectúa rápidamente por medio de
software.
El análisis se basa en un cálculo iterativo:
INTRODUCCIÓN AL ANÁLISIS MULTIVARIADO – PÁGINA 12

a) Se atribuye una proporción cercana a 1 pero menor de 1 a los eventos y una proporción
cercana a 0 pero mayor de 0 a los no eventos. Esto permite calcular un logit no infinito.
b) Se calcula una primera ecuación.
c) En base a la ecuación calculada y los datos observados se corrigen los logits individuales
y se calcula una segunda ecuación.
d) Y se continua así hasta que la diferencia entre 2 ecuaciones sucesivas sea lo suficiente-
mente pequeña. Esto se denomina convergencia. La mayoría (pero no todos) los software
que efectúan regresión logística permiten elegir el criterio de convergencia. Sin embargo,
para quien no está familiarizado con el procedimiento es preferible utilizar el criterio que
propone el programa.
Interpretación de las ecuaciones
Supongamos que efectuamos una regresión logística y obtuvimos una ecuación
y = y0 + b1 • HTA + b2 • EDAD
donde HTA es la variable dicotómica hipertensión arterial (Sí – No) y edad es una variable
cuantitativa.
Significado de b
El coeficiente de correlación nos indica cuánto se incrementa “y” por cada unidad de incremen-
to de “x”.
COEFICIENTE DE REGRESIÓN DE UNA VARIABLE DICOTÓMICA
Las variables dicotómicas (en nuestro caso, HTA) tienen solamente 2 valores: 0 y 1. Por lo
tanto, b nos indica cuánto aumenta “y” (el logit) cuando X pasa de 0 a 1. Recordemos, ade-
más, que logit es el logaritmo natural del odds. Por lo tanto, en nuestra ecuación:
b1 = ln(odds)HTA = 1 – ln(odds)HTA= 0
Como la resta de 2 logaritmos es el logaritmo de un cociente, podemos escribir
b1 = ln(oddsHTA = 1 / oddsHTA= 0)
Por lo tanto,
b1 = ln(OR)
Es decir, en el caso de una variable independiente dicotómica el coeficiente de regresión es el
logaritmo natural del odds ratio (OR) y, por lo tanto:
antilogaritmo natural de b = eb = OR
Si calculamos el intervalo de confianza de b:
IC95(b) = b ± 1,96 ES(b) [todos los software calculan ES(b)]
podemos calcular el IC95 del OR:
IC95(OR) = antilogaritmo natural de IC95(b) = eIC95(b)
INTRODUCCIÓN AL ANÁLISIS MULTIVARIADO – PÁGINA 13

COEFICIENTE DE REGRESIÓN DE UNA VARIABLE CUANTITATIVA


Si la variable es cuantitativa (en nuestro caso, EDAD) b nos indica cuanto aumenta “y” cuando
la variable pasa de un valor X – 1 a un valor X [por ejemplo, cuando la edad pasa de 35 años
(X – 1) a 36 años (X)]. En nuestro caso,
b2 = ln(odds)EDAD = X – ln(odds)EDAD = X – 1
O sea,
b2 = ln(oddsEDAD = X / oddsEDAD = X – 1)
Por lo que,
b2 = ln(OR / año de edad)
Es decir, en el caso de una variable independiente cuantitativa el coeficiente de regresión es el
logaritmo natural del odds ratio por unidad de la variable (en nuestro caso, OR / año de edad)
y, por lo tanto:
antilogaritmo natural de b = eb = OR / año de edad.
Ejemplo
Supongamos que efectuamos una regresión logística
y = f(E, G, A, F, C)
donde:
 E es edad (variable cuantitativa numérica).
 G (grado de insuficiencia cardíaca: 0, 1, 2, 3 ó 4) y C [colesterolemia: 0 (óptima), 1 (border-
line), 2 (elevada)] son variables cuantitativas no numéricas (puntajes).
 A (angor) y F (actividad física) son variables categóricas dicotómicas.
Supongamos, también, que obtuvimos la ecuación
y = 0,0198 • E + 0,2235 • G + 0,6931 • A – 0,3857 • F + 0,0953 • C
Como vemos, en este caso la ordenada al origen fue 0, por lo que no se la incluyó en la ecua-
ción. Interpretemos ahora la ecuación.
VARIABLES CATEGÓRICAS DICOTÓMICAS
Son las más sencillas de interpretar:
 OR de angor vs. no angor es OR = e0,6931 = 2, es decir, los pacientes con angor tenían 2
veces más chances de presentar evento que los que no tuvieron angor.
 OR de actividad física vs. sedentarismo es OR = e-0,3857 = 0,68, es decir, los pacientes que
tenían actividad física tuvieron un 32 % menos de chances de tener evento que los seden-
tarios.
INTRODUCCIÓN AL ANÁLISIS MULTIVARIADO – PÁGINA 14

VARIABLE CUANTITATIVA NUMÉRICA


El OR / año de edad fue 1,02. Es decir, cada año el OR se incrementa en un 2 %. En 10 años
el OR pasará a ser 1,22. Ello implica que al pasar de 20 a 30 años de edad las chances de
presentar un evento se incrementan en un 22 % y al pasar de 60 a 70 años de edad se incre-
mentan en ¡exactamente la misma cifra! Ello es así pues estamos efectuando una regresión
lineal múltiple, pero esa linealidad puede no ser cierta en realidad. Una manera de evaluar es-
te aspecto (si el número de pacientes es lo suficientemente grande) es efectuar (antes de la
regresión logística) un gráfico de barras agrupando a los pacientes por décadas y ver si el in-
cremento de eventos sigue una tendencia aproximadamente lineal. Si así no fuera es preferi-
ble transformar la edad en una variable dicotómica (de acuerdo a la tendencia observada o a
lo usual en la literatura).
VARIABLES CUANTITATIVAS NO NUMÉRICAS (PUNTAJES)
 Grado de insuficiencia cardíaca.
 Si G = 1, b • 1 = 0,2235 • 1 = 0,2235 y OR = e0,2235 = 1,25.
 Si G = 2, b • 2 = 0,2235 • 2 = 0,4470 y OR = e0,4470 = 1,56.
 Si G = 3, b • 3 = 0,2235 • 3 = 0,6705 y OR = e0,6705 = 1,95.
 Si G = 4, b • 4 = 0,2235 • 4 = 0,8940 y OR = e0,8940 = 2,44.
Es decir, por cada unidad de aumento del grado de insuficiencia cardíaca, el OR aumenta
1,25 veces. Sin embargo es factible que la frecuencia de eventos aumente mucho más en-
tre los grados 2 y 3 que entre los grados 1 y 2. Si esto fuera el caso, es preferible agrupar
los grados 1 y 2 por una lado y los grados 3 y 4 por el otro, transformando la variable en di-
cotómica.
 Colesterolemia.
Se aplican las mismas consideraciones que en el caso anterior. Los OR fueron:
 1,10 para C = 1
 1,21 para C = 2
Invitamos al lector a que efectúe los cálculos para llegar a este resultado.
Evaluación del modelo
Se aplican los mismos conceptos sobre modelos vertidos en la página 7. Pero además hay
algunos elementos estadísticos a tener en cuenta:
 Se puede calcular un r2 (cuanto más alto mejor es el modelo) o un equivalente, denomina-
do desviación (cuanto menor, mejor es el modelo). Algunos software (por ejemplo, SPSS®)
calculan r2 y otros (por ejemplo, Statistix 7®) calculan la desviación.
 Los test de Hosmer-Lemeschow son pruebas de bondad de ajuste que calculan la probabi-
lidad de evento de cada individuo y comparan las probabilidades observadas y las espera-
das aplicando la distribución de χ2.
 Pueden armarse tablas de 2 x 2 cruzando los eventos observados y esperados y calculan-
do la sensibilidad y especificidad del modelo, como se muestra en la tabla 8 (página 15).
INTRODUCCIÓN AL ANÁLISIS MULTIVARIADO – PÁGINA 15

Tabla 8. Sensibilidad y especificidad de un modelo de regresión logística.


0,1: evento (-) y (+) respectivamente.

Esperado según modelo


1 0 Total
1 235 22 257
Observado 0 54 406 460
Total 289 428 717

Sensibilidad: 235 / 289 = 0,813. Especificidad: 406 / 428 = 0,949.

Esta es una evaluación especialmente útil debido a que nos informa de la capacidad de pre-
dicción del modelo, si la frecuencia de eventos no es muy baja ni muy alta. En el ejemplo de la
tabla 8, el modelo tiene una sensibilidad del 81,3 % y una especificidad del 94,9 %.
Si la frecuencia de eventos es muy baja o muy alta, la información sobre sensibilidad y / o especificidad puede no
corresponderse con la realidad.
Regresión logística por pasos
También en el caso de la regresión logística puede efectuarse una regresión por pasos. Tiene
los mismos principios y se interpreta de igual manera que la que ya vimos para variable de-
pendiente cuantitativa (página 7). No todos los software efectúan regresión logística por pasos,
pero es factible efectuarla completando manualmente la regresión logística. No nos extende-
remos en la técnica en este texto.

REGRESIÓN LOGÍSTICA Y ESTUDIOS RETRO O PROSPECTIVOS


La regresión logística se puede aplicar tanto a estudios retrospectivos como a prospectivos y,
dentro de éstos, tanto a los de corte transversal como a los de seguimiento.
Es importante tener presente que el análisis de regresión logística es siempre retrospecti-
vo, pues recién se pueden formar los grupos (evento – no evento) una vez terminado el estu-
dio. Por lo tanto, el análisis es retrospectivo independientemente que el estudio sea retro o
prospectivo.

REGRESIÓN DE COX
A los fines prácticos podemos considerarla similar a la regresión logística, con la que tiene 2
diferencias:
 Se aplica a datos incompletos (estudios de sobrevida).
 Se estima el hazard ratio (HR) en lugar del OR. HR es idéntico a riesgo relativo (RR). Es
importante tener en cuenta esta identidad pues algunos software indican HR y otros RR y
ambos están indicando exactamente lo mismo.
INTRODUCCIÓN AL ANÁLISIS MULTIVARIADO – PÁGINA 16

TAMAÑO DE MUESTRA Y NÚMERO DE VARIABLES EN


LOS MODELOS MULTIVARIADOS

TAMAÑO DE MUESTRA
Es necesario un número mínimo de eventos para que los resultados de regresión logística o
de Cox sean válidos. Por este motivo, en los protocolos prospectivos debe preverse continuar
el seguimiento o aumentar el número de pacientes (si es un estudio de corte transversal o de
seguimiento corto) si el número de eventos observados es menor al estimado al confeccionar
el protocolo. (Ver texto sobre análisis de sobrevida, página 11.)

NÚMERO DE VARIABLES INDEPENDIENTES INCLUIDAS EN EL MODELO


El ideal es no incluir más de una variable independiente por cada 20 pacientes y no más de
una variable por cada 10 eventos. Por ejemplo, si se estudiaron 360 pacientes y se observaron
40 eventos, podrían incluirse 18 variables independientes tomando en cuenta el número de
pacientes (360 / 20 = 18) pero no más de 4 variables si se toma en cuenta el número de even-
tos. Podrían incluirse 5 ó 6 variables independientes, pero si se incluyen 18 se pierde mucha
precisión en los estimados.
El análisis multivariado puede efectuarse cualquiera sea el número de variables incluidas. Si
en el ejemplo del párrafo anterior incluimos 60 variables en el modelo (una variable por cada 6
pacientes) podremos efectuar el análisis matemáticamente, pero sus resultados serán poco
precisos y no confiables.
Los criterios para elegir las variables que se incluirán en el análisis deben fijarse de antemano
en el protocolo y pueden ser:
 Las variables estadísticamente más significativas en el análisis univariado (todas las signi-
ficativas si el número de pacientes y de eventos lo permite).
 Cuando 0,05 < p < 0,10, la variable puede incluirse o no (debe definirse este aspecto)
 Variables estadísticamente no significativas pero de importancia fisiopatológica. Por ejem-
plo, en un estudio de mortalidad, la edad es una variable que puede incluirse en el modelo
aún cuando en el análisis univariado no demuestre diferencias significativas.

También podría gustarte