Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Ochoa Sangrador C, Molina Arias M, Ortega Páez E. Análisis multivariante. Regresión lineal múltiple. Evid Pediatr. 2023;19:22.
Para recibir Evidencias en Pediatría en su correo electrónico debe darse de alta en nuestro boletín de novedades en
http://www.evidenciasenpediatria.es
Fundamentos MBE
Hay numerosos métodos de análisis multivariante, que varían Las técnicas de análisis multivariante pueden tener objetivos
en función del tipo de datos involucrados en el análisis (nú- diferentes:
mero de variables dependientes e independientes y escalas de
medida de las variables, etc.) y del objetivo del mismo (de 1. Reducir o simplificar datos. Ayuda a que los datos se sin-
clasificación, estimativo o predictivo). Habitualmente estos teticen al máximo sin sacrificar información valiosa para
análisis se emplean para identificar si una serie de variables facilitar la interpretación.
independientes están asociadas o no a una variable depen- 2. Ordenar y agrupar. Cuando tenemos múltiples variables,
diente.Algunas técnicas permiten analizar la relación de varias se crean grupos de objetos o variables “similares”, basa-
variables dependientes con una o varias independientes. dos en características medidas.
3. Estimar la dependencia entre variables. Permite identificar
El análisis multivariante es más potente y preciso que el aná- si las variables son mutuamente independientes o una o
lisis estratificado y, al integrar más información, ofrece una más variables dependen de las demás y, en este caso, esti-
estimación más válida de la realidad. La complejidad de los mar el grado de dependencia.
análisis, superadas las limitaciones de capacidad de cálculo 4. Predecir variables. Busca predecir los valores de una o
con los procesadores modernos, radica principalmente en la más variables en función de los valores de otras variables.
interpretación de los numerosos resultados que nos van a
Fundamentos MBE
Escala Medida
5. Contraste o validación de hipótesis. Permite probar hipó- 2. Codificación de variables y elección de los valores
tesis estadísticas específicas, formuladas en términos de de referencia
parámetros multivariantes, para validar o reforzar suposi-
ciones o convicciones previas. Para variables métricas elegiremos si el valor de referencia es
el valor más bajo o el más alto. En el caso de variables codifi-
cadas como 0 y 1, el valor de referencia será habitualmente el
PROCESO DE MODELIZACIÓN MULTIVARIANTE 0. Para variables nominales politómicas tendremos que crear
variables indicadoras (dummies), que condicionarán la inter-
El diseño y optimización de modelos multivariantes, tanto pretación de los resultados en función del método de codifi-
predictivos como estimativos, es un proceso estadístico rela- cación elegido. El tipo de codificación condicionará el sentido
tivamente complejo, que sigue una serie de pasos: de los coeficientes y su interpretación. Más adelante veremos
un ejemplo de ellas.
Fundamentos MBE
lineal, cambios en la razón de verosimilitudes para regresión En la que Y es el valor de la variable dependiente, a es la
logística), se emplea para ir comparando los modelos a cada constante del modelo (equivale al valor de la variable inde-
paso. pendiente cuando todas las dependientes valen cero o cuan-
do no hay efecto de las variables independientes sobre la
dependiente), bi los coeficientes de cada variable indepen-
4. Evaluación de la fiabilidad del modelo diente (equivale al cambio de valor de Y por cada unidad de
cambio de Xi) y Xi sus valores.
Consiste en, una vez seleccionado el mejor modelo, compro-
bar si los datos predichos por él concuerdan con los datos Para variables nominales dicotómicas, el coeficiente se inter-
observados en una nueva muestra de sujetos, obtenida de la preta como la diferencia de medias de la variable dependien-
misma población de la que se obtuvo la muestra original. Con te para cada categoría de la variable independiente (en igual-
frecuencia, esto resulta poco factible, por lo que se recurre a dad del resto de variables independientes). Los modelos
fraccionar la muestra original, estimar el modelo en una de las calculan los errores estándar de cada coeficiente, a partir de
submuestras y contrastar su fiabilidad con los datos de la los cuales obtenemos los intervalos de confianza. La estima-
submuestra restante. Existen diferentes medidas que se pue- ción de los coeficientes resulta más compleja que la empleada
den aplicar para contrastar la fiabilidad del modelo, adaptadas con la regresión lineal simple, pero se sustenta en los mismos
a cada tipo de análisis. principios.
A continuación, mostraremos los pasos del análisis multiva- Para ilustrar el procedimiento de modelización emplearemos
riante para la regresión lineal múltiple. En próximos artículos los datos de un estudio sobre factores predictivos de gas-
repasaremos otras técnicas. troenteritis bacteriana. En la Figura 2 se presenta el diagra-
ma de dispersión, del peso estandarizado (Zscore_Peso) en
función de la edad de los pacientes, diferenciando los puntos
REGRESIÓN LINEAL MÚLTIPLE en función del sexo. A la izquierda se presenta con la línea de
regresión global y a la derecha por subgrupos de sexo.
La regresión lineal múltiple es una extensión de la regresión
lineal simple, previamente descrita en un documento anterior La fórmula insertada en cada gráfica nos permite estimar para
de Fundamentos. Se utiliza cuando queremos predecir el va- cada edad el peso estandarizado. Vemos que por cada año
lor de una variable medida en una escala continua, de razones aumenta el peso 0,09 desviaciones estándar; la interpretación
o intervalos, en función del valor de otras dos o más variables. natural es que los niños más pequeños tienen más afectación
La variable que queremos predecir es la variable dependiente. ponderal que los mayores. Si queremos mejorar la predicción
incorporando al modelo el sexo, vemos que tanto las cons-
La regresión múltiple tiene una serie de requisitos: linealidad (la tantes (a: 0,72 para niños y 0,67 para niñas), como los coefi-
relación entre las variables debe ser lineal), normalidad y homo- cientes de la regresión (b: 0,12 para niños y 0,07 para niñas)
cedasticidad de los residuos (las diferencias entre los valores son diferentes. Sumando las diferencias de constantes y coefi-
observados y los predichos por el modelo deben seguir una cientes podemos estimar la diferencia de peso estandarizado
distribución normal con varianzas iguales a lo largo de todos los entre sexos, ajustada por edad; en nuestro ejercicio, aproxi-
valores de las variables), equilibrio entre número de casos y madamente 0,10 desviaciones estándar (0,72 - 0,67 + 0,12 -
variables (se requieren al menos 20 observaciones por cada 0,07). Además del sexo, nos puede interesar estimar el efecto
variable incluida en el modelo), ausencia de colinealidad (debe- de otras variables en el peso, por ejemplo, la frecuencia de
mos evitar introducir en el modelo variables independientes deposiciones. Si añadimos nuevas variables independientes la
interrelacionadas) y control de valores fuera de rango (las ob- representación gráfica, necesariamente multidimensional, es
servaciones con valores atípicos distorsionan los modelos). más compleja, por lo que prescindiremos de ella.
Como se mencionó en el documento de regresión lineal sim- Veamos a continuación los pasos de la modelización.
ple, la regresión lineal se basa en la correlación entre variables
y se concreta en la fórmula de regresión que permite estimar
el valor de la variable dependiente a partir del valor de la 1. Elección del modelo máximo
variable independiente. La regresión lineal múltiple es una ex-
tensión de la simple, en la que la estimación se realiza a partir El primer paso será elegir las variables independientes que
de los valores de dos o más variables independientes. entrarán en el análisis. En función de nuestro conocimiento
previo de la enfermedad a estudiar y del comportamiento de
La ecuación general de la regresión lineal múltiple es de la los datos en análisis previos, hemos decidido incluir en el
forma: modelo tres variables independientes: la edad, el sexo y la
frecuencia de deposiciones.
Y = a + b1X1+ b2X2 + …. + bmXm
Fundamentos MBE
Figura 2. Diagramas de dispersión del peso estandarizado y la edad, con las rectas de regresión global y
separadas por sexos
2. Codificación de variables y elección de los valores En la Figura 3 presentamos una salida de resultados de la
de referencia regresión lineal múltiple, realizada en RCommander, para tres
modelos, el primero con las tres variables del modelo máxi-
La variable edad se procesará con sus valores originales, con- mo y los siguientes, con la eliminación de las variables con
siderando la unidad el año. Para poder operar con la variable menor significación. Podemos ver las variables de cada mode-
sexo hemos recodificado los valores originales de la variable lo, los coeficientes (Estimate), los errores estándares (Std.
(1 masculino, 2 femenino) en nuevos valores que van a facilitar Error), el estadístico de contraste (t value) y su significación
la interpretación de las estimaciones: 1 sexo masculino, 0 (Pr(>|t|)); junto a cada modelo se representa su estadístico F,
sexo femenino; de esta manera los coeficientes estimados su nivel de significación y los coeficientes de determinación
para esta variable mostrarán la diferencia de peso estandari- múltiple, R2 (“Multiple R-squared”), y sus estimadores ajusta-
zado de los niños respecto a las niñas. Para la tercera variable, dos al número de variables (“Adjusted R-squared”). Los coefi-
número de deposiciones, como es una variable ordinal, que cientes de determinación son los cuadrados de los coeficien-
no garantiza el supuesto de relación lineal, la simplificamos tes de correlación entre los valores observados de la variable
recodificándola como dicotómica: más de 3 deposiciones al dependiente y los predichos a partir de los coeficientes y
día (1) o menos (0); de esta manera los coeficientes expresa- valores de las variables independientes. R2 equivale al porcen-
rán la diferencia de peso de los que tienen 3 o más deposicio- taje de varianza que el modelo explica, cuanto mayor sea este
nes respecto al resto. porcentaje mejor será el modelo.
Fundamentos MBE
FiguraFigura
3. Regresión lineal múltiple
3. Regresión linealpara peso estandarizado
múltiple para peso estandarizado.
Fundamentos MBE