Está en la página 1de 3

Artculo de Educacin

Modelos de Regresin y Correlacin II. Regresin Lineal Mltiple


REGRESSION MODELS AND CORRELATION II. MULTIPLE LINEAR REGRESIN
Mauricio Salinas F1, Claudio Silva Z2
1. MD, Magister, Master en Salud Pblica, Mencin Salud Ocupacional (c)Director Unidad de Epidemiologa y Estadstica, Fundacin Cientfica y Tecnolgica ACHS. 2. PhD Estadstica. Escuela de Salud Pblica, Universidad de Chile.

RESUMEN
Continuando con la serie dedicada a Regresin y Correlacin, en este artculo se revisa la tcnica de regresin lineal mltiple, explicando cmo opera y cundo se utiliza. Se analiza un ejemplo utilizando el Software Epi Info, detallando la informacin entregada por el programa, cul es su explicacin y cmo se interpreta. Se explica cmo introducir variables categricas en el modelo de regresin lineal mltiple mediante la creacin de variables dummy. Finalmente, se explica la importancia de revisar los supuestos del modelo y asegurar un tamao de muestra adecuado para que la estimacin de coeficientes del modelo sea correcta. (Salinas M, Silva C. 2007. Modelos de Regresin y Correlacin II. Regresin Lineal Mltiple. Cienc Trab, Ene-Mar.;9 (23):39-41) Descriptores: MODELOS LINEALES, REPRODUCIBILIDAD DE RESULTADOS, ANLISIS DE REGRESIN.

ABSTRACT
Continuing the series dedicated to Regression and Correlation, this article reviews the multiple linear regression technique, explaining how it operates and when it is used. An example is analysed using Epi Info Software, detailing the information provided by the program, its explanation and how it is interpreted. An explanation is given on how to introduce categorical variables in the multiple linear regression model by creating dummy variables. Finally, an explanation is provided on the importance of reviewing the assumptions of the model and insure a sample size adequate for the estimation of the model coefficients to be correct. Keywords: LINEAR MODELS; REPRODUCIBILITY OF RESULTS, REGRESSION ANALYSIS.

INTRODUCCIN
Continuando con el artculo de educacin del nmero anterior de Ciencia & Trabajo, revisaremos los principales aspectos del mtodo de regresin lineal mltiple. Es recomendable haber ledo previamente el artculo mencionado. La regresin lineal mltiple es una tcnica que intenta modelar probabilsticamente el valor esperado de una variable Y, a partir de los valores de dos o ms predictores. Es un mtodo muy poderoso y ampliamente utilizado en investigacin (Canavos 1988) para: Determinar la posibilidad de predecir a travs de una expresin muy simple el valor de la respuesta de inters, a partir de los valores observados de una serie de factores (por ejemplo: riesgo de silicosis, a partir de edad, tiempo trabajando expuesto a slice, uso de elementos de proteccin, etc.). Son los predictores propuestos adecuados para modelar en forma lineal la respuesta de inters?

Determinar la importancia relativa de la asociacin lineal entre


la respuesta y un predictor respecto a la asociacin entre ella y otro predictor. Cules de los predictores propuestos son los eficaces para modelar la respuesta en forma sencilla? Estimar la relacin lineal entre los predictores y la variable respuesta a partir de nuestros datos: Cul sera el modelo lineal que recomendaramos ms adecuado, sencillo, pero relativamente preciso? La regresin lineal mltiple es matemticamente similar a la regresin lineal simple (Taucher 1997, Polit y Hungler 2000), tomando la siguiente forma:

Y = 0 + 1*X1 + 2*X2 + + p*Xp + e

(1)

Correspondencia / Correspondence: Mauricio Salinas F. Fundacin Cientfica y Tecnolgica ACHS Diagonal Paraguay 29, piso 4, Santiago Tel.: (56-2) 685 29 61 e-mail: msalinasf@achs.cl Recibido: 17 de Enero de 2007 / Aceptado 30 de Enero de 2007

Donde: Y Variable respuesta 0 Intercepto 1 Pendiente del predictor X1 2 Pendiente del predictor X2 p Pendiente del predictor Xp e Parte de la variabilidad de la respuesta correspondiente a un perfil dado de los predictores no explicada por el conjunto de los distintos predictores; parte aleatoria del modelo de regresin mltiple. El mtodo de estimacin de parmetros es equivalente al modelo de regresin lineal simple (Salinas y Silva 2007), pero en este caso se realiza a travs de matrices. El detalle de la estimacin mediante matrices es relativamente complejo y escapa a los objetivos de este artculo de educacin, por lo cual no ser revisado. 39

Ciencia & Trabajo | AO 9 | NMERO 23 | ENERO / MARZO 2007 | www.cienciaytrabajo.cl | 39/41

Artculo Original | Salinas Mauricio Los clculos y valores de los estimadores que se requieren en los ejemplos siguientes se pueden obtener mediante el programa Epi Info, de distribucin gratuita y que se puede descargar en la direccin de Internet www.cdc.gov/epiinfo/. A continuacin analizaremos un ejemplo. Tenemos los siguientes datos obtenidos de una muestra aleatoria de 19 individuos, en relacin a Presin Arterial Sistlica (PAS), edad y peso. Tabla 1. Presin Arterial Sistlica, Edad y Peso para una muestra de 19 individuos..
Id 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 Presin Arterial Sistlica (mmHg) 118 140 130 125 137 114 105 139 154 128 111 119 160 131 127 119 130 142 149 Edad (aos) 35 37 25 20 40 28 23 39 38 30 20 23 45 48 37 31 33 38 38 Peso (Kg) 89 76 77 71 89 80 75 85 86 81 75 73 90 91 90 83 82 84 90

ponde al Coeficiente de Determinacin; el coeficiente de correlacin es la raz cuadrada de ste). Por ltimo, tenemos una tabla donde se presentan los valores de la suma y media de cuadrados, los grados de libertad (g.l.) y la estadstica F. Las distintas pruebas de significacin que se pueden aplicar en modelos de regresin las veremos en otro captulo de esta serie, as que por el momento no analizaremos la estadstica F, y slo utilizaremos el valorp obtenido. Como se explic en el artculo sobre regresin lineal simple, para cada punto de la muestra tenemos asociados tres valores: (y y )2: Corresponde a la variabilidad total de la respuesta PAS hallada en la muestra, sin prestar atencin a la relacin que ella pueda tener con el predictor Edad. En el ejemplo corresponde al valor 3874,632.

(y y )2: Se asocia a la ganancia en variabilidad explicada al


pasar nosotros de un modelo elemental que prediga para todas las edades (xi ) el mismo valor y de PAS, a otro y que toma en cuenta la influencia lineal que Edad parece tener sobre PAS. sta es la variabilidad que est siendo explicada por el modelo de regresin y en este caso equivale a 1959,484.

(y y)2: Se asocia a las diferencias entre cada PAS observada


(y) y la predicha (y) por el modelo de regresin lineal simple a partir de la informacin Edad. Es la variabilidad de Y=PAS no atribuible a las diferencias en Edad y se llama Residuo. El valor de la suma de cuadrados de los 19 residuos es 1915,148. Si dividimos la suma de cuadrados del modelo sobre la total, es decir 1959,484/3874,32, obtenemos el valor del coeficiente de determinacin: 0,506 (r2) El mtodo para realizar pruebas de significacin lo veremos en otro captulo, as que, por el momento, podemos concluir lo siguiente de la informacin entregada respecto a la Edad: 1. Tiene una asociacin positiva con la PAS, ya que la pendiente muestral (el coeficiente 1,275) es de signo positivo. 2. La asociacin es estadsticamente significativa, de acuerdo a nuestra definicin previa: valorp de la edad 0,001. 3. El r2 es 0,51, es decir, la edad explica el 51% de la variabilidad de PAS, en nuestra muestra. Veamos ahora la relacin entre PAS y Peso. El Epi Info nos entregar: Podemos ver que el peso es tambin un predictor estadsticaVariable Coeficiente 1,193 32,001 Error Estndar 0,464 38,358 F 6,6221 0,6960 Valor-P 0,020 0,416

Analicemos primero la relacin entre la variable respuesta PAS y Edad mediante una regresin lineal simple. Definiremos como significativa una relacin con un valor-p menor a 0,05, que es una convencin muy frecuente. Una vez digitados los datos en Epi Info, pedimos se estime a partir de ellos una regresin lineal y obtenemos lo siguiente:
Variable EDAD INTERCEPTO Coeficiente 1,275 88,272 Error Estndar 0,306 10,396 F 17,3936 72,1004 Valor-P 0,001 0,000

Coeficiente de Determinacin: r2= 0.51 gl Modelo Residuo Total 1 17 18 Suma de Cuadrados 1959,484 1915,148 3874,632 Cuadrado Medio 1959,484 112,656 F 17.394 PESO INTERCEPTO

Coeficiente de Determinacin: r2= 0.28 gl Suma de Cuadrados 1086,198 2788,434 3874,632 Cuadrado Medio 1086,198 164,026 F 6,622

La primera tabla nos muestra el coeficiente asociado a la edad, es decir, el valor de la pendiente (los valores de la frmula 1), el error estndar, el valor de la estadstica F y su p-value asociado. Despus aparece el coeficiente de determinacin (r2) ya explicado en el captulo anterior (Silva y Salinas 2007). (El Epi Info lo informa por error como Correlation Coeficient, ya que corres-

Modelo Residuo Total

1 17 18

mente significativo de la PAS, con un p value de 0,02. El peso logra explicar, de acuerdo a nuestros datos, el 28% de la variabilidad total de la PAS.

40

39/41 | www.cienciaytrabajo.cl | AO 9 | NMERO 23 | ENERO / MARZO 2007 |

Ciencia & Trabajo

Artculo Original | Modelos de Regresin y Correlacin II. Regresin Lineal Mltiple Considerando que tanto la Edad como el Peso son predictores de la PAS, podemos considerar utilizarlas en conjunto. Esto nos permitira: Mejorar nuestra prediccin. Disminuir el error o residuo del modelo. Cuantificar la importancia de cada predictor en conjunto. Entonces, procedemos a estimar un modelo que contiene los dos predictores obteniendo lo siguiente:
Variable EDAD PESO INTERCEPTO Coeficiente 1,853 -0,834 137,934 Error Estndar 0,619 0,777 47,465 F 8,9693 1,1494 8,4451 Valor-P 0,009 0,301 0,011

categoras en cuestin. Analicemos el ejemplo de la Tabla 2, donde tenemos una variable predictora Color de Ojos que tiene tres categoras. Tabla 2. Ejemplo de creacin de variables binarias para la variable categrica Color de Ojos.
COLOR DE OJOS Verde Azul Marrn S1 1 0 0 S2 0 1 0 S3 0 0 1

Coeficiente de Determinacin: r2= 0.54 gl Modelo Residuo Total 2 16 18 Suma de Cuadrados 2087,843 1786,788 3874,632 Cuadrado Medio 1043,922 111,674 F 9,348

Al generar un modelo combinado, podemos ver que la Edad contina siendo un predictor estadsticamente significativo, no as el Peso. Esto quiere decir que la Edad logra una prediccin buena y mejor que la del Peso; la prediccin de la Edad no logra ser mejorada por la adicin del Peso al modelo. De hecho, el r2 del modelo PAS vs. Edad es 0,51, apenas menor que el r2 de este modelo (0,54).

En este caso hemos creado tres variables binarias, denominadas S1, S2 y S3 que permiten introducir la variable en el modelo de regresin. S1 representa el color de ojos verde; S2 el color de ojos azul y S3 el color de ojos marrn. Generalmente se introducen dos de estas variables en el modelo (S1 y S2, por ejemplo) y se deja una de ellas como valor de referencia (S3, por ejemplo). Este tipo de variables binarias son llamadas variables dummy. Para variables categricas con ms de tres niveles, se opera de la misma forma. En general, una variable categrica de k niveles deber representarse mediante k-1 variables binarias.

SUPUESTOS
El modelo de regresin lineal mltiple requiere que se satisfagan bsicamente los mismos supuestos que el modelo de regresin lineal simple. Como se plante en el primer artculo de esta serie, tales supuestos deben ser verificados en cada situacin problema para no provocar errores de modelacin de la informacin recibida (Gujarati 1997). Otro punto importante a tener en cuenta si se desea generar un modelo de regresin mltiple es el tamao (n) de la muestra. Mientras ms predictores se quiera incorporar en el modelo mayor ser el valor de n necesario para poder estimar eficientemente los coeficientes de la regresin. En forma muy gruesa, podemos decir que se requiere al menos 10 observaciones por cada predictor en el modelo. Sin embargo, existen mtodos especficos para estimar el tamao muestral adecuado en el estudio de un modelo de regresin.

UTILIZACIN DE VARIABLES CUALITATIVAS


Frecuentemente, al utilizar regresin lineal mltiple, parece deseable tener en consideracin una o ms variables cualitativas (nominales u ordinales). Cuando se utiliza una variable que tiene dos categoras posibles (sexo, por ejemplo), ella es ingresada en el modelo e interpretada de igual forma que las variables cuantitativas, pero llevndola a valores binarios 0 y 1. Cuando se trata de una variable categrica X que tiene tres categoras, deberemos reemplazarla por variables binarias (valores 1 y 0), cuyas combinaciones identificarn inequvocamente las 3

REFERENCIAS
Canavos G. 1988. Anlisis de regresin: el modelo lineal simple. En: Probabilidad y estadstica: aplicaciones y mtodos. 1a ed. Mxico: Mc GrawHill. p. 443-502. Gujarati D. 1997. Econometra. 3a ed. Colombia: Mc Graw Hill. Polit D, Hungler B, eds. 2000. Procedimientos estadsticos multivariados. En: Investigacin Cientfica en Ciencias de la Salud. 6a ed. Mxico: Mc Graw Hill. p. 485 520. Silva C, Salinas M. 2007. Modelos de Regresin y Correlacin. Revista Cienc Trab, Oct Dic; 8 (22). 185 9. Taucher E. 1997. Bioestadstica. 1a ed. Santiago: Editorial Universitaria.

Ciencia & Trabajo | AO 9 | NMERO 23 | ENERO / MARZO 2007 | www.cienciaytrabajo.cl | 39/41

41

También podría gustarte