Está en la página 1de 5

Artculo de Educacin

Modelos de Regresin y Correlacin


REGRESSION AND CORRELATION MODELS
Claudio Silva Z1, Mauricio Salinas2
1. PhD en Estadstica Escuela de Salud Pblica Universidad de Chile. 2. MD MPH (c) Director Unidad Epidemiologa y Estadstica Fundacin Cientfica y Tecnolgica ACHS.

RESUMEN
En este nmero de C&T iniciamos una serie de artculos dedicados al tema de regresin y correlacin. En este artculo se definen y explican los conceptos bsicos de regresin lineal y correlacin. Se explica cmo opera y cmo aplicar un modelo de regresin lineal simple, as como la interpretacin de la informacin obtenida. Se detallan los supuestos que deben chequearse y cumplirse para que el modelo sea vlido y la importancia de evaluar los datos en forma grfica, antes de cualquier anlisis multivariado. Este artculo no pretende reemplazar libros especializados en el tema, pero s dar una visin general que permita entender cmo operan estos modelos y cules son sus virtudes y debilidades. (Silva C, Salinas M. 2006. Modelos de Regresin y Correlacin. Cienc Trab, Oct-Dic; 8 (22): 185-189. Descriptores: MODELOS LINEALES, REPRODUCIBILIDAD DE RESULTADOS, ANLISIS DE REGRESIN.

ABSTRACT
With this issue of C&T we initiate a series of articles dedicated to the subject of regression and correlation. This article defines and explains basic concepts of linear regression and correlation. It explains how it functions and how to apply a simple linear regression model, as well as the interpretation of information obtained. Assumptions that must be checked and complied with for the model to be valid and the importance of evaluating data graphically prior to any multivaried analysis are detailed. This article is not intended to replace specialized literature on the subject, but it does try to give an overview that allows to understand how these models work and which are their strengths and weaknesses. Descriptors: LINEAR MODELS; REPRODUCIBILITY OF RESULTS, REGRESSION ANALYSIS.

ASPECTOS GENERALES
Hablamos de Modelo de Regresin, para referirnos a una funcin matemtica que intenta modelar probabilsticamente una Variable Respuesta en estudio, en relacin a uno o ms predictores de inters. El modelo ms simple est constituido por una relacin lineal entre dos variables que responde a la pregunta: Dado un valor x de la variable predictora, cul sera el valor promedio (o esperanza) de todos los posibles valores de Y observables en presencia de X=x ? (Figura 1).

Figura 1. Relacin lineal entre dos variables X e Y.

E[Y|X=x] = 1*x + 0

E[Y|X=x]: Esperanza de la variable Respuesta cuando la variable predictora X vale x. X : variable predictora 1: pendiente de la recta 0: intercepto

Correspondencia / Correspondence: Claudio Silva Z Escuela de Salud Pblica Universidad de Chile Tel. (56-2) 978 65 39 e-mail: csilva@med.uchile.cl Recibido: 28 de noviembre de 2006 / Aceptado: 7 de diciembre de 2006.

Esta forma, que es la ms simple, puede ser algebraicamente ms compleja en la medida que hay ms variables predictoras, que algunas de estas variables son categricas (como el sexo por ejemplo) y/o la relacin entre las variables no es lineal. Una tipologa simple de los modelos de regresin se presenta en la Tabla 1. 185

Ciencia & Trabajo | AO 8 | NMERO 22 | OCTUBRE /DICIEMBRE 2006 | www.cienciaytrabajo.cl | 185/189

Artculo Original | Silva Claudio Tabla 1. Modelos de Regresin.


Situacin Un predictor continuo Mltiples Predictores Variable Respuesta Cuantitativa Regresin Lineal Simple Regresin Lineal Mltiple Variable Respuesta Cualitativa Regresin Logstica Regresin Logstica Mltiple

Donde: Yi: Valor de Y para cada observacin Xi: Valor de X para cada una de las observaciones Y: Valor promedio de la respuesta Y X : Valor promedio de la variable X

Cuando queremos conocer el grado de asociacin lineal entre las variables utilizamos el Coeficiente de Correlacin (R). El coeficiente de Correlacin lineal puede tomar valores entre -1 y 1. El valor cero implica que no existe ninguna asociacin lineal y el 1 significa asociacin perfecta: si es positivo, asociacin directa y, si es negativo, asociacin inversa. Se deben cumplir supuestos como distribucin normal bivariante e independencia entre las observaciones por analizar, lo cual explicaremos ms adelante. (Polit et al 2000). Regresin y Correlacin son dos conceptos vinculados, pero no equivalentes. Regresin se refiere a modelar la respuesta en relacin a los predictores para evidenciar una relacin estructural que nosotros postulamos y para estimar el valor ms probable de la respuesta Y para los sujetos con un perfil particular de valores de las variables predictoras, es decir, la(s) variable(s) predictora(s) y la respuesta Y desempean roles claramente distintos. La correlacin pretende medir el grado de asociacin lineal entre la respuesta y la(s) variable(s) predictora(s) sin diferenciacin de roles.

1 calcula la pendiente muestral de la recta de La expresin ^ regresin lineal. La expresin ^ 0 es el intercepto muestral, es decir, el valor de Y cuando X es igual a cero. Luego, podremos estimar para cada X un valor predicho para Y:
^ =^ 0 + ^ 1*x y (4)

Ejemplo: Supongamos que en diecisis varones sanos se ha registrado la edad y la presin arterial sistlica que se consignan en la Tabla 2 y se muestran en el Grfico 2. Tabla 2. Edad y Presin Arterial Sistlica para una Muestra Aleatoria de 16 Sujetos.
Paciente 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 Edad 23 23 27 28 29 30 31 31 32 33 33 35 37 37 40 41 Presin Arterial Sistlica (PAS) 120 130 123 125 125 126 136 133 134 127 123 127 130 135 130 138

REGRESIN LINEAL SIMPLE


Cuando hablamos de regresin lineal simple, nos referimos a la relacin entre una variable predictora y una variable respuesta, ambas de carcter cuantitativo continuo. El modelo de regresin lineal es el ms utilizado y por ser el matemticamente ms simple facilita entender otros modelos de regresin ms generales (Taucher 1997). El modelo se define por la siguiente expresin: (1) Y = 0 + 1*X + Donde: Y = Variable Respuesta, 0 = Intercepto, 1 = Pendiente, X = Variable predictora y = componente aleatoria que representa la parte atribuible a elementos distintos al valor observado de X. Si en n unidades de observacin, independientes entre s, hemos podido registrar los valores (x, y) podremos estimar los coeficientes de la expresin (1) recurriendo a las funciones;

Grfico 1. Presin Arterial Sistlica Versus Edad (n=16).

(Y Y)(X X) ^ = (X X)
n

i=1

(2)

i=1

^ = Y ^ X 0 1

(3)

186

185/189 | www.cienciaytrabajo.cl | AO 8 |NMERO 22 | OCTUBRE /DICIEMBRE 2006 |

Ciencia & Trabajo

Artculo Original | Modelos de Regresin y Correlacin Como conocemos los valores de X e Y, aplicando las expresiones (2) y (3) podemos estimar los valores: ^ = 0,55 1 ^ = 111,2 0 Una vez que hemos estimado los parmetros del modelo podemos crear la recta lineal, estimar los coeficientes de determinacin y correlacin y evaluar el ajuste del modelo. Para esto debemos considerar las siguientes cantidades asociadas a cada observacin (xi, yi): yi: Valor de la respuesta Y en esa observacin, ^ Valor de la respuesta Y estimado de acuerdo al modelo en esa y i observacin, y : Valor promedio de la respuesta Y a travs de las n observaciones de la muestra aleatoria, ei : Valor residuo asociado a esa observacin, corresponde a la ^, o diferencia entre el valor observado yi y el valor estimado y i ^ sea, ei = yi: y i , i = 1,,n. Notemos que para cada observacin de nuestra muestra se cumple la siguiente identidad: ^) + ( y ^ y) y y = (y y Esta frmula est ilustrada en el Grfico 2. En este grfico observamos junto a la dispersin de los puntos (edad, PAS), la recta horizontal que corresponde al promedio de la variable respuesta (presin arterial sistlica promedio de la muestra) y la recta de regresin, que corresponde al modelo escogido. La variabilidad explicada por el modelo es la diferencia entre el valor estimado de la presin arterial sistlica y su promedio muestral y la variabilidad no explicada (el error) es la diferencia entre el valor observado de la presin arterial sistlica y su estimado. Si sumamos estas dos variabilidades, obtenemos la variabilidad total. Si consideramos la suma de los cuadrados de cada una de estas tres diferencias a travs de los puntos de la muestra obtenemos las siguientes expresiones asociadas a varianza muestral: pueda tener con EDAD. ^ y )2: Se asocia a la ganancia en varianza EXPLICADA al (y pasar nosotros de un modelo elemental que prediga para todas las edades (xi) el mismo valor de PAS. sta es la variabilidad que est siendo explicada por el modelo de regresin. ^ )2: Se asocia a las diferencias entre cada PAS observada (y y y la predicha por el modelo de regresin lineal simple a partir de la informacin EDAD. Es la variabilidad de Y=PAS no atribuible a las diferencias en EDAD; se le llama Error Residual del modelo o residuo. Una identidad fundamental (Canavos 2000) vincula estas tres cantidades:

La expresin de la izquierda del signo = es constante para una muestra dada y no vara si estudiamos distintos modelos para la relacin PAS vs. EDAD; en cambio, los dos trminos de la derecha dependen del modelo en estudio: Mientras mejor sea el modelo, mayor ser la primera suma (mayor ser la variabilidad de la PAS explicable por la EDAD) y menor ser la segunda suma (menor ser la variabilidad residual, o sea la variabilidad de PAS no atribuible a diferencias de EDAD). Es cmodo describir el balance entre estas dos ltimas cantidades a travs del llamado coeficiente de determinacin definido como: R2 = Variabilidad de la respuesta EXPLICADA por el Modelo Variabilidad TOTAL. En nuestro ejemplo R2 vale 0,31. Esto quiere decir que la prediccin lineal de PAS usando la variable EDAD, logra explicar (segn nuestros datos) el 31% de la varianza total de la respuesta PAS. Una forma de describir la asociacin lineal entre las variables X e Y es utilizar el coeficiente de correlacin (R), que corresponde a la raz cuadrada del R2. En el caso de nuestro ejemplo es 0,56.

SUPUESTOS DEL MODELO


En estadstica todos los modelos utilizados tienen supuestos de distinta naturaleza y la regresin no es la excepcin. Siempre que uno haya estimado un modelo de regresin, deber asegurarse que los supuestos requeridos se cumplen; en caso contrario, los errores de interpretacin a que podemos ser conducidos sern muy graves. Procedimientos adecuados para evaluar objetivamente el cumplimiento de estas condiciones y posibles acciones de correccin para el caso de que no se cumplan abundan en la literatura estadstica. El modelo de regresin lineal tiene como supuestos: 1. La variable respuesta Y tiene distribucin condicional (es decir para cada valor X=x) que es normal. Esto equivale a decir que los residuos deben tener distribucin de probabilidad normal. 2. La varianza condicional (es decir para cada valor X=x) de la variable respuesta debe ser constante. Esto equivale a decir los residuos tienen varianza constante para todos los valores de X. 3. Los valores de la respuesta deben ser probabilsticamente independientes. Es decir, los residuos correspondientes a distintas observaciones deben ser no correlacionados (ausencia de autocorrelacin) (Gujarati 1997). 187

( y y ) : Se asocia a la varianza TOTAL de la respuesta PAS


2

hallada en la muestra, sin prestar atencin a la relacin que ella Grfico 2. Grfico de Dispersin de Presin Arterial Sistlica (PAS) y Edad.
Respuesta estimada por el modelo ( y i )

}
Promedio ( y )

Residuo (ei) Variabilidad explicada por el modelo

Ciencia & Trabajo | AO 8 | NMERO 22 | OCTUBRE /DICIEMBRE 2006 | www.cienciaytrabajo.cl | 185/189

Artculo Original | Silva Claudio Un elemento importante a considerar al aplicar un modelo de regresin lineal es que la variable respuesta debe ser una variable cuantitativa continua. En ocasiones, es posible aplicar el modelo a variables cuantitativas discretas, en el caso de escalas de puntaje de gran amplitud. Por ltimo, sugerimos a todos aquellos que deseen utilizar regresin lineal siempre graficar previamente los datos, ya que se puede encontrar una asociacin no lineal mucho ms poderosa que, a travs de un mtodo multivariado no lineal, permitir una prediccin mucho mejor de la variable respuesta. Veamos el ejemplo de la Tabla 3, que se refiere al nmero de colonias bacterianas obtenidas a distintas temperaturas de incubacin. Tabla 3. Nmero de Colonias Bacterianas Obtenidas a Distintas Temperaturas de Incubacin.
Temperatura Incubacin (G Celsius) 2 4 5 6 7 8 9 9 11 12 12 14 15 17 19 21 25 29 30 34 36 Nmero de Colonias 8 12 10 18 25 36 58 72 76 102 115 157 184 196 221 270 284 321 358 409 439 Temperatura Incubacin (G Celsius) 38 38 40 41 43 43 47 49 50 51 52 52 56 59 60 61 65 66 69 70 Nmero de Colonias 496 530 576 635 690 740 792 839 907 970 1050 1300 1350 1400 1380 1508 1609 1593 1594 1700

Grfico 3. Nmero de colonias bacterianas obtenidas a distintas temperaturas de incubacin. Modelo de regresin lineal.

^ : 0,36 1 ^ : 40,91 0 R2 : 0,98 Este modelo logra una prediccin mejor que el modelo lineal. Si lo vemos grficamente (Grfico 4): Grfico 4. Nmero de colonias bacterianas obtenidas a distintas temperaturas de incubacin. Modelo de regresin introduciendo un trmino cuadrtico.

Si decidimos hacer regresin lineal simple, podemos calcular los valores de ^0 y ^1 mediante las frmulas (2) y (3) y obtendremos: ^ : 25,2 1 ^ : -234,9 0 Con esos valores creamos nuestro modelo lineal. Si calculamos el coeficiente de determinacin (R2) obtenemos 0,93. Aparentemente la regresin lineal es una excelente herramienta para describir la relacin entre estas dos variables. Veamos ahora un grfico de dispersin de los datos (Grfico 3). La lnea roja representa la recta de regresin lineal obtenida con nuestro modelo. A pesar que la asociacin lineal obtenida es muy fuerte, la distribucin espacial de los puntos recuerda a una parbola. Ahora que hemos visto esta distribucin, intentaremos ajustar un modelo de regresin introduciendo un trmino cuadrtico. Con esos datos obtenemos:

Este ejemplo reitera la importancia de evaluar grficamente la informacin antes de aplicar el modelo lineal.

188

185/189 | www.cienciaytrabajo.cl | AO 8 |NMERO 22 | OCTUBRE /DICIEMBRE 2006 |

Ciencia & Trabajo

Artculo Original |Modelos de Regresin y Correlacin

CONCLUSIONES
La regresin y correlacin son dos conceptos cercanos, pero no equivalentes. La regresin intenta predecir una respuesta dada Y, a travs de uno o ms predictores X. La regresin lineal es, desde el punto de vista matemtico, el modelo ms simple y relaciona un predictor con la variable respuesta Y, mediante una lnea recta.

Siempre se debe chequear que se cumplan los supuestos de los modelos de regresin, para no cometer errores de interpretacin de la informacin y siempre es recomendable graficar las variables en estudio para ver su comportamiento espacial y buscar relaciones no lineales. Si se desea ms informacin, se sugiere revisar los libros que se encuentran en el listado de referencias.

REFERENCIAS
Canavos G. 1988. Anlisis de regresin: el modelo lineal simple. Probabilidad y estadstica: aplicaciones y mtodos. 1a ed. Mxico: Mc Graw-Hill. p. 443-502. Gujarati D. 1997. Econometra. 3a ed.Colombia: Mc Graw Hill. Captulos 1, 2 y 3. Polit D, Hungler B, eds. 2000. Procedimientos estadsticos multivariados. En: Investigacin Cientfica en Ciencias de la Salud. 6a ed. Mxico: Mc Graw Hill. p. 485 520. Taucher E. 1997. Bioestadstica. 1a ed. Santiago, Chile: Editorial Universitaria. Captulos 21 y 22.

Ciencia & Trabajo | AO 8 | NMERO 22 | OCTUBRE /DICIEMBRE 2006 | www.cienciaytrabajo.cl | 185/189

189

También podría gustarte