Está en la página 1de 5

REGRESION simple

Correlacin Lineal: o Dadas dos variable numricas continuas X e Y , decimos que estn correlae a cionadas si entre ambas variables hay cierta relacin, de modo que puede o predecirse (aproximadamente) el valor de una de ellas conocido el valor de la otra; en este sentido, decimos que la correlacin es positiva si al aumentar o una de las variables aumenta tambin la otra, y negativa en caso contrario. e Si queremos predecir el valor de Y a partir de X, decimos que X es el regresor, e Y la variable explicada. Si X e Y no estn relacionadas en modo alguno, a decimos que son incorreladas. Si X e Y estn correlacionadas, tiene sentido buscar la frmula que permita a o aproximar una de ellas, digamos Y , conocida la otra. Segn el tipo de frmula u o que mejor se adapte a los datos, hablamos de correlacin lineal (Y = a+bX), o correlacin cuadrtica (Y = a + bx + cx2 ), exponencial (Y = abX ), etc. o a En nuestro caso, nos centraremos en la correlacin lineal. o Medida de la Correlacin Lineal: o Para evaluar la fuerza de la correlacin lineal entre dos variables X e Y , es o decir, la idoneidad de una aproximacn Y = a + bX, lo primero que haremos o ser reunir datos del tipo (x1 , y1 ), (x2 , y2 ), . . . , (xn , yn ); es decir, mediremos los a valores de X e Y sobre n individuos de una cierta poblacin; a un conjunto o de datos de este tipo se le llama una distribucin bidimensional. A partir o de estos datos, calcularemos los siguientes parmetros, que permiten evaluar a distintos aspectos de la correlacin lineal. o (1) Nube de Puntos: Es la representacin grca de los datos (xi , yi ). La o a forma de la regin que conguran permite evaluar si hay o no correlacin o o entre las variables: si la nube de puntos se aproxima a una curva con forma geomtrica denida, hay correlacin entre ambas; si la nube de puntos no e o se aproxima a ninguna curva en particular (es decir, es ms bien informe), a entonces son incorreladas. En el primer caso, la curva a la que se aproxime la nube de puntos sugerir el modelo a utilizar: lineal (Y = a + bX) si es a una recta, cuadrtica (Y = a + bX + cX 2 ) si es una parbola, etc. En el caso a a de la correlacin lineal, la nube de puntos debe ser alargada, y prxima a o o una recta intermedia. (2) Covarianza: Es un parmetro que depende tanto de la fuerza de la cora relacin lineal, como de la dispersin y el tamao de las xi , por un lado, y o o n 1

las yj , por otro. Cuanto ms prxima est a 0, ms dbil ser la correlacin a o e a e a o lineal entre las variables. Se calcula como: sxy =
i=1,...,n (xi

x)(yi y ) = n

i=1,...,n

xi yi

xy

Si la correlacin es positiva, entonces sxy > 0; si es negativa, sxy < 0. o (3) Coeciente de correlacin lineal de Pearson: o = sxy sx sy

Se cumple que: Depende slo de la fuerza de la correlacin lineal. o o 1 1 Si > 0, la correlacin es positiva; si < 0, negativa. o La correlacin es tanto ms fuerte cuanto ms prximo est a 1 o 1. o a a o e (4) Coeciente de correlacin lineal de Spearman (o por Rangos): Es o ms robusto que (es decir, menos sensible a datos at a picos). Si representamos por Rx , Ry los rangos de los xi , yj , respectivamente, entonces rs = sRx ,Ry sRx sRy

Sus propiedades son completamente anlogas a las de . a Modelo de Correlacin Lineal: o Con ms precisin, decimos que la relacin entre dos variables X e Y puede a o o ser descrita a partir de un modelo lineal, cuando puede armarse que Y = a + bX + donde recibe el nombre de residuo, de modo que se cumple:

(i) La relacin entre Y y X es lineal (es decir, la frmula Y = a + bX aproxima o o bien el valor de Y , conocido X) (ii) La media de los residuos es 0. (iii) Los residuos son normales. (iv) La varianza de Y no depende del valor de X (homocedasticidad). (v) Los residuos son aleatorios. En resumen, = N (0, ), donde recibe el nombre de error experimental, y permite evaluar hasta qu punto pueden desviarse las predicciones, de los e valores reales. 2

Los valores a, b se estiman como: b= sxy s2 x

a=ybx donde x, y son las medias de los xi , yj , respectivamente, y s2 es la varianza de x los xi . El parmetro a se llama ordenada, y b pendiente. En general, dado a un cierto valor xi , representaremos por yi el valor esperado de la variable Y , correspondiente al valor xi de la variable X, conforme al modelo anterior; es decir, yi = a + bxi Se tiene que i = yi yi (el valor real menos el predicho). Variabilidad y Correlacin Lineal: o Puede realizarse una descomposicin de la variabilidad de la variable Y similar o a la del ANOVA simple, a partir del modelo anterior. Concretamente, si y representa la media de la variable Y , entonces: (yi y )2 =
SCT

(yi yi )2 +
SCR

(i y )2 y
SCE

Se llama coeciente de determinacin o R2 , a o R2 = SCE 100 SCT

Este coeciente debe entenderse como el porcentaje de variabilidad de los datos que est siendo explicado por el modelo (de hecho, si el modelo es a bueno yi , yi sern muy similares, luego SCR ser prxima a cero. Si R2 es a a o sucientemente grande, entonces entenderemos que el modelo Y = a+bX est a explicando bien la variabilidad encontrada, y por tanto que se ajusta bien a los datos. En particular, cuanto ms prximo a 100 sea R2 , ms fuerte ser a o a a la correlacin lineal. Adems, aplicando tcnicas similares a las del ANOVA, o a e podemos producir un p-valor para la hiptesis H0 : no hay correlacin lino o eal, frente a la alternativa H1 : hay correlacin lineal. Finalmente, R2 es o exactamente igual al cuadrado del coeciente de correlacin lineal de Pearson, o multiplicado por 100; de ah el hecho de que el coeciente de correlacin de o Pearson mida la fuerza de la correlacin. o Tests de Hiptesis para contrastar la existencia de correlacin lineal: o o Si b es la pendiente del modelo de regresin, aceptar H0 : b = 0, H1 : b = 0 o equivale a admitir que no hay correlacin lineal. En ese caso, las variables o pueden ser incorreladas, o puede existir entre ellas una correlacin de otro o tipo. 3

Si es el coeciente de correlacin de Pearson, aceptar H0 : = 0, H1 : = 0 o equivale a admitir que no hay correlacin lineal. o Idem para el coeciente de correlacin de Spearman, rs . o

REGRESION m ltiple u
En este caso hay una variable explicada Y , y varios regresores X1 , . . . , Xn , de modo que el modelo que se intenta ajustar es Y = a1 X1 + + an Xn Con mayor exactitud, Y = a1 X1 + + an Xn + , donde recibe, como en el caso de la regresin simple, el nombre de residuo; las propiedades que esta o variable debe cumplir son las mismas que en el caso anterior. Adems, se exige a tambin que las variables X1 , . . . , Xn no estn linealmente correlacionadas (ya e e que, de otro modo, el modelo tendr ms variables de las necesarias). Cuando a a dos de las variables Xi , Xj estn linealmente correlacionadas, se dice que existe a multicolinealidad. Para comprobar si el modelo de regresin mltiple se ajusta bien a un cierto o u conjunto de observaciones, examinaremos si el coeciente de determinacin, o o 2 R , es prximo a 100. Esto se traduce tambin en un cierto p-valor que permite o e contrastar la hiptesis H0 : no hay correlacin lineal, H1 : hay correlacin o o o lineal.

También podría gustarte