Está en la página 1de 12

2.- REGRESIÓN Y CORRELACIÓN LINEAL.

Regresión es cualquier fenómeno donde se relaciona más de una variable y


queremos determinar qué tipo de relación existe.
Mediante el análisis de regresión el objetivo es buscar cual es la mejor relación
matemática entre las variables.
Diagrama de Dispersión. - Cada una de las observaciones marcadas en un
diagrama (x, y) es la relación entre dos variables. Permite observar la relación
existente para plantear a priori la relación y luego ajustar a una determinada
relación matemática.
Definición de Ecuación de regresión. - La relación de regresión y = f(x) = 1
+2x + u. Es el lugar geométrico que pasa por el promedio y para cada valor
fijo de x.
La ecuación de regresión tiene dos tipos de variables una aleatoria y la otra no.
En este caso y es una variable aleatoria, x no lo es ya que es una variable
controlable porque para cada valor de x hay varios puntos posibles de y.
Debido a esto surge el concepto de error aleatorio o perturbación aleatoria.
Todos los puntos no están representados exactamente por la ecuación, hay un
error o diferencia entre el valor real y el valor que le corresponde en la
ecuación. Puede ocurrir que se esté calculando un factor fundamental pero hay
otras variables complementarias no relevantes que afectan al valor
fundamental y esto lo que se controla con el error. Con el error se trata de
medir el modelo de regresión. En el modelo hay determinados parámetros
1,2 y debemos buscar un procedimiento para estimar los parámetros que
hagan mínimos los errores.

Supuestos Básicos de la Regresión.-


Las perturbaciones son aleatorias y se pueden asociar a una distribución de
probabilidad.
1) E( ui ) = 0 i
En la práctica va a tener un valor cercano a cero por problemas de redondeo.
2) Var ( ui ) = 
2
supuesto de homocedasticidad

3) Cov(ui uj ) = 0 i  j si se cumple se dice que hay ausencia de autocorrelación

4) ui  N (0, 2 )

Si la muestra es pequeña se debe verificar que los errores se distribuyen según


una normal.
El incumplimiento de estos supuestos acarrea un grave problema para el
modelo puesto que no se cumple la distribución t y F. Por lo que cuando no se
cumplen hay algunas recetas para transformar el modelo de manera que se
cumplan.
Ecuación de Regresión Estimada. -
y  b1  b2 x
El procedimiento es estimar los parámetros de la regresión minimizando los
errores por lo tanto en la ecuación de regresión estimada no aparecen los
mismos.
Luego de estimados los parámetros vendrá la verificación de los estimadores
mediante la inferencia estadística. Posteriormente se verifica la bondad del
ajuste, o sea como los datos se adaptan al modelo y por último se comprueba
los supuestos de la regresión.

 yixi  ( y  b2 x )  xi  b2  xi
Método de los Mínimos Cuadrados Ordinarios2 más Sencillo. Si dos
cantidades (x,y) están relacionadas por una línea recta, la ecuación que

 yixi  y  xi  b2 x  xi  b2  xi
expresa la relación será de la forma :
y = mx + b
2

Minei  Min ( yi  yi   ( yi  b1  b2 xi )  0
 yixi  y  xi  b2 () xi  x  xi
n n
i 1 i 1
2

b2  (  yixi  y  xi ) / (  xi  x  xi * n / n)
El objetivo es hallar b, b2 que minimicen los errores
2 para lo cual realizaremos la
derivada e igualaremos a cero:

bb12  (yyixi
b2 x y  xi ) / (  xi  nx )
2 2

b2  (  yixi  nxy ) /  ( xi  x ) 2

b2   ( xi  x )( yi  y ) /  ( xi  x ) 2

Propiedades de la Regresión Lineal. -


1) La regresión lineal pasa por el punto x , y
2) Los residuos (ei) tienen covarianza = 0 con los valores muestrales de x ,
también con los valores pronosticados de y
Cov (x,e) = 0
Cov(y,e ) = 0
3) y, y tienen la misma media
ei  yi  yi

 ei   yi   yi  0
 yi / n   yi / n
y  y
Propiedades de los Estimadores Mínimos Cuadráticos.-
1) Todos los estimadores mínimos cuadráticos son lineales cualquiera sea el
estimador cuadrático.
2) Los estimadores mínimos cuadráticos son insesgados
E(b2) = 2
3) Los estimadores Cuadráticos son de Varianza Mínima
Teorema de Gauss - Markov. -
Si se construye otro estimador cualquiera para 2 también lineal insesgado, se
puede demostrar que la varianza del estimador b2 es menor y por lo tanto
eficiente.
Var(b2) =  u 2 /  ( xi  x ) 2

Varianza para b1. -

Var (b1) =
2
u (1/ n  x 2 /  ( xi  x )2 )
Descomposición de la Suma de Cuadrados. -

ei = yi  y errores muéstrales
yi  yi
  ei
yi 2  yi
 2  2eiyi
  ei 2
 yi 2
  yi
 2
 2  yei
   ei 2 (1)
 yi 2
  yi
 2
  ei 2

SCT = SCE + SCR (2)


Suma Suma Suma de cuadrados
cuadrados cuadrados residual o no explicada
Totales explicada por
la regresión

Coeficiente de Determinación. -
(Medida de la bondad de Ajuste) Que también la línea de regresión se ajusta a
los datos observados. Para definir el coeficiente de determinación dividimos la
ecuación (2) por SCT.
1= SCT/SCT = SCE/SCT+SCR/SCT
Denominamos coeficiente de determinación a la proporción de la SCT que se
encuentra explicada por la regresión es decir: R 2 = SCE/SCT
Cual es el recorrido de R 2 : Si no hay residuo SCR = 0 y
R 2 = 1, es el valor máximo y la relación entre las variables que se están
ajustando será perfecta. El valor mínimo será R 2 = 0, o sea que no hay ninguna
relación entre las variables y nada estará explicada por la regresión.
Coeficiente de Correlación. -
r =  R 2   ( xi  x )( yi  y ) /  ( xi  x ) 2  ( yi  y ) 2
r = n xy   x  y / (n x 2  (  x) 2 )(n y 2  (  y) 2 )
Propiedades del Coeficiente de Correlación.-
1) Puede ser (+) o (-). El signo depende de la covariación entre variables
(Covarianza).
2) Los límites son: -1  r  1
3) Cumple con la propiedad de simetría es decir: rxy = ryx
4) Es independiente del origen y de la escala
5) Si x, y son estadísticamente independientes r = 0
6) Es una medida de la asociación lineal solamente
b 2   ( xi  x )( yi  y ) /  ( xi  x ) 2
(1)
Inferencia estadística en el Modelo de Regresión.-

  
( xi  x )( yi  y )  ( xi  x ) yi  y ( ( xi  x )  ( xi  x ) yi
Cuáles son las distribuciones de Probabilidad asociadas a los estimadores de
los parámetros (b1, b2) 
b2   ( xi  x ) yi /  ( xi  x )
b2 = 2+wi ei 2= cte. 2

wi  xi  x /  ( xi  x ) 2

b2 
b2es una combinación lineal de ei y como ei  N ( 0, 
wiyi
por lo tanto b2 tiende a una distribución normal
2
)

b2 N ( 2, u /  ( xi  x ) )
2 2

b1  N (1,u
2
(1/ n  x 2 /  ( xi  x ) 2 )
Tanto en b1, b2 aparece el termino u 2 parámetro que hasta ahora es
desconocido. Se puede demostrar que un buen estimador para u 2 es la
varianza de los errores muéstrales
S 2  ei 2 / n  2
También se puede demostrar que es insesgado es decir:
E ( S 2 )  u 2
También se puede demostrar que:
ei 2
/ u 2  x 2 (n  2)
Para lo cual se debe demostrar que los errores se distribuyen según N(0,1)
para lo cual normalizamos igual que lo hicimos con la variable z = x-/.
b2   2 / (u / ( xi  x ) 2
)  N (0,1)
Para el cálculo se requiere u que es desconocida, por lo que se debe trabajar
con un estimador para lo cual se usa la distribución t.
Por definición de t:
t  N (0,1) / x 2 / g. l.  ((b2   2) ( xi  x ) 2 ) / u / ei 2
/ u 2 / n  2
t  (b2   2) (  xi  x ) 2 / ei 2
/n2
t  (b2   2)  ( xi  x ) 2
/ s  b2   2 / s /  ( xi  x ) 2
 t (n  2)
Intervalos de Confianza para b2.-

b2  t (1   / 2) s / ( xi  x ) 2

Pruebas de Hipótesis. - De acuerdo al valor de la pendiente para un


determinado grado de confianza se acepta o no el modelo.
Hipótesis: Cuando se conoce el valor del parámetro por conocimientos
históricos anteriores o hipótesis a priori.
Ho : 2 = 2o
H1 :2  2o
Hay dos formas de probar la hipótesis nula (0) a través de los intervalos de
confianza y por la prueba t.
Usaremos para probar la hipótesis nula (Ho) la prueba t.-

tc = (b2   2o) ( xi  x ) 2
/s
Si tc  t(1-/2)(n-2)
Si se cumple se rechaza la hipótesis nula por encontrarse tc en la zona de
rechazo.
Intervalo de confianza. - Si b2 cae dentro del intervalo aceptamos la hipótesis
nula.
Si nos interesa la significación de la relación entre x,y debemos probar lo
siguiente :
Ho: 2 = 0 No hay relación entre x,y si la pendiente es nula
H1: 2  0
Hay dos formas de probar la hipótesis nula (0) a través de las dos colas de
significación y por la prueba t.
Para la prueba t usaremos el siguiente estadístico de prueba:
tc  (b2  0) ( xi  x ) 2
/s
Si tc  t(1-/2)(n-2) se rechaza la hipótesis nula.
2- Colas de Significación (2-tail-sig). -
Se calcula p probabilidad de encontrarse en la zona de rechazo. El /2 = 0.025
para un 95 % de confianza
Si p  /2 el parámetro es significativo y por lo tanto se rechaza la hipótesis Ho.

Para : 1
tc  (b1   1) / s 1 / n  x 2 /  ( xi  x ) 2  t (n  2)
Para los intervalos de confianza:
b1  t (1   / 2)(n  2) s 1 / n  x 2 / ( xi  x ) 2
Para prueba de hipótesis:
Ho : 1= 1o
H1 : 1  1o
tc  (b1   1o) / s 1 / n  x 2 /  ( xi  x ) 2
Si tc  t (1-/2)(n-2) Se rechaza la hipótesis nula Ho.
Análisis de Varianza de una Regresión Lineal (Prueba F de Fisher). - Para el
caso de dos variables es indistinto usar t o F para el caso de regresión múltiple
es más recomendable usar F.
Hemos visto que:
b2   2 / (u / ( xi  x ) 2
)  N (0,1)
También sabemos que una N(0,1) elevada al cuadrado tiende a una ji-
cuadrado y a su vez la relación de dos ji-cuadrado nos da una F de Fisher.
(b2   2) 2 / (u2 /  ( xi  x ) 2  x 2 (1) (1)
Se puede demostrar que:
ei 2
/ u 2  x 2 (n  2) (2)
Por lo tanto dividiendo (1) y (2) obtenemos F:
F= ((b2   2) 2  ( xi  x ) 2 / u 2 ) /( ei 2 / u 2 ) / n  2
F = (b2   2)
2

( xi  x ) / ( 2
ei 2
/ n  2)
Si planteamos la hipótesis nula:
Ho : 2 = 0
En este caso el estadístico F queda :
Fc = b2
2
 2

( xi  x ) / ( ei / n  2)  ( SCE
2
/ 1) / ( SCR / n  2)
Si Fc  F(1-)(1,n-2) se rechaza la hipótesis nula Ho.
y la relación ( y, x ) es significativa.
y = b1 + b2 x
SSy = SCT = ( y  y ) 2   y 2  (  y) 2 / n

SCE = b2 ( x  x )( y  y )  b2( xy  
x y / n)  b2 ( xi  x ) 2
 2

Suma de cuadrados explicada por la regresión lineal


Suma de cuadrados debido a los errores residuales muéstrales = SCR

SCR= SCT - SCE = ei 2

Análisis de Varianza.-

Origen Suma Grados Cuadrados Fcal Ftablas


Variación Cuadrados Libertad Medios
Debido a la SCE 1 Cme = SCE -  = 0.01
Regresión P(x) =99%
Residual SCR n-2 Cmr= SCR/n-2 Fc = Ft (1, n-2)
Cme/Cmr
Total SCT n-1 - - -

Se pierde un grado de libertad debido al cálculo de la media.


Si Fc  Ft La regresión es significativa y el tipo de ajuste es correcto

Análisis de Varianza por falta de ajuste (Observaciones Reiteradas). -


Supongamos que hay Nm (lecturas medias)
Y1m, Y2m .............. Ynm en Xm con m = 1,2.........k
La suma de cuadrados totales será:
Ssy = SCT =  y 2  (  y) 2 / Nt Nt = k*N
La suma de cuadrados del error será:
N N
SCR =  (Ymj  Y m) 2
  j 1 y 2 mj  (  ymj ) 2 / N
N

j 1 j 1
La suma de cuadrados debido a la regresión:

SCE = b2 (xy - xy/Nt)

La suma de cuadrados residuales y la falta de ajuste serán:

SCD = SCT - SCE


Análisis de varianza por falta de ajuste.-

Origen Suma Grados Cuadrados Fcal Ftablas


Variación Cuadrados Libertad Medios
Debido a la Scd- Scr g.l.a.= Cma= -  = 0.01
Regresión Nt- Scd-Scr/gla P(x) =99%
g.l.e.-2
Residual SCR g.l.r. = Cmr = Fc = Ft(gla,glr)
k(N-1) Scr /g.l.r Cma/Cmr

Si Fc  Ft La falta de ajuste no es significativa y el modelo es correcto.

Otra Expresión para cálculo de F.-

Descomposición de cuadrados totales:


1= SCE/SCT+SCR/SCT
R 2  SCE / SCT
SCE  R 2 SCT
SCR  SCT  SCE
SCR  SCT  R 2 SCT  SCT (1  R 2 )
F  SCE / SCR / n  2  R 2 SCT / SCT (1  R 2 ) / n  2  R 2 / (1  R 2 ) / (n  2)
F  (n  2) R 2 / (1  R 2 )

Métodos para Verificar los Supuestos:


Predicción o Pronóstico en el modelo de Mínimos Cuadráticos. - Nos interesa
realizar predicción para un determinado valor que se encuentra en el intervalo
de los datos o estimar un valor futuro:
Sea Yo el valor puntual a predecir
Yo = 1 + 2Xo + uo (modelo teórico)

Y  b1  b2 Xo (Modelo estimado)

Error (Eo) = Yo - Yo
Eo = 1+2xo+uo -b1-b2xo
Eo = uo -(b1-1) -(b2-2)xo
El objetivo es hallar la varianza por lo que elevamos los errores al cuadrado.
eo 2  (uo  ((b1   1)  (b2   2) xo) 2 =
uo 2  2uo(b1   1)  2uo(b2   2) xo  (b1   1) 2  2(b1   1)(b2   2) xo  (b2   2) 2 xo 2
Tomando valor esperado a la expresión anterior:
Var (eo) =
E (eo 2 )  E (uo 2 )  E (b1   1) 2  2 xoE (b1   1)(b2   2)  xo 2 E (b2   2) 2 (1)
Tener Presente que E (uo) = 0, E (uo2) = u2
Cov ( b1,b2) = E(b1-1)(b2-2)= xu 2 / ( xi  x ) 2
Entonces (1):
Var(eo) = u  Var (b1)  2 xoCov (b1, b2)  xo 2Var (b2)
2

Var (eo) =
u 2  u 2 (1 / n  x 2 /  ( xi  x ) 2 )  2 xox u 2 /  ( xi  x ) 2  xo2u 2 /  ( xi  x ) 2
= u (1  1 / n  x /
2 2
( xi  x ) 2
 2 xox / ( xi  x ) 2  xo 2 / ( xi  x ) 2 )
= u (1  1 / n  ( x  xo) /
2
( xi  x )
2
 2

Cuando la varianza de eo toma el valor mínimo:

cuando xo  x
La Var(eo) es mínima cuando se cumple lo anterior y va aumentando a medida
que se aleja de x.

x X0 X

Dado que eo es una distribución de normales eo tiende a


una distribución normal y que se puede normalizar a una N(0,1) de la siguiente
manera :
eo / u 1  1 / n  ( x  xo) 2 /  ( xi  x ) 2  N (0,1)
Similarmente se puede demostrar que tiende a una distribución t:
 / s 1  1 / n  ( x  xo) 2 / ( xi  x ) 2  t(n-2)
tc  eo  yo  yo
Intervalos de Confianza para la predicción de y
  t (1   / 2)(n  2) S 1  1 / n  ( x  xo) 2 /  ( xi  x ) 2
yo

ALGUNAS FORMAS FUNCIONALES IMPORTANTES


No son lineales pero se las puede transformar mediante reemplazos
matemáticos sencillos.
Modelo log-log, Doble logarítmico o Elasticidad cte.
yi   1x  2 e ui
ln yi = ln1 + 2 ln x + ui
y*=1* + 2x* + ui
y* = lnyi 1*= ln1 x* = ln x
2  0

0  2  1

Modelo Semilogaritmico. -
Log-Lin
lnyi = 1 + 2xi +ui
 1  2 xi  ui
yi =e
Para el caso de log-lin, la pendiente mide el cambio proporcional o relativo en y
para un cambio absoluto en x.

2 = Cambio relativo en y /Cambio absoluto en x

y y
2  0 2  0

x x
Modelo Reciproco. -
y = 1 + 2/x + u
Cuando x   y 1
y = costo fijo x = Producción
y 2  0 1  0 2  0 1  0
y
 

1
x -1 x
y
2  0
1

-2/1 x

Modelo Logaritmo - Reciproco. - y


y  e  1  2 / x  u
ln y   1   2 / x  u
1
si x    y  e

Análisis de los residuos. - Nos dan una idea de que problemas hay en los
supuestos. -
1) Si la relación funcional propuesta es la adecuada
2) Si hay problemas en el cumplimiento del supuesto de varianza cte.
(homocedasticidad)
3) Valores atípicos en los datos
4) Cambio de estructuras (si hubo cambios de política económica que no haga
homogénea a la muestra)
5) Problemas de no cumplimiento de la auto correlación

1) Gráficos de los Residuos contra la variable x ei = f(x)


ei ei

a x b x

ei ei
.

c x d x

ei ei

e x
x

ei

x
Gráfica a. - Sugiere revisar el modelo planteado, elección incorrecta del modelo (volver
a analizar el diagrama de dispersión).
Gráfica b y c. - Posibles cambios de estructuras en un momento en los datos. Verificar
cambios de estructuras en los datos.
Gráfica d y e. - Hay un valor atípico en los datos revisar el dato, en el caso positivo,
eliminarlo por que distorsiona el modelo.
Gráfica f.- El supuesto de varianza cte. no se cumple, no hay homocedasticidad en el
modelo.
Grafica g.- Caso ideal, el modelo está bien elegido y la varianza es cte.

También podría gustarte