Está en la página 1de 11

UNIVERSIDAD CENTRAL DE VENEZUELA

FACULTAD DE CIENCIAS ECONÓMICAS Y SOCIALES


ESCUELA DE ESTADÍSTICA Y CIENCIAS ACTUARIALES
DEPARTAMENTO DE ESTADÍSTICA Y PROBABILIDAD
CÁTEDRA DE MÉTODOS ESTADÍSTICOS
ASIGNATURA: ESTADÍSTICA II
PROFESORAS: SANDRA V. PINTO R. Y MARÍA T. SALOMÓN V.

TEMA 5
REGRESIÓN Y CORRELACIÓN LINEAL BIVARIANTE

Deseamos estudiar la relación lineal entre dos variables.


 Cuando la relación es clara y precisa, bastan los métodos matemáticos ordinarios.
 Cuando la relación es obscura e imprecisa son muy útiles los métodos estadísticos.
La contribución especial de la estadística en este contexto es la de manejar relaciones
vagas, borrosas e imprecisas entre variables.

Hay dos aspectos relacionados, pero diferentes, del estudio de la asociación entre
variables:
A. ANÁLISIS DE REGRESIÓN: Trata de establecer la naturaleza de la relación entre
variables, es decir, estudiar la relación funcional entre las variables y proporcionar un
mecanismo de predicción ó pronóstico.
B. ANÁLISIS DE CORRELACIÓN: Trata de determinar el grado y el sentido de la relación
lineal entre variables.

ANÁLISIS BIVARIANTE LINEAL

1. ESTIMACIÓN DE LA ECUACIÓN DE REGRESIÓN POBLACIONAL. MÉTODO DE LOS MÍNIMOS


CUADRADOS.

MODELO POBLACIONAL: Yi = A + B Xi + Ei (1)


donde:
Yi: Variable dependiente
Xi: Variable independiente
A y B: Parámetros de regresión desconocidos, llamados Coeficientes de Regresión
Poblacional.

E: Término de perturbación aleatorio o residual.

La relación de dependencia lineal Simple definida en (1) consta de dos partes:


A + B Xi : PARTE SISTEMÁTICA
Ei : PARTE ESTOCÁSTICA

SP/MTS 1
UNIVERSIDAD CENTRAL DE VENEZUELA
FACULTAD DE CIENCIAS ECONÓMICAS Y SOCIALES
ESCUELA DE ESTADÍSTICA Y CIENCIAS ACTUARIALES
DEPARTAMENTO DE ESTADÍSTICA Y PROBABILIDAD
CÁTEDRA DE MÉTODOS ESTADÍSTICOS
ASIGNATURA: ESTADÍSTICA II
PROFESORAS: SANDRA V. PINTO R. Y MARÍA T. SALOMÓN V.

De tal manera, que estamos en presencia de un modelo Probabilístico y no determinístico.


Ei : Puede surgir por fuerzas casuales, por exclusión de variables explicativas importantes y
relevantes en el modelo, ó debido al error de medición en Y.

 SUPUESTOS DEL MODELO


1.- La variable independiente X es Fija, es decir, toma valores que son fijados (escogidos o
predeterminados) por el investigador.
Este supuesto Independiente-Variable-Fijo, implica que para cada valor fijo de X, xi , hay
una distribución de valores Y por probabilidades, llamada subpoblación de Y.

2.- Ei es una variable aleatoria que se distribuye normalmente con E(Ei) = 0.


Ei ~ N(0,౮2e) , veamos:
E(Yi/Xi) = µyx = E(A + B Xi + Ei ) = A + B E(Xi) + E(Ei ) = A + B Xi + 0 = A + B Xi
ECUACIÓN DE REGRESIÓN POBLACIONAL DE Y SOBRE X : µyx = A + B Xi (2)
Este supuesto implica que en promedio la parte sistemática de Yi en (1) es A + B Xi
En la Ecuación de Regresión Poblacional:
A: Representa la Ordenada en el Origen, es decir, el valor medio de Y, cuando X=0
B: Representa la Pendiente de la Recta, es decir, el cambio en el valor medio de Y, por
cambio unitario en el valor de X.

3.- La varianza condicional de Y dado X se llama varianza de la regresión, ౮2yx , y se


supone constante para todo valor de x, y es igual a la varianza de Ei, es decir, ౮2e .
౮2yx = V(Yi) = E[ Yi – E(Yi) ]2 = E[A + B Xi + Ei – E(A + B Xi + Ei)]2 =
= E[(A + B Xi + Ei - A - B Xi)2 ] = E(Ei2) = ౮2ei = ౮2e = ౮2
Esta propiedad de varianza constante se conoce como HOMOSCEDASTICIDAD

4.- Ei es estadísticamente independiente de Xi , porque cada Ei es una muestra aleatoria


simple de tamaño uno de una población N(0, ౮2).

SP/MTS 2
UNIVERSIDAD CENTRAL DE VENEZUELA
FACULTAD DE CIENCIAS ECONÓMICAS Y SOCIALES
ESCUELA DE ESTADÍSTICA Y CIENCIAS ACTUARIALES
DEPARTAMENTO DE ESTADÍSTICA Y PROBABILIDAD
CÁTEDRA DE MÉTODOS ESTADÍSTICOS
ASIGNATURA: ESTADÍSTICA II
PROFESORAS: SANDRA V. PINTO R. Y MARÍA T. SALOMÓN V.

Estimación de los Coeficientes de Regresión A y B


Supongamos que se toma una muestra aleatoria simple de tamaño n, de un modelo
Bivariante lineal, es decir, se tienen n pares de observaciones (xi,yi) , i=1,2,3,…,n
El Modelo de Regresión Lineal de la Muestra

yi  a  bxi  ei (3)
y la Ecuación de Regresión de la Muestra
yˆ ci  a  bX i (4)

De (3) ei  yi  a  bxi ,con  e =0


i

a  bX i es el estimador lineal de A + BXi

El estimador lineal ideal que buscamos es el MELI (Mejor Estimador Lineal Insesgado) y
el método para obtenerlo es el de los Mínimos Cuadrados, que consiste en minimizar la
suma de los cuadrados de los errores (ei).
Tenemos que: yi  a  bxi  ei y yˆci  a  bxi , luego yi  yˆ c i  ei =>

ei  yi  yˆ c i

Estimadores de A y B.
yi  a  bxi  ei (3) , sumando (3) hasta n

 yi  na  b xi   ei

Pre multiplicando (3) por Xi y sumando hasta n


2
 xi yi  a xi  b x i   xi ei

Como el Método de los Mínimos Cuadrados garantiza que  e =0


i y X e i i =0 ,

tenemos:

 yi  na  b xi Ecuaciones
2
 xi yi  a xi  b x i Normales

SP/MTS 3
UNIVERSIDAD CENTRAL DE VENEZUELA
FACULTAD DE CIENCIAS ECONÓMICAS Y SOCIALES
ESCUELA DE ESTADÍSTICA Y CIENCIAS ACTUARIALES
DEPARTAMENTO DE ESTADÍSTICA Y PROBABILIDAD
CÁTEDRA DE MÉTODOS ESTADÍSTICOS
ASIGNATURA: ESTADÍSTICA II
PROFESORAS: SANDRA V. PINTO R. Y MARÍA T. SALOMÓN V.

Resolviendo este sistema de ecuaciones se obtienen los estimadores Mínimo Cuadráticos a


y b , de A y B respectivamente:
 ( xi x )( yi  y )  xi yi  nx y
b
2

2 2 , a  y  bx
 ( xi  x )  xi  nx

Así que la Recta de Regresión Estimada, se puede escribir como:

yˆ ci  a  bxi

2. ESTIMACIÓN DE LA VARIANZA Y DE LA DESVIACIÓN ESTÁNDAR DE LA REGRESIÓN.


INFERENCIAS ACERCA DE LOS COEFICIENTES DE REGRESIÓN POBLACIONALES.

 Varianza y Desviación Estándar Estimada de la Regresión.

Una medida de las desviaciones de la línea de ajuste con respecto a la nube de puntos a la
cual es ajustada, es el estimador Insesgado de la varianza de la regresión de población que
se define como:

( yi  yˆ ci ) 2 ( yi  (a  bxi )) 2  yi  a  yi  b xi yi
2

ˆ 2
  
n2 n2 n2
yx

ˆ 2yx : Varianza Estimada de la Regresión

̂ yx : Desviación Estándar Estimada de la Regresión

Cuanto menor es ˆ yx ó ̂ yx , más precisa es la ecuación de regresión de la muestra


2

como instrumento de predicción.

 Inferencias Acerca de los Coeficientes de Regresión Poblacionales A y B.

Los errores de muestreo de a y b, son evaluados en términos de sus respectivas


distribuciones por muestreo.
Como a y b son estimadores insesgados de A y B respectivamente: E(a)=A y E(b)=B.

SP/MTS 4
UNIVERSIDAD CENTRAL DE VENEZUELA
FACULTAD DE CIENCIAS ECONÓMICAS Y SOCIALES
ESCUELA DE ESTADÍSTICA Y CIENCIAS ACTUARIALES
DEPARTAMENTO DE ESTADÍSTICA Y PROBABILIDAD
CÁTEDRA DE MÉTODOS ESTADÍSTICOS
ASIGNATURA: ESTADÍSTICA II
PROFESORAS: SANDRA V. PINTO R. Y MARÍA T. SALOMÓN V.

Como a y b son Combinación Lineal de variables aleatorias normales independientes Y,


deben estar normalmente distribuidos. Además, debido a las propiedades MELI, los
estimadores para las varianzas de a y b deben ser definidos así:

ˆ 2  x2
σ σˆ2
2 yx i yx
ˆ
σ  ˆ2 
σ
a n  (x  x )2 b  (x  x )2
i i

Intervalos de Confianza para A y B:

a) Sí n<=30 y  yx es desconocida:
2

a  tn2;1 / 2ˆ a y b  tn2;1 / 2ˆ b

b) Sí n>30 y  2

yx
conocida ó no::

a  z1 / 2ˆ a y b  z1 / 2ˆ b

Estadísticos de Contraste:

a) Sí n<=30 y  yx es desconocida:
2

aA bB
t o
t o

̂ a
y
̂ b

b) Si n>30 y
 2

yx
conocida ó no:

aA bB
z o
z o

 a
y
 b

SP/MTS 5
UNIVERSIDAD CENTRAL DE VENEZUELA
FACULTAD DE CIENCIAS ECONÓMICAS Y SOCIALES
ESCUELA DE ESTADÍSTICA Y CIENCIAS ACTUARIALES
DEPARTAMENTO DE ESTADÍSTICA Y PROBABILIDAD
CÁTEDRA DE MÉTODOS ESTADÍSTICOS
ASIGNATURA: ESTADÍSTICA II
PROFESORAS: SANDRA V. PINTO R. Y MARÍA T. SALOMÓN V.

3. ESTIMACIÓN POR INTERVALO PARA LA RECTA POBLACIONAL µYX Y PARA UN VALOR


PARTICULAR DE Y, Ya.

 Estimación por Intervalo para µyx

En la muestra: yˆ ci  a  bxi , En la Población: µyx = A + B Xi

yˆ  ̂  a  bx
ci yx i

La precisión de una estimación puntual de la media condicional µ yx de una población


Bivariante se mide construyendo un intervalo de confianza para µ yx, y esto exige el
conocimiento de la desviación típica de la estimación de µyx,, es decir, la desviación típica
de yc ó ˆ yc
. Al conocerla los límites de confianza se determinan así:

ˆ t
y c n  2 ; 1 / 2
ˆ yc
y ˆ c  z1 / 2
y ˆ yc

Cálculo de  2
yˆc :

yˆ ci  a  bxi , además
a  y  bx  yˆ  y  bx  bx  y  b( x  x )
ci i i

y
ˆ  y  b( x  x ) , Así que
ci i

  V ( y )  V ( y  b( x  x ))  V ( y )  V (b( x  x ))
ˆc
y
2
c i i

V ( y )  V ( y) / n   yx
2
/n, y

 2

V (b( xi  x ))  ( x  x ) V (b)  ( x  x ) 2 2 yx
, Luego
 ( xi  x ) 2

SP/MTS 6
UNIVERSIDAD CENTRAL DE VENEZUELA
FACULTAD DE CIENCIAS ECONÓMICAS Y SOCIALES
ESCUELA DE ESTADÍSTICA Y CIENCIAS ACTUARIALES
DEPARTAMENTO DE ESTADÍSTICA Y PROBABILIDAD
CÁTEDRA DE MÉTODOS ESTADÍSTICOS
ASIGNATURA: ESTADÍSTICA II
PROFESORAS: SANDRA V. PINTO R. Y MARÍA T. SALOMÓN V.

 2
 2
1 ( xi  x ) 2 
 yc  V ( y )  V (b( x  x )) 
2 yx
 ( x  x )2 yx
  yx 
2
 2 
 ( xi  x )  ( xi  x ) 
i
n
2
n

1 ( xi  x ) 2 
Y finalmente la Varianza estimada de yc , será: ˆ yc  ˆ  
2 2

 n  (x  x) 
yx 2
i

Así que el Intervalo de Confianza para la Recta de regresión Poblacional µ yx, construido sobre
la base de la recta de regresión estimada, viene expresado como:

Pr( yˆ  t c n2 ; / 2
ˆ    yˆ  t
yc yx c
ˆ )  1  
n2 ;1 / 2 yc

 Estimación por Intervalo para Ya

Sea Ya el valor de Y para un valor Xa dado,


En la población Bivariante: Ya = A + B Xa + Ea
En la muestra: ŷ = a+bxa ó ya=a+bxa+ea
c

Para obtener una estimación por intervalos para Ya, se debe obtener a V(Ya)=  2
Ya

 2
Ya
 V (a  bxi  ei )   y2c   yx2  ˆ Y2a  ˆ y2c  ˆ yx2 

1 ( x  x )2   1 ( x  x )2 
ˆ 2
 ˆ yx2   2 
 ˆ 2
 ˆ yx 
2
1   2 
 ( xi  x )   ( xi  x ) 
Ya yx
n  n

Luego:

Para n<=30, Pr( yˆ c  tn2; / 2ˆ Ya  Ya  yˆ c  tn2;1 / 2ˆ Ya )  1  

ˆ c  z / 2ˆ Ya  Ya  y
Para n>30, Pr( y ˆ c  z1 / 2ˆ Ya )  1  

SP/MTS 7
UNIVERSIDAD CENTRAL DE VENEZUELA
FACULTAD DE CIENCIAS ECONÓMICAS Y SOCIALES
ESCUELA DE ESTADÍSTICA Y CIENCIAS ACTUARIALES
DEPARTAMENTO DE ESTADÍSTICA Y PROBABILIDAD
CÁTEDRA DE MÉTODOS ESTADÍSTICOS
ASIGNATURA: ESTADÍSTICA II
PROFESORAS: SANDRA V. PINTO R. Y MARÍA T. SALOMÓN V.

4. COEFICIENTE DE CORRELACIÓN POBLACIONAL Y COEFICIENTE DE CORRELACIÓN


MUESTRAL. INFERENCIAS ACERCA DEL COEFICIENTE DE CORRELACIÓN POBLACIONAL.

 Coeficiente de Correlación Poblacional

El análisis de correlación bivariante se ocupa de determinar el grado y el sentido de la relación


lineal entre dos variables X y Y. Una medida del grado y el sentido de la relación lineal entre
dos variables es el Coeficiente de Correlación Lineal de Pearson, denotado por  xy

Cov( x, y ) E ( x   x )( y   y )
  
xy
 x y ( x  x )2 E ( y   y )2
Observaciones:
a)  xy es simétrico con respecto a X y Y, es decir, si se intercambian X y Y no cambia.
b)  es un número puro, porque se define como la razón de la covarianza en X y Y al
xy

producto de sus respectivas desviaciones estándares. Luego,


Cuando Cov(X,Y)=0,  sería 0, indicando que no hay relación lineal entre las dos
variables.
Cuando hay covariabilidad perfecta entre X y Y y, Y y X varían en la misma dirección
 =1.
Cuando hay covariabilidad perfecta entre X y Y y, Y y X varían en la dirección
opuesta  =-1.
Cuando existe cierto grado de covariabilidad entre X y Y , -1<  <0 ó 0<  <1 .

 Coeficiente de Correlación Muestral

Cuando se extrae una muestra aleatoria de tamaño n, de pares ordenados (xi, yi), i=1,2,…,n, de
una población bivariante normal. El estimador de probabilidad máxima de  , representado por
r, se obtiene así:
 ( xi  x )( yi  y ) xi yi  nx y

r 
ˆ xy  
(  ( xi  x ) 2 )( ( yi  y ) 2 ) (  xi  nx 2 )( yi2  ny 2 )
2

Con -1< r < 1

 Inferencias acerca del Coeficiente de Correlación Poblacional  xy

r es un estimador sesgado de  , excepto si  =0, entonces r es insesgado. La distribución


muestral de r es simétrica cuando  =0 y es asimétrica cuando  ≠0. Para una población
bivariante normal, la distribución de r se aproxima a una distribución normal cuando n tiende a

SP/MTS 8
UNIVERSIDAD CENTRAL DE VENEZUELA
FACULTAD DE CIENCIAS ECONÓMICAS Y SOCIALES
ESCUELA DE ESTADÍSTICA Y CIENCIAS ACTUARIALES
DEPARTAMENTO DE ESTADÍSTICA Y PROBABILIDAD
CÁTEDRA DE MÉTODOS ESTADÍSTICOS
ASIGNATURA: ESTADÍSTICA II
PROFESORAS: SANDRA V. PINTO R. Y MARÍA T. SALOMÓN V.

infinito. Cuando  =0, hay una transformación por la cual los valores transformados de r se
distribuyen según una t-student con n-2 grados de libertad, esta es:

r n2
tn2 
1 r2

Esta transformación no puede usarse para estimación por intervalos, pero sí como el
estadístico de prueba para la hipótesis nula de que  =0 contra una alternativa adecuada.

Nota: Las hipótesis nula Ho:  =0 y Ho: B=0, son equivalentes, porque B   ( y /  x ) .

5. ESTIMACIÓN Y ANÁLISIS DEL COEFICIENTE DE DETERMINACIÓN. ANÁLISIS DE VARIANZA EN


REGRESIÓN LINEAL. TABLA ANOVA.

Coeficiente de Determinación r2
ˆ 2
Como yx no tiene un significado obvio y/o exacto, como una medida de aproximación del
ajuste, y los valores de r distintos de -1,0 y +1 no pueden ser interpretados fácilmente es
conveniente tener una medida estándar y libre de unidad, de aproximación del ajuste, medida
por medio de la cual puedan interpretarse fácilmente los valores de r. Dicha medida es un
estadístico llamado Coeficiente de Determinación, la cual puede derivarse por el método de
análisis de varianza:

( yi  y )  ( y
ˆ ci  y )  ( yi  y
ˆ ci )
ERROR TOTAL ERROR EXPLICADO ERROR RESIDUAL

Elevando al cuadrado ambos miembros de esta identidad y sumando todas las observaciones
de la muestra:

 y )2  i1 ( yˆ ci  y )  ( yi  yˆ ci )  i1 ( yˆ ci  y )  ei  
n n 2 n 2
 ( yi
i 1

 y )2 i1 ( yˆ ci  y )2  2i1 ( yˆ ci  y )ei  i1 ei2 


n n n n
 ( yi
i 1

Veamos,

SP/MTS 9
UNIVERSIDAD CENTRAL DE VENEZUELA
FACULTAD DE CIENCIAS ECONÓMICAS Y SOCIALES
ESCUELA DE ESTADÍSTICA Y CIENCIAS ACTUARIALES
DEPARTAMENTO DE ESTADÍSTICA Y PROBABILIDAD
CÁTEDRA DE MÉTODOS ESTADÍSTICOS
ASIGNATURA: ESTADÍSTICA II
PROFESORAS: SANDRA V. PINTO R. Y MARÍA T. SALOMÓN V.

2i1 ( yˆ ci  y )ei  2i1 (a  bxi  y )ei  2(ai1 ei  bi1 xi ei  y i1 ei ) 


n n n n n

0 y xi ei  0 , todo este término es igual a cero. Así que:


n
Y como:
n
 ei 
i 1 i 1

 y )2 i1 ( yˆ ci  y )2  2i1 ( yˆ ci  y )ei  i1 ei2 


n n n n
 ( yi
i 1

ˆ ci  y ) 2  0  i1 ei2  i1 ( yˆ ci  y ) 2  i1 ei2


n n n n
(y
i 1

Luego:

 y ) 2 i ˆ    ei 
n n 2 2 n
 ( yi ( y ci
y )
i 1 1 i 1

 y ) 2 i ˆ    ( yi  y
ˆ
n n2 2 n
 ( yi ( y ci
y ) ci
)
i 1 1 i 1

SCT = SCR + SCE

Donde:

SCT= SUMA DE CUADRADOS TOTAL


SCT   ( yi  y ) 2

SCR= SUMA DE CUADRADOS DEBIDA A LA REGRESION


SCR   ( yˆ CI  y ) 2

SCE= SUMA DE CUADRADOS DEBIDA AL ERROR


SCE    yi  yˆ CI 
2

SCR SCE
SCT=SCR+SCE  1   , luego definimos el coeficiente de determinación de la
SCT SCT
muestra r2, como

 ( xi  x )
2
SCE SCR
r 2  1   b2 , 0<r2<1
 ( yi  y )
2
SCT SCT

SP/MTS 10
UNIVERSIDAD CENTRAL DE VENEZUELA
FACULTAD DE CIENCIAS ECONÓMICAS Y SOCIALES
ESCUELA DE ESTADÍSTICA Y CIENCIAS ACTUARIALES
DEPARTAMENTO DE ESTADÍSTICA Y PROBABILIDAD
CÁTEDRA DE MÉTODOS ESTADÍSTICOS
ASIGNATURA: ESTADÍSTICA II
PROFESORAS: SANDRA V. PINTO R. Y MARÍA T. SALOMÓN V.

r2 puede interpretarse desde tres(3) puntos de vista:


1. Como una medida del grado de mejora debido a la recta de regresión.
2. Como una medida del grado de ajuste de la recta de regresión a los puntos del
diagrama de dispersión.
3. Como una medida del grado de linealidad de la dispersión de los puntos,

 Análisis de Varianza. ANOVA

El análisis de varianza en Regresión Lineal Bivariante se emplea para probar la significación


de b, o la linealidad de La regresión mediante una razón F. El estadístico de contraste de la
linealidad es la razón del Cuadrado Medio de la Regresión (CMR) al Cuadrado Medio de los
Residuos(CME).
Veamos cómo se construye la tabla de análisis de varianza o tabla ANOVA:

ANOVA

SC GRADOS CM RAZON
FUENTE DE
SUMA DE DE CUADRADOS F
VARIACIÓN
CUADRADOS LIBERTAD(gl) MEDIOS

CMR/CME
Regresión SCR   ( yˆ ci  y ) 2 CMR  SCR / k  1
k-1

SCE    yi  yˆ ci  n-k CME  SCE / n  k


2
Errores

TOTAL SCT   ( yi  y ) 2 n-1

Donde k= Número de parámetros en la regresión, incluido el término independiente.

En la tabla ANOVA se puede apreciar que CME= Cuadrado Medio del Error es igual a la
ˆ yx 2
varianza estimada de la regresión , es decir,

SCE  yi2  a  yi  b xi yi
ˆ yx 2
 CME  
n2 n2

SP/MTS 11

También podría gustarte