Está en la página 1de 37

Análisis de Regresión

Wilson Sandoval Rodríguez

03/11/2020

Wilson Sandoval Rodríguez Análisis de Regresión 03/11/2020 1 / 37


El Análisis de Regresión es una metodología estadística que utiliza la
relación entre dos o más variables cuantitativas de modo que una variable
respuesta o resultado puede ser predicha a partir de la otra, o de las otras.
Esta metodología se utiliza ampliamente en
los negocios
las ciencias sociales
Las ciencias biológicas, y en muchas otras disciplinas.

Wilson Sandoval Rodríguez Análisis de Regresión 03/11/2020 2 / 37


Diagrama de dispersión

Definición
Solo para variables cuantitativas, permite ver como es el cmportamiento de
dos variables en lo que se conoce como una nube de puntos

Wilson Sandoval Rodríguez Análisis de Regresión 03/11/2020 3 / 37


Medidas enntre dos variables

Covarianza
La covarianza sxy es una medida que indica la variabilidad conjunta de dos
variables cuantitativas y se define como:
n
1X
sxy = (xi − x̄ ) (yi − ȳ )
n i=1

Si sxy > 0 las dos variables crecen o decrecen a la vez.


Si sxy < 0 una variable crece mientras que la otra decrece.
Si sxy = 0 no hay relación lineal entre las variables.

Wilson Sandoval Rodríguez Análisis de Regresión 03/11/2020 4 / 37


Coeficiente de correlación lineal de Pearson

Definición
La covarianza está afectada por los cambios de unidad de medida. Se define
el coeficiente de correlación lineal de Pearson como:
1 n
i=1 (xi − x̄ ) (yi − ȳ )
P
sxy n
r= = q q
sx sy 1 Pn 2 1 Pn 2
n i=1 (xi − x̄ ) n i=1 (yi − ȳ )

Wilson Sandoval Rodríguez Análisis de Regresión 03/11/2020 5 / 37


Características del coeficiente de correlación

Es adimensional.
Es invariante a los cambios de escala.
Toma valores entre -1 y 1.
Indica fuerte relación lineal entre variables cuando |r | es cercano a 1.
Si es cercano a 0, puede afirmarse que no existe relación lineal entre
ambas variables.

Wilson Sandoval Rodríguez Análisis de Regresión 03/11/2020 6 / 37


Ejemplo

Se tienen los siguientes conjuntos de datos X = {5, 8, 9, 10, 15} cuya media
es x̄ = 9.4 y Y = {0.1, 0.4, 0.5, 0.9, 0.99} cuya media es ȳ = 0.578
X Y (xi − x̄ )2 (yi − ȳ )2 (xi − x̄ ) (yi − ȳ )
5 0.1 19.36 0.2285 2.1032
8 0.4 1.96 0.0317 0.2492
9 0.5 0.16 0.0061 0.0312
10 0.9 0.36 0.1037 0.1932
15 0.99 31.36 0.1697 2.3072
Suma 53.20 0.5397 4.884

Wilson Sandoval Rodríguez Análisis de Regresión 03/11/2020 7 / 37


De la tabla anterior:

De la tabla anterior:
4.884
sxy = = 0.9768
5
53.2
sx2 = 5 = 10.64 ⇒ sx = 3.2619
0.5397
sy2 = 5 = 0.1079 ⇒ sy = 0.3285 De donde,

0.9768
r=
(3.2619)(0.3285)

Wilson Sandoval Rodríguez Análisis de Regresión 03/11/2020 8 / 37


La regresión

Fundamento
En míltiples estudios estadísticos, aparece la necesidad práctica de
considerar simultáneamente dos o más variables, con el fin de analizar si
entre ellas existe alguna relación, si la manera se puede formalizar y qué tan
intensa es la misma

El supuesto de partida considera que algunas de las variables explican en


parte, el comportamiento de otras. Se establece una división general entre
las variables clasificándolas en dos grupos constituidos por las variables
independientes o explicativas y las variables explicadas o respuesta

Wilson Sandoval Rodríguez Análisis de Regresión 03/11/2020 9 / 37


Regresión

Wilson Sandoval Rodríguez Análisis de Regresión 03/11/2020 10 / 37


Un artículo en el Journal of Sound and Vibration (Vol. 151, 1991,
pp. 383-394) describe un estudio que investiga la relación entre la
exposición al ruido y la hipertensión. Los siguientes datos son
representativos de los reportados en el artículo.
x y x y
60 1 85 5
63 0 89 4
65 1 90 6
70 2 90 8
70 5 90 4
70 1 90 5
80 4 94 7
90 6 100 9
80 2 100 7
80 3 100 6

Wilson Sandoval Rodríguez Análisis de Regresión 03/11/2020 11 / 37


Aquí la variable y representa el aumento de la presión arterial en milímetros
de mercurio y la variable x representa el nivel de presión acústica en
decibeles.

Wilson Sandoval Rodríguez Análisis de Regresión 03/11/2020 12 / 37


Esta presentación claramente sugiere una relación entre la presión arterial y
la presión acústica; en efecto, la impresión es que los puntos de los datos
generalmente, pero no exactamente, caen a lo largo de una line recta. La
siguiente figura ilustra esta línea recta de relación.

Wilson Sandoval Rodríguez Análisis de Regresión 03/11/2020 13 / 37


Si consideramos que y representa la presión arterial y x representa la
presión acústica, entonces la ecuación de una línea recta que relaciona estas
dos variables es

y = β0 + β1 x (1)

β0 es el intercepto y
β1 es la pendiente.
Ahora los puntos de los datos no caen exactamente sobre una línea recta,
así que la ecuación (1) debería ser modificada para explicar esto.

Wilson Sandoval Rodríguez Análisis de Regresión 03/11/2020 14 / 37


Considere que la diferencia entre el valor observado de y y la línea recta
(β0 + β1 x ) es un error . Es conveniente pensar  como un error estadístico;
es decir, una variable aleatoria que explica la falla del modelo para estimar
los datos exactamente. Así, un modelo más plausible para los datos de la
presión arterial es

y = β0 + β1 x +  (2)
La ecuación (2) es denominada un modelo de regresión lineal.

Wilson Sandoval Rodríguez Análisis de Regresión 03/11/2020 15 / 37


x es llamada la variable independiente (predictora o regresora)
y es denominada la variable dependiente (respuesta).
Como la ecuación (2) involucra una sola variable predictora, esta es
denominada modelo de regresión lineal simple.
Suponga que podemos fijar el valor de la variable predictora x y observar el
correspondiente valor de la respuesta y .
Si x está fijo, el componente aleatorio  en el lado derecho de la ecuación
(2) determina las propiedades de y .

Wilson Sandoval Rodríguez Análisis de Regresión 03/11/2020 16 / 37


Supongamos que la media y la varianza de  son 0 y σ 2 , respectivamente.
Entonces la respuesta media en cualquier valor de x es:

E (y | x ) = β0 + β1 x

La varianza de y dado cualquier valor de x es

Var(y | x ) = σ 2

Wilson Sandoval Rodríguez Análisis de Regresión 03/11/2020 17 / 37


Asi, el modelo de regresión verdadero E (y | x ) = β0 + β1 x es una línea de
valores medios, esto es, la altura de la línea de regresión en cualquier valor
de x es justo el valor esperado de y para ese x . La media de y es una
función lineal de x aunque la varianza de y no depende del valor de x .
Los parámetros β0 y β1 son usualmente denominados coeficientes de
regresión.

Wilson Sandoval Rodríguez Análisis de Regresión 03/11/2020 18 / 37


La pendiente β1 es el cambio en la media de la distribución de y
producida por un cambio unitario en x .
Si el rango de los datos en x incluye x = 0, entonces el intercepto β0
es la media de la distribución de la respuesta y cuando x = 0.
Si el rango de x no incluye a cero, entonces β0 no tiene interpretación
práctica.

Wilson Sandoval Rodríguez Análisis de Regresión 03/11/2020 19 / 37


Estimación de β0 y β1

El método de mínimos cuadrados es usado para estimar β0 y β1 . Estimamos


β0 y β1 de tal forma que la suma de cuadrados de las diferencias entre las
observaciones yi y la recta de regresión es un mínimo.
De la ecuación (2) podemos escribir un modelo de regresión muestral en
términos de los n pares de datos (xi , yi ) (i = 1, 2, · · · , n), así:

yi = β0 + β1 xi + i , i = 1, 2, · · · , n

Wilson Sandoval Rodríguez Análisis de Regresión 03/11/2020 20 / 37


Por lo tanto, el criterio de los mínimos cuadrados es
n
(yi − β0 − β1 xi )2
X
S (β0 , β1 ) =
i=1

Wilson Sandoval Rodríguez Análisis de Regresión 03/11/2020 21 / 37


Los estimadores de mínimos cuadrados de β0 y β1 , digamos β̂0 y β̂1 debe
satisfacer

n 
∂S X 
= −2 y i − β̂ 0 − β̂ 1 xi =0
∂β0 β̂0 ,β̂1 i=1

n 
∂S X 
= −2 yi − β̂0 − β̂1 x i xi = 0
∂β1 β̂0 ,β̂1 i=1

Wilson Sandoval Rodríguez Análisis de Regresión 03/11/2020 22 / 37


siguientes ecuaciones, llamadas ecuaciones normales del modelo
n
X n
X
nβ̂0 + β̂1 xi = yi
i=1 i=1
n
X Xn Xn
β̂0 xi + β̂1 xi2 = yi xi
i=1 i=1 i=1

Wilson Sandoval Rodríguez Análisis de Regresión 03/11/2020 23 / 37


Las estimaciones de mínimos cuadrados del intercepto y la pendiente en el
modelo de regresión lineal son:

β̂0 = ȳ − β̂1 x̄
Pn
(xi − x̄ ) (yi − ȳ )
β̂1 = i=1 Pn 2
i=1 (xi − x̄ )

β̂1 es llamado el coeficiente de regresión y representa la modificación


de las estimaciones de la variable explicada por cada modificación en
una unidad de la variable explicadora.
β̂0 es la estimación de la variable explicada cuando la explicadora es
igual a 0.

Wilson Sandoval Rodríguez Análisis de Regresión 03/11/2020 24 / 37


El modelo de regresión lineal estimado es

ŷ = β̂0 + β̂1 x
La ecuación da una estimación puntual de la media de y para un x
particular.

Wilson Sandoval Rodríguez Análisis de Regresión 03/11/2020 25 / 37


La diferencia entre el valor observado yi y el correspondiente valor estimado
ŷi es un residual. Matemáticamente el i -ésimo residual es
Residual
ei = yi − ŷi , i = 1, 2, · · · , n

Los residuos juegan un papel importante en la investigación de la adecuación


del modelo y en la detección de desviaciones de los supuestos subyacentes.

Wilson Sandoval Rodríguez Análisis de Regresión 03/11/2020 26 / 37


Propiedades de los Estimadores de Mínimos Cuadrados y el
Modelo de Regresión Ajustado

Los estimadores de mínimos cuadrados β̂0 y β̂1 tienen varias propiedades


importantes.
Los estimadores de mínimos cuadrados β̂0 y β̂1 son estimadores
insesgados de los parámetros del modelo β0 y β1
Las varianzas de β̂1 y β̂0 son
  σ2
Var β̂1 =
Sxx

!
 
2 1 x̄ 2
Var β̂0 = σ +
n Sxx

Wilson Sandoval Rodríguez Análisis de Regresión 03/11/2020 27 / 37


Los estimadores de mínimos cuadrados son insesgados y tienen
varianza mínima cuando se comparan con todos los otros estimadores
insesgados que son combinaciones lineales de los yi bajo los supuestos
E () = 0, Var() = σ 2 , y errores no correlacionados.
n
X
ei = 0
i=1
n
X n
X
yi = ŷi
i=1 i=1

La línea de regresión de mínimos cuadrados siempre pasa por el


centroide [el punto (x̄ , ȳ )] de los datos.
n
X
xi ei = 0
i=1
n
X
ŷi ei = 0
i=1

Wilson Sandoval Rodríguez Análisis de Regresión 03/11/2020 28 / 37


Estimación de σ 2

La estimación de σ 2 se obtiene a partir de la suma de cuadrados residual,


n n
(yi − ŷi )2
X X
SCRes = ei2 =
i=1 i=1

La suma de cuadrados residual tiene n − 2 grados de libertad, porque dos


grados de libertad se asocian con las estimaciones β̂0 y β̂1 involucradas en
la obtención de ŷi
Se puede probar que E (SCRes ) = (n − 2)σ 2 , así que un estimador insesgado
de σ 2 es
SCRes
σ̂ 2 = = CMRes
n−2
La cantidad CMRes se llama el cuadrado medio residual. La raíz cuadrada
de σ̂ 2 es a veces llamado el error estándar de regresión, y tiene las mismas
unidades que el variable de respuesta y .

Wilson Sandoval Rodríguez Análisis de Regresión 03/11/2020 29 / 37


Pruebas de Hipotesis Sobre La Pendiente y el intercepto

A menudo nos interesa probar hipótesis y construir intervalos de confianza


sobre los parámetros del modelo. Estos procedimientos requieren que
hagamos la suposición adicional de que los errores del modelo i se
distribuyen normalmente. Por lo tanto, los supuestos completos son que los
errores se distribuyen normalmente e independientemente con media 0 y
varianza σ 2 Supongamos que deseamos probar la hipótesis de que la
pendiente es igual a una constante, digamos β10 . Las hipótesis apropiadas
son:
H0 : β1 = β10
H1 : β1 6= β10

Wilson Sandoval Rodríguez Análisis de Regresión 03/11/2020 30 / 37


La estadística
β̂1 − β10
Z0 = q
σ 2 /Sxx
se distribuye N(0, 1) si la hipótesis nula H0 ; β1 = β10 es verdadera. Si se
conociera σ 2 , podríamos usar Z0 para probar la hipótesis (7) . Típicamente,
σ 2 es desconocido. Ya hemos visto que CMRes es un estimador insesgado de
σ 2 . Si sustituimos σ 2 por CMRes en (8), se obtiene la estadítica t

β̂1 − β10
t0 = p
CMRes /Sxx

que sigue una distribución tn−2 si la hipótesis nula H0 : β1 = β10 es


verdadera. Por lo tanto, la razón t0 es la estadística de prueba utilizada
para probar H0 : β1 = β10 .

Wilson Sandoval Rodríguez Análisis de Regresión 03/11/2020 31 / 37


El procedimiento de prueba calcula t0 y compara el valor observado de t0
con el punto de la distribución tn−2 que deja un área a su derecha de α/2,
denotado como tα/2,n−2 . Este procedimiento rechaza la hipótesis nula sì

|t0 | > tα/2,n−2

Alternativamente, un enfoque de P -valor también podría usarse para la


toma de decisiones.

Wilson Sandoval Rodríguez Análisis de Regresión 03/11/2020 32 / 37


Un procedimiento similar se puede usar para probar hipótesis sobre el
intercepto. Para probar
H0 : β0 = β00
H1 : β0 6= β00
usaríamos la estadística de prueba

β̂0 − β00
t0 = r  
1 x̄ 2
CMRes n + Sxx

Rechazamos la hipótesis nula H0 : β0 = β00 si |t0 | > tα/2,n−2

Wilson Sandoval Rodríguez Análisis de Regresión 03/11/2020 33 / 37


Prueba de significancia de la regresión

Un caso especial muy importante de las hipótesis en (7) es

H0 : β1 = 0
H1 : β1 6= 0

Estas hipótesis se relacionan con la significancia de la regresión. No


rechazar H0 : β1 = 0 implica que no hay una relación lineal entre x y y

Wilson Sandoval Rodríguez Análisis de Regresión 03/11/2020 34 / 37


Alternativamente, si H0 : β1 = 0 es rechazada, esto implica que x es de
valor para explicar la variabilidad en y .

Wilson Sandoval Rodríguez Análisis de Regresión 03/11/2020 35 / 37


Si aceptamos la hipótesis nula concluimos que no hay evidencias de
que haya una relación lineal entre las variables y el modelo, en
principio, no es apropiado. Puede haber una relación lineal en la
población pero la muestra elegida no la detecta.
Si rechazamos la hipótesis nula concluimos que el modelo lineal es
apropiado. Puede que exista una relación NO-LINEAL pero los datos
son también consistentes con un modelo lineal.

Wilson Sandoval Rodríguez Análisis de Regresión 03/11/2020 36 / 37


Medidas de la bondad del ajuste. Coeficiente de
determinación

Se puede determinar la relación entre varianza explicada por el modelo y


varianza total, lo que se conoce como coefciente de determinación o R 2 (r 2
con datos muestrales) y queda determinado por:

Pn  2
i=1 Ŷi − Ȳ
R2 = P  2
n
i=1 Yi − Ȳ

Los valores extremos del coeficiente de determinación son: 0, cuando la


varianza explicada es nula, y 1,cuando la varianza residual es nula, es decir,
cuando el ajuste es perfecto

Wilson Sandoval Rodríguez Análisis de Regresión 03/11/2020 37 / 37

También podría gustarte