Está en la página 1de 21

Regresión Lineal Simple LSD

Regresión Lineal Simple

Objetivo: Se desea establecer una relación entre una variable


𝑿𝒆𝒀.

𝒀: Variable respuesta

𝑿: Covariable

Suponga que existe una relación lineal entre𝑿 𝒆 𝒀, y que la


observación 𝒚 en cada nivel de 𝒙 es una variable aleatoria.

Luego el valor esperado de 𝒚 para cada valor 𝒙 es:

𝑬(𝒀/𝑿) = 𝜷𝟎 + 𝜷𝟏 𝒙
Donde 𝜷𝟎 y la pendiente 𝜷𝟏 son constantes desconocidas.

Cada observación 𝒚𝒊 puede escribirse mediante el modelo:

𝒚𝒊 = 𝜷𝟎 + 𝜷𝟏 𝒙𝒊 + 𝜺𝒊

𝜺𝒊 : 𝒆𝒓𝒓𝒐𝒓𝒂𝒍𝒆𝒂𝒕𝒐𝒓𝒊𝒐𝒄𝒐𝒏𝒎𝒆𝒅𝒊𝒂 𝟎 𝒚𝒗𝒂𝒓𝒊𝒂𝒏𝒛𝒂𝝈𝟐 .

Los 𝜺𝒊 se suponen que son variables aleatorias no


correlacionadas. Este modelo recibe por lo general el nombre de
modelo de regresión lineal simple.

Suponga que tenemos 𝒏 pares de observaciones


𝒚𝟏 , 𝒙𝟏 , 𝒚𝟐 , 𝒙𝟐 , . . , 𝒚𝒏 , 𝒙𝒏 , estos datos pueden ser utilizados
para estimar 𝜷𝟎 y 𝜷𝟏 . Para estimar estos parámetros se puede
utilizar el procedimiento de optimización de mínimos cuadrados,
esto es, estimar 𝜷𝟎 y 𝜷𝟏 de manera que la suma de cuadrados de

1
Regresión Lineal Simple LSD

las desviaciones entre las observaciones y la línea de regresión


sean las mínimas.

𝒚𝒊 = 𝜷𝟎 + 𝜷𝟏 𝒙𝒊 + 𝜺𝒊

𝐋 = 𝐧𝐢=𝟏 𝛆𝟐𝐢 = 𝐧𝐢=𝟏 𝐲𝐢 − (𝛃𝟎 + 𝛃𝟏 𝐱 𝐢 ) 𝟐 , corresponde a la suma


de los cuadrados de las desviaciones entre las observaciones y la
línea de regresión mínima.

Se estimarán 𝜷𝟎 y 𝜷𝟏 utilizando mínimos cuadrados:

Los estimadores se representan como 𝜷𝟎 y 𝜷𝟏 respectivamente.

Se debe satisfacer:

𝝏𝑳 𝒏
|𝜷𝟎 , 𝜷𝟏 = −𝟐 𝒊=𝟏 𝐲𝐢 − 𝛃𝟎 − 𝛃𝟏 𝒙𝒊 = 𝟎
𝝏𝜷𝟎

𝝏𝑳 𝒏
|𝜷𝟎 , 𝜷𝟏 = −𝟐 𝒊=𝟏 𝐲𝐢 − 𝛃𝟎 − 𝛃𝟏 𝒙𝒊 𝒙𝒊 = 𝟎
𝝏𝜷𝟏

De donde se obtienen las ecuaciones normales de mínimos


cuadrados:

1) 𝒏𝜷𝟎 + 𝛃𝟏 𝒏𝒊=𝟏 𝒙𝒊 = 𝒏𝒊=𝟏 𝐲𝐢


2) 𝛃𝟎 𝒏𝒊=𝟏 𝒙𝒊 + 𝛃𝟏 𝒏𝒊=𝟏 𝒙𝒊 𝟐 = 𝒏
𝒊=𝟏 𝐲𝐢 𝒙𝒊

2
Regresión Lineal Simple LSD

La solución a la ecuación normal es:

𝛃𝟎 = 𝒚 − 𝛃𝟏 𝒙
𝑺𝒙𝒚
𝛃𝟏 =
𝑺𝒙𝒙
𝒏 𝒏 𝒏 𝒏
𝟐 𝒊=𝟏 𝒙𝒊 𝒊=𝟏 𝒚𝒊
𝑺𝒙𝒚 = 𝐲𝐢 (𝒙𝒊 − 𝒙) = 𝐲𝐢 𝒙𝒊 −
𝒏
𝒊=𝟏 𝒊=𝟏
𝒏 𝒏 𝒏 𝟐
𝒊=𝟏 𝒙𝒊
𝑺𝒙𝒙 = (𝒙𝒊 − 𝒙)𝟐 = 𝒙𝒊 𝟐 −
𝒏
𝒊=𝟏 𝒊=𝟏

𝑺𝒙𝒚 : Es la suma corregida de los productos cruzados de 𝒙𝒆𝒚.

𝑺𝒙𝒙 : Es la suma corregida de los cuadrados de x.

Se obtiene que el modelo de regresión lineal simple ajustado es:

𝒚 = 𝛃𝟎 + 𝛃𝟏 𝒙

3
Regresión Lineal Simple LSD

Proceso en la estimación de la regresión lineal (Anderson):

4
Regresión Lineal Simple LSD

Ejemplo: Un ingeniero químico está investigando el efecto de la


temperatura de operación de proceso en el rendimiento del
producto. El estudio da como resultado los siguientes datos:
Temperatura °C (X) 110 110 120 130 140 150 160 170 180 190
Rendimiento % (Y) 45 51 54 61 66 70 74 78 85 89

Rendimiento (Y)
100
90
80
70
60
50
40 Rendimiento (Y)
30
20
10
0
0 50 100 150 200

La gráfica indica una fuerte relación lineal:

Modelo supuesto:

𝒀 = 𝜷𝟎 + 𝜷𝟏 𝒙 + 𝜺

5
Regresión Lineal Simple LSD

Solución:(Desarrollo en clases)
𝟏𝟎 𝟏𝟎

𝒙𝒊 = 𝟏𝟒𝟔𝟎 , 𝒚𝒊 = 𝟔𝟕𝟑
𝒊=𝟏 𝒊=𝟏
𝟏𝟎 𝟏𝟎

𝒙𝟐𝒊 = 𝟐𝟐𝟎𝟔𝟎𝟎 , 𝒙𝒊 𝒚𝒊 = 𝟏𝟎𝟐𝟎𝟐𝟎


𝒊=𝟏 𝒊=𝟏

6
Regresión Lineal Simple LSD

Propiedades de los estimadores de mínimos cuadrados𝜷𝟎 𝒚 𝜷𝟏 .

1) Los estimadores 𝜷𝟎 𝒚 𝜷𝟏 son variables aleatorias, puesto que


son combinaciones lineales de 𝒚𝒊 que son variables
aleatorias.
2) Propiedades de no neutralidad y varianza de estos
estimadores.

Esperanza de 𝜷𝟏 :

𝑺𝒙𝒚
𝑬 𝜷𝟏 = 𝑬 = 𝜷𝟏
𝑺𝒙𝒙

De esta manera el estimador 𝜷𝟏 es insesgado

Por el supuesto que 𝑬 𝜺𝒊 = 𝟎, 𝑬 𝒙𝒊 = 𝑬(𝒙)

Ejercicio: Use el supuesto que 𝑬 𝜺𝒊 = 𝟎, 𝑬 𝒙𝒊 = 𝑬(𝒙)

Muestre que:
𝑺𝒙𝒚
𝑬 𝜷𝟏 = 𝑬 = 𝜷𝟏
𝑺𝒙𝒙

Varianza de 𝜷𝟏 : Usando 𝑽 𝒚𝒊 = 𝝈𝟐 , 𝑽 𝜺𝒊 = 𝝈𝟐 , 𝒚 𝒒𝒖𝒆 𝒍𝒐𝒔 𝒚𝒊


no están correlacionados.

𝑺𝒙𝒚 𝝈𝟐
𝑽 𝜷𝟏 =𝑽 =
𝑺𝒙𝒙 𝑺𝒙𝒙

7
Regresión Lineal Simple LSD

Esperanza de 𝜷𝟎 :

𝑬 𝜷𝟎 = 𝑬 𝒚 − 𝛃𝟏 𝒙 = 𝜷𝟎

De esta manera el estimador 𝜷𝟎 es insesgado

Varianza de 𝜷𝟎 : Usando 𝑽 𝒚𝒊 = 𝝈𝟐 , 𝑽 𝜺𝒊 = 𝝈𝟐

𝟐
𝟏 𝒙𝟐
𝑽 𝜷𝟎 = 𝑽 𝒚 − 𝛃𝟏 𝒙 = 𝝈 ( + )
𝒏 𝑺𝒙𝒙

Covarianza 𝜷𝟎 𝒚 𝜷𝟏 :
𝒙
𝒄𝒐𝒗 𝜷𝟎 , 𝜷𝟏 = −𝝈𝟐
𝑺𝒙𝒙

8
Regresión Lineal Simple LSD

Coeficiente de determinación:

El coeficiente de determinación es una medida de la bondad de


ajuste de la ecuación de regresión estimada, es decir en que
medida se ajusta la ecuación a los datos.

A la diferencia que existe, en la observación 𝒊, entre el valor


observado de la variable dependiente 𝒚𝒊 , y el valor estimado de
la variable dependiente𝒚𝒊 se le llama 𝒓𝒆𝒔𝒊𝒅𝒖𝒂𝒍 𝒆𝒊 . El residual 𝒆𝒊
representa el error que existe al usar 𝒚𝒊 , para estimar 𝒚𝒊 . Por
tanto, para la observación 𝒊, el residual es 𝒚𝒊 − 𝒚𝒊 . La suma de los
cuadrados de estos residuales o errores es la cantidad que se
minimiza empleando el método de los mínimos cuadrados. Esta
cantidad se conoce como s𝒖𝒎𝒂 𝒅𝒆 𝒄𝒖𝒂𝒅𝒓𝒂𝒅𝒐𝒔 𝒅𝒆𝒃𝒊𝒅𝒂 𝒂𝒍 𝒆𝒓𝒓𝒐𝒓, y
se denota por SCE.

Suma Cuadrado debido al Error:


𝒏
𝟐
𝑺𝑪𝑬 = 𝒚𝒊 − 𝒚𝒊
𝒊=𝟏

El valor 𝑺𝑪𝑬 es una medida del error al utilizar la ecuación de


regresión estimada (modelo ajustado) para calcular los valores de
la variable dependiente de la muestra.

Suma Cuadrado Total:


𝒏
𝟐
𝑺𝑪𝑻 = 𝒚𝒊 − 𝒚
𝒊=𝟏

Se puede entender la 𝑺𝑪𝑻 como una medida de cuánto se


agrupan las observaciones en torno a la línea 𝒚.

9
Regresión Lineal Simple LSD

Suma Cuadrado debido a la Regresión:


𝒏
𝟐
𝑺𝑪𝑹 = 𝒚𝒊 − 𝒚
𝒊=𝟏

Se puede entender 𝑺𝑪𝑹 como una medida se cuánto se desvían


de 𝒚 los valores de 𝒚𝒊 en la recta de regresión.

Relación entre SCT, SCR y SCE

𝑺𝑪𝑻 = 𝑺𝑪𝑹 + 𝑺𝑪𝑬


La ecuación indica que la suma de cuadrados total puede ser
dividida en dos componentes: la suma de cuadrados debido a la
regresión, y la suma de cuadrados debido al error.

Estas tres medidas serán utilizadas para obtener el coeficiente de


𝑹𝟐 , que corresponde a una medida de la bondad de ajuste de la
ecuación de regresión estimada.

Coeficiente de determinación:

𝑺𝑪𝑹
𝑹𝟐 =
𝑺𝑪𝑻
Esta medida puede tomar valores entre 0 y 1. Cuando se expresa
el coeficiente de determinación en forma de porcentaje, 𝑹𝟐 se
puede interpretar como el porcentaje de la suma de cuadrados
total que se explica mediante el uso de la ecuación de regresión
estimada.

10
Regresión Lineal Simple LSD

ANOVA para la Regresión Lineal Simple:

Fuente de Suma de Grados Cuadrados medios F


Variación cuadrados de
libertad
Regresión 𝑺𝑪𝑹 𝟏 𝑪𝑴𝑹 = 𝑺𝑪𝑹
𝟏
Error 𝑺𝑪𝑬 𝒏−𝟐 𝑪𝑴𝑬 = 𝑺𝑪𝑬 𝑪𝑴𝑹
(𝒏 − 𝟐) 𝑭=
𝑪𝑴𝑬
Total 𝑺𝑪𝑻 𝒏−𝟏

11
Regresión Lineal Simple LSD

Significancia del Modelo:

Prueba de hipótesis en la Regresión Lineal Simple:

Supuestos:

𝜺𝒊 𝒊𝒊𝒅 𝟐
~ 𝑵(𝟎, 𝝈 )

𝟐
𝜷𝟏 ~𝑵(𝜷𝟏 , 𝝈 𝑺 )
𝒙𝒙

𝟐
𝟏 𝒙𝟐
𝜷𝟎 ~𝑵(𝜷𝟎 , 𝝈 + )
𝒏 𝑺𝒙𝒙

𝒚𝒊 ~𝑵(𝜷𝟎 + 𝜷𝟏 𝒙𝒊 , 𝝈𝟐 )
𝑺𝑪𝑬
𝝈𝟐 = = 𝑺𝟐 = 𝑪𝑴𝑬 , es un estimador insesgado de 𝝈𝟐
(𝒏−𝟐)

Prueba de hipótesis para 𝜷𝟏

𝑯𝟎 : 𝜷𝟏 = 𝜹𝟎
𝑯𝟏 : 𝜷𝟏 ≠ 𝜹𝟎
𝜹𝟎 : 𝒄𝒐𝒏𝒔𝒕𝒂𝒏𝒕𝒆 𝒆𝒔𝒑𝒆𝒄í𝒇𝒊𝒄𝒂
Estadístico de prueba:

𝜷𝟏 − 𝜹𝟎
𝑻𝒐𝒃𝒔 =
𝝈𝟐
𝑺𝒙𝒙

Sigue una distribución 𝒕 con 𝒏 − 𝟐 grados de libertad.

12
Regresión Lineal Simple LSD

Regla de decisión: Se rechaza 𝑯𝟎 : 𝜷𝟏 = 𝜹𝟎 𝒔𝒊 ∶

𝑻𝒐𝒃𝒔 > 𝒕𝜶 O𝑻𝒐𝒃𝒔 < −𝒕𝜶


𝟐;(𝒏−𝟐) 𝟐;(𝒏−𝟐)

Caso especial:

𝑯𝟎 : 𝜷𝟏 = 𝟎
𝑯𝟏 : 𝜷𝟏 ≠ 𝟎
El no rechazo de𝑯𝟎 significa que no hay regresión lineal.

Coeficiente de correlación muestral:

𝒓𝒙𝒚 = 𝒔𝒊𝒈𝒏𝒐 𝜷𝟏 ∗ 𝑹𝟐

−𝟏 ≤ 𝒓𝒙𝒚 ≤ 𝟏

13
Regresión Lineal Simple LSD

Prueba F de significancia:

Se usa para probar la significancia de la regresión

𝑯𝟎 : 𝜷𝟏 = 𝟎
𝑯𝟏 : 𝜷𝟏 ≠ 𝟎
Estadístico de prueba:
𝑪𝑴𝑹
𝑭𝒐𝒃𝒔 = ~𝑭(𝟏, 𝒏 − 𝟐)
𝑪𝑴𝑬
Tiene distribución 𝑭 (𝑭𝒊𝒔𝒉𝒆𝒓) con 1 grado de libertad en
numerador y 𝒏 − 𝟐 en el denominador.
𝑺𝑪𝑹
𝑪𝑴𝑹 =
𝒈𝒍
𝒈𝒍 = 𝒈𝒓𝒂𝒅𝒐𝒔 𝒅𝒆 𝒍𝒊𝒃𝒆𝒓𝒕𝒂𝒅 𝒅𝒆 𝒍𝒂 𝒓𝒆𝒈𝒓𝒆𝒔𝒊ó𝒏,
𝒆𝒒𝒖𝒊𝒗𝒂𝒍𝒆𝒏𝒕𝒆 𝒂𝒍 𝒏ú𝒎𝒆𝒓𝒐 𝒅𝒆 𝒗𝒂𝒓𝒊𝒂𝒃𝒍𝒆𝒔 𝒊𝒏𝒅𝒆𝒑𝒆𝒏𝒅𝒊𝒆𝒏𝒕𝒆𝒔
𝒆𝒏 𝒆𝒍 𝒎𝒐𝒅𝒆𝒍𝒐

𝑺𝑪𝑬
𝑪𝑴𝑬 =
𝒏−𝟐

Regla de decisión: Se rechaza 𝑯𝟎 : 𝜷𝟏 = 𝟎 𝒔𝒊 ∶

Criterio de valor crítico:

𝑭𝒐𝒃𝒔 > 𝒇𝜶;(𝟏,𝒏−𝟐)

Criterio del valor p:

𝒗𝒂𝒍𝒐𝒓 𝒑 < 𝛼

14
Regresión Lineal Simple LSD

Estimación de intervalos en la regresión lineal simple

Un intervalo de confianza 𝟏 − 𝜶 % para 𝜷𝟏 :

𝜷𝟏 − 𝜷𝟏
𝒕= ~𝒕(𝒏 − 𝟐)
𝑺𝟐
𝑺𝒙𝒙

𝑰𝑪𝜷𝟏 : 𝜷𝟏 ± 𝒕𝜶 𝑺𝟐
𝟐;(𝒏−𝟐) 𝑺𝒙𝒙

Un intervalo de confianza 𝟏 − 𝜶 % para 𝜷𝟎 :

𝜷𝟎 − 𝜷𝟎
𝒕= ~𝒕(𝒏 − 𝟐)
𝟏 𝒙𝟐
𝑺𝟐 +
𝒏 𝑺𝒙𝒙

𝟏 𝒙𝟐
𝑰𝑪𝜷𝟏 : 𝜷𝟎 ± 𝒕𝜶 𝑺𝟐 +
𝟐;(𝒏−𝟐) 𝒏 𝑺𝒙𝒙

15
Regresión Lineal Simple LSD

Intervalo de confianza para el valor medio de 𝒚:

𝒚𝒑 = 𝛃𝟎 + 𝜷𝟏 𝒙𝒑 : Estimación puntual de 𝑬(𝒚𝒑 ) cuando 𝒙 = 𝒙𝒑

𝒙𝒑 :Valor particular o determinado de la variable independiente 𝒙.

𝒚𝒑 :Valor de la variable dependiente y que corresponde al valor


dado 𝒙𝒑

𝑬(𝒚𝒑 ): Valor medio o valor esperado de la variable 𝒚 que


corresponde al valor de 𝒙𝒑

Fórmula para estimar la varianza de 𝒚𝒑 para un 𝒙𝒑 :


𝟐
𝟏 𝒙𝒑 − 𝒙
𝑺𝟐𝒚𝒑 = 𝑺𝟐 + 𝒏
𝒏 𝒊=𝟏(𝒙𝒊 − 𝒙)

𝟐
𝟏 𝒙𝒑 − 𝒙
𝑺𝒚𝒑 = 𝑺𝟐 + 𝒏
𝒏 𝒊=𝟏(𝒙𝒊 − 𝒙)

𝑺𝑪𝑬
𝑺𝟐 =
(𝒏 − 𝟐)
Intervalo de confianza para 𝑬(𝒚𝒑 ):

𝑰𝑪𝒚𝒑 : 𝒚𝒑 ± 𝒕𝜶 𝑺
𝟐;(𝒏−𝟐) 𝒚𝒑

Donde el nivel de confianza 𝟏 − 𝜶 y 𝒕𝜶 se basa en una


𝟐
distribución 𝒕 𝒔𝒕𝒖𝒅𝒆𝒏𝒕 con 𝒏 − 𝟐 grados de libertad.

16
Regresión Lineal Simple LSD

Aplicación. (Anderson)

Suponga que se recolectan los datos de una muestra de 10


restaurantes Armand’s Pizza Parlors ubicados todos cerca de
campus universitarios. Para la iésima observación o restaurante
en la muestra, 𝒙𝒊 es el tamaño de la población de estudiantes (en
miles) en el campus, e 𝒚𝒊 son las ventas trimestrales (en miles de
dólares). En la siguiente tabla se presentan las observaciones
para la muestra de 10 restaurantes.

Población de estudiantes y ventas trimestrales en 10 restaurantes


Armand’s
Restaurante Población de venta trimestrales (en
estudiantes (en miles) miles de dólares)
𝒊 𝒙𝒊 𝒚𝒊
1 2 58
2 6 105
3 8 88
4 8 118
5 12 117
6 16 137
7 20 157
8 20 169
9 22 149
10 26 202

17
Regresión Lineal Simple LSD

Diagrama de dispersión de la población de estudiantes y ventas


trimestrales en Armand’s Pizza Parlors

18
Regresión Lineal Simple LSD

Resultados computacionales con R:

Coeficiente de correlación:
cor(X,Y) #Correlaciones
[1] 0.950123

MODELO DE REGRESIÓN:
Modelo<-lm(Y~X) # Ajusta modelo de RLM
summary(Modelo)
Resumen del Modelo:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 60.0000 9.2260 6.503 0.000187
***
X 5.0000 0.5803 8.617 2.55e-05
***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’
0.1 ‘ ’ 1
Residual standard error: 13.83 on 8 degrees of
freedom
Multiple R-squared: 0.9027,
Adjusted R-squared: 0.8906
F-statistic: 74.25 on 1 and 8 DF,
p-value: 2.549e-05

ANALISIS DE VARIANZA
ANOVA<-aov(Modelo)#Prueba de significancia global
summary(ANOVA)
Df Sum Sq Mean Sq F value Pr(>F)
X 1 14200 14200 74.25 2.55e-05
***
Residuals 8 1530 191
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’
0.1 ‘ ’ 1

19
Regresión Lineal Simple LSD

VALIDACIÓN DE SUPUESTOS:

shapiro.test(rstandard(Modelo)) # Test de normalidad de los residuos


Shapiro-Wilk normality test
data: rstandard(Modelo)
W = 0.93287, p-value = 0.4767

# Instalar library car

ncvTest(model=Modelo) #Prueba de homocedasticidad


Non-constant Variance Score Test
Variance formula: ~ fitted.values
Chisquare = 0.01096545, Df = 1, p = 0.9166

Gráfico Q-Q Plot - Residuos.


res=resid(Modelo) # Residuos del Modelo
qqnorm(res)# Gráfico de normalidad de los residuos
qqline(res)

20
Regresión Lineal Simple LSD

Gráfica de la ecuación de regresión estimada para Armand’s Pizza


Parlors

21

También podría gustarte