Está en la página 1de 19

Tema 2 Semana 3.

Regresión
Lineal y Correlación
M. En C. Margarita I. Curiel Neri
Diagrama de dispersión (Scattergram)
Es un gráfico de puntos que muestra los valores de dos variables en
coordenadas cartesianas, en el que se puede observar si existe algún tipo de
correlación entre dichas variables, que puede ser: positiva, negativa, lineal
exponencial, parabólica o nula (no existe ninguna).

La fuerza de la correlación puede determinarse por la proximidad de los


puntos entre sí en el gráfico. Los puntos que terminan muy lejos del conjunto
general de puntos se conocen como valores atípicos.
El modelo de regresión lineal simple
El método de regresión estudia la construcción de modelos, mediante alguna ecuación,
para explicar la correlación entre una variable dependiente, 𝑦, y las variables
independientes. En la regresión simple interviene una sola variable independiente, 𝑥.
El modelo lineal utiliza una línea recta para ser ajustada dentro del gráfico de
dispersión tan cerca de todos los puntos como sea posible, de manera que se aproxima
la relación entre las dos variables mediante una línea recta y se utiliza para hacer
estimaciones.

Ecuación de regresión lineal simple estimada:

Donde:
𝑦 es el estimador puntual de la media o el valor esperado de 𝑦, 𝐸(𝑦), para un valor
dado de 𝑥.
𝑏0 y 𝑏1 se conocen como parámetros del modelo.
𝑏0 es la intersección con el eje 𝑦
𝑏1 es la pendiente de la recta
Método de ajuste de datos: mínimos cuadrados
En el método de mínimos cuadrados se usan los datos muestrales para obtener los
valores de 𝑏0 y 𝑏1 que minimicen la suma de los cuadrados de las desviaciones
(diferencias) entre los valores observados de la variable dependiente 𝑦𝑖 y los valores
estimados de la variable dependiente 𝑦.
Criterio de mínimos cuadrados:

Donde:
𝑦𝑖 = valor observado de la variable dependiente en la observación 𝑖-ésima.
𝑦𝑖 = valor estimado de la variable dependiente en la observación 𝑖-ésima.
Los valores de los parámetros 𝑏0 y 𝑏1 que minimizan la expresión se encuentran
mediante las ecuaciones siguientes:
Donde:
𝑥𝑖 = valor de la variable independiente en la observación 𝑖 − ésima
𝑦𝑖 = valor de la variable dependiente en la observación 𝑖 − ésima
𝑥 = media de la variable independiente
𝑦 = media de la variable dependiente
𝑛 = número total de observaciones
Ejemplo 1:
Dadas las siguientes cinco observaciones de las variables 𝑥 y 𝑦.
a) Trace el diagrama de dispersión
b) Calcule los parámetros 𝑏0 y 𝑏1 y desarrolle la ecuación de regresión estimada
c) Use la ecuación de regresión para predecir el valor de 𝑦 cuando 𝑥 = 4
𝒙𝒊 3 12 6 20 14
60
𝒚𝒊 55 40 55 10 15 50
40
55+40+55+10+15
𝑦= = 35 30
5
3+12+6+20+14 20
𝑥= = 11 10
5
(𝑥𝑖 −𝑥)(𝑦𝑖 −𝑦) 0
𝑏1 = 0 5 10 15 20 25
𝑥𝑖 −𝑥 2
3−11 55−35 + 12−11 40−35 + 6−11 55−35 + 20−11 10−35 +(14−11)(15−35)
𝑏1 =
3−11 2 + 12−11 2 + 6−11 2 + 20−11 2 + 14−11 2

−160+5−100−225−60
𝒃𝟏 = = −𝟑
64+1+25+81+9

𝑏0 = 𝑦 − 𝑏1 𝑥 Ecuación de regresión estimada: Cuando 𝒙 = 𝟒


𝒃𝟎 = 35 − 11𝑏1 = 35 − 11 −3 𝑦 = 𝑏0 + 𝑏1 𝑥 𝑦 = 68 − 3(4)
𝒃𝟎 = 𝟔𝟖 𝒚 = 𝟔𝟖 − 𝟑𝒙 𝒚 = 𝟓𝟒
Ejemplo 2:
• Dadas las siguientes cinco observaciones de las variables 𝑥 y 𝑦.
a. Trace el diagrama de dispersión correspondiente a estos datos.
b. ¿Qué indica el diagrama de dispersión del inciso a) respecto de la relación entre
las dos variables?
c. Calcule los parámetros 𝑏𝑜 y 𝑏1 , y desarrolle la ecuación de regresión estimada.
Trace la línea recta que pase a través de los puntos de los datos.
d. Use la ecuación de regresión estimada para predecir el valor de y cuando 𝑥 = 6.

𝒙𝒊 1 2 3 4 5
𝒚𝒊 3 7 5 11 14

RESPUESTAS
a. Trace el diagrama de dispersión correspondiente a estos datos.
20
10
0
0 1 2 3 4 5 6
b. ¿Qué indica el diagrama de dispersión del inciso a), respecto de la relación
entre las dos variables?
Se trata de una relación creciente, aparentemente lineal.

c. Calcule los parámetros 𝑏𝑜 y 𝑏1 , y desarrolle la ecuación de regresión


estimada. Trace la línea recta que pase a través de los puntos de los datos.
1+2+3+4+5 3+7+5+11+14
𝑥= 5
=3 𝑦= 5
=8

(𝑥𝑖 −𝑥)(𝑦𝑖 −𝑦) 1−3 3−8 + 2−3 7−8 + 3−3 5−8 + 4−3 11−8 +(5−3)(14−8)
𝑏1 = 𝑥𝑖 −𝑥 2
= 1−3 2 + 2−3 2 + 3−3 2 + 4−3 2 + 5−3 2

10+1+0+3+12
𝒃𝟏 = = 𝟐. 𝟔
4+1+0+1+4

𝒃𝟎 = 𝑦 − 𝑏1 𝑥 = 8 − 2.6 3 = 8 − 7.8 = 𝟎. 𝟐

Ecuación de regresión estimada:

𝑦 = 𝑏0 + 𝑏1 𝑥

𝒚 = 𝟎. 𝟐 + 𝟐. 𝟔𝒙
𝒚 = 𝟎. 𝟐 + 𝟐. 𝟔𝒙

20
10
0
0 2 4 6

d. Use la ecuación de regresión estimada para predecir el valor de y


cuando 𝑥 = 6.

Cuando 𝒙 = 𝟔

𝑦 = 0.2 + 2.6(6)

𝒚 = 𝟏𝟓. 𝟖
Intervalo de confianza para 𝜷𝟏
Para saber si una variable de predicción en verdad influye en el modelo se
puede utilizar un intervalo de confianza y realizar una prueba de hipótesis para
probar si es distinto de cero. En una ecuación de regresión lineal el parámetro
que acompaña a la variable independiente es 𝑏1 , y 𝛽1 es la representación
simbólica o la variable del valor 𝑏1 .
El intervalo de confianza para estimar 𝛽1 es el siguiente:
𝒃𝟏 ± 𝒕𝜶 𝒔𝒃𝟏
𝟐
Donde:
𝑏1 es el estimador puntual de 𝛽1
𝑡𝛼 2 𝑠𝑏1 es el margen de error
𝑡𝛼 2 se calcula con 𝑛 − 2 grados de libertad
𝑠 𝑦𝑖 −𝑦𝑖 2
𝑠𝑏1 = Además: 𝑠=
𝑥𝑖 −𝑥 2 𝑛−2
Pruebas de hipótesis
Para un modelo lineal simple, se determina mediante la prueba 𝑡, la veracidad
de las siguientes hipótesis:

𝐻0 : 𝛽1 = 0
𝐻1 : 𝛽1 ≠ 0
Prueba de rechazo:

Método del valor crítico:


Rechazar 𝐻0 si 𝑡 ≤ −𝑡𝛼 2 o si 𝑡 ≥ 𝑡𝛼 2 con (𝑛 − 2) grados de libertad para 𝑡𝛼 2

Método del p-valor:


Rechazar 𝐻0 si el p-valor ≤ 𝛼

Para contrastar las hipótesis se calcula el siguiente:


Estadístico de prueba t:
𝒃𝟏
𝒕=
𝑺 𝒃𝟏
Si 𝛽1 ≠ 0 quiere decir que el parámetro 𝑏1 , que expresa el nivel de
predicción de la variable independiente (𝑥) sobre la variable
dependiente (𝑦), es estadísticamente diferente de cero, es decir que
entre las dos variables del modelo de regresión (𝑥, 𝑦) existe una relación
estadísticamente significativa.
Además:

𝐸 𝑏1 = 𝛽1 es el valor esperado o media de 𝑏1


𝜎
𝜎𝑏1 = es la desviación estándar de 𝑏1
𝑥𝑖 −𝑥 2

𝑠
𝑆𝑏1 = es la desviación estándar estimada (muestral) de 𝑏1
𝑥𝑖 −𝑥 2

Distribución de probabilidad de 𝒃𝟏 : Se supone que tiene una


distribución normal.
Tabla de
distribución 𝒕
Ejemplo:
Dados los datos del Ejemplo1 anterior:
𝒙𝒊 3 12 6 20 14
𝒚𝒊 55 40 55 10 15
𝒚𝒊 59 32 50 8 26
a) Proponga una estimación por intervalo para 𝛽1
b) Use la prueba 𝑡 para probar las hipótesis siguientes con un nivel de significancia de
α = 0.05
Hipótesis:
𝐻0 : 𝛽1 = 0
𝐻1 : 𝛽1 ≠ 0
Sabemos, de los cálculos anteriores, que: 𝒚 = 𝟔𝟖 − 𝟑𝒙 , es decir: 𝒃𝟏 = −𝟑
También que: 𝑥 = 11, 𝑦 = 35
2
𝑦𝑖 −𝑦𝑖
𝑠 𝑛−2
Además: 𝑆𝑏1 = 2
=
𝑥𝑖 −𝑥 𝑥𝑖 −𝑥 2

55−59 2 + 40−32 2 + 55−50 2 + 10−8 2 + 15−26 2


3 76.66 8.75
𝑆𝑏1 = = = = 0.65
3−11 2 + 12−11 2 + 6−11 2 + 20−11 2 + 14−11 2 180 13.41
Entonces:
𝑏 −3
𝒕 = 𝑆 1 = 0.65 = −𝟒. 𝟓𝟗
𝑏1
𝒕𝜶/𝟐 𝑐𝑜𝑛 3 𝑔. 𝑑𝑒 𝑙. = 𝒕𝟎.𝟎𝟐𝟓 = 𝟑. 𝟏𝟖𝟐

a) Proponga una estimación por intervalo para 𝛽1


Intervalo de confianza:
𝑏1 − 𝑡𝛼 2 𝑠𝑏1 ≤ 𝛽1 ≤ 𝑏1 + 𝑡𝛼 2 𝑠𝑏1
−3 − 3.182(0.65) ≤ 𝛽1 ≤ −3 + 3.182(0.65) Valores entre los que
(−𝟓. 𝟎𝟔𝟖 ≤ 𝜷𝟏 ≤ −𝟎. 𝟗𝟑𝟏) podemos encontrar al
parámetro 𝑏1
b) Use la prueba 𝑡 para probar las hipótesis siguientes con un nivel de
significancia de α = 0.05 Hipótesis:
𝐻0 : 𝛽1 = 0
𝐻1 : 𝛽1 ≠ 0
La regla de rechazo dice: Rechazar 𝐻0 si 𝑡 ≤ −𝑡𝛼/2
Lo cuál sí se cumple, ya que: −4.59 < −3.182

Por lo tanto: Se rechaza 𝑯𝟎 . Es decir que 𝑏1 es estadísticamente distinto de cero


y sí existe una relación significativa entre las dos variables 𝑥 y 𝑦.
Correlación
El coeficiente de correlación es una medida descriptiva de la intensidad de la
relación lineal entre dos variables 𝑥 y 𝑦.
• Un valor de 1 indica que las dos variables 𝑥 y 𝑦 están perfectamente
relacionadas en un sentido lineal positivo.
• Un valor de -1 indica que las dos variables 𝑥 y 𝑦 están perfectamente
relacionadas en un sentido lineal negativo.
• Los valores del coeficiente de correlación cercanos a 0 indican que 𝑥 y 𝑦 no
están relacionadas linealmente.
Coeficiente de correlación muestral
𝒚𝒊 − 𝒚 𝟐
𝒓𝒙𝒚 = 𝒔𝒊𝒈𝒏𝒐 𝒅𝒆 𝒃𝟏 𝟐
𝒚𝒊 − 𝒚
Donde: 𝑏1 = pendiente de la recta de regresión estimada
𝑦𝑖 = valor estimado de la variable dependiente en la observación 𝑖ésima
𝑦𝑖 = valor observado de la variable dependiente en la observa. 𝑖ésima
𝑦 = media de la variable dependiente
Ejemplo:
La ecuación de regresión estimada para la siguiente tabla de datos es
𝒚 = 𝟎. 𝟐𝟎 + 𝟐. 𝟔𝟎𝒙

Determine el coeficiente de correlación muestral.


𝑦1 = 0.20 + 2.60𝑥1 = 0.20 + 2.60 1 = 𝟐. 𝟖 𝒙𝒊 1 2 3 4 5
𝑦2 = 0.20 + 2.60𝑥2 = 0.20 + 2.60 2 = 𝟓. 𝟒
𝑦3 = 0.20 + 2.60𝑥3 = 0.20 + 2.60 3 = 𝟖. 𝟎 𝒚𝒊 3 7 5 11 14
𝑦4 = 0.20 + 2.60𝑥4 = 0.20 + 2.60 4 = 𝟏𝟎. 𝟔 𝒚𝒊 2.8 5.4 8.0 10.6 13.2
𝑦5 = 0.20 + 2.60𝑥5 = 0.20 + 2.60 5 = 𝟏𝟑. 𝟐
3+7+5+11+14
𝑦= =8
5
𝒚=𝟖
𝑦𝑖 −𝑦 2
𝑟𝑥𝑦 = 𝑠𝑖𝑔𝑛𝑜 𝑑𝑒 𝑏1 𝑦𝑖 −𝑦 2

2.8−8 2 + 5.4−8 2+ 8−8 2+ 10.6−8 2 + 13.2−8 2


𝑟𝑥𝑦 = (+) 3−8 2 + 7−8 2 + 5−8 2 + 11−8 2 + 14−8 2

67.6
𝑟𝑥𝑦 = 80
= 0.845
Como 𝑟𝑥𝑦 es casi igual a 1, quiere decir que las dos variables
𝒓𝒙𝒚 = 𝟎. 𝟗𝟏𝟗𝟐 están fuertemente relacionadas en un sentido lineal positivo.
Predicción
Intervalo de predicción para un valor de 𝒚:
Se utiliza para estimar la predicción de una serie de tiempo en un punto con un
cierto nivel de confianza, suponiendo que la variable dependiente se distribuye
normalmente y la muestra es pequeña.
Sean:
𝑥𝑝 = valor particular o determinado de 𝑥
𝑦𝑝 = un valor de predicción cuando 𝑥 = 𝑥𝑝
2
1 𝑥𝑝 −𝑥
𝑠𝑦2𝑝 = 𝑠 2 +
𝑛 𝑥𝑖 −𝑥 2

Varianza de un valor individual de 𝑦𝑝 :


2
𝑠𝑖𝑛𝑑 = 𝑠 2 + 𝑠𝑦2𝑝
Intervalo de p𝐫𝐞𝐝𝐢𝐜𝐜𝐢ó𝐧 𝐩𝐚𝐫𝐚 𝒚𝒑 : 𝒚𝒑 ± 𝒕𝜶/𝟐 𝒔𝒊𝒏𝒅

Donde el coeficiente de confianza es 1 − 𝛼 %, y 𝑡𝛼/2 se basa en una


distribución 𝑡 con 𝑛 − 2 grados de libertad.
Ejemplo:
De los datos del ejercicio pasado: 𝒙𝒊 1 2 3 4 5
1+2+3+4+5 𝒚𝒊 3 7 5 11 14
𝑥= =3
5
𝒚𝒊 2.8 5.4 8.0 10.6 13.2
𝒚 = 𝟎. 𝟐𝟎 + 𝟐. 𝟔𝟎𝒙
Obtenga un intervalo de predicción del 95% para 𝑦 cuando 𝑥 = 4.
𝑥𝑝 = 4 𝑦𝑝 = 0.20 + 2.60 4 = 10.6

𝑦𝑖 −𝑦𝑖 2 3−2.8 2 + 7−5.4 2 + 5−8 2 + 11−10.6 2 + 14−13.2 2 12.4


𝑠2 = = = = 𝟒. 𝟏𝟑𝟑
𝑛−2 3 3

2
1 𝑥𝑝 −𝑥 1 4−3 2
𝑠𝑦2𝑝 = 𝑠2 + = 4.133 +
𝑛 𝑥𝑖 −𝑥 2 5 1−3 2 + 2−3 2 + 3−3 2 + 4−3 2 + 5−3 2
1
𝑠𝑦2𝑝 = 4.133 0.2 + = 4.133 0.3 = 𝟏. 𝟐𝟒
10
2
𝑠𝑖𝑛𝑑 = 𝑠 2 + 𝑠𝑦2𝑝 = 4.133 + 1.24 = 𝟓. 𝟑𝟕𝟑
Intervalo: 𝑦𝑝 − 𝑡𝛼/2 𝑠𝑖𝑛𝑑 ≤ 𝑦𝑝 ≤ 𝑦𝑝 + 𝑡𝛼/2 𝑠𝑖𝑛𝑑 𝑡𝛼/2 = 𝑡0.025 con 3 g. de l.
10.6 − 3.182 ∗ 5.373 ≤ 𝑦𝑝 ≤ 10.6 + 3.182 ∗ 5.373 𝑡0.025 = 3.182

𝟑. 𝟐𝟐𝟒 ≤ 𝒚𝒑 ≤ 𝟏𝟕. 𝟗𝟕𝟓


Referencias
- Anderson, D.; Sweeney, D. & Williams, T.. (2012). Estadística para
negocios y economía. México, D.F.: Cengage learning.
- Datavizcatalogue.com. (2018). Diagrama de Dispersión. Octubre del 2018,
de Catálogo de Visualización de Datos Sitio web:
https://datavizcatalogue.com/ES/metodos/diagrama_de_dispersion.html