Está en la página 1de 22

Curso: Estadística

Regresión Lineal Simple


Regresión Lineal Simple

Profesor: Katherin Huayta


Fecha: 12/06/18
LOGRO DE LA SESIÓN

Al finalizar la sesión, el
estudiante explica la
existencia de relación entre
una variable dependiente con
una variable independiente de
una muestra de datos y
determina el mejor modelo de
regresión que permita
predecir el efecto de una
variable sobre la otra.
Sesión 11: Regresión Lineal Simple

CONTENIDO SABERES PREVIOS


1. Gráfico de dispersión.  Variable independiente y
2. Modelo de regresión lineal variable dependiente.
simple.  Función lineal
3. Bondad de ajuste del
modelo.
4. Predicción de valores de la
variable dependiente.
¿Con qué variable se puede relacionar el peso de una persona?
• La edad
• La talla de la persona
• El nivel de actividad física
DEFINICIÓN DE REGRESIÓN LINEAL SIMPLE

Consiste en analizar la relación entre dos variables


cuantitativas con el objetivo de determinar una función
Y= f(x), llamado modelo de regresión o ecuación de
regresión el cual se usará para predecir el efecto de la
variable X sobre la variable Y, donde:

X: variable independiente (explicativa, exógena)


Y: variable dependiente (respuesta, endógena)
Ejemplos:

Estimar el peso de una persona a partir de su estatura.


Estimar el gasto en una familia en función de sus
ingresos.
Estimar el precio de una PC en función de la velocidad
del procesador.
Predecir la calificación de una asignatura según el
número de horas de estudio a la semana.
Estimar el precio de una vivienda en función de su
superficie
GRÁFICO DE DISPERSIÓN
Es la representación de pares de valores observados en el plano cartesiano,
describe la relación existente entre las variables a partir de datos
observados en la muestra o población:

Datos: a b

Xi Yi
x1 y1
c d
x2 y2
: :
xn yn
EJEMPLO DE GRÁFICO DE DISPERSIÓN
200
¿Cuál es el mejor ajuste a
Presión arterial (mm Hg)
180
partir de los datos?
160
140
Ecuación de regresión lineal
120
100
80 ŷ  ˆ 0  ˆ 1x
60
65 85 105 125 145
Peso (kg)

En el gráfico se observa que la tendencia de los datos describen


una relación lineal directa, esto significa que ante un aumento
de peso la presión arterial aumenta en la misma proporción
MODELO DE REGRESIÓN LINEAL SIMPLE
El modelo de regresión lineal simple se define:

Yi  0  1xi  eij
Donde:
Yi: valor de la variable dependiente para la i-ésima observación
Xi: valor de la variable independiente para la i-ésima observación
eij: error aleatorio para la i-ésima observación que se asume
normal
βo : intercepto con el eje Y
β1 : mide el cambio de Y cuando varía X en 1 unidad, llamado
pendiente
Los parámetros βo y β1 deben ser estimados:
Para estimar los parámetros del modelo de regresión
utilizaremos el método de mínimos cuadrados:
 y  n    x
0 1

 xy    x    x
0 1
2

Obtenemos los coeficientes Bo y B1


 XY   X  Y
 0  y  1 x 1 
n

n X 2   X

La recta de regresión estimada será:

ˆ0  
ŷ   ˆ 1x
Interpretación de los coeficientes de regresión lineal
La ecuación estimada:

Y= 0 + 1 X o también Y= a + bX

• El coeficiente 1 indica el cambio promedio en la variable


respuesta (y), cuando la variable predictora (x) aumenta en
una unidad adicional.
• El intercepto 0 indica el valor promedio de la variable
respuesta (y), cuando la variable predictora (x) es igual a
cero. Sin embargo carece de interpretación práctica si
dicho valor está fuera del rango del conjunto de valores X.
EJEMPLO MODELO DE REGRESIÓN
200

Presión arterial (mm Hg)


180
y = 1.1558x + 35.777
El mejor ajuste de los 160
datos es la ecuación: 140
120
100
yˆ  35.77  1.156 x 80
60
65 85 105 125 145
Peso (kg)
Interpretación de los coeficientes de regresión

βo = 35.77 Es la intersección de la recta con el eje Y cuando X = 0


β1 = 1.156 Por cada kilo que aumenta en su peso la presión arterial
aumenta en 1.156 mm/hg
BONDAD DE AJUSTE DEL MODELO DE REGRESIÓN
1. Coeficiente de correlación
Mide el grado de relación entre variables cuantitativas.
El estadístico de correlación es el coeficiente de correlación
de Pearson (R) cuyo valor está en el intervalo [-1,1], dado
por la fórmula:

n   XY   X  Y
R
n  X 2  ( X ) 2 n Y 2  ( Y ) 2
Interpretación del coeficiente de correlación de Pearson:
Correlación Correlación Correlación Correlación Correlación Correlación Correlación Correlación Correlación Correlación
negativa negativa negativa negativa negativa positiva muy positiva positiva positiva positiva muy
muy fuerte fuerte moderada débil muy débil débil débil moderada fuerte fuerte
Muy alta Alta Moderada Baja Muy baja Muy baja Baja Moderada Alta Muy alta

-1 -0.8 -0.6 -0.4 -0.2 0 +0.2 +0.4 +0.6 +0.8 +1

INVERSA DIRECTA

Para una mejor interpretación de r, podemos agregar que :


• Valores de r cercanos a 1, se traduce en una alta relación directa.
• Valores de r cercanos a -1, se traduce en una alta relación inversa.
• Valores de r cercanos a 0, se traduce en una baja relación lineal entre las variables, la
cual será directa si r > 0, y será inversa si r < 0 .
2. Coeficiente de Determinación
Mide el porcentaje de variabilidad en Y que explica a través del
conocimiento de la variable independiente X para evaluar
capacidad de predicción. Se calcula con la siguiente fórmula:

  ( x  x )( y  y )
2

R 
2
 r2 ; 0 ≤ 𝑅2 ≤ 1
  xi  nx   yi  ny 
2 2 2 2

R2 Ajuste del modelo


0.00 < R2 ≤ 0.20 No tiene buen ajuste
0.20 < R2 ≤ 0.40 No tiene buen ajuste
0.40 < R2≤ 0.60 Ajuste moderado
0.60 < R2≤ 0.80 Buen ajuste
0.80 < R2≤ 1.00 Buen ajuste
Ejemplo 2
Una empresa tiene 7 vendedores, y se quiere analizar las ventas mensuales (en miles de soles)
frente a los años de experiencia. Los datos están en la siguiente tabla.

N° Experiencia (X) Ventas(miles)


1 13 26
2 16 33
3 30 36
4 2 16
5 8 26
6 6 19
7 31 38
a) ¿Se trata de una relación lineal? (analizar el diagrama de dispersión)
b) Si es una ecuación lineal hallar la ecuación de regresión determinando los coeficientes de
regresión.
c) ¿El modelo estimado tiene buen ajuste a los datos?
d) Predecir la venta de un empleado con 40 años de experiencia (Estimar Y para un valor X=40)
Solución:
a) Diagrama de dispersión

N° Experiencia (X) Ventas(miles)

1 13 26
2 16 33
3 30 36
4 2 16
5 8 26
6 6 19
7 31 38

En el diagrama de dispersión
se observa una existe una
relación lineal directa.
b) Hallando los coeficientes de regresión


Experiencia Ventas(miles)
XY X2 Y2 𝒏=𝟕
(X) (Y)

1 13 26 338 169 676 σ 𝒙 𝟏𝟎𝟔


𝒙= = = 𝟏𝟓. 𝟏𝟒
𝒏 𝟕

2 16 33 528 256 1089
x 106
3 30 36 1080 900 1296  7𝒚 ; 𝟏𝟗𝟒
nσ x    15.14 ; y
4 2 16 32 4 256 𝒚= = =n 𝟐𝟕. 𝟕𝟏
7
𝒏 𝟕
5 8 26 208 64 676
n
6 6 19 114 36 361  xi yi  nxy
 x1178 i 1 3478  7(15.14)(27.71)
7 31
n 7
38
x 
106 961
 15.14 y
194
1444 b
 27.71  
2390  7(15.14)2
; ; 1 n

∑X= 106 ∑Y=194


n
∑XY=3478
7
∑ X2=2390
7
∑ Y2=5798 x 2
i
 nx 2
i 1
n
 xi yi  nxy
i 1 3478  7(15.14)(27.71) b0  y  b1 x  27.71  ( 0.688 )15.14  17.29
b   0.688
2390  7(15.14)
1 n 2

x 2
i
 nx 2
i 1

b0  y  b1 x  27.71  ( 0.688 )15.14  17.29


b.1 Ecuación de regresión
ˆ0  
ŷ   ˆ 1x

La ecuación de regresión estimada es:

ˆ  17.29  0.668 x
y

Interpretación de los coeficientes de regresión:

o = 17.29 Es el promedio de la ventas cuando un vendedor no tiene años de


experiencia (X =0) es de 1729 soles

1 = 0.668 El promedio de ventas aumenta en 668 soles por cada año de


experiencia que adquiera un vendedor (es el incremento en 0.668 de las
ventas cuando x aumenta en una unidad)
c) Bondad de ajuste del modelo de regresión
1. Coeficiente de correlación: 𝑟 = 0.939
Con un coeficiente de correlación de Pearson r = 0.939 nos indica que existe alta correlación
directa entre los años de experiencia y las ventas.

2. Coeficiente de determinación: 𝑅2 = 0.939 2 = 0.883

El 88.3% de las variaciones de las ventas (Y) son explicados por los años de experiencia. Existe
además un 100 − 88.3 % = 11.7% no es explicado por los años de experiencia.

d) Predicción para X=40


ˆ  ˆ0  ˆ1 x  17.29  0.668(40)  44.826
y

Un empleado con 40 años de experiencia en ventas, venderá aproximadamente S/.4482.6


BIBLIOGRAFÍA

1. Webster, A. (2006). Estadística aplicada a los Negocios y la


Economía. (3° ed.) Colombia; McGraw Hill.

2. Véliz Capuñay, Carlos, 2011, México. Estadística para la


administración y los negocios, Primera Edición, 2011,
Prentice Hall. Pearson.
3.
http://www.fisterra.com/mbe/investiga/var_cuantitativ
as/var_cuantitativas2.pdf Correlation en Wikipedia
(inglés).
“La verdadera sabiduría está en reconocer la propia
ignorancia”
Sócrates

¡Muchas gracias!

También podría gustarte