Está en la página 1de 14

Regresión lineal simple

Estudio de caso

La empresa DITESSUR, se dedica a la comercialización de múltiples productos para la


industria química, entre ellos se tiene la información de las ventas históricas de un
solvente para pinturas de las primeras 10 semanas del año 2009.

Semana Ventas Precio

1 10 1.3
2 6 2
3 5 1.7
4 12 1.5
5 10 1.6
6 15 1.2
7 5 1.6
8 12 1.4
9 17 1
10 20 1.1

Las ventas están expresadas en miles de litros y el precio en $ por cada litro.

Diagrama de dispersión

Teniendo estos datos lo primero que se tiene que realizar es la elaboración de un


diagrama de dispersión o nube de puntos,

25

20

15

10

0
0 0.5 1 1.5 2 2.5

Al analizar el diagrama de dispersión, este nos indica que la relación entre las ventas y
el precio es negativa, es decir que a medida que aumenta el precio las ventas
disminuyen y en la proporción que los precios disminuyen las ventas se incrementan,
por lo tanto podemos concluir que existe un relación inversamente proporcional entre
las ventas y el precio del solvente para pinturas en las primeras 10 semanas del año
2009 de la empresa DITESSUR

Docente: Ing. Ferly Urday Luna


Calculo del coeficiente de correlación

Luego de haber analizado el diagrama de dispersión, se procede a calcular el coeficiente


de correlación, el cual se le define como:

“ Una medida que nos indica que tanto se relacionan linealmente dos variables entre sí.”
La formula de cálculo del coeficiente de correlación es:

nXY  XY
r
nX 2

 (X ) 2 nY 2  (Y ) 2 
Se procede a calcular el coeficiente de correlación.

i Y X XY X2 Y2
1 10 1.3 13.0 1.69 100
2 6 2.0 12.0 4.00 36
3 5 1.7 8.5 2.89 25
4 12 1.5 18.0 2.25 144
5 10 1.6 16.0 2.56 100
6 15 1.2 18.0 1.44 225
7 5 1.6 8.0 2.56 25
8 12 1.4 16.8 1.96 144
9 17 1.0 17.0 1.00 289
10 20 1.1 22.0 1.21 400
 112 14.4 149.3 21.56 1488

10  149.3  14.4  112


r
10  21.56  (14.4) 10 1488  (112) 
2 2

r  0.86345
El valor de r nos dice que existe una fuerte correlación lineal negativa entre las ventas
del solvente para pinturas con su precio.

Docente: Ing. Ferly Urday Luna


Se procederá a calcular el coeficiente de correlación en Excel

Las formulas de trabajo son:

En C52  =(C48*F49-D49*E49)/RAIZ((C48*G49-E49^2)*(C48*H49-D49^2))
En C53  =COEF.DE.CORREL(D39:D48,E39:E48)
En C54  =PEARSON(D39:D48,E39:E48)

Calculo del coeficiente de determinación


El coeficiente de determinación se calcula elevando al cuadrado el coeficiente de
correlación y representa el porcentaje de la variación explicada por la recta de regresión.
El coeficiente de determinación r2, es una medida de la proximidad del ajuste de la recta
de regresión; cuanto mayor sea el valor de r2, mejor será el ajuste y mas útil la recta de
regresión como instrumento de predicción.

R2 = 0.74561319
R2 = 74.56%

Esto nos muestra que el 74.56% de las ventas dependen o están explicadas por el precio
de venta, existiendo un 25.44% de variación no explicada.
En Excel se trabaja de la siguiente manera

Docente: Ing. Ferly Urday Luna


En G52  =C52^2
En G53  =COEFICIENTE.R2(D39:D48,E39:E48)

Calculo de la ecuación de regresión

Como ya se ha determinado que existe una elevada correlación lineal negativa entre las
variables ventas y precio, ahora se debe determinar una ecuación de regresión que
represente dicha relación; para ello se requiere conocer lo siguiente:

Ecuación de regresión: Yˆ  Y *  Yest  b0  b1 X

En donde:

b0 = Punto de intersección de la recta de regresión con el eje Y.


b1 = Pendiente de la recta de regresión.

El objetivo entonces es encontrar los valores de b0 y b1, para ello se procede así:

Cada valor de la serie histórica se le multiplica por X0 y X1 y se encuentran las


sumatorias, con lo que se obtiene lo siguiente


Y  b0  b1 X Multiplica r por X 0 X 1 
 Y  nb 0  b1 X ... ( Ec . i ) 
 Ecuaciones Normales
 XY  b0  X  b1 X 2
... ( Ec . ii ) 

De la ecuación i despejamos b0
 Y  b1 X
b0 
n

Luego reemplazam os b0 en Ec ii ,
  Y  b1 X 
 XY     X  b1 X
2

 n 
 X  Y  b1  X 
2
 XY   b1 X 2
n
n  XY   X  Y  b1  X   nb1 X 2
2

nb1 X 2  b1  X   n  XY   X  Y
2

 
b1 n  X 2   X   n  XY   X  Y
2

n  XY   X  Y
b1 
n  X 2   X 
2

Por lo tanto los valores de b0 y b1 son:

Y  b1X nXY  XY ( X  X )(Y  Y )


b0   Y  b1 X b1  
n nX 2  (X ) 2 ( X  X ) 2

Docente: Ing. Ferly Urday Luna


Se procede a calcular los valores de b0 y b1
10  149.3  14.4  112 b1  14.538835
b1 
10  21.56  (14.4) 2

112  (14.538835) 14.4 b0  32.1359


b0 
10
La forma de trabajar en Excel es:

Las formulas de trabajo son:


En C69  =(C48*F49-E49*D49)/(C48*G49-E49^2)
En C70  =(D49-C69*E49)/C48
En D69  =PENDIENTE(D39:D48,E39:E48)
En D70  =INTERSECCION.EJE(D39:D48,E39:E48)

Calculo del error estándar de estimación

El error estándar de estimación se define como

(Y  Yˆ ) 2 Y 2  b0 Y  b1XY
s y. x  
n2 n2
1488  32.1359  112  (14.5388)  149.3
s y. x 
10  2
s y. x  2.725
La forma de trabajar en Excel es:

Las formulas de trabajo son:


En C80  =RAIZ((H49-C70*D49-C69*F49)/(C48-2))
En D80  =ERROR.TIPICO.XY(D39:D48,E39:E48)

Docente: Ing. Ferly Urday Luna


Pronóstico de Y
Para realizar un pronóstico, hay que hacer uso de la ecuación de regresión. Por ejemplo
realizar un pronóstico para la cantidad a venderse si se quisiera abrir una sucursal en la
ciudad de Tacna a un precio del solvente para pinturas de $ 1.63 el litro
Y  32.1359  14.5388 1.63
Y *  8.43762

Las formulas de trabajo son:


En C86  =RAIZ((H49-C70*D49-C69*F49)/(C48-2))
En C87  =ERROR.TIPICO.XY(D39:D48,E39:E48)

Calculo del intervalo de confianza

El intervalo de confianza se calcula utilizando la formula:

1 ( X 0  X )2
IC  Yˆ  t0 s y . x 
n ( X i  X ) 2

Entonces, se hará uso de la tabla:

Y X ( X i  X )2

10 1.3 0.0196
6 2 0.3136
5 1.7 0.0676
12 1.5 0.0036
10 1.6 0.0256
15 1.2 0.0576
5 1.6 0.0256
12 1.4 0.0016
17 1 0.1936
20 1.1 0.1156
0.824

1 0.0361
IC  8.4376  2.306  2.725  
10 0.824

IC  6.05,10.82

Docente: Ing. Ferly Urday Luna


La forma de trabajar en Excel es:

Las formulas de trabajo son:


En E107  =SUMA(E97:E106)
En C109  =(C85-PROMEDIO(D97:D106))^2
En C112  =DISTR.T.INV(C111,8)
En C115  =C86
En E115  =C112*C80*RAIZ(1/10+C109/E107)
En C117  =C115-E115
En E117  =C115+E115

Intervalo de predicción

1 ( X 0  X )2
IP  Yˆ  t0 s y. x 1  
n ( X i  X ) 2

1 0.0361
IP  8.4376  2.306  2.725  1  
10 0.824

IP = 8.44 ± 6.72164961

IP = 1.72 - 15.16

Docente: Ing. Ferly Urday Luna


ANOVA para la Regresión

DESCOMPOSICION DE LA VARIABILIDAD
SST  SSR  SSE
donde :
SST = SSR + SSE
SCT SCR SCE SST  (Y  Y ) 2
SSR  (Yˆ  Y ) 2
Variabilidad Variabilidad Residual o
total de Y explicada por variabilidad no SSE  (Y  Yˆ ) 2
la relación explicada
lineal

Otras fórmulas para encontrar el ANOVA


SCT=Σy2 -n(y)2 SCR=b  Σxy-n(x)(y) SCE=SCT-SCR
Tabla ANOVA para regresión lineal

Suma de los Grados de Cuadrado


Fuente Fcal
cuadrados libertad medio
Regresión SSR 1 MSR = SSR/1 MSR/MSE
Error SSE n-2 MSE = SSE/(n-2)
Total SST n-1

Procedemos a calcular los valores de la tabla del ANOVA

Residual SSE SST SSR


i Y X Y* (Y  Yˆ ) (Y  Yˆ ) 2 (Y  Y ) 2 (Yˆ  Y ) 2
1 10 1.3 13.24 -3.24 10.47 1.44 4.14
2 6 2 3.06 2.94 8.65 27.04 66.29
3 5 1.7 7.42 -2.42 5.86 38.44 14.29
4 12 1.5 10.33 1.67 2.80 0.64 0.76
5 10 1.6 8.87 1.13 1.27 1.44 5.41
6 15 1.2 14.69 0.31 0.10 14.44 12.18
7 5 1.6 8.87 -3.87 15.01 38.44 5.41
8 12 1.4 11.78 0.22 0.05 0.64 0.34
9 17 1 17.60 -0.60 0.36 33.64 40.92
10 20 1.1 16.14 3.86 14.87 77.44 24.44

 0.00 59.42 233.60 174.18


Calculo con otras formulas
Y2 = 1488
YProm = 11.2
n= 10
b = -14.53883
XY= 149.3
XProm = 1.44

Docente: Ing. Ferly Urday Luna


SCT  1488  10  (11.2) 2 SCR  14.53883 149.3  10 1.44 11.2

SCT = 233.60 SCR = 174.18

SCE = 233.60 - 174.18

SCE = 59.42

Entonces la tabla del ANOVA queda de esta manera:


Tabla del ANOVA

Fuente de
SC GL CM FCal p - Value
Variacion
Regresion 174.18 1 174.175
23.448 0.001284
Error 59.42 8 7.428
Total 233.60 9 25.956

La forma de trabajar en Excel es:

Las formulas de trabajo son:

En G165  =D165-F165 y rellenar hasta G174


En H165  =G165^2 y rellenar hasta H174
En I165  =(D165-PROMEDIO($D$165:$D$174))^2 y rellenar hasta I174
En J165  =(F165-PROMEDIO($D$165:$D$174))^2 y rellenar hasta J174
En D180  =SUMA.CUADRADOS(D165:D174)
En D181  =PROMEDIO(D165:D174)
En D183  =PENDIENTE(D165:D174,E165:E174)
En D184  =SUMAPRODUCTO(D165:D174,E165:E174)

Docente: Ing. Ferly Urday Luna


En D185  =PROMEDIO(E165:E174)
En G183  =D180-D182*D181^2
En J183  =D183*(D184-D182*D181*D185)
En H187  =G183-J183

En D192  =J175
En D193  =H175
En D194  =D192+D193
En F192  =D192/E192
En F193  =D193/E193
En F194  =D194/E194
En G192  =F192/F193
En H192  =DISTR.F(G192,E192,E193)

Con el ANOVA lo que se busca es validar la pendiente de la recta de regresión, para


ello se plantea la siguiente hipótesis:

H0: =0
H1: ≠0

Consideramos  = 5%

Como p = 0.128%, entonces aceptamos H1, con lo que validamos la ecuación de la recta
de regresión muestral, por lo tanto sí podemos utilizar dicha ecuación para realizar
pronósticos.

Prueba t

Docente: Ing. Ferly Urday Luna


Cálculo:
Hipótesis
H0:  = 0
H1:  ≠ 0

0.0196
0.3136
0.0676
0.0036
0.0256
0.0576
0.0256
0.0016
0.1936
0.1156
 = 0.824

2.725
= = 3.002445
√0.824

−14.5388
= = −4.8423
3.002445

Al emplear la función =DISTR.T.2C(4.842331,8) nos da como respuesta 0.001284 y al


ser este valor menor que  = 0.05, entonces se acepta la hipótesis alternativa, por lo
tanto  ≠ 0 y la ecuación de regresión si existe.

Repaso del coeficiente de determinación


Mide la proporción de la variación en Y que se explica por la variación independiente X
en el modelo de regresión.
El coeficiente de determinación se calcula elevando al cuadrado el coeficiente de
correlación y representa el porcentaje de la variación explicada por la recta de regresión.
El coeficiente de determinación r2, es una medida de la proximidad del ajuste de la recta
de regresión; cuanto mayor sea el valor de r2, mejor será el ajuste y mas útil la recta de
regresión como instrumento de predicción. (r2 = 0.92 indica que de 100 pares de puntos
92 están en la recta de regresión y 8 fueran de la recta de regresión)

Suma de cuadrados de la regresión SSR SCR


R2   
Suma de cuadrados totales SST SCT

Docente: Ing. Ferly Urday Luna


Cuando el n es pequeño (n < 30), se debe calcular el coeficiente de determinación
corregido.

CME
R 2=R 2=1-
CMT

Las formulas de trabajo son:

En C200  =C52^2
En C201  =D192/D194
En C202  =COEFICIENTE.R2(D165:D174,E165:E174)

Del coeficiente de determinación podemos deducir que el 74.56% de los valores de las
ventas quedan explicados por el precio, existiendo un 25.44% de variación no explicada.

Análisis de regresión con la herramienta análisis de datos de Ms Excel.

Ms Excel posee una herramienta que contiene los principales análisis estadísticos
básicos existentes, para poder activar dicha herramienta se debe proceder así:

1° Presionar opciones de Excel del botón de oficce.

Botón de
Office
Presionar
aquí…

Docente: Ing. Ferly Urday Luna


2° En la opción complementos de opciones de Excel presionar el botón ir y activa
herramientas para análisis.

AlPresionar
presionar este
botón nos
aquí…
aparece

3° Ahora se debe ejecutar el complemento Análisis de datos, para ello nos ubicamos en
la ficha datos y al final hay un botón análisis de datos,

Docente: Ing. Ferly Urday Luna


4° Luego de presionar aceptar aparece el siguiente cuadro de dialogo:

Configurar el cuadro
de dialogo con las
opciones que se
muestran y
presionar aceptar.

5° Los resultados que nos muestra Excel son:

Docente: Ing. Ferly Urday Luna

También podría gustarte