Está en la página 1de 10

Análisis de

REGRESIÓN  
 

 
SEMANA  8  
 
 

 
 
 
 

 
 
 

 
 
 
 

 
 
 

 
 
 
 

 
 
 
   

[ ESTADÍSTICA INFERENCIAL ]
 

ANÁLISIS  DE  REGRESIÓN  


 MODELO  DE  REGRESIÓN  LINEAL  SIMPLE  
 ESTIMACIÓN  DE  PARÁMETROS  
 COEFICIENTE  DE  CORRELACIÓN  
 MODELO  DE  REGRESIÓN  MÚLTIPLE  
 INFERENCIAS  DEL  MODELO  DE  REGRESIÓN  MÚLTIPLE.  

PALABRAS  CLAVE  
Regresión  lineal,  regresión  múltiple,  correlación,  determinación,  mínimos  cuadrados.  
 
INTRODUCCIÓN  
Hasta   el   momento   los   temas   vistos   han   sido   para   datos   univariados.   En   este   capítulo     se  
tratarán  algunos  conceptos  importantes  relacionados  con  datos  bivariados.  Estos  datos  son  
los  que  se  obtienen  al  analizar  dos  variables  en  forma  simultánea.  Por  ejemplo  el  peso  y  la  
estatura  de  cada  persona,  el  tiempo    de  estudios  y  el  nivel  de  ingresos  por  empleado  o  los  
costos  de  publicidad  y  los  ingresos  por  ventas.    
 
En  el  estudio  de  las  relaciones  entre  dos  variables  se  distinguen  dos  tipos  de  técnicas:  
CORRELACIÓN:  
¿Existe  dependencia  entre  las  variables?  
¿Cuál  es  el  grado  de  dependencia?  
REGRESIÓN:  
¿Cuál  es  el  tipo  de  dependencia  entre  las  dos  variables?  
¿Pueden  estimarse  los  valores  de  la  dependiente  en  función  de  los  de  la  independiente?  
COEFICIENTE  DE  CORRELACION  r  
El  coeficiente  de  correlación    rmide  el  grado  de  asociación  entre  dos  variables.    
(n∑ XY ) − (∑ X )(∑Y )
Fórmula; r = 2 2 2 2
 
n ∑ X − (∑ X ) n ∑ Y − (∑ Y )
EJEMPLO  
Se   quiere   establecer   la   relación   entre   el   número   de   comerciales   que   se   transmiten   al   día  
sobre   un   producto   y   las   ventas   semanales   del   producto   en   miles   de   unidades   monetarias.  
Para  esto  se  obtiene  la  siguiente  información:  
Número  de  comerciales        X:      4                4          5              6            9        11        13        14      17    18  
Ventas  semanales                          Y:    2.,0      1,3    1,5      2,0      2,8      3,0      3,5      3,0    4,0    4,5  
Estos   valores   corresponden   a   parejas   ordenadas   (x,   y)   que   podemos   llevar   al   plano  
cartesiano   y   marcar   los   puntos   respectivos   obteniendo   un   gráfico   llamado   Diagrama   de  
Dispersión    o  Nube  de  Puntos.  

 
2   [ POLITÉCNICO GRANCOLOMBIANO ]
 

DIAGRAMA DE DISPERSIÓN

5
4,5
4
Ventas semanales

3,5
3
2,5
2
1 ,5
1
0, 5
0
0 5 10 15 20
Número de Comerciales
 
 
La   realización   del   diagrama   de   dispersión   es   fundamental.   A   partir   de   él   visualizamos   el  
comportamiento   de   los   datos   y   nos   indica,   en   forma   aproximada,   el   tipo   de   relación   que   hay  
entre  las  variables.  
Enseguida   elaboramos   la   siguiente   tabla,   que   facilita   la   aplicación   de   las   fórmulas   para  
determinar  el  coeficiente  de  correlación  y  la  ecuación  de  regresión  lineal  simple.  
 
         
2  
X   Y   XY   X Y2  

4   2,0   8   16   4  
4   1,3   5,2   16   1,69  
5   1,5   7,5   25   2,25  
6   2,0   12   36   4  
9   2,8   25,2   81   7,84  
11   3,0   33   121   9  
13   3,5   45,5   169   12,25  
14   3,0   42   196   9  
17   4,0   68   289   16  
18   4,5   81   324   20,25  
         
101   27,6   327,4   1273   86,28  

r=
(10)(327,4) ) − (101)(27,6)
 
(10)(1273) − (101) 2 (10)(86,28) − ( 27,6) 2
 

 
[ ESTADÍSTICA INFERENCIAL ] 3
 

r  =  0,962  
El  valor  de  este  coeficiente  da  entre  –1  y  1  es  decir,  
− 1 ≤ r ≤ 1  
de  tal  forma  que:  
Si  r  se  acerca  a  1  hay  correlación  positiva  entre  las  variables  
si  se  acerca  a  –1  la  correlación  es  negativa  y    
si  se  acerca  a  0  las  variables  son  independientes,  no  tiene  que  ver  la  una  con  la  otra.  
El  siguiente  diagrama  resume  el  análisis  del  coeficiente  de  correlación,  entre  dos  variables:  
 
 
Correlación  negativa                        Ninguna  correlación        Correlación    positiva            
Perfecta                                                                                                                                                                        perfecta  
 
 
 
       -­‐1                                                          -­‐  0,5                                                                    0                                                              0,5                                                    1  
 
     Correlación  negativa  fuerte              Correlación  negativa  débil                  correlación  positiva  débil      
correlación  positiva  fuerte  
 
 
 
Este  coeficiente  se  interpreta  teniendo  en  cuenta  su  valor  como  tal  y  su  signo.    
Si  el  valor  se  acerca  a  1  o  a  –1  existe  una  fuerte  correlación  entre  las  variables.  Si  se  acerca  a    0  
no  hay  relación.    
Si   el   signo   es   positivo   indica   que   hay   una   relación   directa   entre   X   y   Y,   es   decir,     a   mayores  
valores   de   X   mayores   valores   de   Y   y   si   es   negativo,   la   relación   es   inversa,   es   decir,   a   mayores  
valores  de  X  menores  valores  de  Y.  
En   el   ejemplo   el   coeficiente   de   correlación   con   un   valor   de   0,962   indica   que   existe   una  
relación  fuerte  entre  el  número  de  comerciales  y  las  ventas  semanales  del  producto.  Como  el  
resultado   es   positivo,   indica   que   a   medida   en   que   aumenta   el   número   de   comerciales,  
aumentan  las  ventas  semanales.  
Una   vez   establecida   la   relación   entre   variables,   es   importante   establecer     la   Influencia   que  
tiene   la   variable   independiente,   número   de   comerciales,   sobre   la   variable   dependiente,  
ventas  semanales.  
Para  cuantificar  dicha  relación  y  tener  una  aproximación  de  la  magnitud  de  la  influencia  de  
los  gastos  en  publicidad  sobre  las  ventas,  se  debe    trabajar  el  modelo  de  regresión  lineal.  
 
 
  Regresión  lineal  simple  
 

 
4   [ POLITÉCNICO GRANCOLOMBIANO ]
 

Sobre   la   nube   de   puntos   se   traza   una   línea   recta   que   cobije   la   mayoría   de   los   puntos.   La  
mejor   ecuación     que   tiene   las   mínimas   distancias   con   respecto   a     los   puntos   reales,   se  
establece  con  el  método  conocido  como  método  de  mínimos  cuadrados.  
La   regresión   lineal   establece   para   el   análisis   de   las   dos   variables   la   ecuación   de   una   línea  
recta:  
Yˆ = A + BX  
Yˆ :  simboliza  la  variable  dependiente  calculada  para  diferenciarla  de  la  real  u  observada.  
A:   Es   el   intercepto   o   punto   de   corte   de   la   recta   con   el   eje   Y.   Si   la   pendiente   es   positiva   indica  
el  valor  mínimo  estimado  de  Y,  si  es  negativa  indica  el  valor  máximo  estimado  de  Y.  
B:  Es  la  pendiente  de  la  recta.  Indica  el  incremento  que  sufre  la  variable  Y  cuando  la  variable  X  
aumenta  en  una  unidad.              
A   y   B   son   conocidos   como   los   parámetros   del   modelo.   Son   valores   desconocidos   que   se  
pueden  calcular  por  el  método  de  mínimos  cuadrados.  
Para  determinar  el  valor  A  que  representa  el  punto  de  corte  de  la  recta  con  el  eje  Y  y  B  que  
representa  la  pendiente  de  la  recta,  se  emplean  las  siguientes  ecuaciones:  
n∑ XY − (∑ X )(∑ Y )
B=  
n∑ X 2 − (∑ X ) 2
A = Y − BX  
En  el  ejemplo  anterior:  
Primero  se  calcula  la  pendiente  B  porque  se  requiere  para  el  cálculo  de  A  
n∑ XY − (∑ X )(∑ Y )
B=  
n∑ X 2 − (∑ X ) 2
10(327,4) − (101)(27,6) 3274 − 2787,6
B= = = 0,1923  
10(1273) − (101) 2 12730 − 10201

A=
∑ Y − B∑ X A = 27,6 − (0,1923)(101) = 0,8175  
n 10
Yˆ = 0,8175 + 0,1923 X  
El  punto  de  corte  indica  que  si  X=0  es  decir  si  no  hay  comerciales,  se  estiman  ventas  mínimas  
de  0,8175  unidades  monetarias.  
La  pendiente  indica  que  al  aumentar  los  comerciales  las  ventas  aumentan  en  0,1923  unidades  
monetarias.  
 
 
  Coeficiente  de  Determinación  
 
El  coeficiente  de  determinación  mide  el  porcentaje  de  valores  de  la  variable  dependiente  Y,  
que   caen   sobre   la   línea   recta,   se   interpreta   como   el   porcentaje   de   valores   de   Y   que   son  
explicados  por  el  modelo  lineal  en  función  de  la  variable  X.  

 
[ ESTADÍSTICA INFERENCIAL ] 5
 

El   coeficiente   de   determinación   se   simboliza   con   r2   y   se   obtiene   como   el   cuadrado   del  


coeficiente  de  correlación.  
Este   coeficiente   siempre   da   un   valor   entre   0   y   1   y   para   la   interpretación   se   multiplica   por   100  
para   expresarlo   en   porcentaje.   Un   modelo   de   regresión   lineal   presenta   buen   ajuste   (el  
modelo  es  bueno)  si  el  coeficiente  de  determinación  es  mayor  o  igual  al  75%.    
 
 
   r2≥75%    el  modelo  presenta  buen  ajuste    
 
Para  el  modelo  del  ejemplo  anterior  se  tiene  que:  
r  =  0,962                  entonces            r2=  (0,962)2  
r2  =  0,9254  
(Se  multiplica  por  100  y  se  expresa  en  porcentaje).  
El   92,54%   de   las   ventas   son   explicadas   por   el   modelo   de   regresión   lineal   en   función   del  
número  de  comerciales.  El  modelo  presenta  un  buen  ajuste  para  los  datos.  
 
DIAGRAMA DE DISPERSIÓN

5
4,5
4
Ventas semanales

3,5
3
2,5
2
1 ,5
1
0, 5
0
0 5 10 15 20
Número de Comerciales
 
EJEMPLO:  
Se   quiere   medir   la   relación   que   existe   entre   el   número   de   empleados     (X)     y   las   ventas  
semanales  (en  millones  de  $)  (Y),    para  un  grupo  de  almacenes  del  sector  de  los  alimentos  en  
una  ciudad.  Los  datos  obtenidos  son  los  siguientes:    
 
X   12   16   20   28   30   32   36   40  
Y   20   30   36   44   80   60   95   98  
 
a.  Dibuje  el  gráfico  de  dispersión  que  muestre  el  comportamiento  de  las  dos  variables.  
b.  Encuentre  el  modelo  de  regresión  lineal  para  estimar  las  ventas  semanales  en  función  del  
número  de  empleados.  
c.  Interprete  los  parámetros  del  modelo  
d.  ¿Cuál  es  el  nivel  o  grado  de  asociación  entre  variables?  
e.  ¿Qué  porcentaje  de  las  ventas  son  explicadas  por  el  modelo  lineal  en  función  del  número  
de  empleados?  

 
6   [ POLITÉCNICO GRANCOLOMBIANO ]
 

f.  Estime  las  ventas  para  un  almacén  que  tiene  50  empleados.  
 
SOLUCIÓN:  
a.  Gráfico  de  dispersión:  
Sobre  el  eje  X  se  colocan  los  valores  para  el  número  de  empleados  utilizando  una  escala  de  
valores  apropiada,  teniendo  en  cuenta  el  valor  máximo  y  el  mínimo  de  los  datos.  En  forma  
similar  se  colocan  los  valores  de  Y  y  se  ubican  las  parejas  ordenadas  de  valores.  
 

GRAFICO  DE  DISPERSIÓN  


VENTAS  

NÚMERO  DE  EMPLEADOS  

 
b.  para  construir  el  modelo  de  regresión  lineal:         Yˆ = A + BX se  completan  los  valores  dados  
inicialmente  de  la  siguiente  forma:  
 

X   Y   XY   X2   Y2  
12   20   240   144   400  
16   30   480   256   900  
20   36   720   400   1296  
28   44   1232   784   1936  
30   80   2400   900   6400  
32   60   1920   1024   3600  
36   95   3420   1296   9025  
40   98   3920   1600   9604  
214   463   14332   6404   33161  
n = 8 ∑ X = 214 ∑Y = 463  
2
∑X = 6404 ∑Y 2 = 33161 ∑ XY = 14332  

 
[ ESTADÍSTICA INFERENCIAL ] 7
 

Los  resultados  obtenidos  se  van  reemplazando  en  las  fórmulas  establecidas  para  obtener  los  
parámetros  del  modelo  de  regresión  lineal.    
n∑ XY − (∑ X )(∑ Y ) (8)(14332) − (214)(463)
B= = = 2,8649  
n∑ X 2 − (∑ X ) 2 (8)(6404) − (214) 2

A=
∑ Y − B∑ X 463 − (2,8649)(214)
= = −18,763  
n 8
Reemplazando  en  la  ecuación  del  modelo  de  regresión  lineal  queda:  
Yˆ = −18,763 + 2,8649 X  
c.   En   este   modelo   el   valor   de   A=-­‐18,763   indica   que   si   no   hay   empleados   (X=0)   se   estaría  
dejando  de  vender  $18`763.000.  
El   valor   de   B=2,8649   indica   que   por   cada   empleado   se   estima   que   las   ventas   semanales  
aumentan  en  $2`864.900.  
d)  El  nivel  o  grado  de  asociación  entre  variables  se  mide  con  el  coeficiente  de  correlación  r:  

r=
(n∑ XY ) − (∑ X )(∑Y )
2 2 2 2
 
n ∑ X − (∑ X ) n ∑ Y − (∑ Y )

r=
(8)(14332) ) − (214)(463) = 0,936  
2 2
8(6404) − ( 214) (8)(33161) − (463)
El   valor   es   positivo   y   cercano   a   1,   lo   que   indica   que   existe   una   correlación   fuerte   entre   el  
número  de  empleados  y  las  ventas  semanales.  El  signo  positivo  indica  que  a  mayor  número  
de  empleados,  en  los  almacenes  se  tienen  mayores  ventas  semanales.  
e.   El   porcentaje   de   las   ventas   semanales   explicadas   por   el   modelo   lineal   en   función   del  
número  de  empleados,  se  mide  con  el  coeficiente  de  determinación    
r 2 = 0,876  
El  87,6%  de  las  ventas  son  explicadas  por  el  modelo  lineal,  presentando  un  buen  modelo  para  
hacer  estimación  de  valores  (r2  mayor  al  75%).  
f)  Ventas  estimadas  para  un  almacén  con  50  empleados:  
Yˆ = −18,763 + 2,8649(50)  
Yˆ = 124 ,482  
Se  estiman  ventas  de  $124`482.000  para  un  almacén  con  50  empleados.  
2.   En   un   estudio   de   consumidores   se   quiere     analizar     el   comportamiento   del   consumo  
semanal  del    producto  (Y  en  libras),  en  función  del  precio  del  producto  por  libra  (X  en  miles  
de  pesos)y  para  esto  se  tiene  información  de  los  últimos  meses,  encontrando:  
 
X   Y   XY   X2   Y2  
17   9   153   289   81  
15   12   180   225   144  

 
8   [ POLITÉCNICO GRANCOLOMBIANO ]
 

15   13   195   225   169  


13   16   208   169   256  
12   20   240   144   400  
10   20   200   100   400  
8   23   184   64   529  
90   113   1360   1216   1979  
 
a.  Encontrar  el  modelo  de  regresión  lineal  
b.  Estimar  los  parámetros  del  modelo  
c.  Calcular  e  interpretar  el  coeficiente  de  correlación  
d.  Calcular  e  interpretar  el  coeficiente  de  determinación  
e.  Estimar  el  consumo  del  producto  para  un  precio  de  $20.000  
 
a.  Para  el  modelo  de  regresión  lineal:  
n = 7 ∑ X = 90 ∑Y = 113  
2
∑X = 1216 ∑Y 2 = 1979 ∑ XY = 1360  
Yˆ = A + BX  
Los  parámetros  del  modelo  quedan:  
n∑ XY − (∑ X )(∑ Y ) (7)(1360) − (90)(113)
B= = = −1,5776  
n ∑ X 2 − (∑ X ) 2 (7)(1216) − (90) 2

A=
∑ Y − B∑ X =
113 − (−1,5776)(90)
= 36,4271  
n 7
El  modelo  lineal  es:  
Yˆ = 36,4271 − 1,5776 X  
b.   Para   la   interpretación   de   los   parámetros   A   y   B   del   modelo   se   tiene   en   cuenta   que   la  
pendiente  es  negativa.      
El   consumo   máximo   estimado   es   de   36,4271   unidades   del   producto,   cuando   el   precio  
aumenta  en  $1.000  el  consumo  disminuye  en  1,5776  unidades.  
c.  Coeficiente  de  correlación  

r=
(n∑ XY ) − (∑ X )(∑Y )
2 2 2 2
 
n ∑ X − (∑ X ) n ∑ Y − (∑ Y )

r=
(7)(1360) ) − (90)(113) = −0,972  
2 2
7(1216) − (90) (7)(1979) − (113)
Hay   correlación   negativa   entre   el   precio   del   producto   y   el   consumo,   esto   significa   que   a  
medida  en  que  aumenta  el  precio  disminuye  el  consumo.  
2
d. r = 0,946  

 
[ ESTADÍSTICA INFERENCIAL ] 9
 

El  94,6%  del  consumo  es  explicado  por  el  modelo  lineal  en  función  del  precio  del  producto,  el  
modelo  presenta  un  buen  ajuste  para  los  datos.  
e. Yˆ = 36,4271 − 1,5776 X  
Yˆ = 36,4271 − 1,5776(20) = 4,8751  
 
 
BIBLIOGRAFÍA  
 
FREUND,   John   E.,   MILLER,   Irwin   y   MILLER,   Marylees.   Estadística   Matemática     con  
aplicaciones.  6ed.  Madrid  Prentice  Hall,  2000.  
GUTIERREZ,   Humberto   y     DE   LA   VARA,   Román.   Control   estadístico   de   Calidad   y   Seis   Sigma  
(6s).  México:  McGraw-­‐Hill,  2005.    
KENNET,  Ron  S.,  y  ZACKS,  Shelemyahu.  Estadística  Industrial  Moderna.  Barcelona,    Thomson,    
2000.  
MONTGOMERY,  Douglas  C.  y    RUNGER,  George  C.  Probabilidad    y  Estadística  aplicadas  a  la  
Ingeniería.  2ed.  México:  Limusa,    2002.  
NEWBOLD.   Paul.   Estadística   para   los   Negocios   y   la   Economía.   4ed.   Madrid   Prentice   Hall,  
1988.  
WALPOLE  Ronal,  E.,  MYERS,  Raymond  H.    y    MYERS,  Sharon  L.  Probabilidad  y  Estadística  para  
Ingenieros.    6ed.  Madrid  Prentice  Hall,  1998.  
 
 

 
10   [ POLITÉCNICO GRANCOLOMBIANO ]

También podría gustarte