Está en la página 1de 12

ANÁLISIS DE DATOS BIVARIADOS

ESTADÍSTICA II
AUTOR: Rogelio Alvarado Martinez
ÍNDICE
 

ÍNDICE  

1. ANÁLISIS  DE  DATOS  BIVARIADOS  

1.1. Coeficiente  de  correlación  r  

1.2. Modelo  de  regresión  lineal  


Acceso rápido
1.3. Coeficiente  de  determinación  

 
 
 
 
  GENERALIDADES DESARROLLO
 
 
 
 
 
 
 
 
  REFERENCIAS
 

Este material pertenece al Politécnico


Grancolombiano y a la Red Ilumno. Por ende, son
de uso exclusivo de las Instituciones adscritas a
la Red Ilumno. Prohibida su reproducción total
o parcial.
01 -------
INTRODUCCIÓN   1. ANÁLISIS  DE  DATOS  BIVARIADOS  
02 -------
La   toma   de   decisiones   basada   en   predicciones   de   sucesos   futuros   es   esencial   para   la    
administración,   si   se   puede   determinar   cómo   lo   conocido   se   relaciona   con   un   evento   futuro  
puede  ayudar  considerablemente  en  la  toma  de  decisiones,  es  así  como  en  esta  unidad  vamos  a  
analizar  la  relación  entre  variables.     1.1. Coeficiente  de  correlación  r  

En  la  unidad  anterior  manejamos  la  prueba  chi  cuadrado  de  independencia  para  determinar  si   Para  medir  el  grado  de  asociación  entre  dos  variables  se  utiliza  el  coeficiente  de  correlación  que  
puede  notarse  como  r  en  minúscula  o  R  en  mayúscula.  
existía  una  relación  entre  variables,  pero  esa  prueba  no  nos  dice  cómo  es  esa  relación.  En  esta  
unidad   vamos   a   utilizar   el   análisis   de   regresión   y   el   de   correlación   para   determinar,   tanto   la    
naturaleza  como  la  fuerza  entre  dos  variables.  Con  el  análisis  de  regresión  desarrollaremos  una  
ecuación   de   estimación,   es   decir,   una   fórmula   matemática   para   determinar   una   variable    
desconocida  en  base  a  unas  variables  conocidas  y  con  un  análisis  de  correlación  se  va  a  medir  el  
grado  de  relación  entre  dos  variables.   (n∑ XY ) − (∑ X )(∑Y )
Fórmula;                                                                       r =
2 2 2 2    
 
n ∑ X − (∑ X ) n ∑ Y − (∑ Y )
 

RECOMENDACIONES  ACADÉMICAS    

Ejemplo:  
Hasta  el  momento  los  temas  vistos  han  sido  para  datos  univariados.  En  esta  unidad  se  tratarán  
algunos   conceptos   importantes   relacionados   con   datos   bivariados.   Estos   datos   son   los   que   se   Con   el   ánimo   de   determinar   la   relación   que   existe   entre   el   número   de   comerciales   que   se  
obtienen   al   analizar   dos   variables   en   forma   simultánea,   una   variable   considerada   como   variable   transmiten  al  día  sobre  un  producto  y  las  ventas  semanales  del  producto  en  miles  de  unidades  
independiente,  la  variable  X  y  una  variable  dependiente,  la  variable  Y.  Por  ejemplo,  la  oferta  y  la   monetarias,  se  obtiene  la  siguiente  información:  
demanda  de  un  producto,  el  tiempo  de  estudios  y  el  nivel  de  ingresos  por  empleado  o  los  costos  
 
de  publicidad  y  los  ingresos  por  ventas  que  conducen  a  la  predicción  o  estimación  de  valores  

Como   en   las   unidades   anteriores,   se   recomienda   revisar   las   lecturas   y   las   teleconferencias   en   Número  de   4   4   5   6   9   11   13   14   17   18  
detalle,   siguiendo   los   ejemplos   con   papel,   lápiz   y   calculadora,   para   la   mejor   comprensión   del   comerciales  
tema,   para   cualquier   duda,   puede   usar   los   canales   de   comunicación   tales   como:   correo,   X  
elluminate  y  chat.  
Ventas   2,0   1,3   1,5   2,0   2,8   3,0   3,5   3,0   4,0   4,5  
 
semanales  
  Y  

Tabla 1. Número de comerciales y ventas semanales

Fuente: Elaboración propia (2016)

   

3 POLITÉCNICO GRANCOLOMBIANO ESTADÍSTICA II 4


Estos   valores   corresponden   a   parejas   ordenadas   (x,   y)   que   podemos   llevar   al   plano   cartesiano   y   Enseguida,   elaboramos   la   siguiente   tabla,   que   facilita   la   aplicación   de   las   fórmulas   para  
marcar  los  puntos  respectivos  obteniendo  un  gráfico  llamado  “Diagrama  de  Dispersión”  o  Nube   determinar  el  coeficiente  de  correlación  y  la  ecuación  de  regresión  lineal  simple.  
de  Puntos.  
 
 

  X   Y   XY   X2   Y2  

4   2,0   8   16   4  

4   1,3   5,2   16   1,69  

5   1,5   7,5   25   2,25  

6   2,0   12   36   4  

9   2,8   25,2   81   7,84  

11   3,0   33   121   9  

  13   3,5   45,5   169   12,25  

Figura 1. Diagrama de dispersión


14   3,0   42   196   9  
Fuente: Elaboración propia (2016)

  17   4,0   68   289   16  
La   realización   del   diagrama   de   dispersión   es   fundamental.   A   partir   de   él,   visualizamos   el  
comportamiento  de  los  datos  y  nos  indica,  en  forma  aproximada,  el  tipo  de  relación  que  hay  entre   18   4,5   81   324   20,25  
las  variables.  

  101   27,6   327,4   1273   86,28  

 
Tabla 2. Columnas de trabajo
 
Fuente: Elaboración propia (2016)
 
 

   

5 POLITÉCNICO GRANCOLOMBIANO ESTADÍSTICA II 6


r=
(10)(327,4) ) − (101)(27,6) Este  coeficiente  se  interpreta  teniendo  en  cuenta  su  valor  como  tal  y  su  signo.    
 
(10)(1273) − (101) 2 (10)(86,28) − ( 27,6) 2 Si  el  valor  se  acerca  a  1  o  a  –1  existe  una  fuerte  correlación  entre  las  variables.  Si  se  acerca  a  0  no  
hay  relación.    
 
Si  el  signo  es  positivo  indica  que  hay  una  relación  directa  entre  X  y  Y,  es  decir,  a  mayores  valores  
r  =  0,962   de  X  mayores  valores  de  Y  y  si  es  negativo,  la  relación  es  inversa,  es  decir,  a  mayores  valores  de  X  
menores  valores  de  Y.  
 
En  el  ejemplo,  el  coeficiente  de  correlación  con  un  valor  de  0,962  indica  que  existe  una  relación  
El  valor  de  este  coeficiente  da  entre  –1  y  1,  es  decir,   fuerte  entre  el  número  de  comerciales  y  las  ventas  semanales  del  producto.  Como  el  resultado  es  
positivo,  indica  que  a  medida  en  que  aumenta  el  número  de  comerciales,  aumentan  las  ventas  
                                                                                      − 1 ≤ r ≤ 1   semanales.  

  Una   vez   establecida   la   relación   entre   variables,   es   importante   establecer   la   Influencia   que   tiene  
la   variable   independiente,   número   de   comerciales,   sobre   la   variable   dependiente,   ventas  
de  tal  forma  que:   semanales.  

Si  r  se  acerca  a  1  hay  correlación  positiva  entre  las  variables,   Para  cuantificar  dicha  relación  y  tener  una  aproximación  de  la  magnitud  de  la  influencia  de  los  
gastos  en  publicidad  sobre  las  ventas,  se  debe  trabajar  el  modelo  de  regresión  lineal.  
si  se  acerca  a  –1  la  correlación  es  negativa  y    
 
si  se  acerca  a  0  las  variables  son  independientes,  no  tiene  que  ver  la  una  con  la  otra.    

 
1.2. Modelo  de  regresión  lineal  
El  siguiente  diagrama  resume  los  análisis  del  coeficiente  de  correlación,  entre  dos  variables:  
Sobre  la  nube  de  puntos  se  traza  una  línea  recta  que  cobije  la  mayoría  de  los  puntos.  La  mejor  
ecuación  que  tiene  las  mínimas  distancias  con  respecto  a  los  puntos  reales,  se  establece  con  el  
método  conocido  como  método  de  mínimos  cuadrados.  

La  regresión  lineal  establece  para  el  análisis  de  las  dos  variables  la  ecuación  de  una  línea  recta:  

                                                                                        Yˆ = A + BX  

Yˆ :  simboliza  la  variable  dependiente  calculada  para  diferenciarla  de  la  real  u  observada.    
  A:   Es   el   intercepto   o   punto   de   corte   de   la   recta   con   el   eje   Y.   Si   la   pendiente   es   positiva   indica   el  
Figura 2. Interpretación correlación valor  mínimo  estimado  de  Y,  si  es  negativa  indica  el  valor  máximo  estimado  de  Y.  

Fuente: Elaboración propia (2016)

   

7 POLITÉCNICO GRANCOLOMBIANO ESTADÍSTICA II 8


B:  Es  la  pendiente  de  la  recta.  Indica  el  incremento  que  sufre  la  variable  Y  cuando  la  variable  X   El  punto  de  corte  indica  que  si  X=0,  es  decir,  si  no  hay  comerciales,  se  estiman  ventas  mínimas  de  
aumenta  en  una  unidad.               0,8175  unidades  monetarias.  

A  y  B  son  conocidos  como  los  parámetros  del  modelo.  Son  valores  desconocidos  que  se  pueden   La  pendiente  indica  que  al  aumentar  los  comerciales  las  ventas  aumentan  en  0,1923  unidades  
calcular  por  el  método  de  mínimos  cuadrados.   monetarias.  

Para   determinar   el   valor   A   que   representa   el   punto   de   corte   de   la   recta   con   el   eje   Y   y   B   que  
representa  la  pendiente  de  la  recta,  se  emplean  las  siguientes  ecuaciones:  
1.3. Coeficiente  de  determinación  
 
El  coeficiente  de  determinación  mide  el  porcentaje  de  valores  de  la  variable  dependiente  Y,  que  
n∑ XY − (∑ X )(∑ Y ) caen  sobre  la  línea  recta,  se  interpreta  como  el  porcentaje  de  valores  de  Y  que  son  explicados  por  
B=   el  modelo  lineal  en  función  de  la  variable  X.  
n ∑ X 2 − (∑ X ) 2
El  coeficiente  de  determinación  se  simboliza  con  r2  y  se  obtiene  como  el  cuadrado  del  coeficiente  
de  correlación.  
A = Y − BX  
Este  coeficiente  siempre  da  un  valor  entre  0  y  1  y  para  la  interpretación  se  multiplica  por  100  para  
expresarlo   en   porcentaje.   Un   modelo   de   regresión   lineal   presenta   buen   ajuste   (el   modelo   es  
 
bueno)  si  el  coeficiente  de  determinación  es  mayor  o  igual  al  75%.    
En  el  ejemplo  anterior:  
                                                                                   
Primero  se  calcula  la  pendiente  B  porque  se  requiere  para  el  cálculo  de  A:  
r2≥75%  el  modelo  presenta  buen  ajuste.  
 
 
n∑ XY − (∑ X )(∑ Y )
B=  
n ∑ X 2 − (∑ X ) 2
   
  Para  el  modelo  del  ejemplo  anterior  se  tiene  que:  
10(327,4) − (101)(27,6) 3274 − 2787,6  
B= = = 0,1923  
10(1273) − (101) 2 12730 − 10201
r  =  0,962                  entonces            r2=  (0,962)2  
 
r2  =  0,9254  

A=
∑ Y − B∑ X                       A = 27,6 − (0,1923)(101) = 0,8175                
n 10
(Se  multiplica  por  100  y  se  expresa  en  porcentaje).  
 
El   92,54%   de   las   ventas   son   explicadas   por   el   modelo   de   regresión   lineal   en   función   del   número  
Yˆ = 0,8175 + 0,1923 X   de  comerciales.  El  modelo  presenta  un  buen  ajuste  para  los  datos.  

   

9 POLITÉCNICO GRANCOLOMBIANO ESTADÍSTICA II 10


a)  Dibuje  el  gráfico  de  dispersión  que  muestre  el  comportamiento  de  las  dos  variables.  

b)  Encuentre  el  modelo  de  regresión  lineal  para  estimar  las  ventas  semanales  en  función  del  
número  de  empleados.  

c)  Interprete  los  parámetros  del  modelo.  

d)  ¿Cuál  es  el  nivel  o  grado  de  asociación  entre  variables?  

e)  ¿Qué  porcentaje  de  las  ventas  son  explicadas  por  el  modelo  lineal  en  función  del  número  
de  empleados?  

f)  Estime  las  ventas  para  un  almacén  que  tiene  50  empleados.  

Solución:  
 
a)  Gráfico  de  dispersión:  
Figura 3. Ajuste del modelo
Sobre  el  eje  X  se  colocan  los  valores  para  el  número  de  empleados  utilizando  una  escala  de  valores  
Fuente. Elaboración propia (2016)
apropiada,   teniendo   en   cuenta   el   valor   máximo   y   el   mínimo   de   los   datos.   En   forma   similar   se  
colocan  los  valores  de  Y  y  se  ubican  las  parejas  ordenadas  de  valores.  
 

Ejemplo:  

Se  quiere  medir  la  relación  que  existe  entre  el  número  de  empleados  (X)  y  las  ventas  semanales  
(en  millones  de  $)  (Y),  para  un  grupo  de  almacenes  del  sector  de  los  alimentos  en  una  ciudad.  Los  
datos  obtenidos  son  los  siguientes:    

X   12   16   20   28   30   32   36   40  

Y   20   30   36   44   80   60   95   98  

Tabla 3. Ejemplo ventas y número de empleados


 
Fuente. Elaboración propia (2016)
Figura 4. Gráfico de dispersión número de empleados, ventas

Fuente. Elaboración propia (2016)  

   

11 POLITÉCNICO GRANCOLOMBIANO ESTADÍSTICA II 12


b)  para  construir  el  modelo  de  regresión  lineal:     Yˆ = A + BX se  completan  los  valores   Los   resultados   obtenidos   se   van   reemplazando   en   las   fórmulas   establecidas   para   obtener   los  
dados  inicialmente  de  la  siguiente  forma:   parámetros  del  modelo  de  regresión  lineal.    

   

n∑ XY − (∑ X )(∑ Y ) (8)(14332) − (214)(463)


X   Y   XY   2
X   Y   2 B= 2 2
= = 2,8649  
n∑ X − (∑ X ) (8)(6404) − (214) 2

12   20   240   144   400    

16   30   480   256   900   A=


∑ Y − B∑ X =
463 − (2,8649)(214)
= −18,763  
n 8

20   36   720   400   1296    

Reemplazando  en  la  ecuación  del  modelo  de  regresión  lineal,  queda:  
28   44   1232   784   1936  
 

30   80   2400   900   6400  


Yˆ = −18,763 + 2,8649 X  
32   60   1920   1024   3600    

c)  En  este  modelo  el  valor  de  A=-­‐18,763  indica  que  si  no  hay  empleados  (X=0)  se  
36   95   3420   1296   9025   estaría  dejando  de  vender  $18`763.000.  

40   98   3920   1600   9604   El  valor  de  B=2,8649  indica  que  por  cada  empleado  se  estima  que  las  ventas  semanales  aumentan  
en  $2`864.900.  

214   463   14332   6404   33161    

d)   El   nivel   o   grado   de   asociación   entre   variables   se   mide   con   el   coeficiente   de  


Tabla 4. Ampliación tabla número de empleados, ventas
correlación  r:  
Fuente. Elaboración propia (2016)

  r=
(n∑ XY ) − (∑ X )(∑Y )
2 2 2 2  
n ∑ X − (∑ X ) n ∑ Y − (∑ Y )
n = 8                                           ∑ X = 214                                         ∑Y = 463  
 
2 2
∑X = 6404                         ∑Y = 33161                                 ∑ XY = 14332                  

   

13 POLITÉCNICO GRANCOLOMBIANO ESTADÍSTICA II 14


r=
(8)(14332) ) − (214)(463) = 0,936   X   Y   XY   X2   Y2  
2 2
8(6404) − ( 214) (8)(33161) − (463)
17   9   153   289   81  
   

El  valor  es  positivo  y  cercano  a  1,  lo  que  indica  que  existe  una  correlación  fuerte  entre  el  número   15   12   180   225   144  
de  empleados  y  las  ventas  semanales.  El  signo  positivo  indica  que,  a  mayor  número  de  empleados  
en  los  almacenes,  se  tienen  mayores  ventas  semanales.  
15   13   195   225   169  
 
13   16   208   169   256  
e)  El  porcentaje  de  las  ventas  semanales  explicadas  por  el  modelo  lineal  en  función  del  
número  de  empleados,  se  mide  con  el  coeficiente  de  determinación:  
12   20   240   144   400  
2
                                                                      r = 0,876  
10   20   200   100   400  
El  87,6%  de  las  ventas  son  explicadas  por  el  modelo  lineal,  presentando  un  buen  modelo  para  
hacer  estimación  de  valores  (r2  mayor  al  75%).  
8   23   184   64   529  
 

f)  Ventas  estimadas  para  un  almacén  con  50  empleados:   90   113   1360   1216   1979  

Yˆ = −18,763 + 2,8649(50)   Tabla 5. Ejemplo 2 consumo y precio de un producto

Fuente. Elaboración propia (2016)


Yˆ = 124 ,482  

 
a)  Encontrar  el  modelo  de  regresión  lineal.  
Se  estiman  ventas  de  $124`482.000  para  un  almacén  con  50  empleados.  
b)  Estimar  los  parámetros  del  modelo.  
2.   En   un   estudio   de   consumidores   se   quiere   analizar   el   comportamiento   del   consumo  
c)  Calcular  e  interpretar  el  coeficiente  de  correlación.  
semanal  del  producto  (Y  en  libras),  en  función  del  precio  del  producto  por  libra  (X  en  
miles  de  pesos)  y  para  esto  se  tiene  información  de  los  últimos  meses,  encontrando:  
d)  Calcular  e  interpretar  el  coeficiente  de  determinación.  
 
e)  Estimar  el  consumo  del  producto  para  un  precio  de  $20.000.  
   
 

   

15 POLITÉCNICO GRANCOLOMBIANO ESTADÍSTICA II 16


Solución:   c)  Coeficiente  de  correlación:  

a) para  el  modelo  de  regresión  lineal:    

 
r=
(n∑ XY ) − (∑ X )(∑Y )
 
n = 7                                           ∑ X = 90                                         ∑Y = 113   n ∑ X − (∑ X ) n ∑ Y − (∑ Y ) 2 2 2 2

∑X 2
= 1216                         ∑Y 2 = 1979                                 ∑ XY = 1360                    

 
r=
(7)(1360) ) − (90)(113) = −0,972  
2 2
7(1216) − (90) (7)(1979) − (113)
Yˆ = A + BX  
   

  Hay   correlación   negativa   entre   el   precio   del   producto   y   el   consumo,   esto   significa   que   a  
medida  en  que  aumenta  el  precio  disminuye  el  consumo.  
Los  parámetros  del  modelo,  quedan:  
 
n∑ XY − (∑ X )(∑ Y ) (7)(1360) − (90)(113)
B= 2 2
= = −1,5776   d)                                                                       r
2
= 0,946  
n ∑ X − (∑ X ) (7)(1216) − (90) 2

 
A=
∑ Y − B∑ X =
113 − (−1,5776)(90)
= 36,4271  
n 7 El   94,6%   del   consumo   es   explicado   por   el   modelo   lineal   en   función   del   precio   del   producto,  
el  modelo  presenta  un  buen  ajuste  para  los  datos.  
 
 
El  modelo  lineal  es:  
e)                     Yˆ = 36,4271 − 1,5776 X  
Yˆ = 36,4271 − 1,5776 X  
                            Yˆ = 36,4271 − 1,5776(20) = 4,8751  
 
 
b)   Para   la   interpretación   de   los   parámetros   A   y   B   del   modelo,   se   tiene   en   cuenta   que   la  
pendiente  es  negativa.        
El  consumo  máximo  estimado  es  de  36,4271  unidades  del  producto,  cuando  el  precio  aumenta  
en  $1.000  el  consumo  disminuye  en  1,5776  unidades.  

   

17 POLITÉCNICO GRANCOLOMBIANO ESTADÍSTICA II 18


04 -------
REFERENCIAS  

Textos  

Anderson  D.,  Sweenei,  D.  y  Willians,  T.  (2004).  Estadística  para  administración  y  economía.  México:  Cengage  
Learning  Editores,    

Lind,  Marchal    y  Wathen  (2012).    Estadística  Aplicada  a  los  negocios  y  la  economía.  México:  Mac  Graw  Hill.      

Martinez,  C.  (2002).  Estadística  y  Muestreo.  Bogotá:  ECOE  Ediciones  

Newbold,  P.  (2008).  Estadística  para  los  Negocios  y  la  Economía.  México:  Ed.  Prentice  Hall.    

Triola,  M.  (2013).  Estadística.  México:  Pearson  

Walpole    R.  y  Myers    R.  (2008).  Probabilidad  y  Estadística  para  Ingenieros.  México:  Prentice  Hall.      

Webster  A.  L.  (2000).  Estadística  aplicada  a  los  negocios  y  la  economía.  México:  McGraw  Hill.  

LISTA  DE  FIGURAS  

Figura  1.  Diagrama  de  dispersión  

Figura  2.  Análisis  de  correlación  

Figura  3.  Ajuste  del  modelo  

Figura  4.  Número  de  empleados  y  ventas    

LISTA  DE  TABLAS  

               Tabla  1.  Número  de  comerciales  y  ventas  

               Tabla  2.  Ampliación  tabla  número  de  comerciales  y  ventas  

               Tabla  3.  Ejemplo1  ventas  y  número  de  empleados  

               Tabla  4.  Ampliación  tabla  ejemplo1  

               Tabla  5.  Ejemplo  2  consumo  y  precios  

19 POLITÉCNICO GRANCOLOMBIANO ESTADÍSTICA II 20


POLITÉCNICO GRANCOLOMBIANO - 2016 ©

También podría gustarte