Está en la página 1de 16

INFERENCIAS DEL MODELO DE REGRESIÓN

Y MODELO MÚLTIPLE
ESTADÍSTICA II
AUTOR: Rogelio Alvarado Martinez
ÍNDICE
ÍNDICE  

1. INFERENCIAS  DEL  MODELO  DE  REGRESIÓN  Y  MODELO  MÚLTIPLE  

1.1. Error  estándar  de  la  estimación  

1.2. Intervalo  de  confianza  para  la  estimación  

1.3. Intervalo  de  confianza  para  la  pendiente  B   Acceso rápido

1.4. Prueba  de  hipótesis  para  el  coeficiente  de  correlación  

2. REGRESIÓN  MÚLTIPLE  

 
DESARROLLO
 

 
GLOSARIO REFERENCIAS
 

 
Este material pertenece al Politécnico
Grancolombiano y a la Red Ilumno. Por ende, son
de uso exclusivo de las Instituciones adscritas a
la Red Ilumno. Prohibida su reproducción total
o parcial.
    02 -------
1. INFERENCIAS  DEL  MODELO  DE  REGRESIÓN  Y  MODELO  MÚLTIPLE  

1.1. Error  estándar  de  la  estimación  

En   la   lectura   anterior   vimos   que   raras   veces   los   valores   observados   coinciden   con   los   valores   de  
la  estimación,  esa  distancia  que  hay  entre  el  valor  observado  y  el  estimado  se  conoce  como  error.    
Figura 2: Comparación error estándar de la estimación

Fuente: elaboración propia

La  forma  de  calcular  un  error  estándar  de  la  estimación  es  Se  =        

+ , -. +-/ 0+
𝑆𝑆* =  
1-2

Se  divide  entre  n-­‐2  que  son  los  grados  de  libertad,  se  pierden  2  grados  de  libertad  por  los  dos  
parámetros  del  modelo  de  regresión,  B  o  la  pendiente  y  A  la  ordenada  en  el  origen  o  punto  de  
corte.  
 
Para  el  ejemplo  que  se  trabajó  en  la  semana  anterior  sobre  el número de comerciales que se
Figura 1. Error estándar de la estimación transmiten al día sobre un producto y las ventas semanales del producto en miles de
unidades monetarias con la siguiente información:
Fuente: elaboración propia (2016)
 
 

Para  medir  la  confiabilidad  de  la  ecuación  de  regresión          𝑌𝑌 = 𝐴𝐴 ∗ 𝐵𝐵𝐵𝐵        ,  se  ha  desarrollado  el   Número  de   4   4   5   6   9   11   13   14   17   18  
error  estándar  de  estimación  Se  que  mide  la  variabilidad  o  dispersión  de  los  valores  observados   comerciales  X  
alrededor  de  la  recta  de  regresión.    Vamos  a  ver  que  una  línea  más  exacta  de  un  estimador  va  a  
tener  un  error  estándar  de  la  estimación  más  pequeña  de  lo  contrario  va  a  tener  una  forma  el  
error  estándar  de  estimación  más  grande.   Ventas   2,0   1,3   1,5   2,0   2,8   3,0   3,5   3,0   4,0   4,5  
semanales  Y  

Tabla 1. Número de comerciales y ventas semanales

Fuente: Elaboración propia (2016)

   

3 POLITÉCNICO GRANCOLOMBIANO ESTADÍSTICA II 4


   

1.2. Intervalo  de  confianza  para  la  estimación  


En  donde:  
Para  la  construcción  del  intervalo  de  confianza  tenemos  muestras  pequeñas  y  no  se  conoce  la  
  desviación  estándar  de  la  población,   entonces  se  trabaja  con  la  distribución   t  –student   con  (n-­‐2)  
grados  de  libertad  y  aplicamos  la  siguiente  expresión:  
Yˆ = 0,8175 + 0,1923 X  
 
∑Y  =  27,6                          ∑XY=327,4                  ∑Y2  =  86,28  
𝑌𝑌±𝑡𝑡𝑡𝑡*  
 
 
encontramos  que  el  error  estándar  es:  
Ejemplo:  Para  X:  Número  de  comerciales  que  se  transmiten  por  televisión  y  Y:  ventas  semanales,  
  se  tiene  que  la  estimación  puntual  para  10  comerciales  es:  

+ , -. +-/ 0+  
𝑆𝑆* =  
1-2
Yˆ = 0,8175 + 0,1923(10)  
 
Yˆ = 2,7405  
34,23- 5,3678 27,4 - 5,692: (:27,<)  
𝑆𝑆* =  
65-2
Para  construir  el  intervalo  de  confianza,  vamos  a  fijar  un  nivel  de  confianza  del  95%  y  vamos  a  
Se=  0,3078   ubicar  en  una  tabla  t  –student  con  8  grados  de  libertad  (n-­‐2)  el  valor  t  =  2,31  

   

Para  los  valores  de  Y  estimados  puntualmente,  se  puede  obtener  una  estimación  mediante  un  
intervalo  de  confianza  para  la  recta  de  regresión  o  los  valores  estimados  de  Y.  

   
Figura 3. Valores tabla t con nivel de significancia 95%

Fuente: elaboración propia

   

5 POLITÉCNICO GRANCOLOMBIANO ESTADÍSTICA II 6


   

El  intervalo  queda  en  la  siguiente  forma:  


   
 

2,7405  ±  (2,31)(0,3078)   X   Y    
𝑌𝑌    (𝑌𝑌 − 𝑌𝑌)2    
 (𝑋𝑋 − 𝑋𝑋)2  

4   2   1,5867   0,17081689   37,21  


Límite  inferior  =  2,029  
4   1,3   1,5867   0,08219689   16  
Límite  superior  =  3,4515  
5   1,5   1,779   0,077841   25  
 
6   2   1,9713   0,00082369   36  
Con   un   nivel   de   confianza   del   95%,   se   puede   decir   que   para   10   comerciales   por   televisión   se  
estiman  ventas  entre  2029  y  3451,5  unidades  monetarias.   9   2,8   2,5482   0,06340324   81  
  11   3   2,9328   0,00451584   121  

13   3,5   3,3174   0,03334276   169  


1.3. Intervalo  de  confianza  para  la  pendiente  B  
14   3   3,5097   0,25979409   196  
El  intervalo  de  confianza  para  el  coeficiente  de  regresión  o  pendiente  del  modelo  de  regresión  se  
puede  calcular  con  la  siguiente  expresión:   17   4   4,0866   0,00749956   289  

  18   4,5   4,2789   0,04888521   324  


B  ±  tα/2SB           Total     0,74911917   1294,21  
  Tabla  2.  Ejemplo    

donde   tα/2         es   el   valor   de   la   distribución   t   student   con   (n-­‐2)   grados   de   libertad   y       SB   es   la   Fuente.  Elaboración  propia  (2016)  

desviación  estándar  del  parámetro  B  y  se  obtiene  con  la  siguiente  fórmula:    
@, (+-+), 5,7<966967
SB=                                    S2=     S2=   =0,0936399  
(0-0), 1.2 3

  SB =
5,59:4:99
=  0,0085  
629<,26

 
 
 
Con  un  nivel  de  confianza  del  95%  el  valor  t  =  2,31  
 
 

   

7 POLITÉCNICO GRANCOLOMBIANO ESTADÍSTICA II 8


   

El  intervalo  queda:   1.4. Prueba  de  hipótesis  para  el  coeficiente  de  correlación  
  La  prueba  para  determinar  si  hay  correlación  entre  variables  tiene  la  forma:  

0,1923  ±  (2,31)(0,0085)    

Límite  inferior  =  0,17265   H0:  ρ  =  0  (No  hay  correlación)  

Límite  superior  =  0,21194     H1:  ρ  ≠  0  (Si  hay  correlación)  

   

Prueba  de  Hipótesis  para  el  coeficiente  de  correlación   H


La  estadística  de  prueba  es    𝑡𝑡 =  
IJK,
Cuando  se  trabaja  el  modelo  de  regresión  es  conveniente  determinar  la  importancia  de  la  variable   LJ,

independiente   en   el   modelo   para   estimar   los   valores   de   la   variable   dependiente,   para   esto   se  
 
plantea  la  siguiente  hipótesis:  
r  =  0,9622  
 
0,9622
H0:  B=0                   𝑡𝑡 = = 9,993  
1 − 0,96222
H1:  B≠0   10 − 2
   
En  donde  la  estadística  de  prueba  es:  
El  anterior  valor  cae  en  la  zona  de  rechazo,  por  lo  tanto,  se  rechaza  la  hipótesis  
  nula  y  se  acepta  la  alternativa,  es  decir,  si  hay  correlación  entre  las  variables  a  un  
nivel  de  significancia  del  5%.  
/
𝑡𝑡 =    
@C
 
 
 
5,692:
𝑡𝑡 = = 22,607    
5,5538  
   
Como   se   puede   observar   en   la   figura,   el   anterior   valor   22,607   cae   en   la   zona   de   rechazo,   lo   cual    
significa  que  está  rechazándose  la  hipótesis  H0  y  por  lo  tanto,  aceptamos  H1,  lo  que  equivale  a  
decir  que  la  variable  X  número  de  comerciales,  sí  contribuye  con  información  para  estimar  los  
valores  de  Y.  

   

9 POLITÉCNICO GRANCOLOMBIANO ESTADÍSTICA II 10


   

2. REGRESIÓN  MÚLTIPLE   La  exposición  de  esta  lectura,  se  estructura  en  torno  a  los  siguientes  puntos,  a  saber:  

El   Análisis   de   Regresión   Lineal   Múltiple   nos   permite   establecer   la   relación   que   se   produce   entre   1. Determinación  de  la  bondad  de  ajuste  de  los  datos  al  modelo  de  regresión  lineal  múltiple  
una  variable  dependiente  Y  y  un  conjunto  de  variables  independientes  (X1,  X2,  ...  Xk).   (R2).  
 
El  análisis  de  regresión  lineal  múltiple,  a  diferencia  del  simple,  se  aproxima  más  a  situaciones  de   2. Elección   del   modelo   que   con   el   menor   número   de   variables   explica   más   la   variable  
análisis  real,  puesto  que  los  fenómenos,  hechos  y  procesos  sociales,  por  definición,  son  complejos   dependiente  o  criterio.    
y,  en  consecuencia,  deben  ser  explicados  en  la  medida  de  lo  posible  por  la  serie  de  variables  que,  
directa  e  indirectamente,  participan  en  su  concreción.     3. Estimación  de  los  parámetros  de  la  ecuación  y  del  modelo  o  ecuación  predictiva.  
 
  4.  Exposición  de  los  pasos  y  Cuadro  de  Diálogo  del  Análisis  de  Regresión  Lineal  (Múltiple)  que  
Al  aplicar  el  análisis  de  regresión  múltiple,  lo  más  frecuente  es  que  tanto  la  variable  dependiente   podemos   seguir   para   la   obtención   de  los   estadísticos   y   las  pruebas   necesarias   citadas   en  
como  las  independientes  sean  variables  continuas,  medidas  en  escala  de  intervalo  o  razón.  No   cada  uno  de  los  puntos  precedentes.    
obstante,   caben   otras   posibilidades:   (1)   también   podremos   aplicar   este   análisis   cuando    
relacionemos  una  variable  dependiente  continua  con  un  conjunto  de  variables  categóricas;  (2)  o    
bien,  también  aplicaremos  el  análisis  de  regresión  lineal  múltiple  en  el  caso  de  que  relacionemos  
una  variable  dependiente  nominal  con  un  conjunto  de  variables  continuas.     En   el   análisis   de   regresión   lineal   múltiple,   la   construcción   de   su   correspondiente   ecuación   se  
  realiza  seleccionando  las  variables  una  a  una,  “paso  a  paso”.    
La  anotación  matemática  del  modelo  o  ecuación  de  regresión  lineal  múltiple  es  la  que  sigue:    
La  finalidad  perseguida  es  buscar,  de  entre  todas  las  posibles  variables  explicativas,  aquellas  que  
más  y  mejor  expliquen  a  la  variable  dependiente  sin  que  ninguna  de  ellas  sea  combinación  lineal  
Y  =  a  +  b1  x1  +  b2  x2  +  ...  +  bn  xn   de  las  restantes.  Este  procedimiento  implica  que:  
   
  (1)  en  cada  paso  solo  se  introduce  aquella  variable  que  cumple  unos  criterios  de  entrada;  
en  donde:      
  (2)  una  vez  introducida,  en  cada  paso  se  valora  si  algunas  d e  las  variables  cumplen  criterios  
Y  es  la  variable  a  predecir  a,  b1,  b2  ...  bn,  son  parámetros  desconocidos  a  estimar;     de  salida;  
   
  (3),  en  cada  paso  se  valora  la  bondad  de  ajuste  de  los  datos  al  modelo  de  regresión  lineal  
Al  ocuparnos  del  análisis  lineal  de  regresión  simple,  vimos  como  el  modelo  final  resultante  podía   y  se   calculan   los  parámetros   del  modelo  verificado   en   dicho  paso.   El   proceso  se   inicia   sin  
ser  calificado  de  un  “buen  modelo”.  Sin  embargo,  en  muchas  ocasiones  los  modelos  simples  se   ninguna  variable  independiente  en  la  ecuación  d e  regresión  y  el  proceso  concluye  cuando  
pueden   ver   mejorados   al   introducir   una   segunda   (tercera,   cuarta,...)   variable   independiente   o   no   queda   ninguna   variable   fuera   de   la   ecuación   que   satisfaga   el   criterio   de   selección  
explicativa.  Consideramos  que  un  modelo  de  regresión  lineal  simple  se  ha  “mejorado”,  cuando  al   (garantiza  que  las  variables  seleccionadas  son  significativas)  y/o   el  criterio  de   eliminación  
introducir   en   el   mismo   más   variables   independientes,   la   proporción   de   variabilidad   explicada   se   (garantizar  que  una  variable  seleccionada  no  es  redundante).    
incrementa.  Pero  ¿qué  variables  son  las  que  mejor  explican  el  hecho,  proceso  o  fenómeno  social    
 
objeto  de  estudio?;  o,  ¿qué  variables  no  es  necesario  incluir  en  el  modelo,  dada  su  nula  o  escasa  
1.-­‐  Verificación  de  los  criterios  de  probabilidad  de  entrada.  
capacidad  explicativa?  Esta  es,  sin  lugar  a  dudas,  la  decisión  más  importante  ligada  al  análisis  de   El  p-­‐valor  asociado  al  estadístico  T,  o  probabilidad  de  entrada,  nos  indica  si  la  información  
regresión  múltiple  y  la  inclusión  de  este  proceso  es  lo  que  diferencia,  sustancialmente,  al  análisis   proporcionada   por   cada   una   de   las   variables   es   redundante.   Si   éste   es   menor   que   un  
de  regresión  múltiple  del  de  regresión  simple.   determinado  valor  crítico,  la  variable  será  seleccionada.  El  EXCEL,  por  defecto,  establece  
en  0.05  el  valor  crítico  de  la  probabilidad  de  entrada.    
   

   

11 POLITÉCNICO GRANCOLOMBIANO ESTADÍSTICA II 12


   

2.-­‐  Verificación  del  criterio  de  probabilidad  de  salida.     0.05),   rechazaremos   la   hipótesis   nula   planteada.   Del   mismo   modo,   podremos   considerar  
En  este  caso,  si  el  p-­‐valor  asociado  al  estadístico  T,  o  probabilidad  de  salida,  es  mayor  que   que  los  resultados  obtenidos  con  la  muestra  son  generalizables  a  la  población   a  la  que  
un   determinado   valor   crítico,   la   variable   será   eliminada.   El   EXCEL,   por   defecto,   establece   pertenece  la  muestra.  
en  0.1  el  valor  crítico  de  la  probabilidad  de  salida  (nótese  que  con  la  finalidad  de  que  una  
variable   no   pueda   entrar   y   salir   de   la   ecuación   en   dos   pasos   consecutivos,   el   valor   crítico   En  el  caso  de  análisis  de  regresión  múltiple,  la  tabla  del  análisis  de  varianza  nos  indica  los  p-­‐valores  
de  la  probabilidad  de  salida  debe  ser  mayor  que  el  de  la  probabilidad  de  entrada).  En  el   asociados  al  estadístico  F  en  cada  uno  de  los  modelos  generados.  
caso   práctico   que   recogemos   en   los   resultados,   puede   apreciarse   que   las   dos   variables  
independientes  han  superado  los  criterios  de  entrada  y  de  salida.     Una   vez   que   ya   hemos   analizado   el   carácter   e   intensidad   de   la   relación   entre   las   variables,  
  podemos  proceder  a  estimar  los  parámetros  de  la  ecuación  de  predicción  o  de  regresión  lineal.  
  En  el  caso  del  análisis  de  regresión  múltiple,  tendremos  tantas  ecuaciones  como  modelos  o  pasos  
En  cada  paso,  en  el  que  se  introduce  o  elimina  una  variable,  se  obtienen  los  estadísticos  de  bondad   hayamos  efectuado.  De  todos  ellos  elegiremos  aquel  que  mejor  se  ajuste.  Éste  es  el  último  de  los  
de  ajuste  (R,  R2,  R2  corregido,  error  típico  de  la  estimación),  el  análisis  de  varianza  y  la  estimación   modelos  generados.    
de   parámetros   considerando   las   variables   introducidas.   El   Excel   ofrece   dos   tablas   con   esta    
información:   en   la   primera   resume   los   estadísticos   de   bondad   de   ajuste   y   en   la   segunda   nos   El  criterio  para  obtener  los  coeficientes  de  regresión  B0,  B1  y  B2  es  el  de  mínimos  cuadrados.  Este  
presenta  el  análisis  de  varianza.  En  ellas  se  comparan  los  resultados  obtenidos  para  cada  una  de   consiste  en  minimizar  la  suma  de  los  cuadrados  de  los  residuos  de  tal  manera  que  la  recta  de  
las  ecuaciones  o  modelo  obtenidos  con  la  secuencia  de  pasos  utilizados.     regresión   que   definamos   es   la   que   más   se   acerca   a   la   nube   de   puntos   observados   y,   en  
  consecuencia,  la  que  mejor  los  representa.  
A   continuación,   exponemos   los   principales   elementos   a   considerar   en   el   análisis   de   regresión  
múltiple.   Recordemos   que   éstos   ya   se   expusieron   en   el   capítulo   de   regresión   simple.   Aquí   Los  estadísticos  asociados  a  la  variable  independiente  que   ha  pasado  a  formar  parte  del  modelo  
enfatizamos  aquellos  aspectos  que  debemos  considerar  cuando  éstos  son  aplicados  en  el  análisis   de  regresión  simple  son:    
de  regresión  múltiple.    
Coeficiente  de  regresión  B.  Este  coeficiente  nos  indica  el  número  de  unidades  que  aumentará  la  
variable  dependiente  o  criterio  por  cada  unidad  que  aumente  la  variable  independiente.  
1.-­‐  Coeficiente  de  Correlación  Múltiple  (Múltiple  R).    
Mide   la   intensidad   de   la   relación   entre   un   conjunto   de   variables   independientes   y   una   El   valor   de   la   constante   coincide   con   el   punto   en   el   que   la   recta   de   regresión   corta   el   eje   de  
variable  dependiente.     ordenadas.  
 
2-­‐  Matriz  de  correlación.  
Matriz   de   correlación   que   establece   la   relación   entre   cada   variable   independiente   con   la  
variable  dependiente,  lo  ideal  que  entre  las  dos  variables  exista  una  alta  correlación  o,  en  
otras   palabras,   si   se   van   a   descartar   variables   del   modelo   se   tendrían   en   cuenta   aquellas   Excel  para  regresión  múltiple  
con  una  correlación  baja.  
  En   una   hoja   de   cálculo   de   Excel,   ingresa   la   información   que   utilizarás   para   realizar   tu   análisis   de  
3.-­‐  Análisis  de  Varianza.   regresión.   Puedes   ingresar   manualmente   esa   información   o   importar   un   archivo   de   otra   fuente,  
La  tabla  de  análisis  de  varianza  que  incluye  en  su  salida  de  resultados  el  Excel,  permite   como  puede  ser  un  archivo  ASCII  u  otra  hoja  de  cálculo.    
valorar  hasta  qué  punto  es  adecuado  el  modelo  de  regresión  lineal  para  estimar  los  valores  
Aunque  la  función  de  análisis  de  datos  está  incluida  en  todas  las  versiones  de  Excel,  primero  debes  
de  la  variable  dependiente.  La  tabla  de  análisis  de  varianza  se  basa  en  que  la  variabilidad  
desbloquear   la   herramienta   desde   el   menú   de   complementos   e   instalarla.   Para   esto,   abre   el  
total  de  la  muestra  puede  descomponerse  entre  la  variabilidad  explicada  por  la  regresión  
programa   Excel   y   da   clic   en   "Herramientas"   para   que   se   despliegue   un   menú.   Selecciona  
y  la  variabilidad  residual.  La  tabla  de  ANOVA  proporciona  el  estadístico  F  a  partir  del  cual  
"Complementos"   y   se   abrirá   una   ventana   más   pequeña   con   una   serie   de   opciones.   En   la   caja  
podemos  contrastar  la  H0  de  que  R2  es  igual  a  0,  la  pendiente  de  la  recta  de  regresión  es  
próxima   a   "Herramientas   para   análisis",   da   clic   en   "Aceptar".   Luego,   aparecerá   en   el   menú  
igual  a  0,  o  que  es  lo  mismo,  la  hipótesis  de  que  las  dos  variables  están  correlacionadas.  Si  
"Herramientas"  la  opción  "Análisis  de  datos"  lista  para  ser  utilizada.  Si  tienes  el  Excel  2007,  puedes  
el  p-­‐valor  asociado  al  estadístico  F  es  menor  que  el  nivel  de  significación  (normalmente  

   

13 POLITÉCNICO GRANCOLOMBIANO ESTADÍSTICA II 14


   

acceder  al  complemento  de  análisis  de  datos  haciendo  clic  en  el  botón  de  Microsoft  Office  en  el  
borde  superior  izquierdo  de  un  libro  abierto  de  Excel.  Luego,  da  clic  en  "Opciones  de  Excel".  Esto   Ingreso  
abre   una   nueva   ventana   que   muestra   opciones   en   la   columna   izquierda.   Elige   "Complementos",   Ventas  anules   No.   personal   Antigüedad  
No.  Automóviles   No  de  
selecciona  "Herramientas  para  análisis"  y  haz  clic  en  "Aceptar".  Esto  hará  que  la  herramienta  de   (millones  de   Almacenes  de   (miles   promedio  
registrados   supervisores  
dólare4s)   descuento   millones  de   automóviles  
análisis  de  datos  esté  lista  para  usar.    
dólares)  
Para  realizar  una  regresión  múltiple,  abre  el  menú  de  Herramientas  y  selecciona  "Análisis   Y   X1   X2   X3   X4   X5  
de   datos"   (en   el   Excel   2007,   haz   clic   en   la   pestaña   "Datos"   y,   luego,   en   el   botón   "Análisis  
de  datos").     37,702   1739   9,27   85,40   3,50   9  

Ingresa  los  valores  para  la  variable  dependiente  (Y)  y  las  independientes  (X)  haciendo  clic   24,196   1221   5,86   60,70   5,00   5  
en  las  celdas  y  columnas  correspondientes  de  la  hoja  de  cálculos.  Luego  de  seleccionar  los  
rangos  de  datos  para  analizar,  haz  clic  en  "Aceptar".  Así  se  dará  inicio  al  procedimiento  y   32,055   1846   8,81   68,10   4,40   7  
el  programa  te  mostrará  los  resultados  en  una  hoja  de  cálculo  nueva.    
3,611   120   3,81   20,20   4,90   5  
 
17,625   1096   10,31   33,80   3,50   7  
Examina   la   información   resultante,   comenzando   por   la   estadística   de   regresión   que   está   en   la  
parte  de  arriba.  Mira  el  valor  del  cuadrante  R,  el  cual  te  dirá  qué  porcentaje  de  variabilidad  de  la   45,919   2290   11,62   95,10   4,10   13  
variable   dependiente   (por   ejemplo,   salarios   promedio)   se   explica   en   tu   modelo   de   regresión.  
Luego,   mira   los   valores   de   los   coeficientes   y   las   estadísticas   T   y   niveles   de   significancia   29,600   1687   8,96   69,30   4,10   15  
correspondientes.  Una  estadística  T  de  2  o  mayor  indica  significancia  estadística;  esto  significa  
que  la  relación  entre  la  variable  independiente  y  la  dependiente  no  se  debe  al  puro  azar.     8,114   241   6,28   16,30   5,90   11  

20,116   649   7,77   34,90   5,50   16  


 
12,994   1427   10,92   15,10   4,10   10  
 
Tabla  3.  Ejemplo  regresión  múltiple    
 
Fuente:  Anderson  D.,  Sweenei,  D.  y  Willians,  T.  (2004).  
Ejemplo:  

El  gerente  de  ventas  de  un  distribuidor  grande  de  partes  automotrices  desea  estimar  en  el  mes  
a. Con  la  matriz  de  correlación  determine  ¿qué  variable  individual  tiene  la  correlación  más  
de   abril   las   ventas   totales   anuales   de   una   región.   Con   base   en   las   ventas   regionales,   también   se  
pueden  estimar  las  ventas  totales  de  la  compañía.     fuerte  con  la  variable  dependiente?  
 
Parece   que   varios   factores   están   relacionados   con   las   ventas   (millones   de   dólares),   como   el   b. ¿Qué   porcentaje   de   la   variación   de   las   ventas   se   explica   mediante   la   ecuación   de  
número  de  almacenes  de  descuento  que  en  la  región  venden  componentes  de  la  compañía,  el   regresión?  
número   de   automóviles   en   la   región   registrados   desde   el   1   de   abril   (millones),   el   ingreso   por  
 
persona   del   primer   trimestre   del   año   (miles   de   millones   de   dólares),   la   antigüedad   promedio   de  
los  automóviles  (años)  y  el  número  de  supervisores  por  tienda.     c. Realice  la  prueba  general  de  hipótesis  para  determinar  si  alguno  de  los  coeficientes  de  
regresión  es  diferente  de  cero  con  un  nivel  de  significancia  del  5%.  
 

   

15 POLITÉCNICO GRANCOLOMBIANO ESTADÍSTICA II 16


   

d. Realice  la  prueba  de  hipótesis  para  cada  variable  independiente.  ¿Consideraría  eliminar   Obteniendo   la   matriz   de   correlación   de   cada   pareja   de   variables,   como   la   idea   es   identificar  
¨tiendas  de  descuento´  y  ´supervisores´?  Utilice  un  nivel  del  5%.   cuáles   de   estas   variables   presentan   una   alta   correlación   con   la   variable   dependiente   Y,   se  
  observa  que  estas  variables  son  X1  y  X3:  
e. Vuelva   a   correr   la   regresión   sin   tiendas   de   descuento   y   supervisores.   ¿Mejoró   el   modelo  
de  regresión?    

 
f. Interprete  los  parámetros  del  nuevo  modelo.  

SOLUCIONES:  

a. Con   la   matriz   de   correlación   determine   ¿qué   variable   individual   tiene   la   correlación   más  
fuerte  con  la  variable  dependiente?  

Para   resolver   esta   inquietud   vamos   a   Excel,   en   datos   y   en   análisis   de   datos   solicitamos   el  
procedimiento  de  coeficiente  de  correlación.  
 
 
Figura 5. Resultados coeficientes de correlación

Fuente: elaboración propia (2016)

b.  ¿Qué  porcentaje  de  la  variación  de  las  ventas  se  explica  mediante  la  ecuación  de  regresión?  

   Para  esto,  en  análisis  de  datos  se  busca  el  procedimiento  de  regresión:  

 
Figura  4.  Coeficientes  de  correlación,  Excel  

Fuente:  elaboración  propia  (2016)  

   

17 POLITÉCNICO GRANCOLOMBIANO ESTADÍSTICA II 18


   

El  porcentaje  de  variación  explicado  se  interpreta  con  R2  con  el  mismo  criterio  que  en  la  regresión  
lineal  simple.  En  este  caso,  un  valor  R2=  0,9888  indica  en  porcentaje  un  valor  del  98,88%  indicando  
que   el   modelo   de   regresión   múltiple   presenta   un   buen   ajuste   para   predecir   los   valores   de   Y  
(ventas).  

c.   Realice   la   prueba   general   de   hipótesis   para   determinar   si   alguno   de   los   coeficientes   de  


regresión  es  diferente  de  cero  con  un  nivel  de  significancia  del  5%.  

En  la  tabla  de  resultados  se  observa  la  probabilidad  que  aparece  al  frente  de  cada  variable.  Si  esta  
probabilidad  es  menor  al  nivel  de  significancia  α  dado,  entonces  se  dice  que  los  coeficientes  de  
las  variables  X2,  X3,  X4  son  diferentes  de  cero,  es  decir  que  estas  variables  son  importantes  para  el  
modelo  y,  por  lo  tanto,  no  se  pueden  eliminar.  

  d.   Vuelva   a   correr   la   regresión   sin   tiendas   de   descuento   y   supervisores.  ¿Mejoró   el   modelo   de  


regresión?  
Figura  6.  Regresión  en  Excel  
 
Fuente:  elaboración  propia  (2016)  

Y  se  obtiene  la  siguiente  salida:  

 
Figura 8. Análisis de varianza
 
Fuente: elaboración propia
Figura 7. Resultados inferencias / Fuente: elaboración propia (2017)  

   

19 POLITÉCNICO GRANCOLOMBIANO ESTADÍSTICA II 20


   

e.   Realice   la   prueba   de   hipótesis   para   cada   variable   independiente.   ¿Consideraría   eliminar   EJEMPLIFICACIÓN  DE  LA  TEMÁTICA    
¨tiendas  de  descuento´  y  ´supervisores´?  Utilice  un  nivel  del  5%.  
1.  Se  quiere  medir  la  relación  que  existe  entre  el  número  de  empleados  (X)  y  las  ventas  semanales  
Una   vez   eliminadas   las   variables,   se   observa   que   los   valores   de   la   probabilidad   son   menores   del  
(en  millones  de  $)  (Y),  para  un  grupo  de  almacenes  del  sector  de  los  alimentos  en  una  ciudad.  Los  
nivel  α,  por  lo  tanto,  las  tres  variables  contribuyen  con  información  para  explicar  las  ventas.  Con  
la  eliminación  de  tiendas  de  descuento  y  de  supervisores,  el  modelo  de  regresión  múltiple  mejora   datos  obtenidos  son  los  siguientes:    
las  predicciones  y  el  análisis  para  las  ventas  (Y).  
 
 
 
f.  Interpretación  de  las  variables  en  el  nuevo  modelo:   X   12   16   20   28   30   32   36   40  

Para  la  interpretación  de  cada  parámetro  del  modelo,  se  va  a  utilizar  el  mismo  criterio  visto  en  el   Y   20   30   36   44   80   60   95   98  
modelo  de  regresión  lineal  simple:  

 
Ventas  anules     Número  de   Ingreso  personal   Antigüedad  
(millones  de   Automóviles   (miles  millones   promedio    
dólare4s)   registrados   de  dólares)   automóviles  
a. Encuentre  el  modelo  de  regresión  lineal  para  estimar  las  ventas  semanales  en  función  del  
Y     X2   X3   X4   número  de  empleados.  
       
b. Interprete  los  parámetros  del  modelo.  
Coeficientes   -­‐23,851271   1,85596   0,405810   6,50685  
c. ¿Cuál  es  el  nivel  o  grado  de  asociación  entre  variables?  
       
d. ¿Qué  porcentaje  de  las  ventas  son  explicadas  por  el  modelo  lineal  en  función  del  número  
  de  empleados?  

Modelo  de  regresión  lineal  múltiple:   e. Estime  las  ventas  para  un  almacén  que  tiene  50  empleados.  

Y  =  -­‐23,851271  +  1,85596X2  +  0,405810X3  +  6,50685X4    


   
Para  1,85596:  Por  cada  automóvil  registrado,  las  ventas  se  incrementan  en  U$1´855.960,  si  las    
otras  variables  permanecen  constantes.  
 
Para   0,405810:   Por   cada   mil   millones   de   dólares   en   que   aumenta   el   ingreso   personal,   las   ventas  
se  incrementan  en  U$405810,  si  las  otras  variables  permanecen  constantes.    

Para   6,50685:   Por   cada   año   de   antigüedad   de   los   automóviles,   las   ventas   se   incrementan   en  
U$6´506.850,  si  las  otras  variables  permanecen  constantes.  

   

21 POLITÉCNICO GRANCOLOMBIANO ESTADÍSTICA II 22


   

2.  Un  gerente  de  una  empresa  desea  predecir  los  costos  (Y)  en  millones  de  pesos,  basándose  en   a. ¿Existe  relación  entre  el  número  de  cajas  y  el  tiempo  de  espera?  
la   cantidad   de   insumos   de   materias   primas   (X),   cientos   de   libras,   que   recibe   un   fabricante   de   un  
b. ¿No  varía  el  tiempo  de  espera  por  cada  caja  adicional?  
producto.    
c. ¿En  cuánto  se  estima  el  tiempo  medio  mínimo  de  espera?  
 
d. Si  se  instalaran  22  cajas  registradoras.  ¿Cuál  será  el  tiempo  medio  de  espera?  
Y   12   8   6   5   8   7  
e. ¿El  pronóstico  anterior  es  confiable?  

X   25   20   18   15   20   19    

 
 
4.  La  compañía  de  seguros  “Segurísimo”,  desea  determinar  el  grado  de  relación  que  existe  entre  
a. Encuentre  el  modelo  de  regresión  lineal.   el   monto   del   seguro   de   vida   (en   unidades   de   diez   mil   pesos)   en   función   del   ingreso   familiar  
semanal  (miles  de  pesos).  Para  ello,  estableció  la  siguiente  ecuación  de  regresión,  así  como  alguna  
b. Interprete  los  parámetros  del  modelo.   información  adicional:  

c. Calcule  e  interprete  el  coeficiente  de  correlación.  


Y  =  2,5  +  1,78X  
d. Calcule  e  interprete  el  coeficiente  de  determinación.  
                                                                   r  =  0,9088          
e. Estime  los  costos  si  se  reciben  22  (cientos  de  libras)  en  materias  primas.  
 
 
a. ¿Cuál  es  la  variable  dependiente  y  cuál  la  independiente?  
 
b. Interprete  cada  uno  de  los  parámetros  de  la  ecuación.  
3.   Un   supermercado   ha   decidido   ampliar   el   negocio   y   decide   estudiar   el   número   de   cajas  
c. Interprete  los  coeficientes  de  correlación  y  de  determinación.  
registradoras   que   va   a   instalar,   para   evitar   grandes   colas.   Para   ello,   se   obtuvieron   los   siguientes  
datos,  procedentes  de  otros  establecimientos  similares,  acerca  del  número  de  cajas  registradoras   d. Estime  el  monto  del  seguro  para  un  ingreso  familiar  de  $  55.000  semanales.    
(X)  y  el  tiempo  medio  de  espera  (Y)  en  minutos.    
 
 
 
Número  de  cajas  registradoras   10   12   14   16   18   20   5.  El  conocer  la  potencialidad  de  los  territorios  de  venta  permite  planear  sistemas  de  control  y  de  
incentivos  para  los  agentes  de  ventas.  El  gerente  de  una  compañía  que  vende  equipos  de  oficina,  
Tiempo  medio  de  espera  (minutos)   59   51   42   32   26   22   para  estudiar  lo  anterior,  ha  hecho  un  registro  por  territorio  de  las  ventas  del  mes  pasado  (Y),  el  
número  de  clientes  (X1)  y  los  años  de  experiencia  (X2)  del  agente  de  ventas.  De  ese  registro  se  
seleccionaron  25  territorios  con  los  siguientes  datos:  
 

   

23 POLITÉCNICO GRANCOLOMBIANO ESTADÍSTICA II 24


   

Y:   X1        Número  de  clientes  (*100)   X2   45,87   19   2,3  

36,7   15   1,7   27,29   12   1,6  

34,74   14   1,7   32,89   14   1,8  

22,95   12   1,5   28,01   13   1,6  

46,76   18   2,6   32,64   13   1,9  

61,26   24   4,7   34,54   15   1,7  

21,35   9   1,3   17,41   7   1,3  

50,32   22   2,5   20,36   9   1,4  

33,67   14   1,9   15,78   6   1,2  

65,19   25   4,3   41,68   16   2  

48,76   21   2,4   28   11   1,6  

24,68   11   1,7    

a. Utilizando  las  herramientas  de  Excel  encuentre  el  modelo  de  regresión  múltiple.  
25,33   11   1,6  
b. Realice  las  pruebas  de  hipótesis  apropiadas  a  los  parámetros  del  modelo.  

24,08   12   1,4   c. Interprete  el  coeficiente  de  determinación  del  modelo  múltiple.  

d. Analice  los  parámetros  del  modelo  de  regresión  múltiple  y  analice  todos  los  resultados  
23,37   10   1,5   obtenidos  con  la  tabla  de  análisis  de  varianza  del  modelo.  

   

25 POLITÉCNICO GRANCOLOMBIANO ESTADÍSTICA II 26


    03 ------- G
GLOSARIO  DE  TÉRMINOS   BIBLIOGRAFÍA  
04 -------
Datos  Bivariados:  Los  que  corresponden  al  análisis  de  dos  variables  en  forma  simultánea.   Anderson  D.,  Sweenei,  D.  y  Willians,  T.  (2004).  Estadística  para  administración  y  economía.  México:  Cengage  
Learning  Editores,    

Lind,  Marchal    y  Wathen  (2012).    Estadística  Aplicada  a  los  negocios  y  la  economía.  México:  Mac  Graw  Hill.      
Coeficiente  de  determinación:  Valor  que  determina  el  ajuste  de  los  modelos  de  regresión.  
Martinez,  C.  (2002).  Estadística  y  Muestreo.  Bogotá:  ECOE  Ediciones  

Modelo  de  regresión  lineal:  Modelo  que  utiliza  la  línea  recta  para  el  análisis  de  dos  variables.   Newbold,  P.  (2008).  Estadística  para  los  Negocios  y  la  Economía.  México:  Ed.  Prentice  Hall.    

Triola,  M.  (2013).  Estadística.  México:  Pearson  


Modelo   de   regresión   múltiple:   Modelo   que   analiza   una   variable   dependiente   y   dos   o   más  
Walpole    R.  y  Myers    R.  (2008).  Probabilidad  y  Estadística  para  Ingenieros.  México:  Prentice  Hall.      
variables  independientes.  
Webster  A.  L.  (2000).  Estadística  aplicada  a  los  negocios  y  la  economía.  México:  McGraw  Hill.  

 
LISTA  DE  FIGURAS  
 

  Figura  1  Error  estándar  de  la  estimación  

  Figura  2:  Comparación  error  estándar  de  la  estimación  

  Figura  3.  Valores  tabla  t  con  nivel  de  significancia  95%  

  Figura  4.  Coeficientes  de  correlación,  Excel  

  Figura  5.  Resultados  coeficientes  de  correlación  

Figura  6.  Regresión  en  Excel  


 
Figura  7.  Resultados  inferencias  
 
Figura  8.  Análisis  de  varianza  
 

 
LISTA  DE  TABLAS  
 

  Tabla  1.  Número  de  comerciales  y  ventas  semanales  

  Tabla  2.  Ejemplo  

  Tabla  2.  Ejemplo  regresión  múltiple  

   

27 POLITÉCNICO GRANCOLOMBIANO ESTADÍSTICA II 28


POLITÉCNICO GRANCOLOMBIANO - 2016 ©

También podría gustarte