Está en la página 1de 36

Universidad Nacional de San Agustín

Asignatura
Análisis de Datos Económicos I

Sesión 19
Mg. José Luis Rojas López
Temario:

 Análisis de regresión
 Análisis de regresión Múltiple
Logro de la Sesión

Al final de la sesión, el estudiante comprenderá el análisis de correlación y


regresión
Ventas (Miles de Ingresos (Miles de
Compañía
soles) soles)
Jons 89.2 4.9
Innovation 18.6 4.4
Integrasee 18.2 1.3
Wall Data 71.7 8
Davidson 58.6 6.6
FAS 46.8 4.1
Electronic 17.5 2.6
Royal 11.9 1.7
M - Wave 19.6 3.5
Serving 51.2 8.2
Daig 28.6 6
Cobra 69.2 12.8
Evaluación de la capacidad predictora de una ecuación de regresión.

 ERROR ESTÁNDAR DE ESTIMACIÓN Medida de la dispersión de los


valores observados respecto de la recta de regresión para un valor dado
de X. Formula.

  FORMULA: REEMPLAZANDO
  VALORES:
Transformación

 El coeficiente de determinación

 COEFICIENTE DE DETERMINACIÓN Proporción de la variación total de la


variable dependiente Y que se explica, o contabiliza, por la variación de la
variable dependiente X.

 Es el coeficiente de correlación al cuadrado. Por lo tanto, también se usa el


término R al cuadrado.
( 0.759 )2= 0.576
 Para interpretar mejor el coeficiente de determinación, conviértalo a
porcentajes. Así, se dice que 57.6% de la variación del número de
copiadoras vendidas se explica, o está representado por la variación del
número de llamadas de ventas.
Caso. Resolver el Aula.
 Consulte el ejercicio anterior, donde el propietario de la Hébert Fornitura Company
estudió la relación entre la cantidad que gastó en publicidad y los ingresos por
ventas en un mes dado. La cantidad de ventas es la variable dependiente, y el
gasto en publicidad es la variable independiente.
 a) Determine el error estándar de estimación.
 b) Determine el coeficiente de determinación.
 c) Interprete el coeficiente de determinación.
Relaciones entre el coeficiente de correlación, el coeficiente de determinación
y el error estándar de estimación.

 Se analizó el error estándar de estimación, el cual mide la cercanía entre


los valores reales y la recta de regresión. Cuando el error estándar es
pequeño, las dos variables están muy relacionadas. En el cálculo del error
estándar.
 La suma de cuadrados ANOVA se calcula como sigue:
 Suma de regresión de los cuadrados:
FORMULA:
 

2
Representante de Número de llamadas de Número de copiadoras
Ventas  𝑌
^
Estimadas
  ( 𝑌^ − 𝑌´ )

SSR
  ventas ventas X vendidas Y 5.6093
1 Tom Kely 20 30 42.6316 454.3548
2 Jefry Hall 40 60 66.3156
5.6093
3 Brian Viro 20 40 42.6316
4 Gregorio Fins 30 60 54.4736 89.7491
5 Susan Welch 10 30 30.7896 201.9355
6 Carlos Ramirez 10 40 30.7896 201.9355
7 Rich Nilo 20 40 42.6316 5.6093
8 Mike Kien 20 50 42.6316 5.6093
9 Marck Reynolds 20 30 42.6316 5.6093
10 Soni Jones 30 70 54.4736
      450   89.7491
      45   1065.7705
 
FORMULA:
  REEMPLAZANDO
  VALORES:

 Suma del residual o error de los cuadrados:

FORMULA:
 
2
Representante de Número de llamadas de Número de copiadoras Residuales  
∑ ( 𝑌 − ^
𝑌 )
  ventas ventas X vendidas Y 159.5573186
1 Tom Kely 20 30 39.88680336
2 Jefry Hall 40 60 6.92531856
3 Brian Viro 20 40
30.54109696
4 Gregorio Fins 30 60
5 Susan Welch 10 30 0.62346816
6 Carlos Ramirez 10 40 84.83146816
7 Rich Nilo 20 40 6.92531856
8 Mike Kien 20 50
54.29331856
9 Marck Reynolds 20 30 159.5573186
10 Soni Jones 30 70
241.069097
      450
784.2105
FORMULA:
 
REEMPLAZANDO
  VALORES:

 Suma total de los cuadrados:

FORMULA:
 

 
 Recuerde que el coeficiente de determinación se define como el porcentaje
de la variación total (SS Total) explicado por la ecuación de regresión
(SSR). El valor R-cuadrado ()puede ser validado mediante la tabla ANOVA.
FORMULA:
  REEMPLAZANDO
  VALORES:

Representante de Número de llamadas Número de copiadoras


  ventas de ventas X vendidas Y 2
Sstotal ∑  ( 𝑌 − 𝑌´ )
1 Tom Kely 20 30 225
2 Jefry Hall 40 60
225
3 Brian Viro 20 40
4 Gregorio Fins 30 60 25
5 Susan Welch 10 30 225
6 Carlos Ramirez 10 40 225
7 Rich Nilo 20 40 25
8 Mike Kien 20 50 25
9 Marck Reynolds 20 30 25
10 Soni Jones 30 70 225
      450 625
      45 1850.0000
COEFICIENTE DE DETERMINACIÓN

FORMULA:
 

 El coeficiente de determinación puede expresarse también en términos de


la variación del residuo o error:
  REEMPLAZANDO VALORES:
ERROR ESTÁNDAR DE ESTIMACIÓN

FORMULA:
 

 La observación final que relaciona el coeficiente de relación, el coeficiente


de determinación y el error estándar de estimación es mostrar la relación
entre el error estándar de estimación y la SSE.:
  REEMPLAZANDO VALORES:

Caso. Resolver el Aula

 En la siguiente tabla se muestra el número de automóviles (en millones)


vendidos en Arequipa durante varios años y el porcentaje de ellos que
fabricó la compañía General Motors.
 a) ¿El número de automóviles vendidos se relaciona de forma directa o
indirecta con el porcentaje del mercado de la General Motors? Trace un
diagrama de dispersión para apoyar su conclusión.
 b) Determine el coeficiente de correlación entre las dos variables. Interprete
el valor.
 c) ¿Es razonable concluir que hay una asociación negativa entre ambas
variables? Utilice el nivel de significancia 0.01.
 d) ¿Cuánta variación del mercado de la General Motors se contabiliza
debido a la variación del número de automóviles vendidos?
Automóviles
Porcentaje de
Año vendidos
General Motors
(millones)
1950 6.0 50.2
1955 7.8 50.4
1960 7.3 44.0
1965 10.3 49.9
1970 10.1 39.5
1975 10.8 43.1
1980 11.5 44.0
1985 15.4 40.1
1990 13.5 36.0
1995 15.5 31.7
2000 17.4 28.6
2005 16.9 26.9
Análisis de regresión múltiple.

 La forma descriptiva general de una ecuación lineal múltiple se muestra en


la fórmula siguiente. Se utiliza k para representar el número de variables
independientes. Por lo tanto, k puede ser cualquier número entero positivo.

ECUACIÓN GENERAL DE REGRESIÓN MÚLTIPLE

 𝑌
^ =𝑎+𝑏 1 𝑋 1 +𝑏 2 𝑋 2 +𝑏3 𝑋 3 +𝑏 4 𝑋 4
 Salaberri Real vende casas en la costa este de Estados Unidos. Una de las
preguntas más frecuentes de los compradores potenciales es: si compramos esta
casa, ¿cuánto gastaremos en calefacción durante el invierno? Al departamento de
investigación de Salaberri se le pidió desarrollar algunas directrices respecto de
los costos de calefacción de casas unifamiliares. Se considera que tres variables
se relacionan con dichos costos:
 La temperatura externa diaria media,
 El número de pulgadas de aislamiento en el ático y
 Los años de uso del calentador.
 Para el estudio, el departamento de investigación de Salaberri seleccionó una
muestra aleatoria de 20 casas de venta reciente. Determinó el costo de
calefacción de cada casa en enero pasado, así como la temperatura externa en
enero en la región, el número de pulgadas de aislamiento del ático y los años de
uso del calentador. La información muestral se reporta en la tabla siguiente.
 Determine la ecuación de regresión múltiple. ¿Cuáles son las variables
independientes? ¿Cuál es la variable dependiente? Analice los coeficientes
de regresión. ¿Qué indica si algunos coeficientes son positivos y otros
negativos? ¿Cuál es el valor de la intersección? ¿Cuál es el costo de
calefacción estimado de una casa si la temperatura externa media es de 30
grados, si el ático tiene 5 pulgadas de aislamiento y el calentador tiene 10
años? 516
Costo de Temperatura Aislamiento del Antigüedad del
Calefaccion. (S/.) Externa Media (ºF) Atico (pulgadas) calentador Años
  Y X1 X2 X3
1 250 35 3 6
2 360 29 4 10
3 165 36 7 3
4 43 60 6 9
5 92 65 5 6
6 200 30 5 5
7 355 10 6 7
8 290 7 10 10
9 230 21 9 11
10 120 55 2 5
11 73 54 12 4
12 205 48 5 1
13 400 20 5 15
14 320 39 4 7
15 72 60 8 6
16 272 20 5 8
17 94 58 7 3
18 190 40 8 11
19 235 27 9 8
20 139 30 7 5
  4105 744 127 140
Costo de Temperatura Aislamiento del Antigüedad del                    
Calefaccion. Externa Media Atico (pulgadas) calentador Años 𝑋 12 𝑋2 2
𝑋3 2 𝑋1 ∗ 𝑋2 𝑋1 ∗ 𝑋3 𝑋2 ∗ 𝑋3 𝑋 1 ∗𝑌 ~𝑌
  (S/.) Y (ºF) X1 X2 X3              
𝑋 2 ∗𝑌
 
𝑋 3 ∗𝑌
     
1 250 35 3 6 1225 9 36 105 210 18 8750 750 1500 258.902 276.559
2 360 29 4 10 841 16 100 116 290 40 10440 1440 3600 295.973  
3 165 36 7 3 1296 49 9 252 108 21 5940 1155 495 176.692  
4 43 60 6 9 3600 36 81 360 540 54 2580 258 387 118.137  
5 92 65 5 6 4225 25 36 325 390 30 5980 460 552 91.750  
6 200 30 5 5 900 25 25 150 150 25 6000 1000 1000 246.054  
7 355 10 6 7 100 36 49 60 70 42 3550 2130 2485 335.085  
8 290 7 10 10 49 100 100 70 70 100 2030 2900 2900 307.813  
9 230 21 9 11 441 81 121 189 231 99 4830 2070 2530 264.583  
10 120 55 2 5 3025 4 25 110 275 10 6600 240 600 175.972  
11 73 54 12 4 2916 144 16 648 216 48 3942 876 292 26.144  
12 205 48 5 1 2304 25 1 240 48 5 9840 1025 205 139.156  
13 400 20 5 15 400 25 225 100 300 75 8000 2000 6000 352.894  
14 320 39 4 7 1521 16 49 156 273 28 12480 1280 2240 231.840  
15 72 60 8 6 3600 64 36 480 360 48 4320 576 432 70.172  
16 272 20 5 8 400 25 64 100 160 40 5440 1360 2176 310.187  
17 94 58 7 3 3364 49 9 406 174 21 5452 658 282 75.866  
18 190 40 8 11 1600 64 121 320 440 88 7600 1520 2090 192.337  
19 235 27 9 8 729 81 64 243 216 72 6345 2115 1880 218.782  
20 139 30 7 5 900 49 25 210 150 35 4170 973 695 216.392  
  4105 744 127 140 33436 923 1192 4640 4671 899 124289 24786 32341    
20 744 127 140 4105
744 33436 4640 4671 124289
127 4640 923 899 24786
140 4671 899 1192 32341

1.363158849 -0.013274362 -0.058614963 -0.063878222 427.1938033

-0.013274362 0.00022889 0.000116477 0.000574289 -4.582662626

-0.058614963 0.000116477 0.008674147 -0.000114119 -14.83086269

-0.063878222 0.000574289 -0.000114119 0.006177048 6.101032061


 En este caso, la ecuación de regresión estimada es
 𝑌
^ =427.194 − 4.583 𝑋 1 − 14.831 𝑋 2+ 6.101 𝑋 3

 Ahora puede estimar o predecir el costo de calefacción en enero de una casa si


conoce la temperatura externa media, las pulgadas de aislamiento y la antigüedad
del calentador. Por ejemplo, para una casa con temperatura externa media por
mes de 30 grados (𝑋_1), hay 5 pulgadas de aislamiento en el ático (𝑋_2) y el
calentador tiene 10 años (𝑋_3). Al sustituir los valores de las variables
independientes:

 𝑌
^ =427.194 − 4.583 ( 30 ) −14.831 ( 5 ) +6.101 (10 )=276.56
 El costo estimado de calefacción en enero es de $276.56.
 Los coeficientes de regresión y sus signos algebraicos también proporcionan
información acerca de sus relaciones individuales con el costo de calefacción en
enero. El coeficiente de regresión de una temperatura externa media es - 4.583. El
coeficiente es negativo y presenta una relación inversa entre el costo de
calefacción y la temperatura.
 Eso no es sorprendente. Conforme la temperatura externa aumenta, disminuye el
costo para calentar la casa. El valor numérico del coeficiente de regresión
proporciona más información.
 Si la temperatura aumenta 1 grado y las otras dos variables independientes se
mantienen constantes, se estima una disminución de $4.583 en el costo de
calefacción mensual. Por lo tanto, si la temperatura media en Boston es 25 grados
y en Arequipa de 35 grados, y todos los demás elementos son iguales
(aislamiento y antigüedad del calentador), se espera que el costo de calefacción
sea $45.83 menos en Arequipa.
 La variable antigüedad del calentador presenta una relación directa. Con un
calentador antiguo, aumenta el costo para calentar la casa. Específicamente, por
cada año adicional que tenga el calentador, se espera que el costo aumente $6.10
por mes.
Caso. Resolver el Aula.

 ¿En que forma los vendedores de bines raíces determinan el precio de venta para
un condominio recién inscrito en lista? La base de datos de una computadora en
una pequeña comunidad contiene el precio de venta de lista y (miles de dólares),
la cantidad de área de vivienda 𝑋_1 (en cientos de pies cuadrados), así como los
números de pisos 𝑋_(2,) recámaras 𝑋_3, y baños 𝑋_4 para n = 15 condominios
seleccionados al azar actualmente en el mercado. Los datos se muestran en la
siguiente tabla.
 El modelo de regresión es:
 𝑌
^ = 𝛽 0 + 𝛽 1 𝑋 1 + 𝛽 2 𝑋 2+ 𝛽 3 𝑋 3 + 𝛽 4 𝑋 4

Observación Precio de lista, Y Área de vivienda, X1 Pisos, X2 Recámara, X3 Baños, X4


1 169.0 6 1 2 1
2 218.5 10 1 2 2
3 216.5 10 1 3 2
4 225.0 11 1 3 2
5 229.9 13 1 3 1.7
6 235.0 13 2 3 2.5
7 239.9 13 1 3 2
8 247.9 17 2 3 2.5
9 260.0 19 2 3 2
10 269.9 18 1 3 2
11 234.9 13 1 4 2
12 255.0 18 1 4 2
13 269.9 17 2 4 3
14 294.5 20 2 4 3
15 309.9 21 2 4 3
Caso. Resolver el Aula.

 Resolver e Interpretar
Calorias
Marca Puntos Y Precio X1 X2 Grasa X3 Sodio X4
1 70 91 110 4 310
2 45 68 90 0 420
3 43 92 80 1 280
4 41 75 120 5 370
5 39 88 90 0 410
6 30 67 140 4 440
7 68 73 120 4 430
8 56 92 170 6 520
9 40 71 130 4 180
10 34 67 110 2 180
11 30 92 100 1 330
12 26 95 130 2 340
Evaluación de una ecuación de regresión múltiple..

 Muchas estadísticas y métodos estadísticos se utilizan para evaluar la relación


entre una variable dependiente y más de una variable independiente.

La tabla ANOVA

TABLA ANOVA
Suma de Grados de
Fuente Media Cuadrática F
Cuadrados Libertad
Tratamientos SSR k SSR/k = MSR MSR/MSE
Residuo o Error SSE n - (k +1) SSE/(n – (k +1) = MSE  
Total SS total n-1    
 la suma de las desviaciones al cuadrado de la media. Se calcula como
  2
𝑆𝑢𝑚𝑎 𝑑𝑒 𝑐𝑢𝑎𝑑𝑟𝑎𝑑𝑜𝑠𝑡𝑜𝑡𝑎𝑙=𝑆𝑆𝑡𝑜𝑡𝑎𝑙=∑ ( 𝑌 − 𝑌´ )
Temperatura
Costo de Aislamiento del Antigüedad del
Externa Media (ºF) 2
Calefacción. (S/.) Y Atico (pulgadas) X2 calentador Años X3 ( 𝑌 − 𝑌´ )
  X1  
1 250 35 3 6  
2 360 29 4 10 2002.5625
3 165 36 7 3 23947.5625
4 43 60 6 9 1620.0625 205.25
5 92 65 5 6 26325.0625
6 200 30 5 5 12825.5625
7 355 10 6 7 27.5625
8 290 7 10 10 22425.0625
9 230 21 9 11
7182.5625
10 120 55 2 5
612.5625
11 73 54 12 4
7267.5625
12 205 48 5 1
17490.0625
13 400 20 5 15
14 320 39 4 7 0.0625
15 72 60 8 6 37927.5625
16 272 20 5 8 13167.5625
17 94 58 7 3 17755.5625
18 190 40 8 11 4455.5625
19 235 27 9 8 12376.5625
20 139 30 7 5 232.5625
  4105 744 127 140 885.0625
4389.0625
212915.75
Práctica

1.- Caso resolver ejercicios propuestos.


Conclusiones:
• Se realizado el análisis de la regresión
• Se analizo el análisis de regresión múltiple

También podría gustarte