0% encontró este documento útil (0 votos)
54 vistas46 páginas

Taller 2 Econometria

El documento presenta un taller de econometría que analiza un conjunto de datos sobre 45 ciudades no metropolitanas de Minnesota, enfocándose en el efecto del crecimiento económico en diversos factores como el valor de la vivienda. Se estima un modelo de regresión múltiple para identificar las variables significativas que influyen en el valor medio de mercado de las casas, encontrando que las variables 'sizehse' y 'totexp' son relevantes, mientras que otras no cumplen con los criterios estadísticos. Finalmente, se discuten criterios de selección de variables para mejorar el modelo, incluyendo R cuadrado ajustado y suma de cuadrados de errores.

Cargado por

Yenni Villamil
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
54 vistas46 páginas

Taller 2 Econometria

El documento presenta un taller de econometría que analiza un conjunto de datos sobre 45 ciudades no metropolitanas de Minnesota, enfocándose en el efecto del crecimiento económico en diversos factores como el valor de la vivienda. Se estima un modelo de regresión múltiple para identificar las variables significativas que influyen en el valor medio de mercado de las casas, encontrando que las variables 'sizehse' y 'totexp' son relevantes, mientras que otras no cumplen con los criterios estadísticos. Finalmente, se discuten criterios de selección de variables para mejorar el modelo, incluyendo R cuadrado ajustado y suma de cuadrados de errores.

Cargado por

Yenni Villamil
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

UNIVERSIDAD DISTRITAL FRANCISCO JOSÉ DE CALDAS

ECONOMETRÍA

TALLER 2

GRUPO 63

YENNI VILLAMIL ESTEVES – 20202025095

ANDRÉS FELIPE DURÁN MEDINA - 20211025073


JUAN DAVID BARAJAS CAMARGO - 20191025074

PROFESOR CARLOS EDUARDO MELO MARTINEZ

FECHA: 15/05/2024

INGENIERÍA CATASTRAL Y GEODESIA

FACULTAD DE INGENIERÍA

BOGOTÁ D.C, 2024

1
UNIVERSIDAD DISTRITAL FRANCISCO JOSE DE CALDAS
INGENIERIA CATASTRAL Y GEODESIA

ECONOMETRIA

Taller 2 2024-I

1. El archivo de datos CITYDATR.xlsx contiene una base de datos de secciones transversales para el análisis
de proyectos. El archivo contiene datos de 45 ciudades no metropolitanas de Minnesota durante dos años
consecutivos. Los datos se recopilaron como parte de un proyecto de investigación para determinar el
efecto del crecimiento económico en los gastos de la ciudad local, las tasas impositivas y el valor de la
vivienda. El archivo contiene un total de 90 observaciones.

county: código de condado


city: código MCD
sizehse: habitaciones medianas por casa ocupada por el propietario
totexp: Gastos totales actuales del gobierno de la ciudad
taxbase: Base imponible en millones de dólares reales
taxrate: gravamen fiscal dividido por la tasación total
Population: Estimación de población
Income: Renta per cápita
hseval: valor de mercado por residencia ocupada por el propietario
Taxhse: impuesto promedio por residencia ocupada por el propietario
Homper: Porcentaje del valor de la propiedad: residencia ocupada por el dueño
Rentper: Porcentaje del valor de la propiedad: residencia de alquiler
Comper: Porcentaje del valor de la propiedad: comercial
Indper: Porcentaje del valor de la propiedad: propiedad industrial
Utilper: Porcentaje del valor de la propiedad: utilidad pública
Year: Representado como 1, 2

El administrador de una ciudad pequeña le ha pedido que identifique las variables que influyen en el valor
medio de mercado de las casas en las ciudades pequeñas del medio oeste. Ha obtenido datos de varias
ciudades pequeñas, que se almacenan en el archivo de datos CITYDATR.xlsx, con variables descritas
previamente. Las variables predictoras candidatas son el tamaño medio de la casa (sizehse), la tasa del
impuesto a la propiedad (taxrate; exacción fiscal dividida por la tasación total), los gastos totales en
servicios de la ciudad (totexp) y el porcentaje de propiedad comercial (comper).

a) Estime el modelo de regresión múltiple utilizando todas las variables predictoras indicadas.
Seleccione solo variables estadísticamente significativas para su ecuación final e interprete.

Cómo el modelo de regresión trata de identificar las variables que influyan en el valor medio de mercado de
la casa, en efecto, las variables candidatas son las que entran en contexto. Deducimos que nuestra variable
dependiente será el valor de mercado por residencia ocupada por el propietario(hseval).

Para estimar el modelo de regresión múltiple adecuado deberemos reconocer las variables que son
estadísticamente significativas. En primera instancia, haremos el siguiente código para que nos realice un
modelo de regresión múltiple inicial con las variables candidatas que se nombran en el enunciado:

2
Lo que nos arroja el siguiente resumen, con el análisis de varianza, estadísticas de la regresión y los
coeficientes de cada regresión con el intercepto:

Puede observarse que la significancia, es decir, el P-value de cada regresor para que sea significativo con una
probabilidad del 95%, tendrá que ser inferior a 0.05, por lo que las variables taxrate y Comper no cumplen
con este requisito.

Luego de esto, haremos nuevamente el modelo con las variables totexp (los gastos totales en servicios de la
ciudad), sizehse (habitaciones medianas por casa ocupada por el propietario).

3
Interpretación.
Del resumen que acabamos de tener de las variables significativas, podemos observar que siguen conservando
su significancia, pero tenemos varios estadísticos y datos que nos señalan Ho:el modelo no ajusta los datos,
Ha: el modelo ajusta los datos. Por eso vamos a describir los siguientes factores que llaman la atención:
1. Parámetros estimados:
Se puede observar que para la variable totexp, su coeficiente estimado, tanto en el modelo inicial, con
todas las variables predictoras, como en el segundo modelo da cero, esto porque seguramente no hay
correlación entre el regresor y la variable dependiente.

Viendo su gráfica de dispersión entre la variable totexp y la variable hseval plantea una relación
dispersa, en la que no se sabe si existe una correlación entre este regresor y la variable dependiente.
Esto lo vamos a averiguar viendo la correlación numérica.

Obtenemos: [1] 0.2263229


4
Vemos que la correlación es casi nula.

Observemos como se comporta el otro regresor

En el caso gráfico de dispersión entre el regresor sizehse y hseval, se puede observar que tienen una
relación ascendente, con poca dispersión, exceptuando los puntos encerrados en rojo. Pero si
hacemos una línea de regresión, podrían considerarse como atípicos.

Observando la correlación númerica entre estas dos variables:


Obtenemos: [1] 0.4048526, lo que indica que hay una correlación positiva, pero baja.
2. Suma de cuadrados:
Cuando observamos que la suma de cuadrados de los residuos es mas grande que la suma de
cuadrados del modelo. La suma de cuadrados del modelo es la que representa la variabilidad en la
variable dependiente, que es explicada por las variables independientes que están incluidas en el
modelo. Esto puede ser explicado por el inciso anterior, por la baja y nula correlación entre los
regresores (sizehse, totexp) y la variable Y (hseval).

5
3. F estadístico:
Cómo tenemos que el valor de F es relativamente bajo, pero aún así el P-value se mantiene por
debajo del 0.05. Viendo la formula de Fcalculado:
𝑅 2 /𝑝 − 1
𝐹𝑐 =
(1 − 𝑅 2 )/𝑛 − 𝑝
0.219/3 − 1
𝐹𝑐 =
(1 − 0.219)/90 − 3
𝐹𝑐 =12.197
Y el Ftabla nos da: 3.10130, lo que indica que Fc es mayor a Ft, se rechaza la Ho, y el modelo se
consideraría significativo para sugerir que el modelo de regresión explica una parte significativa de
la variabilidad en la variable dependiente.

4. R cuadrado bajo:
Para corroborar que el modelo no es bueno, siendo el R^2 es 0.219, indica que aproximadamente el
22% de la variabilidad de hseval (valor de mercado por residencia ocupada por el propietario), se
explica por sizehse (habitaciones medianas por casa ocupada por el propietario) y totexp (Gastos
totales actuales del gobierno de la ciudad). El R^2 ajustado es de 20%, es más confiable porque la
Suma de Cuadrados del Error y la Suma de Cuadrados Total se dividen por sus grados de libertad, lo
que da un mejor ajuste al modelo.

Todo lo anterior apunta hacia un problema de heterocedasticidad dada la interpretación de los resultados que
nos arroja el modelo, sobre todo en la estimación de los parámetros y la correlación entre las variables
regresoras con la variable dependiente.
2
b) A partir de la información suministrada, realice una selección de variables (emplee los criterios: Radj ,
Información de Akaike, Schwarz, SCE, coeficiente de Amemiya y Cp-Mallows).
 SCE  2 p
, SC = ln(n) + ln 
SCE p SCE 
Donde; Amemiya = *(n + p) , AIC = ln  + 
n− p  n  n n  n 

PUNTO B. PARTIENDO DESDE TODAS LAS VARIABLES DE LA BASE DE DATOS

Partiendo de todas las variables para estimar hseval (valor de mercado por residencia ocupada por el
propietario) son:

X1 = sizehse

X2 = totexp

X3 = taxrate

X4 = Comper

X5 = taxbase

X6= Population

X7=Income

X8=Taxhse

X8= Homper
X9= Rentper
6
X10 = Indper

X11= Utilper

X12=Year

X13=county

X14=city

Teniendo las siguientes variables significativas:

Para el modelo quedarían sizehse, Comper, Homper, Rentper, Indper y Utilper. Al probar el modelo, nos da
lo siguiente:

Por lo que también, quitamos la variable Rentper

7
El modelo quedaría de la siguiente manera:

ℎ𝑠𝑒𝑣𝑎𝑙 = 𝛽0 + 𝛽1 𝑆𝑖𝑧𝑒ℎ𝑠𝑒 + 𝛽2 𝐶𝑜𝑚𝑝𝑒𝑟 + 𝛽3 𝐻𝑜𝑚𝑝𝑒𝑟 + 𝛽4 𝐼𝑛𝑑𝑝𝑒𝑟 + 𝛽5 𝑈𝑡𝑖𝑙𝑝𝑒𝑟

PUNTO 1
Regresor Intercepto X1 = sizehse X4 = Comper X8 = Homper X10 = Indper X11= Utilper
1. X1 (sizehse) -47.437 12.179
2. X4 (Comper) 21.248 -12.168
3. X8 (Homper) 15.633 5.644
4. X10 (Indper) 21.248 -12.168
5. X11 (Utilper) 19.281 -0.387
6. X1, X4 -47.866 12.234 0.762
7. X1, X8 -47.3 12.501 -2.948
8. X1, X10 -42.525 11.409 -9.72
9. X1, X11 -48.388 12.373 -7.24
10. X4, X8 19.574 -10.518 2.18
11. X4, X10 23.248 -15.634 -20.169
12. X4, X11 21.292 -12.284 -1.636
13. X8, X10 23.397 -4.044 -21.203
14. X8, X11 15.071 6.422 3.858
15. X10, X11 53.287 -18.468 -2.014
16. X1, X4, X8 -46.361 12.436 -1.628 -3.439
17. X1, X4, X10 -41.196 11.231 -2.032 -10.087
18. X1, X4, X11 -48.625 12.404 0.427 -7.213
19. X1, X8, X10 -38.751 11.986 -10.027 -16.268
20. X1, X8, X11 -48.67 13.102 -5.654 -11.381
21. X1, X10, X11 -43.45 11.602 -9.888 -7.684
22. X4, X8, X10 44.941 -38.522 -25.605 -40.623
23. X4, X8, X11 19.579 -10.524 2.174 -0.02
24. X4, X10, X11 23.371 -15.937 -20.36 -3.802
25. X8, X10, X11 24.968 -6.13 -22.922 -6.459
26. X1, X4, X8, X10 -19.874 10.729 -22.098 -21.769 -27.926
27. X1, X4, X8, X11 -45.912 12.989 -5.147 -7.627 -13.146
28. X1, X4, X10, X11 -41.857 11.39 -2.466 -10.337 -7.857
29. X1, X8, X10, X11 -38.548 12.923 -17.218 -21.419 -20.814
30. X4, X8, X10, X11 87.469 -86.364 -73.338 -82 -64.875
31. X1, X4, X8, X10, X11 22.389 10.952 -70.815 -70.635 -70.09 -66.523

Donde todas las variables son significativas al 0.01


Para poder sacar los criterios de selección postulados en el enunciado, tenemos que tener claro cómo funciona
cada criterio para poder seleccionar las variables para el mejor modelo.
8
1. R cuadrado ajustado:
El R cuadrado ajustado penaliza la inclusión de nuevas variables explicativas, ya que, la inclusión de nuevas
variables explicativas reduce los grados de libertad del modelo, por lo que no resultaría adecuado siempre
incorporar nuevas variables al modelo.

2
𝑛−1
𝑅𝑎𝑑𝑗 = 1 − (1 − 𝑅 2 ) ∗
𝑛−𝑝

2
(𝑛 − 1) 𝑆𝐶𝐸
𝑅𝑎𝑑𝑗 =1− ∗
(𝑛 − 𝑝) 𝑆𝐶𝑇

Siendo p =k +1

Debemos seleccionar el R cuadrado ajustado más alto, ya que este coeficiente nos dice que tiene el mayor
porcentaje de la variabilidad de la variable dependiente está siendo explicada por el modelo, teniendo en
cuenta el número de variables predictoras obtenidas.

2. Suma de Cuadrados de los Errores (SCE)


La suma de cuadrados de los errores se obtiene de la sumatoria de los valores observados de la variable
dependiente menos la variable dependiente estimada por el modelo al cuadrado, lo que indica, que este
resultado, cuanto más pequeño sea, quiere decir que el modelo bajo indica que el modelo tiene una mejor
capacidad para predecir los datos observados, lo que se considera favorable.
𝑛

𝑆𝐶𝐸 = ∑(𝑌𝑖 − 𝑌̂𝑖 )2


𝑖=1

3. Información de Akaike
Este estadístico, permite seleccionar variables en un modelo de regresión. También penaliza la inclusión de
nuevos regresores en el modelo, seleccionando el más adecuado aquel que presenta un menor valor de dicho
coeficiente.

 SCE  2 p
AIC = ln  +
 n  n

4. Schawrz
Es más restrictivo que el criterio de Akaike porque permite la selección de variables que deben ser incluidas
en el modelo. Al igual que el caso anterior, se considerará mejor modelo aquel que presenta un menor valor
de dicho coeficiente.

p  SCE 
SC = ln(n) + ln  
n  n 

5. Criterio PC

9
Es el criterio de selección de variables basado en la SCE y penaliza también la inclusión de regresores
irrelevantes en el modelo. También se debe escoger el valor más bajo.
SCE
Amemiya = *(n + p)
n− p

6. Cp Mallows
En este criterio se debe buscar que el valor del coeficiente sea pequeño y esté cercano al número de
predictores en el modelo más uno. En la regresión del mejor subconjunto, buscamos el modelo reducido más
cercano a Cp = p + 1, acercándonos desde arriba.
𝑆𝐶𝐸𝑅𝑒𝑑𝑢𝑐𝑖𝑑𝑜
𝐶𝑝 = + 2 (𝑘 + 1) − 𝑛
𝐶𝑀𝐸𝐶𝑜𝑚𝑝𝑙𝑒𝑡𝑜

Resultados
R-
cuadrado
Regresor n K p ajustado SCE AIC SC Amemiya
1. X1 (sizehse) 90 1 2 0.164 3900.666 3.81353736 3.86908869 4077.969
2. X4 (Comper) 90 1 2 0 4612.486 3.98115703 4.03670835 4822.144455
3. X8 (Homper) 90 1 2 -0.006 4639.216 3.98693544 4.04248677 4850.089455
4. X10 (Indper) 90 1 2 0.028 4483.573 3.95281033 4.00836165 4687.371773
5. X11 (Utilper) 90 1 2 -0.011 4665.304 3.99254305 4.04809438 4877.363273
6. X1, X4 90 2 3 0.145 3900.474 3.83571036 3.91903735 4169.472207
7. X1, X8 90 2 3 0.146 3894.074 3.83406819 3.91739517 4162.630828
8. X1, X10 90 2 3 0.155 3852.923 3.82344436 3.90677135 4118.641828
9. X1, X11 90 2 3 0.148 3887.762 3.83244595 3.91577294 4155.883517
10. X4, X8 90 2 3 -0.011 4609.56 4.00274468 4.08607167 4927.46069
11. X4, X10 90 2 3 0.036 4398.023 3.9557674 4.03909439 4701.334931
12. X4, X11 90 2 3 -0.011 4611.822 4.00323528 4.08656227 4929.87869
13. X8, X10 90 2 3 0.019 4474.433 3.97299192 4.0563189 4783.014586
14. X8, X11 90 2 3 -0.017 4635.991 4.00846226 4.09178925 4955.714517
15. X10, X11 90 2 3 0.017 4482.563 3.97480726 4.05813425 4791.705276
16. X1, X4, X8 90 3 4 0.136 3893.384 3.8561132 3.96721585 4255.559256
17. X1, X4, X10 90 3 4 0.146 3851.631 3.84533119 3.95643384 4209.922256
18. X1, X4, X11 90 3 4 0.138 3887.702 3.85465274 3.96575539 4249.348698
19. X1, X8, X10 90 3 4 0.157 3798.338 3.8313981 3.94250075 4151.671767
20. X1, X8, X11 90 3 4 0.142 3867.739 3.8495046 3.96060725 4227.528674
21. X1, X10, X11 90 3 4 0.149 3838.402 3.84189063 3.95299328 4195.462651
22. X4, X8, X10 90 3 4 0.065 4214.906 3.93546179 4.04656444 4606.990279
23. X4, X8, X11 90 3 4 -0.023 4609.56 4.02496691 4.13606956 5038.356279
24. X4, X10, X11 90 3 4 0.025 4394.457 3.97717847 4.08828112 4803.243698
25. X8, X10, X11 90 3 4 0.009 4466.478 3.99343468 4.10453733 4881.964326

10
26. X1, X4, X8, X10 90 4 5 0.165 3720.368 3.83287931 3.97175762 4158.058353
27. X1, X4, X8, X11 90 4 5 0.133 3861.475 3.87010595 4.00898427 4315.766176
28. X1, X4, X10, X11 90 4 5 0.139 3836.507 3.86361904 4.00249735 4287.860765
29. X1, X8, X10, X11 90 4 5 0.165 3719.861 3.83274302 3.97162134 4157.491706
30. X4, X8, X10, X11 90 4 5 0.144 3812.684 3.85739012 3.99626844 4261.235059
31. X1, X4, X8, X10,
X11 90 5 6 0.251 3297.662 3.73449267 3.90114665 3768.756571
Según los criterios R-cuadrado ajustado, SCE, AIC, y Amemiya, postulan como mejor modelo el siguiente:

ℎ𝑠𝑒𝑣𝑎𝑙 = 𝛽0 + 𝛽1 𝑆𝑖𝑧𝑒ℎ𝑠𝑒 + 𝛽2 𝐶𝑜𝑚𝑝𝑒𝑟 + 𝛽3 𝐻𝑜𝑚𝑝𝑒𝑟 + 𝛽4 𝐼𝑛𝑑𝑝𝑒𝑟 + 𝛽5 𝑈𝑡𝑖𝑙𝑝𝑒𝑟

Según el criterio de Schawrz el mejor modelo es

ℎ𝑠𝑒𝑣𝑎𝑙 = 𝛽0 + 𝛽1 𝑆𝑖𝑧𝑒ℎ𝑠𝑒

Según el criterio de Cp- Mallows:

Regresor n K p SCE CME Cp - Mallows


1. X1 (sizehse) 90 1 2 3900.666 44.32575 13.3597738
2. X4 (Comper) 90 1 2 4612.486 52.415 31.49161954
3. X8 (Homper) 90 1 2 4639.216 52.718 32.17249987 2
4. X10 (Indper) 90 1 2 4483.573 50.95 28.2078812
5. X11 (Utilper) 90 1 2 4665.304 53.015 32.83702685
6. X1, X4 90 2 3 3900.474 44.8330345 15.35488308
7. X1, X8 90 2 3 3894.074 44.759 15.19185898
8. X1, X10 90 2 3 3852.923 44.286 14.14363951
9. X1, X11 90 2 3 3887.762 44.687 15.03107647
10. X4, X8 90 2 3 4609.56 52.983 33.41708696 3
11. X4, X10 90 2 3 4398.023 50.552 28.02870752
12. X4, X11 90 2 3 4611.822 53.009 33.47470579
13. X8, X10 90 2 3 4474.433 51.43 29.97506241
14. X8, X11 90 2 3 4635.991 53.287 34.09035101
15. X10, X11 90 2 3 4482.563 51.524 30.18215396
16. X1, X4, X8 90 3 4 3893.384 45.272 17.17428295
17. X1, X4, X10 90 3 4 3851.631 44.786 16.11072902
18. X1, X4, X11 90 3 4 3887.702 45.206 17.02954812
19. X1, X8, X10 90 3 4 3798.338 44.167 14.75322227
20. X1, X8, X11 90 3 4 3867.739 44.974 16.5210403
21. X1, X10, X11 90 3 4 3838.402 44.633 15.77375312 4
22. X4, X8, X10 90 3 4 4214.906 49.011 25.36425697
23. X4, X8, X11 90 3 4 4609.56 53.6 35.41708696
24. X4, X10, X11 90 3 4 4394.457 51.098 29.93787254
25. X8, X10, X11 90 3 4 4466.478 51.936 31.77242855

11
26. X1, X4, X8, X10 90 4 5 3720.368 43.769 14.76713027
27. X1, X4, X8, X11 90 4 5 3861.475 45.429 18.36148046
28. X1, X4, X10, X11 90 4 5 3836.507 45.135 17.7254827 5
29. X1, X8, X10, X11 90 4 5 3719.861 43.763 14.7542157
30. X4, X8, X10, X11 90 4 5 3812.684 44.855 17.11865098
31. X1, X4, X8, X10,
X11 90 5 6 3297.662 39.258 5.999745275 6

Ningún coeficiente se acerca por encima de k+1, por lo que decidimos que el mejor modelo será el
completo.

PUNTO B. CON LAS 4 VARIABLES PROPUESTAS POR EL ENUNCIADO

X1= sizehse

X2= totexp

X3=taxrate

X4=Comper

PUNTO 1

X4 =
X1 = X2 = X3 =
Regresor Intercepto sizehse totexp taxrate Comper

Modelo 1 : X1 -47.437 12.179

Modelo 2 : X2 17.348 0

Modelo 3 : X3 23.206 -145.229

Modelo 4 : X4 21.248 -12.168

Modelo 5 : X1, X2 -50.313 12.337 0

Modelo 6 : X1, X3 -42.015 11.763 -116.144

Modelo 7 : X1, X4 -47.866 12.234 0.762

Modelo 8 : X2, X3 21.512 0 -158.154

Modelo 9 : X2, X4 20.277 0 -20.622

Modelo 10 : X3, X4 24.456 -135.797 -9.281

Modelo 11 : X1, X2, X3 -44.417 11.882 0 -129.115

Modelo 12 : X1, X2, X4 -46.319 11.803 0 -7.467

Modelo 13 : X1, X3, X4 -43.59 11.974 -118.68 3.009

Modelo 14 : X2, X3, X4 23.618 0 -142.275 -17.769

12
Modelo 15 : X1, X2, X3, X4 -41.772 11.518 0 -125.295 -5.271

Resultados

R-
cuadrado
Regresor n p ajustado SCE AIC SC Amemiya

Modelo 1 : X1 90 1 0.164 3900.666 3.791315139 3.819090802 3988.321416

Modelo 2 : X2 90 1 0.051 4426.373 3.917748344 3.945524007 4525.842056

Modelo 3 : X3 90 1 0.023 4507.848 3.935987709 3.963763372 4609.147955

Modelo 4 : X4 90 1 0 4612.486 3.958934805 3.986710468 4716.137371

Modelo 5 : X1, X2 90 2 0.201 3642.02 3.744928526 3.800479852 3807.566364

Modelo 6 : X1, X3 90 2 0.167 3800.830 3.787609517 3.843160843 3973.595

Modelo 7 : X1, X4 90 2 0.145 3900.474 3.813488137 3.869039463 4077.768273

Modelo 8 : X2, X3 90 2 0.07 4240.467 3.897063458 3.952614784 4433.2155

Modelo 9 : X2, X4 90 2 0.06 4285.537 3.907635918 3.963187244 4480.334136

Modelo 10 : X3, X4 90 2 0.018 4477.761 3.951513198 4.007064524 4681.295591

Modelo 11 : X1, X2, X3 90 3 0.219 3519.183 3.732841136 3.816168125 3761.885276

Modelo 12 : X1, X2, X4 90 3 0.196 3625.029 3.762474564 3.845801553 3875.031

Modelo 13 : X1, X3, X4 90 3 0.158 3797.895 3.809059241 3.89238623 4059.818793

Modelo 14 : X2, X3, X4 90 3 0.082 4137.784 3.894772654 3.978099643 4423.148414

Modelo 15 : X1, X2, X3, X4 90 4 0.212 3510.824 3.752685265 3.863787917 3837.412279

Según los criterios R-cuadrado ajustado, AIC y Amemiya, postulan como mejor modelo el siguiente:

ℎ𝑠𝑒𝑣𝑎𝑙 = 𝛽0 + 𝛽1 𝑆𝑖𝑧𝑒ℎ𝑠𝑒 + 𝛽2 𝑡𝑜𝑡𝑒𝑥𝑝 + 𝛽3 𝑡𝑎𝑥𝑟𝑎𝑡𝑒 + 𝑒

Los criterios SCE postula el modelo completo y Schawrz el modelo con las variables significativas que se
mostró en el inciso a. Para el criterio de CP-Mallows tenemos lo siguiente:

13
Cp -
Regresor p SCE CME Mallows

Modelo 1 : X1 1 3900.666 43.8277079 8.43797211

Modelo 2 : X2 1 4426.373 49.7345281 21.1657224

Modelo 3 : X3 1 4507.848 50.6499775 23.1382917 2

Modelo 4 : X4 1 4612.486 51.8256854 25.6716541

Modelo 5 : X1, X2 2 3642.02 41.3865909 4.17596359

Modelo 6 : X1, X3 2 3800.830 43.19125 8.02086965

Modelo 7 : X1, X4 2 3900.474 44.3235682 10.4333236

Modelo 8 : X2, X3 2 4240.467 48.187125 18.6648024 3

Modelo 9 : X2, X4 2 4285.537 48.6992841 19.7559801

Modelo 10 : X3, X4 2 4477.761 50.8836477 24.4098635

Modelo 11 : X1, X2, X3 3 3519.183 40.4503793 3.20199012

Modelo 12 : X1, X2, X4 3 3625.029 41.667 5.76459907 4

Modelo 13 : X1, X3, X4 3 3797.895 43.6539655 9.94981116

Modelo 14 : X2, X3, X4 3 4137.784 47.5607356 18.178772

Modelo 15 : X1, X2, X3, X4 4 3510.824 40.8235349 4.99961263

Podemos observar que el coeficiente de mallows que más se asemeja a Cp = p+1, o sea 4, es el del modelo
11, que corresponde a:

ℎ𝑠𝑒𝑣𝑎𝑙 = 𝛽0 + 𝛽1 𝑆𝑖𝑧𝑒ℎ𝑠𝑒 + 𝛽2 𝑡𝑜𝑡𝑒𝑥𝑝 + 𝛽3 𝑡𝑎𝑥𝑟𝑎𝑡𝑒 + 𝑒

Siendo:

𝑆𝐶𝐸𝑅𝑒𝑑𝑢𝑐𝑖𝑑𝑜 = 3519.183, 𝐶𝑀𝐸𝐶𝑜𝑚𝑝𝑙𝑒𝑡𝑜 =40.82353488

𝑝 = 3, 𝑛 = 90

𝐶𝑝 𝑚𝑎𝑙𝑙𝑜𝑤𝑠 =3.20199012

Conclusión

En el análisis de los resultados, podemos decir que el modelo más apto, será

ℎ𝑠𝑒𝑣𝑎𝑙 = 𝛽0 + 𝛽1 𝑆𝑖𝑧𝑒ℎ𝑠𝑒 + 𝛽2 𝑡𝑜𝑡𝑒𝑥𝑝 + 𝛽3 𝑡𝑎𝑥𝑟𝑎𝑡𝑒 + 𝑒

Ya que 4 de los 6 criterios, así lo identifican.

14
c) Un economista afirmó que, dado que los datos provienen de ciudades de diferentes poblaciones, es
probable que su modelo contenga heterocedasticidad. Argumentó que los precios medios de la
vivienda de las ciudades más grandes tendrían una variación menor porque la cantidad de casas
utilizadas para calcular los precios medios de la vivienda sería mayor. Evalué los supuestos del mejor
modelo seleccionado en b), e interprete lo obtenido.
PUNTO C CON LAS 5 VARIABLES SIGNIFICATIVAS DE TODAS LAS POSTULADAS

Normalidad

Para el supuesto de normalidad aplicaremos el test de Kolmogorov-Smirnov para la cantidad de datos que
tenemos (n>50), observando la gráfica cuantil-cuantil y el histograma de los residuos.

Ho: Los residuos siguen una distribución normal

Ha: Los residuos no siguen una distribución normal

Histograma

Podemos observar que el modelo no parece estar distribuido normalmente, sin embargo, puede observarse
que algunos residuos están muy lejos de 0. Estos valores atípicos podrían indicar que el modelo no es
adecuado para todos los puntos de datos.

Gráfica Cuantil – Cuantil

15
Tal como se menciona anteriormente, podemos ver que los residuos en los extremos están fuera de la línea
de referencia, por el número de puntos que se aíslan a los extremos habría que abordar estos valores para
rectificar una distribución normal.

Como no podemos tomar una decisión, realizaremos la prueba

Test Kolmogorov-Smirnov

Rechazamos la Ho ya que el nivel de significancia está por debajo del 0.05 y D representa la discrepancia
entre las distribuciones cuando su valor es mayor. Por lo tanto, decimos que el modelo no sigue una
distribución normal.

Heterocedasticidad
Para el supuesto de heterocedasticidad, visualizaremos la gráfica, que es la variación no constante de los
errores a lo largo de los valores ajustados y realizaremos el test de Breush Pagan

Ho: No hay heterocedasticidad en los errores del modelo

Ha: Hay heterocedasticidad en los errores del modelo

Podemos observar que no es claro si hay una tendencia de los puntos en la dispersión, aunque en el gráfico
Residuals vs Leverage, podemos observar los valores de influencia más altos podrían ser los mismos puntos
de los extremos del rango de los datos.

16
Encontramos valores atípicos en la gráfica Residualas vs Fitted o puntos que están medianamente
separados de la mayoría de los puntos en el gráfico en la parte inferior, puede verificar aún más en la gráfica
Scale-Location. Podemos decir que la influencia de esos puntos que están alejados del grupo, podría causar
problemas desproporcionada en la varianza de los errores. Los cuatro gráficos apuntan a que la varianza de
los errores tiende a ser constante, o sea que a priori, podríamos decir que hay no presencia de
heterocedasticidad.

Prueba de Breusch-Pagan

Rechazamos la Ho ya que el nivel de significancia está por debajo del 0.05 y D representa la discrepancia
entre las distribuciones cuando su valor es mayor. Por lo tanto, decimos que el modelo no sigue una
distribución normal.

Podemos decir que habría un problema de heterocedasticidad considerando los valores atípicos, ya que el
modelo se desea estimar en una pequeña región y se presenta la situación que los precios medios de la
vivienda de las ciudades más grandes tendrían una variación menor porque la cantidad de casas utilizadas
para calcular los precios medios de la vivienda sería mayor.

Autocorrelación

Para el supuesto de autocorrelación vamos a realizar el test de Durbin – Watson

Ho: ρ es igual a 0

Ha: ρ es diferente de 0

Rechazamos la Ho, la verdadera autocorrelación es diferente de 0 para orden 1.

𝐷𝑊 = 2 (1 − 𝜌)=0.02678

𝜌 = 0.98661

17
Verificando la tabla de Durbin – Watson al 5% de significancia, encontramos los valores de dL y dU, con K=5
y n=90

dL=1.542

dU =1.776

Podemos ver, que en efecto ρ presenta una autocorrelación positiva.

Multicolinealidad

VIF (Factor de Inflación de la Varianza)

Recordemos que el R_j^2es el R cuadrado cuando cada regresor se vuelve la variable explicativa
1
𝑉𝐼𝐹𝑗 =
1−𝑅𝑗2

Sabemos que:

𝑀𝑢𝑙𝑡𝑖𝑐𝑜𝑙𝑖𝑛𝑒𝑎𝑙𝑖𝑑𝑎𝑑 𝐵𝑎𝑗𝑎 𝑠í 1 ≤ 𝑉𝐼𝐹𝑗 < 5

𝑀𝑢𝑙𝑡𝑖𝑐𝑜𝑙𝑖𝑛𝑒𝑎𝑙𝑖𝑑𝑎𝑑 𝑀𝑜𝑑𝑒𝑟𝑎𝑑𝑎 𝑠í 5 ≤ 𝑉𝐼𝐹𝑗 < 10

𝑀𝑢𝑙𝑡𝑖𝑐𝑜𝑙𝑖𝑛𝑒𝑎𝑙𝑖𝑑𝑎𝑑 𝐴𝑙𝑡𝑎 𝑠í 10 ≤ 𝑉𝐼𝐹𝑗

Digitando el código vif(Model1) o car ::vif(Model1) nos arroja:

Lo que indica, que los tres regresores tienen una multicolinealidad baja

PUNTO C CON LAS 4 VARIABLES DEL MODELO QUE PROPONE EL ENUNCIADO

Normalidad

Para el supuesto de normalidad aplicaremos el test de Kolmogorov-Smirnov para la cantidad de datos que
tenemos (n>50), observando la gráfica cuantil-cuantil y el histograma de los residuos.

Ho: Los residuos siguen una distribución normal

Ha: Los residuos no siguen una distribución normal

Histograma

18
Podemos observar que el modelo parece estar distribuido de manera aproximadamente normal, sin embargo,
puede observarse que algunos residuos están muy lejos de la mayoría de los demás. Estos valores atípicos
podrían indicar que el modelo no es adecuado para todos los puntos de datos, tal como lo menciona el
enunciado.

Gráfica Cuantil – Cuantil

Tal como se menciona anteriormente, podemos ver que los residuos en los extremos están fuera de la línea
de referencia, habría que abordar estos valores para rectificar una distribución normal.

Como no podemos tomar una decisión, realizaremos la prueba

Test Kolmogorov-Smirnov

Código:

Resultado:

Rechazamos la Ho ya que el nivel de significancia está por debajo del 0.05 y D representa la discrepancia
entre las distribuciones cuando su valor es mayor. Por lo tanto, decimos que el modelo no sigue una
distribución normal.

Heterocedasticidad

Para el supuesto de heterocedasticidad, visualizaremos la gráfica, que es la variación no constante de los


errores a lo largo de los valores ajustados y realizaremos el test de Breush Pagan

Ho: No hay heterocedasticidad en los errores del modelo

Ha: Hay heterocedasticidad en los errores del modelo

19
Gráfico de comportamiento de los residuos

Podemos observar que no es claro si hay una tendencia de los puntos en la dispersión, aunque en el gráfico
Residuals vs Leverage, podemos observar los valores de influencia mas altos podrían ser los mismos puntos
de los extremos del rango de los datos.

Encontramos valores atípicos o puntos que están medianamente separados de la mayoría de los puntos en el
gráfico, podemos decir que la influencia de esos puntos que están alejados del grupo, podría causar
problemas desproporcionada en la varianza de los errores.

Aunque, los cuatro gráficos apuntan a que la varianza de los errores es constante, o sea que no habría
presencia de heterocedasticidad.

Prueba de Breusch-Pagan

Testbp<-bptest(hseval ~ sizehse + totexp + taxrate, varformula = ~ fitted.values(M11) , studentize = TRUE,


data = CITIDATR)

Según el test, aceptamos la Ho, ya que el nivel de significancia se encuentra por encima del 0.05 y decimos
que no hay heterocedasticidad en los errores del modelo.

Conclusión

Puede ser que la prueba de Bresuch – Pagan no detecte la heterocedasticidad, pues visualizando los gráficos
"Residuals vs Fitted" o "Scale-Location" hay valores atípicos, lo que es una de las causas principales de
heterocedasticidad.

Evaluando cual puede ser el regresor que tiene más correlación con la varianza de los errores
20
Para ello, vamos a tomar el vector de los residuos y lo elevaremos al cuadrado y posteriormente evaluaremos
su interacción con cada una de las variables, para ver su comportamiento:

Res^2 vs sizehse

Correlación:

Res^2 vs totexp

Correlación:

Res^2 vs taxrate

21
Correlación:
Podemos proponer que la variable que más causa la varianza de los errores es taxrate.

Autocorrelación

Para el supuesto de autocorrelación vamos a realizar el test de Durbin – Watson

Ho: ρ es igual a 0

Ha: ρ es diferente de 0

Nos arroja:

Rechazamos la Ho, la verdadera autocorrelación es diferente de 0 para orden 1.

𝐷𝑊 = 2 (1 − 𝜌)=0.032643

𝜌 = 0.9836785

Verificando la tabla de Durbin – Watson al 5% de significancia, encontramos los valores de dL y dU, con K=3
y n=90

dL=1.589

dU =1.726

22
Podemos ver, que en efecto ρ presenta una autocorrelación positiva.

Multicolinealidad

VIF (Factor de Inflación de la Varianza)

Recordemos que el 𝑅𝑗2 es el R cuadrado cuando cada regresor se vuelve la variable explicativa
1
𝑉𝐼𝐹𝑗 = 1−𝑅2
𝑗

𝑀𝑢𝑙𝑡𝑖𝑐𝑜𝑙𝑖𝑛𝑒𝑎𝑙𝑖𝑑𝑎𝑑 𝐵𝑎𝑗𝑎 𝑠í 1 ≤ 𝑉𝐼𝐹𝑗 < 5

𝑀𝑢𝑙𝑡𝑖𝑐𝑜𝑙𝑖𝑛𝑒𝑎𝑙𝑖𝑑𝑎𝑑 𝑀𝑜𝑑𝑒𝑟𝑎𝑑𝑎 𝑠í 5 ≤ 𝑉𝐼𝐹𝑗 < 10

𝑀𝑢𝑙𝑡𝑖𝑐𝑜𝑙𝑖𝑛𝑒𝑎𝑙𝑖𝑑𝑎𝑑 𝐴𝑙𝑡𝑎 𝑠í 10 ≤ 𝑉𝐼𝐹𝑗

Digitando el código vif(M11) o car ::vif(M11) nos arroja:

Lo que indica, que los tres regresores tienen una multicolinealidad baja

d) Estime la ecuación de regresión múltiple utilizando mínimos cuadrados ponderados (MCP) con la
población como variable de ponderación. Compare los coeficientes de los modelos de regresión
múltiple ponderados y no ponderados, y realice la prueba de heterocedasticidad para el modelo
obtenido por MCP.

PUNTO D CON LAS 5 VARIABLES SIGNIFICATIVAS DE TODAS LAS POSTULADAS


Como escogemos la variable “Population” como variable de ponderación realizamos el siguiente código:

El resumen con Minimos Cuadrados Ponderados:

23
Resumen con Minimos Cuadrados Ordinarios:

Comparación con modelo no ponderado:

Coeficientes estimados: Los valores siguen siendo significativos y la variable Comper pasa a ser significativa
al 0%,

Error estándar residual: El valor estándar residual bajó significativamente a 0.6098 con 84 grados de
libertad, a comparación del modelo no ponderado, que su error estándar fue de 6.266 con 84 grados de libertad.
Esto sugiere que el modelo ponderado tiene una mejor capacidad para ajustarse a los datos, ya que los valores
observados están más cerca de la línea de regresión ajustada en el modelo ponderado.

Residuos ponderados:

Residuos ponderados del modelo ponderado:

24
Residuos del modelo no ponderado:

Los residuos del modelo ponderado parecen estar más centrados alrededor de cero, ya que la mediana es
cercana a cero y los valores mínimos y máximos son más pequeños en comparación con los del modelo no
ponderado.

R cuadrado: El valor de R cuadrado ajustado es ligeramente más bajo en el modelo ponderado (0.2496) en
comparación con el modelo no ponderado (0.2511). Esto nos expresa que el modelo no ponderado explica un
poco más de la variabilidad en la variable dependiente en comparación con el modelo ponderado. Sin embargo,
dado el menor error estándar residual en el modelo ponderado, podría ser más confiable en términos de ajuste
de los datos.

Prueba de heteroscedasticidad

Para el supuesto de heterocedasticidad del modelo ponderado, visualizaremos la gráficas de las distribuciones
de los residuos y realizaremos el test de Breush Pagan

Ho: No hay heterocedasticidad en los errores del modelo

Ha: Hay heterocedasticidad en los errores del modelo

Distribución de los residuos del modelo ponderado

25
Con respecto al comportamiento de residuos del modelo no ponderado, en la gráfica Residuals vs Fitted los
puntos se concentran más hacia la línea de referencia, es decir, están menos dispersos. Aunque sigue
habiendo presencia de puntos atípicos. En la gráfica Q-Q residuals, los puntos que se encuentran a los
extremos, intentan seguir un comportamiento menos acorde a la línea de referencia y se despegan de ella de
forma ligera. En cuanto a la gráfica de Residuals vs Leverage, podemos ver que la frecuencia de los errores
se encuentra de manera más densa en el el grupo del modelo ponderado.

Encontramos valores atípicos en varios casos, que, quizás corrigiendo este problema, el modelo pueda subir
el R cuadrado. Aunque, los cuatro gráficos apuntan a que hubo una mejora con la ponderación, tal cual
como lo explica el enunciado con la población, pues podemos ver que la varianza de los errores es constante,
o sea que no habría presencia de heterocedasticidad.

Aplicamos la prueba de Breush Pagan nuevamente

Aceptamos la Ho, indica que el modelo presenta una homocedasticidad bastante alta, incluso mejor a la del
modelo no ponderado.

PUNTO D CON LAS 4 VARIABLES DEL MODELO QUE PROPONE EL ENUNCIADO

Como escogemos la variable “Population” como variable de ponderación realizamos el siguiente código:

peso<- 1/sqrt(CITIDATR$Population), ya que el peso es lo que será multiplicado por cada variable del
modelo.

Realizamos el modelo con Minimos Cuadrados Ponderados con el siguiente código:

Y obtenemos el siguiente resumen:

Comparación con modelo no ponderado:

26
Coeficientes estimados: Los valores de cada coeficiente no cambian mucho, la variable totexp deja de ser
significativa al 0.05.

Error estándar residual: El valor estándar residual bajó significativamente a 0.6302 con 86 grados de
libertad, a comparación del modelo no ponderado, que su error estándar fue de 6.397 con 86 grados de
libertad. Esto sugiere que el modelo ponderado tiene una mejor capacidad para ajustarse a los datos, ya que
los valores observados están más cerca de la línea de regresión ajustada en el modelo ponderado.

Residuos ponderados:

Distribucipin de los residuos del modelo ponderado

Distribución de los residuos del modelo no ponderado:

Los residuos del modelo ponderado parecen estar más centrados alrededor de cero, ya que la mediana es
cercana a cero y los valores mínimos y máximos son más pequeños en comparación con los del modelo no
ponderado.

R cuadrado: El valor de R cuadrado ajustado es ligeramente más bajo en el modelo ponderado (0.1986) en
comparación con el modelo no ponderado (0.2194). Esto nos expresa que el modelo no ponderado explica un
poco más de la variabilidad en la variable dependiente en comparación con el modelo ponderado. Sin embargo,
dado el menor error estándar residual en el modelo ponderado, podría ser más confiable en términos de ajuste
de los datos.

Prueba de heteroscedasticidad

Para el supuesto de heterocedasticidad del modelo ponderado, visualizaremos la gráficas de las distribuciones
de los residuos y realizaremos el test de Breush Pagan

Ho: No hay heterocedasticidad en los errores del modelo

Ha: Hay heterocedasticidad en los errores del modelo

27
Gráfica de comportamiento de los residuos

Modelo ponderado

Modelo no ponderado

Interpretación:

Con respecto al comportamiento de residuos del modelo no ponderado, en la gráfica Residuals vs Fitted los
puntos se unen un poco más hacia la línea de referencia, es decir, están menos dispersos. Aunque sigue
habiendo presencia de puntos atípicos. En la gráfica Q-Q residuals, los puntos que se encuentran a los
extremos, intentan seguir un comportamiento más acorde a la línea de referencia y se despegan de ella de
28
forma ligera. En cuanto a la gráfica de Residuals vs Leverage, podemos ver que la frecuencia de los errores
se encuentra de manera más densa en el el grupo del modelo ponderado.

Encontramos valores atípicos en varios casos, que, quizás corrigiendo este problema, el modelo pueda subir
el R cuadrado. Aunque, los cuatro gráficos apuntan a que hubo una mejora con la ponderación, tal cual
como lo explica el enunciado con la población, pues podemos ver que la varianza de los errores es constante,
o sea que no habría presencia de heterocedasticidad.

Aplicamos la prueba de Breush Pagan nuevamente

Aceptamos la Ho, indica que el modelo presenta una homocedasticidad bastante alta, incluso mejor a la del
modelo no ponderado.

2. Los siguientes modelos fueron calculados utilizando los datos de 1998 de la Encuesta Actualizada
de Población (CPS). La base de datos consta de información sobre 4.000 trabajadores a tiempo
completo durante todo el año. El mayor grado educativo alcanzado por cada trabajador es o bien un
diploma de escuela secundaria o bien un título de licenciatura. El rango de edades de los trabajadores
oscila entre los 25 y los 34 años. La base de datos asimismo contiene información sobre la región del
país donde reside la persona, el estado civil y el número de hijos. A los efectos de estos ejercicios,
sean:

IMH = ingresos medios por hora (en dólares de 1998).


Universidad = variable binaria (1 si titulado en universidad, 0 si titulado escuela secundaria). Femenino =
variable binaria (1 si es mujer, 0 si hombre).
Edad = edad (en años).
Noreste variable binaria (1 si Región = Noreste, 0 en caso contrario).
Centro-Oeste = variable binaria (1 si Región = Centro-Oeste, 0 en caso contrario).
Sur = variable binaria (1 si Región = Sur, 0 en caso contrario).
Oeste = variable binaria (1 si Región = Oeste, 0 en caso contrario)

29
a. Calcule para cada una de las regresiones y sus ANOVAS correspondientes (ESR,
corresponde a la Suma de Cuadrados del Error). Interprete los resultados obtenidos.

(1 − 𝑅 2 )(𝑛 − 1)
𝑅 2 𝑎𝑑𝑗 = 1 −
𝑛−𝑘−1
(1 − 0,176)(4000 − 1)
𝑅 2 𝑎𝑑𝑗 = 1 − = 0,175
4000 − 2 − 1
𝑆𝑅𝐶 6,27
𝑆𝑇𝐶 = 2
= = 7,609
1−𝑅 1 − 0,176
𝑆𝐸𝐶 = 𝑆𝑇𝐶 − 𝑆𝑅𝐶 = 7,609 − 6,27 = 1,339

𝑅 2 /(𝑝 − 1) 0,176/(3 − 1)
𝐹𝐶 = 2
= = 426,864
(1 − 𝑅 )/(𝑛 − 𝑝) (1 − 0,176)/(4000 − 3)

Se calcula el valor crítico de la distribución F de fisher, por medio de excel, para los grados de libertad
correspondientes y una significancia de 1 ∗ 10−13 , obteniendo un valor de 30,158; de lo cual se concluye
que el modelo presenta significancia global.

𝑆𝐸𝐶 1,339
𝑀𝑆𝐸 = = =0,669
𝑝−1 3−1

𝑆𝑅𝐶 6,27
𝑀𝑆𝑅 = = = 0,001
𝑛 − 𝑝 4000 − 3

ANOVA

Suma de Promedio
cuadrados DF cuadrado Fc Significancia

Explicada 1,339223301 2 0,6696116505 426,8640777 1,00E-13

0,00156867650
Residual 6,27 3997 7

Total 7,609223301 3999

Se repite el mismo procedimiento para las otras dos regresiones:

30
ANOVA

Suma de Promedio
cuadrados DF cuadrado Fc Significancia

Explicada 1,459012346 3 0,4863374486 312,4444444 1,00E-13

0,00155655655
Residual 6,22 3996 7

Total 7,679012346 3999

ANOVA

Suma de Promedio
cuadrados DF cuadrado Fc Significancia

Explicada 1,49471464 6 0,2491191067 160,1823821 1,00E-13

0,00155522163
Residual 6,21 3993 8

Total 7,70471464 3999

b. Utilizando los resultados de la regresión de la columna (1):

● ¿Ganan más los trabajadores con títulos universitarios en promedio que los
trabajadores con tan solo grado de secundaria? ¿Cuánto más?

Tomando en cuenta la forma funcional trabajada en la primera regresión:


̂ = 12,69 + 5,46𝑥1 − 2,64𝑥2
𝐼𝑀𝐻

Y sabiendo que la variable “universidad” representa una variable binaria: 1 cuando la persona cuenta con un
título universitario, 0 cuando no. Si partimos del supuesto “Ceteris paribus” (Siendo el resto de las cosas
iguales), decimos que los ingresos medios por hora son mayores cuando la persona cuenta con un título
universitario. Puesto que, cuando no es así, el término correspondiente de la variable toma el valor de 0, por
lo tanto no aporta valor; mientras que, como el signo de su estimador es positivo, cuando esta es 1, se le
suma el valor de su respectivo coeficiente; queriendo decir que, en promedio, una persona que tiene título
universitario gana 5,46 dólares por hora más que las que no.

c. Utilizando los resultados de la regresión de la columna (2):

● ¿Es la edad un determinante importante para los ingresos? Explíquelo.

31
Dado que no conocemos los errores estándar de los estimadores, que serían el insumo ideal para realizar una
prueba de significancia individual para una variable en específico y poder determinar su relevancia,
utilizamos, en su lugar, el siguiente estadístico de prueba:

(𝑅 2 2 − 𝑅 21 )/(𝑝2 − 𝑝1 ) (0,19 − 0,176)/(4 − 3)


𝐹𝑐 = = = 69,066
(1 − 𝑅 2 2 )/(𝑛 − 𝑝2 ) (1 − 0,19)/(4000 − 4)

Donde el modelo 2 es el modelo que estamos poniendo a prueba con respecto al modelo 1, mediante la
siguiente prueba de hipótesis:

- 𝐻0 : La adición de la variable edad (presente en el modelo 2 pero no en el 1) no es


significativa estadísticamente

- 𝐻1 : La adición de la variable edad (presente en el modelo 2 pero no en el 1) es


significativa estadísticamente.

- Regla de decisión: Si el F calculado es mayor al valor crítico de la distribución F de


fisher con 𝑝2 − 𝑝1 grados de libertad del numerador, 𝑛 − 𝑝2 grados de libertad del
denominador y el determinado nivel de confianza y/o significancia, se rechaza 𝐻0 .

Se utiliza el excel para calcular el valor crítico de la distribución F de fisher para los correspondientes grados
de libertad y una significancia de 1 ∗ 10−13 , obteniendo un valor de 55,757; de lo cual se concluye que
existe evidencia estadística suficiente de que la adición de la variable edad es significativa.

● Sally es una mujer titulada universitaria de 27 años de edad. Betsy es una mujer titulada
universitaria de 32 años de edad. Prediga los ingresos de Sally y los de Betsy.

Ingresos de Sally:
̂ = 4,4 + 5,48(1) − 2,62(1) + 0,29(27) = 15,09
𝐼𝑀𝐻

Ingresos de Betsy:
̂ = 4,4 + 5,48(1) − 2,62(1) + 0,29(32) = 16,54
𝐼𝑀𝐻

Se puede comentar que es gracias a la edad mayor de Betsy que se pronostica unos ingresos ligeramente
superiores para ella.

d. Utilizando los resultados de regresión de la columna (3):

● ¿Parece que existen diferencias regionales importantes?

Nuevamente proponemos el mismo estadístico de prueba, pero esta vez poniendo a prueba el modelo 3 con
respecto al 2:

(𝑅 2 3 − 𝑅 2 2 )/(𝑝3 − 𝑝2 ) (0,194 − 0,19)/(7 − 4)


𝐹𝑐 = = = 6,605
(1 − 𝑅 2 3 )/(𝑛 − 𝑝3 ) (1 − 0,194)/(4000 − 7)

Y aplicamos la siguiente prueba de hipótesis:

32
- 𝐻0 : La adición de las variables Noreste, centro-oeste y sur (presentes en el modelo 3
pero no en el 2) no es significativa estadísticamente

- 𝐻1 : La adición de las variables Noreste, centro-oeste y sur (presentes en el modelo 3


pero no en el 2) es significativa estadísticamente

- Regla de decisión: Si el F calculado es mayor al valor crítico de la distribución F de


fisher con 𝑝3 − 𝑝2 grados de libertad del numerador, 𝑛 − 𝑝3 grados de libertad del
denominador y el determinado nivel de confianza y/o significancia, se rechaza 𝐻0 .

Se utiliza el excel para calcular el valor crítico de la distribución F de fisher para los correspondientes grados
de libertad y una significancia de 0,01, obteniendo un valor de 3,786; de lo cual se concluye que existe
evidencia estadística suficiente de que la adición de las variables Noreste, centro-oeste y sur es significativa.

● ¿Por qué se ha omitido la variable explicativa Oeste de la regresión? ¿Qué sucedería si se


incluyese?

La razón por la cual se deja una variable base o de referencia fuera del modelo es para evitar la
multicolinealidad perfecta. Esto ocurre cuando una de las variables independientes es una combinación
lineal exacta de otras. Si incluyéramos una variable dummy para cada categoría, incluida la categoría base,
terminaríamos con un conjunto de variables que suman perfectamente a 1 en cada observación, lo que
significa que una de las variables puede ser predicha sin error a partir de las otras.

Por ejemplo, si alguien no vive en el sur, ni en el norte, ni en el centro-oeste, sabemos con certeza que vive
en el oeste.

Esto causaría problemas en la estimación de los coeficientes del modelo, ya que los métodos estadísticos
estándar, como los mínimos cuadrados ordinarios (MCO), no podrían determinar valores únicos para los
coeficientes de las variables predictoras debido a la redundancia.

Al omitir una variable dummy (la categoría base), permitimos que el modelo tenga un punto de comparación
y evitamos la multicolinealidad perfecta. Los coeficientes de las variables dummy restantes se interpretarán
en relación con la categoría base.

● Juanita es una mujer titulada universitaria de 26 años de edad de la región Sur. Jennifer es
una mujer de 26 años de edad, titulada universitaria de la región Centro-Oeste. Calcule la
diferencia esperada entre los ingresos de Juanita y los de Jennifer.

Ingresos de Juanita:
̂ = 3,75 + 5,44(1) − 2,62(1) + 0,29(26) + 0,69(0) + 0,6(0) − 0,27(1)
𝐼𝑀𝐻

= 13,84

Ingresos de Jennifer
̂ = 3,75 + 5,44(1) − 2,62(1) + 0,29(26) + 0,69(0) + 0,6(1) − 0,27(0)
𝐼𝑀𝐻

= 14,71

En promedio se espera que Jennifer gane 0,87 dólares u 87 centavos por hora más que Juanita; esto es
atribuible básicamente al hecho de que Jennifer vive en el centro-oeste mientras que Juanita al sur.
33
3. Considere los siguientes datos:

Año, X Velocidad Medio que alcanzo


m.p.h., Y
la velocidad

1830 30 Tren

1905 130 Tren

1930 400 Aeroplano

1947 760 Aeroplano

1952 1500 Aeroplano

1969 25000 Nave Espacial

2006 36260.74 Sonda Espacial NH

2016 164998.906 Sonda Espacial Juno

2018 394570.707 Sonda Espacial Parker

a. Grafique Y vs. X. ¿El gráfico informa algo, sí o no y por qué?


b. Transforme los datos por Z = logY y grafique los puntos. ¿Es el gráfico mejor al anterior, sí o no? ¿Por
qué?
c. ¿Puede encontrar una transformación simple razonable U = f(Y), cual produce (más o menos) un gráfico
de una línea recta para los puntos (X, U)?
d. Cualquiera que sea su conclusión en el punto c. grafique los puntos (X, V) donde V = log(logY)) ajuste
una línea recta V = 0 + 1X +  ., usando mínimos cuadrados. Dibuje la línea ajustada en su gráfica (X,
V). Encuentre los residuales y comente sobre ellos.
e. Encuentre el análisis de varianza apropiado para el punto d., pruebe toda la regresión y encuentre R 2
comente apropiadamente.
f. Use la línea recta ajustada del punto d., para predecir cuando el hombre alcanzará la velocidad de la luz
(186000 millas/seg).
g. Discuta la racionalidad de otra forma para su predicción. ¿De qué suposiciones depende? ¿Si siente que
su predicción es real o no?; Establezca sus razones cuidadosamente.

34
Solución

a. Grafique Y vs. X. ¿El gráfico informa algo, sí o no y por qué?

El gráfico muestra la relación entre el año (eje X) y la velocidad máxima alcanzada (eje Y) a lo largo del
tiempo. Este gráfico sí informa algo importante:

1. La relación entre el año y la velocidad máxima no es lineal. Se observa un patrón de crecimiento


exponencial, especialmente a partir de la década de 1930 en adelante.
2. Inicialmente, la velocidad máxima aumentó lentamente, probablemente limitada por las
tecnologías de transporte terrestre (trenes). Sin embargo, a partir de la década de 1930, con la
llegada de los aviones, se produjo un aumento más pronunciado en la velocidad máxima alcanzada.
3. El crecimiento se volvió aún más drástico a partir de la década de 1960, posiblemente impulsado
por los avances en la tecnología espacial y el desarrollo de naves y sondas espaciales.
4. El gráfico sugiere que la velocidad máxima ha seguido un patrón de crecimiento exponencial a lo
largo del tiempo, probablemente impulsado por avances tecnológicos en diferentes medios de
transporte (terrestre, aéreo y espacial).

Código utilizado:

library(ggplot2)
ggplot(datos, aes(x = ano, y = velocidad)) +

geom_point() +
35
geom_line(color = "red") +

labs(x = "Año", y = "Velocidad (m.p.h.)") +

scale_y_continuous(labels = scales::comma, breaks = seq(0, 400000, by = 50000)) +

scale_x_continuous(breaks = c(1830, 1905, 1930, 1947, 1952, 1969, 2006, 2016, 2018)) +

ggtitle("Velocidad máxima alcanzada a través del tiempo") +

theme(plot.title = element_text(hjust = 0.5, size = 14, face = "bold")) +

theme(axis.text.x = element_text(angle = 60, hjust = 1))

b. Transforme los datos por Z = logY y grafique los puntos. ¿Es el gráfico mejor al anterior, sí o
no? ¿Por qué?

Este gráfico muestra la relación entre el año (eje X) y el logaritmo natural de la velocidad máxima
alcanzada (eje Y).
Al compararlo con el gráfico anterior de Y vs. X, se puede observar que esta transformación
logarítmica produce un patrón mucho más lineal. Los puntos ahora siguen una tendencia
aproximadamente lineal, a diferencia del patrón exponencial observado en el gráfico anterior.
Por lo tanto, este gráfico de la transformación logarítmica es mejor que el gráfico anterior por las
siguientes razones:

36
1. La relación entre el año y log(Velocidad) es más lineal, lo que facilitará el ajuste de un modelo de
regresión lineal simple.
2. El patrón lineal sugiere que la velocidad máxima crece exponencialmente con respecto al año, lo cual
es coherente con la observación del gráfico anterior.
3. La transformación logarítmica comprime los valores más altos de velocidad, lo que permite visualizar
mejor los datos y detectar patrones más fácilmente.
4. Un patrón lineal es más fácil de modelar y analizar que un patrón exponencial o no lineal.

Código utilizado:

datos$z <- log(velocidad)

ggplot(datos, aes(x = ano, y = z)) +

geom_point() +

geom_line(color = "red") +

labs(x = "Año", y = "log(Velocidad)") +

scale_y_continuous(labels = scales::comma) +

scale_x_continuous(breaks = c(1830, 1905, 1930, 1947, 1952, 1969, 2006, 2016, 2018)) +

ggtitle("Transformación logarítmica de la velocidad máxima alcanzada") +

theme(plot.title = element_text(hjust = 0.5, size = 14, face = "bold")) +

theme(axis.text.x = element_text(angle = 60, hjust = 1))

37
c. ¿Puede encontrar una transformación simple razonable U = f(Y), cual produce (más o menos)
un gráfico de una línea recta para los puntos (X, U)?

Para este caso se probaron 3 transformaciones:

𝐔 = 𝐥𝐨𝐠(𝐘)

• Esta es la transformación logarítmica simple que se realizó anteriormente.


• El gráfico muestra una relación aproximadamente lineal, pero con una curvatura más evidente que en
las transformaciones de potencias fraccionarias.
• La escala logarítmica comprime los valores más grandes de velocidad, pero no tanto como las
transformaciones de potencias fraccionarias.

38
𝟏
𝐔 = 𝐘𝟑

• Esta transformación eleva la velocidad a la potencia 1/3, lo que comprime la escala de


velocidad.
• El gráfico resultante muestra una relación más lineal que el gráfico original de Velocidad vs.
Año, especialmente en los años más recientes.
• Sin embargo, todavía se observa cierta curvatura en los datos, particularmente en los primeros
años.

39
𝟏
𝐔 = 𝐘𝟒

• Esta transformación eleva la velocidad a la potencia 1/4, lo que comprime aún más la escala de
velocidad en comparación con la transformación anterior.
1
• El gráfico resultante muestra una relación aún más lineal que la transformación Velocidad3 .
• La curvatura en los primeros años es menos pronunciada, lo que sugiere que esta
transformación logra linealizar mejor los datos en todo el rango de años.
1 1
Probamos con esas transformaciones específicas de U = log(Y), U = Y 3 y U = Y 4 por las
siguientes razones:

𝐔 = 𝐥𝐨𝐠(𝐘):
La transformación logarítmica es una transformación muy común utilizada para linealizar relaciones
que parecen crecer exponencialmente. Cuando los datos muestran un crecimiento exponencial, tomar
el logaritmo puede convertirlos en una relación aproximadamente lineal.
𝟏 𝟏
𝐔 = 𝐘𝟑 y 𝐔 = 𝐘𝟒:
Estas transformaciones de potencias fraccionarias a menudo se utilizan cuando los datos muestran un
crecimiento de tipo potencia. Si la relación entre Y y X sigue una ley de potencia de la forma Y =
1
aX b , entonces tomar Y b linealiza la relación.

40
En este caso particular, los datos de velocidad parecían estar creciendo a un ritmo mucho más rápido
que lineal o exponencial. Por lo tanto, transformar con potencias fraccionarias como 1/3 o 1/4 podría
ayudar a linealizar la relación.

Comenzamos con log(Y) porque es una transformación común, pero dado que no linealizó
completamente los datos, seguimos probando con potencias fraccionarias más extremas como 1/3 y
1/4 para ver si se podía capturar mejor el rápido crecimiento de las velocidades.

Código utilizado:
datos$u <- log(datos$velocidad)

ggplot(datos, aes(x = ano, y = u)) +


geom_point() +
geom_line(color = "red") +
labs(x = "Año", y = "log(Velocidad)") +
scale_x_continuous(breaks = c(1830, 1905, 1930, 1947, 1952, 1969, 2006, 2016, 2018)) +
ggtitle("log(Velocidad) vs. Año") +
theme(plot.title = element_text(hjust = 0.5, size = 14, face = "bold")) +
theme(axis.text.x = element_text(angle = 60, hjust = 1))

# Y^1/3
datos$u <- velocidad^(1/3)

ggplot(datos, aes(x = ano, y = u)) +


geom_point() +
geom_line(color = "red") +
labs(x = "Año", y = "Velocidad^(1/3)") +
scale_x_continuous(breaks = c(1830, 1905, 1930, 1947, 1952, 1969, 2006, 2016, 2018)) +
ggtitle("Velocidad^(1/3) vs. Año") +
theme(plot.title = element_text(hjust = 0.5, size = 14, face = "bold")) +
theme(axis.text.x = element_text(angle = 60, hjust = 1))

# Y^1/4
datos$u <- velocidad^(1/4)

ggplot(datos, aes(x = ano, y = u)) +


geom_point() +
geom_line(color = "red") +
labs(x = "Año", y = "Velocidad^(1/4)") +
scale_x_continuous(breaks = c(1830, 1905, 1930, 1947, 1952, 1969, 2006, 2016, 2018)) +
ggtitle("Velocidad^(1/4) vs. Año") +
theme(plot.title = element_text(hjust = 0.5, size = 14, face = "bold")) +
theme(axis.text.x = element_text(angle = 60, hjust = 1))

41
d. Cualquiera que sea su conclusión en el punto c. grafique los puntos (X, V) donde V = log(logY))
ajuste una línea recta, usando mínimos cuadrados. Dibuje la línea ajustada en su gráfica (X, V).
Encuentre los residuales y comente sobre ellos.

Ajustar una línea recta usando mínimos cuadrados:

42
Gráfica con la línea ajustada:

Residuos:

• Los residuos oscilan entre valores positivos y negativos, lo que es esperado en un modelo de regresión
lineal. Valores positivos indican que el modelo subestima el valor observado, mientras que valores
negativos indican sobreestimación.
• El residuo más grande en valor absoluto es 0.175490472, correspondiente a la observación 6 (año
1969). Esto sugiere que el modelo tiene dificultades para ajustarse adecuadamente a ese punto, ya sea
por un valor inusualmente alto o bajo de la velocidad observada en ese año.
• Los residuos más pequeños en valor absoluto, como -0.027122415 (observación 5, año 1952) y
0.006663767 (observación 8, año 2016), indican un ajuste relativamente bueno del modelo para esos
puntos.
• En general, los residuos más grandes parecen concentrarse en los años más recientes (observaciones
7, 8 y 9), lo que sugiere que el modelo lineal tiene dificultades para capturar adecuadamente la
tendencia en ese rango de años.
• Sin embargo, los residuos no muestran un patrón sistemático claro, lo que indicaría que no hay
violaciones graves de los supuestos del modelo de regresión lineal, como heterocedasticidad o
autocorrelación.

Código utilizado:
43
datos$v <- log(log(datos$velocidad))

# Ajustar una línea recta usando mínimos cuadrados

modelo <- lm(v ~ ano, data = datos)

summary(modelo)

# Gráfica con la línea ajustada

ggplot(datos, aes(x = ano, y = v)) +

geom_point() +

geom_line(aes(y = predict(modelo)), color = "red") +

labs(x = "Año", y = "log(log(Velocidad))") +

scale_x_continuous(breaks = c(1830, 1905, 1930, 1947, 1952, 1969, 2006, 2016, 2018)) +

ggtitle("log(log(Velocidad)) vs. Año con línea ajustada") +

theme(plot.title = element_text(hjust = 0.5, size = 14, face = "bold")) +

theme(axis.text.x = element_text(angle = 60, hjust = 1))

# Residuos

residuos <- resid(modelo)

print(residuos)

e. Encuentre el análisis de varianza apropiado para el punto d., pruebe toda la regresión y
encuentre comente apropiadamente.

Anova:

44
La salida del ANOVA muestra:

• La suma de cuadrados totales, la suma de cuadrados del modelo y la suma de cuadrados


residual.
• Los grados de libertad asociados a cada componente.
• El estadístico F y su valor p para probar la significancia del modelo.

En este caso, el valor p es muy pequeño (cercano a cero), lo que indica que el modelo de regresión
lineal es estadísticamente significativo y que la variable explicativa ano tiene un efecto significativo
sobre la variable respuesta v = log(log(velocidad)).
El valor de 𝑅 2 (coeficiente de determinación) es de aproximadamente 0.9574971 lo que sugiere que el
modelo lineal ajustado explica alrededor del 95.74% de la variabilidad observada en v. Sin embargo,
como mencionamos anteriormente, los residuos muestran que el modelo tiene dificultades para
ajustarse a los datos en los años más recientes.

f. Use la línea recta ajustada del punto d., para predecir cuando el hombre alcanzará la velocidad
de la luz (186000 millas/seg).

• Según el modelo lineal ajustado, se espera que la velocidad de la luz se alcance alrededor del
año 2061.
• Sin embargo, esta predicción debe tomarse con precaución, ya que el modelo lineal tiene
dificultades para ajustarse a los datos en los años más recientes, como se evidenció en los
residuos.
• Además, es posible que la relación entre la velocidad y el año no siga siendo lineal a medida
que se alcancen velocidades cercanas a la de la luz, lo que invalidaría las suposiciones del
modelo lineal.

Código utilizado:

velocidad_luz <- 186000 # millas/seg

# Transformar la velocidad de la luz a la misma escala que los datos

v_luz <- log(log(velocidad_luz))

# Obtener el año predicho utilizando el modelo ajustado

ano_predicho <- (v_luz - coef(modelo)[1]) / coef(modelo)[2]


print(paste("El hombre alcanzará la velocidad de la luz en el año", round(ano_predicho)))

45
g. Discuta la racionalidad de otra forma para su predicción. ¿De qué suposiciones depende? ¿Si
siente que su predicción es real o no?; Establezca sus razones cuidadosamente.

La racionalidad de la predicción obtenida depende de varias suposiciones:

• Suposición de linealidad: El modelo asume que la relación entre v = log(log(velocidad)) y el año


es lineal. Esta suposición podría no ser válida, especialmente a medida que se alcancen velocidades
más altas cercanas a la de la luz.
• Suposición de continuidad: El modelo asume que el patrón observado en los datos históricos
continuará en el futuro. Sin embargo, podrían ocurrir eventos o avances tecnológicos disruptivos
que cambien drásticamente la trayectoria de las velocidades alcanzadas.
• Suposición de extrapolación: El modelo está extrapolando más allá del rango de datos observados,
lo que siempre conlleva incertidumbre y riesgos.
• Suposición de escala: El modelo asume que la transformación v = log(log(velocidad)) es apropiada
para linealizar los datos. Sin embargo, puede haber otras transformaciones más adecuadas.
• Suposición de precisión: El modelo asume que los datos históricos de velocidad son precisos y no
contienen errores significativos.

Estas suposiciones se suman a las previamente mencionadas:

• Continuidad del Progreso Tecnológico: La predicción asume que la tecnología seguirá avanzando
a un ritmo que permitirá alcanzar velocidades cada vez mayores.
• Ausencia de Limitaciones Físicas: Ignora las leyes físicas que limitan la velocidad a la que pueden
viajar los objetos con masa.
• Exactitud del Modelo: Supone que el modelo lineal es una representación precisa de la relación
entre el año y la velocidad, lo cual es una simplificación excesiva.

Estas suposiciones en conjunto cuestionan la validez de la predicción de alcanzar la velocidad de la luz en


el año 2018. Desde un punto de vista científico, tal predicción es claramente irracional, ya que estamos en
el año 2024 y sabemos que no se ha alcanzado la velocidad de la luz. Además, según nuestra comprensión
de la física, específicamente la teoría de la relatividad de Einstein, alcanzar o superar la velocidad de la
luz es actualmente imposible.

46

También podría gustarte