Taller 2 Econometria
Taller 2 Econometria
ECONOMETRÍA
TALLER 2
GRUPO 63
FECHA: 15/05/2024
FACULTAD DE INGENIERÍA
1
UNIVERSIDAD DISTRITAL FRANCISCO JOSE DE CALDAS
INGENIERIA CATASTRAL Y GEODESIA
ECONOMETRIA
Taller 2 2024-I
1. El archivo de datos CITYDATR.xlsx contiene una base de datos de secciones transversales para el análisis
de proyectos. El archivo contiene datos de 45 ciudades no metropolitanas de Minnesota durante dos años
consecutivos. Los datos se recopilaron como parte de un proyecto de investigación para determinar el
efecto del crecimiento económico en los gastos de la ciudad local, las tasas impositivas y el valor de la
vivienda. El archivo contiene un total de 90 observaciones.
El administrador de una ciudad pequeña le ha pedido que identifique las variables que influyen en el valor
medio de mercado de las casas en las ciudades pequeñas del medio oeste. Ha obtenido datos de varias
ciudades pequeñas, que se almacenan en el archivo de datos CITYDATR.xlsx, con variables descritas
previamente. Las variables predictoras candidatas son el tamaño medio de la casa (sizehse), la tasa del
impuesto a la propiedad (taxrate; exacción fiscal dividida por la tasación total), los gastos totales en
servicios de la ciudad (totexp) y el porcentaje de propiedad comercial (comper).
a) Estime el modelo de regresión múltiple utilizando todas las variables predictoras indicadas.
Seleccione solo variables estadísticamente significativas para su ecuación final e interprete.
Cómo el modelo de regresión trata de identificar las variables que influyan en el valor medio de mercado de
la casa, en efecto, las variables candidatas son las que entran en contexto. Deducimos que nuestra variable
dependiente será el valor de mercado por residencia ocupada por el propietario(hseval).
Para estimar el modelo de regresión múltiple adecuado deberemos reconocer las variables que son
estadísticamente significativas. En primera instancia, haremos el siguiente código para que nos realice un
modelo de regresión múltiple inicial con las variables candidatas que se nombran en el enunciado:
2
Lo que nos arroja el siguiente resumen, con el análisis de varianza, estadísticas de la regresión y los
coeficientes de cada regresión con el intercepto:
Puede observarse que la significancia, es decir, el P-value de cada regresor para que sea significativo con una
probabilidad del 95%, tendrá que ser inferior a 0.05, por lo que las variables taxrate y Comper no cumplen
con este requisito.
Luego de esto, haremos nuevamente el modelo con las variables totexp (los gastos totales en servicios de la
ciudad), sizehse (habitaciones medianas por casa ocupada por el propietario).
3
Interpretación.
Del resumen que acabamos de tener de las variables significativas, podemos observar que siguen conservando
su significancia, pero tenemos varios estadísticos y datos que nos señalan Ho:el modelo no ajusta los datos,
Ha: el modelo ajusta los datos. Por eso vamos a describir los siguientes factores que llaman la atención:
1. Parámetros estimados:
Se puede observar que para la variable totexp, su coeficiente estimado, tanto en el modelo inicial, con
todas las variables predictoras, como en el segundo modelo da cero, esto porque seguramente no hay
correlación entre el regresor y la variable dependiente.
Viendo su gráfica de dispersión entre la variable totexp y la variable hseval plantea una relación
dispersa, en la que no se sabe si existe una correlación entre este regresor y la variable dependiente.
Esto lo vamos a averiguar viendo la correlación numérica.
En el caso gráfico de dispersión entre el regresor sizehse y hseval, se puede observar que tienen una
relación ascendente, con poca dispersión, exceptuando los puntos encerrados en rojo. Pero si
hacemos una línea de regresión, podrían considerarse como atípicos.
5
3. F estadístico:
Cómo tenemos que el valor de F es relativamente bajo, pero aún así el P-value se mantiene por
debajo del 0.05. Viendo la formula de Fcalculado:
𝑅 2 /𝑝 − 1
𝐹𝑐 =
(1 − 𝑅 2 )/𝑛 − 𝑝
0.219/3 − 1
𝐹𝑐 =
(1 − 0.219)/90 − 3
𝐹𝑐 =12.197
Y el Ftabla nos da: 3.10130, lo que indica que Fc es mayor a Ft, se rechaza la Ho, y el modelo se
consideraría significativo para sugerir que el modelo de regresión explica una parte significativa de
la variabilidad en la variable dependiente.
4. R cuadrado bajo:
Para corroborar que el modelo no es bueno, siendo el R^2 es 0.219, indica que aproximadamente el
22% de la variabilidad de hseval (valor de mercado por residencia ocupada por el propietario), se
explica por sizehse (habitaciones medianas por casa ocupada por el propietario) y totexp (Gastos
totales actuales del gobierno de la ciudad). El R^2 ajustado es de 20%, es más confiable porque la
Suma de Cuadrados del Error y la Suma de Cuadrados Total se dividen por sus grados de libertad, lo
que da un mejor ajuste al modelo.
Todo lo anterior apunta hacia un problema de heterocedasticidad dada la interpretación de los resultados que
nos arroja el modelo, sobre todo en la estimación de los parámetros y la correlación entre las variables
regresoras con la variable dependiente.
2
b) A partir de la información suministrada, realice una selección de variables (emplee los criterios: Radj ,
Información de Akaike, Schwarz, SCE, coeficiente de Amemiya y Cp-Mallows).
SCE 2 p
, SC = ln(n) + ln
SCE p SCE
Donde; Amemiya = *(n + p) , AIC = ln +
n− p n n n n
Partiendo de todas las variables para estimar hseval (valor de mercado por residencia ocupada por el
propietario) son:
X1 = sizehse
X2 = totexp
X3 = taxrate
X4 = Comper
X5 = taxbase
X6= Population
X7=Income
X8=Taxhse
X8= Homper
X9= Rentper
6
X10 = Indper
X11= Utilper
X12=Year
X13=county
X14=city
Para el modelo quedarían sizehse, Comper, Homper, Rentper, Indper y Utilper. Al probar el modelo, nos da
lo siguiente:
7
El modelo quedaría de la siguiente manera:
PUNTO 1
Regresor Intercepto X1 = sizehse X4 = Comper X8 = Homper X10 = Indper X11= Utilper
1. X1 (sizehse) -47.437 12.179
2. X4 (Comper) 21.248 -12.168
3. X8 (Homper) 15.633 5.644
4. X10 (Indper) 21.248 -12.168
5. X11 (Utilper) 19.281 -0.387
6. X1, X4 -47.866 12.234 0.762
7. X1, X8 -47.3 12.501 -2.948
8. X1, X10 -42.525 11.409 -9.72
9. X1, X11 -48.388 12.373 -7.24
10. X4, X8 19.574 -10.518 2.18
11. X4, X10 23.248 -15.634 -20.169
12. X4, X11 21.292 -12.284 -1.636
13. X8, X10 23.397 -4.044 -21.203
14. X8, X11 15.071 6.422 3.858
15. X10, X11 53.287 -18.468 -2.014
16. X1, X4, X8 -46.361 12.436 -1.628 -3.439
17. X1, X4, X10 -41.196 11.231 -2.032 -10.087
18. X1, X4, X11 -48.625 12.404 0.427 -7.213
19. X1, X8, X10 -38.751 11.986 -10.027 -16.268
20. X1, X8, X11 -48.67 13.102 -5.654 -11.381
21. X1, X10, X11 -43.45 11.602 -9.888 -7.684
22. X4, X8, X10 44.941 -38.522 -25.605 -40.623
23. X4, X8, X11 19.579 -10.524 2.174 -0.02
24. X4, X10, X11 23.371 -15.937 -20.36 -3.802
25. X8, X10, X11 24.968 -6.13 -22.922 -6.459
26. X1, X4, X8, X10 -19.874 10.729 -22.098 -21.769 -27.926
27. X1, X4, X8, X11 -45.912 12.989 -5.147 -7.627 -13.146
28. X1, X4, X10, X11 -41.857 11.39 -2.466 -10.337 -7.857
29. X1, X8, X10, X11 -38.548 12.923 -17.218 -21.419 -20.814
30. X4, X8, X10, X11 87.469 -86.364 -73.338 -82 -64.875
31. X1, X4, X8, X10, X11 22.389 10.952 -70.815 -70.635 -70.09 -66.523
2
𝑛−1
𝑅𝑎𝑑𝑗 = 1 − (1 − 𝑅 2 ) ∗
𝑛−𝑝
2
(𝑛 − 1) 𝑆𝐶𝐸
𝑅𝑎𝑑𝑗 =1− ∗
(𝑛 − 𝑝) 𝑆𝐶𝑇
Siendo p =k +1
Debemos seleccionar el R cuadrado ajustado más alto, ya que este coeficiente nos dice que tiene el mayor
porcentaje de la variabilidad de la variable dependiente está siendo explicada por el modelo, teniendo en
cuenta el número de variables predictoras obtenidas.
3. Información de Akaike
Este estadístico, permite seleccionar variables en un modelo de regresión. También penaliza la inclusión de
nuevos regresores en el modelo, seleccionando el más adecuado aquel que presenta un menor valor de dicho
coeficiente.
SCE 2 p
AIC = ln +
n n
4. Schawrz
Es más restrictivo que el criterio de Akaike porque permite la selección de variables que deben ser incluidas
en el modelo. Al igual que el caso anterior, se considerará mejor modelo aquel que presenta un menor valor
de dicho coeficiente.
p SCE
SC = ln(n) + ln
n n
5. Criterio PC
9
Es el criterio de selección de variables basado en la SCE y penaliza también la inclusión de regresores
irrelevantes en el modelo. También se debe escoger el valor más bajo.
SCE
Amemiya = *(n + p)
n− p
6. Cp Mallows
En este criterio se debe buscar que el valor del coeficiente sea pequeño y esté cercano al número de
predictores en el modelo más uno. En la regresión del mejor subconjunto, buscamos el modelo reducido más
cercano a Cp = p + 1, acercándonos desde arriba.
𝑆𝐶𝐸𝑅𝑒𝑑𝑢𝑐𝑖𝑑𝑜
𝐶𝑝 = + 2 (𝑘 + 1) − 𝑛
𝐶𝑀𝐸𝐶𝑜𝑚𝑝𝑙𝑒𝑡𝑜
Resultados
R-
cuadrado
Regresor n K p ajustado SCE AIC SC Amemiya
1. X1 (sizehse) 90 1 2 0.164 3900.666 3.81353736 3.86908869 4077.969
2. X4 (Comper) 90 1 2 0 4612.486 3.98115703 4.03670835 4822.144455
3. X8 (Homper) 90 1 2 -0.006 4639.216 3.98693544 4.04248677 4850.089455
4. X10 (Indper) 90 1 2 0.028 4483.573 3.95281033 4.00836165 4687.371773
5. X11 (Utilper) 90 1 2 -0.011 4665.304 3.99254305 4.04809438 4877.363273
6. X1, X4 90 2 3 0.145 3900.474 3.83571036 3.91903735 4169.472207
7. X1, X8 90 2 3 0.146 3894.074 3.83406819 3.91739517 4162.630828
8. X1, X10 90 2 3 0.155 3852.923 3.82344436 3.90677135 4118.641828
9. X1, X11 90 2 3 0.148 3887.762 3.83244595 3.91577294 4155.883517
10. X4, X8 90 2 3 -0.011 4609.56 4.00274468 4.08607167 4927.46069
11. X4, X10 90 2 3 0.036 4398.023 3.9557674 4.03909439 4701.334931
12. X4, X11 90 2 3 -0.011 4611.822 4.00323528 4.08656227 4929.87869
13. X8, X10 90 2 3 0.019 4474.433 3.97299192 4.0563189 4783.014586
14. X8, X11 90 2 3 -0.017 4635.991 4.00846226 4.09178925 4955.714517
15. X10, X11 90 2 3 0.017 4482.563 3.97480726 4.05813425 4791.705276
16. X1, X4, X8 90 3 4 0.136 3893.384 3.8561132 3.96721585 4255.559256
17. X1, X4, X10 90 3 4 0.146 3851.631 3.84533119 3.95643384 4209.922256
18. X1, X4, X11 90 3 4 0.138 3887.702 3.85465274 3.96575539 4249.348698
19. X1, X8, X10 90 3 4 0.157 3798.338 3.8313981 3.94250075 4151.671767
20. X1, X8, X11 90 3 4 0.142 3867.739 3.8495046 3.96060725 4227.528674
21. X1, X10, X11 90 3 4 0.149 3838.402 3.84189063 3.95299328 4195.462651
22. X4, X8, X10 90 3 4 0.065 4214.906 3.93546179 4.04656444 4606.990279
23. X4, X8, X11 90 3 4 -0.023 4609.56 4.02496691 4.13606956 5038.356279
24. X4, X10, X11 90 3 4 0.025 4394.457 3.97717847 4.08828112 4803.243698
25. X8, X10, X11 90 3 4 0.009 4466.478 3.99343468 4.10453733 4881.964326
10
26. X1, X4, X8, X10 90 4 5 0.165 3720.368 3.83287931 3.97175762 4158.058353
27. X1, X4, X8, X11 90 4 5 0.133 3861.475 3.87010595 4.00898427 4315.766176
28. X1, X4, X10, X11 90 4 5 0.139 3836.507 3.86361904 4.00249735 4287.860765
29. X1, X8, X10, X11 90 4 5 0.165 3719.861 3.83274302 3.97162134 4157.491706
30. X4, X8, X10, X11 90 4 5 0.144 3812.684 3.85739012 3.99626844 4261.235059
31. X1, X4, X8, X10,
X11 90 5 6 0.251 3297.662 3.73449267 3.90114665 3768.756571
Según los criterios R-cuadrado ajustado, SCE, AIC, y Amemiya, postulan como mejor modelo el siguiente:
ℎ𝑠𝑒𝑣𝑎𝑙 = 𝛽0 + 𝛽1 𝑆𝑖𝑧𝑒ℎ𝑠𝑒
11
26. X1, X4, X8, X10 90 4 5 3720.368 43.769 14.76713027
27. X1, X4, X8, X11 90 4 5 3861.475 45.429 18.36148046
28. X1, X4, X10, X11 90 4 5 3836.507 45.135 17.7254827 5
29. X1, X8, X10, X11 90 4 5 3719.861 43.763 14.7542157
30. X4, X8, X10, X11 90 4 5 3812.684 44.855 17.11865098
31. X1, X4, X8, X10,
X11 90 5 6 3297.662 39.258 5.999745275 6
Ningún coeficiente se acerca por encima de k+1, por lo que decidimos que el mejor modelo será el
completo.
X1= sizehse
X2= totexp
X3=taxrate
X4=Comper
PUNTO 1
X4 =
X1 = X2 = X3 =
Regresor Intercepto sizehse totexp taxrate Comper
Modelo 2 : X2 17.348 0
12
Modelo 15 : X1, X2, X3, X4 -41.772 11.518 0 -125.295 -5.271
Resultados
R-
cuadrado
Regresor n p ajustado SCE AIC SC Amemiya
Según los criterios R-cuadrado ajustado, AIC y Amemiya, postulan como mejor modelo el siguiente:
Los criterios SCE postula el modelo completo y Schawrz el modelo con las variables significativas que se
mostró en el inciso a. Para el criterio de CP-Mallows tenemos lo siguiente:
13
Cp -
Regresor p SCE CME Mallows
Podemos observar que el coeficiente de mallows que más se asemeja a Cp = p+1, o sea 4, es el del modelo
11, que corresponde a:
Siendo:
𝑝 = 3, 𝑛 = 90
𝐶𝑝 𝑚𝑎𝑙𝑙𝑜𝑤𝑠 =3.20199012
Conclusión
En el análisis de los resultados, podemos decir que el modelo más apto, será
14
c) Un economista afirmó que, dado que los datos provienen de ciudades de diferentes poblaciones, es
probable que su modelo contenga heterocedasticidad. Argumentó que los precios medios de la
vivienda de las ciudades más grandes tendrían una variación menor porque la cantidad de casas
utilizadas para calcular los precios medios de la vivienda sería mayor. Evalué los supuestos del mejor
modelo seleccionado en b), e interprete lo obtenido.
PUNTO C CON LAS 5 VARIABLES SIGNIFICATIVAS DE TODAS LAS POSTULADAS
Normalidad
Para el supuesto de normalidad aplicaremos el test de Kolmogorov-Smirnov para la cantidad de datos que
tenemos (n>50), observando la gráfica cuantil-cuantil y el histograma de los residuos.
Histograma
Podemos observar que el modelo no parece estar distribuido normalmente, sin embargo, puede observarse
que algunos residuos están muy lejos de 0. Estos valores atípicos podrían indicar que el modelo no es
adecuado para todos los puntos de datos.
15
Tal como se menciona anteriormente, podemos ver que los residuos en los extremos están fuera de la línea
de referencia, por el número de puntos que se aíslan a los extremos habría que abordar estos valores para
rectificar una distribución normal.
Test Kolmogorov-Smirnov
Rechazamos la Ho ya que el nivel de significancia está por debajo del 0.05 y D representa la discrepancia
entre las distribuciones cuando su valor es mayor. Por lo tanto, decimos que el modelo no sigue una
distribución normal.
Heterocedasticidad
Para el supuesto de heterocedasticidad, visualizaremos la gráfica, que es la variación no constante de los
errores a lo largo de los valores ajustados y realizaremos el test de Breush Pagan
Podemos observar que no es claro si hay una tendencia de los puntos en la dispersión, aunque en el gráfico
Residuals vs Leverage, podemos observar los valores de influencia más altos podrían ser los mismos puntos
de los extremos del rango de los datos.
16
Encontramos valores atípicos en la gráfica Residualas vs Fitted o puntos que están medianamente
separados de la mayoría de los puntos en el gráfico en la parte inferior, puede verificar aún más en la gráfica
Scale-Location. Podemos decir que la influencia de esos puntos que están alejados del grupo, podría causar
problemas desproporcionada en la varianza de los errores. Los cuatro gráficos apuntan a que la varianza de
los errores tiende a ser constante, o sea que a priori, podríamos decir que hay no presencia de
heterocedasticidad.
Prueba de Breusch-Pagan
Rechazamos la Ho ya que el nivel de significancia está por debajo del 0.05 y D representa la discrepancia
entre las distribuciones cuando su valor es mayor. Por lo tanto, decimos que el modelo no sigue una
distribución normal.
Podemos decir que habría un problema de heterocedasticidad considerando los valores atípicos, ya que el
modelo se desea estimar en una pequeña región y se presenta la situación que los precios medios de la
vivienda de las ciudades más grandes tendrían una variación menor porque la cantidad de casas utilizadas
para calcular los precios medios de la vivienda sería mayor.
Autocorrelación
Ho: ρ es igual a 0
Ha: ρ es diferente de 0
𝐷𝑊 = 2 (1 − 𝜌)=0.02678
𝜌 = 0.98661
17
Verificando la tabla de Durbin – Watson al 5% de significancia, encontramos los valores de dL y dU, con K=5
y n=90
dL=1.542
dU =1.776
Multicolinealidad
Recordemos que el R_j^2es el R cuadrado cuando cada regresor se vuelve la variable explicativa
1
𝑉𝐼𝐹𝑗 =
1−𝑅𝑗2
Sabemos que:
Lo que indica, que los tres regresores tienen una multicolinealidad baja
Normalidad
Para el supuesto de normalidad aplicaremos el test de Kolmogorov-Smirnov para la cantidad de datos que
tenemos (n>50), observando la gráfica cuantil-cuantil y el histograma de los residuos.
Histograma
18
Podemos observar que el modelo parece estar distribuido de manera aproximadamente normal, sin embargo,
puede observarse que algunos residuos están muy lejos de la mayoría de los demás. Estos valores atípicos
podrían indicar que el modelo no es adecuado para todos los puntos de datos, tal como lo menciona el
enunciado.
Tal como se menciona anteriormente, podemos ver que los residuos en los extremos están fuera de la línea
de referencia, habría que abordar estos valores para rectificar una distribución normal.
Test Kolmogorov-Smirnov
Código:
Resultado:
Rechazamos la Ho ya que el nivel de significancia está por debajo del 0.05 y D representa la discrepancia
entre las distribuciones cuando su valor es mayor. Por lo tanto, decimos que el modelo no sigue una
distribución normal.
Heterocedasticidad
19
Gráfico de comportamiento de los residuos
Podemos observar que no es claro si hay una tendencia de los puntos en la dispersión, aunque en el gráfico
Residuals vs Leverage, podemos observar los valores de influencia mas altos podrían ser los mismos puntos
de los extremos del rango de los datos.
Encontramos valores atípicos o puntos que están medianamente separados de la mayoría de los puntos en el
gráfico, podemos decir que la influencia de esos puntos que están alejados del grupo, podría causar
problemas desproporcionada en la varianza de los errores.
Aunque, los cuatro gráficos apuntan a que la varianza de los errores es constante, o sea que no habría
presencia de heterocedasticidad.
Prueba de Breusch-Pagan
Según el test, aceptamos la Ho, ya que el nivel de significancia se encuentra por encima del 0.05 y decimos
que no hay heterocedasticidad en los errores del modelo.
Conclusión
Puede ser que la prueba de Bresuch – Pagan no detecte la heterocedasticidad, pues visualizando los gráficos
"Residuals vs Fitted" o "Scale-Location" hay valores atípicos, lo que es una de las causas principales de
heterocedasticidad.
Evaluando cual puede ser el regresor que tiene más correlación con la varianza de los errores
20
Para ello, vamos a tomar el vector de los residuos y lo elevaremos al cuadrado y posteriormente evaluaremos
su interacción con cada una de las variables, para ver su comportamiento:
Res^2 vs sizehse
Correlación:
Res^2 vs totexp
Correlación:
Res^2 vs taxrate
21
Correlación:
Podemos proponer que la variable que más causa la varianza de los errores es taxrate.
Autocorrelación
Ho: ρ es igual a 0
Ha: ρ es diferente de 0
Nos arroja:
𝐷𝑊 = 2 (1 − 𝜌)=0.032643
𝜌 = 0.9836785
Verificando la tabla de Durbin – Watson al 5% de significancia, encontramos los valores de dL y dU, con K=3
y n=90
dL=1.589
dU =1.726
22
Podemos ver, que en efecto ρ presenta una autocorrelación positiva.
Multicolinealidad
Recordemos que el 𝑅𝑗2 es el R cuadrado cuando cada regresor se vuelve la variable explicativa
1
𝑉𝐼𝐹𝑗 = 1−𝑅2
𝑗
Lo que indica, que los tres regresores tienen una multicolinealidad baja
d) Estime la ecuación de regresión múltiple utilizando mínimos cuadrados ponderados (MCP) con la
población como variable de ponderación. Compare los coeficientes de los modelos de regresión
múltiple ponderados y no ponderados, y realice la prueba de heterocedasticidad para el modelo
obtenido por MCP.
23
Resumen con Minimos Cuadrados Ordinarios:
Coeficientes estimados: Los valores siguen siendo significativos y la variable Comper pasa a ser significativa
al 0%,
Error estándar residual: El valor estándar residual bajó significativamente a 0.6098 con 84 grados de
libertad, a comparación del modelo no ponderado, que su error estándar fue de 6.266 con 84 grados de libertad.
Esto sugiere que el modelo ponderado tiene una mejor capacidad para ajustarse a los datos, ya que los valores
observados están más cerca de la línea de regresión ajustada en el modelo ponderado.
Residuos ponderados:
24
Residuos del modelo no ponderado:
Los residuos del modelo ponderado parecen estar más centrados alrededor de cero, ya que la mediana es
cercana a cero y los valores mínimos y máximos son más pequeños en comparación con los del modelo no
ponderado.
R cuadrado: El valor de R cuadrado ajustado es ligeramente más bajo en el modelo ponderado (0.2496) en
comparación con el modelo no ponderado (0.2511). Esto nos expresa que el modelo no ponderado explica un
poco más de la variabilidad en la variable dependiente en comparación con el modelo ponderado. Sin embargo,
dado el menor error estándar residual en el modelo ponderado, podría ser más confiable en términos de ajuste
de los datos.
Prueba de heteroscedasticidad
Para el supuesto de heterocedasticidad del modelo ponderado, visualizaremos la gráficas de las distribuciones
de los residuos y realizaremos el test de Breush Pagan
25
Con respecto al comportamiento de residuos del modelo no ponderado, en la gráfica Residuals vs Fitted los
puntos se concentran más hacia la línea de referencia, es decir, están menos dispersos. Aunque sigue
habiendo presencia de puntos atípicos. En la gráfica Q-Q residuals, los puntos que se encuentran a los
extremos, intentan seguir un comportamiento menos acorde a la línea de referencia y se despegan de ella de
forma ligera. En cuanto a la gráfica de Residuals vs Leverage, podemos ver que la frecuencia de los errores
se encuentra de manera más densa en el el grupo del modelo ponderado.
Encontramos valores atípicos en varios casos, que, quizás corrigiendo este problema, el modelo pueda subir
el R cuadrado. Aunque, los cuatro gráficos apuntan a que hubo una mejora con la ponderación, tal cual
como lo explica el enunciado con la población, pues podemos ver que la varianza de los errores es constante,
o sea que no habría presencia de heterocedasticidad.
Aceptamos la Ho, indica que el modelo presenta una homocedasticidad bastante alta, incluso mejor a la del
modelo no ponderado.
Como escogemos la variable “Population” como variable de ponderación realizamos el siguiente código:
peso<- 1/sqrt(CITIDATR$Population), ya que el peso es lo que será multiplicado por cada variable del
modelo.
26
Coeficientes estimados: Los valores de cada coeficiente no cambian mucho, la variable totexp deja de ser
significativa al 0.05.
Error estándar residual: El valor estándar residual bajó significativamente a 0.6302 con 86 grados de
libertad, a comparación del modelo no ponderado, que su error estándar fue de 6.397 con 86 grados de
libertad. Esto sugiere que el modelo ponderado tiene una mejor capacidad para ajustarse a los datos, ya que
los valores observados están más cerca de la línea de regresión ajustada en el modelo ponderado.
Residuos ponderados:
Los residuos del modelo ponderado parecen estar más centrados alrededor de cero, ya que la mediana es
cercana a cero y los valores mínimos y máximos son más pequeños en comparación con los del modelo no
ponderado.
R cuadrado: El valor de R cuadrado ajustado es ligeramente más bajo en el modelo ponderado (0.1986) en
comparación con el modelo no ponderado (0.2194). Esto nos expresa que el modelo no ponderado explica un
poco más de la variabilidad en la variable dependiente en comparación con el modelo ponderado. Sin embargo,
dado el menor error estándar residual en el modelo ponderado, podría ser más confiable en términos de ajuste
de los datos.
Prueba de heteroscedasticidad
Para el supuesto de heterocedasticidad del modelo ponderado, visualizaremos la gráficas de las distribuciones
de los residuos y realizaremos el test de Breush Pagan
27
Gráfica de comportamiento de los residuos
Modelo ponderado
Modelo no ponderado
Interpretación:
Con respecto al comportamiento de residuos del modelo no ponderado, en la gráfica Residuals vs Fitted los
puntos se unen un poco más hacia la línea de referencia, es decir, están menos dispersos. Aunque sigue
habiendo presencia de puntos atípicos. En la gráfica Q-Q residuals, los puntos que se encuentran a los
extremos, intentan seguir un comportamiento más acorde a la línea de referencia y se despegan de ella de
28
forma ligera. En cuanto a la gráfica de Residuals vs Leverage, podemos ver que la frecuencia de los errores
se encuentra de manera más densa en el el grupo del modelo ponderado.
Encontramos valores atípicos en varios casos, que, quizás corrigiendo este problema, el modelo pueda subir
el R cuadrado. Aunque, los cuatro gráficos apuntan a que hubo una mejora con la ponderación, tal cual
como lo explica el enunciado con la población, pues podemos ver que la varianza de los errores es constante,
o sea que no habría presencia de heterocedasticidad.
Aceptamos la Ho, indica que el modelo presenta una homocedasticidad bastante alta, incluso mejor a la del
modelo no ponderado.
2. Los siguientes modelos fueron calculados utilizando los datos de 1998 de la Encuesta Actualizada
de Población (CPS). La base de datos consta de información sobre 4.000 trabajadores a tiempo
completo durante todo el año. El mayor grado educativo alcanzado por cada trabajador es o bien un
diploma de escuela secundaria o bien un título de licenciatura. El rango de edades de los trabajadores
oscila entre los 25 y los 34 años. La base de datos asimismo contiene información sobre la región del
país donde reside la persona, el estado civil y el número de hijos. A los efectos de estos ejercicios,
sean:
29
a. Calcule para cada una de las regresiones y sus ANOVAS correspondientes (ESR,
corresponde a la Suma de Cuadrados del Error). Interprete los resultados obtenidos.
(1 − 𝑅 2 )(𝑛 − 1)
𝑅 2 𝑎𝑑𝑗 = 1 −
𝑛−𝑘−1
(1 − 0,176)(4000 − 1)
𝑅 2 𝑎𝑑𝑗 = 1 − = 0,175
4000 − 2 − 1
𝑆𝑅𝐶 6,27
𝑆𝑇𝐶 = 2
= = 7,609
1−𝑅 1 − 0,176
𝑆𝐸𝐶 = 𝑆𝑇𝐶 − 𝑆𝑅𝐶 = 7,609 − 6,27 = 1,339
𝑅 2 /(𝑝 − 1) 0,176/(3 − 1)
𝐹𝐶 = 2
= = 426,864
(1 − 𝑅 )/(𝑛 − 𝑝) (1 − 0,176)/(4000 − 3)
Se calcula el valor crítico de la distribución F de fisher, por medio de excel, para los grados de libertad
correspondientes y una significancia de 1 ∗ 10−13 , obteniendo un valor de 30,158; de lo cual se concluye
que el modelo presenta significancia global.
𝑆𝐸𝐶 1,339
𝑀𝑆𝐸 = = =0,669
𝑝−1 3−1
𝑆𝑅𝐶 6,27
𝑀𝑆𝑅 = = = 0,001
𝑛 − 𝑝 4000 − 3
ANOVA
Suma de Promedio
cuadrados DF cuadrado Fc Significancia
0,00156867650
Residual 6,27 3997 7
30
ANOVA
Suma de Promedio
cuadrados DF cuadrado Fc Significancia
0,00155655655
Residual 6,22 3996 7
ANOVA
Suma de Promedio
cuadrados DF cuadrado Fc Significancia
0,00155522163
Residual 6,21 3993 8
● ¿Ganan más los trabajadores con títulos universitarios en promedio que los
trabajadores con tan solo grado de secundaria? ¿Cuánto más?
Y sabiendo que la variable “universidad” representa una variable binaria: 1 cuando la persona cuenta con un
título universitario, 0 cuando no. Si partimos del supuesto “Ceteris paribus” (Siendo el resto de las cosas
iguales), decimos que los ingresos medios por hora son mayores cuando la persona cuenta con un título
universitario. Puesto que, cuando no es así, el término correspondiente de la variable toma el valor de 0, por
lo tanto no aporta valor; mientras que, como el signo de su estimador es positivo, cuando esta es 1, se le
suma el valor de su respectivo coeficiente; queriendo decir que, en promedio, una persona que tiene título
universitario gana 5,46 dólares por hora más que las que no.
31
Dado que no conocemos los errores estándar de los estimadores, que serían el insumo ideal para realizar una
prueba de significancia individual para una variable en específico y poder determinar su relevancia,
utilizamos, en su lugar, el siguiente estadístico de prueba:
Donde el modelo 2 es el modelo que estamos poniendo a prueba con respecto al modelo 1, mediante la
siguiente prueba de hipótesis:
Se utiliza el excel para calcular el valor crítico de la distribución F de fisher para los correspondientes grados
de libertad y una significancia de 1 ∗ 10−13 , obteniendo un valor de 55,757; de lo cual se concluye que
existe evidencia estadística suficiente de que la adición de la variable edad es significativa.
● Sally es una mujer titulada universitaria de 27 años de edad. Betsy es una mujer titulada
universitaria de 32 años de edad. Prediga los ingresos de Sally y los de Betsy.
Ingresos de Sally:
̂ = 4,4 + 5,48(1) − 2,62(1) + 0,29(27) = 15,09
𝐼𝑀𝐻
Ingresos de Betsy:
̂ = 4,4 + 5,48(1) − 2,62(1) + 0,29(32) = 16,54
𝐼𝑀𝐻
Se puede comentar que es gracias a la edad mayor de Betsy que se pronostica unos ingresos ligeramente
superiores para ella.
Nuevamente proponemos el mismo estadístico de prueba, pero esta vez poniendo a prueba el modelo 3 con
respecto al 2:
32
- 𝐻0 : La adición de las variables Noreste, centro-oeste y sur (presentes en el modelo 3
pero no en el 2) no es significativa estadísticamente
Se utiliza el excel para calcular el valor crítico de la distribución F de fisher para los correspondientes grados
de libertad y una significancia de 0,01, obteniendo un valor de 3,786; de lo cual se concluye que existe
evidencia estadística suficiente de que la adición de las variables Noreste, centro-oeste y sur es significativa.
La razón por la cual se deja una variable base o de referencia fuera del modelo es para evitar la
multicolinealidad perfecta. Esto ocurre cuando una de las variables independientes es una combinación
lineal exacta de otras. Si incluyéramos una variable dummy para cada categoría, incluida la categoría base,
terminaríamos con un conjunto de variables que suman perfectamente a 1 en cada observación, lo que
significa que una de las variables puede ser predicha sin error a partir de las otras.
Por ejemplo, si alguien no vive en el sur, ni en el norte, ni en el centro-oeste, sabemos con certeza que vive
en el oeste.
Esto causaría problemas en la estimación de los coeficientes del modelo, ya que los métodos estadísticos
estándar, como los mínimos cuadrados ordinarios (MCO), no podrían determinar valores únicos para los
coeficientes de las variables predictoras debido a la redundancia.
Al omitir una variable dummy (la categoría base), permitimos que el modelo tenga un punto de comparación
y evitamos la multicolinealidad perfecta. Los coeficientes de las variables dummy restantes se interpretarán
en relación con la categoría base.
● Juanita es una mujer titulada universitaria de 26 años de edad de la región Sur. Jennifer es
una mujer de 26 años de edad, titulada universitaria de la región Centro-Oeste. Calcule la
diferencia esperada entre los ingresos de Juanita y los de Jennifer.
Ingresos de Juanita:
̂ = 3,75 + 5,44(1) − 2,62(1) + 0,29(26) + 0,69(0) + 0,6(0) − 0,27(1)
𝐼𝑀𝐻
= 13,84
Ingresos de Jennifer
̂ = 3,75 + 5,44(1) − 2,62(1) + 0,29(26) + 0,69(0) + 0,6(1) − 0,27(0)
𝐼𝑀𝐻
= 14,71
En promedio se espera que Jennifer gane 0,87 dólares u 87 centavos por hora más que Juanita; esto es
atribuible básicamente al hecho de que Jennifer vive en el centro-oeste mientras que Juanita al sur.
33
3. Considere los siguientes datos:
1830 30 Tren
34
Solución
El gráfico muestra la relación entre el año (eje X) y la velocidad máxima alcanzada (eje Y) a lo largo del
tiempo. Este gráfico sí informa algo importante:
Código utilizado:
library(ggplot2)
ggplot(datos, aes(x = ano, y = velocidad)) +
geom_point() +
35
geom_line(color = "red") +
scale_x_continuous(breaks = c(1830, 1905, 1930, 1947, 1952, 1969, 2006, 2016, 2018)) +
b. Transforme los datos por Z = logY y grafique los puntos. ¿Es el gráfico mejor al anterior, sí o
no? ¿Por qué?
Este gráfico muestra la relación entre el año (eje X) y el logaritmo natural de la velocidad máxima
alcanzada (eje Y).
Al compararlo con el gráfico anterior de Y vs. X, se puede observar que esta transformación
logarítmica produce un patrón mucho más lineal. Los puntos ahora siguen una tendencia
aproximadamente lineal, a diferencia del patrón exponencial observado en el gráfico anterior.
Por lo tanto, este gráfico de la transformación logarítmica es mejor que el gráfico anterior por las
siguientes razones:
36
1. La relación entre el año y log(Velocidad) es más lineal, lo que facilitará el ajuste de un modelo de
regresión lineal simple.
2. El patrón lineal sugiere que la velocidad máxima crece exponencialmente con respecto al año, lo cual
es coherente con la observación del gráfico anterior.
3. La transformación logarítmica comprime los valores más altos de velocidad, lo que permite visualizar
mejor los datos y detectar patrones más fácilmente.
4. Un patrón lineal es más fácil de modelar y analizar que un patrón exponencial o no lineal.
Código utilizado:
geom_point() +
geom_line(color = "red") +
scale_y_continuous(labels = scales::comma) +
scale_x_continuous(breaks = c(1830, 1905, 1930, 1947, 1952, 1969, 2006, 2016, 2018)) +
37
c. ¿Puede encontrar una transformación simple razonable U = f(Y), cual produce (más o menos)
un gráfico de una línea recta para los puntos (X, U)?
𝐔 = 𝐥𝐨𝐠(𝐘)
38
𝟏
𝐔 = 𝐘𝟑
39
𝟏
𝐔 = 𝐘𝟒
• Esta transformación eleva la velocidad a la potencia 1/4, lo que comprime aún más la escala de
velocidad en comparación con la transformación anterior.
1
• El gráfico resultante muestra una relación aún más lineal que la transformación Velocidad3 .
• La curvatura en los primeros años es menos pronunciada, lo que sugiere que esta
transformación logra linealizar mejor los datos en todo el rango de años.
1 1
Probamos con esas transformaciones específicas de U = log(Y), U = Y 3 y U = Y 4 por las
siguientes razones:
𝐔 = 𝐥𝐨𝐠(𝐘):
La transformación logarítmica es una transformación muy común utilizada para linealizar relaciones
que parecen crecer exponencialmente. Cuando los datos muestran un crecimiento exponencial, tomar
el logaritmo puede convertirlos en una relación aproximadamente lineal.
𝟏 𝟏
𝐔 = 𝐘𝟑 y 𝐔 = 𝐘𝟒:
Estas transformaciones de potencias fraccionarias a menudo se utilizan cuando los datos muestran un
crecimiento de tipo potencia. Si la relación entre Y y X sigue una ley de potencia de la forma Y =
1
aX b , entonces tomar Y b linealiza la relación.
40
En este caso particular, los datos de velocidad parecían estar creciendo a un ritmo mucho más rápido
que lineal o exponencial. Por lo tanto, transformar con potencias fraccionarias como 1/3 o 1/4 podría
ayudar a linealizar la relación.
Comenzamos con log(Y) porque es una transformación común, pero dado que no linealizó
completamente los datos, seguimos probando con potencias fraccionarias más extremas como 1/3 y
1/4 para ver si se podía capturar mejor el rápido crecimiento de las velocidades.
Código utilizado:
datos$u <- log(datos$velocidad)
# Y^1/3
datos$u <- velocidad^(1/3)
# Y^1/4
datos$u <- velocidad^(1/4)
41
d. Cualquiera que sea su conclusión en el punto c. grafique los puntos (X, V) donde V = log(logY))
ajuste una línea recta, usando mínimos cuadrados. Dibuje la línea ajustada en su gráfica (X, V).
Encuentre los residuales y comente sobre ellos.
42
Gráfica con la línea ajustada:
Residuos:
• Los residuos oscilan entre valores positivos y negativos, lo que es esperado en un modelo de regresión
lineal. Valores positivos indican que el modelo subestima el valor observado, mientras que valores
negativos indican sobreestimación.
• El residuo más grande en valor absoluto es 0.175490472, correspondiente a la observación 6 (año
1969). Esto sugiere que el modelo tiene dificultades para ajustarse adecuadamente a ese punto, ya sea
por un valor inusualmente alto o bajo de la velocidad observada en ese año.
• Los residuos más pequeños en valor absoluto, como -0.027122415 (observación 5, año 1952) y
0.006663767 (observación 8, año 2016), indican un ajuste relativamente bueno del modelo para esos
puntos.
• En general, los residuos más grandes parecen concentrarse en los años más recientes (observaciones
7, 8 y 9), lo que sugiere que el modelo lineal tiene dificultades para capturar adecuadamente la
tendencia en ese rango de años.
• Sin embargo, los residuos no muestran un patrón sistemático claro, lo que indicaría que no hay
violaciones graves de los supuestos del modelo de regresión lineal, como heterocedasticidad o
autocorrelación.
Código utilizado:
43
datos$v <- log(log(datos$velocidad))
summary(modelo)
geom_point() +
scale_x_continuous(breaks = c(1830, 1905, 1930, 1947, 1952, 1969, 2006, 2016, 2018)) +
# Residuos
print(residuos)
e. Encuentre el análisis de varianza apropiado para el punto d., pruebe toda la regresión y
encuentre comente apropiadamente.
Anova:
44
La salida del ANOVA muestra:
En este caso, el valor p es muy pequeño (cercano a cero), lo que indica que el modelo de regresión
lineal es estadísticamente significativo y que la variable explicativa ano tiene un efecto significativo
sobre la variable respuesta v = log(log(velocidad)).
El valor de 𝑅 2 (coeficiente de determinación) es de aproximadamente 0.9574971 lo que sugiere que el
modelo lineal ajustado explica alrededor del 95.74% de la variabilidad observada en v. Sin embargo,
como mencionamos anteriormente, los residuos muestran que el modelo tiene dificultades para
ajustarse a los datos en los años más recientes.
f. Use la línea recta ajustada del punto d., para predecir cuando el hombre alcanzará la velocidad
de la luz (186000 millas/seg).
• Según el modelo lineal ajustado, se espera que la velocidad de la luz se alcance alrededor del
año 2061.
• Sin embargo, esta predicción debe tomarse con precaución, ya que el modelo lineal tiene
dificultades para ajustarse a los datos en los años más recientes, como se evidenció en los
residuos.
• Además, es posible que la relación entre la velocidad y el año no siga siendo lineal a medida
que se alcancen velocidades cercanas a la de la luz, lo que invalidaría las suposiciones del
modelo lineal.
Código utilizado:
45
g. Discuta la racionalidad de otra forma para su predicción. ¿De qué suposiciones depende? ¿Si
siente que su predicción es real o no?; Establezca sus razones cuidadosamente.
• Continuidad del Progreso Tecnológico: La predicción asume que la tecnología seguirá avanzando
a un ritmo que permitirá alcanzar velocidades cada vez mayores.
• Ausencia de Limitaciones Físicas: Ignora las leyes físicas que limitan la velocidad a la que pueden
viajar los objetos con masa.
• Exactitud del Modelo: Supone que el modelo lineal es una representación precisa de la relación
entre el año y la velocidad, lo cual es una simplificación excesiva.
46