Está en la página 1de 33

ESTIMACIONES Y ANALISIS ECONOMETRICOS

APLICACIÓN EN R

YESIKA MARLENY MONROY LEON 3100072


ANDRES FELIPE SANDOVAL JIMENEZ 3100752

UNIVERSIDAD CATÓLICA DE COLOMBIA


FACULTAD DE CIENCIAS ECONÓMICAS Y ADMINISTRATIVAS
ECONOMETRÍA I
BOGOTA D., C
25 de abril de 2020
ESTIMACIONES Y ANALISIS ECONOMETRICOS
APLICACIÓN EN R

YESIKA MARLENY MONROY LEON 3100072


ANDRES FELIPE SANDOVAL JIMENEZ 3100752

JORGE MARIO SALCEDO MAYORGA


DOCENTE

UNIVERSIDAD CATÓLICA DE COLOMBIA


FACULTAD DE CIENCIAS ECONÓMICAS Y ADMINISTRATIVAS
ECONOMETRÍA I
BOGOTA D., C
25 de abril de 2020
Dedicatoria

Dedicamos este análisis a todos los estudiantes de la Universidad Católica de Colombia y a

los estudiantes de las diferentes universidades, que inician su proceso de aprendizaje en el

ámbito de econometría 1, queremos otorgar estas herramientas principales para iniciar este curso

ya que puede implicar un grado de dificultad y es necesario de la ayuda de textos e

investigaciones que aporten al aprendizaje total de esta área tan importante. Damos aporte final

de lo que fue nuestro curso de econometría 1 indicando que se tomaron y se evaluaron todos los

ítems de análisis.
Agradecimientos

Gracias al profesor Jorge Mario Salcedo Mayorga encargado de transmitir todos sus

conocimientos en el área de econometría , facultad de ciencias económicas y Administrativas de

la Universidad Católica de Colombia , sus conocimientos nos han permitido avanzar en el

ámbito académico y personal , impulsando nuestras habilidades en el análisis y creación de

modelos que permiten comprender de manera práctica y sencilla muchos factores de nuestra vida

común , damos gracias por todo su apoyo durante el semestre , por su paciencia , nos permite

hoy con este proyecto , dar finalización a nuestro programa 1 de econometría .


Resumen

La toma de decisiones en muchos contextos tanto sociales como naturales se basa con

frecuencia en el análisis de datos. Los datos reflejan el funcionamiento real de un sistema cuyo

entendiendo es importante para tomar decisiones razonablemente.

La econometría aplicada moderna trata de como analizar datos para responder a preguntas

diversas referidas a sistemas cuyo funcionamiento es imposible de caracterizar con total

exactitud o de prever con absoluta certeza. Los métodos estadísticos y matemáticos que se

utilizan en la

econometría aplicada para analizar datos conforman lo que se denomina econometría teórica o

métodos econométricos.

El origen de la heterocedasticidad, está asociado a la varianza creciente de las perturbaciones

aleatorias de los valores de algunas de las variables, incluidas en el modelo. Dicho de otro modo,

podría suponerse que la varianza de la perturbación se compone de una parte constante,

homocedastica, y otra parte variable según los valores de una determinada variable. Es muy

probable que esta asociación entre el proceso de heterocedasticidad y las variables no sea

evidente. La detección de la heterocesdasticidad en la mayoría de los procedimientos es útil para

establecer algún tipo de solución que permite corregir este problema.


Abstract

Decision-making in many social and natural contexts is often based on data analysis. Data

limited the actual performance of a system whose understanding is important to making

reasonable decisions. Modern applied econometrics is about how to analyze data to answer

various questions about systems whose operation is impossible to characterize with complete

accuracy or to foresee with absolute certainty. The statistical and mathematical methods used in

applied econometrics to analyze data make up what is called theoretical econometrics or

economic methods. The origin of the heteroskedasticity is associated with the increasing

variance of the random perturbations of the values of some of the variables included in the

model. In other words, you could suppose that the variance of the disturbance is made up of a

constant, homoscedastic part, and another variable part according to the values of a determined

variable. This association between the heteroscedasticity process and the variables is very likely

not evident. The detection of heterocesdasticity in most of the procedures is useful to establish

some kind of solution to correct this problem.


Tabla de contenido

Dedicatoria.................................................................................................................................iii
Agradecimientos.........................................................................................................................iv
Resumen......................................................................................................................................v
Abstract.......................................................................................................................................vi
Capítulo 1.........................................................................................................................................1
Introducción.................................................................................................................................1
Estadístico de Wald.....................................................................................................................2
Estadístico F robusto a la heterocedasticidad..........................................................................2
Cálculo de pruebas ML robustas a la heterocedasticidad........................................................3
Un estadístico ML robusto a la heterocedasticidad:................................................................5
Estadístico ML robusto a la heterocedasticidad......................................................................5
Factores que influyen en la productividad...................................................................................7
Consumo de materias primas (cosmate)..................................................................................7
Proxy del capital (activdef)......................................................................................................8
Consumo de energía eléctrica (eelec)......................................................................................8
Los trabajadores calificados (calificado).................................................................................8
Trabajadores no calificados (no calificado).............................................................................8
Prueba f....................................................................................................................................8
Prueba de shapiro-wilk..............................................................................................................10
Prueba de kolmogorov-smirnov................................................................................................11
Lilliefors (Kolmogorov-Smirnov) normality test......................................................................12
Lilliefors (Kolmogorov-Smirnov) normality test......................................................................12
Lilliefors (Kolmogorov-Smirnov) normality test......................................................................12
Lilliefors (Kolmogorov-Smirnov) normality test......................................................................13
Lilliefors (Kolmogorov-Smirnov) normality test......................................................................13
Prueba de shapiro-francia..........................................................................................................13
RESET test.............................................................................................................................15
Capítulo 2...................................................................................................................................15
Forward vamos a arrancar con 0 variables................................................................................16
Dos variables.........................................................................................................................16
Tres variables.........................................................................................................................17
Backward...............................................................................................................................17
Dummy origin........................................................................................................................19
Identificar colinealidad..........................................................................................................21
Analysis of Variance Table...................................................................................................21
vif(modelo_multiple).............................................................................................................21
Shapiro-Wilk normality test..................................................................................................22
Bibliografía....................................................................................................................................23
Lista de tablas

Tabla 1.............................................................................................................................................7
Tabla 2.............................................................................................................................................9
Tabla 3...........................................................................................................................................16
Tabla 4...........................................................................................................................................16
Tabla 5...........................................................................................................................................17
Tabla 6...........................................................................................................................................17
Tabla 7...........................................................................................................................................18
Capítulo 1

Introducción

El origen de la heterocedasticidad, está asociado a la varianza creciente de las

perturbaciones aleatorias del comportamiento, de las variables incluidas en la estimación

de un modelo. La detección de la heterocesdasticidad en la mayoría de los

procedimientos es útil para establecer algún tipo de solución que permite corregir este

problema, el análisis de regresión condicional implica, obtener un parámetro estable y útil

entre ambas variables, la dispersión entre las variables debe ser aleatoria para evitar

problemas de estimación e inferencia econométrica.

Supuestos para la estimación en presencia de heterocedasticidad:

La presencia de heterosedasticidad en los modelos de regresión lineal, rompe con una

restricción importante en econometría, donde la varianza de los errores aleatorios es

condicional a los valores de la variable independiente X, es constante: 𝑉𝑎𝑟 (𝜐𝑡 𝑥𝑡 = 𝜎 2 la

restricción implica que los valores de la muestra de la variable dependiente (𝑦) son

iguales las varianzas de los errores (𝜐), para los distintos valores de (𝑥), es decir, la

dispersión en relación a la minimización de los errores permite representar los valores de

(𝑦) mediante la variable estimada (𝑦 ) de manera eficiente, insesgada y consistente.


Estadístico de Wald

La prueba de Wald es una prueba estadística paramétrica llamado así por el

estadístico Abraham Wald. Siempre que una relación dentro de o entre los elementos de

datos se puede expresar como un modelo estadístico con los parámetros a estimar a partir

de una muestra, la prueba de Wald se puede utilizar para poner a prueba el verdadero

valor del parámetro basado en la estimación de la muestra. Sea como sea, el uso de

estadísticos robustos a la heterocedasticidad para restricciones de exclusión múltiple es

sencillo debido a que, actualmente, muchos paquetes para econometría calculan estos

estadísticos de manera rutinaria.

Estadístico F robusto a la heterocedasticidad

cumgpa=1.47 +.00114 sat−.00857 hsperc+ .00250tothrs

( .23 ) ( .00018 )( .00124 ) (.00073)

[.22]¿ [.00019][.00140 ][.00073 ]

+.303 female−.128 ¿−0.29 ¿

( .059 ) ( .147 ) (.141 )

[ .059 ][ .118 ] [.110 ]

n 366 , R 2.4006 ,−R 2.3905 .


Una vez más, las diferencias entre los errores estándar usuales y los errores estándar

robustos a la heterocedasticidad no son muy grandes, y el uso de los estadísticos t

robustos no modifica la significancia estadística de ninguna de las variables

independientes. La prueba para significancia conjunta tampoco se ven muy afectadas.

Suponga que se desea probar la hipótesis nula de que, una vez controlados los demás

factores, no existen diferencias en cumgpa de acuerdo con la raza esto se indica como:

H 0 : β ¿=0 , β ¿=0

El estadístico F usual se obtiene fácilmente, una vez que se tiene la R-cuadrada del

modelo restringido; ésta resulta ser .3983. El estadístico F es entonces:

[ (.4006−.3983)/(1−.4006) ] ( 3592 ) ≈ .69 .

En presencia de heterocedasticidad, esta versión de la prueba no es válida. Para la

versión robusta a la heterocedasticidad no existe una forma sencilla, pero se puede

calcular usando ciertos paquetes estadísticos. El valor del estadístico F robusto a la

heterocedasticidad resulta ser .75, que sólo difiere ligeramente del de la versión no

robusta. El valor-p para la prueba robusta es .474, que no está próximo a los niveles de

significancia estándar. Con ninguna de las pruebas puede rechazarse la hipótesis nula.

Cálculo de pruebas ML robustas a la heterocedasticidad


No todos los paquetes para regresión calculan estadísticos F robustos a la

heterocedasticidad. Por tanto, a veces es conveniente contar con una manera de obtener

una prueba para restricciones de exclusión múltiple que sea robusta a la

heterocedasticidad y que no requiera un determinado tipo de software para econometría.

Resulta que un estadístico ML robusto a la heterocedasticidad puede obtenerse con

facilidad usando casi cualquier paquete para regresión. Para ilustrar el cálculo del

estadístico ML robusto, considere el modelo.

y=β 0 +¿ β 1 X1 +β 2 X 2+ β3 X3 +β 5 X 5+ μ ¿

y suponga que se desea probar H 0 : β 4=0 , β 5=0 Para obtener el estadístico ML,

primero se estimará el modelo restringido (es decir, el modelo sin x4 ni x5 ) para obtener

los residuales, u˜. Después, se regresa u ˜ sobre todas las variables independientes y ML

nR 2 u ˜, donde R 2 u ˜ es la R-cuadrada usual de esta regresión.

Obtener una versión robusta a la heterocedasticidad requiere aún más. Una manera de

calcular el estadístico requiere sólo regresiones de MCO. Se necesitan los residuales, por

ejemplo, r ˜ 1 , de la regresión de x4 sobre x1 , x2 , x3 . También, se necesitan los

residuales, por ejemplo, r ˜ 2 , de la regresión de x5 sobre x1 , x2 , x3 . Así, cada una de

las variables independientes excluidas bajo la hipótesis nula se regresa sobre todas las

variables independientes incluidas. Estos residuales se conservan. El paso final parece

algo extraño, pero es, después de todo, sólo un recurso de cálculo. Se corre la regresión

de:

1 sobre r ˜ 1u ˜ , r ˜ 2 u ˜ ,
sin intercepto. Sí, efectivamente, se define una variable dependiente igual al valor uno

para todas las observaciones. Esta variable se regresa sobre los productos r ˜ 1 u ˜ y r ˜ 2
−¿¿
u ˜. El estadístico ML robusto resulta ser n SRC1 , donde SRC1 es la suma usual de

residuales cuadrados de la regresión la razón de que esto funcione es algo técnica.

Básicamente, esto es hacer con la prueba del ML lo que los errores estándar robustos

hacen con la prueba de t. [Vea Wooldridge (1991b) o Davidson y MacKinnon (1993) para

un estudio más detallado]. Ahora se resume el cálculo del estadístico ML robusto a la

heterocedasticidad en el caso general.

Un estadístico ML robusto a la heterocedasticidad:

1. Obtener los residuales u ˜ del modelo restringido.

2. Regresar cada una de las variables independientes excluidas bajo la hipótesis nula

sobre todas las variables independientes incluidas; si hay q variables excluidas, esto

conduce a q conjuntos de residuales (r ˜ 1, r ˜ 2, …, r ˜ q).

3. Obtener los productos entre cada r ˜ j y u ˜ (para todas las observaciones). 4. Correr la

regresión de 1 sobre r ˜ 1 u ˜, r ˜ 2 u ˜, …, r ˜ q u ˜, sin intercepto. El estadístico ML

robusto a la heterocedasticidad es n - SRC1 , donde SRC1 es precisamente la suma usual

de residuales cuadrados de esta regresión final. Bajo H 0 , la distribución de ML es

aproximadamente 2 q.

Estadístico ML robusto a la heterocedasticidad


Se utilizan los datos del archivo CRIME1.RAW para probar si la longitud media de

sentencias cumplidas en el pasado afecta la cantidad de arrestos en el año actual (1986).

El modelo estimado es:

narr 86=.567−.136 pcnv +.0178 avgsen−.00052 avgsen 2

( .036 ) ( .040 ) (.0097 )( .00030 )

[.040][.034][.0101][.00021]

−.0394 ptime 86−.0505 qemp 86−.00148inc 86

(.0087)(.0144)(.00034)

[.0062][.0142][.00023]

+.325 ¿+.193 hispan

(.045)(.040)

[.058][.040]

n=2,725 , R 2 .0728 .

En este ejemplo, hay más diferencias sustanciales entre algunos de los errores estándar

usuales y los errores estándar robustos. Por ejemplo, el estadístico usual t para avgsen2

es aproximadamente -1.73, mientras que el estadístico t robusto es aproximadamente

-2.48. Así, avgsen2 es más significativa empleando el error estándar robusto. El efecto de

avgsen sobre narr86 es un poco más difícil de reconciliar. Dado que es una relación

cuadrática, es posible imaginar dónde avgsen tiene efecto positivo sobre narr86 y dónde

su efecto llega a ser negativo. El punto de inflexión es .0178/[2(.00052)] ≈ 17.12;

recuérdese que esto se mide en meses. Literalmente, esto significa que narr86 está
relacionada positivamente con avgsen cuando avgsen es menor a 17 meses; entonces

avgsen tiene el efecto disuasivo previsto después de 17 meses. Para ver si la longitud

media de la sentencia tiene un efecto estadísticamente significativo sobre narr86, se deben

probar las hipótesis conjuntas H0 : avgsen 0, avgsen2 0. Usando el estadístico ML usual

(vea la sección 5.2), se obtiene ML 3.54; en una distribución ji-cuadrada con dos gl, esto

da un valor-p .170. Así H0 no se rechaza ni incluso al nivel de 15%. El estadístico ML

robusto a la heterocedasticidad es ML 4.00 (redondeado a dos cifras decimales), con un

valor-p .135. Ésta aún no es una evidencia muy fuerte contra H0 ; avgsen no parece tener

un efecto fuerte sobre narr86. [Incidentalmente, cuando avgsen aparece sola en (8.9), es

decir, sin el término cuadrático, su estadístico t usual es .658, y su estadístico t robusto

es .592]. [ CITATION Jef10 \l 9226 ]

Factores que influyen en la productividad

Tabla 1

Modelo log-log

Call:
lm(formula = log(PRODUCDEF) ~ log(CONSMATDEF) + log(EELEC) +
log(ACTIVDEF) + log(Calif1) + log(Ncalif1), data = sector_lacteo)

Residuals:
Min 1Q Median 3Q Max
-0.62616 -0.16737 -0.03384 0.11772 1.70932

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 1.66679 0.13371 12.466 < 2e-16 ***
log(CONSMATDEF) 0.74261 0.01318 56.363 < 2e-16 ***
log(EELEC) 0.12364 0.01436 8.612 < 2e-16 ***
log(ACTIVDEF) 0.06541 0.01060 6.173 1.28e-09 ***
log(Calif1) 0.09746 0.01199 8.131 2.75e-15 ***
log(Ncalif1) 0.02213 0.01585 1.396 0.163
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.2605 on 561 degrees of freedom


Multiple R-squared: 0.9826, Adjusted R-squared: 0.9824
F-statistic: 6325 on 5 and 561 DF, p-value: < 2.2e-16

Consumo de materias primas (cosmate)


P-valor nos permite rechazar la hipótesis nula ya que 2e-16 es menor al alfa de 0.05 (2e-

16 < 0.05) por lo que la variable es estadísticamente significativa de las materias primas

Proxy del capital (activdef)


P-valor nos permite rechazar la hipótesis nula ya que 1.28e-9 es menor al alfa de 0.05

(1.28e-9< 0.05) por lo que la variable es estadísticamente significativa del proxy del

capital.

Consumo de energía eléctrica (eelec)


P-valor nos permite rechazar la hipótesis nula ya que 2e-16 es menor al alfa de 0.05 2e-

16 < 0.05) por lo que la variable es estadísticamente significativa el consumo de energía

eléctrica

Los trabajadores calificados (calificado)


P-valor nos permite rechazar la hipótesis nula ya que 2.75e-15 es menor al alfa de 0.05

(2.753-16 < 0.05) por lo que la variable es estadísticamente significativa los trabajadores

calificados

Trabajadores no calificados (no calificado)


P-valor nos permite no rechazar la hipótesis nula ya que 0.163 es mayor al alfa de 0.05

(0.163 > 0.05) por lo que la variable no es estadísticamente significativa.


Prueba f
Podemos observar por medio de la prueba F de p-Value de 2.2 e-16 que al menos una

variable es estadísticamente significativa

B. Realice las pruebas de Breush y Pagan, así como la prueba de White, muestre los

resultados Obtenidos para cada prueba e interprete ¿Es necesario corregir la

Heterocedasticidad?

studentized Breusch-Pagan test

data: reg
BP = 49.805, df = 5, p-value = 1.519e-09

P-Valor = 1.519 e-09 muy pequeño por lo que es menor al 0,05 rechazamos la hipótesis

nula quiere decir que hay problema de heteroscedasticidad.

Tabla 2

#White test

Call:
lm(formula = resid(reg)^2 ~ fitted(reg) + I(fitted(reg)^2))

Residuals:
Min 1Q Median 3Q Max
-0.08190 -0.06479 -0.04066 0.00815 2.83991

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -0.951750 0.442768 -2.150 0.0320 *
fitted(reg) 0.127169 0.055171 2.305 0.0215 *
I(fitted(reg)^2) -0.003911 0.001702 -2.297 0.0220 *
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.1769 on 564 degrees of freedom


Multiple R-squared: 0.009334, Adjusted R-squared: 0.005821
F-statistic: 2.657 on 2 and 564 DF, p-value: 0.07104
.

B. Si la prueba muestra la presencia de heteroscedasticidad, utilice errores estándar

robustos explicando el proceso de forma teórica como se vio en clase e interpretando los

nuevos resultados.

Para solucionar el problema de heteroscedasticidad usamos errores estándar robustos es

una técnica muy sencilla. podemos observar que cambian un poco el p-valor de cada una

de las variables respecto con el error estándar tradicionales. Las variables son muy

significativas por lo que no afecta en gran medida.

C. Investigue que tipos de pruebas se utilizan para determinar normalidad (Shapiro

Wilks, Shapiro Francia, KS, etc.), explique de forma teórica y presente los resultados

para la base de datos.

Prueba de shapiro-wilk

Cuando la muestra es como máximo de tamaño 50 se puede contrastar la normalidad con

la prueba de Shapiro Shapiro-Wilk. Para efectuarla se calcula la media y la varianza

muestral, S2, y se ordenan las observaciones de menor a mayor. A continuación, se

calculan las diferencias entre: el primero y el último; el segundo y el penúltimo; el tercero


y el antepenúltimo, etc. y se corrigen con unos coeficientes tabulados por Shapiro y Wilk.

El estadístico de prueba es:

donde D es la suma de las diferencias corregidas.

Se rechazará la hipótesis nula de normalidad si el estadístico W es menor que el valor

crítico proporcionado por la tabla elaborada por los autores para el tamaño muestral y el

nivel de significación dado.

“No es necesario realizar prueba para la base de datos ya que como son para muestras

inferiores a 50”. y nuestra muestra es de 567.

Prueba de kolmogorov-smirnov

Es la alternativa al test de Shapiro-Wilk cuando el número de observaciones es mayor de

50.

Cuando la prueba Kolmogórov-Smirnov kolmogorov se aplica para contrastar la hipótesis

de normalidad de la población, el estadístico de prueba es la máxima diferencia:


siendo Fn(x) la función de distribución muestral y Fo(x) la función teórica o

correspondiente a la población normal especificada en la hipótesis nula.

La distribución del estadístico de Kolmogórov-Smirnov es independiente de la

distribución poblacional especificada en la hipótesis nula y los valores críticos de este

estadístico están tabulados. Si la distribución postulada es la normal y se estiman sus

parámetros, los valores críticos se obtienen aplicando la corrección de significación

propuesta por Lilliefors.[ CITATION Edu11 \l 9226 ].

Lilliefors (Kolmogorov-Smirnov) normality test

data: sector_lacteo$EELEC

D = 0.28535, p-value < 2.2e-16

P-valor nos permite rechazar la hipótesis nula ya que 2.2e-16 es menor al alfa de 0.05

(2.2e-16 < 0.05) por lo que la variable no tiene normalidad en la energía eléctrica.

Lilliefors (Kolmogorov-Smirnov) normality test

data: sector_lacteo$ACTIVDEF

D = 0.34373, p-value < 2.2e-16

P-valor nos permite rechazar la hipótesis nula ya que 2.2e-16 es menor al alfa de 0.05

(2.2e-16 < 0.05) por lo que la variable no tiene normalidad en el proxy del capital

Lilliefors (Kolmogorov-Smirnov) normality test

data: sector_lacteo$CONSMATDEF
D = 0.31791, p-value < 2.2e-16

P-valor nos permite rechazar la hipótesis nula ya que 2.2e-16 es menor al alfa de 0.05

(2.2e-16 < 0.05) por lo que la variable no tiene normalidad en las materias primas

Lilliefors (Kolmogorov-Smirnov) normality test

data: sector_lacteo$Ncalif1

D = 0.28664, p-value < 2.2e-16

P-valor nos permite rechazar la hipótesis nula ya que 2.2e-16 es menor al alfa de 0.05

(2.2e-16 < 0.05) por lo que la variable no tiene normalidad en los trabajadores no

calificados.

Lilliefors (Kolmogorov-Smirnov) normality test

data: sector_lacteo$Calif

D = 0.28999, p-value < 2.2e-16

P-valor nos permite rechazar la hipótesis nula ya que 2.2e-16 es menor al alfa de 0.05

(2.2e-16 < 0.05) por lo que la variable no tiene normalidad en los trabajadores

calificados.

Prueba de shapiro-francia
Es una prueba estadística para la normalidad de una población, en base a datos de la

muestra. Fue introducido por SS Shapiro y RS Francia en 1972 como una simplificación

de la prueba de Shapiro-Wilk . Los estudios de comparación han concluido que la orden

estadística pruebas de correlación tales como Shapiro-Francia y Shapiro-Wilk están entre

los más potentes de los establecidos pruebas estadísticas para la normalidad . Se podría

suponer que la ponderación de covarianza ajustados en función de las diferentes

estadísticas de orden utilizado por la prueba de Shapiro-Wilk debe hacerlo un poco

mejor, pero en la práctica las variantes de Shapiro-Wilk y Shapiro-Francia son casi igual

de buena. De hecho, la variante de Shapiro-Francia realidad exhibe más poder distinguir

alguna hipótesis alternativa.[ CITATION Rev72 \l 9226 ]

A. Investigue en que consiste la prueba de Reset de Ramsey para determinar sesgo por

variable omitida, cuál es su forma teórica e interprete los resultados para la base de datos

adjunta.

Una medida empírica para verificar la existencia de una forma funcional inadecuada es la

prueba RESET de Ramsey. Considere el modelo y i = β 1+ β 2 x i + e i , al cual se le desea

probar si la forma funcional propuesta es o no inadecuada. Para realizar prueba de


¿
Ramsey se estima el modelo original y se predice la variable dependiente y i Luego se

efectúa una regresión auxiliar en la que al modelo original se adicionan los términos Yi ˆ

cuadráticos o de orden superior, dependiendo de la posible relación que exista entre i εˆ

y ¿i . [ CITATION Ram06 \l 9226 ]


RESET test

data: reg

RESET = 438.42, df1 = 10, df2 = 551, p-valué < 2.2e-16

Este análisis es robustecido por la prueba de Ramsey, pues al 1%, 5% y 10 % de

significancia ya que (P-Valor es demasiado pequeño) no puede afirmarse que el modelo

del sector manufacturero cuenta con una forma funcional inadecuada, es decir se acepta

la hipótesis de una buena especificación.

Capítulo 2

Utilizando la Base de data("Cars93") y aplicando los paquetes (MASS, ISLR, psych y

lmtest), estime un modelo que determine como variable dependiente el precio o las millas

por galón MPG respecto a variables como MPG.highway, Cylinders, enginesize,

horsepower, RPM, Fuel tank capacity, Passenger, Wheelbase, etc.

A. Utilice variables cuantitativas mediante un proceso Forward, Backward y


encuentre el mejor modelo.

“Tomamos el precio como variables de dependiente”


Forward vamos a arrancar con 0 variables.

Tabla 3

Una variable

Call:
lm(formula = Price ~ Min.Price, data = Cars93)
Residuals:
Min 1Q Median 3Q Max
-3.4903 -1.3775 -0.4157 0.8945 13.7965

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 1.15138 0.53527 2.151 0.0341 *
Min.Price 1.07197 0.02787 38.468 <2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 2.338 on 91 degrees of freedom


Multiple R-squared: 0.9421, Adjusted R-squared: 0.9414
F-statistic: 1480 on 1 and 91 DF, p-value: < 2.2e-16

Tabla 4

Dos variables
Call:
lm (formula = Price ~ Min.Price + Max.Price, data = Cars93)

Residuals:
Min 1Q Median 3Q Max
-0.050320 -0.000458 0.003157 0.004167 0.054450

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -0.0052010 0.0068482 -0.759 0.45
Min.Price 0.5003537 0.0008246 606.758 <2e-16 ***
Max.Price 0.4998382 0.0006539 764.452 <2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.02917 on 90 degrees of freedom
Multiple R-squared: 1, Adjusted R-squared: 1
F-statistic: 5.044e+06 on 2 and 90 DF, p-value: < 2.2e-16

Tabla 5

Tres variables
Call:
lm(formula = Price ~ Min.Price + Max.Price + Man.trans.avail,
data = Cars93)

Residuals:
Min 1Q Median 3Q Max
-0.060170 -0.002325 0.001600 0.010311 0.053160

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -0.0186863 0.0094615 -1.975 0.0514 .
Min.Price 0.5008934 0.0008533 587.033 <2e-16 ***
Max.Price 0.4996156 0.0006521 766.141 <2e-16 ***
Man.trans.availYes 0.0138995 0.0068518 2.029 0.0455 *
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.02868 on 89 degrees of freedom
Multiple R-squared: 1, Adjusted R-squared: 1
F-satisfice: 3.479e+06 on 3 and 89 DF, p-value: < 2.2e-16

Después de realizar la interacción con distintas variables se puede que todas las

variables que existen 3 variables que son relevantes para el modelo que son Min.Price,

Max Prince, Man.tras. availyes

Tabla 6

Backward

Call:
lm(formula = Price ~ Min.Price + Max.Price + MPG.city + MPG.highway +
EngineSize + Horsepower + RPM + Rev.per.mile + Man.trans.avail +
Passengers + Wheelbase + Width + Turn.circle + Rear.seat.room +
Luggage.room + Weight, data = Cars93)
Residuals:
Min 1Q Median 3Q Max
-0.060631 -0.011265 0.000749 0.011760 0.064099

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 6.510e-03 1.551e-01 0.042 0.9667
Min.Price 5.012e-01 1.122e-03 446.741 <2e-16 ***

Max.Price 4.997e-01 7.225e-04 691.569 <2e-16 ***


MPG.city 2.222e-03 2.136e-03 1.040 0.3023
MPG.highway -7.821e-04 2.177e-03 -0.359 0.7206
EngineSize -2.288e-02 1.327e-02 -1.724 0.0894 .
Horsepower 2.786e-04 2.340e-04 1.191 0.2381
RPM -1.846e-05 1.131e-05 -1.633 0.1074
Rev.per.mile -1.936e-05 1.207e-05 -1.603 0.1137
Man.trans.availYes 2.464e-02 1.101e-02 2.239 0.0286 *
Passengers -4.754e-03 8.114e-03 -0.586 0.5600
Wheelbase -5.257e-04 1.491e-03 -0.353 0.7256
Width -9.549e-04 2.453e-03 -0.389 0.6984
Turn.circle 2.906e-03 1.904e-03 1.526 0.1318
Rear.seat.room 4.086e-03 2.063e-03 1.981 0.0519 .
Luggage.room 9.875e-04 1.831e-03 0.539 0.5915
Weight 1.730e-06 2.643e-05 0.065 0.9480
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.02683 on 65 degrees of freedom


(11 observations deleted due to missingness)
Multiple R-squared: 1, Adjusted R-squared: 1
F-statistic: 6.976e+05 on 16 and 65 DF, p-value: < 2.2e-16

Incluimos todas las variables, pero podemos observar que existe que no son estadísticas

significancias varias.

Tabla 7

Residual:
Min 1Q Median 3Q Max
-0.060170 -0.002325 0.001600 0.010311 0.053160

Coeficientes:
Estímate Sed. Error t value Pr(>|t|)
(Intercepta) -0.0186863 0.0094615 -1.975 0.0514.
Min.Price 0.5008934 0.0008533 587.033 <2e-16 ***
Max.Price 0.4996156 0.0006521 766.141 <2e-16 ***
Man.trans.availYes 0.0138995 0.0068518 2.029 0.0455 *
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.02868 on 89 degrees of freedom


Multiple R-squared: 1, Adjusted R-squared: 1
F-satisfice: 3.479e+06 on 3 and 89 DF, p-value: < 2.2e-16

Después de haber realizado las interacciones podemos concluir que las variables

resultantes son Min.Price, Max Price, Man.trans. availyes lo cuales son significativos

para el modelo y son relevante para la toma de decisiones.

B. ¿Existe la necesidad de utilizar términos polinómicos o de interacción?

Claro es de gran importancia para obtener el mejor modelo y tenemos que fijarnos de

AIC para tomar una decisión es de gran importancia para conocer las variables que

afectan en el precio.

C. Construya una variable dummy para la variable origin. Que tome el valor de 1 si el

auto fue fabricado en Estados Unidos y 0 si no e inclúyala en el modelo, si desea incluir

más variables cualitativas lo puede hacer.

Dummy origin

Residuals:
Min 1Q Median 3Q Max
-12.509 -7.173 -2.109 2.791 41.391

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 18.573 1.395 13.316 <2e-16 ***
Originnon-USA 1.936 2.005 0.966 0.337
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 9.663 on 91 degrees of freedom


Multiple R-squared: 0.01014, Adjusted R-squared: -0.0007366
F-statistic: 0.9323 on 1 and 91 DF, p-value: 0.3368
Dummy origin and airbags

Price ~ Origin + AirBags, data = Cars93)

Residuals:
Min 1Q Median 3Q Max
-12.875 -5.851 -0.636 4.864 32.004

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 27.181 2.123 12.803 < 2e-16 ***
Originnon-USA 2.715 1.660 1.635 0.10548
AirBagsDriver only -7.220 2.337 -3.089 0.00268 **
AirBagsNone -15.445 2.424 -6.372 8.04e-09 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 7.979 on 89 degrees of freedom


Multiple R-squared: 0.3399, Adjusted R-squared: 0.3176
F-statistic: 15.27 on 3 and 89 DF, p-value: 4.256e-08

Por cada unidad en el precio Si original de estados unidos aumenta en 2.715 y si es

AirbagsNone disminuye aproximadamente en 15.445.

D.Realice las pruebas de Heterocedasticidad, normalidad, sesgo por variable omitida e

interprete los resultados.

Análisis los residuos


Identificar colinealidad
Analysis of Variance Table

Response: Price
Df Sum Sq Mean Sq F value Pr(>F)
Min.Price 1 8086.7 8086.7 9.7678e+06 < 2e-16 ***
Max.Price 1 497.2 497.2 6.0058e+05 < 2e-16 ***
Man.trans.avail 1 0.0 0.0 4.0877e+00 0.04623 *
EngineSize 1 0.0 0.0 4.0670e-01 0.52530
Residuals 88 0.1 0.0
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1

vif(modelo_multiple)

Min.Price Max.Price Mantras. avail EngineSize


7.077938 5.822620 1.696912 2.488373

Shapiro-Wilk normality test


data: modelo_multiple$residuals
W = 0.89022, p-value = 1.084e-06 Se rechaza la hipótesis nula por lo que no hay una

normalidad entre los datos del modelo.


Bibliografía
Aplica, E. y. (2011). http://www.ub.edu/aplica_infor/spss/cap5-6.htm. Obtenido de Educa

y Aplica : http://www.ub.edu/aplica_infor/spss/cap5-6.htm

Economica, Z. (2015). Rendimientos de Escala. Obtenido de

https://www.zonaeconomica.com/definicion/rendimientosescala

Estadística, R. d. (1972). Shapiro y RS Francia. Obtenido de

https://es.qwe.wiki/wiki/Shapiro%E2%80%93Francia_test

Jorge Mario Salcedo Mayorga. (2020). Econometria 1 Base datos Excel. Bogota.

Londoño, R. A.-J. (03 de 10 de 2006). INTRODUCCIÓN A LA ECONOMETRÍA.

Obtenido de

https://economia.uniandes.edu.co/files/profesores/ramon_rosales_alvarez/docs/ec

onometria1/documentos%20de%20clase/Introduccion_.pdf

M.Wooldridge, J. (2010). Introduccion a la econometria un enfoque moderno. Mexico:

Cengage learning.

Mayorga, J. M. (2020). Base Datos Excel . Bogota.

Rodrigo, J. A. (2016). Introducción a la Regresión Lineal Múltiple.

También podría gustarte