Está en la página 1de 11

PROBLEMA DE ESPECIFICACIÓN Y DATOS

Reescalonamiento de variables
En ocasiones, en los modelos de regresión resulta conveniente cambiar la
escala de ciertos datos. Se trataría de la misma variable, pero medida de
forma diferente. Esto implica considerar dos casos:

Reescalamiento de la variable dependiente:


Si la variable Y(dependiente) de un modelo de regresión y se la multiplica
por un factor A, toda la regresión quedara igualmente multiplicada por ese
factor A, el cual también puede ser una fracción. Por ejemplo, podemos
considerar el modelo siguiente:

Ahora hagamos un reescalamiento de la variable dependiente para que el


peso del bebe este medido en libras y ya no en onzas.
Esto implica la siguiente transformación:
Dado esto la ecuación de regresión quedara transformada como sigue:

Vemos que cada uno de los coeficientes beta(B) a quedado multiplicado


por el factor 1/16. Asimismo, las desviaciones estándar de cada uno de los
coeficientes B quedaran respectivamente multiplicadas por (1/16). Implica
que la estadística de t student de significancia individual se mantendrá
constante. En otras palabras, el cambiar la escala de una variable no
afecta a su significancia estadística.
Reescalamiento de alguna variable explicativa
Si una variable X se multiplica por un factor A, su coeficiente quedará
dividido por ese mismo factor A, e cual puede ser una fracción. Así por
ejemplo podemos tomar la variable “packs” que denota los cigarros
fumados pero medidos en términos de paquete, de modo que se estaría
hacieno la transformación siguiente.
cigs
packs= 20

Nótese que se lo está multiplicando por 1/20.


En este caso la regresión queda modificada como sigue:

Nótese que el coeficiente B1 que acompaña a la variable “packs” queda


multiplicado por 20, que es lo mismo que ser dividido entre 1/20.
Esto implica que también la desviación estándar de tal coeficiente quedara
multiplicada por 20.

Modelos con términos cuadráticos


Se pueden agregar a las regresiones el cuadrado o los cuadrados de alguna
o algunas de las variables explicativas.
En la forma más simple podemos denotar este tipo de modelo como
sigue:

En principio el coeficiente B1 se interpretaría como el efecto de un


incremento de la variable X sobre la variable Y. Sin embargo para ello
habría que asumir la condición ceteris paribus, lo cual no es viable en este
caso por que no se puede hacer variar a la variable X sin que al mismo
tiempo varia la variable X2. Por lo tanto, para calcular el efecto de X/Y
habrá que hacerlo conforme a la siguiente aproximación:

Como puede verse en esta ultima expresión, el


impacto de X/ Y no será constante, sino que ira variando en función de los
valores que vaya tomando X. Asimismo igualando este efecto a 0 y
despejando podremos hallar el valor de X que hace que el efecto sobre Y
sea mínimo o máximo.

El considerar términos cuadrático es importante precisamente porque


muchas veces en el mundo económico el efecto de una variable sobre otra
no es constante. Por ejemplo consideremos la relación entre la
experiencia laboral y el salario.
MALA ESPECIFICACION
Cuando se plantea un modelo de regresión se puede considerar diversas
alternativas que se les puede agregar o quitar tales como variables
dummy, logaritmos, efectos interactivos, términos cuadráticos, etc.
Por ejemplo, podemos considerar la ecuación:

Aquí podemos preguntarnos si alguno de las términos usados en la


ecuación sobra o falta. En caso esta ecuación no constituya la mejor forma
de captar la relación entre los datos, diremos que hay problema de mala
especificación de la forma funcional.

EL CESGO DE LAS VARIABLES COGNITIVAS


Este problema se presenta cuando hay variable relevantes que no han
sido incluidas en nuestro modelo. Cuando esto sucede, ello puede
distorsionar los coeficientes beta de las variables que si estamos
considerando en nuestro modelo. Por tal motivo debemos ser muy
cuidadosos en elegir que variables deben incluir o no en nuestro modelo,
pues no conviene tener demasiadas variables, pero al mismo tiempo no
debe omitirse ninguna importante, pues ello puede afectar la insesgadez e
inconsistencia de los estimadores beta.

El test RESET
Es una prueba de hipótesis que sirve para verificar si es que hay problema
de mala especificación de la forma funcional por haber omitido términos
cuadráticos o cúbicos. De este modo podemos partir de la ecuación base:
Con base en esto, para aplicar al test RESET se utiliza la siguiente ecuación
auxiliar:

Nótese que se están incorporando el cuadrado y el cubo de la ecuación


estimada.
Con base en ello, se puede especificar la hipótesis nula del test RESET
como

Si se rechaza la hipótesis nula decimos que hay problema de mala


especificación de la forma funcional y en ese caso habrá que intentar
poniendo sucesivamente el cuadrado de cada una de las variables
explicativas hasta ver cuando se da que el coeficiente beta del efecto
cuadrático es estadísticamente significativo.

Variables Proxy
En ocasiones tenemos cierta variable que sabemos que es importante
para nuestro modelo pero que al mismo tiempo no contamos con una
base de datos. En esos casos habrá que utilizar alguna variable de la que si
haya datos y que nos dé una aproximación respecto de la primera. por
ejemplo, podemos considerar la ecuación:

La variable “abil” representa aquí a la habilidad del trabajador y eso no se


puede medir directamente de modo que utilizamos como proxy al
coeficiente intelectual de los trabajadores.

Variables Rezagadas
Una variable rezagada es la misma variable de interés, pero medida en el
periodo anterior. Por ejemplo, podemos considerar la ecuacion siguiente:

Acompañando al coeficiente B3 está el rezago del crimen, que es la tasa


de criminalidad del año anterior.

EJERCICIOS
Capitulo 6(ejercicio de computadora)
2)
a
regress lwage educ exper expersq

. regress lwage educ exper expersq

Source SS df MS Number of obs = 526


F(3, 522) = 74.67
Model 44.5393713 3 14.8464571 Prob > F = 0.0000
Residual 103.79038 522 .198832146 R-squared = 0.3003
Adj R-squared = 0.2963
Total 148.329751 525 .28253286 Root MSE = .44591

lwage Coefficient Std. err. t P>|t| [95% conf. interval]

educ .0903658 .007468 12.10 0.000 .0756948 .1050368


exper .0410089 .0051965 7.89 0.000 .0308002 .0512175
expersq -.0007136 .0001158 -6.16 0.000 -.000941 -.0004861
_cons .1279975 .1059323 1.21 0.227 -.0801085 .3361035

b
Como el p-value de termino cuadrático de un valor de 0.00 diremos que si
es estadísticamente significativo. Esto implica que es necesario incluir tal
estructura cuadrática para captar correctamente la dinámica de los datos.

c
Esta aproximación para ver el efecto de la experiencia se deduce de
considerar la derivada de la ecuación con respecto a la variable
experiencia.
De este modo obtenemos:
2
dlog (wage) d (β 0+ β 1 educ + β 2 exper + β3 exper )
=
dexper dexper

dlog (wage)
=β 2+2 β 3 exper
dexper

Nótese que esta última formula implica que el efecto de la experiencia


laboral sobre el salario está variando en función del valor de la experiencia
misma. Aplicando esto a nuestros resultados de regresión tenemos

display 0.0410089+2*(-0.0007136)*5
.0338729

Ahora analizaremos el mismo calculo para ver el efecto del vigésimo año
de experiencia.
display 0.0410089+2*(-0.0007136)*20
.0124649
Aquí se encuentra el efecto del vigésimo año de experiencia en donde será
aumentado el salario en 1.25%. Por tanto, se verifica que a medida que
mas pasa el tiempo menos efecto tiene la experiencia laboral respecto de
la experiencia sobre el salario ira siendo menor a lo largo del tiempo

d
Para entender este punto debemos tomar en cuenta que normalmente
que el efecto de la experiencia estará como sigue:
lwage
Hallaremos el punto máximo del efecto con la cantidad de experiencia
asociada mediante la siguiente formula que se aplica tomando
exper todos los
coeficientes como positivos.
display 0.0410089/(2*0.0007136)
28.733814
Si una persona tiene 28.73 años de experiencia laboral, su salario llegara a
ser máximo. Por tanto, las personas con 29 o mas años de experiencia
laboral tendrán salarios totales que irán reduciendo.

CAPITULO 9 (Ej. Computadora)


1
i)
generate rosneg = 0
replace rosneg = 1 if ros < 0
regress lsalary lsales roe rosneg
predict double r1
generate double r2=r1=r1
generate double r3=r2=r1
regress lsalary lsales roe rosneg r2 r3
test r2 r3

La primera línea de comando crea la variable rosneg como procede. La


segunda línea remplaza 1 cada vez que los beneficios son negativos, de
modo que se crea la variable dummy. La tercera línea corre la regresión
incluyendo esta variable dummy creada para este problema en específico.
La tres líneas que siguen(de la cuarta a la sexta)crean el efecto cuadrático
y cubico para evaluar el test RESET. La última línea corre la mencionada
regresión auxiliar. La última línea ejecuta el test RESET.

Se obtiene un pvalue de 0.27, de modo que no se rechaza la hipótesis nula


de que el modelo esta correctamente especificado. En consecuencia no
será necesario agregar términos cuadráticos o cúbicos al modelo.

CAPITULO 6
4
i)
regress sat hsize hsizesq
. regress sat hsize hsizesq

Source SS df MS Number of obs = 4,137


F(2, 4134) = 15.93
Model 614822.097 2 307411.048 Prob > F = 0.0000
Residual 79759024.2 4,134 19293.4263 R-squared = 0.0076
Adj R-squared = 0.0072
Total 80373846.3 4,136 19432.7481 Root MSE = 138.9

sat Coefficient Std. err. t P>|t| [95% conf. interval]

hsize 19.81446 3.990666 4.97 0.000 11.99061 27.63831


hsizesq -2.130606 .549004 -3.88 0.000 -3.206949 -1.054263
_cons 997.9805 6.203448 160.88 0.000 985.8184 1010.143

ii)
Para ello aplicamos la formula del tamaño optimo en un modelo
cuadrático considerando el valor absoluto.

display 19.81446/(2*2.130606)
4.6499587
Como el tamaño de la escuela esta medida en cientos de alumnos diremos
que el tamaño optimo es 465 años.

iii)
No es representativo del todo porque se trata solo de un colegio de los
Estados Unidos.

iv)
En este caso tendremos primero que crear el logaritmo de la variable sat

generate lsat=log(sat)
regress lsat hsize hsizesq

Source SS df MS Number of obs = 4,137


F(2, 4134) = 16.19
Model .614405203 2 .307202602 Prob > F = 0.0000
Residual 78.4287724 4,134 .018971643 R-squared = 0.0078
Adj R-squared = 0.0073
Total 79.0431776 4,136 .01911102 Root MSE = .13774

lsat Coefficient Std. err. t P>|t| [95% conf. interval]

hsize .0196029 .0039572 4.95 0.000 .0118445 .0273612


hsizesq -.0020872 .0005444 -3.83 0.000 -.0031546 -.0010199
_cons 6.896029 .0061515 1121.03 0.000 6.883969 6.908089

Ahora calculamos el tamaño optimo con la formula de antes pero con los
nuevos resultados:

display 0.0196029/(2*0.0020872)
4.6959803
Por lo tanto, hallamos que en el modelo con logaritmo del tamaño optimo
es de 470 años, lo cual es cercano al resultado obtenido anteriormente.

También podría gustarte