Está en la página 1de 38

Universidad Nacional Autónoma de México

Instituto de Investigaciones Económicas

Econometría Intermedia
Econometría Intermedia
NORMALIDAD EN
NORMALIDAD EN LOS
LOS RESIDUOS
RESIDUOS

Mtro. Uberto Salgado Nieto


ubertosalgado@comunidad.unam.mx

Posgrado de Economía
Semestre 2022-I
INTRODUCCIÓN.
 En econometría empleamos la teoría
económica y datos estadísticos, con los
cuales construimos modelos que proveen un
resumen de la información disponible.

 La información teórica sugiere cuales son las


variables económicas que juegan un papel
clave y si estas variables se relacionan en
forma positiva o negativa.
 La mayor parte de los modelos econométricos solo
abordan teorías que explican una parte de la economía,
aislándola de otros factores (Supuesto Ceteris Paribus).

 Esto implica que en econometría nos enfrentamos a


dos cuestionamientos:

◦ ¿Cómo deben especificarse las relaciones entre las variables de


interés?

◦ ¿Cómo deben considerarse el resto de los factores que puedan


influir sobre nuestro modelo?
 En la práctica es común que al comenzar un
modelo econométrico, este no se ajuste en
forma adecuada a los datos y esto puede
ocurrir sin importar los grandes esfuerzos
por recabar la información más precisa o
adaptar de la mejor manera alguna teoría
económica.
 El modelo podría incluso ser muy débil,
debido a que posiblemente aspectos
importantes de los datos no se han podido
explicar o por que algunos de los supuestos
básicos del modelo econométrico han sido
violados.

 Esto puede deberse a que el modelo no esta


correctamente especificado.
 Los modelos se pueden construir de tal forma
que es posible ajustarlos de acuerdo a la
información observada:

◦ Incorporar información relevante al modelo puede


contribuir a conocer de mejor manera el proceso
económico adyacente.
 Como la teoría económica no sugiere la
aplicación explicita de cierto modelo
econométrico, es posible tener cierta libertad
al escoger la especificación del modelo.

 En este sentido las pruebas de diagnóstico


nos ayudan a tener una idea más clara sobre
cuales son los aspectos que podemos ajustar
del modelo.
NORMALIDAD
 ¿Por qué es importante el supuesto de la
normalidad?

 La normalidad en los residuos nos garantiza


que el estimador de los mínimos cuadrados
ordinarios es consistente y eficiente

 Diversas pruebas econométricas (como la t y


la F) se calculan a partir de suponer que existe
una relación con una distribución normal.
 Sin embargo, en la práctica nos encontramos
con algunas perturbaciones en la
distribución.
 Al estimar por mínimos cuadrados ordinarios,

los parámetros de la regresión se estiman a


partir de un criterio de minimización.
 Esto implica que los errores han sido
penalizados de la misma forma para todas las
observaciones.

 Los errores grandes se penalizan más que


proporcionadamente.

 Considerando que los resultados dependen en


gran medida en unas cuantas observaciones,
es necesario investigar la validez del modelo.
 Si existe algún dato anormalmente alto,
provocado por alguna situación especial que
se encuentra fuera del alcance del modelo,
puede provocar una alteración sobre la
distribución de los errores del modelo.
Ejemplo en STATA
 Empleamos la base de datos “elemapi2.dta”, la
cual contiene información sobre el desempeño
académico de la educación básica en Estados
Unidos.

 Vamos a demostrar que el desempeño


académico (api00) está en función del
porcentaje de alumnos que recibe desayunos
gratuitos (meals), de los que están aprendiendo
ingles (ell) y del porcentaje de maestros con
credenciales nuevas (emer).
 regress api00 meals ell emer

 Usamos el comando predict, para generar


residuos.

 predict r, resid
 Un método gráfico para analizar la
normalidad se puede realizar por medio del
histrograma de la distribución de los datos,
se puede incorporar la opción de que se
incorpore una curva con la densidad de la
normal teórica

 histogram r, normal
Prueba de sesgo y curtosis para la
normalidad
 Para la variable a probar, se generan pruebas
para la normalidad basadas en el sesgo y
otras para la curtosis y otra prueba
combinando ambas características.

 Esta prueba sobre la normalidad se puede


aplicar si al menos contamos con 8 datos
disponibles.
 Si consideramos el siguiente modelo de
regresión lineal:

 Donde:

 para toda j≠i


 La prueba sobre el supuesto de que los
errores se distribuyen como una normal se
lleva a cabo a través de las medias de los
residuos de la regresión lineal.

 En términos generales es posible comparar


los momentos muestrales de los residuos con
sus momentos teóricos bajo la hipótesis nula
de que existe una distribución normal.
 De tal forma que su sesgo y curtosis sean
iguales a:

 Si se sostiene la hipótesis nula de que existe


normalidad, entonces los residuos ei tienen
un sesgo cercano a 0 y una curtosis cercana a
3.
 Como asumimos que la media muestral de
los residuos es cero, el j-ésimo momento de
los residuales esta dado por:

 El sesgo y la curtosis pueden ser calculados


como:
 El estadístico de Jarque Bera se construye
como:

K
 Esta prueba se realiza mediante el comando
sktest; en este caso la hipótesis nula indica
que el sesgo y la curtosis corresponden a una
distribución normal.

 sktest r
Manualmente
 summ r, det
 scalar jb= ((400-(5+1))/6)*((.17028733^2)+

[(1/4)*(3.1186792-3)^2])
 scalar list jb
 scalar jbsig= chiprob(2, jb)

 di "Jarque-Bera normality test: " jb


 di "Prob>Chi2 " jbsig
Ejercicio 2
base de datos crime.dta
 Contiene variables como el identificador del
Estado (sid), nombre del estado (state), los delitos
violentos por cada 100.000 personas (crime), los
homicidios por millón (murder), el porcentaje de
la población que vive en zonas metropolitanas
(pctmetro), el porcentaje de la población que es
de color blanco (pctwhite), el porcentaje de
población con educación secundaria o superior
(pcths), el porcentaje de población que vive bajo la
línea de pobreza (poverty), y el porcentaje de la
población que son padres solteros (single).
 Vamos a estimar una ecuación donde, el crimen
(crime) esta en función de (pctmetro), (poverty ) y
(single).

 Primero vamos a observar los gráficos de dispersión


de crimen contra cada una de las variables de
predicción antes del análisis de regresión para ver si
pueden existir problemas potenciales.

 Creamos un diagrama de dispersión matricial de las


variables.
 graph matrix crime pctmetro poverty single

 Para verlo de forma más clara vamos a hacer


gráficas individuales de delito respecto a las
demás.
 scatter crime pctmetro, mlabel(state)
 scatter crime poverty, mlabel(state)
 scatter crime single, mlabel(state)

 Añadimos la opción mlabel (state) para


etiquetar cada marcador con el nombre del
estado con la finalidad de identificar los
estados periféricos.
 Realizamos la estimación del modelo

 regress crime pctmetro poverty single

 Vamos a tratar de detectar si existen


observaciones atípicas que pudiesen afectar
el supuesto de normalidad en los residuos
 Para caracterizar datos de influencia sobre
nuestro modelo de regresión y=xb+ε,
podemos emplear la siguiente matriz:

 La cual explica una parte de la variable


dependiente, ya que E(y)=xb=Hy. Donde el j-
ésimo elemento diagonal de H es:
 Este valor de hj es conocido como
apalancamiento de la observación j-ésima y
tiene una media k/n.

 Un apalancamiento grande implica que los


valores de la variable explicativa xj son
inusuales si se comparan con el promedio de
esos valores sobre el resto de la muestra.
 Una observación es considerada como
anormal (outlier) si la observación difiere
substancialmente de lo que seria el patrón
general del resto de observaciones.
Provocando un residual alto

 Para identificar fácilmente esos patrones es


necesario buscar un mecanismo que
normalice los residuos, por tanto se utilizan
los residuos “estudentizados”
 Los residuos estudentizados se pueden
obtener dejando fuera a la observación j-
ésima.

 Es decir, se desarrolla una regresión sobre el


modelo yi=xiβ+εi usando las (n-1)
observaciones i≠j, de tal forma que la
observación j-esima se excluye.
 Si b(j) y s2(j) son los estimadores
correspondientes de MCO de β y σ2.

 Los residuos estudentizados pueden ser


estimados como:
 Si e*j es grande, esto significa que que yi no
puede predecir bien el resto de las
observaciones, esto significa que la
observación j-esima no se ajusta bien al
patrón general de las observaciones.

 Por tanto, la observarción j-ésima es una


observación anormal.
 Vamos a utilizar el comando “lvr2plot” para
desplegar un diagrama que muestra el
apalancamiento de los residuos y los residuos
estudentizados al cuadrado para ver que
observaciones tienen altos valores en ambos
rubros

 Pues a esas observaciones con un alto nivel de


apalancamiento y un alto valor atípico, se le
conoce como observación de influencia y puede
incluso afectar al cálculo de los parámetros.
 lvr2plot, mlabel(state)

 Las dos líneas de referencia son la media del


apalancamiento, eje horizontal, y la media del
residual normalizado cuadrado, eje vertical.
 Este análisis sugiere que DC es una
observación de influencia sobre la
estimación.

 Dado que DC no es un estado, los autores de


esa investigación usan este argumento para
justificar el uso de una variable dummy para
esta observación en el análisis, sólo les
interesaba analizar la criminalidad en los
estados de la federación.
 Creamos la variable dummy

 gen dum_dc=0

 replace dum_dc=1 if sid==51


 Ahora analicemos la variación que provoca
DC en la estimación.

 regress crime pctmetro poverty single

 Realizamos el análisis con la dummy para DC

 regress crime pctmetro poverty single


dum_dc

También podría gustarte