Normalidad 2

Universidad Nacional Autónoma de México
Instituto de Investigaciones Económicas
Econometría Intermedia
Econometría Intermedia
NORMALIDAD EN
NORMALIDAD EN LOS
LOS RESIDUOS
RESIDUOS
Mtro. Uberto Salgado Nieto

ubertosalgado@comunidad.unam.mx
Posgrado de Economía
Semestre 2022-I
INTRODUCCIÓN.
 En econometría empleamos la teoría
económica y datos estadísticos, con los
cuales construimos modelos que proveen un
resumen de la información disponible.
 La información teórica sugiere cuales son las

variables económicas que juegan un papel
clave y si estas variables se relacionan en
forma positiva o negativa.
 La mayor parte de los modelos econométricos solo
abordan teorías que explican una parte de la economía,
aislándola de otros factores (Supuesto Ceteris Paribus).
 Esto implica que en econometría nos enfrentamos a

dos cuestionamientos:
◦ ¿Cómo deben especificarse las relaciones entre las variables de

interés?
◦ ¿Cómo deben considerarse el resto de los factores que puedan

influir sobre nuestro modelo?
 En la práctica es común que al comenzar un
modelo econométrico, este no se ajuste en
forma adecuada a los datos y esto puede
ocurrir sin importar los grandes esfuerzos
por recabar la información más precisa o
adaptar de la mejor manera alguna teoría
económica.
 El modelo podría incluso ser muy débil,
debido a que posiblemente aspectos
importantes de los datos no se han podido
explicar o por que algunos de los supuestos
básicos del modelo econométrico han sido
violados.
 Esto puede deberse a que el modelo no esta

correctamente especificado.
 Los modelos se pueden construir de tal forma
que es posible ajustarlos de acuerdo a la
información observada:
◦ Incorporar información relevante al modelo puede

contribuir a conocer de mejor manera el proceso
económico adyacente.
 Como la teoría económica no sugiere la
aplicación explicita de cierto modelo
econométrico, es posible tener cierta libertad
al escoger la especificación del modelo.
 En este sentido las pruebas de diagnóstico

nos ayudan a tener una idea más clara sobre
cuales son los aspectos que podemos ajustar
del modelo.
NORMALIDAD
 ¿Por qué es importante el supuesto de la
normalidad?
 La normalidad en los residuos nos garantiza

que el estimador de los mínimos cuadrados
ordinarios es consistente y eficiente
 Diversas pruebas econométricas (como la t y

la F) se calculan a partir de suponer que existe
una relación con una distribución normal.
 Sin embargo, en la práctica nos encontramos
con algunas perturbaciones en la
distribución.
 Al estimar por mínimos cuadrados ordinarios,
los parámetros de la regresión se estiman a

partir de un criterio de minimización.
 Esto implica que los errores han sido
penalizados de la misma forma para todas las
observaciones.
 Los errores grandes se penalizan más que

proporcionadamente.
 Considerando que los resultados dependen en

gran medida en unas cuantas observaciones,
es necesario investigar la validez del modelo.
 Si existe algún dato anormalmente alto,
provocado por alguna situación especial que
se encuentra fuera del alcance del modelo,
puede provocar una alteración sobre la
distribución de los errores del modelo.
Ejemplo en STATA
 Empleamos la base de datos “elemapi2.dta”, la
cual contiene información sobre el desempeño
académico de la educación básica en Estados
Unidos.
 Vamos a demostrar que el desempeño

académico (api00) está en función del
porcentaje de alumnos que recibe desayunos
gratuitos (meals), de los que están aprendiendo
ingles (ell) y del porcentaje de maestros con
credenciales nuevas (emer).
 regress api00 meals ell emer
 Usamos el comando predict, para generar

residuos.
 predict r, resid
 Un método gráfico para analizar la
normalidad se puede realizar por medio del
histrograma de la distribución de los datos,
se puede incorporar la opción de que se
incorpore una curva con la densidad de la
normal teórica
 histogram r, normal
Prueba de sesgo y curtosis para la
normalidad
 Para la variable a probar, se generan pruebas
para la normalidad basadas en el sesgo y
otras para la curtosis y otra prueba
combinando ambas características.
 Esta prueba sobre la normalidad se puede

aplicar si al menos contamos con 8 datos
disponibles.
 Si consideramos el siguiente modelo de
regresión lineal:
 Donde:
 para toda j≠i

 La prueba sobre el supuesto de que los
errores se distribuyen como una normal se
lleva a cabo a través de las medias de los
residuos de la regresión lineal.
 En términos generales es posible comparar

los momentos muestrales de los residuos con
sus momentos teóricos bajo la hipótesis nula
de que existe una distribución normal.
 De tal forma que su sesgo y curtosis sean
iguales a:
 Si se sostiene la hipótesis nula de que existe

normalidad, entonces los residuos ei tienen
un sesgo cercano a 0 y una curtosis cercana a
3.
 Como asumimos que la media muestral de
los residuos es cero, el j-ésimo momento de
los residuales esta dado por:
 El sesgo y la curtosis pueden ser calculados

como:
 El estadístico de Jarque Bera se construye
como:
K
 Esta prueba se realiza mediante el comando
sktest; en este caso la hipótesis nula indica
que el sesgo y la curtosis corresponden a una
distribución normal.
 sktest r
Manualmente
 summ r, det
 scalar jb= ((400-(5+1))/6)*((.17028733^2)+
[(1/4)*(3.1186792-3)^2])
 scalar list jb
 scalar jbsig= chiprob(2, jb)
 di "Jarque-Bera normality test: " jb

 di "Prob>Chi2 " jbsig
Ejercicio 2
base de datos crime.dta
 Contiene variables como el identificador del
Estado (sid), nombre del estado (state), los delitos
violentos por cada 100.000 personas (crime), los
homicidios por millón (murder), el porcentaje de
la población que vive en zonas metropolitanas
(pctmetro), el porcentaje de la población que es
de color blanco (pctwhite), el porcentaje de
población con educación secundaria o superior
(pcths), el porcentaje de población que vive bajo la
línea de pobreza (poverty), y el porcentaje de la
población que son padres solteros (single).
 Vamos a estimar una ecuación donde, el crimen
(crime) esta en función de (pctmetro), (poverty ) y
(single).
 Primero vamos a observar los gráficos de dispersión

de crimen contra cada una de las variables de
predicción antes del análisis de regresión para ver si
pueden existir problemas potenciales.
 Creamos un diagrama de dispersión matricial de las

variables.
 graph matrix crime pctmetro poverty single
 Para verlo de forma más clara vamos a hacer

gráficas individuales de delito respecto a las
demás.
 scatter crime pctmetro, mlabel(state)
 scatter crime poverty, mlabel(state)
 scatter crime single, mlabel(state)
 Añadimos la opción mlabel (state) para

etiquetar cada marcador con el nombre del
estado con la finalidad de identificar los
estados periféricos.
 Realizamos la estimación del modelo
 regress crime pctmetro poverty single
 Vamos a tratar de detectar si existen

observaciones atípicas que pudiesen afectar
el supuesto de normalidad en los residuos
 Para caracterizar datos de influencia sobre
nuestro modelo de regresión y=xb+ε,
podemos emplear la siguiente matriz:
 La cual explica una parte de la variable

dependiente, ya que E(y)=xb=Hy. Donde el j-
ésimo elemento diagonal de H es:
 Este valor de hj es conocido como
apalancamiento de la observación j-ésima y
tiene una media k/n.
 Un apalancamiento grande implica que los

valores de la variable explicativa xj son
inusuales si se comparan con el promedio de
esos valores sobre el resto de la muestra.
 Una observación es considerada como
anormal (outlier) si la observación difiere
substancialmente de lo que seria el patrón
general del resto de observaciones.
Provocando un residual alto
 Para identificar fácilmente esos patrones es

necesario buscar un mecanismo que
normalice los residuos, por tanto se utilizan
los residuos “estudentizados”
 Los residuos estudentizados se pueden
obtener dejando fuera a la observación j-
ésima.
 Es decir, se desarrolla una regresión sobre el

modelo yi=xiβ+εi usando las (n-1)
observaciones i≠j, de tal forma que la
observación j-esima se excluye.
 Si b(j) y s2(j) son los estimadores
correspondientes de MCO de β y σ2.
 Los residuos estudentizados pueden ser

estimados como:
 Si e*j es grande, esto significa que que yi no
puede predecir bien el resto de las
observaciones, esto significa que la
observación j-esima no se ajusta bien al
patrón general de las observaciones.
 Por tanto, la observarción j-ésima es una

observación anormal.
 Vamos a utilizar el comando “lvr2plot” para
desplegar un diagrama que muestra el
apalancamiento de los residuos y los residuos
estudentizados al cuadrado para ver que
observaciones tienen altos valores en ambos
rubros
 Pues a esas observaciones con un alto nivel de

apalancamiento y un alto valor atípico, se le
conoce como observación de influencia y puede
incluso afectar al cálculo de los parámetros.
 lvr2plot, mlabel(state)
 Las dos líneas de referencia son la media del

apalancamiento, eje horizontal, y la media del
residual normalizado cuadrado, eje vertical.
 Este análisis sugiere que DC es una
observación de influencia sobre la
estimación.
 Dado que DC no es un estado, los autores de

esa investigación usan este argumento para
justificar el uso de una variable dummy para
esta observación en el análisis, sólo les
interesaba analizar la criminalidad en los
estados de la federación.
 Creamos la variable dummy
 gen dum_dc=0
 replace dum_dc=1 if sid==51

 Ahora analicemos la variación que provoca
DC en la estimación.
 Realizamos el análisis con la dummy para DC

dum_dc

Normalidad 2

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Normalidad 2

Cargado por

Copyright:

Formatos disponibles

Universidad Nacional Autónoma de México

Instituto de Investigaciones Económicas

Mtro. Uberto Salgado Nieto

 La información teórica sugiere cuales son las

 Esto implica que en econometría nos enfrentamos a

◦ ¿Cómo deben especificarse las relaciones entre las variables de

◦ ¿Cómo deben considerarse el resto de los factores que puedan

 Esto puede deberse a que el modelo no esta

◦ Incorporar información relevante al modelo puede

 En este sentido las pruebas de diagnóstico

 La normalidad en los residuos nos garantiza

 Diversas pruebas econométricas (como la t y

los parámetros de la regresión se estiman a

 Los errores grandes se penalizan más que

 Considerando que los resultados dependen en

 Vamos a demostrar que el desempeño

 Usamos el comando predict, para generar

 Esta prueba sobre la normalidad se puede

 para toda j≠i

 En términos generales es posible comparar

 Si se sostiene la hipótesis nula de que existe

 El sesgo y la curtosis pueden ser calculados

 di "Jarque-Bera normality test: " jb

 Primero vamos a observar los gráficos de dispersión

 Creamos un diagrama de dispersión matricial de las

 Para verlo de forma más clara vamos a hacer

 Añadimos la opción mlabel (state) para

 regress crime pctmetro poverty single

 Vamos a tratar de detectar si existen

 La cual explica una parte de la variable

 Un apalancamiento grande implica que los

 Para identificar fácilmente esos patrones es

 Es decir, se desarrolla una regresión sobre el

 Los residuos estudentizados pueden ser

 Por tanto, la observarción j-ésima es una

 Pues a esas observaciones con un alto nivel de

 Las dos líneas de referencia son la media del

 Dado que DC no es un estado, los autores de

 replace dum_dc=1 if sid==51

 regress crime pctmetro poverty single

 Realizamos el análisis con la dummy para DC

 regress crime pctmetro poverty single

También podría gustarte