Está en la página 1de 26

GUIA DE STATA

En primer Lugar se debe adecuar la base de datos, para pasarla a STATA.

• Variables Dicotómicas
• Variables numéricas sin separadores.

Para cargar los datos, cliqueamos el botón data Editor en la barra de herramientas.
Inmediatamente
después se despliega
una ventana con una
cuadricula similar a
Excel, en la que se
proseguirá a montar la
base de datos.
Se seleccionan los datos de la hoja de datos en
Excel.

Situado en la celda ubicada en la parte superior


izquierda del <<Data Editor>> en STATA, Clic
derechoà Paste, para pegar los datos. En forma
similar situándose en la misma celda y usando la
combinación de teclas <<CTRL + v>> tiene el mismo
efecto. En la ventana variables (parte inferior
izquierda de la pantalla) aparecerá las variables que
se acaban de importar.

Para poder realizar en análisis, es necesario cerrar el <<Data Editor>>. Recuerde Siempre cerrar el
Editor de datos (data Editor)

Antes de realizar un análisis estadístico, primero una breve referencia a como guardar y abrir los
datos y los resultados. STATA utiliza dos tipos de archivos:
• Archivos con extensión .dta que son los que utiliza para guardar los datos (las variables y
sus valores.
• Archivos .do que se utilizan para guardar rutinas y para guardar los resultados obtenidos al
hacer el tratamiento a los datos.

Para guardar los datos prosiga de la siguiente forma: Acceda al Menu Fileàsave as

Al hacer esto aparecerá un cuadro de dialogo en el que se indicara el destino o lugar donde se van
a guardar los datos. Luego de indicar el nombre y destino, se da clic en guardar.

Para recuperar los datos al iniciar a trabajar de nuevo, en la pantalla principal se utiliza el botón
open (abrir) (botón amarillo) y se busca donde se guardaron los datos con anterioridad.
Por otro lado, para guardar los resultados, se prosigue así. En la barra de herramientas se da clic
en el botón New Do file Editor, abriendo una nueva ventana con una hoja en blanco, con el titulo
en la parte superior “untitle.do”.
En la ventana de resultados del STATA se seleccionan los resultados, y luego se copian.
Posteriormente en el archivo do en blanco que se abrió antes se da clic derecho paste.
Ahora en el menú fileàsave as. Se indica la ubicación donde se desea guardar.

Para recuperar los resultados se prosigue de nuevo desde el botón New do file editor. Y se da clic
en el botón abrir (botón amarillo) y se ubica donde se guardo el archivo.
Para estimar el modelo de regresión, se escribe el siguiente comando en la ventana comand de la
pantalla principal de STATA:

Reg Y X1 X2 X3 …Xk

Donde las palabras en Rojo son comandos de STATA, y las palabras en Azul son nombres de
variables dadas por el usuario. A su vez, Y es la variable dependiente del modelo y x1 a xk son las
variables independientes del mismo. En este caso particular se tiene:

reg valormconstruccion puntaje edad tipo2 tipo3 tipo5 estrato2 estrato3 estrato5 localidad7
localidad8 localidad9 localidad11 localidad16 localidad19

Oprimimos la tecla Enter Para Ejecutar el comando. Inmediatamente aparecerán los resultados del
modelo estimado.

Ahora se prosigue a ejecutar el mismo comando, pero esta vez eliminando las variables dicótomas
que generarían problemas de multicolinealidad perfecta (aparecen con el texto dropped),
haciendo imposible el calculo matemático de modelo. Para hacerlo, se puede escribir el comando
como en la instrucción anterior, o se puede cliquear en la lista de comandos en la venta review el
último comando ejecutado, y borrar en la ventana comand las variables con el texto dropped.
De esta forma, el modelo estimado seria:

En Forma similar se prosigue a eliminar las variables no significativas (que no sirven) del modelo.
Para esto se estima la regresión borrando del comando a ejecutar las variables que tengan un
Valor P mayor a 0.10 (el valor P se observa en la tabla de salida de la regresión en la columna P>|t|.
Este procedimiento se ejecuta de mayor a menor, borrando una sola variable, la que
tenga el valor P mas alto

En el ejemplo se elimina la variable Localidad8 por presentar el mayor valor P.

Se prosigue igual hasta que todas las variables tengan un Valor P inferior a 0.1.
Se prosigue entonces a hacer las pruebas de normalidad de los Errores. Para esto se deben
calcular los errores (residuales) del modelo. En la ventana comand se digita el siguiente comando:

predict erroresmodelo, resid

Donde el texto en azul, erroresmodelo es el nombre que el usuario


asigna a la variable que esta calculando. No se puede asignar nombres
que correspondan a comandos de STATA ni nombres con espacios. Al
ejecutar el comando (oprimiendo la tecla enter) aparecerá en la ventana
de variables una nueva variable con el nombre que el usuario asigno (En
este caso erroresmodelo)

Luego de calcular los residuales se prosigue a efectuar las pruebas de


normalidad.

Para efectuar la prueba de normalidad Shapiro-Wilk se utiliza la siguiente ruta en el menú

Summaries, tables, & Testà Distributions Plots & testà Shapiro-Wilk Normality test
Aparecerá un cuadro de dialogo en el que se seleccionara la Variable sobre la que se realizara la
prueba de normalidad.

En pantalla aparecerán los resultados del Test. Tomando como criterio de decisión un valor de la
columna Prob>z inferior a 0.05, que indicaría ausencia de normalidad (no normalidad) de los
errores del modelo. En este Caso el valor es superior a 0.44662 por lo que el supuesto de
normalidad se cumple.
En forma análoga esta prueba puede realizarse utilizando el comando

swilk erroresmodelo

Con la palabra swilk como nombre de comando de STATA y erroresmodelo (en azul) como variable
a la que se aplica el test.

En caso que la prueba indique la presencia de no normalidad se utilizan los residuales


studinizados. Que sirven para eliminar los datos atípicos que generan el problema de no
normalidad. Para esto se calculan los errores studinizados utilizando el siguiente comando:

Predict errorestudinizados, rstudent

Donde errorestudinizados (en azul) es el nombre (cualquiera) que el usuario le asigna a los
residuos studinizados.

En forma análoga desde la ruta Menú StatisticsàLineal Models and relatedàpostestimationà


Predictions, residuals, etc.
Aparece una ventana donde se indica en el campo New variable name el nombre de la nueva
variable, y se cliquea OK. Aparecerá en la ventana variables la nueva variable con el nombre que se
le indico (errorestudinizados en este caso)

Para eliminar los Datos atípicos se prosigue ingresar al Data Editor. Se da clic en el rotulo (nombre)
de la variable que corresponde los residuos studinizados y se da clic en el Botón Sort (esto con el
fin de ordenar la base de datos utilizando como referencia la variable studinizados previamente
calculada)

Luego se prosigue a eliminar los registros que en la variable errorestudinizados este por fuera del
intervalo (-2,2). Para eliminar un registro se selecciona con el indicador numero de registro en la
parte izquierda de la pantalla en el ejemplo (aunque no es necesario realizar este procedimiento
porque no existen problemas de normalidad) se selecciona el primer registro porque esta fuera
del rango indicado. Luego se cliquea el botón Delete en la parte superior, apareciendo un cuadro
de dialogo que pide al usuario confirme la acción a realizar. En este caso se selecciona la opción
<<Delete observation 1>>, porque se desea borrar la observación 1 y finalmente clic en el botón
OK.

Ahora se prosigue a calcular de nuevo los


residuos del modelo sin la presencia de los
datos atípicos que generaban el problema
de no normalidad. Se calcula entonces de
nuevo la regresión con el Comando reg:

Nótese que es la última regresión que se había calculado (con todas las variables significativas, es
decir las que quedaron luego de eliminar todas las que tenían valor P superior a 0.1). Se vuelve a
calcular la regresión porque los coeficientes tomarían un valor diferente porque cambiaron
elementos de la muestra.
Ahora se calculan los residuos del nuevo modelo. Se utiliza de nuevo el comando predict,
asignando ahora un nombre diferente a la variable. En este caso Erroresmodelo2.

Se calcula de nuevo la prueba shapiro-Wilk desde el menú Statistics o utilizando el comando:

Se repite el mismo procedimiento (calcular los residuos studinizados, eliminar datos atipicos,
calcular el nuevo modelo, calcular los errore del nuevo modelo y aplicar la prueba de normalidad
shapiro-wilk) hasta que la prueba arroje un p Valor (prob<z) Mayor a 0.05)

Para determinar si se cumple el supuesto de Homocedasticidad se prosigue a la aplicación de la


prueba de white. Dicha prueba puede realizarse desde el menú: StatisticsàLineal Models and
relatedà regression Diagnosticsà Specification Test, etc
Se selecciona las opciones Information Matrix test (imtest) y <<Perform White’s Original
Heteroskedsticity test) situados en la parte superior e inferior del cuadro de dialogo abierto. Clic
en el botón OK.

A esta prueba también puede Accederse con el comando estat imtest, white. Obteniendo un
resultado idéntico.

El criterio de decisión será nuevamente un valor p (Prob > chi2) superior o inferior a 0.05. Con un
valor inferior que indicaría la presencia de heteroscedasticidad (ausencia de homoscedasticidad) y
un valor superior que indicaría que se cumple el supuesto. Para el ejemplo el valor P es de 0.0459.

En caso que la prueba indique la presencia de heterocesdasticidad puede utilizarse otro test para
verificar el resultado. Puede utilizarse la prueba Breusch-Pagan. Para acceder a esta prueba se
puede utilizar el comando estat hettest; o acceder desde el menú StatisticsàLineal Models and
relatedà regression Diagnosticsà Specification Test, etc:

Se selecciona la opcion test for Heteroskedasticity (hettest) y se da clic en OK, obteniendo un


resultado similar a este:
De nuevo el criterio de decisión es que sea superior a 0.05. En el ejemplo es 0.51 lo que indica la
ausencia de heteroscedasticidad (es decir se cumple el supuesto de homocesdasticidad). Si la
nueva pruba corroborara la presencia de heteroscedasticidad, se pueden utilizar los errores
estándar robustos, que se utilizarían para realizar las pruebas de significancia individual realizada
en pasos anteriores. Para efectos de este ejercicio académico solo se calcularan pero no se
realizaran dichas pruebas. Para calcular la regresión con errores estándar robustos se utiliza el
comando de regresión que se ha utilizado hasta ahora, seguido de una coma y la palabra robust:

reg valormconstruccion puntaje localidad7 localidad9 localidad11 localidad19, robust

Ahora, para detectar problemas de multicolinealidad (violación del supuesto de no


multicolinealidad) se prosigue a Calcular El VIF (Variance Inflation Factors) que es una prueba
utilizada para ese efecto (detectar multicolinealidad). La multicolinealidad es la correlación
(relación estadística) entre las variables exógenas o independientes del modelo.

Para acceder a esta prueba desde el menú: StatisticsàLineal Models and relatedà regression
Diagnosticsà Specification Test, etc:
En forma análoga puede utilizarse el comando
estat vif. Obteniendo los siguientes idénticos. En
la pantalla de resultados del STATA se obtienen
un resultado semejante. El criterio de decisión
en este caso es que el valor del Mean vif sea
superior a 10, indicando esto la presencia de
multicolinealidad.
En caso que hubiese Multicolinealidad debe proseguirse a:

• Eliminar las variables que generan el problema (las que tienen el valor en la columna VIF
mas alto)
• Ó estimar el modelo con una forma funcional diferente.

Para estimar el modelo con una forma funcional diferente (por ejemplo log-log, log-lin, lin-log, etc)
se deben calcular o generar nuevas variables con el comando:

Gen nombredelanuevavaraible= Expresión

Donde nombredelanuevavaraible (En azul) es el nombre que la persona quiera asignarle a la nueva
variable. Generalmente este nombre indica la transformacion que se le hace a la variable original
para generar la nueva (por ejemplo lnmetrocuadrado para indicar que la variable
lnmetrocuadrado es igual al logaritmo natural de la variable (original) metrocuadrado). Por su
parte Expresión (también en azul) indica la transformación que se le hace a la variable original. Por
ejemplo:

Gen edadpor2= edad*2

Para indicar que la variable con nombre edadpor2 será calculada tomando la variable edad y
multiplicándola por la cosntante 2. Y,

Gen lnmetrocuadrado= ln(metrocuadrado)

Para indicar que la variable lnmetrocuadrado será calculada como el logaritmo natural de la
variable metro cuadrado. Al presionar la tecla enter luego del comando, aparecerá en la ventana
variables la variable generada.

Luego de generar las variables se estima el modelo como de costumbre con el comando reg
explicado antes en este documento. Se deberían realizar de nuevo las pruebas de significancia
individual, normalidad y heteroscedasticidad para el nuevo modelo.

Entre las posibles transformaciones que generalmente se hacen se encuentran:

Nombre del modelo Variable dependiente Variables independientes


Log-log En logaritmo En logaritmo
Log-lin En logaritmo Sin transformar
Lin-log Sin transformar En logaritmo

Cabe señalar que con cada uno de estos modelos cambia la interpretación de los coeficientes.
La auto correlación esta definida como la relación que tienen los errores del modelo entre si (los
errores para una observación están relacionados con los errores de otra observación). STATA no
tiene definida una prueba para calcular la correlación del modelo econométrico. Sin embargo
puede hacerse uso de una variable ficticia para hacerle creer a STATA que los datos provienen de
una muestra de datos de tipo series de tiempo (es decir una muestra que contiene valores en
diferentes momentos del tiempo para la misma variable, como por ejemplo la inflación calculada
por el DANE una para cada mes). Para hacer esto primero se debe verificar el número de registros
que se tienen en la base datos. Para esto accediendo al data editor se observa el número de
registro (observación, datos, etc.) con que se dispone.

Ahora en Excel, en una columna se crea una serie de datos que va desde el 1 hasta el número de
registros que tiene en la base de STATA (en este caso 79). Para hacerlo se digitan algunos valores
de la serie (en el ejemplo se digitaron de 1 a 4), se seleccionan y se sitúa el puntero del ratón en la
esquina inferior izquierda de esa selección. Se debe notar como el puntero cambia de aspecto y
toma la forma de una cruz negra. Se da clic sostenido (sin soltarlo) y se arrastran los datos hasta
que se complete la serie con el número deseado (en este caso 79)
El resultado Seria:
Se prosigue entonces a pasar esta nueva variable a Excel. Se
prosigue igual que al principio de este documento, se
selecciona la variable t con todos sus datos (en el ejemplo
del 1 al 79) se copia y se lleva al editor de datos (Data Editor)
de STATA

En el editor de Datos, se pueden observar todas las variables


utilizadas a lo largo de la estimación de modelo, las ultimas
variables a la derecha muy seguramente será las
estimaciones de los residuales (errores) del modelo. Lo que
se busca es situarse con el ratón al lado derecho de la última
variable y en la fila correspondiente al primer registro. Tal
como indica la grafica abajo.

Situación en dicha celda, se da clic derecho y se selecciona la


opción Paste (pegar). De esta forma se creo una nueva
variable con el nombre t que posibilitara la realización de la
prueba de auto correlación Breusch-Godfrey. Recuerde
Cerrar el Editor de Datos.
Ahora se le indicara a STATA que la nueva variable es el indicador de una serie de datos
temporales (primer registro corresponde al primer periodo (por ejemplo enero), segundo registro
al siguiente periodo (febrero) y así en toda la base). Esto se realiza con la instrucción:

tsset t

Donde t (en azul) es el nombre de la variable indicadora de la serie de tiempo (la que se acabo de
agregar al editor de Datos).

Ahora el la ventana de comando se digita la siguiente instrucción para realizar el test:

Arrojando los siguientes resultados. De nuevo el criterio para decir la presencia o no presencia de
auto correlación es que el P valor sea superior o inferior a 0.05 indicado lo primero la ausencia de
auto correlación (cumplimiento del supuesto). En este caso el valor p es de 0.19 lo que indica un
buen comportamiento del modelo.
Finalmente para probar la buena especificación, o la capacidad explicadora del modelo, se
prosigue a realizar una última prueba, la prueba RESET. Para hacerlo se utiliza el comando

estat ovtest

Para que el modelo este bien especificado el Prob>f debe ser mayor a 0.05. Este caso el modelo
esta bien especificado.

Preparado por:

Jorge Rojas

Est. Especialización en Avalúos

Universidad Distrital Francisco José de Caldas

Correo jorge_2317@yahoo.com.ar

También podría gustarte