Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Inferencia estadstica
Profesor: Omar Ramos
1.
Las ciencias economicas, sociales y aplicadas se han vinculado desde hace varias decadas
a las ciencias puras para poder por medio de los metodos cuantitativos verificar los hechos
sociales, el uso de la estadstica, la matematica y la fsica cada da van en incremento; pero
de igual forma estos metodos han necesitado de diferentes recursos para su aplicacion, es en
busca de suplir estas necesidades que Stata Corp se ha comprometido da a da en apoyar al
desarrollo de la teora con la practica haciendo uso del total de recursos disponibles. Se aclara
que Stata no es un software libre ni gratuito, para poder acceder a el es necesario adquirir un
plan de licenciamiento, para mayor informacion ingresar a www.stata.com. Una de las ventajas
del software es la posibilidad de trabajo por ambiente GUI (interactivo) y/o por ambiente de
comandos con una programacion bastante potente, incluyendo un lenguaje de programacion
para matrices conocido como MATA.
Al tratarse de un programa en ambiente Windows, su interface es similar a la de todos los
programas bajo este ambiente.
1.1.
1.2.
Barras
1.3.
Menu de ayuda
1.3.1.
Tipos de archivos
Antes de iniciar una sesion de trabajo es importante tener en cuenta que Stata opera a
traves de diferentes tipos de archivos.
oportunidad para desarrollar destrezas en el uso de Stata que vayan mas alla de lo estrictamente
necesario para realizar inferencias estadsticas. A lo largo de la carrera seguiran ocupando este
software y muchos de ustedes lo seguiran ocupando durante su carrera.
Stata es un programa basado en comandos, mediante los cuales el usuario le dice lo que quiere
hacer. La estructura tpica de los comandos esta compuesta de cuatro elementos: comando,
nombre, condiciones y opciones. Para saber que decirle a Stata, necesitamos responder cuatro
preguntas que corresponden a los cuatro elementos mencionados:
Comando: Que quiero hacer?
Nombres: Cuales son los nombres de las variables o archivos que quiero ocupar?
Condiciones: Que observaciones deseas ocupar?
Opciones: Tienes otros requisitos respecto a este programa?
Muchas veces es mas facil especificar con palabras normales lo que quiero hacer y luego
intentar pedrselo a Stata. Para los usuarios avanzados, una de las ventajas de Stata es que
permite a los usuarios crear sus propios comandos. Cada comando se debe ingresar en una lnea
separada, salvo que se este trabajando en un archivo .do y se utilice /// al final de la lnea para
indicar que el comando sigue en la lnea siguiente.
1.3.2.
Las bases de datos de Stata finalizan con la extension .dta, cuando se tiene un base tipo
Stata para abrirla puede utilizar la ruta File Open o mediante el teclado CTRL+ O y seleccionar el archivo o por el icono abrir de la barra de herramientas, por medio de comandos
podra usar la instruccion use
use C:\Users\Omar\Desktop\ipc raw.dta, clear
Dado que la instruccion solo importa bases de datos de formato Stata no se requiere ingresar
la extension .dta.
1.4.
ANALISIS
ESTADISTICOS CON STATA
Stata tiene una amplia posibilidad de realizar los procedimientos generalmente es posible
encontrar varios comandos en diferentes men
us. Por ejemplo para poder obtener las estadsticas descriptivas de una variable es posible usando inicialmente los comandos o por medio de
ventanas de ejecucion. .
Para el analisis estadistico el menu Statistics permite obtener gran cantidad de opciones
para poder desarrollar los temas del manual. Por ejemplo en Statistics Summary, tables, and
test Summary and descriptive statistics:
6
Ejemplo 1.1. Lo que haremos aqu es abrir un extracto de la base de datos CASEN 2011 y
pedirle que resuma la variable edad. Deben descargar la Base de Datos Inferencia Estadsti
cade la seccion Inferencia
Estadsticadel siguiente enlace: http: /www.estebancalvo.comesdifusion recursos
Luego guarden la base de datos en el disco C o en un pendrive (traer pendrive para las proximas
clases).
.use C:\casen2011 ie.dta, clear
A continuacion ocuparemos el comando summarize, que nos permite obtener una tabla
resumen descriptivo de una variable, en este caso edad. La tabla que obtenemos muestra el
n
umero de observaciones que tiene la base de datos utilizada (4853), la media de la variable
edad (43.7 a
nos) y la respectiva desviacion estandar (18.8). Tambien muestra el valor mnimo
y maximo de edad entre las observaciones (0 y 100).
Ingresar el comando:
sum edad
Ejemplo 1.2. Con las distribuciones que revisamos podemos replicar problemas de la vida real.
Por ejemplo, supongamos que estamos administrando un call center y queremos saber cuantas
personas atiende un trabajador en una hora. Si el u
nico dato que tenemos es que en promedio
atiende a 10 personas, podramos simular, usando la funcion de distribucion, a cuantas personas atiende en cada hora. As tenemos valores que podran perfectamente ser reales, como se
muestra a continuacion:
Por lo tanto, puede que en una hora atienda a 4 personas (fila 27) o 15 (fila 6). Pero siendo
10 personas el promedio de atencion, podemos decir que atender a 4 personas tiene la misma
probabilidad que atender a 15? La respuesta es no. Recordemos que estas probabilidades est
an
modeladas por la distribucion Poisson ya que estamos hablando de un evento (atender a una
persona) que se repite en un ciclo igual (una hora). Veamos sus probabilidades:
Aqu observamos que la probabilidad de que en una hora se atienda solamente a 4 personas
es muy baja (1.89mientras que la probabilidad de que atienda a 15 personas es un poco mas alta
(3.47promedio, vemos que la probabilidad de que atienda a 10 personas es de 12distribuciones
de probabilidad nos puede ayudar a anticipar escenario mas probable. En este caso, que es m
as
probable que suceda? Atenderan entre 9 a 12 personas por hora o mas de 16? Es mucho menos
riesgoso apostar por la primera. Saber esto nos puede permitir tomar decisiones informadas, por
ejemplo, estimar cuantas personas tendremos que contratar para un optimo funcionamiento.
Descripci
on de los comandos utilizados
<set obs #>: Nos sirve para indicar cuantas observaciones queremos crear. # es reemplazado por dicho n
umero.
<set seed #>: Cuando trabajamos con simulaciones y creamos n
umeros aleatorios, es importante siempre fijar un punto de partida (una semilla) para que as cuando los alumnos
repliquen el ejercicio en casa puedan tener los mismos resultados. Una semilla esta definida
por un n
umero, el cual se reemplaza en lugar del #.
<gen newvar = exp>: El comando gen es una abreviacion para generate, el cual genera
nuevas variables. El nombre de la variable sera el que se reemplace en newvar y la forma
que tendra la variable es lo que va en exp.
9
<rpoisson(#)>: Genera n
umeros aleatorios que puedan describirse con una Poisson con
promedio #.
<br>: Abreviacion de browser. Muestra la base de datos.
<poissonp(m,k)>: Entrega la probabilidad de un n
umero k, si la distribucion es Poisson
con media m.
Ejemplo 1.3. Usando el programa estadstico podemos tomar muestras aleatorias de maneras
bien simples, utilizando algunos comandos. Vamos a partir utilizando una de las bases de datos
que nos proporciona el programa, esta es la base de autos que hemos visto anteriormente.
. use auto
(1978 Automobile Data)
Luego generamos una variable, denominada random, con n
umeros seudo-aleatorios con distribucion uniforme entre 0 y 1. Despues se ordena de menor a mayor la variable, esto ordena a
todas las observaciones dependientes de la variable creada anteriormente llamada random. Para
finalizar se genera otra variable con la caracterstica que asigna valor 1 a la primera mitad de
la base y el valor 2 a la segunda. A su vez podemos darnos cuenta de que el tama
no maestral
es de 34 observaciones cada uno, siendo mayores a 30.
. generate random= runiform()
. sort random
. generate group = ceil(2 * n/ N)
Seleccione data editor para que aparezca siguiente imagen
El n
umero de observaciones de la base es de 74 automoviles, y podemos darnos cuenta de
que se dividieron en dos muestras de igual tama
no. Para la siguiente parte veremos como la
media poblacional se puede acercar mucho a la media de las medias muestrales. En este caso
tomaremos la media de los precios de ambas muestras generadas.
10
11