Está en la página 1de 118

Centro de Microdatos

Anlisis de Datos
Magister en Polticas Pblicas
Javiera Vsquez

2011

Introduccin
La mayora de las decisiones en economa y polticas pblicas depender de cun bien podamos
entender, las relaciones entre las variables que nos rodean.
Al momento de disear una poltica pblica se debe tener una pregunta concreta en trminos
cuantitativos sobre la o las variables que queremos afectar, y que instrumentos disponemos para
afectar estas variables, es decir, necesitamos dar respuestas cuantitativas a preguntas
cuantitativas, y adicionalmente, debemos tener clara cul es la causalidad de la relacin entre las
variables.
Por ejemplo, podemos querer dar respuesta a las siguientes preguntas:

El cuidado prenatal lleva a tener hijos ms saludables?


La Reforma Previsional, mejor la calidad de vida de los adultos mayores?
EL programa de Subsidio a la Contratacin de Trabajadores Jvenes, incrementar la
formalizacin del trabajo juvenil?
Hay discriminacin por gnero en el mercado laboral?Hay discriminacin por apariencia
fsica en el mercado laboral?
Cul es el impacto de las restricciones a los fumadores sobre el hbito de fumar?
Qu impacto ha tenido el programa Chile Crece Contigo?
Existe mayor vulnerabilidad econmica en los hogares monoparentales?
Cmo afecta la disponibilidad de salas cunas a la tasa de participacin femenina?

Para que los datos nos entreguen respuestas concretas y tiles a estas preguntas debemos
aprender a trabajar con ellos, para esto es importante adquirir prctica en organizar la
informacin y presentarla de manera informativa, entender la aleatoriedad y cuando lo que
encontramos puede ser producto del azar, entender los conceptos de probabilidad y como estos
pueden ser usados para interpretar la informacin emprica.

Datos Experimentales versus No Experimentales


El escenario ideal para estimar el efecto de un tratamiento o de una poltica es hacer cambios
experimentales (controlados) sobre una variable y observar los cambios en la variable de inters.
Adems para tener una base de comparacin necesitamos un grupo de control. Esto es lo que
generalmente se hace en medicina para probar nuevas drogas y sus efectos, se tiene un grupo de
tratamiento y un grupo de control con caractersticas similares, y slo a los del grupo de
tratamiento se le entrega la droga y a los del grupo de control un placebo, luego podemos analizar
simplemente comparando ambos grupos cuales son los efectos de la droga.
En polticas pblicas la asignacin aleatoria de un tratamiento o poltica es algo bastante ms
complejo, ya que una poltica es diseada para la poblacin o un grupo de ellas y a veces no es
tico darle prioridad aleatoria a un grupo versus otro. Adems implementar un experimento en

polticas pblicas es mucho ms costoso porque requiere la implementacin del programa


propiamente tal a una escala menor. De esta forma, en la mayora de los casos que estudiemos no
disponemos de Datos Experimentales sino de Datos Observados o No Experimentales.
Cuando los datos son de naturaleza experimental, el efecto causal de la poltica (o tratamiento) se
puede obtener tomando la diferencia de promedios de la variable de resultados entre el grupo de
tratamiento y control, por ejemplo, tomando el peso al nacer promedio de bebes de madres con
cuidado prenatal y restndole el peso al nacer promedio de bebes de madres sin cuidado prenatal.
Sin embargo, si los datos no son experimentales debemos utilizar tcnicas economtricas para
estimar el efecto causal, estas herramientas se preocupan de aislar el efecto que otras variables,
distintas al tratamiento, pueden tener sobre el resultado (outcome).

Tipos de Datos
Los datos que disponemos para trabajar pueden tener tres formatos: corte transversal, Series de
Tiempo, y Datos de Panel (o Longitudinales).

Corte Transversal
Los datos de corte transversal se caracterizan por recopilar informacin para varias unidades en un
momento del tiempo, las unidades pueden ser individuos, hogares, comunas, colegios, empresas,
regiones, etc.
Un ejemplo de datos de corte transversal en Chile es la Encuesta CASEN.
La Figura 1 muestra un ejemplo de una base de corte transversal de pases, que muestra la tasa de
mortalidad, expectativa de vida, y otras variables para el ao 2005.

Figura 1
Datos de tipo Corte Transversal

Series de Tiempo
Las series de tiempo representan observaciones para una sola unidad en varios momentos del
tiempo, la frecuencia de los datos puede ser diaria, semanal, trimestral, anual, etc.
Por ejemplo, del Banco Central de Chile podemos obtener las series de tiempo del Producto
Interno Bruto (PIB), Indice de Precios al Consumidor (IPC), fuerza de trabajo, ocupados, etc. Ver
Figura 2.
Figura 2
Datos de tipo Serie de Tiempo

Datos de Panel o Longitudinales


Los datos longitudinales corresponden a observaciones de varias unidades en distintos momentos
del tiempo, por ejemplo puedo tener los puntajes en SIMCE, PSU, nmero de alumnos, nmero de
profesores, para varios colegios entre los aos 2000 y 2008.
La ventaja de los datos de panel es que observamos la mima unidad en diferentes momentos del
tiempo lo que nos permite estudiar la dinmica en el comportamiento de diversas variables.

La Figura 3 muestra un ejemplo de datos de panel, con observaciones de varios pases entre el ao
2004 y 2009.
Figura 3
Datos de tipo Datos de Panel

Una primera inspeccin de los datos


Lo primero que debe hacer todo investigador que trabaja con una base de datos, ya sea de
creacin propia o externa, antes de aplicar modelos estadsticos, es inspeccionar y explorar los
datos de modo correcto.
Qu debemos tener presente cuando inspeccionamos los datos?

A qu nivel de agregacin queremos trabajar y presentar los datos: individuos, hogar,


comunas, regiones, etc.
Qu tipo de grfico me permite mostrar de manera clara y ordenada los resultados,
incluso es relevante fijarse en las escalas de los ejes de los grficos que los haga
comparable entre ellos, y relevantes para el anlisis.
Seleccin correcta de la informacin que se mostrar, no siempre es preferible ms a
menos, no es recomendable presentar muchos datos ni grficos, sino saber elegir los
correctos.

Para revisar algunos conceptos relacionados con la inspeccin de los datos utilizaremos la
Encuesta CASEN 2009 (http://www.mideplan.gob.cl/casen/index.html), especficamente
trataremos de producir estadsticas descriptivas y grficos en STATA que nos permitan analizar la
situacin de los ingresos, pobreza, y desigualdad en Chile.
Para nuestro primer anlisis utilizaremos como medida el ingreso autnomo per-cpita del hogar1,
el que puede ser generado a partir de la informacin disponible en la encuesta:
use casen2009.dta, clear
egen hogarid=group(segmento folio)
g s=1 if pco1!=14
replace s=0 if pco1==14
egen n=sum(s), by(hogarid)
gen yauthpc=yauthaj/n

El Ingreso Autmomo se define como aquel por concepto de sueldos y salarios, ganancias provenientes del
trabajo independiente, autoprovisin de bienes producidos por el hogar, bonificaciones, gratificaciones,
rentas, intereses, as como jubilaciones, pensiones, montepos y transferencias entre privados.

Distribucin Emprica
La distribucin emprica de una variable nos muestra que tan frecuente es que la variable tome un
valor dentro de cierto intervalo. Grficamente la distribucin emprica de la variable se puede ver
a travs de un histograma.
histogram yauthpc if yauthpc<1000000, percent fcolor(purple)
ytitle(Porcentaje) xtitle(Ingreso Autnomo per-cpita del hogar) title(Ingreso
Autnomo per-capita del hogar) subtitle(Distribucin Emprica) note(Fuente:
Elaboracin propia en base a Encuesta CASEN 2009)

Grfico 1

Ingreso Autnomo per-capita del hogar

10
0

Porcentaje

15

Distribucin Emprica

200000
400000
600000
800000
Ingreso Autnomo per-cpita del hogar

1000000

Fuente: Elaboracin propia en base a Encuesta CASEN 2009

Un histograma nos muestra una serie de rectngulos, el ancho de estos rectngulos representa un
intervalo de la variable para la cual estamos construyendo el histograma, en este caso ingreso, y la
altura representa la proporcin de las observaciones que caen dentro de este intervalo.
En este ejemplo, STATA automticamente escoge rectngulos con ancho 18849.16 para de esta
forma generar 53 rectngulos de igual ancho:

Sin embargo, se puede elegir de que ancho se quieren los rectngulos o en cuntos rectngulos
dividir el rango completo en el cual se mueve la variable de inters, teniendo en cuanta que

mientras ms anchos sean los rectngulos o menor cantidad ms tosco ser el histograma, y
mientras ms angostos sean los rectngulos (mayor cantidad) ms fina ser la distribucin de la
variable que podemos analizar con el histograma.
histogram yauthpc if yauthpc<1000000, width(50000) percent fcolor(purple)
ytitle(Porcentaje) xtitle(Ingreso Autnomo per-cpita del hogar) title(Ingreso
Autnomo per-capita del hogar) subtitle(Distribucin Emprica) note(Fuente:
Elaboracin propia en base a Encuesta CASEN 2009)

Grfico 2

Ingreso Autnomo per-capita del hogar

20
10
0

Porcentaje

30

Distribucin Emprica

200000
400000
600000
800000
Ingreso Autnomo per-cpita del hogar

1000000

Fuente: Elaboracin propia en base a Encuesta CASEN 2009

En este grfico le pedimos a STATA que tome rectngulos de ancho 50,000 para hacer el
histograma, por lo cual utiliza 20 barras para cubrir todo el rango de valores que toma la variable
de inters.
Por otra parte, podemos indicar que haga un histograma con 100 rectngulos, los que
automticamente quedarn con ancho 10000:

histogram yauthpc if yauthpc<1000000, bin(100) percent fcolor(purple)


ytitle(Porcentaje) xtitle(Ingreso Autnomo per-cpita del hogar) title(Ingreso
Autnomo per-capita del hogar) subtitle(Distribucin Emprica) note(Fuente:
Elaboracin propia en base a Encuesta CASEN 2009)

Grfico 3

Ingreso Autnomo per-capita del hogar

Porcentaje

Distribucin Emprica

200000
400000
600000
800000
Ingreso Autnomo per-cpita del hogar

1000000

Fuente: Elaboracin propia en base a Encuesta CASEN 2009

El histograma nos permite analizar la distribucin de la variable que estamos estudiando, en


particular en el caso de ingreso autnomo per-cpita observamos que:

Alrededor de un 20% de las personas (con ingresos per-cpita menor a 1 milln de pesos)
tienen ingresos per-cpita menores a $200 mil pesos.
A pesar de que la mayora de los individuos se encuentras a la izquierda de la distribucin,
existe una cola larga a la derecha.

Estimacin Kernel de la Distribucin Emprica


Como se mencionaba mientras ms angosto son los rectngulos en el histograma ms fina es la
estimacin de la distribucin de la variable que puede ser realizada, el caso extremo es cuando
estos rectngulos se reducen a un solo punto2, esta estimacin de la funcin de densidad
(distribucin) es conocida como Kernel.
El siguiente grfico nos muestra la estimacin de la funcin de densidad del ingreso autnomo
per-cpita, lo que nos permite apreciar de manera ms suave y continua la distribucin de las
observaciones en el rango en el cual se mueve el ingreso autnomo per-cpita.
kdensity yauthpc if yauthpc<1000000, ytitle(Densidad) xtitle(Ingreso Autnomo
per-cpita del hogar) title(Ingreso Autnomo per-capita del hogar)
subtitle(Distribucin Emprica) note(Fuente: Elaboracin propia en base a
Encuesta CASEN 2009)

Grfico 4

Densidad
2.000e-064.000e-066.000e-068.000e-06

Ingreso Autnomo per-capita del hogar

Distribucin Emprica

200000
400000
600000
800000
Ingreso Autnomo per-cpita del hogar

1000000

Fuente: Elaboracin propia en base a Encuesta CASEN 2009

Si bien la distribucin emprica de la variable nos permite caracterizar bastante bien la variable, es
difcil utilizar esta distribucin para comparar dos o ms variables, para hacer comparacin
2

La estimacin de densidad Kernel consiste ajustar una distribucin normal en cada punto observado de
datos, luego se une (suma ponderada) cada una de estas distribuciones normales.

necesitamos tener indicadores concretos que de alguna forma resuman lo que podemos ver
grficamente con el histograma o kernel. Algunos de estos indicadores son las medidas de
tendencia central y las medidas de dispersin.

Medidas de Tendencia Central


Las medidas de tendencia central, tal como lo dice su nombre hablan del punto medio de la
distribucin.
Una medida de tendencia central es la media aritmtica (o promedio), la que representa el punto
de equilibrio de la distribucin:

Por ejemplo, el promedio entre los nmeros 1 y 9 es 5, ya que de esta manera se equilibra la
distribucin de ellos, la distancia (en valor absoluto) entre 1 y 5 es la misma que la distancia entre
9 y 5.
Veamos otro ejemplo, supongamos los siguientes nmeros: 1, 2, 3, 4, y 5. La media aritmtica de
estos nmeros es 3, ya que de esta manera equilibramos la distribucin de estos nmeros.
Notemos la segunda columna de la Tabla 1, la diferencia (en valor absoluto) entre 1 y la media (3)
es 2, entre 2 y la media es 1, y entre 3 y la media es cero, estos tres valores son menores o iguales
a la media, y la suma de su distancia con respecto a la media es 3. Por otra parte, los valores que
estn sobre la media, tienen una diferencia de 1 con respecto a la media y 2 con respecto a la
media, lo que tambin suma 3. De esta forma, vemos que la media es el nmero que logra
equilibrar la distribucin de los nmeros observados.
Tabla 1
Ejemplo media aritmtica
Nmeros
1
2
3
4
5

Diferencia absoluta con


respecto a la media

Suma antes y despus de la


media

2
1
0
1
2

3
3

La Tabla 2 nos muestra otro ejemplo, en este caso tenemos 8 nmeros cuya media aritmtica es
26.75. Slo dos de los ocho nmeros estn sobre la media aritmtica y los restantes seis estn bajo
la media, podemos ver que la suma de la diferencia absoluta de cada uno de los nmeros que

estn bajo la media con respecto a la media es exactamente igual a la suma de las diferencias
absolutas de los nmeros que estn sobre la media.
Tabla 2
Ejemplo media aritmtica

Nmeros
10
11
12
13
13
15
40
100

Diferencia absoluta con


respecto a la media

Suma antes y despus de la


media

16.75
15.75
14.75
13.75
13.75
11.75
13.25
73.25

86.5
86.5

Veamos un caso an ms extremo, la Tabla 3 nos muestra un listado de 12 nmeros, los primeros
11 nmeros son bastante pequeos (menores o iguales a 1), pero el ltimo nmero es un nmero
bastante grande, lo que hace que para equilibrar estos nmeros el promedio va a ser un nmero
bastante ms grande que los primeros 11 nmeros, en efecto el promedio de estos 12 nmeros es
8.79, y 11 de los 12 nmeros estn bajo el promedio, mientras que 1 slo est sobre el promedio.
Tabla 3
Ejemplo media aritmtica

Nmeros
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1.0
100

Diferencia absoluta con


respecto a la media

Suma antes y despus de la


media

8.79
8.69
8.59
8.49
8.39
8.29
8.19
8.09
7.99
7.89
7.79
91.21

91.21
91.21

Esto nos muestra algo importante que hay que tener presente cuando uno utiliza la media como
una medida de tendencia central, esta medida es bastante sensible a valores extremos en la
distribucin de nmeros.
En el caso del ingreso autnomo per-cpita de la encuesta CASEN 2009, la media de esta variable
es $130,992.7:

De las 244,511 observaciones, 162,504 (66.5%) estn bajo la media y 82,007 (33.5%) estn sobre la
media.
Otra medida de tendencia central es la mediana, la que corresponde al valor de la variable en la
mitad de la distribucin, es decir, si ordenamos las observaciones de menor a mayor valor de la
variable, la mediana es el valor de la observacin que est justo en la mitad, dejando la misma
cantidad de observaciones a la derecha y a la izquierda de la mediana. La mediana es una medida
de tendencia central ms robusta que la media, en el sentido que no es afectada por valores
extremos.
En el ejemplo de la Tabla 1 tenemos 5 nmeros, donde el nmero 3 corresponde al que est justo
en la mitad de estos 5 nmeros, de esta forma la mediana es 3. En el ejemplo, de la Tabla 2
tenemos 8 nmeros, no existe un nico nmero que este en la mitad, en este caso tenemos que
considerar los nmeros en la posicin 4 y 5 para calcular la mediana, como ambos nmeros son
iguales a 13, la mediana de estos nmeros es 13. Finalmente, en la Tabla 3 tenemos 12 nmeros,
nuevamente al ser un nmero par no existe un nico nmero en la mitad, tenemos que considerar
los nmeros en la posicin 6 y 7 para calcular la mediana, la que corresponde al promedio de estos
dos nmeros, 0.55.
La mediana del ingreso autnomo per-cpita es $93,361.7, bastante menor a la media ya que esta
medida no es sensible a los valores extremos, ingresos elevados.
La mediana corresponde al percentil 50 y podemos calcular este valor en STATA a travs del
comando summarize con la opcin detail.

Adicionalmente el grfico 5 muestra el histograma del ingreso autnomo per-cpita y los valores
de la media y mediana.
histogram yauthpc if yauthpc<1000000, percent fcolor(purple)
ytitle(Porcentaje) xtitle(Ingreso Autnomo per-cpita del hogar) title(Ingreso
Autnomo per-capita del hogar) subtitle(Distribucin Emprica) note(Fuente:
Elaboracin propia en base a Encuesta CASEN 2006) xline(130993,
lcolor(cranberry)) xline(93362, lcolor(black))

Grfico 5

Ingreso Autnomo per-capita del hogar

10
5
0

Porcentaje

15

Distribucin Emprica

200000
400000
600000
800000
Ingreso Autnomo per-cpita del hogar

Fuente: Elaboracin propia en base a Encuesta CASEN 2006

1000000

Simetra de una distribucin


Se dice que una distribucin es simtrica con respecto a la media3 si existe el mismo nmero de
valores a la derecha de la media que a la izquierda de la media, esto significa que el lado derecho
de la distribucin es un espejo del lado izquierdo de la distribucin.
Por ejemplo, la siguiente variable es simtrica en torno a su media que es igual a 3

.2
0

.1

Density

.3

.4

Grfico 6
Histograma de variable simtrica en torno a la media

-3

-2

-1

Para saber de manera ms objetiva si la variable es simtrica o no, y no simplemente utilizando la


inspeccin grfica, podemos calcular el coeficiente de asimetra. Si este coeficiente es igual a cero
se dice que la variable tiene una distribucin simtrica en torno a la media, en este ejemplo el
coeficiente de asimetra es -0.0054. Si el coeficiente de asimetra es positivo la variable tiene una
distribucin que concentra ms observaciones a lado izquierdo de la distribucin (bajo la media),
por el contrario si el coeficiente de asimetra es negativo hay ms observaciones en el lado
derecho de la distribucin (sobre la media).

La simetra se puede definir tambin con respecto a la mediana o cualquier otro punto de inters, por
ejemplo, el punto ms alto de la distribucin.

El coeficiente de asimetra forma parte de los indicadores del comando summarize, detail
de STATA. En el caso del ingreso autnomo per-cpita grficamente notbamos que era una
variable asimtrica ya que tiene mayor cantidad de observaciones al lado izquierdo, en particular
el coeficiente de asimetra de esta variable es 2.65.
Figura 4
Asimetra positiva y negativa

Cuando la variable tiene un coeficiente de asimetra positivo o negativo, se dice que la variable es
sesgada.
En el caso de variables muy asimtricas como el ingreso, la transformacin logartmica de la
variable puede lograr que la distribucin sea algo ms simtrica. Se debe tener presente el
logaritmo de 0 no existe, por lo cual las observaciones que reportaban ingreso autnomo igual a
cero quedarn con missing value en la variable transformada. El Grfico 7 nos muestra que sucede
con el ingreso autnomo per-cpita al aplicar logaritmo.
g lyauthpc=ln(yauthpc)
(8829 missing values generate)
histogram yauthpc if yauthpc>0 & yauthpc<1000000, percent fcolor(purple)
ytitle(Porcentaje) xtitle(Ingreso Autnomo per-cpita del hogar) title(Ingreso
Autnomo per-capita) subtitle(Distribucin Emprica) note(Fuente: Elaboracin
propia en base a Encuesta CASEN 2006) saving(nivel, replace)
histogram lyauthpc if yauthpc<1000000, percent fcolor(purple)
ytitle(Porcentaje) xtitle(Ingreso Autnomo per-cpita del hogar)
title(Logaritmo Ingreso Autnomo per-capita) subtitle(Distribucin Emprica)
note(Fuente: Elaboracin propia en base a Encuesta CASEN 2006) saving(log,
replace)
graph combine nivel.gph log.gph

Grfico 7

Distribucin Emprica

6
0

Porcentaje

Porcentaje

10

10

Logaritmo Ingreso Autnomo per-capita

Distribucin Emprica
15

Ingreso Autnomo per-capita

200000 400000 600000 800000 1000000


Ingreso Autnomo per-cpita del hogar

Fuente: Elaboracin propia en base a Encuesta CASEN 2006

6
8
10
12
14
Ingreso Autnomo per-cpita del hogar

Fuente: Elaboracin propia en base a Encuesta CASEN 2006

El coeficiente de asimetra de la variable en logaritmo es bastante ms pequeo:

Medidas de dispersin
Tal como dice su nombre las medidas de dispersin tienen que ver con que tan dispersas estn las
observaciones, o que tan concentradas estn.
Una medida de dispersin es la varianza (2):
Varianza poblacional:

Varianza muestral:

La varianza corresponde el promedio de las desviaciones al cuadrado de cada observacin con


respecto a la media de la variable. Notemos que nos interesan las desviaciones, razn por la cual
se toma el valor al cuadrado, generando siempre un valor positivo, pero al estar al cuadrado la
medida de dispersin le da ms peso a las observaciones ms distantes en el promedio. Otra
consecuencia de que se midan las desviaciones al cuadrado es que la medida quedara expresada
en el cuadrado de la unidad en la que medida la variable, lo cual dificulta bastante la
interpretacin. Por esta razn usualmente se utiliza la desviacin estndar que consiste en tomar
raz cuadrada de la varianza, por lo cual la medida de dispersin queda expresada en la misma
unidad de la variable estudiada.
Desviacin estndar muestral:

La desviacin estndar del ingreso autnomo per-cpita es de $130,662.


El siguiente grfico nos muestra variables generadas aleatoriamente con distribucin normal con
media 1, pero diferentes varianzas (desviaciones estndar).

clear
set obs 10000
matrix
matrix
matrix
matrix

desv1=1
desv2=sqrt(2)
desv3=sqrt(3)
desv4=2

drawnorm
drawnorm
drawnorm
drawnorm

var1,
var2,
var3,
var4,

m(1)
m(1)
m(1)
m(1)

sd(desv1)
sd(desv2)
sd(desv3)
sd(desv4)

histogram var1, percent fcolor(purple) xtitle(media=1 varianza=1)


replace)
histogram var2, percent fcolor(purple) xtitle(media=1 varianza=2)
replace)
histogram var3, percent fcolor(purple) xtitle(media=1 varianza=3)
replace)
histogram var4, percent fcolor(purple) xtitle(media=1 varianza=4)
replace)
graph combine var1.gph var2.gph var3.gph var4.gph, xcommon

saving(var1,
saving(var2,
saving(var3,
saving(var4,

6
2
0

0
5
media=1 varianza=1

-10

-5

0
5
media=1 varianza=3

10

-10

-5
0
5
media=1 varianza=2

10

-10

-5
0
5
media=1 varianza=4

10

6
4
2
0

Percent

-5

-10

Percent

Percent

4
2

Percent

Grfico 8

10

Otra medida de dispersin utilizada es el rango inter-cuartil, el que se define como la distancia en
unidades de la variable entre el percentil 75 y el percentil 25:

El rango inter-cuartil del ingreso autnomo per-cpita es $107,185 lo que indica que la diferencia
en ingreso autnomo entre la persona que est en el 75% de mayores ingresos y la persona que
est en el 25% de menos ingresos es $107,185.
El problema de estas tres medidas de dispersin; varianza, desviacin estndar, y rango intercuartil; es que estn en la escala de la variable que estamos midiendo su dispersin, por lo cual no
nos permite comparar variables con diferentes escalas, no es una medida estandarizada.
Una medida de dispersin estandarizada y que nos permite comparar variables de distinta
naturaleza es el coeficiente de variacin (cv):

Por ejemplo, el coeficiente de variacin del ingreso autnomo es casi igual a uno, indicando que la
desviacin estndar es igual a la media de la variable, sin embargo, al aplicar la transformacin
logartmica de la variable la dispersin de reduce bastante la desviacin estndar de la variable
transformada es igual a 0.08 veces la media.
Un grfico que nos permite ver de manera simultnea la dispersin de la variable como su
tendencia central es el Box plot.
graph box yauthpc if yauthpc>0 & yauthpc<1000000

600000
400000

200000

yauthpc

800000

1.0e+06

Grfico 9

La lnea dentro de la caja corresponde a la mediana de la variable (medida de tendencia central), la


parte superior de la caja representa el percentil 75 y la parte baja de la caja el percentil 25, por lo
cual la altura de la caja representa el rango inter-cuartil (medida de dispersin). La lnea que esta
por sobre la caja define la cantidad de valores extremos en la variable, todas las observaciones
sobre esta lnea son valores extremos o outliers. Esta lnea se est definida por el percentil 75 ms
1.5 veces el rango inter-cuartil, de manera equivalente la lnea que est bajo la casa corresponde
al percentil 25 menos 1.5 veces el rango inter-cuartil.

Medidas de desigualdad
Para definir si una persona es indigente, pobre no indigente, o no pobre se utiliza la lnea de
indigencia y pobreza definida segn el consumo de una canasta bsica por MIDEPLAN. Para el ao
2009 se tienen los siguientes valores de lnea de indigencia y pobreza:
Tabla 4
Lnea de indigencia
Urbana
32,067
Rural
24,710
Lnea de pobreza
Urbana
64,134
Rural
43,242

Para definir si un individuo tiene un ingreso bajo o sobre la lnea de pobreza o indigencia, se
calcula su ingreso per-cpita del hogar, tomando el ingreso total del hogar y dividindolo por el
nmero de personas en el hogar, excluyendo el servicio domstico.
Los ingresos totales del hogar se pueden dividir en:

Ingreso autnomo del hogar


o Ingresos laborales
o Otras fuentes de ingresos (rentas, pensiones, etc.)
Ingresos por subsidios monetarios
Alquiler imputado

Dos medidas de desigualdad ampliamente utilizadas son la razn entre el ltimo y primer quintil, y
la razn entre el ltimo y primer decil.
A continuacin tomaremos las diferentes medidas de ingreso para analizar las medidas de
tendencia central, dispersin, y desigualdad.
**Ingreso total per-cpita
g ingpc=ytothaj/n
***Ingreso del trabajo del hogar****
g ytrab= ytrabhaj
replace ytrab=. if ytrab==0
***Ingreso Autonomo ditisntos del trabajo, del hogar***
g yaut2=yauthaj-ytrab
replace yaut2=. if yaut2==0
***Ingresos de subsidios del hogar***
g ysub=ysubhaj
replace ysub=. if ysub==0
***Alquiler imputado***
g alq=yaimhaj
replace alq=. if alq==0

***Ingreso Autonomo Percapita del hogar***


g yaupc=yauthaj/n
replace yaupc=. if yaupc==.

xtile
xtile
xtile
xtile
xtile
xtile

quintil_trab=ytrab [w=expr] if o==1, nq(5)


quintil_au2=yaut2 [w=expr] if o==1, nq(5)
quintil_sub=ysub [w=expr] if o==1, nq(5)
quintil_alq=alq [w=expr] if o==1, nq(5)
quintil_aupc=yaupc [w=expr] if o==1, nq(5)
quintil_totpc=ingpc [w=expr] if o==1, nq(5)

xtile
xtile
xtile
xtile
xtile
xtile

decil_trab=ytrab [w=expr] if o==1, nq(10)


decil_au2=yaut2 [w=expr] if o==1, nq(10)
decil_sub=ysub [w=expr] if o==1, nq(10)
decil_alq=alq [w=expr] if o==1, nq(10)
decil_aupc=yaupc [w=expr] if o==1, nq(10)
decil_totpc=ingpc [w=expr] if o==1, nq(10)

matrix MED=J(6,12,0)
matrix colnames MED=Promedio DesvEstandar P25 P75 Quintil1 Quintil5
Decil1 Decil10 CV IQR D10/D1 Q5/Q1
matrix rownames MED=Trabajo otros_autonomos subsidios alquiler
autonomo_pc total_pc
sum ytrab [w=expr] if o==1, detail
matrix MED[1,1]=r(mean)
matrix MED[1,2]=r(sd)
matrix MED[1,3]=r(p25)
matrix MED[1,4]=r(p75)
sum ytrab [w=expr] if o==1 & quintil_trab==1
matrix MED[1,5]=r(mean)
sum ytrab [w=expr] if o==1 & quintil_trab==5
matrix MED[1,6]=r(mean)
sum ytrab [w=expr] if o==1 & decil_trab==1
matrix MED[1,7]=r(mean)
sum ytrab [w=expr] if o==1 & decil_trab==10
matrix MED[1,8]=r(mean)
sum yaut2 [w=expr] if o==1, detail
matrix MED[2,1]=r(mean)
matrix MED[2,2]=r(sd)
matrix MED[2,3]=r(p25)
matrix MED[2,4]=r(p75)

sum yaut2 [w=expr] if o==1 & quintil_au2==1


matrix MED[2,5]=r(mean)
sum yaut2 [w=expr] if o==1 & quintil_au2==5
matrix MED[2,6]=r(mean)
sum yaut2 [w=expr] if o==1 & decil_au2==1
matrix MED[2,7]=r(mean)
sum yaut2 [w=expr] if o==1 & decil_au2==10
matrix MED[2,8]=r(mean)
sum ysub [w=expr] if o==1, detail
matrix MED[3,1]=r(mean)
matrix MED[3,2]=r(sd)
matrix MED[3,3]=r(p25)
matrix MED[3,4]=r(p75)
sum ysub [w=expr] if o==1 & quintil_sub==1
matrix MED[3,5]=r(mean)
sum ysub [w=expr] if o==1 & quintil_sub==5
matrix MED[3,6]=r(mean)
sum ysub [w=expr] if o==1 & decil_sub==1
matrix MED[3,7]=r(mean)
sum ysub [w=expr] if o==1 & decil_sub==10
matrix MED[3,8]=r(mean)

sum alq [w=expr] if o==1, detail


matrix MED[4,1]=r(mean)
matrix MED[4,2]=r(sd)
matrix MED[4,3]=r(p25)
matrix MED[4,4]=r(p75)
sum alq [w=expr] if o==1 & quintil_alq==1
matrix MED[4,5]=r(mean)
sum alq [w=expr] if o==1 & quintil_alq==5
matrix MED[4,6]=r(mean)
sum alq [w=expr] if o==1 & decil_alq==1
matrix MED[4,7]=r(mean)
sum alq [w=expr] if o==1 & decil_alq==10
matrix MED[4,8]=r(mean)

sum yaupc [w=expr] if o==1, detail


matrix MED[5,1]=r(mean)
matrix MED[5,2]=r(sd)
matrix MED[5,3]=r(p25)
matrix MED[5,4]=r(p75)
sum yaupc [w=expr] if o==1 & quintil_aupc==1
matrix MED[5,5]=r(mean)
sum yaupc [w=expr] if o==1 & quintil_aupc==5
matrix MED[5,6]=r(mean)
sum yaupc [w=expr] if o==1 & decil_aupc==1
matrix MED[5,7]=r(mean)
sum yaupc [w=expr] if o==1 & decil_aupc==10
matrix MED[5,8]=r(mean)
sum ingpc [w=expr] if o==1, detail
matrix MED[6,1]=r(mean)
matrix MED[6,2]=r(sd)
matrix MED[6,3]=r(p25)
matrix MED[6,4]=r(p75)
sum ingpc [w=expr] if o==1 & quintil_totpc==1
matrix MED[6,5]=r(mean)
sum ingpc [w=expr] if o==1 & quintil_totpc==5
matrix MED[6,6]=r(mean)
sum ingpc [w=expr] if o==1 & decil_totpc==1
matrix MED[6,7]=r(mean)
sum ingpc [w=expr] if o==1 & decil_totpc==10
matrix MED[6,8]=r(mean)
local i=1
while `i'<=6 {
matrix
matrix
matrix
matrix

MED[`i',9]=MED[`i',2]/MED[`i',1]
MED[`i',10]=MED[`i',4]-MED[`i',3]
MED[`i',11]=MED[`i',8]/MED[`i',7]
MED[`i',12]=MED[`i',6]/MED[`i',5]

local i=`i'+1
}

La razn de deciles y quintiles nos permiten estudiar la distribucin o desigualdad en las distintas
medidas de ingresos propuestas. Por ejemplo, se tiene que los hogares del decil ms alto obtienen
ingresos del trabajo que son en promedio ms de 37 veces los ingresos de las personas del decil
ms bajo. Esto puede ser de alguna manera compensado (al menos en trminos relativos) con los
subsidios, ya que la razn entre el Decil 90 y Decil 10 de subsidios monetarios es 45.5. Con
respecto a la razn de quintiles, las personas que estn en el 20% de mayores ingresos del trabajo
tienen ingresos por este tem promedio que son 16.2 veces los ingresos de trabajo de las personas
que estn en el 20% inferior.
En trminos de ingreso autnomo per-cpita la desigualdad de ingresos nos muestra que las
personas del decil ms alto tienen un ingreso 78.7 veces el ingreso de las personas del decil ms
bajo. En trminos de quintiles la razn (desigualdad) es menor, nos muestra que las personas en el
quintil ms acomodado tiene un ingreso autnomo 24 veces el ingreso del primer quintil. Pero si
nos concentramos en el ingreso total del hogar, el cual corresponde a los ingresos autnomos ms
los subsidios monetarios y alquiler imputado, se tiene que la razn de deciles es poco menos de la
mitad de la misma medida para el ingreso autnomo, y la razn de quintiles es 15.8.
Otras dos medidas de desigualdad son la curva de Lorenz y el coeficiente de Gini. La Curva de
Lorenz mide el porcentaje acumulado del ingreso (o de la variable que estemos analizando) en
manos del porcentaje acumulado de la poblacin. La Figura 5 nos muestra la Curva de Lorenz en
rojo, en el eje horizontal nos va mostrando la proporcin de la poblacin que va desde cero a 1, y
en el eje vertical la proporcin del ingreso. Por ejemplo, esta curva nos muestra que un 60% de la
poblacin acumula cerca del 30% de los ingresos. Mientras mayor curvatura tenga la curva de

lorenz mayor es la desigualdad, y mientras ms recta sea la curva menor es la desigualdad, en el


extremo no existe desigualdad en la lnea negra (45).
Figura 5

lorenz yaupc

Grfico 10

Esta medida de desigualdad es grfica y dificulta la comparacin con otras variables. El coeficiente
de Gini es un indicador ms objetivo que se obtiene a partir de la Curva de Lorenz, el Gini es un
nmero que est entre 0 y 1, en donde 0 corresponde a perfecta igualdad y 1 corresponde a
perfecta desigualdad.
El Coeficiente de Gini se obtiene de dividir el rea que hay entre la lnea de perfecta igualdad y la
Curva de Lorenz (a), y el rea total bajo la lnea de perfecta igualdad (a+b).
Figura 6
Coeficiente de Gini

Para obtener el coeficiente de GINI del ingreso autnomo per-cpita podemos utilizar el comando
inequal de STATA:
inequal yaupc

El coefiente del Gini del ingreso autnomo per-cpita es 0.513 o 51.3%.

La interpretacin del coeficiente de GINI es la siguiente, si tomo dos familias o personas al azar, la
diferencia en ingresos autnomos per-cpita de estas dos personas como proporcin del ingreso
promedio:

Es el doble del coeficiente de GINI, es decir, en este caso 102.6%.


Todos los indicadores que hemos presentados: medidas de tendencia central, medidas de
dispersin, y medidas de desigualdad, lo hemos mostrando pensando en el anlisis de una sola
variable. Sin embargo, en muchos casos nos interesar hacer comparaciones entre estadsticos de
diferentes variables o para diferentes grupos, por ejemplo, podramos comparar los ingresos
promedios entre hombre y mujeres.
Una forma de compararlos sera simplemente tomar la diferencia entre el ingreso promedio de los
hombres y el ingreso promedio de las mujeres, esto nos entregar un nmero. Pero no sabremos
si decir si ese nmero es grande o pequeo, o afirmar que realmente la diferencia existe, para esto
necesitamos determinar si el valor encontrado es estadsticamente diferente de cero.
A continuacin comenzaremos a desarrollar el marco conceptual que ms adelante nos permitir
responder esta pregunta.

Teora de Distribucin de Probabilidades


A continuacin vamos a presentar y desarrollar una serie de conceptos relacionado con la Teora
de Probabilidades, la que ms adelante nos permitira rechazar o no hiptesis desde el punto de
vista estadstico.

Variable Aleatoria
Definicin
Una variable aleatoria es aquella variable cuyos resultados posibles se obtienen del azar, es
decir, de manera experimental.
Existen variables aleatorias discretas, es decir, que slo pueden tomar valores contables, y existen
variables aleatorias continuas donde la variable puede tomar cualquier nmero del infinito de
nmeros posibles.

Probabilidad de un evento
Se entiende por probabilidad como la posibilidad de que ocurra un resultado o un evento
determinado. Un evento es uno de los posibles resultados de hacer algo. Por ejemplo, al lanzar
una moneda tenemos dos posibles eventos: que salga cara o que salga sello. Luego, la
probabilidad de que al lanzar una moneda esta caiga en cara es o 0.5.
Una probabilidad siempre estar entre 0 y 1, donde 0 significa que no existe ninguna posibilidad
de que el evento ocurra, y 1 existe seguridad de que el evento ocurra.
En la teora de probabilidad, la actividad que origina los diferentes eventos se conoce como
experimento. Al conjunto de todos los resultados posibles de un experimento se le llama espacio
muestral del experimento. En el experimento lanzar una moneda el espacio muestral es:

Consideremos ahora el experimento de lanzar una moneda cuatro veces, para cada lanzamiento
de la moneda tenemos dos posibles resultados (cara o sello), por lo cual el espacio muestral de
este experimento tendr 16 eventos posibles:

1 moneda

2 moneda

3 moneda

4 moneda

Cara

Cara

Cara

Cara
Sello

Sello

Cara
Sello

Sello

Cara

Cara
Sello

Sello

Cara
Sello

Sello

Cara

Cara

Cara
Sello

Sello

Cara
Sello

Sello

Cara

Cara
Sello

Sello

Cara
Sello

De esta forma, el experimento lanzar 4 monedas tiene 16 posibles eventos que forman el espacio
muestral del experimento, y la probabilidad de cada uno de los eventos es 1/16 o 0.0625.
Nmero
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16

Evento
CCCC
CCCS
CCSC
CCSS
CSCC
CSCS
CSSC
CSSS
SCCC
SCCS
SCSC
SCSS
SSCC
SSCS
SSSC
SSSS

Probabilidad
1/16 =0.0625
1/16 =0.0625
1/16 =0.0625
1/16 =0.0625
1/16 =0.0625
1/16 =0.0625
1/16 =0.0625
1/16 =0.0625
1/16 =0.0625
1/16 =0.0625
1/16 =0.0625
1/16 =0.0625
1/16 =0.0625
1/16 =0.0625
1/16 =0.0625
1/16 =0.0625

Otra pregunta que nos podemos hacer con respecto al experimento de lanzar 4 monedas es la
cantidad de caras que salen, esta variable la denotaremos por X, y se tiene que:
X
0
1
2
3
4

N de casos
1
4
6
4
1

Probabilidad
1/16=0.0625
=0.25
3/8=0.375
=0.25
1/16=0.0625

Esta variable aleatoria puede tomar cinco valores diferentes, por lo cual es una variable aleatoria
discreta, las probabilidades de cada uno de los posibles valores de esta variable son todos
positivos y menores a 1, y la suma de ellos es igual a 1.

Funcin de Distribucin de Probabilidad


Definicin
La Funcin de Distribucin de Probabilidad nos seala para cada uno de los resultados posibles
de la variable aleatoria cual es su probabilidad

La Funcin de Distribucin de Probabilidad tiene dos caractersticas importantes:

La probabilidad de un resultado en particular est entre 0 y 1:

La suma de las probabilidades de todos los eventos es 1:

histogram X, discrete fraction fcolor(purple) lcolor(black)


ytitle(Pr(X=x)) xtitle(Nmero de caras en el lanzamiento de cuatro
monedas)

Grfico 11
Distribucin de Probabilidad X

Definicin
La Funcin de Distribucin de Frecuencias nos seala para cada uno de los resultados posibles
de la variable aleatoria la cantidad de casos que tienen ese resultado.

histogram X, discrete freq fcolor(purple) lcolor(black)


ytitle(frecuencias) xtitle(Nmero de caras en el lanzamiento de cuatro
monedas)

Grfico 12
Distribucin de Frecuencias X

Una tabulacin de una entrada de la variable X nos muestra la distribucin de frecuencia,


distribucin de probabilidades (en porcentaje), y distribucin de probabilidad acumulada:

En este caso la variable aleatoria es discreta, por lo cual esta funcin que relacionada cada evento
posible de la variable con sus probabilidades est definida, sin embargo, cuando trabajamos con
variables aleatorias continuas no es posible definir esta funcin de distribucin de probabilidad, ya
que existen infinitos valores posibles para X.
Para variables aleatorias continuas se define la funcin de densidad de probabilidad.
Definicin
La Funcin de Densidad de Probabilidad (pdf) es tal que el rea bajo esta funcin entre dos
puntos es igual a la probabilidad de que la variable aleatoria este entre dos puntos

Es importante tener presente que el valor asociado a la funcin de densidad en un punto no


representa la probabilidad de que la variable aleatoria tome ese valor, ya que la funcin de
densidad est definida para entregar probabilidades integrando por reas.
De esta forma, se tiene que la probabilidad de que una variable aleatoria continua Z tome valores
entre a y b estar dada por:

Donde f(z) es la funcin de densidad.


Adems se cumple que:

Definicin
La Funcin de Probabilidad Acumulada (cdf) indica la probabilidad de que una variable aleatoria
tome un valor menor o igual a cierto umbral especfico

Por ejemplo, podemos preguntarnos cul es la probabilidad de que la variable aleatoria Z sea
menor a:

Una funcin de densidad bastante utilizada por sus particularidades es la funcin de densidad
normal:

Esta funcin de densidad tiene dos parmetros que definen su media () y su desviacin estndar
(), y se denota
. Esta funcin de densidad tiene la particularidad de ser simtrica
(coeficiente de asimetra es cero), y mesocurtica (coeficiente de curtosis es igual a 3).
Por ejemplo, mediante el siguiente comando de STATA podemos generar variables aleatorias con
una funcin de densidad normal, para lo cual debemos escoger sus dos parmetros: media y
desviacin estndar:
matrix m=(0,1,2,2)
matrix sd=(1,1,1,sqrt(2))
drawnorm w x y z, n(50000) means(m) sds(sd)

Hemos generado 4 variables aleatorias independientes entre ellas, w tiene media 0 y desviacin
estndar 1, x tiene media 1 y desviacin estndar 1, y tiene media 2 y desviacin estndar 1, y z
tiene media dos y varianza 2.
El Grfico 13 nos muestra la funcin de densidad de w, la cual la obtuvimos a travs del comando
normalden()de STATA. Este comando genera una variable que corresponde a aplicar la funcin
de densidad normal con media cero y desviacin estndar 1 a la variable indicada entre parntesis,
en este caso w.
Es decir,
g densidadw=normalden(w)
twoway (scatter densidadw w)

Grfico 13
Funcin de densidad normal: media 0 y desviacin estndar 1

Tambin podemos obtener y graficar la funcin de densidad de probabilidad acumulada de esta


variable:
g cdensidadw=normal(w)
twoway (scatter cdensidadw w, mcolor(purple))

Grfico 14
Funcin de densidad normal acumulada: media 0 y desviacin estndar 1

Ambos grficos los obtuvimos asumiendo que la variable w fue generada a partir de una funcin
de densidad normal con media cero y varianza 1, sin embargo, en la prctica slo se nos entregar
un vector de datos sin saber cul fue el proceso que gener esos datos. Por lo cual en la prctica
debemos estimar empricamente cual es la funcin de densidad de los datos, ya sea a travs de un
histograma o a travs de una estimacin kernel (suavizacin del histograma).
histogram w, title(media=0; varianza=1)
histogram x, title(media=1; varianza=1)
histogram y, title(media=2; varianza=1)
histogram z, title(media=2; varianza=2)
graph combine g1 g2 g3 g4, xcom ycom

name(g1,
name(g2,
name(g3,
name(g4,

replace)
replace)
replace)
replace)

Grfico 15
Histograma, aproximacin muestral de la funcin de densidad

kdensity w, title(media=0;
kdensity x, title(media=1;
kdensity y, title(media=2;
kdensity z, title(media=2;
graph combine g5 g6 g7 g8,

varianza=1)
varianza=1)
varianza=1)
varianza=2)
xcom ycom

name(g5,
name(g6,
name(g7,
name(g8,

replace)
replace)
replace)
replace)

Grfico 16
Kernel, aproximacin muestral de la funcin de densidad

Media y Varianza
A partir de la funcin de distribucin de probabilidad o la funcin de densidad de probabilidad de
una variable aleatoria se pueden obtener algebraicamente los momentos de una variable,
especialmente, la media y la varianza. Estos parmetros son anlogos a la media y varianza
muestral de una distribucin emprica.

Media
La media de una variable aleatoria de conoce como valor esperado o esperanza, y de denota por
E(x).

Variable aleatoria discreta

Variable aleatoria continua

Varianza
La varianza de una variable aleatoria de denota por V(X), y se define de la siguiente manera:
Variable aleatoria discreta

Variable aleatoria continua

Nuevamente, estos conceptos son ms bien tericos o poblacionales, ya que suponen conocer la
funcin de probabilidad o densidad que dio origen a los valores observados de la variable
aleatoria. Por esta razn, la E(X) y V(X) se conocen como momentos poblacionales (verdaderos).
Pero en la prctica desconocemos la funcin de densidad o la funcin de probabilidad, y slo
podremos obtener aproximaciones muestrales de estos momentos.
Media muestral
La media muestral se define de la siguiente manera:

Es anloga a la definicin de E(x) o media poblacional, pero cada xi tiene igual probabilidad de
ocurrencia, 1/N.

Varianza muestral
La varianza muestral se define de la siguiente manera:

Aplicacin: Lotera de New Jersey


Para este ejercicio se utilizarn los datos de la Lotera de New Jersey, especficamente el juego Pick
3, en este juego se saca tres veces seguidas una bola numerada de 0 a 9, y se realiza un sorteo en
la maana y otro en la tarde.
En la siguiente pgina pueden descargar los datos histricos del juego desde 1975:
http://www.state.nj.us/lottery/data/pick3.dat
El objetivo de este ejercicio es mostrar que el resultado del azar, lo que hemos denominado
variable aleatoria, es slo UNO de los resultados posibles que podra tomar dicha variable. Es
decir, lo que observamos es una de las posibles realizaciones de la variable aleatoria segn la
distribucin de probabilidad que la variable tiene asociada.
De esta forma, debemos establecer un criterio para poder decidir cuando la variable aleatoria
tiene un comportamiento estadstico apropiado segn su distribucin de probabilidad o cuando
no.
Nos concentraremos para comenzar en la lotera del ao 1975, la siguiente figura muestra la base
de datos que se obtiene de descargar la informacin de la pgina y traspasarla a STATA mediante
los siguientes comandos:
insheet using "pick3.dat", delimiter("%")
rename v1 ao
rename v2 mes
rename v3 dia
rename v4 jornada
drop v5
rename v6 n1
rename v7 n2
rename v8 n3
drop v9-v13
keep if ao==1975
save "loteria75.dta", replace

Figura 7
Base de Datos Pick 3 (1975)

Cada nmero del sorteo (n1, n2, n3) corresponden a eventos independientes uno del otro: sacar
una bola de entre 10 bolas numeradas de 0 a 9, por lo cual podemos generar una sola variable
aleatoria.
egen id=group(ao mes dia jornada)
reshape long n, i(id) j(digito)

Lo primero que hacemos es generar un identificar cada uno de los sorteos, variable id, luego
ordenamos la base de datos de manera tal que las variables n1, n2, y n3 se agrupen hacia abajo en
una sola columna llamada n, esto se hace a travs del comando reshape long.
Figura 8
Base de datos ordenada Pick 3 (1975)

La siguiente tabla nos muestra la distribucin de frecuencias y de probabilidad de cada uno de los
nmeros de 0 a 9 que pueden ser sorteados:

En una lotera justa cada nmero tiene igual probabilidad de salir, esta probabilidad terica es de
un 10%. Empricamente debisemos observar que dentro de estos 570 sorteos cada nmero
debera salir 57 veces aproximadamente, sin embargo, observamos que el nmero 1 por ejemplo
sale 72 veces, 12.6%.
El siguiente grfico muestra el histograma de la variable aleatoria
Grfico 17
Distribucin de Frecuencias sorteo

Distribucin de Nmeros sorteados Pick3

10
5
0

Probabilidad

15

(1975)

Fuente: Lotera de New Jersey

4
5
Numeros Pick3

Se observa claramente que los nmeros 0, 1, y 4 aparecen en ms del 10% de los casos, y los
nmeros 3 y 5 en menos del 10% de los casos. Podramos afirmar entonces que la lotera no es
justa?.
Para poder afirmar que la lotera no es justa, debemos establecer algn criterio que nos permita
decir cuando estadsticamente la variable aleatoria no se est comportando segn lo esperado
tericamente. Una estrategia para hacer esto es simular muchas loteras honestas (por ejemplo
5000) sacando muestras repetidas de 570 observaciones, luego si en estas simulaciones
observamos que es frecuente que un nmero aparezca 12.6% de las veces o ms, podramos
concluir que los resultados obtenidos no son irregulares. Si por el contrario la probabilidad de que
un nmero aparezca 12.6% en las simulaciones es muy baja habra que sospechar de los
resultados de la lotera de 1975.
Pero necesitamos un criterio para decir cuando es un resultado regular o un resultado raro, es
decir, cual es la probabilidad lmite tal que sobre este valor diremos que este resultado (observar
ms del 10% el nmero 1) es un mero resultado del azar, y bajo este valor diremos que esta lotera
es injusta. Por ejemplo, si en un 100% de las simulaciones observamos que el nmero 1 sale 12.6%
de las veces podramos decir que esto no es algo raro o que la lotera es justa. Si observamos que
en un 80% de las simulaciones se da este resultado tambin sigue siendo un resultado que no nos
permite decir que la lotera es injusta pero si por ejemplo, observamos que este resultado slo se
da en un 1% de las simulaciones tenemos evidencia para decir que la lotera no es justa ya que el
resultado se da en slo un 1% de los casos, es un caso aislado. Entonces debemos escoger el valor
sobre el cual diremos que el resultado es normal y bajo el cual diremos que el resultado es
extrao, por ejemplo 5%.
Entonces,

Si en la simulacin la probabilidad (cantidad de casos sobre el total) de que el nmero 1


sea sorteado 12.6% de las veces o ms, es mayor a 5% (nuestro criterio) diremos que la
lotera es justa.
Si en la simulacin la probabilidad de que el nmero 1 sea sorteado 12.6% de las veces o
ms, es menor a 5% (nuestro criterio) diremos que la lotera no es justa.

A continuacin realizaremos las 5,000 simulaciones de una lotera justa, esto significa obtener
aleatoriamente y con igual probabilidad un nmero entre 0 y 9, 570 veces, ya que esta es la
cantidad de observaciones que poseemos para el ao 1957. Luego contaremos la cantidad de
veces que fue sorteado cada nmero.

clear
drop _all
set matsize 6000
set more 1
matrix B=J(5000,10,0)
set obs 570
g y=0
local i=1
while `i'<=5000 {
qui replace y=int(uniform()*10)
qui sum y if y==0
matrix B[`i',1]=r(N)
qui sum y if y==1
matrix B[`i',2]=r(N)
qui sum y if y==2
matrix B[`i',3]=r(N)
qui sum y if y==3
matrix B[`i',4]=r(N)
qui sum y if y==4
matrix B[`i',5]=r(N)
qui sum y if y==5
matrix B[`i',6]=r(N)
qui sum y if y==6
matrix B[`i',7]=r(N)
qui sum y if y==7
matrix B[`i',8]=r(N)
qui sum y if y==8
matrix B[`i',9]=r(N)
qui sum y if y==9
matrix B[`i',10]=r(N)
local i=`i'+1
}

Luego, la matriz B se transforma a base de datos


drop y
svmat B, names(col)

Figura 9
Base de datos 5,000 simulaciones
Nmero de veces que es sorteado cada nmero

Luego, calculamos el porcentaje en el que es sorteado el nmero 1 para cada simulacin:


g prop1=c2/570*100
count if prop1>=12.6

Se obtiene que en 119 de las 5,000 simulaciones el nmero 1 es obtenido 12.6% o ms, lo que
corresponde a 2.38%, este porcentaje es menor al 5% que establecimos como criterio para decidir
cuando la lotera no es justa, por lo cual podemos decir que los resultados de la lotera de 1975 NO
son regulares.
El Grfico 18 muestra la distribucin de el porcentaje de veces que es sortead el nmero 1 de las
5,000 simulaciones. Vemos que la distribucin es bastante simtrica y se concentra en torno a
10%, que representa el valor terico del nmero de veces que debemos obtener el nmero 1. En
efecto, el promedio es justamente 10%. Adems observamos que en un 1% de los casos el
porcentaje de 1 es mayor a 13.2%, y en un 1% de los casos es menor a 7.2%.

Grfico 18
Distribucin de porcentaje de veces que nmero 1 es sorteado

Percent

1975

8
10
12
14
Distribucion del porcentaje de unos en las 5000 simulaciones

16

Muestreo Aleatorio y Distribucin de la Media Muestral


Cuando estamos interesados en analizar el comportamiento de una variable de inters, por
ejemplo, el nivel de ingresos de un hogar, el peso de los menores al nacer, la propensin a padecer
diabetes, el nmero de meses que una persona permanece desempleado, etc., generalmente
trabajaremos con una muestra extrada de la poblacin. Esto, porque en trminos prcticos no
tiene sentido estudiar a toda la poblacin para determinar el comportamiento estadstico y las
propiedades de la variable de inters, para esto bastar extraer una muestra aleatoria de la
poblacin.
Por ejemplo, si queremos estudiar el comportamiento previsional de los trabajadores
independientes, no es necesario entrevistar a todos los trabajadores independientes sino que
bastar con extraer una muestra aleatoria que sea representativa de este grupo de inters.
De una poblacin se pueden extraer distintas muestras que permitan representar dicha poblacin.
Supongamos que nuestra poblacin bajo estudio est formada por 10 individuos, cuntas
muestras diferentes podemos obtener de esta poblacin?

1
8

6
9

10

4
2

Una posible muestra es tomar a 1 individuo de los 10, podramos formar 10 muestras de este tipo.
Otro extremo es tomar una muestra de 10 individuos (igual a la poblacin), tambin podramos
formar muestras de dos individuos, o de tres, etc. Esto nos permite ver como a partir de una
poblacin pequea de slo 10 individuos, la cantidad de muestras que se pueden obtener de ellas
es bastante amplia. Cuntas muestras podemos obtener de una poblacin de 16,000,000 de
personas?, este nmero tiende a infinito.
Se define como Poblacin al conjunto de todos los elementos que han sido escogidos para el
estudio. Se realiza un Censo cuando se entrevista a cada uno de los elementos de la poblacin.
Una Muestra corresponde a una seleccin de parte de la poblacin.

Estadsticas versus parmetros


Cuando queremos caracterizar una variable, y a su vez, compararla con otra variable o la misma
variable entre diferentes grupos, podemos utilizar las medidas de tendencia central como la media
y la mediana, y las medidas de dispersin como desviacin estndar y rango inter-cuartil. Cuando
estos indicadores son obtenidos de una muestra son conocidos como estadsticas descriptivas, sin
embargo, cuando son obtenidos de la poblacin se conocen como parmetros.

Tipos de muestreo
Para que una muestra sea representativa de la poblacin debe ser obtenida de manera aleatoria,
slo si esto se cumple podremos aproximar los parmetros poblacionales a travs de estimaciones
muestrales.
Como ya se mencionaba, de una poblacin podemos obtener infinitas muestras aleatorias, as
cuando se nos entrega una base de datos cuya informacin corresponde a una muestra obtenida
de la poblacin, esta corresponde a una de un milln de bases de datos que podramos haber
obtenido para la poblacin de estudio.

Muestreo Aleatorio Simple


El Muestreo Aleatorio Simple (MAS) selecciona muestras de forma tal que cada muestra tiene
igual probabilidad de ser seleccionada y que cada elemento de la poblacin tiene igual
probabilidad de ser incluido en la muestra.
Un MAS se dice que es con reemplazo, si una personas seleccionada puede ser elegible
nuevamente, es decir, podra ser que una personas fuese seleccionada ms de una vez para
formar parte de la muestra. El MAS es sin reemplazo si cada persona puede ser seleccionada una
vez o no seleccionada, es decir, una vez escogida la persona esta deja de ser elegible nuevamente.
Suponga que tenemos una poblacin 845 estudiantes de Ingeniera Comercial egresados en los
aos 2005, 2006 y 2007. De esta poblacin de estudio debemos escoger una muestra de 120
estudiantes para ser entrevistados. Los 845 estudiantes estn identificados en la base de datos a
travs de la variable folio que tiene tres dgitos y toma valores del 1 al 845.
Para determinar qu persona entrevistar debemos generar 120 nmero aleatorios de tres dgitos
que representarn los folios de las personas seleccionadas.
Los 120 folios seleccionados mediante muestreo aleatorio simple con reemplazo pueden ser
seleccionados a travs de los siguientes comandos:

set obs 120


g n1=int(uniform()*10)
g n2=int(uniform()*10)
g n3=int(uniform()*10)
g sorteo=n1*100+n2*10+n3)

La siguiente figura nos muestra los nmeros sorteados:


Figura 10
Nmeros sorteados mediante Muestreo Aleatorio Simple
Con reemplazo

El primer estudiante seleccionado es aquel con el folio 169.


Ahora, si queremos seleccionar la muestra mediante un muestreo aleatorio simple sin reemplazo
podemos hacerlo mediante los siguientes comandos:
set obs 150
g
g
g
g

n1=int(uniform()*10)
n2=int(uniform()*10)
n3=int(uniform()*10)
sorteo=n1*100+n2*10+n3

duplicates drop sorteo, force


keep if n<=120

A pesar de que mediante los comandos anteriores nos permiten ejemplificar el muestreo aleatorio
simple, STATA ya posee comandos que automticamente seleccionan muestra a travs de este
tipo de muestreo con y sin reemplazo:

sample: el comando simple de STATA genera una muestra aleatoria simple sin reemplazo
o sample 10: escoge aleatoriamente 10% de las observaciones
o sample 120, count: escoge aleatoriamente 120 observaciones
bsample: muestreo aleatorio simple con reemplazo
o bsample 120: escoge aleatoriamente 120 observaciones.

El Grfico 19 muestra la comparacin entre las funciones de densidad de una poblacin de


100,000 observaciones que siguen una distribucin normal con media 15 y varianza 100, y
diferentes muestras obtenidas de esa poblacin. La diferencias entre un grfico y otro es el
tamao muestral de la poblacin, podemos notar que mientras ms pequea es la muestra (N=50)
mayor es la diferencia entre la densidad de la muestra y de la poblacin, versus las muestras ms
grandes (N=5000) donde las diferencias son infimas.

-40

-20

20

40

.01 .02 .03 .04 .05

60

.01 .02 .03 .04 .05


0

.01 .02 .03 .04 .05

Grfico 19
Muestras Aleatorias de Diferentes Tamaos

-40

-20

20

40

60

-40

Muestra 80

20

40

60

x
Poblacion

-20

20

40

60

g x=invnorm(uniform())*10+15
save x.dta,replace

Poblacion

Muestra 100

Poblacion

-40

-20

20

40

60

x
Muestra 1000

Para realizar este grfico se utilizaron los siguientes comandos:


clear
set obs 100000

60

.01
-40

x
Muestra 500

40

.01
0

20

.02 .03 .04 .05

Poblacion

.01
0

-20

0
x

.02 .03 .04 .05

Muestra 50

.02 .03 .04 .05

Poblacion

-40

-20

Poblacion

Muestra 5000

use x, clear
sample 50, count
rename x x50
save x50.dta, replace
use x, clear
sample 80, count
rename x x80
save x80.dta, replace
use x, clear
sample 100, count
rename x x100
save x100.dta, replace
use x, clear
sample 500, count
rename x x500
save x500.dta, replace
use x, clear
sample 1000, count
rename x x1000
save x1000.dta, replace
use x, clear
sample 5000, count
rename x x5000
save x5000.dta, replace
use x, clear
merge using x50 x80 x100 x500 x1000 x5000
twoway (kdensity x) (kdensity x50), name(g1, replace) legend(order(1
"Poblacion" 2 "Muestra 50"))
twoway (kdensity x) (kdensity x80), name(g2, replace) legend(order(1
"Poblacion" 2 "Muestra 80"))
twoway (kdensity x) (kdensity x100), name(g3, replace) legend(order(1
"Poblacion" 2 "Muestra 100"))
twoway (kdensity x) (kdensity x500), name(g4, replace) legend(order(1
"Poblacion" 2 "Muestra 500"))
twoway (kdensity x) (kdensity x1000), name(g5, replace) legend(order(1
"Poblacion" 2 "Muestra 1000"))
twoway (kdensity x) (kdensity x5000), name(g6, replace) legend(order(1
"Poblacion" 2 "Muestra 5000"))
graph combine g1 g2 g3 g4 g5 g6, xcommon ycommon

Muestreo Aleatorio Sistemtico


En el Muestreo Aleatorio Sistemtico los elementos son seleccionados de la poblacin dentro de
un intervalo uniforme. En el ejemplo anterior, se deben seleccionar 120 personas de una
poblacin de 875 individuos, por lo cual debemos escoger aproximadamente 1 de cada 7 personas
en la poblacin (875/120~7).
A travs de los siguientes comandos en STATA podemos generar los 120 individuos seleccionados
con este tipo de muestreo:
clear
set obs 120
g sorteo=int(uniform()*6)+1 if _n==1
replace sorteo=sorteo[_n-1]+7 if _n>1

La siguiente figura muestra los 120 folios seleccionados a travs de este mtodo
Figura 11
Nmeros sorteados mediante Muestreo Aleatorio Sistemtico

Muestreo Aleatorio Estratificado


El Muestreo Aleatorio Estratificado consiste en dividir a la poblacin en grupos relativamente
homogneos llamados estratos, y dentro de cada estrato se selecciona a una muestra de esta subpoblacin, ya sea a travs de muestreo aleatorio simple o sistemtico. El muestreo aleatorio
estratificado puede ser proporcional o no proporcional. En el primero, la muestra de cada estrato
es seleccionada de manera proporcional a la poblacin del estrato, en el segundo se seleccionada
la misma cantidad de elementos en cada estrato.

Propiedades de la Media Muestral


A partir una poblacin podemos seleccionar infinitas muestra, generalmente nosotros
dispondremos de slo una de estas infinitas muestras que podran haber sido seleccionadas, por lo
cual debemos conocer las propiedades de la media muestral para poder hacer inferencia sobre
ella.
Para estudiar las propiedades de la media muestral, supongamos que disponemos de la poblacin
y podemos sacar varias muestras diferentes a partir de esta poblacin. Para cada una de estas
muestras podemos calcular la media muestral:

Si la variable aleatoria X tiene una media poblacional igual a y una varianza poblacional igual a
2, notamos que el valor esperado (o esperanza) de la media muestral es:

Y la varianza de la media muestral es:

De esta forma, podemos notar que en valor esperado la media muestral ser igual a la media
poblacional, esto se conoce como que es un estimador insesgado. Adems, mientras mayor sea el
tamao de la muestra menor ser la varianza de este estimador (la media muestral), y estar ms
concentrada en torno a la media (media poblacional).
Suponga que tenemos una poblacin de 10,000 observaciones, donde esta poblacin tiene una
distribucin de probabilidad (densidad) normal con media poblacional 15 y varianza poblacional
igual a 100.
Luego, seleccionamos 1,000 muestras aleatorias de tamao N=500 cada una, y a cada una de estas
muestras le tomamos la media muestral, el siguiente grfico nos muestra la distribucin
(histograma) de las medias muestrales.
set matsize 11000
matrix B=J(1000,1,0)
clear
set obs 10000
g x=invnorm(uniform())*10+15
save xm.dta, replace

local i=1
while `i'<=1000{
use xm, clear
sample 500, count
qui sum x
matrix B[`i',1]=r(mean)
local i=`i'+1
}
clear
svmat B
histogram B1, title(Distribucin de las medias muestrales)

Grfico 20

.6
.4
.2
0

Density

.8

Distribucin de las medias muestrales

13.5

14

14.5

15
B1

15.5

16

Se obtiene que el promedio de las medias muestrales es 15, aproximadamente igual a la media
poblacional, y que la varianza de las medias muestrales es 0.186 (0.431^2), lo que equivale
aproximadamente a 100/500.
La desviacin estndar de las medias muestrales se conoce como error estndar, esto porque la
variabilidad en las medias muestrales proviene del error de muestreo debido al azar.
Si la variable aleatoria x tiene una distribucin normal de la siguiente forma:

Se tiene que la media muestral tambin tendr una distribucin normal de la forma:

Luego, se puede estandarizar la media muestral restndole la media y dividindolo por la


desviacin estndar, y se tiene que:

Teorema Central del Lmite


El Teorema Central del Lmite establece que si tomamos una muestra aleatoria de un tamao
muestral lo suficientemente grande, independiente de cul sea la distribucin de la variable
aleatoria en la poblacin, la media muestral de la variable tendr una distribucin normal con
media igual a la media poblacional, y varianza igual a la varianza muestral dividi por N.
Supongamos una poblacin que tiene una distribucin de probabilidad (densidad) tipo Pareto,
esta distribucin tiene la caracterstica de ser bastante asimtrica.
La funcin de densidad Pareto es:

Y la funcin de probabilidad acumulada de esta funcin de densidad es:

Supongamos a=3.
La media poblacional de la variable z que tiene una densidad Pareto es

La varianza poblacional de la variable z es:

A travs de los siguiente comandos generamos 100,000 observaciones de una variable que tiene
densidad de probabilidad Pareto con parmetro a=3.
clear
set obs 100000
g u=uniform()
g z=1/(u^(1/3))
histogram z, normal title(Distribucin de Probabilidad Variable
Aleatoria Pareto) subtitle(Poblacin de 100.000 observaciones)
save z.dta,replace

Grfico 21

Distribucin de Probabilidad Variable Aleatoria Pareto

.3
.2
.1
0

Density

.4

.5

Poblacin de 100.000 observaciones

20

40

60
z

80

100

Para ver el Teorema de Central del Lmite, tomaremos muestras aleatorias de tamao
N=10,50,100,1000, y 5000. Tomaremos la media muestral de cada una de las muestras repitiendo
el ejercicio 500 veces para obtener la distribucin de la media muestral en cada uno de los casos.
matrix Z=J(500,6,0)
local i=1
while `i'<=500{
use z, clear
sample 10, count
qui sum z
matrix Z[`i',1]=r(mean)
local i=`i'+1
}
local i=1
while `i'<=500{
use z, clear
sample 50, count
qui sum z
matrix Z[`i',2]=r(mean)
local i=`i'+1
}
local i=1
while `i'<=500{
use z, clear
sample 100, count
qui sum z
matrix Z[`i',3]=r(mean)
local i=`i'+1
}
local i=1
while `i'<=500{
use z, clear
sample 500, count
qui sum z
matrix Z[`i',4]=r(mean)
local i=`i'+1
}

local i=1
while `i'<=500{
use z, clear
sample 1000, count
qui sum z
matrix Z[`i',5]=r(mean)
local i=`i'+1
}
local i=1
while `i'<=500{
use z, clear
sample 5000, count
qui sum z
matrix Z[`i',6]=r(mean)
local i=`i'+1
}
clear
svmat Z
rename
rename
rename
rename
rename
rename
sum N*

Z1
Z2
Z3
Z4
Z5
Z6

N10
N50
N100
N500
N1000
N5000

histogram
N10,
normal
title(Muestra
simulaciones) name(gz1, replace)
histogram
N50,
normal
title(Muestra
simulaciones) name(gz2, replace)
histogram
N100,
normal
title(Muestra
simulaciones) name(gz3, replace)
histogram
N500,
normal
title(Muestra
simulaciones) name(gz4, replace)
histogram N1000, normal title(Muestra
simulaciones) name(gz5, replace)
histogram N5000, normal title(Muestra
simulaciones) name(gz6, replace)

de

10

observaciones)

note(500

de

50

observaciones)

note(500

de

100

observaciones)

note(500

de

500

observaciones)

note(500

de

1000

observaciones)

note(500

de

5000

observaciones)

note(500

graph combine gz1 gz2 gz3 gz4 gz5 gz6

Grfico 22

6
Density

3
1

1.5

2
N10

2.5

.5

Density

1.5
1

Density

2.5

Muestra de 10 observaciones Muestra de 50 observaciones Muestra de 100 observaciones

1.2

500 simulaciones

1.4

1.6 1.8
N50

2.2

1.2

500 simulaciones

1.4

1.6
N100

1.8

500 simulaciones

40
30
10

5
1.5

1.6
N500

500 simulaciones

1.7

0
1.4

20

Density

10

Density

6
4
2
0

Density

15

10

20

Muestra de 500 observacionesMuestra de 1000 observacionesMuestra de 5000 observaciones

1.45

1.5
1.55
N1000

500 simulaciones

1.6

1.46

1.48

1.5
N5000

500 simulaciones

1.52

1.54

La importancia del Teorema Central del Lmite es que nos permite hacer inferencia sobre los
parmetros poblacionales, a travs de las estadsticas calculadas a partir de la muestra y sin
necesidad de conocer la distribucin de probabilidad que dio origen a la poblacin.
Por ejemplo, segn los datos de la encuesta CASEN 2009 el ingreso autnomo per-cpita es de
$147,388; y la desviacin estndar $239,435.4. Supongamos que estos son los valores
poblacionales de la media y la desviacin estndar, es decir:

Con esta informacin y utilizando el Teorema Central del Lmite, podemos calcular la probabilidad
de que el ingreso autnomo per-cpita promedio sea, por ejemplo, menor a $147,000.
Por el Teorema Central del lmite se tiene que:

Por lo cual, la probabilidad de que el ingreso autnomo per-cpita sea menor a $147,000 es
equivalente a:

Es decir, la probabilidad acumulada en ese punto.


El error estndar es igual a:

Luego se obtiene que la probabilidad de que el ingreso autnomo per-cpita sea menor a
$147,000 es:

Esto lo podemos realizar en STATA mediante los siguientes comandos:

Hay situaciones en las que el Teorema Central del Lmite no ser til:

Cuando el estadstico de anlisis no es la media muestral. El TCL nos dice que la media
muestral tiende a una distribucin normal cuando la muestra es lo suficientemente
grande. Sin embargo, no es aplicable cuando nuestro estadstico de inters es por ejemplo
la mediana o algn otro percentil.
El TCL requiere que la muestra sea lo suficientemente grande para que la media muestral
tienda a una distribucin normal, si la muestra con la que estamos trabajando es pequea,
no se cumplir el TCL.

Para poder determinar la probabilidad de que una variable sea menor o mayor a cierto valor,
cuando no se cumple el TCL podemos utilizar el mtodo de simulacin Bootstrap.
El mtodo de Bootstrap consiste en tomar una cantidad de seudo-muestras aleatorias de la
muestra observada, y para cada una las seudo-muestras obtener el estadstico de inters (media,
mediana, percentil, etc.). Luego, se tendr una cantidad suficiente de valor del estadstico en de
distintas seudo-muestras que permitir calcular la probabilidad de que el estadstico sea menor o
mayor a cierto valor. Luego, se tendr una cantidad suficiente de valor del estadstico en de
distintas seudo-muestras que permitir calcular la probabilidad de que el estadstico sea menor o
mayor a cierto valor.
use "casen2009.dta", clear
egen hogarid=group(seg f)
g s=1 if pco1!=14
replace s=0 if pco1==14
egen n=sum(s), by(hogarid)
gen yauthpc=yauthaj/n
keep yauthpc
save "Bootstrap.dta", replace

matrix B=J(500,1,0)
local i=1
while `i'<=500{

Nmero de simulaciones
use "Bootstrap.dta", clear
bsample 246924
qui sum yauthpc

Tamao muestral de las


pseudo-muestras

matrix B[`i',1]=r(mean)
local i=`i'+1
}
clear
svmat B

Luego de ejecutar estos comandos se tiene una base de datos con 500 observaciones y los valores
de la media muestral de cada una de las seudo-muestras (de tamao 246,924) en las filas.
Podemos contar cuantas de las 500 observaciones son menores a $147,000, y comparar con el
resultado que se obtena asumiendo la distribucin normal:

Se obtiene que en 105 de las 500 simulaciones el ingreso autnomo per-cpita es menor
$147,000, lo que equivale a 21%, practicamente identico al que se obtenia asumiendo normalidad.
El grfico 23 nos muestra el histograma de las 500 simulaciones de medias muestrales del ingreso
autnomo per-cpita. Y la tabla siguiente las estadsticas descriptivas de estas variables.
El Bootstrap en general es costoso en tiempo ya que requiere repetir el proceso en cada
simulacin, dos aspectos son claves en cuanto tiempo va a tomar la simulacin:

La cantidad de simulaciones realizadas


El tamao muestral de las seudo-muestras

La Tabla 5 muestra los resultados para este mismo problema, con diferentes tamaos muestrales
para 500 y 1000 simulaciones. Podemos apreciar que no existe gran diferencia en cuanto a la
cantidad de simulaciones, pero si es clave la cantidad de observaciones en cada seudo-muestra.

Grfico 23

Distribucin de Medias Muestrales

.05

Fraction

.1

.15

Bootstrap 500 simulaciones

146000

147000

148000

149000

B1

Tabla 5
Resultado Bootstrap para diferentes tamaos muestrales y cantidad de simulaciones
N=10,000 N=50,000 N=100,000 N=246,924
500
1000

0.452
0.434

0.356
0.357

0.276
0.339

0.21
0.192

Stata tiene un comando para realizar bootstrap:


bootstrap "sum yauthpc, detail" "r(mean)", rep(100)
size(100000) saving("C:\boot1.dta)

Test de Hiptesis e Intervalos de Confianza


Cuando se toman decisiones de poltica se requieren como insumos las estimaciones de ciertas
variables. Por ejemplo, estimar la proporcin de la poblacin que postular a un programa de
capacitacin, o cual es el ingreso promedio de las personas que trabajan por cuenta propia, que
proporcin de las madres tienen acceso a salas cunas para sus hijos, etc.
La estimacin consiste en obtener una aproximacin del parmetro poblacional (promedio o
proporcin verdadera) a partir de la muestra disponible. Pero dado que esta es una estimacin
una vez obtenido el valor debemos preguntarnos si el resultado obtenido es estadsticamente
vlido o significativo, o es un mero resultado del azar (de nuestra muestra).
Una vez obtenida la estimacin podemos hacer inferencia estadstica y pruebas de hiptesis.

Estimador
Un estimador corresponde al mtodo o frmula a travs del cual aproximamos un parmetro
poblacional a partir de una muestra.
Por ejemplo, la media muestral de una variable:

Es un estimador de la media poblacional de la variable .


Por ejemplo, si estamos interesados en saber cul es la escolaridad de las personas que viven en
zona rural podemos utilizar la Encuesta Casen 2009 y tomar el promedio muestral de los aos de
escolaridad segn zona:

use "casen2009.dta", clear


egen hogarid=group(seg f)
g s=1 if pco1!=14
replace s=0 if pco1==14
egen n=sum(s), by(hogarid)
gen yauthpc=yauthaj/n

De esta forma, podemos decir que un estimador de los aos de escolaridad en la zona rural es
7.64.
Propiedades de un Estimador
Hay estimadores que son mejores que otros, lo que se puede evaluar segn las propiedades
deseables para los estimadores
Insesgamiento
Un estimador se dice insesgado cuando el valor esperado del estimador es igual al parmetro
poblacional. Es decir, si obtuviramos infinitas muestras de una poblacin, y para cada una de ellas
calculamos el estimador, por ejemplo, la media muestral, si el promedio de estos estimadores es
igual a la media poblacional, se dir que el estimador es insesgado.
Eficiencia
Un estimador se dice que es eficiente cuando la varianza es lo ms pequeo posible. Nuevamente,
si tomamos infinitas muestras y para cada una de ellas calculamos el valor del estimador,
queremos que la desviacin estndar de estos estimadores sea la menor posible.
Consistencia
Un estimador es consistente cuando al aumentar el tamao muestral se tiene casi certeza que el
estimador se aproxima bastante al verdadero valor del parmetro poblacional.

Estimador de la Media Poblacional


Un estimador insesgado, eficiente y consistente de la media poblacional es la media muestral:

Estimador de la varianza

Para poder obtener el error estndar debemos utilizar la varianza poblacional de la variable, para
esto utilizaremos un estimador de la varianza poblacional insesgado, eficiente, y consistente que
estar dado por:

Estimador de una Proporcin de la Poblacin

Por ejemplo, si queremos estimar la proporcin de la poblacin que pertenece al sistema pblico
de salud a partir de una muestra, un estimador insesgado, eficiente y consistente es la proporcin
muestral.
Sea,

El estimador de la proporcin poblacional es:

Intervalos de Confianza
Los estimadores presentados nos entregan informacin importante para poder tomar decisiones,
sin embargo, dado que estos son estimadores o aproximaciones muestrales de parmetros
poblacionales existe cierta incertidumbre o posibilidad de error en las estimaciones. Es decir, no
podemos afirmar con 100% de seguridad que la media del ingreso es cierto valor o que el
porcentaje de personas que cotiza en FONASA es otra valor. Pero si podemos decir con un 95% de
seguridad (o 90% o 99%), esto se conoce como nivel de confianza, que el ingreso promedio se
encuentra en cierto rango de valores, y el valor poblacional est contenido en l.
El intervalo de confianza nos indica el rango de valores (creado a partir de los datos muestrales)
entre los cuales el parmetro poblacional est incluido con cierta probabilidad. La probabilidad de
que el parmetro poblacional este en este intervalo de valores se conoce como el nivel de
confianza.

Intervalos de confianza de media muestral


Supongamos una variable aleatoria X la que poblacionalmente tiene una media igual a y una
varianza igual a 2, y disponemos una muestra de esta poblacin de tamao N. Sabemos que la
media muestral es un estimador insesgado, eficiente, y consistente de la media poblacional (), ya
que se tiene que:

Adems, sabemos por el Teorema Central del Lmite que independiente de cul sea la distribucin
de probabilidad de X, su media muestral tendr una distribucin normal:

Podemos estandarizar la media muestral y se tiene que:

Entonces, sabemos que la media muestral estandarizada se distribuye normal, y que est centrada
en cero, por lo cual con alta probabilidad la media muestral estandarizada estar en torno a cero.
Queremos determinar algn valor lmite para poder decir que estamos lejos de la media de la
distribucin, por ejemplo, podemos decir que los valor que estn en el 5% ms lejos son son
valores probables para la media muestral estandarizada. A partir de esto se define el intervalo de
confianza con un 95% de nivel de confianza o 5% de nivel de significancia:

Donde Z0.025 corresponde al valor de la distribucin normal estndar bajo el cual se acumula un
2.5% de probabilidad, y Z0.975 corresponde al valor de la distribucin normal estndar que acumula
un 97.5% de probabilidad a la izquierda. Estos valores pueden ser obtenidos de una tabla de la
distribucin normal estndar disponible en cualquier libro de estadstica o a travs de STATA
mediante los siguientes comandos:

Figura 12
Distribucin Normal Estndar

Por lo tanto,

Lo que se puede escribir de manera equivalente como:

De esta manera, el intervalo de confianza nos indica que con un 95% de seguridad la media
poblacional est entre:

Sin embargo, lo anterior supone el conocimiento de la varianza poblacional de X, pero en la


prctica esto no ser conocido y debemos utilizar su estimador s2. Al utilizar el estimador la
distribucin ya no es exactamente normal sino que se convierte en una distribucin t-student:

Nuevamente, los valores de la distribucin t-student los podemos obtener de las tablas de la
distribucin o de STATA, a continuacin se presentan los valores para diferentes tamaos
muestrales:

Podemos apreciar que a mayor tamao muestral se aproxima bastante a los valores de la
distribucin normal.
Por ejemplo, podemos calcular el intervalo de confianza del ingreso autnomo per-cpita
utilizando la encuesta CASEN 2009:

Entonces podemos decir con un 95% de confianza que el ingreso autnomo per-cpita esta entre
$146,444 y $148,333.

Esto se puede obtener directamente e STATA a travs del comando para obtener intervalo de
confianza de una media:

Por defecto entrega el intervalo de confianza al 95%, pero eso puede ser modificado:

Para obtener el intervalo de confianza estamos imponiendo que se cumple el Teorema Central del
Lmite, es decir, que la media muestral sigue una distribucin normal. Si este supuesto no se
cumple el clculo del intervalo confianza antes planteado no es vlido. En este caso se puede
utilizar Bootstrap para obtener el intervalo de confianza:
bootstrap "sum

yauthpc, detail" "r(mean)", rep(500)

Intervalos de confianza de una proporcin


La proporcin corresponde a la media muestral de una variable binaria que toma valor 1 si se
cumple cierta condicin y cero sino. La proporcin muestral se utiliza para estimar la proporcin
poblacional.
Considere la siguiente variable aleatoria Z con una distribucin Bernoulli:

Lo que nos interesa estimar es el parmetro poblacional p.


La media poblacional de la variable Z est dada por:

Luego, obteniendo un estimador para p queda determinado el estimador de la media poblacional


y de la varianza poblacional, existe slo un parmetro que estimar. Un estimador insesgado,
eficiente y consistente de p es la proporcin muestral:

De esta forma, el intervalo de confianza de una proporcin esta dado por:

Test de Hiptesis
Qu es una hiptesis?
Una hiptesis es una declaracin sobre un parmetro poblacional, luego con la informacin
muestral podremos decir si la afirmacin es estadsticamente vlida o no. Obviamente al trabajar
con una muestra esta conclusin tendr cierto nivel de error o alternativamente cierto nivel de
confianza.
Por ejemplo, podemos querer testear si la tasa de participacin de mujeres con hijos es un 30%,
esta hiptesis plantea una afirmacin sobre un parmetro poblacional, ahora con los datos
muestrales debemos encontrar la evidencia estadstica suficiente para rechazar o no esta
afirmacin. Otra posible hiptesis a testear es por ejemplo, que el ingreso promedio de los
pensionados es $230 mil. De esta forma, se nos pueden ocurrir diversas hiptesis sobre
parmetros poblacionales, para poder rechazar o no dichas hiptesis debemos contar con datos
muestrales que nos permitan ver si la hiptesis es estadsticamente vlida o no, con cierto error
dado que vamos a trabajar con una muestra.
Cmo se realiza un Test de hiptesis?
El procedimiento de testear o probar una hiptesis consiste en determinar si una hiptesis de un
parmetro poblacional es razonable a partir de los datos provenientes de una muestra y utilizando
la teora de probabilidades.
El resultado del Test de Hiptesis NUNCA nos permite afirmar que la hiptesis es verdadera, ya
que el parmetro poblacional es desconocido, pero si nos permite con cierta confianza o
significancia rechazar la hiptesis nula.
Paso 1: Establecer la hiptesis nula y alternativa
Lo primero que se debe hacer es definir la hiptesis a testear, la que se denomina Hiptesis Nula
(H0). La hiptesis nula es una afirmacin que no se rechaza a menos que la informacin de la
muestra ofrezca evidencia convincente de que esta es falsa.
Recuerde que si no rechazamos la hiptesis nula no implica que la aceptemos o que esta sea
verdadera, ya que para probarlo necesitaramos conocer el parmetro poblacional.
La hiptesis alternativa es la afirmacin que se acepta si los datos de la muestra no proporcionan
suficiente evidencia de que la hiptesis nula es falsa.
Paso 2: Seleccionar el nivel de significancia
El nivel de significancia () es la probabilidad de rechazar la hiptesis nula cuando esta es
verdadera, lo que se conoce como Error Tipo I. El Error Tipo II corresponde a aceptar la hiptesis
nula cuando esta es falsa.

Generalmente se utiliza un 5% de significancia, pero esto depender de la hiptesis puntual bajo


estudio, ya que de alguna manera el nivel de significancia es el riesgo que el investigador esta
dispuesto a asumir.
Paso 3: Seleccionar el estadstico
El estadstico es la expresin matemtica de la hiptesis nula, construido con la informacin
muestral disponible, y de forma tal que tenga una distribucin de probabilidad conocida (normal,
o t-student) que nos permita determinar fcilmente si rechazamos la hiptesis nula o no.
Por ejemplo, si queremos testear que la media poblacional de cierta variable es 0.5, contra la
hiptesis alternativa de que es distinta a 0.5:

Dado que sabemos, por TCL, que la media muestral tiene una distribucin normal, podemos
plantear el siguiente estadstico:

Todos los valores del estadstico pueden ser calculados a partir de la muestra, excepto que
justamente corresponde al valor del parmetro poblacional que estamos planteando en la
hiptesis nula.
Paso 4: Formular la regla de decisin
Se deben establecer las condiciones especficas en las que la hiptesis nula se rechaza. Notemos
que el estadstico est centrado en 0, valor que toma cuando se cumple al hiptesis nula, en la
medida que se aleja de cero ya sea porque este se hace muy grande o muy pequeo, es cada vez
menos probable que se cumpla la hiptesis nula. La zona de rechazo define los valores del
estadstico para los cuales la probabilidad de que se cumpla la hiptesis nula es remota.
Entonces debemos determinar el valor crtico del estadstico de manera que se acumule un 5% de
probabilidad en los valores extremos de la distribucin, 2.5% en la cola derecha y 2.5% en la cola
izquierda.

La Figura 13 muestra la zona de rechazo para el test de hiptesis antes planteado, desde - hasta
-1.96 se encuentra la zona de rechaz a la izquierda, y desde 1.96 a + la zona de rechazo a la
derecha.
Figura 13
Zona de rechazo Test de dos colas

En caso que la hiptesis alternativa sea que la media poblacional es menor a cierto valor,
rechazaremos la hiptesis nula a favor de la alternativa slo si el valor efectivamente es menor al
planteado, es decir , cuando el estadstico se vuelva muy negativo, por lo cual en este caso la zona
de rechazo completa se ubica en la cola izquierda de la distribucin, desde - a -1.64.
Figura 14
Zona de rechazo Test de una cola

Finalmente, la Figura 15 muestra la zona de rechazo en el caso que la hiptesis alternativa es que
la media poblacional es mayor a cierto valor, en este caso se rechazar la hiptesis nula de que es
igual a este valor slo si el valor de la media muestral est lo suficientemente por arriba del valor
planteado, y el valor del estadstico es positivo y lo suficientemente grande, as la zona de rechazo
completa se ubica en la cola derecha de la distribucin, de 1.64 a + .
Figura 15
Zona de rechazo Test de una cola

Paso 5: Tomar una decisin


Una vez definida la hiptesis nula, se calcula el estadstico a partir de los datos muestrales, y
determinado el nivel de significancia se puede establecer el valor crtico del estadstico.
Comparando el valor calculado del estadstico con los valores que definen las zonas de rechazo se
puede concluir si se rechaza o no la hiptesis nula a favor de la hiptesis alternativa.

Ejemplo Test de Hiptesis sobre media poblacional


Suponga que estamos interesados en testear que la edad media de las mujeres que trabajan es 45
aos, contra la hiptesis alternativa de que es distinta a 45 aos.
1) Debemos plantear el Test de Hiptesis:

2) Escoger el nivel de significancia: 5%


3) Obtener el valor calculado del estadstico con los datos muestrales:
use "casen2009.dta", clear
g trabaja=1 if o1==1
replace trabaja=1 if
replace trabaja=1 if
replace trabaja=0 if
replace trabaja=. if

o1==2 & o2==1


o1==2 & o2==2 & o3==1
trabaja==.
o1==.

sum edad if sexo==2 & trabaja==1

Luego, con esta informacin podemos construir el estadstico para el test sobre la media
poblacional, el que se basa en que la media muestral tiene una distribucin normal:

4) El estadstico calculado lo debemos comparar con el de la distribucin t-student con 31660


grados de libertad y con un 5% de significancia dividido en dos colas.

De esta forma, la zona de rechazo est entre -

y -1.96, y 1.96 y + .

5) Dado que el valor del estadstico cae en la zona de rechazo de la cola izquierda, se puede
concluir que se rechaza la hiptesis nula de que la edad promedio de las mujeres que
trabajan es 45 aos, en favor de que es distinta.

Esto mismo lo podemos hacer a travs del comando ttest de STATA:

p-value
En el procedimiento antes descrito necesitamos definir un nivel de significancia para determinar
las zonas en las cuales rechazaremos la hiptesis nula.
Por otra parte, el valor p nos entrega informacin adicional para determinar con que fuerza la
hiptesis nula es rechazada, es decir, con qu seguridad rechazamos H0.
El valor p es la probabilidad acumulada en las colas desde el valor negativo del estadstico a la
izquierda, y desde el valor positivo del estadstico a la derecha, en el caso de un test de dos colas.
1) H1: 0:

2) H1: 0:

3) H1: 0:

Por ejemplo, a continuacin realizaremos test para el salario por hora promedio:
use "casen2009.dta", clear
g horas=o16/7*30
g yhora=yopraj/horas

En el primero caso, donde se plantea como hiptesis nula que el ingreso promedio por hora es
$1,900, el valor calculado del estadstico es 1.12, si lo comparamos con el valor de de la
distribucin t al 5% de significancia (1.96), podemos concluir que no se puede rechazar la hiptesis
nula de que el ingreso por hora promedio es $1,900.
En este caso, si estamos planteando un test de dos colas el valor p es igual a:

Esto significa que el valor del estadstico calculado para esta hiptesis nula acumula un 26.3% de
probabilidad en las colas, claramente mayor al 5% de error tipo I que se est dispuesto a tolerar.
Si la hiptesis alternativa fuese que la media es mayor a 1900, el valor p estar dado por:

Tambin es mayor al 5% de significancia.


Finalmente, si la hiptesis alternativa fuese que el salario promedio es menor a 1900, el valor p
estara dado por:

El valor p nos indica el nivel de significancia o error tipo I asociado al estadstico calculado, si este
es menor al 5% es porque nuestro estadstico estar en la zona de rechazo, por lo cual la regla de
oro para utilizar le p-value es:

Si el valor p es menor al nivel de significancia dado se rechaza la hiptesis nula


Si el valor p es mayor al nivel de significancia dado no se puede rechazar la hiptesis nula

Test de hiptesis sobre una proporcin


Se tiene como hiptesis nula que la proporcin de la poblacin que cotiza para el sistema de
pensiones es 0.5.
use "casen2009.dta", clear
g cotiza=1 if o29==1
replace cotiza=0 if o29==2 | o29==3 | o29==9

El valor del estadstico calculado es 20.63 mayor al 1.96 que determina el valor crtico por
lo cual se rechaza la hiptesis nula.
Tambin podemos notar que el valor p es 0% menor al 5% de significancia por lo cual se
rechaza la hiptesis nula.
Una tercera forma de concluir sobre la hiptesis nula es notando que el intervalo de
confianza (valor ms probables) no contiene el valor 0.5.

Test de diferencia de medias


Una conjunto importante e interesante de test de hiptesis son los relacionados con comparar las
medias o proporcin de una variable entre dos grupos diferentes, o de manera equivalente testear
que la media de una variable de un grupo, por ejemplo, hombres es igual a la media de la misma
variable en el otro grupo, mujeres.
Por ejemplo, si queremos testear que el ingreso por hora de los hombres es igual que al de las
mujeres, debemos plantear el siguiente test de hiptesis:

Para plantear el estadstico en funcin de los indicadores muestrales, tomamos como punto de
partida que la diferencia de medias muestrales tambin se distribuye normal con media igual a la
diferencia de medias poblacionales, y con varianza:

De esta forma, se tiene que:

Pero el error estndar es estimado a partir de la muestra de la siguiente manera:

As, el estadstico para el test de diferencias de medias es:

El comando ttest y prtest de STATA pueden ser utilizados con la opcin by() para realizar el
test de diferencia de medias y diferencias de proporciones.
El siguiente output nos muestra el resultado para el test de diferencias de media de ingreso por
hora entre hombres y mujeres, notemos que la hiptesis nula es que el ingreso promedio de los
hombres menos el ingreso promedio de las mujeres es igual a cero. En trminos muestrales, el
ingreso promedio de los hombres es $2,007 y el ingreso promedio de las mujeres $1,741, la
diferencia es de $265.8. El error estndar de la diferencia es 27.9. De esta forma, se obtiene un
valor calculado del estadstico de 9.5358 lo que nos permite rechazar al 5% (ya que es mayor que
1.96) que el ingreso promedio de los hombres es igual al ingreso promedio de las mujeres (o que
la diferencia es cero). Esto tambin se puede concluir notando que el valor p es menor a 0.05 (5%)

y que el cero no est contenido en el intervalo de confianza para la diferencia de ingresos


promedios.

El siguiente output nos muestra el resultado para testear la hiptesis nula de que la proporcin de
hombres que cotiza en el sistema de pensiones es igual a la proporcin de mujeres que cotiza.
Tenemos que el valor calculado del estadstico es 1.74 levemente inferior a 1.96, por lo cual al 5%
de significancia no podemos rechazar la hiptesis nula de que las proporciones son iguales, lo
vemos tambin porque el p-value es mayor a 0.05 y el cero est contenido en el intervalo de
confianza.

Bootstrap para el test de medias


En el caso que se tenga una muestra pequeas o dudas sobre la normalidad de la media muestral
se puede aplicar el mtodo no paramtrico de bootstrap para obtener el intervalo de confianza de
la media muestral y de esta manera testear cualquier hiptesis sobre el parmetro poblacional.

El resultado nos muestra que con un 95% de confianza el ingreso por hora promedio poblacional
se encuentra entre 1889.4 y 1946.9, con lo cual no podemos rechazar la hiptesis nula de que es
igual a 1900, antes testeada, y si podemos rechazar que es igual a 2100.

Bootstrap para el test de mediana


Suponga que queremos testear la hiptesis nula de que la mediana poblacional del ingreso por
hora es igual a 1000, dado que para la mediana no se cumple el Teorema Central del Lmite
debemos utilizar bootstrap para testear esta hiptesis.
La siguiente imagen nos muestra el resultados del bootstrap para la mediana el ingreso por hora
con 300 repeticiones, se obtiene que con un 95% de confianza el ingreso por hora mediano
poblacional est entre 1088.63 y 1105, con lo cual se rechaza la hiptesis nula de que el ingreso
por hora mediano sea igual a 1000 ya que este valor esta fuera del intervalo de confianza.

Bootstrap para el test de diferencia de medias


Como no existe un comando directo en STATA que calcule la diferencia de media, en vez de pedir
en el comando bootstrap que repita un comando le pediremos que repita un do-file, donde este
do-file calcula la diferencia de medias:
difgenero.do
sum yhora if sexo==1
g h=r(mean)
sum yhora if sexo==2
g m=r(mean)
g dif=h-m
sum dif
Previo a haber creado el do-file anterior y haber sido guardado en el computador, se ejecuta el
siguiente comando:
bootstrap "do difgenero.do" "r(mean)", reps(300)

El resultado del bootstrap nos muestra que la diferencia entre el ingreso por hora medio de los
hombres y el ingreso por hora medio de las mujeres se encuentra con un 95% de confianza entre
209.6 y 310.5. Con lo cual al testear la hiptesis nula de que la diferencia de medias es cero, se
rechaza la hiptesis nula

Bootstrap para el test de diferencia de medianas


Si queremos testear que la diferencia entre el ingreso por hora mediano entre hombres y mujeres
es cero, debemos utilizar de manera obligada bootstrap ya que la diferencia de medianas no tiene
distribucin normal.
difmediangenero.do
sum yhora if sexo==1, d
g h=r(p50)
sum yhora if sexo==2, d
g m=r(p50)
g dif=h-m
sum dif
Previo a haber creado el do-file anterior y haber sido guardado en el computador, se ejecuta el
siguiente comando:
bootstrap "do difmediangenero.do" "r(mean)", reps(300)

La siguiente tabla nos muestra el resultado del bootstrap, encontrando que la diferencia de
ingreso por hora mediano entre hombres y mujeres se encuentra con un 95% de confianza entre

114.5925 y 114.5927, por lo cual tambin se rechaza que la diferencia de medianas sea igual a
cero.

Distribucin de Probabilidad Conjunta


Hasta ahora nos hemos concentrado en el anlisis de una sola variable, como es su distribucin, su
media y dispersin. Pero en gran parte de los problemas econmicos y de polticas pblicas no
slo nos interesa estudiar una variable, sino tambin como esta variable se puede o no ver
afectada por el comportamiento de otras variables.
Por ejemplo, cuando analizamos el nivel de ingreso nos interesara tambin saber cmo se
relacionada con otra variable, como aos de escolaridad o experiencia laboral, etc.
Otras preguntas que nos puede interesar responder:

Afecta la salud fsica los resultados que obtienen los individuos en el mercado del
trabajo?
Disminuye el empleo cuando el salario mnimo se incrementa?
Disminuye la desigualdad de ingresos cuando aumenta la participacin laboral femenina?

Ms especficamente, si la salud fsica es una variable aleatoria (X) y salario laboral es otra variable
aleatoria (Y), cada una tiene su propia distribucin de probabilidad, lo que se denomina
distribucin de probabilidad marginal, luego debemos determinar la funcin de probabilidad
conjunta y condicional para estudiar si las variables aleatorias X e Y son independientes o no.
La funcin de probabilidad conjunta de dos variables aleatorias X e Y indica la probabilidad de que
las dos variables tomen ciertos valores de manera simultnea. Las probabilidades de todas las
posibles combinaciones (x,y) deben sumar 1. La funcin de probabilidad conjunta se denota de la
siguiente manera:

Supongamos el siguiente ejemplo, en que la variable aleatoria X es binaria y toma valor 1 si el


profesor particip en el proceso de certificacin docente y cero si es que no particip. Esta
variable aleatoria tiene la siguiente funcin de probabilidad marginal:

La que puede ser escrita de la siguiente manera:


X
0
1

Pr[X=x]
2/3
1/3

Suponga ahora que tiene otra variable aleatoria binaria Y que toma valor 1 si el profesor naci el
primer trimestre del ao, y 0 si nacieron los trimestres 2, 3, o 4. Entonces, la funcin de
probabilidad marginal de Y es:

La que puede ser escrita de la siguiente manera:


Y
0
1

Pr[Y=y]
3/4
1/4

La funcin de probabilidad conjunta de estas dos variables aleatorias es:

Lo que puede ser escrito de manera alternativa:

y=0
y=1

x=0
6/12
2/12

x=1
3/12
1/12

Donde podemos verificar que la suma de probabilidades es igual a 1.


Luego sumando verticalmente las probabilidades podemos obtener la distribucin de probabilidad
marginal de X, y sumando horizontalmente las probabilidades podemos obtener la distribucin de
probabilidad marginal de Y:

y=0
y=1

x=0
6/12
2/12
2/3

x=1
3/12
1/12
1/3

3/4
1/4

Tambin podemos notar del cuadro anterior que cualquiera de las probabilidades conjuntas puede
ser obtenida simplemente multiplicando las probabilidades marginales:

Esto se cumple slo cuando las variables aleatorias son independientes.


Ahora supongamos otra variable aleatoria Z la que tambin es binaria y toma valor 1 si el
establecimiento educacional al cual pertenece el profesor es privado y 0 si es pblico. La
probabilidad con la cual Z toma valor 1 es 1/3 y la probabilidad con la que toma valor 0 es 2/3.
La siguiente tabla muestra las probabilidades asociadas a la distribucin conjunta de las variables X
y Z:

z=0
z=1

x=0
7/12
1/12
2/3

x=1
1/12
3/12
1/3

2/3
1/3

En este caso, el producto de las probabilidades marginales no es igual a la probabilidad conjunta,


esto sucede porque las variables no son independientes:

De esta forma, se concluye que la certificacin del profesor y la dependencia del colegio al cual
pertenece no son variables independientes.

Test de Independencia 2
Si tenemos dos variables aleatorias podemos realizar un test de independencia para ver si
empricamente las variables se comportan como si fuesen independientes.
Este test se basa en que bajo la hiptesis nula de independencia de las variables la multiplicacin
de las probabilidades marginales debera ser igual a la probabilidad conjunta.
Supongamos que X e Y, dos variables aleatorias, pueden tomar dos valores respectivamente. Y se
tiene que:

Sea N el total de observaciones, y Nij el nmero de observaciones donde X=i e Y=j.


Luego el estadstico para testear esta hiptesis es:

Al 5% de significancia el valor de la distribucin 2 con un grado de libertad es 3.84.


Recordemos que la hiptesis nula es de independencia entre las variables, por lo cual bajo la
hiptesis nula se debera cumplir que Nij sea igual a Nqipj, lo que indica que el nmero de
observaciones que cumplen con Y=0 y X=0 es igual a tomar el total de observaciones y multiplicar
por la probabilidad de que Y=0 y por la probabilidad de que X=0. De esta forma, bajo la hiptesis
nula el estadstico toma valor cero, en la medida que se deja de cumplir la hiptesis nula el valor
del estadstico comienza a crecer (siempre positivo), si este difiere tanto de cero al punto de llegar
a ser mayor a 3.84 se rechaza la hiptesis nula de que las variables son independientes.
La siguiente tabla nos muestra el resultado del test de independencia entre la variable aleatoria X
(certificacin del profesor) y la variable aleatoria Y (trimestre de nacimiento):

De la tabla anterior, tenemos que:

Luego podemos calcular cada uno de los cuatro trminos en la sumatoria del estadstico:
Y=0, X=0:

Y=1, X=0:

Y=0, X=1:

Y=1,X=1

Sumando los cuatro trminos se obtiene el valor calculado del estadstico:

Como el valor del estadstico calculado es menor a 3.84 no se puede rechazar la hiptesis nula de
independencia entre certificacin del profesor y fecha de nacimiento, tambin se puede concluir
estos notando que el valor p es mayor a 0.05 (5%).
La siguiente tabla muestra el test de independencia entre las variables aleatorias X y Z:

El valor del estadstico es mayor al valor crtico, o el p-value es menor a 0.05, con lo cual se
rechaza la hiptesis nula de que certificacin del profesor y dependencia del colegio sean variables
independientes.

Distribucin de probabilidad condicional


Cuando analizamos la distribucin de probabilidad de la variable aleatoria X condicional en algn
valor especifico de Y, por ejemplo, Y=0, se conoce como distribucin de probabilidad condicional.
Por ejemplo, suponga que estamos interesados en saber cul es la probabilidad de que un docente
se certifique condicional en que naci en el primer trimestre del ao.

y=0
y=1

x=0
6/12
2/12
2/3

x=1
3/12
1/12
1/3

3/4
1/4

En trminos generales, la distribucin de probabilidad de X condicional en Y es igual a:

Notemos que la probabilidad de que un docente se certifique condicional en que naci el primer
trimestre es igual a la probabilidad incondicional (o marginal) de que un docente se certifique,
esto se cumple porque las dos variables son independientes.

Tambin podemos analizar la probabilidad de que un docente se certifique condicional en que la


dependencia del colegio es pblica:

z=0
z=1

x=0
7/12
1/12
2/3

x=1
1/12
3/12
1/3

2/3
1/3

En este caso la probabilidad de certificarse condicional en que el colegio es pblico es distinta a la


probabilidad incondicional de certificarse, esto porque las variables no son independientes.

La distribucin de probabilidad condicional nos permite definir la esperanza condicional de una


variable:

Este concepto es muy importante en anlisis de regresin, herramienta fundamental para el


anlisis de polticas pblicas.

Covarianza y Correlacin
La covarianza entre dos variables aleatorias muestra el grado en que estas dos variables se
mueven de manera conjunta. La covarianza entre dos variables aleatorias X e Y es igual a:

La covarianza entre las dos variables ser positiva si cuando X est por sobre la media Y tambin
tiende a estar pos sobre la media, y la covarianza ser negativa si cuando X est por sobre la
media Y tiende a estar bajo la media. Cuando las dos variables son independientes la covarianza
ser igual a cero.
El comando correlate con la opcin c de STATA calcula las covarianza en el listado de
variables sealado.

En este caso nos muestra que la covarianza entre X e Y es positiva e igual a 0.011, y la covarianza
entre X y Z es positiva tambin e igual a 0.069. Finalmente, la covarianza entre Z e Y es negativa e
igual a -0.005873.
Pero cmo podemos interpretar el valor de la covarianza?

Si nos fijamos la definicin de covarianza estar multiplica los desvos de X con respecto a su media
por los desvos de Y con respecto a su media, por lo cual, est en unidades de X multiplicado por
unidades de Y lo que no tiene ninguna interpretacin.
Una medida estandarizada de dependencia entre dos variables aleatorias es el Coeficiente de
Correlacin el que elimina el problema de las unidades en la variable dividiendo la covarianza por
la desviacin estndar de X y por l desviacin estndar de Y.

Esta medida tomar valores entre -1 y 1, donde -1 indica dependencia negativa perfecta entre las
dos variables, 1 indica dependencia positiva perfecta entre las dos variables, y 0 indica que son
independientes.
Con el comando correlate de STATA podemos obtener el coeficiente de correlacin entre un
listado de variables:

En este caso, el coeficiente de correlacin entre X e Y (variables independientes) es muy cercano a


cero, sin embargo, el coeficiente de correlacin entre X y Z es positivo de orden de 0.28,
mostrando una dependencia positiva entre las dos variables.
Por ejemplo, utilizando los datos de la Encuesta CASEN 2009 podemos ver cul es la correlacin
entre los aos de escolaridad (esc) y el salario de la ocupacin principal (yopraj):

Los resultados nos muestran un coeficiente de correlacin positivo del orden de 0.28 entre los
aos de escolaridad y el salario. Sin embargo, al ser obtenido de una muestra podemos
preguntarnos si este valor es estadsticamente diferente de cero o no.

A travs del siguiente comando en STATA podemos testear si el coeficiente de correlacin es


estadsticamente diferente de cero. La hiptesis nula es que el coeficiente es igual a cero, y la tabla
a continuacin presenta bajo el coeficiente de correlacin y valor p para esta hiptesis nula:

En este caso, se rechaza la hiptesis nula de que el coeficiente de correlacin entre aos de
escolaridad y salario sea igual a cero.
La siguiente tabla nos muestra, utilizando la misma Encuesta CASEN 2009, correlaciones entre un
listado de variables:

Finalmente, debemos tener presente que el coeficiente de correlacin mide asociacin lineal entre
las variables, por lo cual si existe una relacin pero no lineal esta no ser detectada por el
coeficiente de correlacin.

Test de Normalidad
Hasta ahora para estudiar la normalidad de una variable lo hemos realizado por simple inspeccin
grfica o viendo que los coeficientes de asimetra y kurtosis sean cercanos a los valores que
caracterizan una distribucin normal, 0 y 3 respectivamente.
Podemos plantear ms formalmente un test que tenga como hiptesis nula:

Esta hiptesis testea conjuntamente que asimetra es cero y kurtosis es igual a 3, es decir, la
hiptesis nula es que la variable es normal.
Tenemos la variable X, con las siguientes estadsticas descriptivas:

.4
0

.2

Density

.6

.8

El coeficiente de asimetra es prcticamente cero, y la kurtosis muy cercana a 3. En efecto


podemos ver a travs del histograma de la variable que sigue una distribucin muy parecida a la
normal:

2
x

Sin embargo, necesitamos saber si estadsticamente la asimetra es cero y la kurtosis es 3, para eso
realizaremos un test de hiptesis que tenga como hiptesis nula la normalidad de la variable:

El primer valor p que muestra es sobre la hiptesis nula de que la asimetra (skewness) es igual a
cero, dado que el valor p es mayor a 0.05 no se puede rechazar la hiptesis nula de que la
asimetra de la variable X es cero. El segundo valor p es sobre la hiptesis nula de que la kurtosis es
igual a 3, dado que el valor p es mayor a 0.05 no se puede rechazar la hiptesis nula de que la
kurtosis es igual a 3. Finalmente, el tercer valor p presentado corresponde a lo que estrictamente
se conoce como test de normalidad, ya que testea conjuntamente que ambas condiciones se
cumplen. En este caso el valor p es mayor a 0.05 por lo cual no se puede rechazar la hiptesis nula
de normalidad de la variable X.

.01
0

.005

Density

.015

.02

El siguiente grfico nos muestra la distribucin de la edad segn los datos de la Encuesta CASEN
2009:

20

Y sus principales estadsticas descriptivas:

40

60
r3: edad

80

100

Notamos que la asimetra es relativamente lejana a cero, y la kurtosis diferente de 3. Pero


debemos ver si estadsticamente la asimetra difiere mucho de cero y la kurtosis de 3 como para
rechazar la hiptesis nula de normalidad de la variable edad.

En este caso, se rechaza la hiptesis nula de normalidad de la variable.

Anlisis de Regresin Lineal


Vimos que cuando nos interesa analizar la relacin entre dos variables, el coeficiente de
correlacin es un indicador que me permite obtener el grado de dependencia y la direccin de
ella. Por ejemplo, el siguiente grfico nos muestra la relacin entre las expectativas de vida de los
hombres y las expectativas de vida de las mujeres para 188 pases:
graph twoway (lfit lex60_f lex60_m) (scatter lex60_f lex60_m)

Grficamente se aprecia una fuerte relacin positiva entre estas dos variables, en efecto el
coeficiente de correlacin es 0.94:

El siguiente grfico nos muestra la relacin entre la tasa de mortalidad infantil y la tasa de
alfabetizacin de las mujeres:

Podemos apreciar que existe una fuerte relacin negativa entre la tasa de alfabetizacin y la tasa
de mortalidad, es decir, en pases con mayor alfabetizacin de las mujeres tienden a tener menor
tasa de mortalidad infantil. El coeficiente de correlacin entre estas dos variables es -0.81.

Si bien la correlacin entre las variables nos indica dependencia entre ellas, ya sea positiva en el
primer ejemplo o negativa en el segundo, no nos indica alguna causalidad de la relacin entre las
variables.
En la mayora de los problemas econmicos y de evaluacin de polticas pblicas el inters est en
estudiar el efecto causal que tiene una o ms variables sobre alguna variable de inters (variable
de resultado).

El concepto ceteris paribus (todo lo dems constante) juega un rol fundamental en determinar el
efecto causal, ya que generalmente habr una serie de variables que afectan el comportamiento
de nuestra variable de inters y debemos ser capaces de controlar por todas ellas para poder aislar
e identificar de manera correcta el efecto de una o ms variables particulares que nos interesen
sobre la variable de inters.
Por ejemplo, si estamos interesados en determinar el efecto de una semana adicional de
capacitacin sobre la productividad de los trabajadores (lo que se ver reflejado en su salario)
debemos considerar los otros factores que pueden afectar la productividad del trabajador como
educacin y experiencia, es decir, debemos preguntarnos cul es el efecto de una semana
adicional de capacitacin dado un nivel de escolaridad y un nivel de experiencia.
Suponga que nos interesa estudiar en el rendimiento de los alumnos, medido a travs del puntaje
SIMCE, de reducir el tamao del curso (o alumnos por profesor) en 2. Luego queremos encontrar
una relacin entre Simce y TamaoCurso, donde significa cambio. Entonces queremos
determinar cunto cambia el puntaje de Simce en relacin a cuanto est cambiando el tamao del
curso, vale decir:

mide cuanto cambia el puntaje del simce por cada cambio en tamao de curso, por ejemplo, si
beta es -5.7 se puede interpretar que un aumento en 1 alumno el tamao del curso disminuye el
puntaje de SIMCE en 5.7 puntos:

Notemos que b corresponde a la pendiente de una recta que relaciona el puntaje en el SIMCE con
el tamao del curso:

donde es el intercepto y es la pendiente.


De esta forma, si tuvisemos los valores de y podramos responde cualquier pregunta que
relacione tamao de curso con puntaje Simce.

Recta de Regresin Lineal


En trminos generales denotaremos por Y a la variable de inters y X a la variable que tiene un
efecto causal sobre la variable de inters la que normalmente se denominan variable explicativa o
regresor.
La relacin entre la variable Y y la variable X (puede ser ms de una variable explicativa) no es
determinstica, sino que es aleatoria. Esto es, para un mismo valor de X no siempre observamos el
mismo valor de Y sino distintos valores (con cierta distribucin).

Si la relacin fuese determinstica, estadsticamente no tendramos ningn problema interesante.


El problema en Anlisis de Regresin es justamente que para un valor de X no siempre
observamos el mismo valor de Y, por lo cual lo mejor que podemos hacer es tratar de descubrir
cul es el valor esperado de Y condicional en cierto valor de X, lo que se conoce como Esperanza
Condicional:
Podemos ver grficamente que el valor de la esperanza de Y va cambiando condicional en
diferentes valores de X, especficamente, observamos en este caso que a medida que aumenta X
(nmero de alumnos por curso) el puntaje promedio va disminuyendo.
De esta forma, podemos decir que la Esperanzan Condicional de Y, lo mejor que podemos tratar
de predecir, es una funcin de X. El modelo de regresin lineal asume que esta funcin es lineal:

Las observaciones que tengamos en nuestra muestra de datos nos permitirn obtener
estimadores para los parmetros poblacionales desconocidos: y , y de esta forma obtener un
estimador para la media condicional:

Tendremos N observaciones, la observacin del individuo i de la variable dependiente ser Yi y la


variable explicativa del individuo i ser Xi donde i=1,..,N.
Existe una diferencia entre la observacin puntual de Yi y la recta de regresin o esperanza
condicional, esa diferencia es la que se denomina error y ser denotado por ui. El error de
regresin resume los factores aleatorios que determinan el comportamiento de Y pero que no son
explicados por X.

Entonces, la distancia que hay entre la observacin puntual de Yi y el valor en la recta de regresin
(o media condicional) es el error de regresin:

Donde el valor esperando de ui es cero.


De esta forma, el Anlisis de Regresin estudia la relacin entre una variable dependiente y una o
ms variables explicativas, y tiene como objetivo medir o predecir la media poblacional de la
variable dependiente para valores fijos, o condicional en valores de la o las variables explicativas.
Para estimar la media poblacional:

Se utiliza la muestra obteniendo la recta de regresin muestral:

La diferencia entre el valor estimado de la media y el valor observado de Yi ser el error estimado:

y se denominan coeficientes de regresin poblacionales y


estimadores muestrales de dichos coeficientes o parmetros.

corresponden a los

Notemos que nosotros dispondremos de una de las infinitas muestras que pueden ser obtenidas
de una poblacin, y para esta muestra obtendremos los estimadores de los parmetros
poblacionales. Si hubisemos tenido acceso a otra muestra el estimador sera diferente, en efecto,
podemos construir una distribucin (terica) para los estimadores.
La pregunta ahora es Cul ser un buen estimador para estos parmetros?

Estimador de Mnimos Cuadrados Ordinarios


Recordemos que un estimador es una frmula o mtodo que nos dice como aproximar un
parmetro poblacional a partir de una muestra. Para clasificar al estimador como bueno o
deseable este deba cumplir con ciertas propiedades:

Ser insesgado
Ser eficiente
Ser consistente

Bajo ciertos supuestos el estimador de Mnimos Cuadrados Ordinario (MCO) cumplir con todas
estas propiedades.

Los supuestos detrs del estimador MCO son:


1) Modelo de regresin sea lineal en los parmetros

2) El valor esperado del error del modelo sea cero

3) Las variables explicativas sean exgenas o no correlacionadas con el error del modelo

4) La varianza del error sea constante

5) Los errores no estn correlacionados entre ellos

El supuesto 3 es clave para la identificacin correcta del efecto causal que tiene X sobre Y, es decir,
la identificacin correcta de . Notemos que si existe correlacin entre X y u, al cambiar X tambin
se mover u, y no sabremos de donde proviene el cambio observado en Y.
Los supuestos 2, 4, y 5 se resumen en que el error es independiente e idnticamente distribuido
con media cero y varianza constante 2:

El estimador MCO me dice que escoja


cuadrado:

de forma tal de minimizar la suma de los errores al

Resolviendo este problema de optimizacin se tiene que:

La regresin lineal por MCO en STATA sea hace a travs del comando regress:

Esto se interpreta que un aumento marginal (de un alumno) en la cantidad de alumnos por curso
disminuye en 2.3 puntos el puntaje en la prueba estandarizada. Note que el resultado se ve

siempre enunciando un cambio marginal en la variable explicativa (un alumno, un ao, un peso,
etc), y el coeficiente estimado esta en unidades de la variable dependiente, en este caso puntaje.
Ejemplos
La siguiente regresin muestra cual es el efecto marginal que tiene un ao adicional de escolaridad
sobre el salario por hora:

Se estima con esta muestra que un ao ms de escolaridad aumenta en salario por hora en
promedio 161.5 pesos.
Muchas veces las variables monetarias se miden en logaritmo, por ejemplo, logaritmo del salario
por hora. Esto se hace por dos razones: cuando la variable esta en logaritmo el cambio marginal es
un cambio porcentual:

Y la segunda razn es que la transformacin logartmica de la variable logra transformar variables


muy asimtricas en variables asimtricas.
La siguiente regresin muestra la regresin lineal entre el logaritmo natural del salario por hora y
los aos de escolaridad:

En este caso el coeficiente estimado para el parmetro que acompaa los aos de escolaridad es
igual a:

De esta forma, se interpreta como que un ao adicional de escolaridad aumenta en 6.63% el


salario por hora.
La siguiente tabla nos muestra una regresin mltiple (considera ms de una variable explicativa)
explicando el salario por hora en funcin de los aos de escolaridad y la edad:

Se obtiene que una ao ms de escolaridad aumenta el salario por hora en 213.5 pesos en
promedio, dado un nivel edad edad, y se obtiene que un ao ms de edad aumenta el salario por
hora promedio en 42.7 pesos dado cierto nivel de escolaridad. Recordemos que lo que estudia el
anlisis de regresin son los efectos marginales de variables explicativas sobre la esperanza
condicional de la variable dependiente.

Inferencia
Recordemos que el estimador es la aproximacin del parmetro poblacional desconocido, en el
modelo de regresin lineal los parmetros poblacionales desconocidos son los coeficientes que
acompaan a las variables explicativas ms el intercepto (o constante).
Dado que el estimador se obtiene de una muestra, el estimador de por s es una variable aleatoria
que tiene una distribucin de probabilidad, con cierta media y cierta varianza.
Recordemos que el estimador MCO de en el modelo:

Est dado por:

El que puede ser escrito de la siguiente forma:

De esta forma, podemos notar fcilmente que el estimador es insesgado, ya que:

Luego, podemos calcular la varianza del estimador:

Recuerde que el estimador MCO es eficiente por lo cual tiene la mnima varianza dentro de todos
los posibles estimadores lineales e insesgados, sin embargo, podemos ver que esta varianza (aun
siendo eficiente) ser mayor mientras mayor sea la varianza del error, y menor mientras mayor
sea la varianza de las variables explicativas.
Notemos que hasta ahora, para decir que MCO es insesgado, eficiente y consistente, no hemos
necesitado el supuesto de normalidad del error. Sin embargo, para hacer inferencia se necesita
hacer este supuesto de normalidad:

Bajo este supuesto se tiene que:

Luego, podemos estndarizar:

Sin embargo, 2 es desconocido y debemos utilizar el estimador muestral s2. Luego,

Donde k es el nmero de parmetros estimados en el modelo de regresin.


Luego podemos utilizar este estadstico para hacer inferencia sobre los valores de los parmetros
poblacionales.
Los test de hiptesis mnimos que se deben hacer cuando se estima un modelo de regresin, es lo
que se conoce como test de significancia de los parmetros, estos consisten en plantear como
hiptesis nula que el parmetro poblacional es igual a cero, y como alternativa que es distinto de
cero:

El estadstico estar dado por:

Para esto necesitamos tener el valor del estimador y de la varianza estimada.


Cuando se hace una regresin en STATA automticamente nos mostrar el valor del estimador y
de su desviacin estndar, dividiendo los valores de la primera columna (estimador) por los
valores de la segunda columna (desviacin estndar) se obtiene el valor calculado del estadstico,
el que es presentado en la tercera columna.
El valor de este estadstico calculado debe ser comparado con el valor de la distribucin t con
83987 grados de libertad, y con el nivel de significancia seleccionado.

El valor de la distribucin t-student es -1.96 y 1.96, comparando lo estadsticos calculados, en


todos los casos se rechaza la hiptesis nula de que el parmetro sea igual a cero.

Esto tambin lo podemos concluir notando que el valor p asociado a este estadstico es menor a
0.05, o notando que el cero no pertenece al intervalo de confianza.
Test de Normalidad del error
El supuesto clave para poder concluir directamente la significancia de las variables explicativas (a
travs de la significancia de los parmetros que la acompaan) mediante los valores entregados
por el output de STATA es que el error del modelo se distribuye normal, si este supuesto no se
cumple, el estadstico no tiene una distribucin conocida y se debe utilizar el mtodo de bootstrap
para obtener los intervalos de confianza.
Podemos testear la normalidad de los errores. Una vez estimado el modelo se pueden obtener los
errores estimados:

En STATA:

Se rechaza la hiptesis nula de normalidad del error.


Debemos utilizar bootstrap para obtener los intervalos de confianza de los parmetros:

Bondad de Ajuste
Una medida de bondad de ajuste nos dice como evaluar el poder explicativo de nuestro modelo.
Una medida de bondad de ajuste es el R2, el que mide que fraccin de la varianza del la variable
dependiente o de inters esta siendo explicada por la varianza de las variables, y no por el error:

Donde ESS, es la suma de los cuadrados explicada, TSS es la suma de los cuadrados totales, y RSS
es la suma de los residuos al cuadrado:

Esta medida siempre estar entre cero y uno ya que es una proporcin, donde mientras ms
cercano a 1 mejor es el modelo, y mientras ms cercano a cero peor.
El R2 ajustado es una medida ms confiable en el sentido que penaliza el hecho de incorporar ms
variables que no pueden aportar mucho al modelo, y slo se incorporan para aumentar el R2.

También podría gustarte