Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Analisis - de - Datos - MPP 2011
Analisis - de - Datos - MPP 2011
Anlisis de Datos
Magister en Polticas Pblicas
Javiera Vsquez
2011
Introduccin
La mayora de las decisiones en economa y polticas pblicas depender de cun bien podamos
entender, las relaciones entre las variables que nos rodean.
Al momento de disear una poltica pblica se debe tener una pregunta concreta en trminos
cuantitativos sobre la o las variables que queremos afectar, y que instrumentos disponemos para
afectar estas variables, es decir, necesitamos dar respuestas cuantitativas a preguntas
cuantitativas, y adicionalmente, debemos tener clara cul es la causalidad de la relacin entre las
variables.
Por ejemplo, podemos querer dar respuesta a las siguientes preguntas:
Para que los datos nos entreguen respuestas concretas y tiles a estas preguntas debemos
aprender a trabajar con ellos, para esto es importante adquirir prctica en organizar la
informacin y presentarla de manera informativa, entender la aleatoriedad y cuando lo que
encontramos puede ser producto del azar, entender los conceptos de probabilidad y como estos
pueden ser usados para interpretar la informacin emprica.
Tipos de Datos
Los datos que disponemos para trabajar pueden tener tres formatos: corte transversal, Series de
Tiempo, y Datos de Panel (o Longitudinales).
Corte Transversal
Los datos de corte transversal se caracterizan por recopilar informacin para varias unidades en un
momento del tiempo, las unidades pueden ser individuos, hogares, comunas, colegios, empresas,
regiones, etc.
Un ejemplo de datos de corte transversal en Chile es la Encuesta CASEN.
La Figura 1 muestra un ejemplo de una base de corte transversal de pases, que muestra la tasa de
mortalidad, expectativa de vida, y otras variables para el ao 2005.
Figura 1
Datos de tipo Corte Transversal
Series de Tiempo
Las series de tiempo representan observaciones para una sola unidad en varios momentos del
tiempo, la frecuencia de los datos puede ser diaria, semanal, trimestral, anual, etc.
Por ejemplo, del Banco Central de Chile podemos obtener las series de tiempo del Producto
Interno Bruto (PIB), Indice de Precios al Consumidor (IPC), fuerza de trabajo, ocupados, etc. Ver
Figura 2.
Figura 2
Datos de tipo Serie de Tiempo
La Figura 3 muestra un ejemplo de datos de panel, con observaciones de varios pases entre el ao
2004 y 2009.
Figura 3
Datos de tipo Datos de Panel
Para revisar algunos conceptos relacionados con la inspeccin de los datos utilizaremos la
Encuesta CASEN 2009 (http://www.mideplan.gob.cl/casen/index.html), especficamente
trataremos de producir estadsticas descriptivas y grficos en STATA que nos permitan analizar la
situacin de los ingresos, pobreza, y desigualdad en Chile.
Para nuestro primer anlisis utilizaremos como medida el ingreso autnomo per-cpita del hogar1,
el que puede ser generado a partir de la informacin disponible en la encuesta:
use casen2009.dta, clear
egen hogarid=group(segmento folio)
g s=1 if pco1!=14
replace s=0 if pco1==14
egen n=sum(s), by(hogarid)
gen yauthpc=yauthaj/n
El Ingreso Autmomo se define como aquel por concepto de sueldos y salarios, ganancias provenientes del
trabajo independiente, autoprovisin de bienes producidos por el hogar, bonificaciones, gratificaciones,
rentas, intereses, as como jubilaciones, pensiones, montepos y transferencias entre privados.
Distribucin Emprica
La distribucin emprica de una variable nos muestra que tan frecuente es que la variable tome un
valor dentro de cierto intervalo. Grficamente la distribucin emprica de la variable se puede ver
a travs de un histograma.
histogram yauthpc if yauthpc<1000000, percent fcolor(purple)
ytitle(Porcentaje) xtitle(Ingreso Autnomo per-cpita del hogar) title(Ingreso
Autnomo per-capita del hogar) subtitle(Distribucin Emprica) note(Fuente:
Elaboracin propia en base a Encuesta CASEN 2009)
Grfico 1
10
0
Porcentaje
15
Distribucin Emprica
200000
400000
600000
800000
Ingreso Autnomo per-cpita del hogar
1000000
Un histograma nos muestra una serie de rectngulos, el ancho de estos rectngulos representa un
intervalo de la variable para la cual estamos construyendo el histograma, en este caso ingreso, y la
altura representa la proporcin de las observaciones que caen dentro de este intervalo.
En este ejemplo, STATA automticamente escoge rectngulos con ancho 18849.16 para de esta
forma generar 53 rectngulos de igual ancho:
Sin embargo, se puede elegir de que ancho se quieren los rectngulos o en cuntos rectngulos
dividir el rango completo en el cual se mueve la variable de inters, teniendo en cuanta que
mientras ms anchos sean los rectngulos o menor cantidad ms tosco ser el histograma, y
mientras ms angostos sean los rectngulos (mayor cantidad) ms fina ser la distribucin de la
variable que podemos analizar con el histograma.
histogram yauthpc if yauthpc<1000000, width(50000) percent fcolor(purple)
ytitle(Porcentaje) xtitle(Ingreso Autnomo per-cpita del hogar) title(Ingreso
Autnomo per-capita del hogar) subtitle(Distribucin Emprica) note(Fuente:
Elaboracin propia en base a Encuesta CASEN 2009)
Grfico 2
20
10
0
Porcentaje
30
Distribucin Emprica
200000
400000
600000
800000
Ingreso Autnomo per-cpita del hogar
1000000
En este grfico le pedimos a STATA que tome rectngulos de ancho 50,000 para hacer el
histograma, por lo cual utiliza 20 barras para cubrir todo el rango de valores que toma la variable
de inters.
Por otra parte, podemos indicar que haga un histograma con 100 rectngulos, los que
automticamente quedarn con ancho 10000:
Grfico 3
Porcentaje
Distribucin Emprica
200000
400000
600000
800000
Ingreso Autnomo per-cpita del hogar
1000000
Alrededor de un 20% de las personas (con ingresos per-cpita menor a 1 milln de pesos)
tienen ingresos per-cpita menores a $200 mil pesos.
A pesar de que la mayora de los individuos se encuentras a la izquierda de la distribucin,
existe una cola larga a la derecha.
Grfico 4
Densidad
2.000e-064.000e-066.000e-068.000e-06
Distribucin Emprica
200000
400000
600000
800000
Ingreso Autnomo per-cpita del hogar
1000000
Si bien la distribucin emprica de la variable nos permite caracterizar bastante bien la variable, es
difcil utilizar esta distribucin para comparar dos o ms variables, para hacer comparacin
2
La estimacin de densidad Kernel consiste ajustar una distribucin normal en cada punto observado de
datos, luego se une (suma ponderada) cada una de estas distribuciones normales.
necesitamos tener indicadores concretos que de alguna forma resuman lo que podemos ver
grficamente con el histograma o kernel. Algunos de estos indicadores son las medidas de
tendencia central y las medidas de dispersin.
Por ejemplo, el promedio entre los nmeros 1 y 9 es 5, ya que de esta manera se equilibra la
distribucin de ellos, la distancia (en valor absoluto) entre 1 y 5 es la misma que la distancia entre
9 y 5.
Veamos otro ejemplo, supongamos los siguientes nmeros: 1, 2, 3, 4, y 5. La media aritmtica de
estos nmeros es 3, ya que de esta manera equilibramos la distribucin de estos nmeros.
Notemos la segunda columna de la Tabla 1, la diferencia (en valor absoluto) entre 1 y la media (3)
es 2, entre 2 y la media es 1, y entre 3 y la media es cero, estos tres valores son menores o iguales
a la media, y la suma de su distancia con respecto a la media es 3. Por otra parte, los valores que
estn sobre la media, tienen una diferencia de 1 con respecto a la media y 2 con respecto a la
media, lo que tambin suma 3. De esta forma, vemos que la media es el nmero que logra
equilibrar la distribucin de los nmeros observados.
Tabla 1
Ejemplo media aritmtica
Nmeros
1
2
3
4
5
2
1
0
1
2
3
3
La Tabla 2 nos muestra otro ejemplo, en este caso tenemos 8 nmeros cuya media aritmtica es
26.75. Slo dos de los ocho nmeros estn sobre la media aritmtica y los restantes seis estn bajo
la media, podemos ver que la suma de la diferencia absoluta de cada uno de los nmeros que
estn bajo la media con respecto a la media es exactamente igual a la suma de las diferencias
absolutas de los nmeros que estn sobre la media.
Tabla 2
Ejemplo media aritmtica
Nmeros
10
11
12
13
13
15
40
100
16.75
15.75
14.75
13.75
13.75
11.75
13.25
73.25
86.5
86.5
Veamos un caso an ms extremo, la Tabla 3 nos muestra un listado de 12 nmeros, los primeros
11 nmeros son bastante pequeos (menores o iguales a 1), pero el ltimo nmero es un nmero
bastante grande, lo que hace que para equilibrar estos nmeros el promedio va a ser un nmero
bastante ms grande que los primeros 11 nmeros, en efecto el promedio de estos 12 nmeros es
8.79, y 11 de los 12 nmeros estn bajo el promedio, mientras que 1 slo est sobre el promedio.
Tabla 3
Ejemplo media aritmtica
Nmeros
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1.0
100
8.79
8.69
8.59
8.49
8.39
8.29
8.19
8.09
7.99
7.89
7.79
91.21
91.21
91.21
Esto nos muestra algo importante que hay que tener presente cuando uno utiliza la media como
una medida de tendencia central, esta medida es bastante sensible a valores extremos en la
distribucin de nmeros.
En el caso del ingreso autnomo per-cpita de la encuesta CASEN 2009, la media de esta variable
es $130,992.7:
De las 244,511 observaciones, 162,504 (66.5%) estn bajo la media y 82,007 (33.5%) estn sobre la
media.
Otra medida de tendencia central es la mediana, la que corresponde al valor de la variable en la
mitad de la distribucin, es decir, si ordenamos las observaciones de menor a mayor valor de la
variable, la mediana es el valor de la observacin que est justo en la mitad, dejando la misma
cantidad de observaciones a la derecha y a la izquierda de la mediana. La mediana es una medida
de tendencia central ms robusta que la media, en el sentido que no es afectada por valores
extremos.
En el ejemplo de la Tabla 1 tenemos 5 nmeros, donde el nmero 3 corresponde al que est justo
en la mitad de estos 5 nmeros, de esta forma la mediana es 3. En el ejemplo, de la Tabla 2
tenemos 8 nmeros, no existe un nico nmero que este en la mitad, en este caso tenemos que
considerar los nmeros en la posicin 4 y 5 para calcular la mediana, como ambos nmeros son
iguales a 13, la mediana de estos nmeros es 13. Finalmente, en la Tabla 3 tenemos 12 nmeros,
nuevamente al ser un nmero par no existe un nico nmero en la mitad, tenemos que considerar
los nmeros en la posicin 6 y 7 para calcular la mediana, la que corresponde al promedio de estos
dos nmeros, 0.55.
La mediana del ingreso autnomo per-cpita es $93,361.7, bastante menor a la media ya que esta
medida no es sensible a los valores extremos, ingresos elevados.
La mediana corresponde al percentil 50 y podemos calcular este valor en STATA a travs del
comando summarize con la opcin detail.
Adicionalmente el grfico 5 muestra el histograma del ingreso autnomo per-cpita y los valores
de la media y mediana.
histogram yauthpc if yauthpc<1000000, percent fcolor(purple)
ytitle(Porcentaje) xtitle(Ingreso Autnomo per-cpita del hogar) title(Ingreso
Autnomo per-capita del hogar) subtitle(Distribucin Emprica) note(Fuente:
Elaboracin propia en base a Encuesta CASEN 2006) xline(130993,
lcolor(cranberry)) xline(93362, lcolor(black))
Grfico 5
10
5
0
Porcentaje
15
Distribucin Emprica
200000
400000
600000
800000
Ingreso Autnomo per-cpita del hogar
1000000
.2
0
.1
Density
.3
.4
Grfico 6
Histograma de variable simtrica en torno a la media
-3
-2
-1
La simetra se puede definir tambin con respecto a la mediana o cualquier otro punto de inters, por
ejemplo, el punto ms alto de la distribucin.
El coeficiente de asimetra forma parte de los indicadores del comando summarize, detail
de STATA. En el caso del ingreso autnomo per-cpita grficamente notbamos que era una
variable asimtrica ya que tiene mayor cantidad de observaciones al lado izquierdo, en particular
el coeficiente de asimetra de esta variable es 2.65.
Figura 4
Asimetra positiva y negativa
Cuando la variable tiene un coeficiente de asimetra positivo o negativo, se dice que la variable es
sesgada.
En el caso de variables muy asimtricas como el ingreso, la transformacin logartmica de la
variable puede lograr que la distribucin sea algo ms simtrica. Se debe tener presente el
logaritmo de 0 no existe, por lo cual las observaciones que reportaban ingreso autnomo igual a
cero quedarn con missing value en la variable transformada. El Grfico 7 nos muestra que sucede
con el ingreso autnomo per-cpita al aplicar logaritmo.
g lyauthpc=ln(yauthpc)
(8829 missing values generate)
histogram yauthpc if yauthpc>0 & yauthpc<1000000, percent fcolor(purple)
ytitle(Porcentaje) xtitle(Ingreso Autnomo per-cpita del hogar) title(Ingreso
Autnomo per-capita) subtitle(Distribucin Emprica) note(Fuente: Elaboracin
propia en base a Encuesta CASEN 2006) saving(nivel, replace)
histogram lyauthpc if yauthpc<1000000, percent fcolor(purple)
ytitle(Porcentaje) xtitle(Ingreso Autnomo per-cpita del hogar)
title(Logaritmo Ingreso Autnomo per-capita) subtitle(Distribucin Emprica)
note(Fuente: Elaboracin propia en base a Encuesta CASEN 2006) saving(log,
replace)
graph combine nivel.gph log.gph
Grfico 7
Distribucin Emprica
6
0
Porcentaje
Porcentaje
10
10
Distribucin Emprica
15
6
8
10
12
14
Ingreso Autnomo per-cpita del hogar
Medidas de dispersin
Tal como dice su nombre las medidas de dispersin tienen que ver con que tan dispersas estn las
observaciones, o que tan concentradas estn.
Una medida de dispersin es la varianza (2):
Varianza poblacional:
Varianza muestral:
clear
set obs 10000
matrix
matrix
matrix
matrix
desv1=1
desv2=sqrt(2)
desv3=sqrt(3)
desv4=2
drawnorm
drawnorm
drawnorm
drawnorm
var1,
var2,
var3,
var4,
m(1)
m(1)
m(1)
m(1)
sd(desv1)
sd(desv2)
sd(desv3)
sd(desv4)
saving(var1,
saving(var2,
saving(var3,
saving(var4,
6
2
0
0
5
media=1 varianza=1
-10
-5
0
5
media=1 varianza=3
10
-10
-5
0
5
media=1 varianza=2
10
-10
-5
0
5
media=1 varianza=4
10
6
4
2
0
Percent
-5
-10
Percent
Percent
4
2
Percent
Grfico 8
10
Otra medida de dispersin utilizada es el rango inter-cuartil, el que se define como la distancia en
unidades de la variable entre el percentil 75 y el percentil 25:
El rango inter-cuartil del ingreso autnomo per-cpita es $107,185 lo que indica que la diferencia
en ingreso autnomo entre la persona que est en el 75% de mayores ingresos y la persona que
est en el 25% de menos ingresos es $107,185.
El problema de estas tres medidas de dispersin; varianza, desviacin estndar, y rango intercuartil; es que estn en la escala de la variable que estamos midiendo su dispersin, por lo cual no
nos permite comparar variables con diferentes escalas, no es una medida estandarizada.
Una medida de dispersin estandarizada y que nos permite comparar variables de distinta
naturaleza es el coeficiente de variacin (cv):
Por ejemplo, el coeficiente de variacin del ingreso autnomo es casi igual a uno, indicando que la
desviacin estndar es igual a la media de la variable, sin embargo, al aplicar la transformacin
logartmica de la variable la dispersin de reduce bastante la desviacin estndar de la variable
transformada es igual a 0.08 veces la media.
Un grfico que nos permite ver de manera simultnea la dispersin de la variable como su
tendencia central es el Box plot.
graph box yauthpc if yauthpc>0 & yauthpc<1000000
600000
400000
200000
yauthpc
800000
1.0e+06
Grfico 9
Medidas de desigualdad
Para definir si una persona es indigente, pobre no indigente, o no pobre se utiliza la lnea de
indigencia y pobreza definida segn el consumo de una canasta bsica por MIDEPLAN. Para el ao
2009 se tienen los siguientes valores de lnea de indigencia y pobreza:
Tabla 4
Lnea de indigencia
Urbana
32,067
Rural
24,710
Lnea de pobreza
Urbana
64,134
Rural
43,242
Para definir si un individuo tiene un ingreso bajo o sobre la lnea de pobreza o indigencia, se
calcula su ingreso per-cpita del hogar, tomando el ingreso total del hogar y dividindolo por el
nmero de personas en el hogar, excluyendo el servicio domstico.
Los ingresos totales del hogar se pueden dividir en:
Dos medidas de desigualdad ampliamente utilizadas son la razn entre el ltimo y primer quintil, y
la razn entre el ltimo y primer decil.
A continuacin tomaremos las diferentes medidas de ingreso para analizar las medidas de
tendencia central, dispersin, y desigualdad.
**Ingreso total per-cpita
g ingpc=ytothaj/n
***Ingreso del trabajo del hogar****
g ytrab= ytrabhaj
replace ytrab=. if ytrab==0
***Ingreso Autonomo ditisntos del trabajo, del hogar***
g yaut2=yauthaj-ytrab
replace yaut2=. if yaut2==0
***Ingresos de subsidios del hogar***
g ysub=ysubhaj
replace ysub=. if ysub==0
***Alquiler imputado***
g alq=yaimhaj
replace alq=. if alq==0
xtile
xtile
xtile
xtile
xtile
xtile
xtile
xtile
xtile
xtile
xtile
xtile
matrix MED=J(6,12,0)
matrix colnames MED=Promedio DesvEstandar P25 P75 Quintil1 Quintil5
Decil1 Decil10 CV IQR D10/D1 Q5/Q1
matrix rownames MED=Trabajo otros_autonomos subsidios alquiler
autonomo_pc total_pc
sum ytrab [w=expr] if o==1, detail
matrix MED[1,1]=r(mean)
matrix MED[1,2]=r(sd)
matrix MED[1,3]=r(p25)
matrix MED[1,4]=r(p75)
sum ytrab [w=expr] if o==1 & quintil_trab==1
matrix MED[1,5]=r(mean)
sum ytrab [w=expr] if o==1 & quintil_trab==5
matrix MED[1,6]=r(mean)
sum ytrab [w=expr] if o==1 & decil_trab==1
matrix MED[1,7]=r(mean)
sum ytrab [w=expr] if o==1 & decil_trab==10
matrix MED[1,8]=r(mean)
sum yaut2 [w=expr] if o==1, detail
matrix MED[2,1]=r(mean)
matrix MED[2,2]=r(sd)
matrix MED[2,3]=r(p25)
matrix MED[2,4]=r(p75)
MED[`i',9]=MED[`i',2]/MED[`i',1]
MED[`i',10]=MED[`i',4]-MED[`i',3]
MED[`i',11]=MED[`i',8]/MED[`i',7]
MED[`i',12]=MED[`i',6]/MED[`i',5]
local i=`i'+1
}
La razn de deciles y quintiles nos permiten estudiar la distribucin o desigualdad en las distintas
medidas de ingresos propuestas. Por ejemplo, se tiene que los hogares del decil ms alto obtienen
ingresos del trabajo que son en promedio ms de 37 veces los ingresos de las personas del decil
ms bajo. Esto puede ser de alguna manera compensado (al menos en trminos relativos) con los
subsidios, ya que la razn entre el Decil 90 y Decil 10 de subsidios monetarios es 45.5. Con
respecto a la razn de quintiles, las personas que estn en el 20% de mayores ingresos del trabajo
tienen ingresos por este tem promedio que son 16.2 veces los ingresos de trabajo de las personas
que estn en el 20% inferior.
En trminos de ingreso autnomo per-cpita la desigualdad de ingresos nos muestra que las
personas del decil ms alto tienen un ingreso 78.7 veces el ingreso de las personas del decil ms
bajo. En trminos de quintiles la razn (desigualdad) es menor, nos muestra que las personas en el
quintil ms acomodado tiene un ingreso autnomo 24 veces el ingreso del primer quintil. Pero si
nos concentramos en el ingreso total del hogar, el cual corresponde a los ingresos autnomos ms
los subsidios monetarios y alquiler imputado, se tiene que la razn de deciles es poco menos de la
mitad de la misma medida para el ingreso autnomo, y la razn de quintiles es 15.8.
Otras dos medidas de desigualdad son la curva de Lorenz y el coeficiente de Gini. La Curva de
Lorenz mide el porcentaje acumulado del ingreso (o de la variable que estemos analizando) en
manos del porcentaje acumulado de la poblacin. La Figura 5 nos muestra la Curva de Lorenz en
rojo, en el eje horizontal nos va mostrando la proporcin de la poblacin que va desde cero a 1, y
en el eje vertical la proporcin del ingreso. Por ejemplo, esta curva nos muestra que un 60% de la
poblacin acumula cerca del 30% de los ingresos. Mientras mayor curvatura tenga la curva de
lorenz yaupc
Grfico 10
Esta medida de desigualdad es grfica y dificulta la comparacin con otras variables. El coeficiente
de Gini es un indicador ms objetivo que se obtiene a partir de la Curva de Lorenz, el Gini es un
nmero que est entre 0 y 1, en donde 0 corresponde a perfecta igualdad y 1 corresponde a
perfecta desigualdad.
El Coeficiente de Gini se obtiene de dividir el rea que hay entre la lnea de perfecta igualdad y la
Curva de Lorenz (a), y el rea total bajo la lnea de perfecta igualdad (a+b).
Figura 6
Coeficiente de Gini
Para obtener el coeficiente de GINI del ingreso autnomo per-cpita podemos utilizar el comando
inequal de STATA:
inequal yaupc
La interpretacin del coeficiente de GINI es la siguiente, si tomo dos familias o personas al azar, la
diferencia en ingresos autnomos per-cpita de estas dos personas como proporcin del ingreso
promedio:
Variable Aleatoria
Definicin
Una variable aleatoria es aquella variable cuyos resultados posibles se obtienen del azar, es
decir, de manera experimental.
Existen variables aleatorias discretas, es decir, que slo pueden tomar valores contables, y existen
variables aleatorias continuas donde la variable puede tomar cualquier nmero del infinito de
nmeros posibles.
Probabilidad de un evento
Se entiende por probabilidad como la posibilidad de que ocurra un resultado o un evento
determinado. Un evento es uno de los posibles resultados de hacer algo. Por ejemplo, al lanzar
una moneda tenemos dos posibles eventos: que salga cara o que salga sello. Luego, la
probabilidad de que al lanzar una moneda esta caiga en cara es o 0.5.
Una probabilidad siempre estar entre 0 y 1, donde 0 significa que no existe ninguna posibilidad
de que el evento ocurra, y 1 existe seguridad de que el evento ocurra.
En la teora de probabilidad, la actividad que origina los diferentes eventos se conoce como
experimento. Al conjunto de todos los resultados posibles de un experimento se le llama espacio
muestral del experimento. En el experimento lanzar una moneda el espacio muestral es:
Consideremos ahora el experimento de lanzar una moneda cuatro veces, para cada lanzamiento
de la moneda tenemos dos posibles resultados (cara o sello), por lo cual el espacio muestral de
este experimento tendr 16 eventos posibles:
1 moneda
2 moneda
3 moneda
4 moneda
Cara
Cara
Cara
Cara
Sello
Sello
Cara
Sello
Sello
Cara
Cara
Sello
Sello
Cara
Sello
Sello
Cara
Cara
Cara
Sello
Sello
Cara
Sello
Sello
Cara
Cara
Sello
Sello
Cara
Sello
De esta forma, el experimento lanzar 4 monedas tiene 16 posibles eventos que forman el espacio
muestral del experimento, y la probabilidad de cada uno de los eventos es 1/16 o 0.0625.
Nmero
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
Evento
CCCC
CCCS
CCSC
CCSS
CSCC
CSCS
CSSC
CSSS
SCCC
SCCS
SCSC
SCSS
SSCC
SSCS
SSSC
SSSS
Probabilidad
1/16 =0.0625
1/16 =0.0625
1/16 =0.0625
1/16 =0.0625
1/16 =0.0625
1/16 =0.0625
1/16 =0.0625
1/16 =0.0625
1/16 =0.0625
1/16 =0.0625
1/16 =0.0625
1/16 =0.0625
1/16 =0.0625
1/16 =0.0625
1/16 =0.0625
1/16 =0.0625
Otra pregunta que nos podemos hacer con respecto al experimento de lanzar 4 monedas es la
cantidad de caras que salen, esta variable la denotaremos por X, y se tiene que:
X
0
1
2
3
4
N de casos
1
4
6
4
1
Probabilidad
1/16=0.0625
=0.25
3/8=0.375
=0.25
1/16=0.0625
Esta variable aleatoria puede tomar cinco valores diferentes, por lo cual es una variable aleatoria
discreta, las probabilidades de cada uno de los posibles valores de esta variable son todos
positivos y menores a 1, y la suma de ellos es igual a 1.
Grfico 11
Distribucin de Probabilidad X
Definicin
La Funcin de Distribucin de Frecuencias nos seala para cada uno de los resultados posibles
de la variable aleatoria la cantidad de casos que tienen ese resultado.
Grfico 12
Distribucin de Frecuencias X
En este caso la variable aleatoria es discreta, por lo cual esta funcin que relacionada cada evento
posible de la variable con sus probabilidades est definida, sin embargo, cuando trabajamos con
variables aleatorias continuas no es posible definir esta funcin de distribucin de probabilidad, ya
que existen infinitos valores posibles para X.
Para variables aleatorias continuas se define la funcin de densidad de probabilidad.
Definicin
La Funcin de Densidad de Probabilidad (pdf) es tal que el rea bajo esta funcin entre dos
puntos es igual a la probabilidad de que la variable aleatoria este entre dos puntos
Definicin
La Funcin de Probabilidad Acumulada (cdf) indica la probabilidad de que una variable aleatoria
tome un valor menor o igual a cierto umbral especfico
Por ejemplo, podemos preguntarnos cul es la probabilidad de que la variable aleatoria Z sea
menor a:
Una funcin de densidad bastante utilizada por sus particularidades es la funcin de densidad
normal:
Esta funcin de densidad tiene dos parmetros que definen su media () y su desviacin estndar
(), y se denota
. Esta funcin de densidad tiene la particularidad de ser simtrica
(coeficiente de asimetra es cero), y mesocurtica (coeficiente de curtosis es igual a 3).
Por ejemplo, mediante el siguiente comando de STATA podemos generar variables aleatorias con
una funcin de densidad normal, para lo cual debemos escoger sus dos parmetros: media y
desviacin estndar:
matrix m=(0,1,2,2)
matrix sd=(1,1,1,sqrt(2))
drawnorm w x y z, n(50000) means(m) sds(sd)
Hemos generado 4 variables aleatorias independientes entre ellas, w tiene media 0 y desviacin
estndar 1, x tiene media 1 y desviacin estndar 1, y tiene media 2 y desviacin estndar 1, y z
tiene media dos y varianza 2.
El Grfico 13 nos muestra la funcin de densidad de w, la cual la obtuvimos a travs del comando
normalden()de STATA. Este comando genera una variable que corresponde a aplicar la funcin
de densidad normal con media cero y desviacin estndar 1 a la variable indicada entre parntesis,
en este caso w.
Es decir,
g densidadw=normalden(w)
twoway (scatter densidadw w)
Grfico 13
Funcin de densidad normal: media 0 y desviacin estndar 1
Grfico 14
Funcin de densidad normal acumulada: media 0 y desviacin estndar 1
Ambos grficos los obtuvimos asumiendo que la variable w fue generada a partir de una funcin
de densidad normal con media cero y varianza 1, sin embargo, en la prctica slo se nos entregar
un vector de datos sin saber cul fue el proceso que gener esos datos. Por lo cual en la prctica
debemos estimar empricamente cual es la funcin de densidad de los datos, ya sea a travs de un
histograma o a travs de una estimacin kernel (suavizacin del histograma).
histogram w, title(media=0; varianza=1)
histogram x, title(media=1; varianza=1)
histogram y, title(media=2; varianza=1)
histogram z, title(media=2; varianza=2)
graph combine g1 g2 g3 g4, xcom ycom
name(g1,
name(g2,
name(g3,
name(g4,
replace)
replace)
replace)
replace)
Grfico 15
Histograma, aproximacin muestral de la funcin de densidad
kdensity w, title(media=0;
kdensity x, title(media=1;
kdensity y, title(media=2;
kdensity z, title(media=2;
graph combine g5 g6 g7 g8,
varianza=1)
varianza=1)
varianza=1)
varianza=2)
xcom ycom
name(g5,
name(g6,
name(g7,
name(g8,
replace)
replace)
replace)
replace)
Grfico 16
Kernel, aproximacin muestral de la funcin de densidad
Media y Varianza
A partir de la funcin de distribucin de probabilidad o la funcin de densidad de probabilidad de
una variable aleatoria se pueden obtener algebraicamente los momentos de una variable,
especialmente, la media y la varianza. Estos parmetros son anlogos a la media y varianza
muestral de una distribucin emprica.
Media
La media de una variable aleatoria de conoce como valor esperado o esperanza, y de denota por
E(x).
Varianza
La varianza de una variable aleatoria de denota por V(X), y se define de la siguiente manera:
Variable aleatoria discreta
Nuevamente, estos conceptos son ms bien tericos o poblacionales, ya que suponen conocer la
funcin de probabilidad o densidad que dio origen a los valores observados de la variable
aleatoria. Por esta razn, la E(X) y V(X) se conocen como momentos poblacionales (verdaderos).
Pero en la prctica desconocemos la funcin de densidad o la funcin de probabilidad, y slo
podremos obtener aproximaciones muestrales de estos momentos.
Media muestral
La media muestral se define de la siguiente manera:
Es anloga a la definicin de E(x) o media poblacional, pero cada xi tiene igual probabilidad de
ocurrencia, 1/N.
Varianza muestral
La varianza muestral se define de la siguiente manera:
Figura 7
Base de Datos Pick 3 (1975)
Cada nmero del sorteo (n1, n2, n3) corresponden a eventos independientes uno del otro: sacar
una bola de entre 10 bolas numeradas de 0 a 9, por lo cual podemos generar una sola variable
aleatoria.
egen id=group(ao mes dia jornada)
reshape long n, i(id) j(digito)
Lo primero que hacemos es generar un identificar cada uno de los sorteos, variable id, luego
ordenamos la base de datos de manera tal que las variables n1, n2, y n3 se agrupen hacia abajo en
una sola columna llamada n, esto se hace a travs del comando reshape long.
Figura 8
Base de datos ordenada Pick 3 (1975)
La siguiente tabla nos muestra la distribucin de frecuencias y de probabilidad de cada uno de los
nmeros de 0 a 9 que pueden ser sorteados:
En una lotera justa cada nmero tiene igual probabilidad de salir, esta probabilidad terica es de
un 10%. Empricamente debisemos observar que dentro de estos 570 sorteos cada nmero
debera salir 57 veces aproximadamente, sin embargo, observamos que el nmero 1 por ejemplo
sale 72 veces, 12.6%.
El siguiente grfico muestra el histograma de la variable aleatoria
Grfico 17
Distribucin de Frecuencias sorteo
10
5
0
Probabilidad
15
(1975)
4
5
Numeros Pick3
Se observa claramente que los nmeros 0, 1, y 4 aparecen en ms del 10% de los casos, y los
nmeros 3 y 5 en menos del 10% de los casos. Podramos afirmar entonces que la lotera no es
justa?.
Para poder afirmar que la lotera no es justa, debemos establecer algn criterio que nos permita
decir cuando estadsticamente la variable aleatoria no se est comportando segn lo esperado
tericamente. Una estrategia para hacer esto es simular muchas loteras honestas (por ejemplo
5000) sacando muestras repetidas de 570 observaciones, luego si en estas simulaciones
observamos que es frecuente que un nmero aparezca 12.6% de las veces o ms, podramos
concluir que los resultados obtenidos no son irregulares. Si por el contrario la probabilidad de que
un nmero aparezca 12.6% en las simulaciones es muy baja habra que sospechar de los
resultados de la lotera de 1975.
Pero necesitamos un criterio para decir cuando es un resultado regular o un resultado raro, es
decir, cual es la probabilidad lmite tal que sobre este valor diremos que este resultado (observar
ms del 10% el nmero 1) es un mero resultado del azar, y bajo este valor diremos que esta lotera
es injusta. Por ejemplo, si en un 100% de las simulaciones observamos que el nmero 1 sale 12.6%
de las veces podramos decir que esto no es algo raro o que la lotera es justa. Si observamos que
en un 80% de las simulaciones se da este resultado tambin sigue siendo un resultado que no nos
permite decir que la lotera es injusta pero si por ejemplo, observamos que este resultado slo se
da en un 1% de las simulaciones tenemos evidencia para decir que la lotera no es justa ya que el
resultado se da en slo un 1% de los casos, es un caso aislado. Entonces debemos escoger el valor
sobre el cual diremos que el resultado es normal y bajo el cual diremos que el resultado es
extrao, por ejemplo 5%.
Entonces,
A continuacin realizaremos las 5,000 simulaciones de una lotera justa, esto significa obtener
aleatoriamente y con igual probabilidad un nmero entre 0 y 9, 570 veces, ya que esta es la
cantidad de observaciones que poseemos para el ao 1957. Luego contaremos la cantidad de
veces que fue sorteado cada nmero.
clear
drop _all
set matsize 6000
set more 1
matrix B=J(5000,10,0)
set obs 570
g y=0
local i=1
while `i'<=5000 {
qui replace y=int(uniform()*10)
qui sum y if y==0
matrix B[`i',1]=r(N)
qui sum y if y==1
matrix B[`i',2]=r(N)
qui sum y if y==2
matrix B[`i',3]=r(N)
qui sum y if y==3
matrix B[`i',4]=r(N)
qui sum y if y==4
matrix B[`i',5]=r(N)
qui sum y if y==5
matrix B[`i',6]=r(N)
qui sum y if y==6
matrix B[`i',7]=r(N)
qui sum y if y==7
matrix B[`i',8]=r(N)
qui sum y if y==8
matrix B[`i',9]=r(N)
qui sum y if y==9
matrix B[`i',10]=r(N)
local i=`i'+1
}
Figura 9
Base de datos 5,000 simulaciones
Nmero de veces que es sorteado cada nmero
Se obtiene que en 119 de las 5,000 simulaciones el nmero 1 es obtenido 12.6% o ms, lo que
corresponde a 2.38%, este porcentaje es menor al 5% que establecimos como criterio para decidir
cuando la lotera no es justa, por lo cual podemos decir que los resultados de la lotera de 1975 NO
son regulares.
El Grfico 18 muestra la distribucin de el porcentaje de veces que es sortead el nmero 1 de las
5,000 simulaciones. Vemos que la distribucin es bastante simtrica y se concentra en torno a
10%, que representa el valor terico del nmero de veces que debemos obtener el nmero 1. En
efecto, el promedio es justamente 10%. Adems observamos que en un 1% de los casos el
porcentaje de 1 es mayor a 13.2%, y en un 1% de los casos es menor a 7.2%.
Grfico 18
Distribucin de porcentaje de veces que nmero 1 es sorteado
Percent
1975
8
10
12
14
Distribucion del porcentaje de unos en las 5000 simulaciones
16
1
8
6
9
10
4
2
Una posible muestra es tomar a 1 individuo de los 10, podramos formar 10 muestras de este tipo.
Otro extremo es tomar una muestra de 10 individuos (igual a la poblacin), tambin podramos
formar muestras de dos individuos, o de tres, etc. Esto nos permite ver como a partir de una
poblacin pequea de slo 10 individuos, la cantidad de muestras que se pueden obtener de ellas
es bastante amplia. Cuntas muestras podemos obtener de una poblacin de 16,000,000 de
personas?, este nmero tiende a infinito.
Se define como Poblacin al conjunto de todos los elementos que han sido escogidos para el
estudio. Se realiza un Censo cuando se entrevista a cada uno de los elementos de la poblacin.
Una Muestra corresponde a una seleccin de parte de la poblacin.
Tipos de muestreo
Para que una muestra sea representativa de la poblacin debe ser obtenida de manera aleatoria,
slo si esto se cumple podremos aproximar los parmetros poblacionales a travs de estimaciones
muestrales.
Como ya se mencionaba, de una poblacin podemos obtener infinitas muestras aleatorias, as
cuando se nos entrega una base de datos cuya informacin corresponde a una muestra obtenida
de la poblacin, esta corresponde a una de un milln de bases de datos que podramos haber
obtenido para la poblacin de estudio.
n1=int(uniform()*10)
n2=int(uniform()*10)
n3=int(uniform()*10)
sorteo=n1*100+n2*10+n3
A pesar de que mediante los comandos anteriores nos permiten ejemplificar el muestreo aleatorio
simple, STATA ya posee comandos que automticamente seleccionan muestra a travs de este
tipo de muestreo con y sin reemplazo:
sample: el comando simple de STATA genera una muestra aleatoria simple sin reemplazo
o sample 10: escoge aleatoriamente 10% de las observaciones
o sample 120, count: escoge aleatoriamente 120 observaciones
bsample: muestreo aleatorio simple con reemplazo
o bsample 120: escoge aleatoriamente 120 observaciones.
-40
-20
20
40
60
Grfico 19
Muestras Aleatorias de Diferentes Tamaos
-40
-20
20
40
60
-40
Muestra 80
20
40
60
x
Poblacion
-20
20
40
60
g x=invnorm(uniform())*10+15
save x.dta,replace
Poblacion
Muestra 100
Poblacion
-40
-20
20
40
60
x
Muestra 1000
60
.01
-40
x
Muestra 500
40
.01
0
20
Poblacion
.01
0
-20
0
x
Muestra 50
Poblacion
-40
-20
Poblacion
Muestra 5000
use x, clear
sample 50, count
rename x x50
save x50.dta, replace
use x, clear
sample 80, count
rename x x80
save x80.dta, replace
use x, clear
sample 100, count
rename x x100
save x100.dta, replace
use x, clear
sample 500, count
rename x x500
save x500.dta, replace
use x, clear
sample 1000, count
rename x x1000
save x1000.dta, replace
use x, clear
sample 5000, count
rename x x5000
save x5000.dta, replace
use x, clear
merge using x50 x80 x100 x500 x1000 x5000
twoway (kdensity x) (kdensity x50), name(g1, replace) legend(order(1
"Poblacion" 2 "Muestra 50"))
twoway (kdensity x) (kdensity x80), name(g2, replace) legend(order(1
"Poblacion" 2 "Muestra 80"))
twoway (kdensity x) (kdensity x100), name(g3, replace) legend(order(1
"Poblacion" 2 "Muestra 100"))
twoway (kdensity x) (kdensity x500), name(g4, replace) legend(order(1
"Poblacion" 2 "Muestra 500"))
twoway (kdensity x) (kdensity x1000), name(g5, replace) legend(order(1
"Poblacion" 2 "Muestra 1000"))
twoway (kdensity x) (kdensity x5000), name(g6, replace) legend(order(1
"Poblacion" 2 "Muestra 5000"))
graph combine g1 g2 g3 g4 g5 g6, xcommon ycommon
La siguiente figura muestra los 120 folios seleccionados a travs de este mtodo
Figura 11
Nmeros sorteados mediante Muestreo Aleatorio Sistemtico
Si la variable aleatoria X tiene una media poblacional igual a y una varianza poblacional igual a
2, notamos que el valor esperado (o esperanza) de la media muestral es:
De esta forma, podemos notar que en valor esperado la media muestral ser igual a la media
poblacional, esto se conoce como que es un estimador insesgado. Adems, mientras mayor sea el
tamao de la muestra menor ser la varianza de este estimador (la media muestral), y estar ms
concentrada en torno a la media (media poblacional).
Suponga que tenemos una poblacin de 10,000 observaciones, donde esta poblacin tiene una
distribucin de probabilidad (densidad) normal con media poblacional 15 y varianza poblacional
igual a 100.
Luego, seleccionamos 1,000 muestras aleatorias de tamao N=500 cada una, y a cada una de estas
muestras le tomamos la media muestral, el siguiente grfico nos muestra la distribucin
(histograma) de las medias muestrales.
set matsize 11000
matrix B=J(1000,1,0)
clear
set obs 10000
g x=invnorm(uniform())*10+15
save xm.dta, replace
local i=1
while `i'<=1000{
use xm, clear
sample 500, count
qui sum x
matrix B[`i',1]=r(mean)
local i=`i'+1
}
clear
svmat B
histogram B1, title(Distribucin de las medias muestrales)
Grfico 20
.6
.4
.2
0
Density
.8
13.5
14
14.5
15
B1
15.5
16
Se obtiene que el promedio de las medias muestrales es 15, aproximadamente igual a la media
poblacional, y que la varianza de las medias muestrales es 0.186 (0.431^2), lo que equivale
aproximadamente a 100/500.
La desviacin estndar de las medias muestrales se conoce como error estndar, esto porque la
variabilidad en las medias muestrales proviene del error de muestreo debido al azar.
Si la variable aleatoria x tiene una distribucin normal de la siguiente forma:
Se tiene que la media muestral tambin tendr una distribucin normal de la forma:
Supongamos a=3.
La media poblacional de la variable z que tiene una densidad Pareto es
A travs de los siguiente comandos generamos 100,000 observaciones de una variable que tiene
densidad de probabilidad Pareto con parmetro a=3.
clear
set obs 100000
g u=uniform()
g z=1/(u^(1/3))
histogram z, normal title(Distribucin de Probabilidad Variable
Aleatoria Pareto) subtitle(Poblacin de 100.000 observaciones)
save z.dta,replace
Grfico 21
.3
.2
.1
0
Density
.4
.5
20
40
60
z
80
100
Para ver el Teorema de Central del Lmite, tomaremos muestras aleatorias de tamao
N=10,50,100,1000, y 5000. Tomaremos la media muestral de cada una de las muestras repitiendo
el ejercicio 500 veces para obtener la distribucin de la media muestral en cada uno de los casos.
matrix Z=J(500,6,0)
local i=1
while `i'<=500{
use z, clear
sample 10, count
qui sum z
matrix Z[`i',1]=r(mean)
local i=`i'+1
}
local i=1
while `i'<=500{
use z, clear
sample 50, count
qui sum z
matrix Z[`i',2]=r(mean)
local i=`i'+1
}
local i=1
while `i'<=500{
use z, clear
sample 100, count
qui sum z
matrix Z[`i',3]=r(mean)
local i=`i'+1
}
local i=1
while `i'<=500{
use z, clear
sample 500, count
qui sum z
matrix Z[`i',4]=r(mean)
local i=`i'+1
}
local i=1
while `i'<=500{
use z, clear
sample 1000, count
qui sum z
matrix Z[`i',5]=r(mean)
local i=`i'+1
}
local i=1
while `i'<=500{
use z, clear
sample 5000, count
qui sum z
matrix Z[`i',6]=r(mean)
local i=`i'+1
}
clear
svmat Z
rename
rename
rename
rename
rename
rename
sum N*
Z1
Z2
Z3
Z4
Z5
Z6
N10
N50
N100
N500
N1000
N5000
histogram
N10,
normal
title(Muestra
simulaciones) name(gz1, replace)
histogram
N50,
normal
title(Muestra
simulaciones) name(gz2, replace)
histogram
N100,
normal
title(Muestra
simulaciones) name(gz3, replace)
histogram
N500,
normal
title(Muestra
simulaciones) name(gz4, replace)
histogram N1000, normal title(Muestra
simulaciones) name(gz5, replace)
histogram N5000, normal title(Muestra
simulaciones) name(gz6, replace)
de
10
observaciones)
note(500
de
50
observaciones)
note(500
de
100
observaciones)
note(500
de
500
observaciones)
note(500
de
1000
observaciones)
note(500
de
5000
observaciones)
note(500
Grfico 22
6
Density
3
1
1.5
2
N10
2.5
.5
Density
1.5
1
Density
2.5
1.2
500 simulaciones
1.4
1.6 1.8
N50
2.2
1.2
500 simulaciones
1.4
1.6
N100
1.8
500 simulaciones
40
30
10
5
1.5
1.6
N500
500 simulaciones
1.7
0
1.4
20
Density
10
Density
6
4
2
0
Density
15
10
20
1.45
1.5
1.55
N1000
500 simulaciones
1.6
1.46
1.48
1.5
N5000
500 simulaciones
1.52
1.54
La importancia del Teorema Central del Lmite es que nos permite hacer inferencia sobre los
parmetros poblacionales, a travs de las estadsticas calculadas a partir de la muestra y sin
necesidad de conocer la distribucin de probabilidad que dio origen a la poblacin.
Por ejemplo, segn los datos de la encuesta CASEN 2009 el ingreso autnomo per-cpita es de
$147,388; y la desviacin estndar $239,435.4. Supongamos que estos son los valores
poblacionales de la media y la desviacin estndar, es decir:
Con esta informacin y utilizando el Teorema Central del Lmite, podemos calcular la probabilidad
de que el ingreso autnomo per-cpita promedio sea, por ejemplo, menor a $147,000.
Por el Teorema Central del lmite se tiene que:
Por lo cual, la probabilidad de que el ingreso autnomo per-cpita sea menor a $147,000 es
equivalente a:
Luego se obtiene que la probabilidad de que el ingreso autnomo per-cpita sea menor a
$147,000 es:
Hay situaciones en las que el Teorema Central del Lmite no ser til:
Cuando el estadstico de anlisis no es la media muestral. El TCL nos dice que la media
muestral tiende a una distribucin normal cuando la muestra es lo suficientemente
grande. Sin embargo, no es aplicable cuando nuestro estadstico de inters es por ejemplo
la mediana o algn otro percentil.
El TCL requiere que la muestra sea lo suficientemente grande para que la media muestral
tienda a una distribucin normal, si la muestra con la que estamos trabajando es pequea,
no se cumplir el TCL.
Para poder determinar la probabilidad de que una variable sea menor o mayor a cierto valor,
cuando no se cumple el TCL podemos utilizar el mtodo de simulacin Bootstrap.
El mtodo de Bootstrap consiste en tomar una cantidad de seudo-muestras aleatorias de la
muestra observada, y para cada una las seudo-muestras obtener el estadstico de inters (media,
mediana, percentil, etc.). Luego, se tendr una cantidad suficiente de valor del estadstico en de
distintas seudo-muestras que permitir calcular la probabilidad de que el estadstico sea menor o
mayor a cierto valor. Luego, se tendr una cantidad suficiente de valor del estadstico en de
distintas seudo-muestras que permitir calcular la probabilidad de que el estadstico sea menor o
mayor a cierto valor.
use "casen2009.dta", clear
egen hogarid=group(seg f)
g s=1 if pco1!=14
replace s=0 if pco1==14
egen n=sum(s), by(hogarid)
gen yauthpc=yauthaj/n
keep yauthpc
save "Bootstrap.dta", replace
matrix B=J(500,1,0)
local i=1
while `i'<=500{
Nmero de simulaciones
use "Bootstrap.dta", clear
bsample 246924
qui sum yauthpc
matrix B[`i',1]=r(mean)
local i=`i'+1
}
clear
svmat B
Luego de ejecutar estos comandos se tiene una base de datos con 500 observaciones y los valores
de la media muestral de cada una de las seudo-muestras (de tamao 246,924) en las filas.
Podemos contar cuantas de las 500 observaciones son menores a $147,000, y comparar con el
resultado que se obtena asumiendo la distribucin normal:
Se obtiene que en 105 de las 500 simulaciones el ingreso autnomo per-cpita es menor
$147,000, lo que equivale a 21%, practicamente identico al que se obtenia asumiendo normalidad.
El grfico 23 nos muestra el histograma de las 500 simulaciones de medias muestrales del ingreso
autnomo per-cpita. Y la tabla siguiente las estadsticas descriptivas de estas variables.
El Bootstrap en general es costoso en tiempo ya que requiere repetir el proceso en cada
simulacin, dos aspectos son claves en cuanto tiempo va a tomar la simulacin:
La Tabla 5 muestra los resultados para este mismo problema, con diferentes tamaos muestrales
para 500 y 1000 simulaciones. Podemos apreciar que no existe gran diferencia en cuanto a la
cantidad de simulaciones, pero si es clave la cantidad de observaciones en cada seudo-muestra.
Grfico 23
.05
Fraction
.1
.15
146000
147000
148000
149000
B1
Tabla 5
Resultado Bootstrap para diferentes tamaos muestrales y cantidad de simulaciones
N=10,000 N=50,000 N=100,000 N=246,924
500
1000
0.452
0.434
0.356
0.357
0.276
0.339
0.21
0.192
Estimador
Un estimador corresponde al mtodo o frmula a travs del cual aproximamos un parmetro
poblacional a partir de una muestra.
Por ejemplo, la media muestral de una variable:
De esta forma, podemos decir que un estimador de los aos de escolaridad en la zona rural es
7.64.
Propiedades de un Estimador
Hay estimadores que son mejores que otros, lo que se puede evaluar segn las propiedades
deseables para los estimadores
Insesgamiento
Un estimador se dice insesgado cuando el valor esperado del estimador es igual al parmetro
poblacional. Es decir, si obtuviramos infinitas muestras de una poblacin, y para cada una de ellas
calculamos el estimador, por ejemplo, la media muestral, si el promedio de estos estimadores es
igual a la media poblacional, se dir que el estimador es insesgado.
Eficiencia
Un estimador se dice que es eficiente cuando la varianza es lo ms pequeo posible. Nuevamente,
si tomamos infinitas muestras y para cada una de ellas calculamos el valor del estimador,
queremos que la desviacin estndar de estos estimadores sea la menor posible.
Consistencia
Un estimador es consistente cuando al aumentar el tamao muestral se tiene casi certeza que el
estimador se aproxima bastante al verdadero valor del parmetro poblacional.
Estimador de la varianza
Para poder obtener el error estndar debemos utilizar la varianza poblacional de la variable, para
esto utilizaremos un estimador de la varianza poblacional insesgado, eficiente, y consistente que
estar dado por:
Por ejemplo, si queremos estimar la proporcin de la poblacin que pertenece al sistema pblico
de salud a partir de una muestra, un estimador insesgado, eficiente y consistente es la proporcin
muestral.
Sea,
Intervalos de Confianza
Los estimadores presentados nos entregan informacin importante para poder tomar decisiones,
sin embargo, dado que estos son estimadores o aproximaciones muestrales de parmetros
poblacionales existe cierta incertidumbre o posibilidad de error en las estimaciones. Es decir, no
podemos afirmar con 100% de seguridad que la media del ingreso es cierto valor o que el
porcentaje de personas que cotiza en FONASA es otra valor. Pero si podemos decir con un 95% de
seguridad (o 90% o 99%), esto se conoce como nivel de confianza, que el ingreso promedio se
encuentra en cierto rango de valores, y el valor poblacional est contenido en l.
El intervalo de confianza nos indica el rango de valores (creado a partir de los datos muestrales)
entre los cuales el parmetro poblacional est incluido con cierta probabilidad. La probabilidad de
que el parmetro poblacional este en este intervalo de valores se conoce como el nivel de
confianza.
Adems, sabemos por el Teorema Central del Lmite que independiente de cul sea la distribucin
de probabilidad de X, su media muestral tendr una distribucin normal:
Entonces, sabemos que la media muestral estandarizada se distribuye normal, y que est centrada
en cero, por lo cual con alta probabilidad la media muestral estandarizada estar en torno a cero.
Queremos determinar algn valor lmite para poder decir que estamos lejos de la media de la
distribucin, por ejemplo, podemos decir que los valor que estn en el 5% ms lejos son son
valores probables para la media muestral estandarizada. A partir de esto se define el intervalo de
confianza con un 95% de nivel de confianza o 5% de nivel de significancia:
Donde Z0.025 corresponde al valor de la distribucin normal estndar bajo el cual se acumula un
2.5% de probabilidad, y Z0.975 corresponde al valor de la distribucin normal estndar que acumula
un 97.5% de probabilidad a la izquierda. Estos valores pueden ser obtenidos de una tabla de la
distribucin normal estndar disponible en cualquier libro de estadstica o a travs de STATA
mediante los siguientes comandos:
Figura 12
Distribucin Normal Estndar
Por lo tanto,
De esta manera, el intervalo de confianza nos indica que con un 95% de seguridad la media
poblacional est entre:
Nuevamente, los valores de la distribucin t-student los podemos obtener de las tablas de la
distribucin o de STATA, a continuacin se presentan los valores para diferentes tamaos
muestrales:
Podemos apreciar que a mayor tamao muestral se aproxima bastante a los valores de la
distribucin normal.
Por ejemplo, podemos calcular el intervalo de confianza del ingreso autnomo per-cpita
utilizando la encuesta CASEN 2009:
Entonces podemos decir con un 95% de confianza que el ingreso autnomo per-cpita esta entre
$146,444 y $148,333.
Esto se puede obtener directamente e STATA a travs del comando para obtener intervalo de
confianza de una media:
Por defecto entrega el intervalo de confianza al 95%, pero eso puede ser modificado:
Para obtener el intervalo de confianza estamos imponiendo que se cumple el Teorema Central del
Lmite, es decir, que la media muestral sigue una distribucin normal. Si este supuesto no se
cumple el clculo del intervalo confianza antes planteado no es vlido. En este caso se puede
utilizar Bootstrap para obtener el intervalo de confianza:
bootstrap "sum
Test de Hiptesis
Qu es una hiptesis?
Una hiptesis es una declaracin sobre un parmetro poblacional, luego con la informacin
muestral podremos decir si la afirmacin es estadsticamente vlida o no. Obviamente al trabajar
con una muestra esta conclusin tendr cierto nivel de error o alternativamente cierto nivel de
confianza.
Por ejemplo, podemos querer testear si la tasa de participacin de mujeres con hijos es un 30%,
esta hiptesis plantea una afirmacin sobre un parmetro poblacional, ahora con los datos
muestrales debemos encontrar la evidencia estadstica suficiente para rechazar o no esta
afirmacin. Otra posible hiptesis a testear es por ejemplo, que el ingreso promedio de los
pensionados es $230 mil. De esta forma, se nos pueden ocurrir diversas hiptesis sobre
parmetros poblacionales, para poder rechazar o no dichas hiptesis debemos contar con datos
muestrales que nos permitan ver si la hiptesis es estadsticamente vlida o no, con cierto error
dado que vamos a trabajar con una muestra.
Cmo se realiza un Test de hiptesis?
El procedimiento de testear o probar una hiptesis consiste en determinar si una hiptesis de un
parmetro poblacional es razonable a partir de los datos provenientes de una muestra y utilizando
la teora de probabilidades.
El resultado del Test de Hiptesis NUNCA nos permite afirmar que la hiptesis es verdadera, ya
que el parmetro poblacional es desconocido, pero si nos permite con cierta confianza o
significancia rechazar la hiptesis nula.
Paso 1: Establecer la hiptesis nula y alternativa
Lo primero que se debe hacer es definir la hiptesis a testear, la que se denomina Hiptesis Nula
(H0). La hiptesis nula es una afirmacin que no se rechaza a menos que la informacin de la
muestra ofrezca evidencia convincente de que esta es falsa.
Recuerde que si no rechazamos la hiptesis nula no implica que la aceptemos o que esta sea
verdadera, ya que para probarlo necesitaramos conocer el parmetro poblacional.
La hiptesis alternativa es la afirmacin que se acepta si los datos de la muestra no proporcionan
suficiente evidencia de que la hiptesis nula es falsa.
Paso 2: Seleccionar el nivel de significancia
El nivel de significancia () es la probabilidad de rechazar la hiptesis nula cuando esta es
verdadera, lo que se conoce como Error Tipo I. El Error Tipo II corresponde a aceptar la hiptesis
nula cuando esta es falsa.
Dado que sabemos, por TCL, que la media muestral tiene una distribucin normal, podemos
plantear el siguiente estadstico:
Todos los valores del estadstico pueden ser calculados a partir de la muestra, excepto que
justamente corresponde al valor del parmetro poblacional que estamos planteando en la
hiptesis nula.
Paso 4: Formular la regla de decisin
Se deben establecer las condiciones especficas en las que la hiptesis nula se rechaza. Notemos
que el estadstico est centrado en 0, valor que toma cuando se cumple al hiptesis nula, en la
medida que se aleja de cero ya sea porque este se hace muy grande o muy pequeo, es cada vez
menos probable que se cumpla la hiptesis nula. La zona de rechazo define los valores del
estadstico para los cuales la probabilidad de que se cumpla la hiptesis nula es remota.
Entonces debemos determinar el valor crtico del estadstico de manera que se acumule un 5% de
probabilidad en los valores extremos de la distribucin, 2.5% en la cola derecha y 2.5% en la cola
izquierda.
La Figura 13 muestra la zona de rechazo para el test de hiptesis antes planteado, desde - hasta
-1.96 se encuentra la zona de rechaz a la izquierda, y desde 1.96 a + la zona de rechazo a la
derecha.
Figura 13
Zona de rechazo Test de dos colas
En caso que la hiptesis alternativa sea que la media poblacional es menor a cierto valor,
rechazaremos la hiptesis nula a favor de la alternativa slo si el valor efectivamente es menor al
planteado, es decir , cuando el estadstico se vuelva muy negativo, por lo cual en este caso la zona
de rechazo completa se ubica en la cola izquierda de la distribucin, desde - a -1.64.
Figura 14
Zona de rechazo Test de una cola
Finalmente, la Figura 15 muestra la zona de rechazo en el caso que la hiptesis alternativa es que
la media poblacional es mayor a cierto valor, en este caso se rechazar la hiptesis nula de que es
igual a este valor slo si el valor de la media muestral est lo suficientemente por arriba del valor
planteado, y el valor del estadstico es positivo y lo suficientemente grande, as la zona de rechazo
completa se ubica en la cola derecha de la distribucin, de 1.64 a + .
Figura 15
Zona de rechazo Test de una cola
Luego, con esta informacin podemos construir el estadstico para el test sobre la media
poblacional, el que se basa en que la media muestral tiene una distribucin normal:
y -1.96, y 1.96 y + .
5) Dado que el valor del estadstico cae en la zona de rechazo de la cola izquierda, se puede
concluir que se rechaza la hiptesis nula de que la edad promedio de las mujeres que
trabajan es 45 aos, en favor de que es distinta.
p-value
En el procedimiento antes descrito necesitamos definir un nivel de significancia para determinar
las zonas en las cuales rechazaremos la hiptesis nula.
Por otra parte, el valor p nos entrega informacin adicional para determinar con que fuerza la
hiptesis nula es rechazada, es decir, con qu seguridad rechazamos H0.
El valor p es la probabilidad acumulada en las colas desde el valor negativo del estadstico a la
izquierda, y desde el valor positivo del estadstico a la derecha, en el caso de un test de dos colas.
1) H1: 0:
2) H1: 0:
3) H1: 0:
Por ejemplo, a continuacin realizaremos test para el salario por hora promedio:
use "casen2009.dta", clear
g horas=o16/7*30
g yhora=yopraj/horas
En el primero caso, donde se plantea como hiptesis nula que el ingreso promedio por hora es
$1,900, el valor calculado del estadstico es 1.12, si lo comparamos con el valor de de la
distribucin t al 5% de significancia (1.96), podemos concluir que no se puede rechazar la hiptesis
nula de que el ingreso por hora promedio es $1,900.
En este caso, si estamos planteando un test de dos colas el valor p es igual a:
Esto significa que el valor del estadstico calculado para esta hiptesis nula acumula un 26.3% de
probabilidad en las colas, claramente mayor al 5% de error tipo I que se est dispuesto a tolerar.
Si la hiptesis alternativa fuese que la media es mayor a 1900, el valor p estar dado por:
El valor p nos indica el nivel de significancia o error tipo I asociado al estadstico calculado, si este
es menor al 5% es porque nuestro estadstico estar en la zona de rechazo, por lo cual la regla de
oro para utilizar le p-value es:
El valor del estadstico calculado es 20.63 mayor al 1.96 que determina el valor crtico por
lo cual se rechaza la hiptesis nula.
Tambin podemos notar que el valor p es 0% menor al 5% de significancia por lo cual se
rechaza la hiptesis nula.
Una tercera forma de concluir sobre la hiptesis nula es notando que el intervalo de
confianza (valor ms probables) no contiene el valor 0.5.
Para plantear el estadstico en funcin de los indicadores muestrales, tomamos como punto de
partida que la diferencia de medias muestrales tambin se distribuye normal con media igual a la
diferencia de medias poblacionales, y con varianza:
El comando ttest y prtest de STATA pueden ser utilizados con la opcin by() para realizar el
test de diferencia de medias y diferencias de proporciones.
El siguiente output nos muestra el resultado para el test de diferencias de media de ingreso por
hora entre hombres y mujeres, notemos que la hiptesis nula es que el ingreso promedio de los
hombres menos el ingreso promedio de las mujeres es igual a cero. En trminos muestrales, el
ingreso promedio de los hombres es $2,007 y el ingreso promedio de las mujeres $1,741, la
diferencia es de $265.8. El error estndar de la diferencia es 27.9. De esta forma, se obtiene un
valor calculado del estadstico de 9.5358 lo que nos permite rechazar al 5% (ya que es mayor que
1.96) que el ingreso promedio de los hombres es igual al ingreso promedio de las mujeres (o que
la diferencia es cero). Esto tambin se puede concluir notando que el valor p es menor a 0.05 (5%)
El siguiente output nos muestra el resultado para testear la hiptesis nula de que la proporcin de
hombres que cotiza en el sistema de pensiones es igual a la proporcin de mujeres que cotiza.
Tenemos que el valor calculado del estadstico es 1.74 levemente inferior a 1.96, por lo cual al 5%
de significancia no podemos rechazar la hiptesis nula de que las proporciones son iguales, lo
vemos tambin porque el p-value es mayor a 0.05 y el cero est contenido en el intervalo de
confianza.
El resultado nos muestra que con un 95% de confianza el ingreso por hora promedio poblacional
se encuentra entre 1889.4 y 1946.9, con lo cual no podemos rechazar la hiptesis nula de que es
igual a 1900, antes testeada, y si podemos rechazar que es igual a 2100.
El resultado del bootstrap nos muestra que la diferencia entre el ingreso por hora medio de los
hombres y el ingreso por hora medio de las mujeres se encuentra con un 95% de confianza entre
209.6 y 310.5. Con lo cual al testear la hiptesis nula de que la diferencia de medias es cero, se
rechaza la hiptesis nula
La siguiente tabla nos muestra el resultado del bootstrap, encontrando que la diferencia de
ingreso por hora mediano entre hombres y mujeres se encuentra con un 95% de confianza entre
114.5925 y 114.5927, por lo cual tambin se rechaza que la diferencia de medianas sea igual a
cero.
Afecta la salud fsica los resultados que obtienen los individuos en el mercado del
trabajo?
Disminuye el empleo cuando el salario mnimo se incrementa?
Disminuye la desigualdad de ingresos cuando aumenta la participacin laboral femenina?
Ms especficamente, si la salud fsica es una variable aleatoria (X) y salario laboral es otra variable
aleatoria (Y), cada una tiene su propia distribucin de probabilidad, lo que se denomina
distribucin de probabilidad marginal, luego debemos determinar la funcin de probabilidad
conjunta y condicional para estudiar si las variables aleatorias X e Y son independientes o no.
La funcin de probabilidad conjunta de dos variables aleatorias X e Y indica la probabilidad de que
las dos variables tomen ciertos valores de manera simultnea. Las probabilidades de todas las
posibles combinaciones (x,y) deben sumar 1. La funcin de probabilidad conjunta se denota de la
siguiente manera:
Pr[X=x]
2/3
1/3
Suponga ahora que tiene otra variable aleatoria binaria Y que toma valor 1 si el profesor naci el
primer trimestre del ao, y 0 si nacieron los trimestres 2, 3, o 4. Entonces, la funcin de
probabilidad marginal de Y es:
Pr[Y=y]
3/4
1/4
y=0
y=1
x=0
6/12
2/12
x=1
3/12
1/12
y=0
y=1
x=0
6/12
2/12
2/3
x=1
3/12
1/12
1/3
3/4
1/4
Tambin podemos notar del cuadro anterior que cualquiera de las probabilidades conjuntas puede
ser obtenida simplemente multiplicando las probabilidades marginales:
z=0
z=1
x=0
7/12
1/12
2/3
x=1
1/12
3/12
1/3
2/3
1/3
De esta forma, se concluye que la certificacin del profesor y la dependencia del colegio al cual
pertenece no son variables independientes.
Test de Independencia 2
Si tenemos dos variables aleatorias podemos realizar un test de independencia para ver si
empricamente las variables se comportan como si fuesen independientes.
Este test se basa en que bajo la hiptesis nula de independencia de las variables la multiplicacin
de las probabilidades marginales debera ser igual a la probabilidad conjunta.
Supongamos que X e Y, dos variables aleatorias, pueden tomar dos valores respectivamente. Y se
tiene que:
Luego podemos calcular cada uno de los cuatro trminos en la sumatoria del estadstico:
Y=0, X=0:
Y=1, X=0:
Y=0, X=1:
Y=1,X=1
Como el valor del estadstico calculado es menor a 3.84 no se puede rechazar la hiptesis nula de
independencia entre certificacin del profesor y fecha de nacimiento, tambin se puede concluir
estos notando que el valor p es mayor a 0.05 (5%).
La siguiente tabla muestra el test de independencia entre las variables aleatorias X y Z:
El valor del estadstico es mayor al valor crtico, o el p-value es menor a 0.05, con lo cual se
rechaza la hiptesis nula de que certificacin del profesor y dependencia del colegio sean variables
independientes.
y=0
y=1
x=0
6/12
2/12
2/3
x=1
3/12
1/12
1/3
3/4
1/4
Notemos que la probabilidad de que un docente se certifique condicional en que naci el primer
trimestre es igual a la probabilidad incondicional (o marginal) de que un docente se certifique,
esto se cumple porque las dos variables son independientes.
z=0
z=1
x=0
7/12
1/12
2/3
x=1
1/12
3/12
1/3
2/3
1/3
Covarianza y Correlacin
La covarianza entre dos variables aleatorias muestra el grado en que estas dos variables se
mueven de manera conjunta. La covarianza entre dos variables aleatorias X e Y es igual a:
La covarianza entre las dos variables ser positiva si cuando X est por sobre la media Y tambin
tiende a estar pos sobre la media, y la covarianza ser negativa si cuando X est por sobre la
media Y tiende a estar bajo la media. Cuando las dos variables son independientes la covarianza
ser igual a cero.
El comando correlate con la opcin c de STATA calcula las covarianza en el listado de
variables sealado.
En este caso nos muestra que la covarianza entre X e Y es positiva e igual a 0.011, y la covarianza
entre X y Z es positiva tambin e igual a 0.069. Finalmente, la covarianza entre Z e Y es negativa e
igual a -0.005873.
Pero cmo podemos interpretar el valor de la covarianza?
Si nos fijamos la definicin de covarianza estar multiplica los desvos de X con respecto a su media
por los desvos de Y con respecto a su media, por lo cual, est en unidades de X multiplicado por
unidades de Y lo que no tiene ninguna interpretacin.
Una medida estandarizada de dependencia entre dos variables aleatorias es el Coeficiente de
Correlacin el que elimina el problema de las unidades en la variable dividiendo la covarianza por
la desviacin estndar de X y por l desviacin estndar de Y.
Esta medida tomar valores entre -1 y 1, donde -1 indica dependencia negativa perfecta entre las
dos variables, 1 indica dependencia positiva perfecta entre las dos variables, y 0 indica que son
independientes.
Con el comando correlate de STATA podemos obtener el coeficiente de correlacin entre un
listado de variables:
Los resultados nos muestran un coeficiente de correlacin positivo del orden de 0.28 entre los
aos de escolaridad y el salario. Sin embargo, al ser obtenido de una muestra podemos
preguntarnos si este valor es estadsticamente diferente de cero o no.
En este caso, se rechaza la hiptesis nula de que el coeficiente de correlacin entre aos de
escolaridad y salario sea igual a cero.
La siguiente tabla nos muestra, utilizando la misma Encuesta CASEN 2009, correlaciones entre un
listado de variables:
Finalmente, debemos tener presente que el coeficiente de correlacin mide asociacin lineal entre
las variables, por lo cual si existe una relacin pero no lineal esta no ser detectada por el
coeficiente de correlacin.
Test de Normalidad
Hasta ahora para estudiar la normalidad de una variable lo hemos realizado por simple inspeccin
grfica o viendo que los coeficientes de asimetra y kurtosis sean cercanos a los valores que
caracterizan una distribucin normal, 0 y 3 respectivamente.
Podemos plantear ms formalmente un test que tenga como hiptesis nula:
Esta hiptesis testea conjuntamente que asimetra es cero y kurtosis es igual a 3, es decir, la
hiptesis nula es que la variable es normal.
Tenemos la variable X, con las siguientes estadsticas descriptivas:
.4
0
.2
Density
.6
.8
2
x
Sin embargo, necesitamos saber si estadsticamente la asimetra es cero y la kurtosis es 3, para eso
realizaremos un test de hiptesis que tenga como hiptesis nula la normalidad de la variable:
El primer valor p que muestra es sobre la hiptesis nula de que la asimetra (skewness) es igual a
cero, dado que el valor p es mayor a 0.05 no se puede rechazar la hiptesis nula de que la
asimetra de la variable X es cero. El segundo valor p es sobre la hiptesis nula de que la kurtosis es
igual a 3, dado que el valor p es mayor a 0.05 no se puede rechazar la hiptesis nula de que la
kurtosis es igual a 3. Finalmente, el tercer valor p presentado corresponde a lo que estrictamente
se conoce como test de normalidad, ya que testea conjuntamente que ambas condiciones se
cumplen. En este caso el valor p es mayor a 0.05 por lo cual no se puede rechazar la hiptesis nula
de normalidad de la variable X.
.01
0
.005
Density
.015
.02
El siguiente grfico nos muestra la distribucin de la edad segn los datos de la Encuesta CASEN
2009:
20
40
60
r3: edad
80
100
Grficamente se aprecia una fuerte relacin positiva entre estas dos variables, en efecto el
coeficiente de correlacin es 0.94:
El siguiente grfico nos muestra la relacin entre la tasa de mortalidad infantil y la tasa de
alfabetizacin de las mujeres:
Podemos apreciar que existe una fuerte relacin negativa entre la tasa de alfabetizacin y la tasa
de mortalidad, es decir, en pases con mayor alfabetizacin de las mujeres tienden a tener menor
tasa de mortalidad infantil. El coeficiente de correlacin entre estas dos variables es -0.81.
Si bien la correlacin entre las variables nos indica dependencia entre ellas, ya sea positiva en el
primer ejemplo o negativa en el segundo, no nos indica alguna causalidad de la relacin entre las
variables.
En la mayora de los problemas econmicos y de evaluacin de polticas pblicas el inters est en
estudiar el efecto causal que tiene una o ms variables sobre alguna variable de inters (variable
de resultado).
El concepto ceteris paribus (todo lo dems constante) juega un rol fundamental en determinar el
efecto causal, ya que generalmente habr una serie de variables que afectan el comportamiento
de nuestra variable de inters y debemos ser capaces de controlar por todas ellas para poder aislar
e identificar de manera correcta el efecto de una o ms variables particulares que nos interesen
sobre la variable de inters.
Por ejemplo, si estamos interesados en determinar el efecto de una semana adicional de
capacitacin sobre la productividad de los trabajadores (lo que se ver reflejado en su salario)
debemos considerar los otros factores que pueden afectar la productividad del trabajador como
educacin y experiencia, es decir, debemos preguntarnos cul es el efecto de una semana
adicional de capacitacin dado un nivel de escolaridad y un nivel de experiencia.
Suponga que nos interesa estudiar en el rendimiento de los alumnos, medido a travs del puntaje
SIMCE, de reducir el tamao del curso (o alumnos por profesor) en 2. Luego queremos encontrar
una relacin entre Simce y TamaoCurso, donde significa cambio. Entonces queremos
determinar cunto cambia el puntaje de Simce en relacin a cuanto est cambiando el tamao del
curso, vale decir:
mide cuanto cambia el puntaje del simce por cada cambio en tamao de curso, por ejemplo, si
beta es -5.7 se puede interpretar que un aumento en 1 alumno el tamao del curso disminuye el
puntaje de SIMCE en 5.7 puntos:
Notemos que b corresponde a la pendiente de una recta que relaciona el puntaje en el SIMCE con
el tamao del curso:
Las observaciones que tengamos en nuestra muestra de datos nos permitirn obtener
estimadores para los parmetros poblacionales desconocidos: y , y de esta forma obtener un
estimador para la media condicional:
Entonces, la distancia que hay entre la observacin puntual de Yi y el valor en la recta de regresin
(o media condicional) es el error de regresin:
La diferencia entre el valor estimado de la media y el valor observado de Yi ser el error estimado:
corresponden a los
Notemos que nosotros dispondremos de una de las infinitas muestras que pueden ser obtenidas
de una poblacin, y para esta muestra obtendremos los estimadores de los parmetros
poblacionales. Si hubisemos tenido acceso a otra muestra el estimador sera diferente, en efecto,
podemos construir una distribucin (terica) para los estimadores.
La pregunta ahora es Cul ser un buen estimador para estos parmetros?
Ser insesgado
Ser eficiente
Ser consistente
Bajo ciertos supuestos el estimador de Mnimos Cuadrados Ordinario (MCO) cumplir con todas
estas propiedades.
3) Las variables explicativas sean exgenas o no correlacionadas con el error del modelo
El supuesto 3 es clave para la identificacin correcta del efecto causal que tiene X sobre Y, es decir,
la identificacin correcta de . Notemos que si existe correlacin entre X y u, al cambiar X tambin
se mover u, y no sabremos de donde proviene el cambio observado en Y.
Los supuestos 2, 4, y 5 se resumen en que el error es independiente e idnticamente distribuido
con media cero y varianza constante 2:
La regresin lineal por MCO en STATA sea hace a travs del comando regress:
Esto se interpreta que un aumento marginal (de un alumno) en la cantidad de alumnos por curso
disminuye en 2.3 puntos el puntaje en la prueba estandarizada. Note que el resultado se ve
siempre enunciando un cambio marginal en la variable explicativa (un alumno, un ao, un peso,
etc), y el coeficiente estimado esta en unidades de la variable dependiente, en este caso puntaje.
Ejemplos
La siguiente regresin muestra cual es el efecto marginal que tiene un ao adicional de escolaridad
sobre el salario por hora:
Se estima con esta muestra que un ao ms de escolaridad aumenta en salario por hora en
promedio 161.5 pesos.
Muchas veces las variables monetarias se miden en logaritmo, por ejemplo, logaritmo del salario
por hora. Esto se hace por dos razones: cuando la variable esta en logaritmo el cambio marginal es
un cambio porcentual:
En este caso el coeficiente estimado para el parmetro que acompaa los aos de escolaridad es
igual a:
Se obtiene que una ao ms de escolaridad aumenta el salario por hora en 213.5 pesos en
promedio, dado un nivel edad edad, y se obtiene que un ao ms de edad aumenta el salario por
hora promedio en 42.7 pesos dado cierto nivel de escolaridad. Recordemos que lo que estudia el
anlisis de regresin son los efectos marginales de variables explicativas sobre la esperanza
condicional de la variable dependiente.
Inferencia
Recordemos que el estimador es la aproximacin del parmetro poblacional desconocido, en el
modelo de regresin lineal los parmetros poblacionales desconocidos son los coeficientes que
acompaan a las variables explicativas ms el intercepto (o constante).
Dado que el estimador se obtiene de una muestra, el estimador de por s es una variable aleatoria
que tiene una distribucin de probabilidad, con cierta media y cierta varianza.
Recordemos que el estimador MCO de en el modelo:
Recuerde que el estimador MCO es eficiente por lo cual tiene la mnima varianza dentro de todos
los posibles estimadores lineales e insesgados, sin embargo, podemos ver que esta varianza (aun
siendo eficiente) ser mayor mientras mayor sea la varianza del error, y menor mientras mayor
sea la varianza de las variables explicativas.
Notemos que hasta ahora, para decir que MCO es insesgado, eficiente y consistente, no hemos
necesitado el supuesto de normalidad del error. Sin embargo, para hacer inferencia se necesita
hacer este supuesto de normalidad:
Esto tambin lo podemos concluir notando que el valor p asociado a este estadstico es menor a
0.05, o notando que el cero no pertenece al intervalo de confianza.
Test de Normalidad del error
El supuesto clave para poder concluir directamente la significancia de las variables explicativas (a
travs de la significancia de los parmetros que la acompaan) mediante los valores entregados
por el output de STATA es que el error del modelo se distribuye normal, si este supuesto no se
cumple, el estadstico no tiene una distribucin conocida y se debe utilizar el mtodo de bootstrap
para obtener los intervalos de confianza.
Podemos testear la normalidad de los errores. Una vez estimado el modelo se pueden obtener los
errores estimados:
En STATA:
Bondad de Ajuste
Una medida de bondad de ajuste nos dice como evaluar el poder explicativo de nuestro modelo.
Una medida de bondad de ajuste es el R2, el que mide que fraccin de la varianza del la variable
dependiente o de inters esta siendo explicada por la varianza de las variables, y no por el error:
Donde ESS, es la suma de los cuadrados explicada, TSS es la suma de los cuadrados totales, y RSS
es la suma de los residuos al cuadrado:
Esta medida siempre estar entre cero y uno ya que es una proporcin, donde mientras ms
cercano a 1 mejor es el modelo, y mientras ms cercano a cero peor.
El R2 ajustado es una medida ms confiable en el sentido que penaliza el hecho de incorporar ms
variables que no pueden aportar mucho al modelo, y slo se incorporan para aumentar el R2.