Está en la página 1de 30

Centro de Microdatos

Anlisis de Datos
Magister en Polticas Pblicas
Javiera Vsquez

2011

Introduccin
La mayora de las decisiones en economa y polticas pblicas depender de cun bien podamos entender, las relaciones entre las variables que nos rodean. Al momento de disear una poltica pblica se debe tener una pregunta concreta en trminos cuantitativos sobre la o las variables que queremos afectar, y que instrumentos disponemos para afectar estas variables, es decir, necesitamos dar respuestas cuantitativas a preguntas cuantitativas, y adicionalmente, debemos tener clara cul es la causalidad de la relacin entre las variables. Por ejemplo, podemos querer dar respuesta a las siguientes preguntas: El cuidado prenatal lleva a tener hijos ms saludables? La Reforma Previsional, mejor la calidad de vida de los adultos mayores? EL programa de Subsidio a la Contratacin de Trabajadores Jvenes, incrementar la formalizacin del trabajo juvenil? Hay discriminacin por gnero en el mercado laboral?Hay discriminacin por apariencia fsica en el mercado laboral? Cul es el impacto de las restricciones a los fumadores sobre el hbito de fumar? Qu impacto ha tenido el programa Chile Crece Contigo? Existe mayor vulnerabilidad econmica en los hogares monoparentales? Cmo afecta la disponibilidad de salas cunas a la tasa de participacin femenina?

Para que los datos nos entreguen respuestas concretas y tiles a estas preguntas debemos aprender a trabajar con ellos, para esto es importante adquirir prctica en organizar la informacin y presentarla de manera informativa, entender la aleatoriedad y cuando lo que encontramos puede ser producto del azar, entender los conceptos de probabilidad y como estos pueden ser usados para interpretar la informacin emprica.

Datos Experimentales versus No Experimentales


El escenario ideal para estimar el efecto de un tratamiento o de una poltica es hacer cambios experimentales (controlados) sobre una variable y observar los cambios en la variable de inters. Adems para tener una base de comparacin necesitamos un grupo de control. Esto es lo que generalmente se hace en medicina para probar nuevas drogas y sus efectos, se tiene un grupo de tratamiento y un grupo de control con caractersticas similares, y slo a los del grupo de tratamiento se le entrega la droga y a los del grupo de control un placebo, luego podemos analizar simplemente comparando ambos grupos cuales son los efectos de la droga. En polticas pblicas la asignacin aleatoria de un tratamiento o poltica es algo bastante ms complejo, ya que una poltica es diseada para la poblacin o un grupo de ellas y a veces no es tico darle prioridad aleatoria a un grupo versus otro. Adems implementar un experimento en

polticas pblicas es mucho ms costoso porque requiere la implementacin del programa propiamente tal a una escala menor. De esta forma, en la mayora de los casos que estudiemos no disponemos de Datos Experimentales sino de Datos Observados o No Experimentales. Cuando los datos son de naturaleza experimental, el efecto causal de la poltica (o tratamiento) se puede obtener tomando la diferencia de promedios de la variable de resultados entre el grupo de tratamiento y control, por ejemplo, tomando el peso al nacer promedio de bebes de madres con cuidado prenatal y restndole el peso al nacer promedio de bebes de madres sin cuidado prenatal. Sin embargo, si los datos no son experimentales debemos utilizar tcnicas economtricas para estimar el efecto causal, estas herramientas se preocupan de aislar el efecto que otras variables, distintas al tratamiento, pueden tener sobre el resultado (outcome).

Tipos de Datos
Los datos que disponemos para trabajar pueden tener tres formatos: corte transversal, Series de Tiempo, y Datos de Panel (o Longitudinales).

Corte Transversal
Los datos de corte transversal se caracterizan por recopilar informacin para varias unidades en un momento del tiempo, las unidades pueden ser individuos, hogares, comunas, colegios, empresas, regiones, etc. Un ejemplo de datos de corte transversal en Chile es la Encuesta CASEN. La Figura 1 muestra un ejemplo de una base de corte transversal de pases, que muestra la tasa de mortalidad, expectativa de vida, y otras variables para el ao 2005.

Figura 1 Datos de tipo Corte Transversal

Series de Tiempo
Las series de tiempo representan observaciones para una sola unidad en varios momentos del tiempo, la frecuencia de los datos puede ser diaria, semanal, trimestral, anual, etc. Por ejemplo, del Banco Central de Chile podemos obtener las series de tiempo del Producto Interno Bruto (PIB), Indice de Precios al Consumidor (IPC), fuerza de trabajo, ocupados, etc. Ver Figura 2. Figura 2 Datos de tipo Serie de Tiempo

Datos de Panel o Longitudinales


Los datos longitudinales corresponden a observaciones de varias unidades en distintos momentos del tiempo, por ejemplo puedo tener los puntajes en SIMCE, PSU, nmero de alumnos, nmero de profesores, para varios colegios entre los aos 2000 y 2008. La ventaja de los datos de panel es que observamos la mima unidad en diferentes momentos del tiempo lo que nos permite estudiar la dinmica en el comportamiento de diversas variables.

La Figura 3 muestra un ejemplo de datos de panel, con observaciones de varios pases entre el ao 2004 y 2009. Figura 3 Datos de tipo Datos de Panel

Una primera inspeccin de los datos


Lo primero que debe hacer todo investigador que trabaja con una base de datos, ya sea de creacin propia o externa, antes de aplicar modelos estadsticos, es inspeccionar y explorar los datos de modo correcto. Qu debemos tener presente cuando inspeccionamos los datos? A qu nivel de agregacin queremos trabajar y presentar los datos: individuos, hogar, comunas, regiones, etc. Qu tipo de grfico me permite mostrar de manera clara y ordenada los resultados, incluso es relevante fijarse en las escalas de los ejes de los grficos que los haga comparable entre ellos, y relevantes para el anlisis. Seleccin correcta de la informacin que se mostrar, no siempre es preferible ms a menos, no es recomendable presentar muchos datos ni grficos, sino saber elegir los correctos.

Para revisar algunos conceptos relacionados con la inspeccin de los datos utilizaremos la Encuesta CASEN 2009 (http://www.mideplan.gob.cl/casen/index.html), especficamente trataremos de producir estadsticas descriptivas y grficos en STATA que nos permitan analizar la situacin de los ingresos, pobreza, y desigualdad en Chile. Para nuestro primer anlisis utilizaremos como medida el ingreso autnomo per-cpita del hogar1, el que puede ser generado a partir de la informacin disponible en la encuesta: use casen2009.dta, clear egen hogarid=group(segmento folio) g s=1 if pco1!=14 replace s=0 if pco1==14 egen n=sum(s), by(hogarid) gen yauthpc=yauthaj/n

El Ingreso Autmomo se define como aquel por concepto de sueldos y salarios, ganancias provenientes del trabajo independiente, autoprovisin de bienes producidos por el hogar, bonificaciones, gratificaciones, rentas, intereses, as como jubilaciones, pensiones, montepos y transferencias entre privados.

Distribucin Emprica
La distribucin emprica de una variable nos muestra que tan frecuente es que la variable tome un valor dentro de cierto intervalo. Grficamente la distribucin emprica de la variable se puede ver a travs de un histograma.
histogram yauthpc if yauthpc<1000000, percent fcolor(purple) ytitle(Porcentaje) xtitle(Ingreso Autnomo per-cpita del hogar) title(Ingreso Autnomo per-capita del hogar) subtitle(Distribucin Emprica) note(Fuente: Elaboracin propia en base a Encuesta CASEN 2009)

Grfico 1

Ingreso Autnomo per-capita del hogar


Distribucin Emprica
15 Porcentaje 0 5 10

200000 400000 600000 800000 Ingreso Autnomo per-cpita del hogar

1000000

Fuente: Elaboracin propia en base a Encuesta CASEN 2009

Un histograma nos muestra una serie de rectngulos, el ancho de estos rectngulos representa un intervalo de la variable para la cual estamos construyendo el histograma, en este caso ingreso, y la altura representa la proporcin de las observaciones que caen dentro de este intervalo. En este ejemplo, STATA automticamente escoge rectngulos con ancho 18849.16 para de esta forma generar 53 rectngulos de igual ancho:

Sin embargo, se puede elegir de que ancho se quieren los rectngulos o en cuntos rectngulos dividir el rango completo en el cual se mueve la variable de inters, teniendo en cuanta que

mientras ms anchos sean los rectngulos o menor cantidad ms tosco ser el histograma, y mientras ms angostos sean los rectngulos (mayor cantidad) ms fina ser la distribucin de la variable que podemos analizar con el histograma.
histogram yauthpc if yauthpc<1000000, width(50000) percent fcolor(purple) ytitle(Porcentaje) xtitle(Ingreso Autnomo per-cpita del hogar) title(Ingreso Autnomo per-capita del hogar) subtitle(Distribucin Emprica) note(Fuente: Elaboracin propia en base a Encuesta CASEN 2009)

Grfico 2

Ingreso Autnomo per-capita del hogar


Distribucin Emprica
30 Porcentaje 0 10 20

200000 400000 600000 800000 Ingreso Autnomo per-cpita del hogar

1000000

Fuente: Elaboracin propia en base a Encuesta CASEN 2009

En este grfico le pedimos a STATA que tome rectngulos de ancho 50,000 para hacer el histograma, por lo cual utiliza 20 barras para cubrir todo el rango de valores que toma la variable de inters. Por otra parte, podemos indicar que haga un histograma con 100 rectngulos, los que automticamente quedarn con ancho 10000:

histogram yauthpc if yauthpc<1000000, bin(100) percent fcolor(purple) ytitle(Porcentaje) xtitle(Ingreso Autnomo per-cpita del hogar) title(Ingreso Autnomo per-capita del hogar) subtitle(Distribucin Emprica) note(Fuente: Elaboracin propia en base a Encuesta CASEN 2009)

Grfico 3

Ingreso Autnomo per-capita del hogar


Distribucin Emprica
8 Porcentaje 0 2 4 6

200000 400000 600000 800000 Ingreso Autnomo per-cpita del hogar

1000000

Fuente: Elaboracin propia en base a Encuesta CASEN 2009

El histograma nos permite analizar la distribucin de la variable que estamos estudiando, en particular en el caso de ingreso autnomo per-cpita observamos que: Alrededor de un 20% de las personas (con ingresos per-cpita menor a 1 milln de pesos) tienen ingresos per-cpita menores a $200 mil pesos. A pesar de que la mayora de los individuos se encuentras a la izquierda de la distribucin, existe una cola larga a la derecha.

Estimacin Kernel de la Distribucin Emprica


Como se mencionaba mientras ms angosto son los rectngulos en el histograma ms fina es la estimacin de la distribucin de la variable que puede ser realizada, el caso extremo es cuando estos rectngulos se reducen a un solo punto2, esta estimacin de la funcin de densidad (distribucin) es conocida como Kernel. El siguiente grfico nos muestra la estimacin de la funcin de densidad del ingreso autnomo per-cpita, lo que nos permite apreciar de manera ms suave y continua la distribucin de las observaciones en el rango en el cual se mueve el ingreso autnomo per-cpita.
kdensity yauthpc if yauthpc<1000000, ytitle(Densidad) xtitle(Ingreso Autnomo per-cpita del hogar) title(Ingreso Autnomo per-capita del hogar) subtitle(Distribucin Emprica) note(Fuente: Elaboracin propia en base a Encuesta CASEN 2009)

Grfico 4

Densidad 2.000e-064.000e-066.000e-068.000e-06

Ingreso Autnomo per-capita del hogar


Distribucin Emprica

0
0

200000 400000 600000 800000 Ingreso Autnomo per-cpita del hogar

1000000

Fuente: Elaboracin propia en base a Encuesta CASEN 2009

Si bien la distribucin emprica de la variable nos permite caracterizar bastante bien la variable, es difcil utilizar esta distribucin para comparar dos o ms variables, para hacer comparacin
2

La estimacin de densidad Kernel consiste ajustar una distribucin normal en cada punto observado de datos, luego se une (suma ponderada) cada una de estas distribuciones normales.

necesitamos tener indicadores concretos que de alguna forma resuman lo que podemos ver grficamente con el histograma o kernel. Algunos de estos indicadores son las medidas de tendencia central y las medidas de dispersin.

Medidas de Tendencia Central


Las medidas de tendencia central, tal como lo dice su nombre hablan del punto medio de la distribucin. Una medida de tendencia central es la media aritmtica (o promedio), la que representa el punto de equilibrio de la distribucin:

Por ejemplo, el promedio entre los nmeros 1 y 9 es 5, ya que de esta manera se equilibra la distribucin de ellos, la distancia (en valor absoluto) entre 1 y 5 es la misma que la distancia entre 9 y 5. Veamos otro ejemplo, supongamos los siguientes nmeros: 1, 2, 3, 4, y 5. La media aritmtica de estos nmeros es 3, ya que de esta manera equilibramos la distribucin de estos nmeros. Notemos la segunda columna de la Tabla 1, la diferencia (en valor absoluto) entre 1 y la media (3) es 2, entre 2 y la media es 1, y entre 3 y la media es cero, estos tres valores son menores o iguales a la media, y la suma de su distancia con respecto a la media es 3. Por otra parte, los valores que estn sobre la media, tienen una diferencia de 1 con respecto a la media y 2 con respecto a la media, lo que tambin suma 3. De esta forma, vemos que la media es el nmero que logra equilibrar la distribucin de los nmeros observados. Tabla 1 Ejemplo media aritmtica Nmeros 1 2 3 4 5 Diferencia absoluta con respecto a la media 2 1 0 1 2 Suma antes y despus de la media

3 3

La Tabla 2 nos muestra otro ejemplo, en este caso tenemos 8 nmeros cuya media aritmtica es 26.75. Slo dos de los ocho nmeros estn sobre la media aritmtica y los restantes seis estn bajo la media, podemos ver que la suma de la diferencia absoluta de cada uno de los nmeros que

estn bajo la media con respecto a la media es exactamente igual a la suma de las diferencias absolutas de los nmeros que estn sobre la media. Tabla 2 Ejemplo media aritmtica Diferencia absoluta con respecto a la media 16.75 15.75 14.75 13.75 13.75 11.75 13.25 73.25 Suma antes y despus de la media

Nmeros 10 11 12 13 13 15 40 100

86.5 86.5

Veamos un caso an ms extremo, la Tabla 3 nos muestra un listado de 12 nmeros, los primeros 11 nmeros son bastante pequeos (menores o iguales a 1), pero el ltimo nmero es un nmero bastante grande, lo que hace que para equilibrar estos nmeros el promedio va a ser un nmero bastante ms grande que los primeros 11 nmeros, en efecto el promedio de estos 12 nmeros es 8.79, y 11 de los 12 nmeros estn bajo el promedio, mientras que 1 slo est sobre el promedio. Tabla 3 Ejemplo media aritmtica Diferencia absoluta con respecto a la media 8.79 8.69 8.59 8.49 8.39 8.29 8.19 8.09 7.99 7.89 7.79 91.21 Suma antes y despus de la media

Nmeros 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 100

91.21 91.21

Esto nos muestra algo importante que hay que tener presente cuando uno utiliza la media como una medida de tendencia central, esta medida es bastante sensible a valores extremos en la distribucin de nmeros. En el caso del ingreso autnomo per-cpita de la encuesta CASEN 2009, la media de esta variable es $130,992.7:

De las 244,511 observaciones, 162,504 (66.5%) estn bajo la media y 82,007 (33.5%) estn sobre la media. Otra medida de tendencia central es la mediana, la que corresponde al valor de la variable en la mitad de la distribucin, es decir, si ordenamos las observaciones de menor a mayor valor de la variable, la mediana es el valor de la observacin que est justo en la mitad, dejando la misma cantidad de observaciones a la derecha y a la izquierda de la mediana. La mediana es una medida de tendencia central ms robusta que la media, en el sentido que no es afectada por valores extremos. En el ejemplo de la Tabla 1 tenemos 5 nmeros, donde el nmero 3 corresponde al que est justo en la mitad de estos 5 nmeros, de esta forma la mediana es 3. En el ejemplo, de la Tabla 2 tenemos 8 nmeros, no existe un nico nmero que este en la mitad, en este caso tenemos que considerar los nmeros en la posicin 4 y 5 para calcular la mediana, como ambos nmeros son iguales a 13, la mediana de estos nmeros es 13. Finalmente, en la Tabla 3 tenemos 12 nmeros, nuevamente al ser un nmero par no existe un nico nmero en la mitad, tenemos que considerar los nmeros en la posicin 6 y 7 para calcular la mediana, la que corresponde al promedio de estos dos nmeros, 0.55. La mediana del ingreso autnomo per-cpita es $93,361.7, bastante menor a la media ya que esta medida no es sensible a los valores extremos, ingresos elevados. La mediana corresponde al percentil 50 y podemos calcular este valor en STATA a travs del comando summarize con la opcin detail.

Adicionalmente el grfico 5 muestra el histograma del ingreso autnomo per-cpita y los valores de la media y mediana.
histogram yauthpc if yauthpc<1000000, percent fcolor(purple) ytitle(Porcentaje) xtitle(Ingreso Autnomo per-cpita del hogar) title(Ingreso Autnomo per-capita del hogar) subtitle(Distribucin Emprica) note(Fuente: Elaboracin propia en base a Encuesta CASEN 2006) xline(130993, lcolor(cranberry)) xline(93362, lcolor(black))

Grfico 5

Ingreso Autnomo per-capita del hogar


Distribucin Emprica
15 Porcentaje 0 5 10

200000 400000 600000 800000 Ingreso Autnomo per-cpita del hogar

1000000

Fuente: Elaboracin propia en base a Encuesta CASEN 2006

Simetra de una distribucin


Se dice que una distribucin es simtrica con respecto a la media3 si existe el mismo nmero de valores a la derecha de la media que a la izquierda de la media, esto significa que el lado derecho de la distribucin es un espejo del lado izquierdo de la distribucin. Por ejemplo, la siguiente variable es simtrica en torno a su media que es igual a 3 Grfico 6 Histograma de variable simtrica en torno a la media
.4 Density 0
-3

.1

.2

.3

-2

-1

Para saber de manera ms objetiva si la variable es simtrica o no, y no simplemente utilizando la inspeccin grfica, podemos calcular el coeficiente de asimetra. Si este coeficiente es igual a cero se dice que la variable tiene una distribucin simtrica en torno a la media, en este ejemplo el coeficiente de asimetra es -0.0054. Si el coeficiente de asimetra es positivo la variable tiene una distribucin que concentra ms observaciones a lado izquierdo de la distribucin (bajo la media), por el contrario si el coeficiente de asimetra es negativo hay ms observaciones en el lado derecho de la distribucin (sobre la media).

La simetra se puede definir tambin con respecto a la mediana o cualquier otro punto de inters, por ejemplo, el punto ms alto de la distribucin.

El coeficiente de asimetra forma parte de los indicadores del comando summarize, detail de STATA. En el caso del ingreso autnomo per-cpita grficamente notbamos que era una variable asimtrica ya que tiene mayor cantidad de observaciones al lado izquierdo, en particular el coeficiente de asimetra de esta variable es 2.65. Figura 4 Asimetra positiva y negativa

Cuando la variable tiene un coeficiente de asimetra positivo o negativo, se dice que la variable es sesgada. En el caso de variables muy asimtricas como el ingreso, la transformacin logartmica de la variable puede lograr que la distribucin sea algo ms simtrica. Se debe tener presente el logaritmo de 0 no existe, por lo cual las observaciones que reportaban ingreso autnomo igual a cero quedarn con missing value en la variable transformada. El Grfico 7 nos muestra que sucede con el ingreso autnomo per-cpita al aplicar logaritmo.
g lyauthpc=ln(yauthpc) (8829 missing values generate) histogram yauthpc if yauthpc>0 & yauthpc<1000000, percent fcolor(purple) ytitle(Porcentaje) xtitle(Ingreso Autnomo per-cpita del hogar) title(Ingreso Autnomo per-capita) subtitle(Distribucin Emprica) note(Fuente: Elaboracin propia en base a Encuesta CASEN 2006) saving(nivel, replace) histogram lyauthpc if yauthpc<1000000, percent fcolor(purple) ytitle(Porcentaje) xtitle(Ingreso Autnomo per-cpita del hogar) title(Logaritmo Ingreso Autnomo per-capita) subtitle(Distribucin Emprica) note(Fuente: Elaboracin propia en base a Encuesta CASEN 2006) saving(log, replace) graph combine nivel.gph log.gph

Grfico 7
Ingreso Autnomo per-capita
Distribucin Emprica
15 10

Logaritmo Ingreso Autnomo per-capita


Distribucin Emprica

10

Porcentaje

Porcentaje

200000 400000 600000 800000 1000000 Ingreso Autnomo per-cpita del hogar

0
4

6 8 10 12 14 Ingreso Autnomo per-cpita del hogar

Fuente: Elaboracin propia en base a Encuesta CASEN 2006

Fuente: Elaboracin propia en base a Encuesta CASEN 2006

El coeficiente de asimetra de la variable en logaritmo es bastante ms pequeo:

Medidas de dispersin
Tal como dice su nombre las medidas de dispersin tienen que ver con que tan dispersas estn las observaciones, o que tan concentradas estn. Una medida de dispersin es la varianza (2): Varianza poblacional:

Varianza muestral:

La varianza corresponde el promedio de las desviaciones al cuadrado de cada observacin con respecto a la media de la variable. Notemos que nos interesan las desviaciones, razn por la cual se toma el valor al cuadrado, generando siempre un valor positivo, pero al estar al cuadrado la medida de dispersin le da ms peso a las observaciones ms distantes en el promedio. Otra consecuencia de que se midan las desviaciones al cuadrado es que la medida quedara expresada en el cuadrado de la unidad en la que medida la variable, lo cual dificulta bastante la interpretacin. Por esta razn usualmente se utiliza la desviacin estndar que consiste en tomar raz cuadrada de la varianza, por lo cual la medida de dispersin queda expresada en la misma unidad de la variable estudiada. Desviacin estndar muestral:

La desviacin estndar del ingreso autnomo per-cpita es de $130,662. El siguiente grfico nos muestra variables generadas aleatoriamente con distribucin normal con media 1, pero diferentes varianzas (desviaciones estndar).

clear set obs 10000 matrix matrix matrix matrix desv1=1 desv2=sqrt(2) desv3=sqrt(3) desv4=2 var1, var2, var3, var4, m(1) m(1) m(1) m(1) sd(desv1) sd(desv2) sd(desv3) sd(desv4) saving(var1, saving(var2, saving(var3, saving(var4,

drawnorm drawnorm drawnorm drawnorm

histogram var1, percent fcolor(purple) xtitle(media=1 varianza=1) replace) histogram var2, percent fcolor(purple) xtitle(media=1 varianza=2) replace) histogram var3, percent fcolor(purple) xtitle(media=1 varianza=3) replace) histogram var4, percent fcolor(purple) xtitle(media=1 varianza=4) replace) graph combine var1.gph var2.gph var3.gph var4.gph, xcommon

Grfico 8

Percent

Percent

-10

-5

0 5 media=1 varianza=1

10

0
-10

-5 0 5 media=1 varianza=2

10

Percent

Percent

-10

-5

0 5 media=1 varianza=3

10

0
-10

-5 0 5 media=1 varianza=4

10

Otra medida de dispersin utilizada es el rango inter-cuartil, el que se define como la distancia en unidades de la variable entre el percentil 75 y el percentil 25:

El rango inter-cuartil del ingreso autnomo per-cpita es $107,185 lo que indica que la diferencia en ingreso autnomo entre la persona que est en el 75% de mayores ingresos y la persona que est en el 25% de menos ingresos es $107,185. El problema de estas tres medidas de dispersin; varianza, desviacin estndar, y rango intercuartil; es que estn en la escala de la variable que estamos midiendo su dispersin, por lo cual no nos permite comparar variables con diferentes escalas, no es una medida estandarizada. Una medida de dispersin estandarizada y que nos permite comparar variables de distinta naturaleza es el coeficiente de variacin (cv):

Por ejemplo, el coeficiente de variacin del ingreso autnomo es casi igual a uno, indicando que la desviacin estndar es igual a la media de la variable, sin embargo, al aplicar la transformacin logartmica de la variable la dispersin de reduce bastante la desviacin estndar de la variable transformada es igual a 0.08 veces la media. Un grfico que nos permite ver de manera simultnea la dispersin de la variable como su tendencia central es el Box plot.
graph box yauthpc if yauthpc>0 & yauthpc<1000000

Grfico 9
1.0e+06 yauthpc 200000 400000 600000 800000

La lnea dentro de la caja corresponde a la mediana de la variable (medida de tendencia central), la parte superior de la caja representa el percentil 75 y la parte baja de la caja el percentil 25, por lo cual la altura de la caja representa el rango inter-cuartil (medida de dispersin). La lnea que esta por sobre la caja define la cantidad de valores extremos en la variable, todas las observaciones sobre esta lnea son valores extremos o outliers. Esta lnea se est definida por el percentil 75 ms 1.5 veces el rango inter-cuartil, de manera equivalente la lnea que est bajo la casa corresponde al percentil 25 menos 1.5 veces el rango inter-cuartil.

Medidas de desigualdad
Para definir si una persona es indigente, pobre no indigente, o no pobre se utiliza la lnea de indigencia y pobreza definida segn el consumo de una canasta bsica por MIDEPLAN. Para el ao 2009 se tienen los siguientes valores de lnea de indigencia y pobreza: Tabla 4 Lnea de indigencia Urbana 32,067 Rural 24,710 Lnea de pobreza Urbana 64,134 Rural 43,242

Para definir si un individuo tiene un ingreso bajo o sobre la lnea de pobreza o indigencia, se calcula su ingreso per-cpita del hogar, tomando el ingreso total del hogar y dividindolo por el nmero de personas en el hogar, excluyendo el servicio domstico. Los ingresos totales del hogar se pueden dividir en: Ingreso autnomo del hogar o Ingresos laborales o Otras fuentes de ingresos (rentas, pensiones, etc.) Ingresos por subsidios monetarios Alquiler imputado

Dos medidas de desigualdad ampliamente utilizadas son la razn entre el ltimo y primer quintil, y la razn entre el ltimo y primer decil. A continuacin tomaremos las diferentes medidas de ingreso para analizar las medidas de tendencia central, dispersin, y desigualdad.
**Ingreso total per-cpita g ingpc=ytothaj/n ***Ingreso del trabajo del hogar**** g ytrab= ytrabhaj replace ytrab=. if ytrab==0 ***Ingreso Autonomo ditisntos del trabajo, del hogar*** g yaut2=yauthaj-ytrab replace yaut2=. if yaut2==0 ***Ingresos de subsidios del hogar*** g ysub=ysubhaj replace ysub=. if ysub==0 ***Alquiler imputado*** g alq=yaimhaj replace alq=. if alq==0

***Ingreso Autonomo Percapita del hogar*** g yaupc=yauthaj/n replace yaupc=. if yaupc==.

xtile xtile xtile xtile xtile xtile xtile xtile xtile xtile xtile xtile

quintil_trab=ytrab [w=expr] if o==1, nq(5) quintil_au2=yaut2 [w=expr] if o==1, nq(5) quintil_sub=ysub [w=expr] if o==1, nq(5) quintil_alq=alq [w=expr] if o==1, nq(5) quintil_aupc=yaupc [w=expr] if o==1, nq(5) quintil_totpc=ingpc [w=expr] if o==1, nq(5) decil_trab=ytrab [w=expr] if o==1, nq(10) decil_au2=yaut2 [w=expr] if o==1, nq(10) decil_sub=ysub [w=expr] if o==1, nq(10) decil_alq=alq [w=expr] if o==1, nq(10) decil_aupc=yaupc [w=expr] if o==1, nq(10) decil_totpc=ingpc [w=expr] if o==1, nq(10)

matrix MED=J(6,12,0) matrix colnames MED=Promedio DesvEstandar P25 P75 Quintil1 Quintil5 Decil1 Decil10 CV IQR D10/D1 Q5/Q1 matrix rownames MED=Trabajo otros_autonomos subsidios alquiler autonomo_pc total_pc sum ytrab [w=expr] if o==1, detail matrix MED[1,1]=r(mean) matrix MED[1,2]=r(sd) matrix MED[1,3]=r(p25) matrix MED[1,4]=r(p75) sum ytrab [w=expr] if o==1 & quintil_trab==1 matrix MED[1,5]=r(mean) sum ytrab [w=expr] if o==1 & quintil_trab==5 matrix MED[1,6]=r(mean) sum ytrab [w=expr] if o==1 & decil_trab==1 matrix MED[1,7]=r(mean) sum ytrab [w=expr] if o==1 & decil_trab==10 matrix MED[1,8]=r(mean) sum yaut2 [w=expr] if o==1, detail matrix MED[2,1]=r(mean) matrix MED[2,2]=r(sd) matrix MED[2,3]=r(p25) matrix MED[2,4]=r(p75)

sum yaut2 [w=expr] if o==1 & quintil_au2==1 matrix MED[2,5]=r(mean) sum yaut2 [w=expr] if o==1 & quintil_au2==5 matrix MED[2,6]=r(mean) sum yaut2 [w=expr] if o==1 & decil_au2==1 matrix MED[2,7]=r(mean) sum yaut2 [w=expr] if o==1 & decil_au2==10 matrix MED[2,8]=r(mean) sum ysub [w=expr] if o==1, detail matrix MED[3,1]=r(mean) matrix MED[3,2]=r(sd) matrix MED[3,3]=r(p25) matrix MED[3,4]=r(p75) sum ysub [w=expr] if o==1 & quintil_sub==1 matrix MED[3,5]=r(mean) sum ysub [w=expr] if o==1 & quintil_sub==5 matrix MED[3,6]=r(mean) sum ysub [w=expr] if o==1 & decil_sub==1 matrix MED[3,7]=r(mean) sum ysub [w=expr] if o==1 & decil_sub==10 matrix MED[3,8]=r(mean)

sum alq [w=expr] if o==1, detail matrix MED[4,1]=r(mean) matrix MED[4,2]=r(sd) matrix MED[4,3]=r(p25) matrix MED[4,4]=r(p75) sum alq [w=expr] if o==1 & quintil_alq==1 matrix MED[4,5]=r(mean) sum alq [w=expr] if o==1 & quintil_alq==5 matrix MED[4,6]=r(mean) sum alq [w=expr] if o==1 & decil_alq==1 matrix MED[4,7]=r(mean) sum alq [w=expr] if o==1 & decil_alq==10 matrix MED[4,8]=r(mean)

sum yaupc [w=expr] if o==1, detail matrix MED[5,1]=r(mean) matrix MED[5,2]=r(sd) matrix MED[5,3]=r(p25) matrix MED[5,4]=r(p75) sum yaupc [w=expr] if o==1 & quintil_aupc==1 matrix MED[5,5]=r(mean) sum yaupc [w=expr] if o==1 & quintil_aupc==5 matrix MED[5,6]=r(mean) sum yaupc [w=expr] if o==1 & decil_aupc==1 matrix MED[5,7]=r(mean) sum yaupc [w=expr] if o==1 & decil_aupc==10 matrix MED[5,8]=r(mean) sum ingpc [w=expr] if o==1, detail matrix MED[6,1]=r(mean) matrix MED[6,2]=r(sd) matrix MED[6,3]=r(p25) matrix MED[6,4]=r(p75) sum ingpc [w=expr] if o==1 & quintil_totpc==1 matrix MED[6,5]=r(mean) sum ingpc [w=expr] if o==1 & quintil_totpc==5 matrix MED[6,6]=r(mean) sum ingpc [w=expr] if o==1 & decil_totpc==1 matrix MED[6,7]=r(mean) sum ingpc [w=expr] if o==1 & decil_totpc==10 matrix MED[6,8]=r(mean) local i=1 while `i'<=6 { matrix matrix matrix matrix MED[`i',9]=MED[`i',2]/MED[`i',1] MED[`i',10]=MED[`i',4]-MED[`i',3] MED[`i',11]=MED[`i',8]/MED[`i',7] MED[`i',12]=MED[`i',6]/MED[`i',5]

local i=`i'+1 }

La razn de deciles y quintiles nos permiten estudiar la distribucin o desigualdad en las distintas medidas de ingresos propuestas. Por ejemplo, se tiene que los hogares del decil ms alto obtienen ingresos del trabajo que son en promedio ms de 37 veces los ingresos de las personas del decil ms bajo. Esto puede ser de alguna manera compensado (al menos en trminos relativos) con los subsidios, ya que la razn entre el Decil 90 y Decil 10 de subsidios monetarios es 45.5. Con respecto a la razn de quintiles, las personas que estn en el 20% de mayores ingresos del trabajo tienen ingresos por este tem promedio que son 16.2 veces los ingresos de trabajo de las personas que estn en el 20% inferior. En trminos de ingreso autnomo per-cpita la desigualdad de ingresos nos muestra que las personas del decil ms alto tienen un ingreso 78.7 veces el ingreso de las personas del decil ms bajo. En trminos de quintiles la razn (desigualdad) es menor, nos muestra que las personas en el quintil ms acomodado tiene un ingreso autnomo 24 veces el ingreso del primer quintil. Pero si nos concentramos en el ingreso total del hogar, el cual corresponde a los ingresos autnomos ms los subsidios monetarios y alquiler imputado, se tiene que la razn de deciles es poco menos de la mitad de la misma medida para el ingreso autnomo, y la razn de quintiles es 15.8. Otras dos medidas de desigualdad son la curva de Lorenz y el coeficiente de Gini. La Curva de Lorenz mide el porcentaje acumulado del ingreso (o de la variable que estemos analizando) en manos del porcentaje acumulado de la poblacin. La Figura 5 nos muestra la Curva de Lorenz en rojo, en el eje horizontal nos va mostrando la proporcin de la poblacin que va desde cero a 1, y en el eje vertical la proporcin del ingreso. Por ejemplo, esta curva nos muestra que un 60% de la poblacin acumula cerca del 30% de los ingresos. Mientras mayor curvatura tenga la curva de

lorenz mayor es la desigualdad, y mientras ms recta sea la curva menor es la desigualdad, en el extremo no existe desigualdad en la lnea negra (45). Figura 5

lorenz yaupc

Grfico 10

Esta medida de desigualdad es grfica y dificulta la comparacin con otras variables. El coeficiente de Gini es un indicador ms objetivo que se obtiene a partir de la Curva de Lorenz, el Gini es un nmero que est entre 0 y 1, en donde 0 corresponde a perfecta igualdad y 1 corresponde a perfecta desigualdad. El Coeficiente de Gini se obtiene de dividir el rea que hay entre la lnea de perfecta igualdad y la Curva de Lorenz (a), y el rea total bajo la lnea de perfecta igualdad (a+b). Figura 6 Coeficiente de Gini

Para obtener el coeficiente de GINI del ingreso autnomo per-cpita podemos utilizar el comando inequal de STATA:
inequal yaupc

El coefiente del Gini del ingreso autnomo per-cpita es 0.513 o 51.3%.

La interpretacin del coeficiente de GINI es la siguiente, si tomo dos familias o personas al azar, la diferencia en ingresos autnomos per-cpita de estas dos personas como proporcin del ingreso promedio:

Es el doble del coeficiente de GINI, es decir, en este caso 102.6%. Todos los indicadores que hemos presentados: medidas de tendencia central, medidas de dispersin, y medidas de desigualdad, lo hemos mostrando pensando en el anlisis de una sola variable. Sin embargo, en muchos casos nos interesar hacer comparaciones entre estadsticos de diferentes variables o para diferentes grupos, por ejemplo, podramos comparar los ingresos promedios entre hombre y mujeres. Una forma de compararlos sera simplemente tomar la diferencia entre el ingreso promedio de los hombres y el ingreso promedio de las mujeres, esto nos entregar un nmero. Pero no sabremos si decir si ese nmero es grande o pequeo, o afirmar que realmente la diferencia existe, para esto necesitamos determinar si el valor encontrado es estadsticamente diferente de cero. A continuacin comenzaremos a desarrollar el marco conceptual que ms adelante nos permitir responder esta pregunta.

También podría gustarte