Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Resumen
Las tcnicas no paramtricas constituyen herramientas esenciales para el Anlisis de Datos,
sin imponer supuestos previos. El propsito de este trabajo es aplicar dichas tcnicas al
estudio de la Distribucin del Ingreso Laboral, segn gnero.
En la primera parte se aborda el anlisis univariado: se ajustan funciones de densidad
kernel a las respectivas distribuciones empricas. Esta tcnica constituye un afinamiento de
los clsicos histogramas, caracterizados por presentar saltos o discontinuidades y ser
sensibles a la forma y amplitud con que se definen los intervalos. El estimador de densidad
kernel reemplaza los "rectngulos" del histograma por "protuberancias" suavizadas, mediante
el uso de funciones de ponderacin, denominadas kernels. Permite captar diferencias en
tramos especficos de la distribucin, segn el inters del investigador.
En la segunda parte se efecta un anlisis bivariado. Se utiliza la Regresin No Paramtrica como alternativa de
los modelos tradicionales de la Econometra: no presupone estructura alguna para la distribucin del trmino de
error o para la forma funcional que se estima. Los mtodos no paramtricos aplicados al estudio del Ingreso
Laboral de hombres y mujeres separadamente intentan detectar la existencia de la tan mentada "desigualdad
salarial" segn gnero. La variable es analizada segn quintiles y se la cruza con variables relevantes, como son
Educacin y Experiencia Laboral, a los efectos de estimar funciones de regresin e inferir relaciones de
causalidad. Los datos provienen de la Encuesta Permanente de Hogares, Ondas 1999 a 2003.
Palabras claves: histograma, amplitud del intervalo, funcin de densidad kernel, ancho de
banda, parmetro de suavizado.
130 Brufman et al. / Cuadernos del CIMBAGE N8 (2006) 129-168
Abstract
Nonparametric techniques have become essential tools for Data Analysis without imposing
prior assumptions. The goal of this paper is to apply these methods to the study of the
distribution of Labor Income for male and female separately.
In the first part an univariate analysis is performed; we estimate kernel density functions to
fit to empirical distributions. This technique is a refinement of classical histograms,
characterized by the presence of jumps or discontinuities and sensitiveness to the form and
amplitude of the intervals or bins. The kernel density estimator replaces the rectangulars of
the histogram by smoothed bumps, using weighting functions named kernels. This method
allows to capture differences in specific sections of the distribution, according to the interest
of the researcher.
In the second part we perform the analysis in a bivariate dimension. We use nonparametric
Regression as alternative to traditional econometric models: it does not assume a particular
structure for the error term or for the functional form of the model.
All these nonparametric techniques are applied for the study of Labor Income of male and
female workers. The variable is analyzed by quintiles and is crossed with relevant variables as
Education and Labor Experience, with the aim of estimate regression functions and infer
causality relations between them. The data come from the EPH (Encuesta Permante of
Hogares), Waves 1999-2003.
INTRODUCCIN
En el presente trabajo se analizan en forma exploratoria y grfica las
similitudes y diferencias del ingreso laboral segn gnero (varn-mujer),
con el objetivo de arrojar luz sobre las caractersticas diferenciadas de sus
distribuciones. Se aplican tcnicas de anlisis e inferencia no
paramtricas, que requieren el uso intensivo de la computacin.
Posteriormente se comparan las conclusiones con algunos estadsticos, en
especial, de orden. En esta primera parte se efecta el estudio en
dimensin univariada.
Estadsticos a utilizar
Construccin de grficos: de tallo y hojas y de caja-bigotes
Estimacin de funciones de densidad.
3. ESTADSTICOS A UTILIZAR
bisagras (hinges).
d.- Valores adyacentes: son dos valores, uno inferior y otro superior, los
ms cercanos al lmite de las vallas interiores, pero dentro de stas.
e.- Valores atpicos (outside values outliers): todo dato que excede los
lmites que determinan las vallas interiores.
4. REPRESENTACIONES GRFICAS
b.1.- Si los datos son de dos dgitos, se escribe en la primer columna los
dgitos de las decenas que forman el tallo y en la segunda columna
los dgitos de las unidades. Por ej. el dato 76 se escribira: 76 .
b.2.- Si los datos son de tres dgitos, los correspondientes a las centenas y
decenas se escriben en la columna izquierda que constituye el tallo y
los dgitos de las unidades en la columna derecha.
c.- Cada tallo define una clase y se escribe una sola vez. El nmero de
hojas es representativo de la frecuencia de cada clase.
4.- Se trazan lneas desde cada extremo del rectngulo central hasta los
valores adyacentes inferior y superior (estas lineas son los bigotes de la
caja)
5.- Se marcan los datos que estn fuera de los umbrales inferior y
superior, como valores atpicos.
1
f ( x ) = lim P ( x h < X < x + h) (1)
h0 2h
aproximarnos a f ( x ) mediante:
Este ltimo inconveniente puede evitarse otorgando cierto peso a los datos
de intervalos contiguos al que se estima, lo que conduce a una estimacin
ms suave.
x xi
iii) Se indica con z = , la diferencia entre el punto genrico x y el
h
centro del intervalo xi , estandarizada en unidades h, es decir en
unidades de la semi-amplitud del intervalo.
f ( x ) = 1 1 w x xi = 1 1 w ( z )
n n
n i =1 h h n i =1 h
(3)
( x ) dx = 1 (4)
Se trata de una funcin suave, con derivadas no nulas, que asigna a cada
observacin un peso positivo menor que la unidad, decreciente a medida
f ( x ) = 1 1 K x xi 1 n 1
n
n i =1 h h
= K ( z)
n i =1 h
50 .000030
.000025
40
.000020
30
.000015
20
.000010
10 .000005
0 .000000
0 40000 80000 120000 160000 200000 0 40000 80000 120000 160000 200000
IPCF IPCF
GRAFICO I: HISTOGRAMA GRAFICO II : FUNCION DE DENSIDAD ESTIMADA
Grfico 1: Histograma Grfico 2: Funciones de densidad estimada
Epanechnikov 3
4
( )
1 z 2 I ( z 1)
1 1
Normal (Gaussiana) exp z 2
2 2
15
( )
2
1 z2 ; z < 1;
Biweight 16
0 en cualquier otro lado
1 Deca Fisher al respecto: Para alcanzar una verdadera curva, no slo se debera ubicar una
cantidad infinitamente grande de observaciones en cada clase, sino que el nmero de clases
en que se divide la poblacin debe ser infinito. Fisher, R.A. (1922), pp.312
144 Brufman et al. / Cuadernos del CIMBAGE N8 (2006) 129-168
y = m( x) + (5)
E ( y / x) = m( x) (6)
y = m( x) + (5)
E ( y / x) = m( x) (6)
la estimacin no paramtrica m se obtiene mediante tcnicas de
suavizado aplicadas localmente a los pares de observaciones
y = m( x) +
( x0 ) en
estimar. Describimos el mtodo comenzando por la estimacin m
un punto x0 .
m ( x ) 0 + 0 ( x x0 ) (7)
modelo:
yi = 0 + 0 ( xi x0 ) + i (8)
2 Del alemn loess, sigla de lokal regression; a menudo traducido como lowess (Local
Weighted Scatter plot Smoothing)
149 Brufman et al. / Cuadernos del CIMBAGE N8 (2006) 129-168
xi0 = x0 ; entonces:
funcin m ( xi0 ) .
w y 0 0 ( xi x0 )
2
i i (10)
i
( )
3
wi = 1 d i3 ; (11)
xi x0
siendo: d i = ; y D la distancia mxima xi x0 que se presenta en
D
las n observaciones de cada regresin. Por lo tanto 0 d i 1 . La
regresiones locales. Ntese, sin embargo que, al fijar xi x0 para todas las
n
xi x0 2
K ( yi 0 0 ( xi x0 ) ) (12)
i =1 hn
(
x U (0,1); N (0,1) ; y = sen 2 (1 x ) + x
2
)
Se trata de estimar la funcin yi = m ( xi ) + i siendo i la perturbacin
L O E S S F it ( d e g r e e = 1 , s p a n = 0 . 3 0 0 0 ) L O E S S F it ( d e g r e e = 1 , s p a n = 0 . 6 0 0 0 )
2 2
1 1
Y 0 Y 0
-1 -1
-2 -2
0 .0 0 .2 0 .4 0 .6 0 .8 1 .0 0 .0 0 .2 0 .4 0 .6 0 .8 1 .0
X X
G R A F IC O I G R A F IC O II
Grfico 3 Grfico 4
K e r n e l F it ( E p a n e c h n ik o v , h = 0 . 1 4 8 2 ) R E G R E S IO N P A R A M E T R I C A
2 2
1 1
Y 0 Y 0
-1 -1
-2 -2
0 .0 0 .2 0 .4 0 .6 0 .8 1 .0 0 .0 0 .2 0 .4 0 .6 0 .8 1 .0
X X
G R A F IC O III G R A F IC O I V
Grfico 5 Grfico 6
Por otra parte, si bien en todos los casos se aplic una aproximacin
lineal, la estimacin paramtrica resulta en este caso notablemente
inferior, dada la curvatura de la funcin sinusoidal que gener las
observaciones.
200 200
160 160
IPCF1000
IPCF1000
120 120
80 80
40 40
0 0
-20 0 20 40 60 80 100 -20 0 20 40 60 80 100
H12 H12
Grfico 7 Grfico 8
155 Brufman et al. / Cuadernos del CIMBAGE N8 (2006) 129-168
8. ANLISIS EMPIRICO
Aplicacin de las tcnicas no paramtricas en el estudio de la
distribucin del ingreso segn gnero
Mediana
Total 3,13 3,13 3.00
Desvio Standard
Asimetria
Total 4,35 4,42 6,32
1.- Para las ondas de 1999 y 2001, el ingreso medio de los varones resulta
levemente superior al de las mujeres. En la onda de 2003 esa diferencia se
profundiza llegando al 10%.
3.-La mediana para ambos gneros y en todos los casos resulta inferior a
la media poniendo de relieve la direccin positiva de la asimetra.
Quintiles-Varones
Primero 1,33 1,41 1,17 1,25 1,23 1,34
Segundo 2,26 2,29 2,09 2,08 2,09 2,08
Tercero 3,14 3,13 2,98 3,03 2,96 2,98
Cuarto 4,67 4,44 4,63 4,44 4,62 4,44
Quinto 11,72 9,30 12,39 10,00 13,11 9,47
Quintiles-Mujeres
Primero 1,27 1,28 1,17 1,25 1,32 1,50
Segundo 2,36 2,43 2,30 2,29 2,12 2,08
Tercero 3,49 3,47 3,42 3,33 3,09 3,13
1.- Para todas la ondas y para ambos gneros, el primer quintil registra un
ingreso medio inferior a la mediana, lo que revela una asimetra negativa.
159 Brufman et al. / Cuadernos del CIMBAGE N8 (2006) 129-168
i) tres aos: Primario Incompleto; ii) 7 aos: Primario Completo; iii) 9 aos:
Secundario Incompleto; iv) 12 aos: Secundario completo; v) 14.5 aos:
Universitario Incompleto; vi) 17 ms: Universitario completo.
161 Brufman et al. / Cuadernos del CIMBAGE N8 (2006) 129-168
REFERENCIAS
[3] Fortn N.M.; T. Lemieux (2000). Are Women Wages Gains Mens
Loses? American Economic Review. Papers and Proceeding. pp.456-
460.
ANEXO GRAFICO
164 Brufman et al. / Cuadernos del CIMBAGE N8 (2006) 129-168
165 Brufman et al. / Cuadernos del CIMBAGE N8 (2006) 129-168
166 Brufman et al. / Cuadernos del CIMBAGE N8 (2006) 129-168
167 Brufman et al. / Cuadernos del CIMBAGE N8 (2006) 129-168
168 Brufman et al. / Cuadernos del CIMBAGE N8 (2006) 129-168