Está en la página 1de 24

APROXIMACIÓN DEL COEFICIENTE DE GINI CON DATOS AGRUPADOS:

LÍMITES INFERIOR Y SUPERIOR Y CÁLCULOS BASADOS EN


BOOTSTRAP

Nuria Badenes Plá*


Universidad Complutense, Madrid

(Noviembre 2003)
Versión preliminar. No citar sin permiso de la autora.

RESUMEN

El cálculo del coeficiente de Gini cuando se utilizan datos agrupados, conduce a una
infraestimación. En la literatura pueden encontrarse distintas alternativas para corregir
dicha infraestimación basadas en interpolaciones. En el presente trabajo se presenta un
límite superior e inferior al valor aproximado del coeficiente de Gini. El cálculo del
límite inferior se basa en la búsqueda de la mejor aproximación poligonal de la curva de
Lorenz, mientras que el límite superior se basa en la consideración de la existencia de
máxima desigualdad dentro de cada partición. Los resultados teóricos se constatan en el
apartado empírico utilizando bootstrap.

Clasificación JEL: D3, D31, D39. Distribución, Distribución de la renta, coeficiente de


Gini.

* La autora agradece todos los comentarios recibidos por los participantes en la II Mediterranean
Summer School in Theoretical and Applied Economics, en particular a Joan María Esteban por la cesión
de una de sus ideas, y a Martín Browning por las sugerencias relativas al apartado empírico.

1
1. Introducción

Existe una amplia literatura relativa a la medida del coeficiente de Gini a partir de datos
agrupados. Kakwani y Powder (1973) tratan de ajustar una curva de Lorenz teórica a
partir de los datos agrupados. El coeficiente de Gini se deduce a partir de los parámetros
estimados de la curva de Lorenz. Un enfoque distinto implica el uso de interpolación
tomando los puntos observados de la curva de Lorenz como fijos, por ejemplo, en
Gastwirth y Glauberman (1976), Cowell y Metha (1982) o Brown y Mazzarino (1984).
En el presente trabajo se presenta un enfoque alternativo que no precisa de interpolación
cuando la información agrupada procede de particiones iguales (cuartiles) o diferentes.
Para ello se busca la expresión para calcular el máximo y mínimo valor que podría
tomar el índice de Gini. El análisis teórico se completa con ejemplos prácticos basados
en bootstrap.

2. Errores de infraestimación debidos a la agrupación de datos

El coeficiente de Gini se utiliza por los economistas de forma extensiva como forma de
resumir la información que subyace a una distribución. La información disponible
acerca de la renta y otras distribuciones normalmente es discreta en lugar de continua.
Cuando se conoce la forma funciona l de la curva de Lorenz asociada a una distribución,
el coeficiente de Gini se calcula según la expresión [1]:

G ? 1 ? 2?L( p) dp ?1?
0

donde p=F(x) es la función de distribución de la variable x (por ejemplo, la renta) y L(p)


es la curva de Lorenz asociada a dicha distribución. En la figura 1, el coeficiente de Gini
queda representado por el doble del área A, o 1-2B, ya que el área determinada por el
cuadrado total es 1 y A+B=1/2.

2
Fig. 1.

L(p)

0 p
Cuando la información disponible acerca de la distribución de la renta es discreta,
solamente se conocen las posición de algunos de los puntos de la curva de Lorenz curve,
y por tanto, el índice de Gini se calcula de forma aproximada sumando áreas de
triángulos y rectángulos como se muestra en la figura 2.

Fig. 2.

b
a
0 1/4 2/4 3/4 1

3
Supongamos que solo contásemos con información acerca de cuartiles de la distribución
de la renta; X representa la renta total, y xi , ( i ? 1, 2, 3, 4) es la renta de cada cuartil. Los
valores de a, b y c son:
x1
a?
X
x1 ? x2
b?
X
x1 ? x2 ? x3
c?
X
El área bajo la curva de Lorenz se puede calcular mediante la suma de cuatro triángulos
y tres rectángulos como sigue:
Área de los triángulos Área de los rectángulos
1 1 0
? ?a
2 4
1 1 1
? ?(b ? a) ?a
2 4 4
1 1 1
? ?(c ? b) ?b
2 4 4
1 1 1
? ?(1 ? c) ?c
2 4 4

La generalización de esta suma cuando contamos con N particiones iguales conduce a la


expresión [2]:
?N ?
? Nx ? ( N ? 1) x2 ? ... ? 2 xN ? 1 ? xN ? ? ? ( N ? i ? 1) xi ?
?2?
1 1
G ? 1 ? ? 2? 1 ? ? 1 ? ? 2 ? i? 1 ?
N ? NX ? N ? NX ?
?? ??

Pero esta expresión infraestima el verdadero valor del índice de Gini. Un simple
ejemplo puede mostrar cuán importante es dicho error dependiendo del número de
particiones N y de la dispersión existente en la distribución de la renta. Supongamos que
N=4 y toda la renta se concentrase en el último cuartil, entonces
x1 ? x2 ? x3 ? 0; x4 ? X . En este caso, el valor del índice de Gini calculado mediante la

1 ?x ?
aproximación discreta [2] sería G ? 1? ? 2? 4 ? ? 0.75 , pero el valor que
4 ? 4 x4 ?
esperaríamos a priori sería 1. Asumiendo la misma partición pero con una distribución

4
X
igualitaria de la renta, x1 ? x2 ? x3 ? x4 ? , el valor esperado del Gini y el que
4
realmente obtendríamos con [2] es 0.

?X ?
1 ? 4 ( 4 ? 3 ? 2 ? 1) ? 20
G ? 1 ? ? 2? ? ? 1 ? 0.25 ? ? 0.
4 ? 4 X ? 16
? ?
Generalizando estos ejemplos para cualquier partición N igualitaria, obtendríamos las
expresiones [3] y [4] para desigualdad máxima y mínima respectivamente:

? x ?
GDesigualdad total ? 1 ?
1
? 2? N ? ? 1?
1
?3?
N ? NxN ? N

?X ?
? N ( N ? ( N ? 1) ? ( N ? 2) ? ....... ? 2 ? 1) ? 1 (1 ? N )
G Igualdadtotal ? 1?
1
? 2? ? ? 1? ? ?0 ?4?
N ? NX ? N N
? ?

Los resultados previos muestran que la aproximación tradicional al coeficiente de Gini


es exacta cuando la desigualdad es nula, pero se genera un error de infraestimación a
medida que la distribución es más desigual, de manera que el máximo error se comete
1
cuando la unidad más rica considerada posee toda la renta. (Error ? [0, ]).
N
En los siguientes subapartados se muestra las expresiones para el máximo y
mínimo valor del índice de Gini entre los que queda comprendido el “verdadero” valor
que no es posible conocer cuando se usan datos agrupados.

2.1. Límite máximo: referencia a la igualdad total mediante escalones en lugar


de la bisectriz

Cuando no se conoce la “verdadera” curva de Lorenz sino únicamente algunos de los


puntos que la delimitan, la aproximación puede llevarse a cabo por encima o por debajo
de la misma. En este apartado mostraremos el límite inferior a la aproximación de la
curva de Lorenz, lo que determinará el valor máximo del coeficiente de Gini. Para ello

5
haremos uso de una poligonización algo particular, en la que la igualdad perfecta que
sirve de referencia no se mide mediante la bisectriz, sino a través de una línea quebrada
en forma de escalones. Con el fin de explicar la intuición de este razonamiento,
volvemos a utilizar el ejemplo de cuartiles (N=4). Si la desigualdad fuese máxima, el
error cometido con la aproximación tradicional sería 0.25. Si normalizamos los 16
cuadrados que aparecen en la figura 3 para que el valor total equivalga a la unidad, 0.25
representa 2 cuadrados del total de 16.

Fig. 3.

Curva de Lorenz

El coeficiente de Gini se puede interpretar como el doble del area entre la curva de
Lorenz y la bisectriz, pero esta área nunca será 0.5 dado que la curva de Lorenz no está
construida con dos líneas perpendiculares. El área comprendida bajo la curva de Lorenz
hasta la ordenada derecha es la responsable del error, y es exactamente la mitad de
cuatro cuadrados (de un total de 16). Pero este área coincide con la que queda
comprendida sobre la diagonal y la línea gruesa en forma de escalones. Reconocer esta
coincidencia entre áreas proporciona la clave para proponer un límite superior a la
aproximación discreta del índice de Gini.
Cuando se utiliza la expresión tradicional [2] es porque la información referente
a la renta está limitada a determinados percentiles y no se conoce la distribución de la
renta dentro de cada percentil. El supuesto subyacente en dicha expresión es que la renta
se distribuye uniformemente dentro de cada percentil. Alternativamente, si no
conocemos qué ocurre dentro de cada percentil, podríamos tratar los percentiles como si
de individuos se tratara, y asignar la misma altura en la curva de Lorenz a cua lquier

6
posición dentro del percentil: la información con la que contamos. Actuando así, por
coherencia, la línea de referencia de perfecta igualdad debería estar construida a base de
escalones -de igual longitud si la partición es igual- en lugar de ser una bisectriz.
En las figuras 4.a. y 4.b. se compara el enfoque tradicional de percentiles con el
enfoque alternativo de individuos cuando el percentil más rico disfruta del total de la
renta.
Figura 4.a. Figura 4.b.
Enfoque nuevo de individuos Enfoque tradicional de percentiles

Mediante el enfoque Nuevo, la curva de Lorenz sería “completamente discreta”, en el


sentido de que si toda la renta la poseyera el cuarto cuartil, asignaríamos el total de la
renta al primer individuo dentro del cuartil. Así, la curva de Lorenz no sería creciente a
tasa constante como en el enfoque tradicional. Esto puede justificarse únicamente por el
hecho de que se está considerando que todas las unidades dentro de un percentil son una
sola unidad por la falta de información en cuanto a la distribución dentro del percentil.
Pero si asumimos esto para la representación de la curva de Lorenz, por coherencia,
debemos asumir lo mismo para la línea de referencia de igualdad total, que no será ya la
bisectriz sino una escalera con tantos escalones como percentiles. Calculando el índice
A
de Gini mediante la expresión tradicional G ? o G ? 1 ? 2B como se explica en
A? B
la figura 1, se obtendría que no iguala a la unidad si la desigualdad es máxima, ya que el
último percentil siempre posee el total de la renta. Ello quiere decir que la altura
alcanzada en la curva de Lorenz por el ultimo percentil en esta nueva formulación no
incluye información relevante y puede obviarse. Con ello no se prescinde de
información válida, ya que la diferencia entre la situación del ultimo percentil y el

7
penúltimo, queda incluida en la curva de Lorenz. Volviendo al ejemplo más sencillo de
máxima desigualdad de la figura 4.a.. podríamos prescindir de los cuadrados 1, 2, 3 y 4.
Al hacer esto el área delimitada entre la población acumulada y la renta acumulada no
es 1, pero puede corregirse para que valga uno simplemente reescalando (dividiendo)
entre el producto de la base ? altura 1 .
La justificación de este enfoque es en principio tan válida como pueda serlo el
enfoque tradicional, ya que si no conocemos lo que ocurre dentro de cada percentil, tan
incorrecto es asumir una distribució n uniforme como asumir que el percentil es una sola
unidad. Esta idea sirve en términos geométricos, pero adolece de un inconveniente, y es
que si interpretásemos que en cada percentil hay más de una unidad, toda la renta de un
percentil la tiene el más rico del percentil, el resto de individuos tiene una renta nula,
por lo que no podrían pertenecer a un percentil superior a otro en el que haya alguna
observación con renta no nula.

2.1.1. Límite máximo con frecuencias iguales

Nuestro objetivo final es ofrecer un límite máximo y mínimo para el coeficiente de


Gini. En el presente subepígrafe mostraremos el valor máximo que alcanzaría el índice
de Gini cuando la agrupación de datos se produce en tramos iguales. Buscaremos pues
una expression alternativa a [2] calculada a partir de la diferencia entre series de
rectángulos menos series de triángulos.
Fig.5.
1

b
a
0

1
En general, habrá de multiplicarse por la inversa del área procedente del rectángulo resultante de la
eliminación del último percentil, N/(N-1).

8
En la figura 5. la línea discontinua muestra el equivalente a la curva de Lorenz caundo
consideramos cada tramo como un solo individuo. Suponemos ahora una situación
intermedia, en la que la distribución de renta muestra cierto grado de desigualdad (pero
no la máxima o mínima). La referencia a la igualdad perfecta viene representada por la
línea más gruesa, y se prescinde del área de los cuadrados cruzados. Si suponemos una
partición en cuartiles, los valores de a, b y c son:
x1
a?
X
x1 ? x2
b?
X
x1 ? x2 ? x3
c?
X
El coeficiente de Gini se puede calcular como el área normalizada del cuadrado
recortado (12 cuadrados en lugar de 16) menos dos veces el área por debajo del
equivalente a la curva de Lorenz. Esa área bajo la curva Lorenz se puede obtener como
la suma de los siguientes tres (en lugar de cuatro) rectángulos:

Rectángulos
1º 1
a?
N
2º 1
b?
N
3º 1
c?
N

La expresión para calcular el índice de Gini con una partición de cuartiles sería:

4 ?3 ? 3 x ? 2x 2 ? .x3 ??
Gmáximos ? ? ? 2? 1 ?? ?5?
3 ?4 ? 4X ??

Factor de normalización Área total Doble del area bajo la “curva de Lorenz”

La generalización de dicha expresión a cualquier número N de particiones iguales sería


la que se ofrece en la expresión [6]:

9
N ? N ? 1 ? ( N ? 1) x1 ? ( N ? 2) x2 ? ... ? 2 xN ? 2 ? x N ??
Gmáximo ? ? ? 2? ?? ?
N ? 1? N ? NX ??
?N ?
? ? ( N ? i ) xi ?
1 ? 2? i ? 1 ? ?6?
? ( N ? 1) X ?
?? ??

2.1.2. Límite máximo con frecuencias diferentes

Hasta ahora hemos considerado particiones igualitarias basadas en percentiles, pero los
datos de distribuciones de renta (u otras variables) no siempre se presentan por decilas o
quintiles, en ocasiones se ofrecen por tramos que no comprenden el mismo número de
individuos. En tal caso, la expresión [6] debe ser modificada para que sea adecuada a las
bases de los triángulos y rectángulos que sirven para la aproximación. La desigualdad
puede seguir siendo medida a través de la suma de rectángulos con respecto a una
referencia de igualdad total que esta vez se construye como una escalera de escalones de
alturas diferentes. Si se adopta el enfoque tradicional, con la referencia a la igualdad
perfecta basada en la bisectriz, también es necesario modificar la expresión [2], basada
en la adición de áreas de triángulos y rectángulos para obtener otra equivalente en caso
de particiones no iguales.
La base de los triángulos/rectángulos viene dada por las frecuencias
( f i i ? 1, 2......N ), que ya no son 1/N. Las alturas, por su parte, se obtienen de la
participación acumulada en la renta de cada partición. La figura 6 muestra la diferencia
entre enfoques (enfoque tradicional marcado en grueso en blanco y negro, y el nuevo
enfoque en trazo discontinuo y negro gruesos) asumiendo tres particiones.

10
Figura 6.
1

x1 ? x2
X

x1
X

f1 f2 f3

Si se adopta el enfoque tradicional, el índice de Gini resultante se calcularía como la


unidad menos el doble del área bajo la curva de Lorenz continua (1-2B). Con el nuevo
enfoque, la última frecuencia no aporta información alguna en cuanto a la distancia
restante hasta la “curva de Lorenz” discontinua. Por esta razón eliminamos el último
rectángulo, y el valor del índice de Gini no podrá alcanzar el valor unitario nio siquiera
cuando la desigualdad es máxima. En este caso, por tanto, es más lógico utilizar la
fórmula de cálculo del coeficiente de Gini como A/(A+B) 2 .

Las áreas relevantes para la obtención de lcoeficiente de Gini en este caso particular se
presentan en la tabla siguiente:

2
Denotamos por A el área entre la curva de Lorenz y la línea de igualdad total construida a partir de
escalones de tamaño distinto, y por A+B, el área total por debajo de la referencia de igualdad perfecta.
Por tanto, no es preciso reescalarcomo en el caso de partición igualitaria.

11
G ? 1 ? 2B A
G?
Enfoque tradicional A? B
Nuevo enfoque
N=3; frequencias f 1, , f 2 , f 3
Triángulos 1 ? x1 x x ? B
? f 1 ? f 2 21 ? f1 3 ? ?
B 2? X X X? x1 x ?x
3
f1 ? 1 2
?
X X
xi f i
? i ?1

2X
Rectángulos x1 x ?x A+B f1 ? f1 ? ( f1 ? f 2 ? f1 ) ? f2 ? 0
0? f2 ? 1 2 f3
X 2

Si la partición resulta en N tramos no necesariamente iguales (las frecuencias no son


1
fi ? f ? ), la expresión [7] es análoga a la [2], es decir, muestra la aproximación
N
tradicional del índice de Gini (pero ante particiones no iguales), mientras que [8] ofrece
un límite máximo.

? ?1 N i
? N

partición no igual ? 1 ?
Gtradicional
? 2? ? f i ? xi ? ? ? ? xi f i ?7?
X ?X i ?1 i? 1 ? i ?1

1 ?N ? 1 ?
??
X ? i ?1
( N ? i ) xi f i ?
?
G máximo
particiónno igual ? 1? N ?1
?8?
? ( N ? i) fi 2
i? 1

2.2. Límite mínimo


La expresión tradicional que sirve para el cálculo del coeficiente de Gini, está basada en
una aproximación poligonal de la curva de Lorenz por encima de la verdadera curva de
Lorenz. Si observamos la figura 7, vemos cómo la aproximación tradicional de la curva
de Lorenz mediante un polígono (línea continua), siempre es más cercana a la diagonal
que la verdadera curva de Lorenz desconocida (línea discontinua). Esto ocurre siempre
excepto en el caso de que la distribución sea perfectamente igualitaria, en que son
coincidentes. Por ello necesariamente el área que queda comprendida entre la diagonal y
la aproximación poligonal ha de ser menor que el área que determina el coeficiente de

12
Gini exacto, y por ello, la expresión tradicional del coeficiente de Gini nos ofrece un
límite inferior al verdadero valor del índice de Gini.

Figura 7.

2.3. Diferencia entre el límite máximo y mínimo

Nos interesa conocer ahora cuál es el margen de error que cometemos al aproximar el
cálculo del índice de Gini, bien sea por exceso o por defecto, y ya se utilicen particiones
iguales o diferentes. Para ello, calcularemos el intervalo dentro del que queda
comprendido el verdadero valor del índice de Gini como diferencia entre el límite
máximo y el mínimo. Es cierto que podríamos dar unos límites inferior y superior
infalibles [0,1], pero tratamos de ajustar este intervalo lo más posible con la información
disponible, aunque sea agrupada. El intervalo válido al que nos referimos entonces es
[Gini mínimo, Gini máximo], y lo podemos calcular como [6]-[2] si la partición es
igualitaria, y como [8]-[7] si los tramos son diferentes.

Partición igualitaria
Para simplificar el cálculo de la anchura del intervalo en caso de partición
igualitaria, podemos reescribir la expresión tradicional del índice de Gini con
particiones iguales -[2]- como [9]. Las dos expresiones proporcionan el mismo valor,
pero [9] se obtiene a partir de la suma de áreas de rectángulos de las que restamos
triángulos.

13
? N
?
? 1 ? ( N ? i ) xi ?
Gtraditional ? 1 ? 2? ? i? 1
? ?9?
?2N NX ?
?? ??

Así, la anchura del intervalo cuando la partición es igualitaria viene dada por [10],
calculado como la diferencia [6]-[9]:

N
2? ( N ? i )xi
?Gini max imo
?
? Gini mínimo particiónigual ?
1
N
? i ?1
N ( N ? 1) X
?10?

La anchura del intervalo, depende por tanto negativamente del número de percentiles,
N, y positivamente de la desigualdad existente en la distribución. Para ver la intuición
de este resultado, supongamos que la distribución fuese perfectamente igualitaria; en tal
caso, y cualquiera que sea el número de percentiles, el valor de la suma
N
X ( N ? 1) 3
? ( N ? i ) xi sería el máximo posible, y valdría
2
, por lo tanto, la anchura del
i ?1

intervalo es nula. Para cualquier distribución no igualitaria, la suma es menor, por tanto
el intervalo se amplía. Por otro lado, para una distribución dada el valor de la suma
permanece constante, y cuanto mayor es el número de percentiles, menor es la anchura
del intervalo.
Denominando la anchura del intervalo con partición igualitaria AI =
?Gini max imo
?
? Gini mínimo particiónigual tenemos que :

AiI ? f ( N , desigualda d )

? ( AIi )
?0
?( N )
? ( AiI )
?0
? ( desigualda d )

N
X X X X X ??1 ? ( N ? 1) ?( N ? 1) ?
3
?
i? 1
(N ? i)x i ? 1 ?
N
? 2 ? ? .... ? ( N ? 2) ? ? ( N ? 1) ? ?
N N N N
??
? 2 ?
?

14
Si calculamos el ratio entre la anchura del intervalo cuando la partición es igualitaria y
el índice de Gini calculado de forma tradicional (es decir el límite inferior de nuestro
intervalo) obtenemos la expresión [11]:

Ginimáximo ? Ginimínimo
?
AI
?
1
?11?
Ginimínimo Gini mínimo N ? 1
Es fácil ver entonces que la cota máxima del intervalo es exactamente la cota mínima
reescalada por N/(N-1), expresión bastante útil para calcular las derivadas parciales que
muestran la dependencia en la amplitud del intervalo ([12]).

AI ?
1
Gini mínimo ?12?
N ?1
entonces:
?AI Gini mínimo
?? ?0
?N ( N ? 1) 2
? AI 1
? ?0
? (Ginimínimo) N ? 1

Ello prueba que la amplitud del intervalo es decreciente con el número de percentiles y
creciente con la desigualdad existente (medida por el índice de Gini en su cota mínima
del intervalo )

Partición desigualitaria
Cuando la partición es desigualitaria, la amplitud del intervalo viene dada por la
diferencia entre la cota máxima y mínima, u [8]-[7] referidos en esta ocasión no a
percentiles sino a cualquier frecuencia. Denominaremos la amp litud del intervalo en
?
este caso AD= Gini max imo ? Gini mínimo ?
particióndesigual

La amplitud en este caso se puede expresar como [13]:

15
? ? b ??
AD ? ?2a ? ? ? ? ?? ?13?
? ?cX ??
N i
a? ? f?
i ?1
i
i ?1
xi
N ?1
b? ? ( N ? i ) xi f i
i ?1
N ?1
c? ? ( N ? i ) f i2
i ?1

La relación exacta entre la amplitud del intervalo y la cota mínima del mismo no es fácil
de obtener de forma exacta 4 . Pero en la expresión [14] se muestra una relación
aproximada que puede guiar en el conocimiento de los determinantes de la amplitud del
intervalo si la partición n o es igualitaria:

partición desigual ?
Gini máximo
1
partición desigual ? AD ?
Gini mínimo
fN
Gini mínimo ?14?
(1 ? f N ) 1? fN
partición desigual

A partir de [14] podemos comprobar que la amplitud del intervalo es creciente con la
desigualdad y con la magnitud de la última frecuencia, como muestra [15]. Y aun
podemos decir más, la amplitud del intervalo también depende de la desigualdad
existente en todas la frecuencias excepto en la última. Esto se ha comprobado
empíricamente, dado que cuando existe igualdad perfecta en toda la distribución,
independientemente de lo que pase en la última frecuencia, el problema de encontrar
una expresión exacta reside en que no hay un patrón constante depend iente de la
desigualdad. Por ello, cuando la desigualdad en todas las frecuencias excepto en la
última es nula, el error se puede calcular de manera exacta utilizando la expresión [14].
A partir de esa situación, cuanto mayor es la desigualdad, peor es la aproximación de la
cota máxima al verdadero valor del índice de Gini, y la aproximación es mejor cuanto
menor es la desigualdad en todas las frecuencias excepto en la última.

4
De hecho, ni siquiera tenemos la seguridad de que tal relación exacta exista.

16
? AD
?
1
partición desigual ? 0
Gini mínimo ?15?
? fN (1 ? f N ) 2

? AD fN
? ?0
?Gini particióndesigual 1 ? f N
mínimol

El error por utilizar [14] en lugar de [13] puede denominarse K (o intervalo aproximado
en el Apéndice I) , y puede ser positivo negativo o nulo.

? f ? ? ? b ??
?11?
K ? ? N Ginitraditiona
l?? ?2 a ? ? ? ? cX ?? ? ? 0 ?16?
?1 ? f N ? ? ? ??

3. ¿Es posible afinar más el intervalo?


Afinar más el intervalo es el reto que queda pendiente por investigar. En la siguiente
sección se mostrará que por medio de simulaciones de bootstrap podemos calcular -con
un número suficientemente elevado de datos- el valor exacto del índice de Gini y sus
correspondientes límite superior e inferior asumiendo que tuviésemos unos pocos datos
agrupados. También se pondrá de manifiesto que el límite mínimo es más cercano al
límite máximo, por tanto es más probable encontrar una mejor aproximación por exceso
pero prácticamente no es posible si la aproximación es por defecto. Podemos mostrar
sin embargo, cuál sería la mejor aproximación poligonal a la curva de Lorenz por
encima de la misma (y por tanto al índice de Gini por defecto), si nos dejasen escoger
los puntos en los que el polígono representa un vértice. Esta idea no es útil en términos
de acortar más el intervalo que mostramos, pero sí que lo es en términos teóricos 5 .
El problema de escoger los puntos que determinan la mejor aproximación
poligonal es que los puntos se pueden escoger óptimamente solamente si se conoce la
verdadera curva de Lorenz, que es precisamente lo que se desconoce cuando contamos
~
con información agrupada. Si denominamos por L(p) la curva de Lorenz y L ( p) su
aproximación poligonal, si podemos escoger los pi puntos que determinan los vértices
del polígono, escogerlos de forma óptima (es decir, minimizar la distancia entre L(p) y
~
L ( p) ) implica que la tangente a la curva de Lorenz L(p) en ese punto pi a la cuerda que

5
La idea se debe a Joan María Esteban, aunque jamás la haya publicado en un artículo. En este epígrafe
la explicamos (con su consentimiento) por la utilidad que puedan derivar de ella otros investigadores.

17
une los puntos inmediatamente anterior y posterior ( pi-1 y pi+1 ) sean paralelas. Esta
condición se muestra en [17] y se obtiene matemática y gráficamente en el Apéndice II.

L ( pi ? 1 ) ? L ( pi ? 1 )
L ' ( pi ) ? ?17?
pi ? 1 ? p´? 1

Puesto que esta aproximación poligonal proporciona el valor más cercano al verdadero
índice de Gini, sabemos que el límite inferior que ofrecemos es seguro más pequeño que
el que obtendríamos aproximando óptimamente los puntos. Y sabemos que es así
porque los puntos determinados por la información agrupada coincidirán con los
mejores solamente por casualidad. Por ello las expresiones [2] (o alternativamente [9],
ambas iguales y que representan la expresión tradicional de cálculo del índice de Gini
con datos agrupados) constituyen un verdadero límite inferior al verdadero índice de
Gini cuando los datos se agrupan en tramos iguales. De la misma forma, la expresión
[7] representa un límite inferior cuando la partición es desigualitaria.

En cuanto al límite máximo, daremos una idea intuitiva más que una
demostración formal de por qué realmente es un límite que no se sobrepasa. No
conocemos el valor real del Gini, pero sea cual sea este quedará por debajo del límite
máximo que ofrecemos ([6] y [8] para particiones igualitarias y desigualitarias
respectivamente). Para ello pensemos en la peor aproximación posible del límite
máximo. Esta se produciría cuando solamente contamos con dos tramos, con lo cual,
siguiendo la expresión [8] implica que:

? x ?
f1 ? f1 ? 1 ?
? X? x
Gini máximo ? 2
? 1? 1
f1 Xf1

Las dos situaciones extremas que se pueden derivar son:


a) Que toda la desigualdad se concentre a partir de la partición f 1 , con lo cual la
renta contenida en la primera frecuencia es nula y el Gini máximo vale 1.
Seguro entonces que el valor es acertado o mayor que el Gini verdadero, que
no puede superar la unidad.

18
b) Que la renta hasta la partición f 1 se concentre de forma igualitaria, en cuyo
caso el Gini máximo será 1-(1/X), lo que es prácticamente la unidad, y será
mayor que el verdadero Gini. De hecho, esta aproximación sería bastante
mala si el segundo tramo fuese muy pequeño, pues el verdadero Gini sería
prácticamente nulo, mientras que la cota máxima, sería prácticamente la
unidad.
Los resultados empíricos que se ofrecen en el epígrafe siguiente, pondrán de
manifiesto la bondad del límite mínimo comparativamente frente al límite máximo.
Por ello, una linea de trabajo futura consistirá en la búsqueda de un límite máximo
más ajustado en el contexto de las aproximaciones poligonales que no hacen uso de
interpolación.

4. Cálculo de la amplitud de los intervalos con simulaciones bootstrap


En el Apéndice I se muestran algunos ejemplos de la amplitud del intervalo
dependiendo de que la partición sea igual o desigual, para distintos grados de
desigualdad, si bien por ofrecer una mayor validez de los resultados teóricos obtenidos
se ha probado el cálculo de los límites inferior y sup erior para la obtención de los
intervalos de interés haciendo uso de simulaciones bootstrap.
Parte empírica en proceso de obtención de resultados, pendiente de finalizar, explicando
los resultados de STATA.

5. Conclusiones
En este trabajo se han ofrecido límites inferior y superior para el cálculo del índice de
Gini cuando no puede calcularse la magnitud exacta del índice debido a la agrupación
de datos, tanto cuando los tramos en los que se resume la información son iguales como
distintos. El trabajo presenta una primera parte de formalización de los resultados, y se
complementa con un cálculo de dichos límites mediante simulaciones bootstrap. La
bondad de la aproximación al verdadero índice del límite mínimo queda patente, si bien
existen situaciones extremas en las que el límite máximo es más cercano al verdadero
valor.

19
APÉNDICE I
En el presente Apéndice mostramos algunos ejemplos seleccionados con distribuciones
y particiones variadas con el fin de poner de manifiesto la validez de los límites inferior
y superior propuestos ante la imposiblilidad de conocer el índice de Gini exacto.

Ejemplo 1. Partición igual y desigualdad nula


Ejemplo Población Total de
1 renta en la
N Número Proporción partición Límite inferior 0
de Límite superior 0
unidades Amplitud del intervalo 0
1 250 .25 250
2 250 .25 250
3 250 .25 250
4 250 .25 250
Total 1,000 1 1,000

Ejemplo 2. Partición igual y desigualdad total


Ejemplo Población Total de
2 renta en la
N Número Proporción partición Límite inferior .75
de Límite superior 1
unidades Amplitud del intervalo .25
1 250 .25 0
2 250 .25 0
3 250 .25 0
4 250 .25 1,000
Total 1,000 1 1,000

Ejemplo 3. Partición igual y alguna desigualdad


Ejemplo Población Total de
3 renta en la
N Número Proporción partición Límite inferior .2875
de Límite superior .3833333
unidades Amplitud del intervalo .0958333
1 250 .25 100
2 250 .25 200
3 250 .25 225
4 250 .25 475
Total 1,000 1 1,000

20
Ejemplo 4. Partición desigual e igualdad total
Ejemplo Población Total de
4 renta en la
N Número Proporción partición Límite inferior 0
de Límite superior 0
unidades Valor exacto del 0
1 10 .01 10 intervalo [13]
2 250 .25 250 Valor aproximado [14]
fN 0
3 200 .20 200 Gini
1 ? fN
4 540 .54 540
Total 1,000 1 1,000

Ejemplo 5. Partición desigual y desigualdad total


Ejemplo Población Total de
5 renta en la
N Número Proporción partición Límite inferior .46
de Límite superior 1
unidades Valor exacto del .54
1 10 .01 0 intervalo [13]
2 250 .25 0 Valor aproximado [14]
fN .54
3 200 .20 0 Gini
1 ? fN
4 540 .54 1,000
Total 1,000 1 1,000

Ejemplo 6. Partición desigual y alguna desigualdad


Ejemplo Población Total de
6 renta en la Límite inferior .25795
N Número Proporción partición
Límite superior .63218
de
unidades Valor exacto del intervalo [13] .37423
1 10 .01 10 Valor aproximado [14] .30281
fN
2 250 .25 55 Gini
1 ? fN
3 200 .20 165
4 540 .54 770
Total 1,000 1 1,000

21
APÉNDICE II

Supongamos que conocemos la verdadera curva de Lorenz, porque los datos con los que
contamos no están agrupados. Si tuviésemos que aproximar la curva de Lorenz
contando con información en un solo punto, ¿cuál escogeríamos?. Dado que sabemos
que la curva de Lorenz ha de pasar por 0 y 1, hemos de escoger un solo punto que
representa el único vértice de una aproximación poligonal abierta de dos lados

~
L ( p)

L(p)

45º

pi-1 =0 45º pi pi+1 =1

Si fuera posible escoger más puntos, la elección se haría de forma que la diagonal que
une el punto anterior y el siguiente fuese tangente a la curva de Lorenz. Por ejemplo,
eligiendo tres puntos tendríamos:

~
L ( p)

L(p)

45º

pi-1 pi pi+1

22
Puede apreciarse cómo con tan solo tres puntos, la aproximación poligonal de tres
vértices y cuatro lados es bastante ajustada a la curva de Lorenz real. Cuál es el
problema matemático que deseamos resolver? Queremos minimizar el área
comprendida entre la curva de Lorenz verdadera y la aproximación poligonal, teniendo
en cuenta que dicha aproximación se construye a base de líneas rectas. Entonces el
problema que se ha de resolver es el siguiente:

??L ( p) ? L ( p )?dp
pi ? 1
~
Min
pi ? 1

~ ~
L ( pi?1) ? L ( pi?1)
s.a. L'( pi) ?
pi?1 ? pi?1

~ ~
? ?
? L ( pi ? 1) ? L ( pi ? 1) ?
pi ? 1
~
Lag ? ? L ( p ) ? L( p) dp ? ? ?L ' ( pi ) ? ?
pi ? 1 ? pi ? 1 ? pi? 1 ?
CPO
~ ~
?Lag
?pi
~
? pi ? 1
?
?~
? L ( p ) ? L( p ) pi ? 1 ? ? ?L ( p) ?
L ( pi ? 1 ) ? L ( pi? 1 ) ?
pi? 1 ? pi ? 1
?? 0
? ?

Como el segundo sumando es igual a cero, para que se cumpla la condición de primer
~
orden, debe ocurrir que L ( pi ) ? L ( pi ) , lo que unido al cumplimiento de la restricción
presupuestaria implica que:

L( pi ? 1 ) ? L( pi? 1 )
L ' ( pi ) ?
pi ? 1 ? pi ? 1

Y si se cumple esta condición, los puntos se habrán escogido óptimamente.

23
REFERENCES

Atkinson, A. B. (1970) “On the measurement of inequality” Journal of Economic


Theory 2: 244-263.

Brown, J.A.C. and G. Mazzarino (1984) “Drawing the Lorenz curve and calculating the
Gini concentration index from grouped data by computer” Oxford Bulletin of
Economics and Statistics 46: 273-278.

Cowell, F. A. and F. Mehta (1982) “The estimation and interpolation of inequality


measures” Review of Economic Studies 159: 273-290.

Cowell, F.A. (1991) “Grouping bounds for inequality measures under alternative
informational assumptions” Journal of Econometrics 48: 1-14.

Fuller, M. (1979) “The estimation of Gini coefficients from grouped data. Upper and
lower bounds” Economics Letters 3: 187-192.

Gastwirth, J. L. and M. Glauberman (1976) “The interpolation of the Lorenz curve and
Gini index from grouped data” Econometrica 44/3: 479-483.

Kakwani, N.C. and N. Podder (1976) “Efficient estimation of the Lorenz curve and
associated inequality measures from grouped observations” Econometrica 44/1: 137-
148.

Lambert, P. (1993) The distribution and redistribution of income. A mathematical


analysis” Manchester University Press.

Soltow, L. (1965) “The share of lower income groups in income” Review of Economics
and Statistics 47: 429-433.

24

También podría gustarte