Está en la página 1de 72

ANÁLISIS NUMÉRICO DE

UNA VARIABLE MEDIBLE (III):


UNIDAD
DIDÁCTICA OTRAS MEDIDAS DE POSICIÓN,
DE DISPERSIÓN,

5 DE CONCENTRACIÓN
Y DE FORMA

OBJETIVOS DE LA UNIDAD

1. Otras medidas de centralización: la media recortada


2. Medidas de posición no centrales: los cuantiles
3. Otras medidas de dispersión
3.1. El rango o recorrido relativo
3.2. El coeficiente de apertura
3.3. El rango o recorrido intercuartil o intercuartílico
3.4. El rango percentil 10‐90 o rango entre percentiles
3.5. La desviación media y la desviación mediana

4. Otras medidas de forma


4.1. Otras medidas de simetría
4.2. Otras medidas de apuntamiento o curtosis

5. Medidas de concentración
5.1. El índice de Gini
5.2. La curva de Lorenz

6. Momentos de una variable estadística unidimensional

CONCEPTOS BÁSICOS A RETENER


ACTIVIDADES DE AUTOCOMPROBACIÓN
ACTIVIDADES DE REPASO
TEST DE AUTOEVALUACIÓN
REFERENCIAS BIBLIOGRÁFICAS

www.udima.es 181
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
ESTADÍSTICA DESCRIPTIVA

 OBJETIVOS DE LA UNIDAD

Además de las medidas de centralización, dispersión y forma más representativas que hemos ana-
lizado en las Unidades didácticas 3 y 4 de este manual, existen otras medidas que completan el estudio
de las características principales de una distribución de frecuencias asociada a la variable estadística
estudiada. El cálculo de estas medidas, alternativas y complementarias, y su aplicación e interpretación
constituye el objeto de esta Unidad didáctica.

182 www.udima.es
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
Análisis numérico de una variable medible (III):
M.ª J. Pérez Fructuoso otras medidas de posición, de dispersión, de concentración y de forma

1. OTRAS MEDIDAS DE CENTRALIZACIÓN: LA MEDIA RECORTADA

Un rasgo que diferencia a la media y a la mediana, dos de las principales medidas de tendencia
central estudiadas en la Unidad didáctica 3, es su comportamiento frente a los datos atípicos. La esta-
bilidad de la mediana frente a la existencia de este tipo de datos recibe el nombre de robustez. Pues
bien, las medidas de posición basadas en el orden, como son la mediana, los cuartiles o el rango inter-
cuartílico cumplen esta propiedad y se dice de ellas que son robustas. Sin embargo, las medidas basa-
das en la suma como puede ser la media (o la desviación típica si consideramos también las medidas
de dispersión) están más afectadas por las observaciones atípicas y son, por tanto, poco robustas.

La media recortada es un remedio eficaz para solventar la falta de robustez de la media aritmética
simple como medida de posición representativa de los datos de una muestra. A través de la media re-
cortada conseguimos moderar el efecto de los datos atípicos en el cálculo de la media, realizando su
cálculo después de haber eliminado las observaciones más extremas.

Por tanto, podemos definir la media recortada al  % como la media de los datos que quedan des-
pués de eliminar el  % de los datos más grandes y el  % de los datos más pequeños.

EJEMPLO 1

Consideramos el siguiente conjunto de datos,

6,3; 3,8; 4,4; 8,2; 2,7; 9,3; 7,2; 10,3; 4,2; 6,9

que ordenado de menor a mayor resulta:

2,7; 3,8; 4,2; 4,4; 6,3; 6,9; 7,2; 8,2; 9,3; 10,3

Las medidas de tendencia central media y mediana de los mismos son, respectivamente,
2,7  3,8  4,2  4,4  6,3  6,9  7,2  8,2  9,3  10,3 6,9  6,3
Media   6,33 Mediana   6,6
10 2

el dato 9,3 y se registra como 93. El nuevo

, la mediana sigue siendo 6,6 (ya que se calcula como la media aritmética de los dos valores centrales, 6,3 y 6,9, que no se han modificado), pero la media

2,7  3,8  4,2  4,4  6,3  6,9  7,2  8,2  10,3  93


Media   14,7
10

…/…

www.udima.es 183
ESTADÍSTICA DESCRIPTIVA

En esta nueva situación, la media aritmética habitual no es una buena medida de centralización de los da‐
tos. Resulta más apropiado calcular la media recortada al 10% de los datos que contienen la observación atípica. Para ello hay que elim

y su valor vendrá dado por:

2. MEDIDAS DE POSICIÓN NO CENTRALES: LOS CUANTILES

Estos parámetros o estadísticos son valores representativos de la población o de la muestra, res-


pectivamente, y se utilizan o bien para medir la concentración de los valores estudiados o bien para
analizar la forma en que se dispersan dichos valores alrededor de un tronco central.

Los cuantiles son valores de la variable que dividen a la distribución de frecuencias en partes
iguales y los más habituales son los siguientes:

• Cuartiles. Si tenemos un conjunto de datos ordenados de menor a mayor, el valor central


(o la media aritmética de los dos valores centrales, si hay un número impar de datos) que
divide a dicho conjunto en dos mitades iguales, es la mediana. Entonces, basándonos en
esta idea, podemos determinar aquellos valores que dividen a la distribución de los datos
analizados en cuatro partes iguales, es decir, en cuatro partes que contienen el mismo
número de elementos. Estos valores son tres; se simbolizan como Q1 , Q2 y y se de-
Q3
nominan, respectivamente, primer, segundo y tercer cuartil. La mediana coincide con el
segundo cuartil, Q2 , y separa en dos mitades iguales el conjunto ordenado de
observacio- nes. El primer cuartil es la mediana de la mitad que contiene los datos más
pequeños (el valor por debajo del cual se sitúa el 25% de las observaciones) y el tercer
cuartil es la mediana de la mitad que contiene las observaciones más grandes (el valor por
debajo del cual se sitúa el 75% de las observaciones).
• Quintiles. Extendiendo el razonamiento que hemos realizado para los cuartiles, los quinti-
les son cuatro valores que dividen a la distribución en cinco partes iguales. Estos valores se
simbolizan con una K K1 , K 2 , K 3 , K 4  de forma que el primer quintil indica que el 20%
de los datos analizados son inferiores a él, en el segundo quintil el 40% de los valores anali-
zados son inferiores a él, en el tercer quintil el 60% de los valores analizados son inferiores
a él y, finalmente, en el cuarto quintil el 80% de los valores analizados son inferiores a él.
• Deciles. Son nueve valores que dividen a la distribución de los datos en 10 partes iguales.
Se simbolizan con una D D1 , D2 ,..., D8 , D9  . El primer decil es un valor que indica que
el
184 www.udima.es
Análisis numérico de una variable medible (III):
M.ª J. Pérez Fructuoso otras medidas de posición, de dispersión, de concentración y de forma

10% de los datos son inferiores a él, para el segundo decil los datos inferiores a él son el
20%, para el tercer decil, el 30% y así sucesivamente hasta el noveno decil cuyo valor in-
dica que el 90% de las observaciones son inferiores a él. El quinto decil se corresponde
con la mediana de la distribución.
• Centiles o percentiles. Son 99 valores que dividen a la distribución de los datos en 100
partes iguales. Se representan mediante la letra P P1 , P2 ,..., Pi ,..., P98 , P99  donde Pi se
re-
fiere al valor del percentil i-ésimo e indica que el i% de los datos quedan por debajo de él
(son inferiores a él) mientras que el (100-i)% de los datos están por encima de Pi (son
superiores a él). El percentil 50 se corresponde con la mediana de la distribución.

Colectivamente, cuartiles, quintiles, deciles y percentiles se conocen con el nombre de cuantiles


y para calcularlos, considerando una muestra donde el número de datos es n y suponiendo que los
datos con los que trabajamos no están agrupados, aplicamos en primer lugar la siguiente expresión,
r 
n
q

donde r hace referencia al cuantil que queremos calcular y q al número de intervalos de igual fre-
cuencia en los que queremos dividir la distribución, esto es:

• Si q  4 y r 1, 2, 3 obtenemos los cuartiles ( r  1 es el primer cuartil, r  2 el segundo


cuartil y r  3 el tercer cuartil).

• Si
q5 r 1, 2, 3, obtenemos los quintiles ( r  1 es el primer quintil, r el se-
y 4 2
gundo quintil, r  3 el tercer quintil y r  4 el cuarto quintil).

• Si
q 10 y r 1, 2, 3, 4, 5, 6, 7, obtenemos los deciles ( r  1 es el primer decil,
8, 9
r  2 el segundo decil, r  el tercer decil, r  4 el cuarto decil, r  5 el quinto decil,
3
y así sucesivamente hasta r  9 que es el noveno decil).

• Si
q 100 y r 1, 2, 3, ..., obtenemos los percentiles ( r  1 es el primer percentil,
99
r  2 el segundo percentil, r  el tercer percentil, y así sucesivamente hasta r  99
3
que es el percentil noventa y nueve).

Seguidamente construimos la distribución de frecuencias absolutas acumuladas y observamos


rn rn
cuál de los valores de Ni supera o iguala a . Si Ni supera a el cuantil es el correspondiente al
q q
rn
valor de la variable asociado a ese Ni. Si Ni iguala a entonces el cuantil es la media aritmética del
q
valor de la variable asociado a ese Ni, xi, y el siguiente, xi+1, igual que sucedía cuando explicamos
cómo calcular la mediana de una distribución de datos con frecuencias no unitarias.

Si los datos muestrales analizados se encuentran agrupados en intervalos, el procedimiento para


determinar los cuantiles es el siguiente:

• Calculamos en primer lugar la clase o el intervalo donde se encuentra el valor,


rn
q

www.udima.es 185
ESTADÍSTICA DESCRIPTIVA

• Posteriormente aplicamos la siguiente fórmula:


rn
 Ni1
– Para los cuartiles: Qi  Li1  4  ai
ni

rn
 i1
– Para los quintiles: Ki  Li1 N  ai
 5
ni

rn
 i1
– Para los deciles:  Li1 N  ai
Di 10

ni

rn
– Para los percentiles: P  L  i1
a
N
 100
i i1 i
ni

donde, en todos los casos,


Li es el extremo inferior del intervalo donde se encuentra el
1
cuantil calculado, r es el cuantil que queremos calcular, Ni es la frecuencia absoluta
1
acumulada en el intervalo anterior al que se encuentra el cuantil, ni es la frecuencia absolu-
ta asociada al intervalo en el que se sitúa el cuantil y la amplitud de dicho intervalo.
ai
(Observa que hemos expresado todas las fórmulas de los cuantiles para un conjunto de n
datos muestrales. Si en lugar de una muestra trabajamos con la población, las fórmulas
son idénticas y lo único que varía es el número de datos considerado que pasa a ser susti-
tuido por N).

En general, el cálculo de los cuantiles se realiza de forma similar al cálculo de la mediana.

ce referencia al gasto en euros que realiza una muestra de 34 jóvenes menores de 20 años durante un fin de semana:
49, 60, 75, 61, 57, 61, 40, 72, 70, 83, 73, 81, 67, 70, 76, 45, 63,
79, 66, 70, 75, 70, 78, 76, 69, 52, 58, 80, 67, 31, 58, 53, 68, 67

til, el quinto decil y los percentiles quinto, noveno y septuagésimo.

ocalización que nos pide el enunciado, ordenamos primero los datos y elaboramos a continuación una tabla de frecuencias con las frecuencias absoluta

n,
31, 40, 45, 49, 52, 53, 57, 58, 58, 60, 61, 61, 63, 66, 67, 67, 67,
68, 69, 70, 70, 70, 70, 72, 73, 75, 75, 76, 76, 78, 79, 80 81, 83
186 www.udima.es
Análisis numérico de una variable medible (III):
M.ª J. Pérez Fructuoso otras medidas de posición, de dispersión, de concentración y de forma

…/…

y con ellos la tabla de frecuencias absolutas simples y acumuladas resulta:

xi ni Ni

31 1 1
40 1 1+1=2
45 1 1+1+1=3
49 1 1+1+1+1=4
52 1 1+1+1+1+1=5
53 1 1+1+1+1+1+1=6
57 1 1+1+1+1+1+1+1=7
58 2 1+1+1+1+1+1+1+2=9
60 1 1 + 1 + 1 + 1 + 1 + 1 + 1 + 2 + 1 = 10
61 2 1 + 1 + 1 + 1 + 1 + 1 + 1 + 2 + 1 + 2 = 12
63 1 1 + 1 + 1 + 1 + 1 + 1 + 1 + 2 + 1 + 2 + 1 = 13
66 1 1 + 1 + 1 + 1 + 1 + 1 + 1 + 2 + 1 + 2 + 1 + 1 = 14
67 3 1 + 1 + 1 + 1 + 1 + 1 + 1 + 2 + 1 + 2 + 1 + 1 + 3 = 17
68 1 1 + 1 + 1 + 1 + 1 + 1 + 1 + 2 + 1 + 2 + 1 + 1 + 3 + 1 = 18
69 1 1 + 1 + 1 + 1 + 1 + 1 + 1 + 2 + 1 + 2 + 1 + 1 + 3 + 1 + 1 = 19
70 4 1 + 1 + 1 + 1 + 1 + 1 + 1 + 2 + 1 + 2 + 1 + 1 + 3 + 1 + 1 + 4 = 23
72 1 1 + 1 + 1 + 1 + 1 + 1 + 1 + 2 + 1 + 2 + 1 + 1 + 3 + 1 + 1 + 4 + 1 = 24
73 1 1 + 1 + 1 + 1 + 1 + 1 + 1 + 2 + 1 + 2 + 1 + 1 + 3 + 1 + 1 + 4 + 1 + 1 = 25
75 2 1 + 1 + 1 + 1 + 1 + 1 + 1 + 2 + 1 + 2 + 1 + 1 + 3 + 1 + 1 + 4 + 1 + 1 + 2 = 27
76 2 1 + 1 + 1 + 1 + 1 + 1 + 1 + 2 + 1 + 2 + 1 + 1 + 3 + 1 + 1 + 4 + 1 + 1 + 2 + 2 = 29
78 1 1 + 1 + 1 + 1 + 1 + 1 + 1 + 2 + 1 + 2 + 1 + 1 + 3 + 1 + 1 + 4 + 1 + 1 + 2 + 2 + 1 = 30
79 1 1 + 1 + 1 + 1 + 1 + 1 + 1 + 2 + 1 + 2 + 1 + 1 + 3 + 1 + 1 + 4 + 1 + 1 + 2 + 2 + 1 + 1 = 31
80 1 1 + 1 + 1 + 1 + 1 + 1 + 1 + 2 + 1 + 2 + 1 + 1 + 3 + 1 + 1 + 4 + 1 + 1 + 2 + 2 + 1 + 1 + 1 = 32
81 1 1+1+1+1+1+1+1+2+1+2+1+1+3+1+1+4+1+1+2+2+1+1+1+1=
33
83 1 1+1+1+1+1+1+1+2+1+2+1+1+3+1+1+4+1+1+2+2+1+1+1+1+1
= 34

Como hemos visto en la definición, los cuartiles de una distribución la dividen en cuatro partes iguales
que contienen el mismo número de elementos. El primer cuartil es el valor por debajo del cual se sitúa el
25% de las observaciones, mientras que el tercer cuartil es el valor por debajo del cual se sitúa el 75% de
las observaciones.

Para determinar el primer cuartil calculamos 1  34


 y buscamos el valor de la variable cuya fre‐
8,5
4
cuencia absoluta acumulada iguale o supere 8,5. En nuestro caso, el primer valor de la frecuencia
absoluta acumulada que supera 8,5 es 9 y se corresponde con un valor de la variable estudiada de xi = 58.
Como la frecuencia absoluta de los datos no es unitaria y Ni = 9 > 8,5, el valor xi = 58 se define como el
primer cuar‐ til, lo que significa que el 25% de los jóvenes analizados en la muestra se gasta menos de 58
euros durante el fin de semana. El tercer cuartil viene dado por el valor de la variable cuya frecuencia
absoluta acumu‐
3  34
lada iguala o supera  25,5. En nuestro caso, el primer valor de la frecuencia absoluta acumulada
4
que supera 25,5 es 27 y se corresponde con un valor de la variable de xi = 75. Como la frecuencia absoluta
de los datos no es unitaria y Ni = 27>25,5, el valor xi = 75 se define como el tercer cuartil, lo que significa
que el 75% de los jóvenes muestrados gasta menos de 75 euros durante el fin de semana.
…/…

www.udima.es 187
ESTADÍSTICA DESCRIPTIVA

…/…

Los deciles son nueve valores


nuestro ejemplo, para obtener

buscado se obtendrá a partir del valor de la variable cuya frecuencia absoluta


pere 17. Como la frecuencia absoluta de los datos no es unitaria y hay un Ni = 17
67  68

guiente xi+1 = 68,  67


2
euros durante el fin de seman

Finalmente, para hallar el quin

absoluta de los datos no es unitaria y el primer valor de la frecuencia absoluta acumulada que iguala o su‐
pera a 1,7 es 2, de manera que Ni = 2 > 1,7, y el valor de la variable asociado a 2 es 40, podemos concluir que P5  40. Esto además significa

Operando de la misma forma para los percentiles 9 y 70 resulta que:

9  34  3,06  N  4  3,06  P  49
100

cuya interpretación es que el


respectivamente, durante el

EJEMPLO 3

Dada la siguiente tabla de datos agrupados,

Intervalo ni

30‐40 1
40‐50 3
50‐60 11
60‐70 21
70‐80 43
80‐90 32
90‐100 9

calcula el segundo cuartil, el segundo decil y el percentil 75.

…/…

188 www.udima.es
Análisis numérico de una variable medible (III):
M.ª J. Pérez Fructuoso otras medidas de posición, de dispersión, de concentración y de forma

…/…

Solución:

Como los datos del ejemplo vienen agrupados en intervalos de clase, construimos en primer lugar la tabla
con la marca de clase y las frecuencias simples y absolutas acumuladas:

Intervalo ci ni Ni

30‐40 35 1 1
40‐50 45 3 1+3=4
50‐60 55 11 1 + 3 + 11 = 15
60‐70 65 21 1 + 3 + 11 + 21 = 36
70‐80 75 43 1 + 3 + 11 + 21 + 43 = 79
80‐90 85 32 1 + 3 + 11 + 21 + 43 + 32 = 111
90‐100 95 9 1 + 3 + 11 + 21 + 43 + 32 + 9 = 120

A partir de estos datos, para determinar los cuantiles de la distribución operamos de la siguiente forma:

• Establecemos en primer lugar el intervalo o clase en el que se va a encontrar el cuantil buscado.


Entonces:

– Para el segundo cuartil la clase será el primer intervalo cuya frecuencia absoluta acumula‐
2  120
da iguale o supere el valor  60. Dicho intervalo es 70‐80 puesto que su frecuencia
4
absoluta acumulada es 79.
– Para el segundo decil la clase será el primer intervalo cuya frecuencia absoluta acumulada

iguale o supere el valor 


2 120
 24. Dicho intervalo es 60‐70 puesto que su frecuencia ab‐
10
soluta acumulada es 36.
– Para el percentil 75 la clase será el primer intervalo cuya frecuencia absoluta acumulada
75  120
iguale o supere el valor  90. Dicho intervalo es 80‐90 puesto que su frecuencia
100
absoluta acumulada es 111.

• A continuación calculamos los cuantiles pedidos aplicando la siguiente fórmula en cada caso:

60  36
– Para los cuartiles: Q2  70 10  75,58
43

24 
– Para los deciles: D2  60 10  64,29
15

21

90 
– Para los percentiles: P75  80 10  83,44
79

32
www.udima.es 189
ESTADÍSTICA DESCRIPTIVA

3. OTRAS MEDIDAS DE DISPERSIÓN

3.1. EL RANGO O RECORRIDO RELATIVO

El recorrido relativo se define como el cociente entre el rango o recorrido de la distribución y su


media aritmética y su formulación viene dada por la siguiente expresión:
R
RR 
x

Esta medida de dispersión relativa indica el número de veces que el rango contiene a la media
aritmética.

MPLO 4

deremos la siguiente tabla en la que se recogen los resultados obtenidos en una encuesta a 25 fami‐ lias acerca del número de hijos que tiene cada una de

Número de hijos Número de familias

0 5
1 6
2 8
3 4
4 2

Para calcular el recorrido relativo de la distribución debemos obtener en primer lugar el rango, o diferen‐
cia entre los valores máximo y mínimo que puede tomar la variable, en nuestro caso R = 4 – 0 = 4, y la media aritmética simple de los datos,

0  5  1  6  2  8  3  4  4  2  1,68

1m
x x  n 
n i1
ii 25

Entonces, el rango o recorrido relativo es:


RR  R  4  2,381
x1,68

3.2. EL COEFICIENTE DE APERTURA

El coeficiente de apertura, también llamado por algunos autores coeficiente de disparidad,


es una medida de dispersión relativa que establece una relación entre el mayor y el menor valor de
la distribución. Entonces, para una serie de datos muestrales ordenados de forma creciente,
x1 , x2 , x3 ,..., xn  , el coeficiente de apertura se define como,
x
CApertura  n
x1

190 www.udima.es
Análisis numérico de una variable medible (III):
M.ª J. Pérez Fructuoso otras medidas de posición, de dispersión, de concentración y de forma

y en otro caso,
max xi
CApertura 
min xi

Así, cuanto mayor sea el valor de dicho coeficiente decimos que mayor será la apertura de la
distribución analizada. De todas formas, el interés de esta medida de dispersión es limitado ya que
se establece a partir de los valores extremos de la distribución y según sean dichos valores puede dar
lugar a resultados distorsionados.

Por ejemplo, consideremos la siguiente serie de puntuaciones obtenidas por 10 individuos en una
prueba psicotécnica:

4,3; 1,8; 2,4; 6,2; 7,3; 0,7; 5,2; 8,3; 2,2; 4,9

Si ordenamos estos datos de menor a mayor tenemos:

0,7; 1,8; 2,2; 2,4; 4,3; 4,9; 5,2; 6,2; 7,3; 8,3

el coeficiente de apertura es,

xn 8,3
CApertura    11,857
x1 0,7

cuyo valor elevado indica que la distribución es abierta.

3.3. EL RANGO O RECORRIDO INTERCUARTIL O INTERCUARTÍLICO

El rango intercuartil es una medida de dispersión que se define como la diferencia entre el tercer
y el primer cuartil de la distribución de datos analizada,

RI  Q3  Q1

y nos da la franja en la que se encuentra el 50% de los datos.

Como apuntamos en la Unidad didáctica 4, cuanto mayor es el rango o recorrido de una distribu-
ción mayor es el campo de variabilidad de la variable estudiada y, por tanto, mayor es su dispersión.
Esta medida proporciona una información inicial acerca de la variabilidad de la distribución analizada.
El rango intercuartil es un recorrido corregido que elimina el primer y el último cuartil de la distribu-
ción, y que, como sucede con el rango, suele recoger las informaciones menos fiables.

A partir de esta medida, es posible definir el rango o recorrido semi-intercuartil del conjunto
de datos muestrales como el rango intercuartil dividido entre dos:
Q3  Q1
RSI  Q 
2

www.udima.es 191
ESTADÍSTICA DESCRIPTIVA

Algunos autores definen el rango semi-intercuartil como el cociente entre el rango intercuartil y la
suma del primer y tercer cuartil, esto es,
Q3  Q1
RSI  Q 
Q1  Q3

y se aplica cuando se utiliza como medida de posición central la mediana.

Si consideramos los datos del ejemplo 2 de esta Unidad didáctica,

xi ni Ni

31 1 1
40 1 2
45 1 3
49 1 4
52 1 5
53 1 6
57 1 7
58 2 9
60 1 10
61 2 12
63 1 13
66 1 14
67 3 17
68 1 18
69 1 19
70 4 23
72 1 24
73 1 25
75 2 27
76 2 29
78 1 30
79 1 31
80 1 32
81 1 33
83 1 34

en los que los cuartiles primero y tercero resultaron:

1 34
• Primer cuartil:  El valor de la frecuencia absoluta acumulada que iguala o
8,5.
4
supera a 8,5 es 9 y se corresponde con un valor de la variable estudiada de xi = 58. El
primer cuartil es entonces 58.
192 www.udima.es
Análisis numérico de una variable medible (III):
M.ª J. Pérez Fructuoso otras medidas de posición, de dispersión, de concentración y de forma

3  34
• Tercer cuartil:  El valor de la frecuencia absoluta acumulada que iguala o
25,5.
4
supera a 25,5 es 27 y se corresponde con un valor de la variable estudiada de xi = 75. El
tercer cuartil es entonces 75.

Podemos obtener fácilmente el rango intercuartílico como,

RI  Q3  Q1  75  58  17

y el rango semi-intercuartílico vendrá dado por la siguiente expresión,

Q3  Q1 75  58 17
RSI     8,5
2 2 2

o bien,
Q3  Q1 75  58
RSI  Q    0,1278
Q1  Q3 58  75

3.4. EL RANGO PERCENTIL 10‐90 O RANGO ENTRE PERCENTILES

El rango percentil 10-90, o rango entre percentiles, de un conjunto de datos muestrales se define
como la diferencia entre el percentil 90 y el percentil 10:

Rango percentil 10-90 = P90  P10

Aunque no es frecuente, puede utilizarse también como medida alternativa de dispersión el rango
percentil semi 10-90 definido como:
1
Rango percentil semi 10-90 =  P  P 
90 10
2

EJEMPLO 5

Determina el rango entre percentiles y el rango percentil semi 10‐90 para los siguientes datos: 97, 72, 87, 57, 39, 81, 70, 84, 93, 79, 84, 81,
Solución:

Para determinar el rango entre percentiles y el rango percentil semi 10‐90 debemos obtener en primer lugar los percentiles 10 y 90 as
www.udima.es 193
ESTADÍSTICA DESCRIPTIVA

…/…

xi ni Ni

39 1 1
57 1 2
65 1 3
70 1 4
72 2 6
75 1 7
77 1 8
79 1 9
81 2 11
84 3 14
87 1 15
93 1 16
94 1 17
96 1 18
97 2 20

10  20 90 20
A continuación calculamos 2y  18 y buscamos los valores de la variable cuyas fre‐
100 100

a absoluta acumulada que iguala o supera a 18 es 18 y se corresponde con un valor de la variable estudiada de xi = 96. Por tanto, como la frecuencia absolu

57  65 96  97
P10  2  61 P  96,5
y 90
2

y a partir de ellos podemos calcular el rango entre percentiles y el rango percentil semi 10‐90 como sigue:

Rango percentil 10‐90 = P90  P10  96,5  61  35,5

1
Rango percentil semi 10‐90 = P  P
9010
   196,5  61  17,75
2 2

3.5. LA DESVIACIÓN MEDIA Y LA DESVIACIÓN MEDIANA

La desviación de una variable estadística es la diferencia entre el valor de la variable y la media


aritmética xi  x . Cada valor de la variable tiene una desviación respecto a la media de forma que si
sumamos todas las desviaciones multiplicadas cada una de ellas por su correspondiente frecuencia ab-
soluta el resultado siempre ha de ser igual a 0:
m

 x
i 1
i  x   ni  0

194 www.udima.es
Análisis numérico de una variable medible (III):
M.ª J. Pérez Fructuoso otras medidas de posición, de dispersión, de concentración y de forma

Entonces, a partir de este concepto genérico de desviación podemos definir dos estadísticos de
dispersión de la siguiente manera:

• Desviación media absoluta (o simplemente desviación media). Es la media de los valo-


res absolutos de las desviaciones respecto a la media aritmética. Se simboliza como Dx y
su formulación es:

x
m
ni
Dx  i x 
i1 n

La desviación media informa sobre el grado de separación de los datos respecto a su


media.
Para calcular esta medida de dispersión se toman las desviaciones en valor absoluto para
evitar que unas se neutralicen con otras. Sin embargo, esto es precisamente una desventa-
ja de utilizar este estadístico como medida de dispersión ya que los valores absolutos no
son muy adecuados para realizar cálculos y posteriores estudios.
Por ejemplo, vamos a calcular la desviación media del siguiente conjunto de datos:

12, 6, 7, 3, 15, 10, 18, 5


La media aritmética es:

12  6  7  3  15  10  18  5 76
x 8  8  9,5

Entonces, la desviación media absoluta o desviación media se obtiene aplicando la expre-


n
xi  x
sión Dx 
i1 n  como sigue:

8
xi  9,5
Dx  
i 1 n

12  9,5  6  9,5  7  9,5  3  9,5  15  9,5  10  9,5  18  9,5  5  9,5


 8 
2,5  3,5  2,5  6,5  5,5  0,5  8,5  4,5 34
 8  8  4,25

• Desviación mediana. Es la media de los valores absolutos de las desviaciones de la varia-


ble respecto a la mediana de la distribución. Se simboliza como DMe y su formulación es:
m
n
DMe   x  Me 
i1
i
i n

La desviación mediana informa sobre la distancia entre los datos y su mediana de forma
que cuanto mayor sea la dispersión existente entre dichos datos, mayor será el promedio
del valor absoluto de las diferencias de los mismos respecto de la mediana muestral.

Tanto la desviación mediana como la desviación media tienen las mismas unidades de es-
cala que los datos originales, lo que facilita su comprensión.

www.udima.es 195
ESTADÍSTICA DESCRIPTIVA

Por ejemplo, considerando de nuevo los datos del ejemplo anterior 12, 6, 7, 3, 15, 10, 18,
5, para calcular la desviación mediana debemos en primer lugar ordenarlos de menor a
mayor, 3, 5, 6, 7, 10, 12, 15, 18. A continuación obtenemos la mediana de los mismos
que, al ser un número par de observaciones se obtiene como la media aritmética de los
dos valores centrales, esto es:
7  10
2  8,5
n xi  Me
Finalmente, la desviación mediana se obtiene aplicando la fórmula D 
Me 
i1 n
,
como sigue:

DMe  xi  8,5
8 

i 1

3  8,5  5  8,5  6  8,5  7  8,5  10  8,5  12  8,5  15  8,5  18  8,5


 8 
5,5  3,5  2,5  1,5  1,5  3,5  6,5  9,5
 8  4,25

Otra medida de dispersión que se construye a partir del concepto de desviación es la va-
rianza que ya hemos analizado en profundidad en la Unidad didáctica 4.

4. OTRAS MEDIDAS DE FORMA

4.1. OTRAS MEDIDAS DE SIMETRÍA

Como ya definimos en la Unidad didáctica 4, el sesgo de una distribución se refiere al grado de


asimetría que dicha distribución presenta. Para analizar esta característica, además de los coeficientes
de asimetría de Pearson y de Fisher, existen otras medidas de sesgo definidas en términos de cuartiles
y percentiles como son el coeficiente cuartil de sesgo, medida cuartil de asimetría o índice de asimetría
de Yule-Bowley y el coeficiente percentil 10-90 de sesgo o coeficiente de sesgo percentílico.

En una distribución simétrica (como por ejemplo la distribución normal) los cuartiles quedan si-
tuados de forma simétrica respecto a la mediana, pero si la distribución analizada es asimétrica uno de
los cuartiles se separa de la mediana más que otro. Esto significa que en una distribución normal
Q3  Q2  Q2  Q1. Sin embargo, cuando la distribución es asimétrica positiva se produce la
siguiente
desigualdad,
Q3  Q2  Q2  Q1

mientras que si la distribución es asimétrica negativa, la desigualdad tiene signo contrario, esto es:

Q3  Q2  Q2  Q1

El coeficiente cuartil de sesgo, o coeficiente de asimetría de Yule-Bowley, define esta relación


o separación entre los cuartiles y la mediana a partir de la siguiente fórmula,
Q3  Q2  Q2  Q1  Q3  2  Q2  Q1
Coeficiente cuartil de sesgo = 
Q3  Q1 Q3  Q1
196 www.udima.es
Análisis numérico de una variable medible (III):
M.ª J. Pérez Fructuoso otras medidas de posición, de dispersión, de concentración y de forma

siendo
Q2 la mediana de la distribución. De esta forma, si la distribución es asimétrica a la derecha
Q3 está más lejos de la mediana que Q1 y si la distribución es asimétrica a la izquierda Q1 está más
alejada de la mediana que Q3.

Este índice varía entre –1 y 1 de forma que si es 0 la distribución es normal (simétrica) y es una
medida invariante a cambios de origen de referencia y de escala.

El coeficiente de sesgo percentílico se aplica con el mismo criterio que el coeficiente de asi-
metría de Yule-Bowley y viene definido por la siguiente ecuación,
P90  P50   P50  P10  P90  2  P50  P10
Coeficiente percentil 10-90 de sesgo = 
P90  P10 P90  P10

donde es la mediana de la distribución analizada.


P50

Finalmente, conviene mencionar el coeficiente de asimetría que tiene definida la hoja de cálculo
Excel como una de sus funciones estadísticas. Este coeficiente es,
n n  x  x 3
Coeficiente de asimetría de Excel =
n 1 n  2  i1  s 

 i 

y solo puede utilizarse en distribuciones de variables estadísticas cuyos valores tengan una frecuencia
absoluta unitaria puesto que, como puede observarse en la fórmula, no se contempla la frecuencia de
cada valor de la variable.

EJEMPLO 6

A partir de los datos del ejemplo 2 de esta Unidad didáctica (ver tabla de frecuencias absolutas en el ejemplo 2) los cuartiles primero y

Para obtener el coeficiente cuartil de sesgo, cuya expresión viene dada por la siguiente fórmula:

Coeficiente cuartil d

nos hace falta conocer el valor del segundo cuart

no unitarias. Como existe una frecuencia absolut

ponde con un valor de la variable analizada de x


dia aritmética de dicho valor xi = 67 y del siguien

El coeficiente cuartil de sesgo será entonces:

Coeficiente cuartil de sesgo

de donde se deduce que la distribución es asimétrica hacia la izquierda (el valor de


vo) y, por tanto, el primer cuartil está más alejado de la mediana que el tercer cuarti
…/…
www.udima.es 197
ESTADÍSTICA DESCRIPTIVA

…/…

Con los mismos datos, para obtener el coeficiente percentil 10‐90 de sesgo, expresado mediante la fórmula,

Coeficiente percentil 10‐90 de sesgo = P90  2  P50  P10


P90  P10
necesitamos obtener los percentiles 10, 50 y 90 de la distribución de datos analizada. Entonces:

10  34
La primera frecuencia absoluta acumulada mayor o igual que  3,4 es 4 y se corresponde
100
con un valor de la variable de xi = 49. El percentil 10 es 49.
50  34
La primera frecuencia absoluta acumulada mayor o igual que  17 es 17 y se corresponde
100
con un valor de la variable de xi = 67. El percentil 50 es (67 + 68)/2 = 67,5.
90  34
La primera frecuencia absoluta acumulada mayor o igual que  30,6 es 31 y se corresponde
100
con un valor de la variable de xi = 79. El percentil 90 es 79.

El coeficiente percentil 10‐90 de sesgo buscado es,

79  2 (67 ,5)  49 
Coeficiente percentil 10‐90 de sesgo =   0,2333
79  49

que, como en el caso del coeficiente cuartil de sesgo, indica una asimetría negativa de la distribución de
los datos.

4.2. OTRAS MEDIDAS DE APUNTAMIENTO O CURTOSIS

Igual que sucede con las medidas de asimetría, es posible definir otra medida de apuntamiento o
curtosis de la distribución basada en cuartiles y percentiles. Dicha medida recibe el nombre de coeficien-
te percentil de curtosis o coeficiente de curtosis de Kelley y se expresa mediante la siguiente
ecuación:
1
 Q
Q 
3 1
Coeficiente percentil de curtosis = 2
P90  P10

Este coeficiente vale 0,263 para la distribución normal, que como sabemos es mesocúrtica. Por
tanto, la distribución será leptocúrtica si el coeficiente es mayor que 0,263 y será platicúrtica para va-
lores del coeficiente menores que 0,263.

Alternativamente podemos definir de nuevo el cociente percentil de curtosis en función de su va-


lor para la distribución normal como,
1
  Q  Q1
Coeficiente percentil de curtosis = 2 3
  0,263
P90  P10

de forma que, en este caso, la distribución analizada será leptocúrtica para valores del coeficiente ma-
yores que 0, será platicúrtica para valores del coeficiente menores que 0 y será mesocúrtica cuando el
coeficiente sea nulo.
198 www.udima.es
Análisis numérico de una variable medible (III):
M.ª J. Pérez Fructuoso otras medidas de posición, de dispersión, de concentración y de forma

EJEMPLO 7

Tomemos, en este caso, los datos trabajados en el ejemplo 5 de esta misma Unidad didáctica (97, 72, 87,
57, 39, 81, 70, 84, 93, 79, 84, 81, 65, 97, 75, 72, 84, 96, 77, 94) para calcular el rango entre percentiles y el
ran‐ go percentil semi 10‐90. Recordemos la tabla con las frecuencias absolutas simples y acumuladas,

xi ni Ni

39 1 1
57 1 2
65 1 3
70 1 4
72 2 6
75 1 7
77 1 8
79 1 9
81 2 11
84 3 14
87 1 15
93 1 16
94 1 17
96 1 18
97 2 20

y el valor de los percentiles 10 y 90 de la distribución que son, respectivamente, 60,5 y 96. Entonces, para
determinar el coeficiente percentil de curtosis, dado por la fórmula,
1
 Q  Q 
2 3 1
Coeficiente percentil de curtosis =  0,263
P90  P10

necesitamos conocer el valor de los cuartiles primero y tercero en una distribución de datos con fre‐
cuencias absolutas no unitarias. Como la primera frecuencia absoluta acumulada mayor o igual que
1 20
4 5
es 6 y se corresponde con el valor de la variable 72, el primer cuartil de la distribución será

Q1 = 72. Por otra parte, la primera frecuencia absoluta acumulada mayor o igual que   15 es 15 y
3 20

4
el valor de la variable asociado a dicha frecuencia es 87. Por tanto, el tercer cuartil es Q3 = (87 + 93)/2 =

90. Con los cálculos realizados, el valor del coeficiente percentil de curtosis es,

1 1
 Q   90  72
1
3
Q
2 2
Coeficiente percentil de curtosis   0,263   0,263 
P90  P10 96  60,5

 0,25352113  0,263  0,0094789

lo que significa que la distribución será platicúrtica.


www.udima.es 199
ESTADÍSTICA DESCRIPTIVA

Finalmente, en este caso también conviene hacer mención al coeficiente de curtosis que tiene de-
finida la hoja de cálculo Excel como una de sus funciones estadísticas,
 n  n 1
 n
 x 4 3 n 1
2
x 
 
Coeficiente de curtosis de Excel = 
     

  i     
 n 1  n  2  n i1  s  n2n3
3 

y que en la práctica es equivalente al coeficiente de curtosis de Fisher analizado en la Unidad didáctica 4.

5. MEDIDAS DE CONCENTRACIÓN

Las medidas de concentración se utilizan para medir el mayor o menor grado de igualdad en la
distribución o reparto de los valores de una variable. Habitualmente son utilizadas para el análisis de
cuestiones económicas tales como aspectos de redistribución de la renta, de la riqueza, de los sala-
rios, etc.

Razonando lógicamente, las posibilidades de variación de la concentración varían desde un valor


máximo, que se produce cuando un único individuo percibe el total de la variable analizada y los de-
más no perciben nada, dando lugar a un reparto no equitativo, hasta la concentración mínima, cuando
el total analizado se reparte por igual entre todos los valores de las variables, generando entonces un
reparto equitativo.

Resumiendo, se produce concentración máxima cuando uno solo percibe el total y los demás
nada, en este caso, nos encontraremos ante un reparto no equitativo y:

x1  x2  x3  xn1 y x
n

Se produce concentración mínima cuando el conjunto total de valores de la variable está reparti-
do por igual; en este caso diremos que estamos ante un reparto equitativo y:

x1  x2  x3  xn1  xn

Las medidas de concentración más utilizadas son el índice de Gini, que es un coeficiente y por
tanto será un valor numérico, y la curva de Lorenz, que es un gráfico y por tanto solo será una repre-
sentación en un eje de coordenadas.

5.1. EL ÍNDICE DE GINI

Para calcular el índice de Gini (y posteriormente la curva de Lorenz) consideramos una distribu-
ción de rentas xi ; ni  a partir de la cual construiremos una tabla con las siguientes columnas:

1.ª Los productos


xi ni , que nos indicarán la renta total percibida por los ni individuos
que perciben una renta individual de valor xi .

2.ª Las frecuencias absolutas acumuladas


Ni .
200 www.udima.es
Análisis numérico de una variable medible (III):
M.ª J. Pérez Fructuoso otras medidas de posición, de dispersión, de concentración y de forma

3.ª Los totales acumulados ui de los productos xi ni que se calculan de la siguiente forma:

u1  x1  n1
u2  x1  n1  x2  n2
u3  x1 n1  x2 n2  x3 n3
u4  x1 n1  x2 n2  x3 n3  x4 n4

um  x1  n1  x2  n2  x3  n3  x4  n4  xm  nm
m

de forma que um   xi  ni .
i1

4.ª La columna de frecuencias acumuladas relativas, que expresamos en porcentaje, y que


representamos pi, se calcula a partir de la siguiente expresión:
por
N
p  i 100
i
n

5.ª La columna asociada a la renta total de todos los individuos um también se expresa en
porcentaje, la representamos por y se calcula a partir de la siguiente expresión:
qi
ui
q
100
i
um

Con estas indicaciones ya podemos confeccionar la tabla que nos permitirá calcular el índice de
Gini y que quedará determinada como sigue:
Ni ui
p  100 q  100
xi ni xi  ni Ni ui i
pi  qi
i
n u n

x1 n1 x1 × n1 N1 u1 p1 q1 p1 – q1
x2 n2 x2 × n2 N2 u2 p2 q2 p2 – q2
... ... ... ... ... ... ... ...
xm nm xm × nm Nm um pm qm pm – qm

La última columna que hemos definido en la tabla es la diferencia entre


pi y e indica la con-
qi
centración que muestra la variable. De esta forma, la diferencia p  será 0 cuando la concentración
i
qi
sea mínima ya que en ese pi  qi .
caso

El índice de Gini es la medida de concentración más utilizada y después de haber construido la


tabla anterior podemos obtenerlo aplicando la siguiente expresión:
m1

G
i1 pi  qi 
I  m1
p
i1
i

www.udima.es 201
ESTADÍSTICA DESCRIPTIVA

Este índice puede tomar valores comprendidos entre 0 (cuando


qi  0). Así, pi  qi ) y 1
(cuando
cuando vale 0 significa que la variable está distribuida de forma muy homogénea (concentración míni-
ma) y cuando vale 1 implica que los valores de la variable están muy concentrados (concentración
máxima y por tanto toda la renta está en manos de un único individuo).

Por ejemplo, consideremos la siguiente distribución de datos agrupada en intervalos de igual am-
plitud que representa los ingresos diarios de un conjunto de 260 comerciales que prestan sus servicios
a una empresa editorial multinacional:

ui Ni
qi   100 pi   100
Intervalo ci ni Ni xi× ui pi  qi
ni um n

0‐50 25 23 23 25 × 23 = 575 575 1,48 8,85 7,37

50‐100 75 72 95 75 × 72 = 5.400 575 + 5.400 = 5.975 15,38 36,54 21,16

100‐150 125 62 157 125 × 62 = 575 + 5.400 + 7.750 = 13.725 35,33 60,38 25,06
7.750
150‐200 175 48 205 175 × 48 = 575 + 5.400 + 7.750 + 8.400 = 22.125 56,95 78,85 21,90
8.400
200‐250 225 19 224 225 × 19 = 575 + 5.400 + 7.750 + 8.400 + 4.275 = 67,95 86,15 18,20
4.275 26.400
250‐300 275 8 232 275 × 8 = 2.200 575 + 5.400 + 7.750 + 8.400 + 4.275 + 73,62 89,23 15,61
+ 2.200 = 28.600

300‐350 325 14 246 325 × 14 = 575 + 5.400 + 7.750 + 8.400 + 4.275 + 85,33 94,62 9,29
4.550
+ 2.200 + 4.550 = 33.150

350‐400 375 7 253 375 × 7 = 2.625 575 + 5.400 + 7.750 + 8.400 + 4.275 + 92,08 97,31 5,22
+ 2.200 + 4.550 + 2.625 = 35.775

400‐450 425 5 258 425 × 5 = 2.125 575 + 5.400 + 7.750 + 8.400 + 4.275 + 97,55 99,23 1,68
+ 2.200 + 4.550 + 2.625 + 2.125 = 37.900

450‐500 475 2 260 475 × 2 = 950 575 + 5.400 + 7.750 + 8.400 + 4.275 + 100,00 100,00 0,00
+ 2.200 + 4.550 + 2.625 + 2.125 + 950 =
38.850

Totales: 260 38.850 651,15 (*) 125,48

(*) Suma hasta m – 1, es decir sin considerar el último valor 100.

A partir de estos valores calculados en la tabla, el índice de concentración de Gini resulta:


m1

p i  qi 
125,48
IG  i1
m1   0,193
651,15
p i
i1

cuyo valor cercano a 0 indica que existe poca concentración en los valores de la variable estudiada.
202 www.udima.es
Análisis numérico de una variable medible (III):
M.ª J. Pérez Fructuoso otras medidas de posición, de dispersión, de concentración y de forma

5.2. LA CURVA DE LORENZ

Si los cálculos asociados al índice de Gini los representamos en un eje de coordenadas obtenemos
la curva de concentración o curva de Lorenz. Esta curva es una forma gráfica de representar la dis-
persión o concentración de los valores de una distribución. La representación de los datos de la tabla
anterior para obtener la curva de Lorenz se realiza de la siguiente manera:

• En el eje de las X, representaremos los valores pi en %.


• En el eje de las Y, representaremos los valores de qi en %.

(Por ejemplo, si tenemos que caracterizar el grado de concentración de la renta en una población,
representaremos en el eje de abscisas la población ordenada de manera que los percentiles de renta
más baja se sitúen a la izquierda y los de renta más alta a la derecha. En el eje de ordenadas figurarían
de abajo a arriba los percentiles acumulados de renta).

Al representar cantidades expresadas en porcentaje, el gráfico siempre tendrá forma de cuadrado,


y la gráfica de los datos será una curva que se unirá a dicho cuadrado por los valores (0,0) y (100,100);
es decir, tanto en el eje de abscisas como en el eje de ordenadas la gráfica de la curva se inicia en el
punto (0,0) y termina en el punto (100,100) y quedará siempre por debajo de la diagonal.

Si la variable estuviera distribuida de forma equitativa, la curva de Lorenz coincidiría con la línea
de 45 grados que pasa por el origen, es decir, con la bisectriz de la gráfica. Por el contrario, si un solo
valor concentra toda la masa de distribución y por tanto la distribución de la variable no es equitativa,
la curva de Lorenz coincidirá con el eje horizontal hasta el punto (100,0) donde saltaría al punto
(100,100).

Distribución de concentración mínima Distribución de concentración máxima

qi%
qi%

pi %
pi %

Generalmente la curva se encuentra en una situación intermedia entre estos dos extremos.

La interpretación de la curva de Lorenz resulta simple: cuanto más cerca se sitúe dicha curva de la
diagonal, menor concentración habrá, o mayor será la homogeneidad en la distribución de datos.
Cuanto más se acerque a los ejes, por la parte inferior del cuadrado, mayor concentración existe.

El índice de Gini es aproximadamente el área comprendida entre la diagonal principal y la curva


de Lorenz dividida por el área del triángulo formado por los puntos (0,0), (100,0) y (100,100).

www.udima.es 203
ESTADÍSTICA DESCRIPTIVA

Siguiendo con el ejemplo que hemos enunciado en el epígrafe anterior de cálculo del índice de
Gini, la curva de Lorenz asociada a dicho enunciado es:

cercana a la diagonal, lo que indica que existe poca concentración en los valores de la variable.

6. MOMENTOS DE UNA VARIABLE ESTADÍSTICA UNIDIMENSIONAL

Los momentos son operadores que permiten calcular, de forma simplificada, las distintas medidas
de posición, de dispersión o de forma que caracterizan a una distribución de frecuencias. Los valores
que toman los momentos caracterizan a la distribución de manera que dos distribuciones son iguales,
siempre que todos sus momentos sean iguales, y serán tanto más parecidas cuanto mayor sea el núme-
ro de momentos iguales que tengan.

Existen dos clases de momentos, los momentos ordinarios, momentos respecto al origen (de coor-
denadas) o momentos respecto a 0 y los momentos respecto a la media o momentos centrales.

Los momentos respecto al origen, simbolizados por ah, se obtienen aplicando la siguiente fórmula,
n
x  0
h n
xh xh  xh  xh    xh
ah  
i
 
i

1 2 3 n

i1 n i1 n n

o bien, si la frecuencia absoluta de los datos no es unitaria:


ni
m
 h
x h  n1  x h  n2  x h  n3    x h  nm
h
a x i0 1 2 3 m
i1  
 n n

De esta forma tenemos que:

• Si h  0
entonces a0  1
204 www.udima.es
Análisis numérico de una variable medible (III):
M.ª J. Pérez Fructuoso otras medidas de posición, de dispersión, de concentración y de forma

r 1 ni r ni
es decir, a1 es la media aritmética de
• Si h  1 , entonces a1   x  N   x  N  x,
i i

los valores i1 i1

muestrales.

• En general, podemos decir que el momento respecto al origen de orden h es la media


aritmética de los valores observados elevados a la potencia h .

• También podemos establecer el momento de orden h respecto a cualquier origen A ,


como se indica a continuación,
n
x  Ah m
h ni
 
i
ah  
i1 n o bien, ah   x A
i1
i  n

siendo xi  A las desviaciones de los valores de la variable respecto del origen A. Para
A  0 obtenemos los momentos de orden h respecto al origen de coordenadas.

Por su parte, los momentos centrales o momentos respecto a la media los simbolizamos como mh
y se obtienen aplicando la siguiente expresión: n
 x  x h
mh   i
i 1 n

o bien, si la frecuencia absoluta de los datos no es unitaria:


  
h 
ni
 m   h 
m
mh x x i n x
i1
i x fi
i1

siendo x la media aritmética de los datos muestrales de la variable analizada.

En este caso tenemos que:

• El momento central de orden 1 no tiene ningún valor estadístico ya que su valor siempre
es igual a 0:

m1  m m m 1 m

 x x   x 
1

ni   x ni  
1
  ni  x   xx0
xi n
i1 i i1 i
ni
n n i1
n i1

• El momento central de orden 2, cuya expresión matemática es,

 xn  x 
2
m2  i

i1 i

se conoce como la varianza de la distribución y es, como ya sabemos, una medida de dis-
persión de los valores de la variable respecto a su valor medio.
Es importante tener en cuenta, especialmente a la hora de realizar aplicaciones prácticas,
que la varianza o momento central de orden 2 puede expresarse en función de los momen-

www.udima.es 205
ESTADÍSTICA DESCRIPTIVA

tos ordinarios o momentos respecto al origen como la diferencia entre el momento ordina-
rio de orden 2 y el momento ordinario de orden 1 al cuadrado, esto es:

n 2
m2  a2  a12 
n
x 2
 i 
m  x 1 i

 m 
i
i1 n  i1 n

EJEMPLO 8

Dada la siguiente serie de datos,

0, 1, 3, 9, 13, 14, 17, 20, 21, 22, 25, 26, 34, 58

calcula el momento ordinario de orden 2 y el momento central de orden 3

Solución:

Los momentos ordinarios o respecto al origen se calculan aplicando la sigu


mh
xi  x  hhh
xxx h
ah 

123 r

i1 n n

donde h indica el orden del momento que queremos calcular. En nuestro


mento ordinario pedido resulta:

14
x0  1  3  9  13  14  17  20  21  22  25  26  34
222222222222222
a2 
 14 
i

14
i 1

Por su parte, para calcular el momento central de orden 3 o momento respecto a la media de orden 3, de‐ bemos calcular primero la

 0  1  3  9  13  14  17  20  21  22  25  26
14

1a x  i
14 14
i1

Entonces, el momento central de orden 3 se obtiene aplicando la siguiente

xi  18,7863

14
m3  
i 1 14

0  18,7863  1  18,7863  3  18,7863  9  18,7863  13  18


 14  18,7863  17  18,7863  20  18,7863  21  18,7863 
  25  18,7863  26  18,7863  34  18,7863  58  18,7863
14
206 www.udima.es
Análisis numérico de una variable medible (III):
M.ª J. Pérez Fructuoso otras medidas de posición, de dispersión, de concentración y de forma

 CONCEPTOS BÁSICOS A RETENER

• Centiles o percentiles. 99 valores que dividen a la distribución de los datos en 100 partes
iguales.
• Coeficiente cuartil de sesgo o de Yule-Bowley. Mide la separación entre los cuartiles y
la mediana de la distribución de forma que si la distribución es asimétrica a la derecha
Q3 está más lejos de la mediana que Q1 y si la distribución es asimétrica a la izquierda
Q1 está más alejada de la mediana que Q3.
• Coeficiente de apertura o coeficiente de disparidad. Establece una relación entre el
mayor y el menor valor de la distribución de forma que cuanto mayor sea el valor de di-
cho coeficiente decimos que mayor será la apertura de la distribución analizada.
• Coeficiente de sesgo percentílico. Mide la separación entre los percentiles y la mediana
de la distribución.
• Coeficiente percentil de curtosis o coeficiente de curtosis de Kelley. Mide el apunta-
miento de la distribución analizada a través de los cuartiles y los percentiles.
• Cuartiles. Valores que dividen a la distribución de los datos analizados en cuatro partes
igua- les, es decir, en cuatro partes que contienen el mismo número de elementos.
• Curva de Lorenz. Representación gráfica del índice de Gini de forma que este último se
obtiene aproximadamente como el área comprendida entre la diagonal principal y la cur-
va de Lorenz dividida por el área del triángulo formado por los puntos (0,0), (100,0) y
(100,100).
• Deciles. Nueve valores que dividen a la distribución de los datos en 10 partes iguales.
• Desviación media absoluta (o simplemente desviación media). Media de los valores ab-
solutos de las desviaciones respecto a la media aritmética.
• Desviación mediana. Media de los valores absolutos de las desviaciones de la variable
respecto a la mediana de la distribución.
• Índice de Gini. Medida de concentración que indica el mayor o menor grado de igualdad
en la distribución o reparto de los valores de una variable.
• Quintiles. Cuatro valores que dividen a la distribución en cinco partes iguales.
• Media recortada. La media recortada al β % es la media de los datos que quedan des-
pués de eliminar el β % de los datos más grandes y el β % de los datos más pequeños.
• Momentos de una variable estadística unidimensional. Operadores matemáticos que
permiten calcular de forma simplificada las distintas medidas de posición, de dispersión o
de forma que caracterizan a una distribución de frecuencias.
• Rango o recorrido intercuartil o intercuartílico. Diferencia entre el tercer y el primer
cuartil de la distribución de datos analizada y nos da la franja en la que se encuentra el
50% de los datos.
• Rango o recorrido semi-intercuartil. Es el rango intercuartil dividido entre 2 o el co-
ciente entre el rango intercuartil y la suma del primer y tercer cuartil.
• Rango percentil 10-90 o rango entre percentiles. Diferencia entre el percentil 90 y el
percentil 10.
• Recorrido relativo. Cociente entre el rango o recorrido de la distribución y su media
aritmética e indica el número de veces que el rango contiene a la media aritmética.

www.udima.es 207
ESTADÍSTICA DESCRIPTIVA

 ACTIVIDADES DE AUTOCOMPROBACIÓN

A partir del contenido de la presente Unidad didáctica, se propone la realización de las siguientes
actividades de autocomprobación por parte del alumno, como ejercicio general de repaso y asimilación
de la información básica proporcionada por el texto.

Enunciado 1

La tabla que aparece a continuación recoge información acerca de los salarios percibidos por los
trabajadores de una cadena de tiendas de antigüedades:

Salarios (euros) Empleados

25‐35 7
35‐45 19
45‐55 16
55‐75 8

Determina el primer, segundo y tercer cuartil, el recorrido intercuartil, el recorrido semi-


intercuartil y el percentil 40. ¿Qué salarios definen un intervalo que contenga el 80% central de la
distribución?

Enunciado 2

Al realizar un estudio sobre el número de horas de formación realizadas durante el último año por
50 trabajadores de una productora audiovisual, se ha obtenido que 7 de ellos han realizado entre 10 y
20 horas, 11 entre 20 y 30 horas, 15 entre 30 y 40 horas, 10 entre 40 y 50 horas, 5 entre 50 y 60 horas
y 2 entre 60 y 70 horas. Determina el recorrido relativo, el coeficiente de apertura, el recorrido inter-
cuartílico, el recorrido semi-intercuartílico, el rango entre percentiles, el rango percentil semi 10-90 y
la desviación media.

Enunciado 3

Un importante centro comercial del noroeste de Madrid dispone de zona de aparcamiento para sus
clientes. Los datos mostrados a continuación se refieren al número de horas que un conjunto de vehí-
culos permanecen en dicho aparcamiento:
4, 3, 6, 5, 2, 4, 5, 2, 4, 2, 1, 4, 5, 4, 3, 4, 3, 2, 1, 4, 3, 7, 7, 4, 7, 3, 4, 3, 3 ,5,
4, 6, 5, 6, 1, 3, 4, 6, 4, 2, 5, 6, 3, 4, 3, 2, 1, 3, 6, 5, 2, 4, 7, 5, 5, 5, 4, 1, 2, 3

Determina, a partir de estos datos, el coeficiente cuartil de sesgo, el coeficiente percentil 10-90 de
sesgo y el coeficiente percentil de curtosis.

208 www.udima.es
Análisis numérico de una variable medible (III):
M.ª J. Pérez Fructuoso otras medidas de posición, de dispersión, de concentración y de forma

Enunciado 4

Un estudio sobre los beneficios (en millones de €) obtenidos durante el último año por 20 empre-
sas exportadoras de materias primas para la construcción en la zona euro arroja los siguientes resulta-
dos:

Empresas Beneficios (en millones de euros)

2 10
6 12
6 11
4 14
2 13

Determina la concentración del beneficio de estas empresas exportadoras calculando el índice de


Gini.

Enunciado 5

La cuantía individual de los siniestros (expresada en unidades monetarias) en un determinado tipo


de seguros perteneciente al ramo de no vida viene dada en la siguiente tabla:

Cuantía Número de siniestros

0‐2 180
2‐4 240
4‐8 116
8‐12 20
12‐20 4

Calcula los momentos ordinarios de orden 1 y 2 y los momentos centrales de orden 2 y 3 asocia-
dos a esta distribución de datos.

www.udima.es 209
ESTADÍSTICA DESCRIPTIVA

Solución 1

Para determinar las medidas de posición no centrales de esta distribución de datos salariales agru-
pados, en primer lugar debemos completar la tabla original con las marcas de clase, las frecuencias
absolutas acumuladas, la amplitud de los intervalos y, como se trata de intervalos de diferente ampli-
tud, las densidades de frecuencia:

Salarios (€) ci Empleados (ni) Ni ai hi

7
25‐35 30 7 7 10  0,7
10
19
35‐45 40 19 7+19=26 10  1,9
10
16
45‐55 50 16 7+19+16=42 10  1,6
10
8
55‐75 65 8 7+19+16+8=50 20  0,4
20

Entonces, para calcular el primer, segundo y tercer cuartil de la distribución, al tratarse de datos
agrupados en intervalos de distinta amplitud, aplicamos la siguiente fórmula,

rn
 Ni1
Qi  Li1  4
 ai
ni

donde
Li1 es el extremo inferior del intervalo donde se encuentra el cuartil calculado, r es el cuartil
que queremos calcular, Ni1 es la frecuencia absoluta acumulada en el intervalo anterior al que se
encuentra el cuartil, ni es la frecuencia absoluta asociada al intervalo en el que se sitúa el cuartil y ai
la amplitud de dicho intervalo.

El procedimiento a seguir es el siguiente: establecemos en primer lugar el intervalo en el que se


va a encontrar el cuartil buscado. Para el primer cuartil la clase será aquella cuya frecuencia absoluta
acumulada iguale o supere el valor 1 50
 En este caso, el intervalo es 35-45 puesto que su
12,5.
4
frecuencia absoluta acumulada es 26. Para el segundo cuartil la clase será el primer intervalo cuya
frecuencia absoluta acumulada iguale o supere el valor 2  50  25. Dicho intervalo también es 35-45
4
puesto que su frecuencia absoluta acumulada es 26. Para el tercer cuartil la clase será igualmente el
primer intervalo cuya frecuencia absoluta acumulada iguale o supere en este caso el valor
3  50
 37,5. Dicho intervalo es 45-55 ya que su frecuencia absoluta acumulada es 42.
4

A partir de estos cálculos realizados, el primer cuartil resulta,


12,5  7
Q  35  10  37,895
2
19
210 www.udima.es
Análisis numérico de una variable medible (III):
M.ª J. Pérez Fructuoso otras medidas de posición, de dispersión, de concentración y de forma

el segundo cuartil (que, como ya sabes, coincide con la mediana de la distribución) es,
25  7
Q  35   10  44,474
2
19
y el tercer cuartil resulta:
37,5  26
Q  45  10  52,1875
3
16

Una vez obtenidos los cuartiles de la distribución, el rango intercuartil y semi-intercuartil se de-
ducen fácilmente aplicando las siguientes fórmulas:

RI  Q3 Q1  52,187537,89514,2925

Q3  Q1 52,1875  37,895 14,2925


RSI  2  2  2  7,14625

o bien,
Q3  Q1 52,1875  37,895 14,2925
RSI 
Q1  Q3 37,895  52,1875  90,0825 
0,1587

Para calcular el percentil 40 seguimos el procedimiento utilizado para calcular los cuartiles pero
aplicando la siguiente fórmula:
rn
PL  i1
 a
N
 100
i i1 i
ni

Entonces, el intervalo del percentil será 35-45 puesto que es el primer intervalo cuya frecuencia
absoluta acumulada, 26, iguala o supera 40  50  20. Así, el percentil buscado resulta:
a 100
20  7
 35  10  41,8421
P40 19

Finalmente, los salarios que definen un intervalo que contenga el 80% central de la distribución vie-
nen dados por los deciles primero y noveno. El primer decil se encontrará en el primer intervalo cuya
1 50
frecuencia absoluta acumulada sea mayor o igual que  5 y por tanto dicho intervalo será 25-35.
10
Por su parte, el noveno decil se encontrará en el intervalo 55-75 ya que su frecuencia absoluta acumula-
da, 50, es mayor que 9  50  El valor concreto de los deciles lo obtenemos aplicando la siguiente
45.
fórmula: 10
50
D  25  10  32,143
1
7
45  42
D  55   20  62,5
9
8
www.udima.es 211
ESTADÍSTICA DESCRIPTIVA

Solución 2

Para resolver el problema planteado comenzamos construyendo una tabla de frecuencias con las
siguientes columnas:

Intervalo Marca de clase (ci) ni Ni

10‐20 15 7 7
20‐30 25 11 7 + 11 = 18
30‐40 35 15 7 + 11 + 15 = 33
40‐50 45 10 7 + 11 + 15 + 10 = 43
50‐60 55 5 7 + 11 + 15 + 10 + 5 = 48
60‐70 65 2 7 + 11 + 15 + 10 + 5 + 2 = 50

R
Entonces, para calcular el recorrido relativo RR  necesitamos obtener el rango de la distribución,
x
dado por la diferencia entre el mayor y el menor valor (en este caso, marca de clase) de la misma,

R = 65 – 15 = 50

y la media aritmética de los datos:


1 m
15  7  25 11  35 15  45 10  55  5  65  2
x
n 
i1
xi  ni 
50
 35,2

A partir de estos valores obtenidos, el recorrido relativo resulta:

RR  50
 1,42045
32,5

El coeficiente de apertura viene dado por el cociente entre los valores máximo y mínimo de la
distribución, esto es:
max 65
CApertura    4,333
xi 15
min xi

El cálculo, tanto del recorrido intercuartil como del recorrido semi-intercuartil, requiere de la ob-
tención previa de los cuartiles primero y tercero. Como los datos están agrupados, los cuartiles se deri-
van aplicando la siguiente fórmula:
rn
 i 1
Qi  Li 1  N  ai
4
Por tanto: ni
1 50
• El primer valor de la frecuencia absoluta acumulada que iguala o supera  12,5 es
4
18 que se corresponde con el intervalo 20-30. Entonces, el valor del primer cuartil es:
12,5  7
Q  20  10  25
1
11
212 www.udima.es
Análisis numérico de una variable medible (III):
M.ª J. Pérez Fructuoso otras medidas de posición, de dispersión, de concentración y de forma

3  50
• El primer valor de la frecuencia absoluta acumulada que iguala o supera  37,5 es
4
43, que se corresponde con el intervalo 40-50. Entonces, el valor del tercer cuartil es:
37,5  33
Q  40  10  44,5
3
10
Con lo que el recorrido intercuartil y el recorrido semi-intercuartil resultan:

RI  Q3 Q1  44,5 2519,5


Q3  Q1 44,5  25 19,5 Q  Q1 44,5  25
RSI  Q     9,75 o bien RSI  Q  3   0,280575
2 2 2 Q1  Q3 44,5  25

Para obtener el rango entre percentiles y el rango percentil semi 10-90, dados por las fórmulas,

Rango percentil 10-90 = P90  P10


1
Rango percentil 10-90 =  P  P 
90 10
2

respectivamente, necesitamos obtener los percentiles 10 y 90 de la distribución de datos. Como en el


caso de los cuartiles, al tratarse de datos agrupados los percentiles se obtienen aplicando la siguiente
expresión:

rn
PL  i1
a
N
 100
i i1 i
ni
Por tanto:
10  50
• El primer valor de la frecuencia absoluta acumulada que iguala o supera 5
100 es 7
que se corresponde con el intervalo 10-20. Entonces, el valor del percentil es:
50
P10  10  10  17,143
7

• El primer valor de la frecuencia absoluta acumulada que iguala o supera 90  50  45 es


100
48, que se corresponde con el intervalo 50-60. Entonces, el valor del percentil 90 es:
45  43
P90  50  10  54
5

Con lo que el rango percentil y el rango percentil semi 10-90 resultan:

Rango percentil 10-90 = 54 17,143 36,857

1
Rango percentil semi 10-90 =  54 17,143  18,4285
2
www.udima.es 213
ESTADÍSTICA DESCRIPTIVA

Finalmente, para obtener la desviación media aplicamos la siguiente fórmula,


m
n
Dx   xi  x  i
n
i1

siendo xi  la marca de clase de cada intervalo considerado, x la media aritmética simple de los da-
ci
tos y ni las frecuencias absolutas simples que tenemos calculadas en la tabla de frecuencias. Entonces:

15  35,2  7  25  35,2 11 35  35,2 15 


 45  35,2 10  55  35,2  5  65  35,2  2
Dx   10,264
50

Solución 3

El primer paso para calcular los coeficientes de simetría y de apuntamiento pedidos es construir
una tabla con las frecuencias absolutas simples y acumuladas:

Número de horas Número de coches (ni) Ni

1 5 5
2 8 5 + 8 = 13
3 12 5 + 8 + 12 = 25
4 15 5 + 8 + 12 + 15 = 40
5 10 5 + 8 + 12 + 15 + 10 = 50
6 6 5 + 8 + 12 + 15 + 10 + 6 = 56
7 4 5 + 8 + 12 + 15 + 10 + 6 + 4 = 60

Entonces, el coeficiente cuartil de sesgo se obtiene aplicando la siguiente fórmula,

Q3  2  Q2  Q1
Coeficiente cuartil de sesgo =
Q3  Q1

lo que requiere el cálculo de los cuartiles primero, segundo y tercero.

Como los datos del enunciado no tienen frecuencias absolutas unitarias, el primer cuartil se calcu-
lará a partir de aquel valor de la variable estudiada para el cual la frecuencia absoluta acumulada igua-
1 60
le o supere el valor  15. En este caso, la primera frecuencia absoluta mayor que 15 es 25 y se
4
corresponde con un valor de la variable de xi = 3. Por tanto, el primer percentil será 3.

Para el segundo cuartil buscamos la frecuencia absoluta acumulada que iguale o supere el valor
2  60
 30. Dicha frecuencia es 40 y se corresponde con un valor de la variable de xi = 4. Por tanto,
4
el segundo cuartil es 4.
214 www.udima.es
Análisis numérico de una variable medible (III):
M.ª J. Pérez Fructuoso otras medidas de posición, de dispersión, de concentración y de forma

Finalmente, para obtener el tercer cuartil calculamos 3 60 de forma que la primera fre-
4  45
cuencia absoluta acumulada que lo iguala o supera es 50 y se corresponde con un valor de la variable
de xi = 5. Por tanto, el tercer cuartil es 5.

Con estos cálculos, el coeficiente cuartil de sesgo resulta,

Coeficiente cuartil de sesgo = 5  2  (4)  3  0


53

lo que significa que la distribución es completamente simétrica.

Para obtener el coeficiente percentil 10-90 de sesgo, expresado mediante la fórmula,

P90  2  P50  P10


Coeficiente percentil 10-90 de sesgo =
P90  P10

necesitamos obtener los percentiles 10, 50 y 90 de la distribución analizada. Entonces:

10  60
•  6. El primer valor de la frecuencia acumulada que iguala o supera a 6 es 13 y se
100
corresponde con un valor de la variable de xi = 2. El percentil 10 es 2.

50  60
•  30. El primer valor de la frecuencia acumulada que iguala o supera a 30 es 40 y
100
se corresponde con un valor de la variable de xi = 4. El percentil 10 es 4.

90  60
•  54. El primer valor de la frecuencia acumulada que iguala o supera a 54 es 56 y
100
se corresponde con un valor de la variable de xi = 6. El percentil 90 es 6.

El coeficiente percentil 10-90 de sesgo resulta entonces,


6  2  (4)  2
Coeficiente percentil 10-90 de sesgo = 0
62

lo que corrobora la simetría de la distribución.

Finalmente, para analizar el apuntamiento calculamos el coeficiente percentil de curtosis como,


1 1
 Q  Q1  5  3
Coeficiente percentil de curtosis = 2   0,263  2  0,263  0,013
3
P90  P10 62

de forma que podemos concluir que la distribución es ligeramente platicúrtica por ser el valor del
coeficiente de apuntamiento negativo.
www.udima.es 215
ESTADÍSTICA DESCRIPTIVA

Solución 4

Para calcular el índice de Gini del beneficio de las empresas, en primer lugar completamos la tabla
original con las columnas de los xi  ni , los totales acumulados ui de los xi ni , las
productos productos
frecuencias acumuladas relativas, pi y la columna asociada a la renta total de todos los individuos qi :

Ni
u p  100
q  100
i
xi ni Ni xini ui i p i  qi
i n
un

10 2 2 10 × 2 = 20 20 8,333 10 10 – 8,333 = 1,667


12 6 8 12 × 6 = 72 20 + 72 = 92 38,333 40 40 – 38,333 = 1,667
11 6 14 11 × 6 = 66 20 + 72 + 66 = 158 65,833 70 70 – 65,833 = 4,1667
14 4 18 14 × 4 = 56 20 + 72 + 66 + 56 = 214 89,167 90 90 – 89,167 = 0,8333
13 2 20 13 × 2 = 26 20 + 72 + 66 + 56 + 26 = (100) (100) 100 – 100 = 0
240
Totales: 20 240 210 8,333

A partir de estos valores calculados en la tabla, el índice de concentración de Gini resulta:

 p  qi   p  qi 
m1 51

i1
i
i1
i 8,333
I     0,0397
G m1 51
210
p
i1
i p
i 1
i

El valor del índice está muy próximo a 0 lo que significa que la concentración de los beneficios es
muy baja o, dicho de otro modo, los beneficios en el sector analizado de las 20 empresas exportadoras
de la zona euro tienen una equidistribución muy elevada.

Solución 5

Dado que las frecuencias asociadas a cada intervalo no son unitarias, los momentos ordinarios y
centrales de orden h se calculan aplicando las siguientes fórmulas:
m
h ni

ah  x
i1
i n

mh  m m ni
 x x  x 
h h

i1 i
ni   x
i1 i n
n

Además, como los datos son agrupados, necesitamos obtener la marca de clase de cada intervalo
para poder realizar los cálculos. Por tanto:
216 www.udima.es
Análisis numérico de una variable medible (III):
M.ª J. Pérez Fructuoso otras medidas de posición, de dispersión, de concentración y de forma

Cuantía ci Número de siniestros

0‐2 1 180
2‐4 3 240
4‐8 6 116
8‐12 10 20
12‐20 16 4

560

Con ello, el momento central de orden 1 se obtiene como sigue,


5 1 ni
a1  x
i1
i  560 
180 240 116 4
 1  3 6 10  16   3,321
20
560 560 560 560 560

que además es la media de la distribución. Por tanto, la cuantía media de los siniestros es 3,321 u.m.

El momento ordinario de orden 2 se obtiene de forma similar, calculando la media de cada uno de
los valores de la variable pero en este caso elevados al cuadrado, esto es:
5
n2 2 180 2 240 2 116 2 20 2 4
a2   xi  i  1  3  6  10   16   17,036
i1 560 560 560 560 560 560

Por su parte, el momento central de orden 2 se obtiene sustituyendo en la expresión,


 5   n
2  i 
m2
i1
xi 3,321
560

180 240 116 20
 1  3,321   3  3,321   6  3,321   10  3,321 
2 2 2 2

560 560 560 560
4
 16  3,321
2
 6,004
560

que coincide con la varianza o dispersión de los valores de la cuantía del siniestro respecto al valor
medio.

El momento central de orden 3 se calcula como el anterior, solo que sustituyendo h por 3, esto es,
obteniendo la media de las desviaciones de los valores de la variable respecto de la media elevadas al
cubo:

 x  3,321 ni
3
m3 
 i1 i 560
180 240 116 20
 1 3,321   3  3,321   6  3,321   10  3,321 
3 3 3 3

560 560 560 560
4
 16  3,321
3
 25,149
560

www.udima.es 217
ESTADÍSTICA DESCRIPTIVA

 ACTIVIDADES DE REPASO

Enunciado 1

En la tabla que aparece a continuación se muestra la carga máxima soportada por los camiones de
una flota contratada por una empresa para el transporte de sus mercancías:

Carga máxima en toneladas Número de camiones

9,3‐9,7 2
9,8‐10,2 5
10,3‐10,7 12
10,8‐11,2 17
11,3‐11,7 14
11,8‐12,2 6
12,3‐12,7 3
12,8‐13,2 1

Determina el primer, segundo y tercer cuartil, el recorrido intercuartil, el recorrido semi-inter-


cuartil y los percentiles 25, 75 y 90.

Enunciado 2

Una agencia regional de estadística realiza un estudio sobre los hábitos de viajes al extranjero en el
sector de la población de entre 50 y 78 años de una determinada región. El estudio concluye que, de las
90 personas entrevistadas, el grupo de edad comprendida entre 50 y 54 años realiza 7 viajes al año, el
grupo de entre 54 y 58 realiza 10, el grupo de entre 58 y 62 años realiza 16, el grupo de entre 62 y 66
años realiza 20, el grupo de entre 66 y 70 años realiza 18, el grupo de entre 70 y 74 años realiza 11 y el
grupo de entre 74 y 78 años realiza 8. Determina el recorrido relativo, el coeficiente de apertura, el reco-
rrido intercuartílico, el recorrido semi-intercuartílico, el rango entre percentiles, el rango percentil semi
10-90 y la desviación media.

Enunciado 3

Con los datos del ejercicio anterior determina los coeficientes cuartil de sesgo, percentil 10-90 de
sesgo y percentil de curtosis e interpreta los resultados obtenidos.

Enunciado 4

La tabla que tenemos a continuación recoge información acerca de los salarios brutos anuales
(expresados en miles de dólares) de 1.000 trabajadores de una empresa multinacional norteameri-
cana:

218 www.udima.es
Análisis numérico de una variable medible (III):
M.ª J. Pérez Fructuoso otras medidas de posición, de dispersión, de concentración y de forma

Salario 0‐6 6‐10 10‐15 15‐20 20‐30 30‐60 60‐90


ni 54 157 323 222 150 75 19

Determina el índice de Gini para medir la concentración de los salarios de los trabajadores.

Enunciado 5

En una encuesta realizada a 50 individuos acerca del número de vehículos disponibles en cada
familia se obtuvieron los siguientes datos:

2, 4, 2, 3, 1, 2, 4, 2, 3, 0, 2, 2, 2, 3, 2, 6, 2, 3, 2, 2, 3, 2, 3, 3, 4,
1, 3, 3, 4, 5, 2, 0, 3, 2, 1, 2, 3, 2, 2, 3, 1, 4, 2, 3, 2, 4, 3, 3, 2, 2

Determina los momentos ordinarios y los momentos centrales de orden 1, 2, 3 y 4.

www.udima.es 219
ESTADÍSTICA DESCRIPTIVA

Solución
1

Q1 P25 10,567

10,567 P75  11,557


Q2 11,059 P90 12,0667

Q3 11,557
RI  Q3 Q1 11,55710,567 0,99

Q3  Q1 11,557 10,567 0,99


RSI  2  2  2  0,495
Q  Q1 11,557  10,567 0,99
RSI  3
Q1  Q3 10,567  11,557 2 
0,04477

Solución 2

Intervalo Marca de clase ni Ni

50‐54 52 7 7
54‐58 56 10 17
58‐62 60 16 33
62‐66 64 20 53
66‐70 68 18 71
70‐74 72 11 82
74‐78 76 8 90

Recorrido relativo: RR  24
 0,3732
64,311
max
Coeficiente de apertura: CApertura  76
xi   1,4615
52
min xi

Recorrido intercuartil: RI  Q3  Q1  69,222 59,375 9,8472

69,222  59,375 9,8472


Recorrido semi-intercuartil: RSI    4,9236
2 2
69,222  59,375
o bien RSI   0,07657
69,222  59,375

Rango entre percentiles: rango percentil 10-90 = 73,6364 54,8 18,8364

Rango percentil semi 10-90 =


1
73,6364 54,8  9,4182
2

220 www.udima.es
Análisis numérico de una variable medible (III):
M.ª J. Pérez Fructuoso otras medidas de posición, de dispersión, de concentración y de forma

Desviación media:

x
m
 x n 
i
Dx  i
i1 n
52  64,311  7  56  64,311 10  60  64,311 16  64  64,311  20 

 68  64,311 18  72  64,311 11 76  64,311 8


 
90
 5,4331

Solución 3

Coeficiente cuartil de sesgo = 69,222  2  (64,4)  59,375


69,222  59,375  0,02059

73,6364  2  (64,4)  54,8


Coeficiente percentil 10-90 de sesgo =  0,01930
73,6364  54,8
1
 69,222  59,375
Coeficiente percentil de curtosis = 2  0,263  0,001612
73,6364  54,8

La distribución es asimétrica a la izquierda y además es platicúrtica.

Solución 4
Índice de Gini: 0,2541

Solución 5
Tabla de frecuencias:
xi ni

0 2
1 4
2 21
3 15
4 6
5 1
6 1

Momento ordinario de orden 1 (media): a1  2,52 Momento central de orden 1: m1  0


Momento ordinario de orden 2: a2  7,6 Momento central de orden 2 (varianza): m2  1,2496
Momento ordinario de orden 3: a3  26,04 Momento central de orden 3: m3  0,590016
Momento ordinario de orden 4: a4  100,24 Momento central de orden 4: m4  6,3523

www.udima.es 221
ESTADÍSTICA DESCRIPTIVA

 TEST DE AUTOEVALUACIÓN

1. Los datos que se presentan a continuación hacen referencia a los porcentajes del ingreso
de 30 familias que se asignan a la compra de alimentos de primera necesidad:

26, 40, 28, 29, 30, 41, 37, 40, 33, 29, 30, 35, 29, 26, 39,
42, 49, 36, 31, 37, 38, 35, 36, 44, 33, 32, 24, 45, 34, 35

El recorrido intercuartílico de estos datos es,

a) 0,13
b) 0,72
c) 16
d) 9

2. El decano de una determinada facultad decide analizar los


Número Número de
resultados de implementar unos nuevos planes de es- tudios, para lo de años estudiantes
cual confecciona una tabla en la que re- coge el número de años que
necesitaron para finalizar la carrera los estudiantes que cursaron el 4 75
plan anterior al actualmente en vigor: 5 152
6 128
7 110
El coeficiente de apertura de la muestra analizada vale, 8 25
9 3
a) 5
b) 4,5
c) 2,25
d) No se puede calcular porque los datos no tienen una frecuencia absoluta unitaria.

3. La tabla a continuación muestra las puntuaciones obteni- das por un


Número de
conjunto de estudiantes universitarios en un examen final de Puntuaciones
estudiantes
estadística descriptiva:
30‐39 1
La puntuación más baja alcanzada por el 25% más alto 40‐49 3
del curso es, 50‐59 11
60‐69 21
a) 83 70‐79 43
b) 64 80‐89 32
90‐99 9
c) 67
d) 75

222 www.udima.es
Análisis numérico de una variable medible (III):
M.ª J. Pérez Fructuoso otras medidas de posición, de dispersión, de concentración y de forma

4. En la siguiente tabla se recogen las frecuencias asociadas al número


ni
de entradas en una determinada página web durante una semana por Entradas

una muestra de 100 jóvenes me- nores de 16 años: 60‐62 5


63‐65 18
La desviación media del conjunto de datos es, a) 226,50 66‐68 42
b) 2,265 69‐71 27
72‐74 8
c) 67,45
d) 18,45

5. Una empresa realiza un ensayo para medir los tiempos (en minutos) Tiempo Empleados
que tardan sus empleados en producir las piezas para el posterior
0‐50 2
montaje de un determinado pro- ducto electrodoméstico:
50‐100 3
100‐150 10
¿A partir de qué tiempo los empleados finalizan la producción 150‐200 15
del 75% de las piezas para el montaje del electrodoméstico? 200‐250 16
250‐300 4
a) 312,5 minutos.
300‐350 10
b) 3 minutos. 350‐400 5
c) 52,5 minutos. 400‐450 3
450‐500 2
d) 231,43 minutos.

6. Determina el índice de Gini en la siguiente distribución de salarios Salario Empleados


(en €) de una empresa:
355 10
a) 26.769 457 17
b) 152 600 12
750 11
c) 27,27
d) 0,179431

7. Los momentos ordinario y central de orden 4 de la serie de datos 3, 4, 8, 9, 11, 27 son:

a) a4  92.846 y m4 10,333

b) a4 10,333 y m4 13.616,622

c) a4  92.846 y m4 13.616,622

d) a4 13.616,622 y m4  92.846

www.udima.es 223
ESTADÍSTICA DESCRIPTIVA

8, 9 y 10. La carga máxima soportada por los camiones de una flota contratada por una
empresa para el transporte de sus mercancías viene dada en la tabla que tenemos a con-
tinuación:

8. El coeficiente percentil 10-90 de sesgo vale: a) 0,03545


Carga máxima Número de
b) – 0,03545 en toneladas camiones

c) 0,006221 9,3‐9,7 2
9,8‐10,2 5
d) 0,069
10,3‐10,7 12
10,8‐11,2 17
9. El coeficiente cuartil de sesgo es:
11,3‐11,7 14
a) 0,03545 11,8‐12,2 6

b) 0,2544 12,3‐12,7 3
12,8‐13,2 1
c) 0,00606061
d) 0,006221

10.El coeficiente percentil de curtosis vale:

a) 0,03545
b) 0,4952
c) 0,00616
d) 0,2544

224 www.udima.es
Análisis numérico de una variable medible (III):
M.ª J. Pérez Fructuoso otras medidas de posición, de dispersión, de concentración y de forma

SOLUCIONES DEL TEST DE AUTOEVALUACIÓN

Pregunta Respuesta correcta

1 d)

2 c)

3 a)

4 b)

5 a)

6 d)

7 c)

8 a)

9 c)

10 d)

 REFERENCIAS BIBLIOGRÁFICAS

DURÁ PEIRÓ, J.M. y LÓPEZ CUÑAT, J.: Fundamentos de estadística. Estadística descriptiva y modelos probabilísticos
para la inferencia, Barcelona: Ariel Economía, 1988.

KAZMAIER, L.J.: Estadística aplicada a administración y economía, Madrid: McGraw-Hill Interamericana, 2006.

LIND, D.A.; MARCHAL, W.G. y WATHEN, S.A.: Estadística aplicada a los negocios y la economía, Madrid: McGraw-
Hill Interamericana, 2008.

NEWBOLD, P.; CARLSON, W.L. y THORNE, B.: Estadística para administración y economía, New Jersey: Pearson Pren-
tice Hall, 2008.

PEÑA SÁNCHEZ DE RIVERA, D.: Estadística. Modelos y Métodos. 1. Fundamentos, Madrid: Alianza Editorial. Alianza
Universidad Textos, 1989.

PEÑA, D. y ROMO, J.: Introducción a la estadística para las ciencias sociales, Madrid: McGraw-Hill, 1997.

SPIEGEL, M.R.: Estadística, Madrid: McGraw-Hill, 1991.

WONNACOTT, T.H. y WONNACOTT, R.J.: Introducción a la estadística, México: Limusa, SA. Grupo Noriega Editores,
1999.

www.udima.es 225

También podría gustarte