Está en la página 1de 112

Análisis de Datos Unidimensionales

OBJECTIVOS
Definir una serie de medidas (estadisticos descriptivos básicos) que sinteticen la información
contenida en una distribución de frecuencias unidimensional, tanto de valores agrupados
como sin agrupar, y aprendet a calcularlos e interpretarlos. Comparar la dispersión entre
dos o más variables o distribuciones de frecuencias. Estudiar cómo se ven afectados los
estadísticos al transformar los datos de una variable. Cuantificar e interpretar la
concentración de una distribución.
Página 26 | Inicio del artículo
2.1. Medidas de posición
En general, las medidas de posición indican un valor de la variable en torno al cual se sitúan un grupo de
observaciones. Puede distinguirse entre:
a) Medidas de tendencia central: media aritmética, armónica, geométrica, mediana y moda.
b) Medidas de tendencia no central: cuantiles.
A continuación se abordan los principales detalles conceptuales y de aplicación de cada una de las
medidas referidas anteriormente.
2.1.1. Media aritmética(1)
Es la suma de todos los valores de la variable divididos por el número total de observaciones. Se denota

por .

Evidentemente, esta medida sólo se puede calcular si la variable estadística objeto de estudio es de
naturaleza cuantitativa.
El valor que toma la media debe estar siempre incluido entre el valor mínimo y máximo del dominio de
la variable analizada.
Ejemplo 2.1
La plantilla de una empresa durante los últimos 4 meses ha estado formada por 16, 14, 15 y 15
empleados. Determinar la plantilla media de la empresa.
Solución
A partir de la información proporcionada, construimos la distribución de frecuencias. La variable toma I
= 3 valores distintos (xi para i = 1, 2, 3), con frecuencias 1, 2 y 1, respetivamente.
Página 27 | Inicio del artículo

Si se añade una tercera columna que recoja, para cada elemento, el producto xini, su suma se
corresponderá con el numerador de la expresión de la media, de manera que se obtendrá al dividir por el
número total de observaciones (N), en este caso N = 4.

La media será: , es decir, la plantilla media de la empresa en los últimos 4 meses ha sido de 15
empleados.

Obsérvese que la media de empleados ( ) se


encuentra comprendida entre el mínimo valor de la variable (x1 = 14) y el máximo (x3 = 16).
Si la distribución de frecuencias con la que se trabaja es de datos agrupados, para poder calcular la media
se toman, a modo de aproximación a los valores de la variable, las marcas de clase correspondientes a
cada uno de los intervalos, lo que supondrá una pérdida de precisión, que será tanto mayor cuanto mayor
sea la amplitud de los mismos.
Ejemplo 2.2
De un total de 10 asignaturas optativas se ha tomado el número de alumnos matriculados en cada una de
ellas, obteniéndose la siguiente distribución de frecuencias.

¿Cuál es el número medio de alumnos matriculados?


Solución
Para calcular la media de alumnos matriculados ( ), lo primero es determinar la marca de clase (xi, i =
1, 2) de cada intervalo. Seguidamente se añade una columna que recoja el producto xini y se suma.
Página 28 | Inicio del artículo

Al dividir este resultado entre el número total de observaciones (N = 10) se obtiene la media,

La media aritmética puede utilizarse si los datos con los que se trabaja son de naturaleza aditiva, es
decir, que al sumar todos los valores, estos representen el total de la población. Variables aditivas son,
por ejemplo, el número de empleados, la renta, el salario, etc. Por el contrario, variables no aditivas son:
tipos de interés, velocidad, rentabilidad, etc.
Entre las principales ventajas que presenta la media se pueden destacar las siguientes:
 Se puede calcular siempre que las variables sean de tipo cuantitativo.
 Su cálculo resulta fácil y en él intervienen todos los valores de la distribución.
 La media aritmética es el centro de gravedad de la distribución, es decir, es el punto que por término medio dista menos de
todas las observaciones de la distribución.
 Es una medida única y definida de forma objetiva en cada distribución de frecuencias.
En cuanto a los inconvenientes, tal vez el más importante sea que la media aritmética de la distribución
puede llegar a ser muy poco representativa del conjunto de los valores observados si existe mucha
dispersión en los datos. Se trata de una medida muy sensible a los valores extremos(2) .
Ejemplo 2.3
Para un total de 4 empresas se dispone de información relativa al tamaño, medido a través del activo
(millones de €):

¿Cuál es el tamaño medio del conjunto de las empresas?


Página 29 | Inicio del artículo

Solución

El tamaño medio ( ) se obtiene al sumar todos los valores de la variable y dividir por el
número de observaciones (empresas), así:
Como se pone de manifiesto en el ejemplo anterior, los valores del activo son muy diferentes entre sí,
con lo que la media (275 millones de €) será poco representativa. Cuando ocurre esto, es preferible
utilizar otras medidas de posición central, por ejemplo la mediana (véase Epígrafe 2.1.2.).
Con todo, la media aritmética es la medida de posición central más utilizada, de la que cabe destacar las
siguientes propiedades:
1. La suma de las desviaciones de todos los valores de la variable respecto a su media es cero.

2. Si (i = 1, 2, …, k) corresponden a las medias de k grupos distintos


de tamaño Ni (i = 1, 2, …, k), respectivamente, se cumple que la media aritmética del conjunto es:

3. Depende de los cambios de origen y de unidad (véase Apartado 2.5).


Ejemplo 2.4
En una empresa de fabricación de muebles, el departamento de control de calidad ha inspeccionado cada
hora, durante las 3 últimas, un total de 6, 8 y 6 muebles respectivamente, encontrando en cada una de
ellas un número medio de defectos de 3, 5 y 2. Determinar el número medio de defectos del total de
muebles inspeccionados.
Solución
Aplicando la segunda propiedad de la media:

Página 30 | Inicio del artículo


2.1.2. Media armónica y geométrica
La media armónica, que se denota por Mh, se define como:
siendo:

En el caso particular de que las frecuencias fuesen unitarias, esto es, ni = 1 ∀ i, entonces:

Además, a la hora de calcular la media armónica suele utilizarse que la inversa de la media armónica es
la media aritmética de los valores inversos de la variable, esto es:

Por su parte, la media geométrica, que es empleada cuando las variables son de naturaleza multiplicativa
en el sentido, por ejemplo, que los intereses generan nuevos intereses o cuando el incremento salarial se
efectúa sobre el anterior y no sobre uno fijo, se denota por Mg y se define como:

En el caso particular de que las frecuencias fuesen unitarias (ni = 1 ∀ i), entonces se tienen:

Además, a la hora de calcular la media geométrica suele utilizarse que el logaritmo de la media
geométrica que es igual a la media aritmética de los logaritmos de los valores de la variable, esto es:

Página 31 | Inicio del artículo

De la misma forma que se indicó para la media aritmética, el valor que tome la media armónica y la
media geométrica(3) debe estar siempre incluido entre el valor mínimo y máximo del dominio de la
variable analizada.
2.1.3. Mediana
Ordenada la distribución de frecuencias de menor a mayor, la mediana, que se denota por Me, es un
valor del recorrido de la variable que deja el mismo número de observaciones a su izquierda y a su
derecha.
Para el cálculo de la mediana es necesario distinguir entre distribuciones de frecuencias de valores sin
agrupar y agrupados, pero la idea que siempre hay que tener presente es que la mediana es aquel valor de
la variable al que corresponde una frecuencia acumulada igual a N/2.
2.1.3.1. Distribuciones de frecuencias de valores sin agrupar
Al trabajar con valores sin agrupar hay que considerar varias posibles situaciones (Figura 2.1). Cada una
de éstas será tratada a continuación.

Figura 2.1.

Situación 1. Distribución de frecuencias unitarias


Si el número de observaciones es impar, el valor de la mediana coincidirá con el valor xi (Me = xi) que
deje a derecha e izquierda el mismo número de observaciones.
Si el número de observaciones es par, entonces el valor de la mediana se obtendrá como la media del
valor(4) ): .
Página 32 | Inicio del artículo
Ejemplo 2.5
Una variable estadística X toma los siguientes 7 valores distintos:

Determinar la mediana.
Solución
Puede verse fácilmente que el valor de la variable xi = 6 deja el mismo número de observaciones, un total
de 3, a cada lado.

Por tanto, el valor de la mediana es:

Ejemplo 2.6
Obtener la mediana de una variable estadística que toma los siguientes 6 valores distintos:
Solución
En este caso, lo primero que debe hacerse es ordenar la distribución de frecuencias de menor a mayor.

El valor de la variable que deja el mismo número de observaciones a ambos lados, la mediana, se sitúa
entre 5 y 6. Así:

Situación 2. Distribución de frecuencias no unitarias


Cuando la distribución de frecuencias es no unitaria, se suele utilizar el siguiente criterio para determinar
el valor de la mediana: sea Ni la primera frecuencia absoluta acumulada igual o superior a N/2, entonces:

Página 33 | Inicio del artículo


Ejemplo 2.7
Obtener la mediana de la siguiente distribución de frecuencias.

Solución
La mitad de las observaciones corresponde a

. El valor de la variable que


contiene una frecuencia acumulada de 4 es x2 = 3, con N2 = 5.
Por tanto, como entonces Me = x2 → Me = 3.
Ejemplo 2.8
Obtener la mediana de la siguiente distribución de frecuencias.

Solución
El valr de la variable que acumula un número de observactiones igual

ex x2 = 4.

Por tanto, como se tendrá que

. La mediana de la distribución es 5.
Página 34 | Inicio del artículo
2.1.3.2. Distribuciones de frecuencias agrupadas
Este caso tiene menos interés, pues actualmente no se suele trabajar con datos agrupados, dado que la
informática permite manejar mucha información sin necesidad de perder parte de ella en agrupaciones.
El problema se resuelve obteniendo en primer lugar el llamado intervalo mediano, el primero cuya
frecuencia absoluta acumuluda Ni alcanza o sobrepasa N/2.

Es decir, .
Para precisar el valor de la variable que corresponde a la mediana(5) se supone que la frecuencia
correspondiente al intervalo se distribuye uniformemente y por reparto proporcional se obtiene el valor
buscado.
Ejemplo 2.9
El número de proyectos de mejora propuestos por los 20 círculos de calidad existentes en una empresa
han sido agrupados de la siguiente forma:

Determinar el intervalo mediano.


Solución
Para saber en qué intervalo estará incluida la mediana lo primero es insertar una columna que represente
la frecuencia absoluta acumulada (Ni), tal y como se refleja en la siguiente tabla.

Página 35 | Inicio del artículo

Como la mediana es el valor de la variable que acumula observaciones, ésta estará contenida en el

intervalo [16, 20[, que es el intervalo mediano, puesto que .


2.1.4. Moda
La moda de una distribución, a la que se denotará por Mo, representa el valor de la variable con mayor
frecuencia. No tiene por qué ser única. Es decir, si hay dos o más valores de la variable que tienen la
misma frecuencia, siendo esta la mayor, se estará ante una distribución multimodal (bimodal, dos modas;
trimodal, tres modas; etc.).
Del mismo modo que se procedió con la mediana, para determinar la moda debe distinguirse entre
distribuciones de valores sin agrupar y agrupados.
2.1.4.1. Distribuciones de frecuencias de valores sin agrupar
En este caso, y según la definición de la moda, hay que fijarse en cuál es el valor de la variable que más
se repite, el de mayor frecuencia.
Ejemplo 2.10
Se ha preguntado a 15 estudiantes por el número de horas semanales dedicadas al estudio, recogiéndose
sus respuestas en la siguiente distribución de frecuencias.

Obtener la moda del número de horas de estudio.


Solución
La moda es 5 (Mo = 5), puesto que es el valor de la variable con mayor frecuencia. Un total de 8
estudiantes dedican 5 horas a estudiar.
Página 36 | Inicio del artículo
Ejemplo 2.11
Se ha preguntado a 5 estudiantes por el número de horas semanales dedicadas al estudio, siendo sus
respuestas:

Obtener la moda del número de horas de estudio.


Solución
En esta distribución todos los valores de la variable se considerarían modas puesni = 1 ∀ i.
2.1.4.2. Distribuciones de frecuencias de valores agrupados
Cuando se trabaja con valores agrupados en intervalos, lo más sencillo para determinar el valor modal
consiste en dibujar el histograma.
La moda estará contenida en el intervalo de mayor altura, al que se denomina intervalo modal.
Ejemplo 2.12
Obtener el intervalo modal de la distribución de frecuencias del Ejemplo 2.9.
Solución
Para determinar el intervalo modal se añade una columna que recoja la altura (hi) asociada a cada
intervalo. En este ejemplo todos los intervalos tienen la misma amplitud (ci = 4), por lo que el intervalo
de mayor frecuencia será el que tenga mayor altura y, por tanto, el intervalo modal.

Así pues, la moda estará contenida en el intervalo [16, 20[.


Existen casos en los que, sin necesidad de realizar ningún cálculo, es posible aproximar el valor que
toma la moda en el intervalo modal. Así, en la Figura 2.2, Gráfica (a), puede observarse cómo, si los
intervalos anterior y posterior al intervalo modal tienen la misma altura, la moda coincidirá con la marca
de clase. En cambio, si el intervalo posterior al modal es de mayor altura que el anterior,
Página 37 | Inicio del artículo

Figura 2.2.

Gráfica (b), la moda se desplaza hacia la derecha de la marca de clase, coincidiendo su valor con el
límite superior del intervalo modal cuando la altura del anterior al mismo sea cero, como puede verse en
la Gráfica (c). De forma análoga, la moda coincidirá con el extremo inferior del intervalo modal cuando
la altura del intervalo posterior a éste sea cero, Gráfica (d).
Siguiendo con el criterio anterior de aproximar el valor de la moda en proporción inversa a las alturas de
los rectángulos del histograma anterior y posterior al modal, se recurre a la siguiente expresión:

donde ci es la amplitud del intervalo modal, Li-1 su extremo inferior; hi-1 es la altura asociada al intervalo
anterior al modal y hi+1 a la del posterior.
Ejemplo 2.13
En la siguiente distribución de frecuencias se refleja la retribución mensual de los 260 empleados del
área de fabricación de una gran empresa industrial.

¿Cuál es la retribución más frecuente en esta área funcional?


Página 38 | Inicio del artículo

Solución
Como fácilmente puede observarse en la distribución de frecuencias del enunciado, los intervalos son de
distinta amplitud. En consecuencia, y a diferencia del Ejemplo 2.12, el intervalo al que corresponde
mayor frecuencia no necesariamente tiene que ser el que tenga mayor altura asociada.
Añadiendo a la tabla dos nuevas columnas que recojan la amplitud (ci) y altura (hi) de cada intervalo:

Como puede verse en la tabla anterior, en este caso existen dos modas (la distribución es bimodal), la
primera estará incluida en el intervalo [800, 1.000] y la segunda en [1.000, 1.400].
Sin necesidad de realizar ningún cálculo, podría decirse que la primera moda será 1.000, puesto que la
altura del intervalo anterior al modal es cero. En cambio, respecto a la segunda, como el intervalo
anterior a [1.000, 1.400] es de mayor altura que el posterior, sólo puede decirse que su valor se
encontrará ligeramente por debajo de la marca de clase (x2 = 1.200). Una mejor aproximación al valor de
la moda puede obtenerse con la expresión dada en (2.1).

Por tanto, las retribuciones más frecuentes en el área de fabricación de esta empresa son 1.000 € y
1.177,78 €.
2.1.5. Cuantiles
Ordenados de menor a mayor los valores de la variable y dado un entero positivok, las familias de
cuantiles serán valores del recorrido de la variable que dividirán la distribución en k partes, conteniendo
cada una de ellas la misma proporción de observaciones .
Página 39 | Inicio del artículo

Las familias de cuantiles más utilizadas son aquellas que dividen la distribución de frecuencias en
cuatro, diez y cien partes y se conocen con el nombre de cuartiles, deciles y percentiles, respectivamente:
a) Cuartiles (k = 4): son tres valores (Cs, s = 1, 2, 3) del recorrido que dividen la distribución en 4 partes,
conteniendo cada una de ellas el 25% de las observaciones.
b) Deciles (k = 10): son nueve valores del recorrido (Ds, s = 1, 2, …, 9) que dividen la distribución en 10
partes, de tal forma que cada una de ellas contendrá el 10% de las
observaciones.
c) Percentiles (k = 100): son noventa y nueve valores del recorrido (Ps, s = 1, 2, …, 99) que dividen la
distribución en 100 partes, conteniendo cada una de ellas el 1% de las observaciones.
En general (para cualquier valor de k): una familia de cuantiles de orden

s = 1, 2, …, (k − 1), se identificará como los (k − 1)


valores del recorrido de la variable , que dividirán en k partes la distribución de la variable

conteniendo, cada una de ellas, una proporción de valores de .

De esta forma, si es el cuantil de

orden , un porcentaje de
de los valores de la variable (como mínimo) serán menores o iguales

que y un porcentaje de . 100 de

los valores (como mínimo) serán mayores o iguales que .


Así, por ejemplo, el primer cuartil C1 será el cuantil Q1/4, de tal forma que, al menos, el 25% de los
valores serán menores o iguales que C1 y, al menos, el 75% restante serán mayores o iguales que C1.
Análogamente, podemos identificar los deciles y percentiles como cuantiles en

general: , etc.
El procedimiento de cálculo es análogo al estudiado en el caso de la mediana, es decir, suponiendo datos
sin agrupar:

Página 40 | Inicio del artículo

donde Qs/k es el cuantil (cuartil, decil o percentil) que se quiere calcular y que acumulará una proporción

de observaciones.
Si la distribución de frecuencias es de valores agrupados se determinará el intervalo cuantílico, es decir,
aquel que contiene el cuantil que se quiere obtener.
Ejemplo 2.14
Dada la siguiente tabla de frecuencias:

Obtener el segundo cuartil, el cuarto decil y nonagésimo percentil.


Solución
El segundo cuartil (C2) es el valor de la variable que deja a su izquierda, esto es acumula, un número
mínimo de observaciones del 50%.

por tanto, como entonces C2 = Q2/4 = x3 = 18.


Obsérvese que el valor del segundo cuartil coincide con el de la mediana. De hecho, C2 = D5 = P50 = Me
= Q1/2.
El cuarto decil (D4) es el valor que acumula como mínimo un 40% de las observaciones:

Página 41 | Inicio del artículo

en consecuencia, como , el cuarto decil será:

Por último, el nonagésimo percentil, P90, es el valor que acumula como mínimo un 90% de las
observaciones:
con lo que el percentil noventa será: , dado

que .
2.2. Medidas de dispersión
El término dispersión o variabilidad hace referencia a cómo de distantes, de separados, se encuentran los
datos. En este sentido, si los distintos valores de la distribución se encuentran próximos entre sí, estos
presentarán poca dispersión o variabilidad; si por el contrario están alejados, mostrarán mucha
dispersión.
Pueden calcularse diversas medidas de dispersión, aunque las más habituales son el rango (o recorrido),
la varianza y la desviación típica. Las anteriores son medidas de dispersión absoluta. Sin embargo, si lo
que se quiere es comparar varias distribuciones de frecuencias en términos de variabilidad, para ver cuál
es la que presenta mayor o menor dispersión, debe obtenerse una medida relativa como, por ejemplo, el
coeficiente de variación de Pearson.
2.2.1. Rango
El rango o recorrido de una distribución es la diferencia entre el valor máximo y mínimo, es decir, Re
= xmax − xmin. La principal desventaja de este tipo de medida de dispersión es que únicamente tiene en
cuenta dos valores de la variable.
2.2.2. Varianza y desviación típica
La varianza, que se denota por S2X, se define como la media aritmética de los cuadrados de las
diferencias de los valores de la variable a la media aritmética:

Página 42 | Inicio del artículo

Con la varianza se pretende medir la dispersión que presentan los valores de la variable respecto de su
media. Cuanto mayor sea la varianza, cuanto mayor sea la dispersión, menos representativa resultará ser
la media.
Una expresión equivalente a la anterior para calcular la varianza, muy utilizada por cuanto simplifica
considerablemente la operatoria, es:
(6)
De la definición de varianza se desprende que ésta nunca puede ser negativa (S2X≥0) y que se encuentra
expresada en unidades de medida al cuadrado.
Además, la varianza no depende de los cambios de origen, pero sí de los de unidad (véase Apartado
2.5.).
Por su parte, la desviación típica o estándar, que se denota por Sx, es la raíz cuadrada positiva de la
varianza, es decir:

La desviación típica es una medida de dispersión que suele proporcionarse junto con la media de la
distribución, puesto que ambas magnitudes vienen expresadas en la misma unidad de medida, lo que
facilita enormemente la interpretación de los resultados.
Otro estadístico que se utiliza mucho, especialmente en inferencia estadística, es la cuasivarianza, que se
denota por S*2X, y se define como:

siendo la cuasidesviación típica,


Ejemplo 2.15
El número de ofertas de empleo publicadas en los últimos cinco números en una revista especializada ha
sido:

Calcular el rango, varianza, desviación típica, cuasivarianza y cuasidesviación típica.


Solución
El rango o recorrido del número de ofertas de empleo (variable X) es:

Página 43 | Inicio del artículo

Para calcular la varianza, se puede recurrir a la Expresión (2.2) o (2.3). Evidentemente el resultado es el
mismo, simplemente una forma resulta más cómoda que la otra, como se verá.
Los cálculos necesarios para obtener la varianza pueden obtenerse añadiendo una serie de columnas a la
tabla de frecuencias de las ofertas de empleo publicadas, tal y como se muestra a continuación:

(7)
Una vez elaborada la tabla anterior resulta casi inmediato el cálculo de la media y de la varianza.

o bien,

La desviación típica es: anuncios.


La cuasivarianza se puede obtener a partir de la varianza:

La cuasidesviación típica es: anuncios.


Página 44 | Inicio del artículo
2.2.3. Coeficiente de variación de Pearson
Es el cociente entre la desviación típica y la media aritmética de la variable estadística X. Suele
representarse por g0(X).

Cuanto más próximo a cero se encuentre el coeficiente de variación menor será la dispersión (relativa) y
mejor la representatividad de la media aritmética.
El coeficiente de variación es una medida de dispersión relativa. Por esta razón, se utiliza para comparar
la dispersión entre dos o más distribuciones, independientemente del valor de sus medias y de la unidad
de medida de las variables.
Ejemplo 2.16
Dos revistas especializadas en empleo, A y B, han publicado una media de ofertas de trabajo, que

requieren alta cualificación, de con varianzas,


respectivamente, de S2A= 4 y S2B = 9. ¿Qué revista presenta mayor dispersión absoluta? ¿Y relativa?
Solución
La revista B presenta mayor dispersión absoluta que la revista A, puesto que S2B= 9 > S2A = 4. Ahora bien,
para comparar correctamente la dispersión en ambas publicaciones (con medias distintas), debe
calcularse el coeficiente de variación, medida de dispersión relativa, que mide el número de veces que la
desviación típica contiene a la media. Por tanto:

es decir, como g0(B) < g0(A) puede concluirse que la dispersión relativa de la revista B es menor que la
de la revista A.
2.3. Momentos
A partir de la distribución de frecuencias es posible calcular una serie de valores específicos que la
caracterizan. Estos valores son los denominados momentos.
Los estadísticos obtenidos hasta ahora como media y varianza pueden considerarse casos particulares de
los momentos. A continuación se estudian los principales detalles de los distintos tipos de momentos que
pueden obtenerse, momentos ordinarios y centrales, así como la relación que puede establecerse entre
ellos.
Página 45 | Inicio del artículo
2.3.1. Momentos ordinarios o respecto al origen
Dada una variable estadística unidimensional (X) y su distribución de frecuencias, se define el momento
ordinario (o respecto al origen) de orden p, que se denota por ap(X), como:

Los distintos momentos ordinarios son obtenidos al asignar valores a p. Seguidamente se presentan
algunos casos particulares:
2.3.2. Momentos centrales o respecto a la media
Dada una variable estadística unidimensional (X) y su distribución de frecuencias, se define el momento
central (o respecto a la media) de orden p, que se denota por mp(X), como:

Algunos casos particulares son:

Página 46 | Inicio del artículo

Momento central de orden 2: . Es decir, el momento central de orden 2 coincide con la


varianza [véase Expresión (2.2)].
2.3.3. Relación entre los momentos ordinarios y centrales
Es posible expresar cualquier momento central en función de los momentos ordinarios. Para ello se
recurre a la siguiente relación:

Por ejemplo, la expresión del momento central de orden 2 en función de los momentos ordinarios se
obtiene para p = 2(8) .

Operando:
Sustituyendo el momento ordinario de orden 2 por la expresión que lo hace operativo, y recordando que
el momento ordinario de orden 1 coincide con la media:

expresión para la varianza que coincide con la dada en (2.3).


Página 47 | Inicio del artículo
Ejemplo 2.17
Expresar el momento central de orden 3 de la variable X en función de los momentos ordinarios.
Solución
Recurriendo a la Expresión (2.4)

Operando:

Es decir:

2.4. Medidas de forma


En este apartado se va a comparar una determinada distribución de frecuencias con un modelo ideal, la
distribución Normal (que tiene forma de campana). La comparación se centrará, básicamente, en dos
aspectos fundamentales. Por una parte, en determinar si la distribución con la que se está trabajando es
simétrica, como la normal, o bien es asimétrica, esto es, se encuentra desplazada hacia un lado. Por otro
parte, resulta también interesante conocer cómo es la distribución en cuanto a su apuntamiento respecto
al mencionado modelo ideal. Estas cuestiones pueden ser resueltas al representar gráficamente la
distribución de frecuencias y observar su forma o, caso de no poder hacer esto, calculando las oportunas
medidas, a saber: asimetría y apuntamiento (curtosis).
Página 48 | Inicio del artículo
2.4.1. Medidas de asimetría
En la Figura 2.3 se ha representado la distribución normal [Gráfica (a)]. Puede observarse como ésta es
una distribución simétrica respecto a la media, «al doblar la distribución por el eje de simetría ambas
partes coinciden» [Figura 2.3, Gráfica (b)]; en caso contrario se dice que la distribución es asimétrica.

Figura 2.3.

Para medir la asimetría de una distribución pueden utilizarse diferentes coeficientes, aunque es frecuente
obtener el denominado coeficiente de asimetría (de Fisher), que se denota por g1, y se define como el
cociente entre el momento central de orden 3 y la desviación típica elevada al cubo. Por tanto, el
coeficiente de asimetría de la variable X vendrá dado por:

de tal forma que si la distribución es asimétrica g1(X) tomará un valor distinto de cero, positivo o
negativo, tanto mayor (en términos absolutos) cuanto más asimétrica sea la distribución. Si g1(X) = 0 la
distribución puede ser simétrica o no, será necesario apoyarse en su representación gráfica (Figura 2.4);
ahora bien, si la distribución es simétrica el coeficiente de asimetría de Fisher siempre será cero.
Puede observarse que, cuando los valores de la variable más frecuentes son los mayores y la distribución
presenta una cola a la izquierda, ésta es asimétrica negativa. En cambio, cuando los valores más
comunes de la distribución son los menores, cola hacia la derecha, ésta es asimétrica positiva.
En distribuciones unimodales y campaniformes, como las representadas en la Figura 2.4, se cumple
que cuando la distribución es asimétrica negativa y
cuando es
asimétrica positiva.
Página 49 | Inicio del artículo

Figura 2.4.
Ejemplo 2.18
A partir de las calificaciones en estadística de 50 estudiantes universitarios de primer curso se han
obtenidos los siguientes estadísticos:

¿Es simétrica la distribución de las calificaciones obtenidas en esta asignatura?


Solución
El coeficiente de asimetría se define como el cociente entre el momento central de tercer orden y el cubo
de la desviación típica.

En primer lugar se calculará y SX y a continuación m3(X) a partir de la expresión dada en la


solución del Ejemplo 2.17.
Página 50 | Inicio del artículo

Resolviendo, m3(X) = − 3,504. Por tanto, .


Es decir, la distribución de las calificaciones obtenidas en la asignatura de estadística es asimétrica
negativa, como puede verse en la Figura 2.6, en el Ejemplo 2.19, donde se representa gráficamente.
2.4.2. Medidas de apuntamiento (curtosis)
Las medidas de apuntamiento analizan si una distribución de frecuencias es más apuntada o menos al
comparar ésta con una distribución tipo, la distribución Normal (véase Figura 2.5) con su misma media y
varianza.
El hecho de que una distribución sea muy apuntada, o poco, dependerá de la cantidad de valores de la
variable que se encuentren en torno a la zona central y se agrupen alrededor de la media aritmética. Una
medida que permite conocer este grado de apuntamiento es el coeficiente de curtosis, que se denota
por g2, y que se define, en este caso para una variable X, como:

En la expresión anterior se resta el valor 3, puesto que en la distribución Normal, que se toma como

referencia a la hora de realizar la comparación, .


Si g2(X) > 0, la distribución es leptocúrtica, más apuntada que la Normal.
g2(X) = 0, la distribución es mesocúrtica, igual de apuntada que la Normal.
g2(X) < 0, la distribución es platicúrtica, más achatada que la Normal.

Figura 2.5.
Ejemplo 2.19
En la Figura 2.6 se representa la distribución de frecuencias correspondiente al Ejemplo 2.18.
Página 51 | Inicio del artículo

Figura

2.6.

¿Qué puede decir acerca de su apuntamiento o aplastamiento? ¿Qué coeficiente de curtosis cabe esperar?
Solución
Sobre el diagrama de barras de las calificaciones obtenidas en estadística por los 50 estudiantes
universitarios consultados, se ha dibujado la distribución normal ajustada a esta distribución de media

( ) y desviación típica (Sx = 1,857). Al comparar ambas se puede intuir que la distribución
de las calificaciones es ligeramente más apuntada que la normal, por ello cabe esperar un coeficiente de
curtosis positivo (leptocúrtica).
2.5. Transformaciones lineales y tipificación de variables
Supóngase que, en principio, se está trabajando con la distribución de frecuencias de una variable
estadística X, de la que se ha obtenido una serie de estadísticos (media, varianza, etc,) y que por
cualquier circunstancia es necesario pasar a trabajar con otra variable estadística Y, que se obtiene a
partir de la anterior como resultado de:
— Sumar (o restar) una constante a a todos los valores de la variable estadísticaX, es decir, de efectuar
sobre ésta un cambio de origen: Y = X + a o Y = X - a.
Página 52 | Inicio del artículo
— Multiplicar (o dividir) por una constante b todos los valores de la variable X, es decir, de realizar
sobre X un cambio de unidad (o escala): Y = b · X o .
— Practicar sobre la variable X tanto un cambio de unidad como de origen, por ejemplo: Y = b · X + a.
Pues bien, para obtener aquellas mismas medidas conocidas para la nueva variable Y no es necesario
crear su distribución de frecuencias y realizar de nuevo todos los cálculos que se efectuaron en su
momento para la variable X. Es suficiente con conocer cómo afectan los cambios de origen y unidad a
los distintos estadísticos y recurrir a la transformación lineal empleada para obtener Y a partir
de X (véase Tabla 2.1).
En la Tabla 2.1, y para algunas transformaciones lineales tipo, a partir de los
estadísticos , S2x, g0(X), g1(X), g2(X) y mp(X) de la variable estadística X, que se suponen
conocidos, se muestran estas mismas medidas para la variableY.

Tabla 2.1.
Ejemplo 2.20
Determinar la media, varianza y coeficiente de variación de Pearson de la variable estadística Y, que es

obtenida como , sabiendo

que y S2x = 4.
Página 53 | Inicio del artículo

Solución
La variable Y es obtenida al aplicar, sobre la variable X, un cambio de escala (b = 1/4) y un cambio de
origen (a = 2).
La media depende tanto de los cambios de origen como de unidad, ambos deben ser tenidos en cuenta a
la hora de calcular la media de la variable Y, así:

La varianza (en general todos los momentos centrales) únicamente depende de los cambios de unidad,
siendo invariante ante cambios de origen, por tanto:

El coeficiente de variación de Pearson es invariante ante cambios de unidad, pero no a los de origen; de
forma que caso de existir este último queda afectado por ambos.
Por otra parte, tipificar una variable consiste en obtener, a través de una transformación lineal
«especial», otra variable con media y desviación típica (o varianza) prefijada. Esto es, tipificar una
variable X, con media y desviación típica SX, consiste en transformar ésta en otra Z con

media y desviación típica SZ. La variable Z se dice que es la variable tipificada


de X.
En general, si el objetivo es conseguir una variable tipificada Z con media

y SZ = k, la transformación lineal a realizar será:

El caso de tipificación más utilizado se conoce como tipificación estándar, y consiste en transformar la
variable X en otra variable Z, con media 0 y desviación típica 1. En este caso, la transformación lineal
consiste en restar al valor de la variable la media y dividir entre la desviación típica, de esta forma, la
variable resultante Z, será:

Si el coeficiente de variación de Pearson es empleado para comparar la dispersión entre dos o más
distribuciones, la tipificación resulta útil cuando se quiere comparar individuos o cantidades que en
principio no son comparables, bien porque provienen de poblaciones diferentes, bien porque aluden a
conceptos distintos. Página 54 | Inicio del artículoEn este sentido, los valores tipificados que son obtenidos
indican la distancia a la que se encuentran cada uno de ellos respecto a la media, distancia que es medida
en términos de desviaciones típicas. Por tanto, fácilmente puede compararse la posición relativa de cada
valor.
Ejemplo 2.21
En la sección de pintura de un taller de reparaciones trabajan tres personas. Sus salarios son de 900, 950
y 1.000 €. Obtener los salarios tipificados a media cero y desviación típica 1.
Solución
La media y desviación típica de los salarios será:

Una vez obtenidas y SX pueden determinarse los valores


tipificados:

Figura 2.7.

Puede comprobarse que y SZ = 1. Los valores z1 y z3, que se corresponden con los salarios de 900 y
1.000 €, respectivamente, se encuentran a 1,225 desviaciones típicas de la media, es decir, se encuentran
a la misma distancia de ésta.
Página 55 | Inicio del artículo
2.6. Medidas de concentración: curva de Lorenz e índice de Gini
Las medidas de concentración, que no se deben confundir como opuestas a las medidas de dispersión,
indican el mayor o menor grado de igualdad (o equidistribución) en el reparto total de los valores de la
variable objeto de estudio.
La concentración puede determinarse gráficamente a través de la curva de Lorenz. Una medida analítica
para la concentración es el conocido como índice de Gini.
2.6.1. Curva de Lorenz
Mediante la curva de Lorenz (véase Figura 2.8) se relaciona el porcentaje acumulado de frecuencias
(pi)—hogares, familias, individuos, trabajadores, industrias, etc.—, que se representa en el eje de
abscisas, con el porcentaje acumulado del volumen total de la variable (qi)—ingresos, ventas, renta,
producto interior bruto, etc.— que le corresponde, que se representa en el eje de ordenadas. Dicha curva,
que comienza en el punto (0, 0) y finaliza en el (100, 100), es creciente por representar porcentajes
acumulados y se encuentra situada por debajo de la bisectriz al ser pi ≥ qi ∀ i.
2.6.2. Índice de Gini
El índice de Gini, que se denota por IG, es aproximadamente el cociente entre el área comprendida entre
la bisectriz del primer cuadrante y la curva de Lorenz y el

triángulo (véase Figura 2.8).

Figura 2.8.
Página 56 | Inicio del artículo

A nivel práctico suele utilizarse, como aproximación, la siguiente expresión:

La ventaja del índice de Gini es que proporciona una medida cuantitativa de la concentración. Éste
puede tomar valores comprendidos entre 0 y 1, es decir, 0 ≤IG ≤ 1, de tal forma que si IG = 0 existe
equidistribución (o no concentración), produciéndose una concentración máxima cuando IG = 1. Por
tanto, cuanto más próximo a cero se encuentre el índice de Gini, menor será el grado de concentración.
Relacionando curva de Lorenz e índice de Gini (véase Figura 2.9), cuanto menor sea este último, menor
será el área comprendida entre la bisectriz y la curva de Lorenz. En el caso que la concentración sea
mínima (IG = 0), la curva de Lorenz coincide con la bisectriz, lo que indica que a un porcentaje
acumulado de individuos le corresponde ese mismo porcentaje acumulado del volumen total de la
variable (pi = qi ∀ i).
Figura 2.9.

En caso de máxima concentración (IG = 1), la curva de Lorenz coincide con el triángulo

. En este
caso extremo, un solo individuo, el último, concentra el volumen total de variable, no encontrándose
nada en manos de los restantes (N − 1) individuos.
2.6.3. Haciendo operativo el índice de Gini y la curva de Lorenz
Para poder representar la curva de Lorenz y obtener el índice de Gini, es necesario calcular los
porcentajes acumulados de individuos y del volumen total de la Página 57 | Inicio del artículovariable. Para
ello, lo más práctico consiste en añadir columnas a la tabla de frecuencias original, tal y como se muestra
en la Tabla 2.2.
Tabla 2.2.
Ejemplo 2.22
Las horas de formación recibidas a lo largo del último año por los 40 directivos de distinto nivel, de la
filial española de una compañía multinacional, se recogen en la siguiente tabla.

Representar la curva de Lorenz y calcular el índice de Gini.


Solución
Confeccionando una tabla similar a la Tabla 2.2.
Página 58 | Inicio del artículo
Representando el punto (0, 0) y los distintos pares (pi, qi), esto es, (p1 = 50, q1 = 34,78); (p2 = 75, q2 =
60,87); (p3 = 87,5, q3 = 78,26); la curva de Lorenz se obtiene al unir los puntos mediante segmentos.

Figura 2.10.

En cuanto al índice de Gini:

es decir, el número de horas de formación destinadas a los diferentes niveles directivos en esta filial
están relativamente bien repartidas.
Página 59 | Inicio del artículo
Cuestiones de autoevaluación
2.1 En un total de 10 empresas de un determinado sector de actividad se ha observado el número de
empleados, obteniéndose los valores siguientes: 15, 21, 22, 26, 32, 35, 40, 50, 54, 1.000, donde y
Me = 33,5.
¿Qué medida de posición es preferible utilizar como resumen del conjunto de datos de la variable?
a) La media aritmética, porque es la medida de posición central por excelencia y siempre que se conozca
se debe utilizar ésta.
b) La mediana, porque como existe un valor muy alejado del resto, la media es poco representativa del
conjunto de valores de la distribución.
c) Es indiferente.
d) Ninguna de las anteriores es correcta.
2.2 Se estudian los salarios que perciben los empleados de una empresa. El menor de los salarios es de
600 €/mes y el mayor de 2.400 €/mes. ¿Cuál de los siguientes resultados puede ser cierto?

a) = 1.200 €, SX = 0 €

b) = 1.000 €, SX = 200 €
c) = 500 €, SX = 200 €

d) = 1.200 €, SX = 150 €
2.3 Se invierten 12.000 € a plazo fijo durante dos años. El primer año el capital se incrementa en un 3%
y el segundo en un 12% acumulativo. El interés o incremento medio anual es:
a) 7,5 %.
b) 7,406 %
c) 4,8 %
2.4 Si el coeficiente de asimetría de una variable X es 4, y se realiza una transformación lineal de la
forma Y = 50 + 60X, ¿cuál es el coeficiente de asimetría de la nueva variable?
a) El coeficiente de asimetría vale 24.
b) El coeficiente de asimetría vale 4.
c) El coeficiente de asimetría vale 74.
d) No se puede obtener el coeficiente de asimetría de Y a partir de la información de la que se dispone.
Página 60 | Inicio del artículo

2.5 Supóngase una variable estadística X tal que y Sx2 = 35. Si se realizase un
cambio de variable aplicando la transformación Y = 10 + 5X, entonces:
a) = 165 y Sx2 = 875

b) = 165 y Sx2 = 35

c) = 155 y Sx2 = 875

d) = 155 y Sx2 = 35
2.6 Una empresa de componentes electrónicos dispone de tres plantas de producción (A, B y C) con 100,
150 y 200 operarios de fabricación respectivamente. Si el número medio mensual de unidades
producidas por cada empleado en la planta A es de 2.000, en la planta B de 2.500 y en la planta C de
1.750, ¿cual es el número medio mensual de unidades producidas por cada operario para el global de la
empresa?

2.7 Dados los siguientes momentos referentes a una variable estadística:

Se puede decir que la distribución de frecuencias es:


a) Simétrica y leptocúrtica.
b) Asimétrica por la izquierda y platicúrtica.
c) Asimétrica por la izquierda y platicúrtica.
d) Asimétrica por la izquierda y platicúrtica.
2.8 Para que una distribución simétrica con desviación típica igual a 3 sea mesocúrtica, ¿cuál debe ser el
valor del momento central de orden 4?
a) Igual a 243.
b) Mayor a 243.
c) Menor a 243.
d) No se puede calcular el valor de m4.
Página 61 | Inicio del artículo

2.9 Dada una variable estadística X con media y desviación típicaSX = 3, ¿qué
transformación debería realizarse para que la variable tipificada tuviese media 5 y desviación típica 2?

a)
b)

c)
d) Únicamente pueden obtenerse variables tipificadas con media cero y desviación típica 1.
2.10 Si el índice de Gini vale 1, se puede afirmar que:
a) No existe concentración, los valores de las variables están equidistribuidos.
b) La curva de Lorenz coincide con la diagonal principal.
c) La curva de Lorenz coincide con los lados del cuadrado, formando un triángulo.
d) Tanto la opción a) como la c) son ciertas.
Ejercicios propuestos
2.1 Se ha preguntado a 9 empresas por el número de personas que emplean, siendo sus respuestas:

Calcular la media aritmética, mediana y moda.


2.2 A 15 personas que guardaban cola para entrar al museo de «El Prado» se les ha preguntado por el
número de veces que han visitado previamente la pinacoteca, siendo las respuestas obtenidas:

Calcular la media aritmética, mediana y moda.


2.3 Cierta empresa ha incrementado el salario a sus empleados en los últimos cinco años en un 1, 2, 3, 4
y 5% acumulativo. Si un trabajador empezó con un salario 1.000 €, calcular:
a) El incremento medio anual aplicado en estos cinco años.
b) El salario a cobrar cinco años después.
Página 62 | Inicio del artículo

2.4 Dada la siguiente tabla estadística:

Calcular la media, el intervalo donde está contenida la mediana y el intervalo modal.


2.5 En la siguiente distribución de frecuencias se recoge el consumo de gas (en m3), entre los meses de
diciembre-enero, de una comunidad de 100 viviendas.

Obtener la media aritmética, el intervalo donde está contenida la mediana y el intervalo modal de la
distribución de consumo de gas.
2.6 Las siguientes cuatro muestras de datos tienen la misma media:
a) 4 4 4 4 4 4 4
b) 1 1 1 1 1 3 20
c) 1 2 3 4 5 6 7
d) 1 12 4 4 8 8
Ordenar el posible valor de sus varianzas (dispersión) de menor a mayor, pero sin realizar ningún
cálculo. Después comprobar el resultado calculando dichas varianzas.
2.7 Inspeccionadas un total de 40 planchas, el número de defectos (obstrucción del pulverizador,
funcionamiento incorrecto del termostato, etc.) encontrados por el departamento de calidad ha sido:

Obtener el número medio de defectos y la varianza de estos.


Página 63 | Inicio del artículo

2.8 El propietario de una tienda de electrodomésticos, tras un descenso en las ventas del último trimestre,
observa el número de clientes que entran en su establecimiento a lo largo de quince días:

Calcular la media y la desviación típica.


2.9 Una Universidad tiene dos bibliotecas. La información disponible de la variable «Gasto dedicado a la
compra de libros» entre los años 1998 y 2002, en cada una de las bibliotecas, ha sido el siguiente:

¿En cuál de las dos bibliotecas ha habido menor dispersión en el gasto destinado a la compra de libros?
2.10 Los directores de producción y recursos humanos han estudiado el absentismo laboral en dos
células de producción. En la célula A el número medio de horas perdidas resultó ser de 120 horas, con
una desviación típica de 36 horas. En la célula B el absentismo medio se cuantificó en 80 horas de
trabajo, con una desviación típica de 30 horas.
¿En qué célula de producción hay mayor dispersión relativa en el número de horas perdidas?
2.11 Una compañía, perteneciente a un grupo de grandes empresas (Grupo A), presenta un beneficio
anual de 3,5622 millones de euros. Asimismo, el beneficio anual de un comercio, perteneciente a una
agrupación de pequeñas empresas (Grupo B), es de 32.280 euros. Si las medias y desviaciones típicas de
los beneficios anuales de las empresas pertenecientes a cada uno de esos grupos han sido:
Cuál de las dos empresas presenta un beneficio anual relativo mayor, ¿la compañía o el comercio?
Página 64 | Inicio del artículo

2.12 Se tiene información acerca del número de goles por partido marcados en dos ligas europeas:
Liga de fútbol A: Media 3,5 goles y varianza 1,34.
Liga de fútbol B: Media de 2,5 goles y varianza 1,88.
a) ¿En qué liga europea hubo una mayor dispersión relativa?
b) Si en un partido jugado en la liga A el resultado fue 2-0 y en otro partido de la liga B el resultado fue
1-1. ¿En qué partido el número de goles fue relativamente mayor?
2.13 Dos empresas del sector químico, A y B, han recogido información sobre el número de accidentes
laborales al mes con baja laboral que se ha producido durante un determinado periodo de tiempo,
obteniendo los siguientes resultados:

Si durante un mes determinado, en la empresa A ha habido 7 accidentes con baja y en la empresa B se


han producido 10 accidentes con baja, ¿en qué empresa el número de accidentes con baja ha sido
relativamente mayor?
2.14 Expresar el momento central de orden 4 en función de los momentos ordinarios.
2.15 A partir de la siguiente distribución de frecuencias:

Obtener los coeficientes de asimetría y curtosis, y decir cómo es la forma de la distribución.


2.16 Para una distribución se sabe que , SX2 = 9 obtener la media,
varianza y coeficiente de variación de la variable Y si:
a) Y = X + 4
b) Y = 2X
c) Y = 2X + 4

d)
Página 65 | Inicio del artículo

2.17 De un estudio realizado en dos poblaciones acerca del tiempo diario (en minutos) que los niños de 4
a 10 años dedican a ver la televisión, se han obtenido los siguientes resultados: en la población A
dedican una media diaria de 90 minutos con una varianza de 144, mientras que en la población B la
media diaria es de 75 minutos con una varianza de 100.
a) ¿En qué población es mayor la dispersión relativa?
b) Un niño de la población A dedica 82 minutos diarios a ver televisión y otro de la población B dedica
75 minutos. En términos relativos, ¿qué niño dedica más tiempo a ver televisión?
2.18 La evolución de la variable X: «Siniestralidad de automóviles (millones de euros)» en los últimos 6
años ha sido, aproximadamente, la que se recoge a continuación:

Calcular la media, desviación típica y coeficiente de variación de Pearson de la variable X partir del
cálculo de dichos estadísticos para la variable
.
2.19 En una empresa hay una sección dedicada a la fabricación de un tipo especial de piezas. La
variable X: «Número de piezas fabricadas al día por un trabajador», presenta los siguientes momentos:

Asimismo, el «Salario diario de los trabajadores» (variable Y) se compone de 21 euros fijos más una
prima de 30 céntimos por pieza producida. Determinar:
a) Los coeficientes de asimetría y apuntamiento de la variable X, comentando la forma aproximada que
tendrá la distribución de esta variable.
b) La media y la desviación típica de la variable Y. ¿Qué forma tendrá la distribución de esta variable?
Justifica las respuestas.
Página 66 | Inicio del artículo

2.20 Observar las curvas de Lorenz representadas a continuación:

¿Cuál de las dos situaciones representa una distribución más equitativa?


Problemas reueltos
2.1 Una empresa de plásticos se dedica a la realización de piezas para vehículos de una determinada
marca. La distribución del número de piezas que realizan los 250 trabajadores en una hora es la
siguiente:
a) Calcular el número medio de piezas terminadas en una hora, la mediana y la moda.
b) Determinar el primer y el tercer cuartil.
c) Obtener la varianza de las piezas, la desviación típica y el coeficiente de variación de Pearson.
2.2 Un grupo de expertos lleva a cabo una cata de aceites. A continuación se facilita la distribución de
frecuencias correspondiente a las calificaciones obtenidas por los aceites de oliva procedentes de 150
almazaras:
Página 67 | Inicio del artículo

a) Calcular la calificación media obtenida en la cata por el conjunto de los aceites evaluados.
b) Obtener los intervalos donde están contenidas la mediana y la moda.
c) Calcular la desviación típica de la distribución y el coeficiente de variación de Pearson.
d) Explicar la forma de la distribución de frecuencias sabiendo que los coeficientes de asimetría y
curtosis son respectivamente g1 = − 0,2 y g2 = − 0,88.
2.3 Sea X la variable estadística que expresa el salario mensual de los trabajadores de una empresa de la
construcción (datos en euros), y de la que es conocida su media

y su varianza SX2= 90.000.


Si se definen las siguientes variables:
Y: «Deducción en las nóminas de los trabajadores para la Seguridad Social y Mutualidad». Esta consiste
en deducir un 9,5% del salario más 15 euros fijos.
Z: «Deducción en las nóminas de los trabajadores por retenciones del I.R.P.F». Esta consiste en deducir
un 18% del salario.
Calcular la media y la varianza de las variables estadísticas Y y Z. ¿Cuál presenta una mayor dispersión
relativa?
2.4 El volumen de ventas mensuales de 30 empresas se distribuye como sigue:

Obtener el índice de Gini y la curva de Lorenz.


Página 68 | Inicio del artículo
Problemas propuestos
2.5 Durante el pasado fin de semana, dos agencias de viajes han presentado el siguiente movimiento en
la venta de billetes de avión.

a) Obtener la media, mediana y moda del importe obtenido por la venta de billetes en cada una de las
agencias.
b) ¿En qué agencia ha sido mayor la dispersión en el importe de los billetes vendidos?
2.6 Una empresa multinacional americana tiene una fábrica en Valencia. Se realiza un estudio sobre los
salarios mensuales (en cientos de euros) de los empleados de dicha empresa, ofreciendo los siguientes
resultados:
a) Calcular los salarios medios de la empresa.
b) ¿Qué porcentaje de trabajadores tiene un sueldo superior a 12 (cientos de €) mensuales?
c) Si se conocen los siguientes datos correspondientes a los salarios mensuales (cientos de $) de otra
empresa que está situada en Estados Unidos:

¿Cuál de las dos empresas es la que presenta una mayor dispersión relativa?
Página 69 | Inicio del artículo

2.7 Los salarios de los empleados sin cualificación profesional (en euros) en cierta empresa se
distribuyen como sigue:

Obtener la curva de concentración y el índice de Gini.


(1) Este es, con diferencia, el estadístico (cualquier función de los valores de la variable) más
importante. En adelante, cuando se haga referencia al término media, sin especificar, deberá entenderse
media aritmética.
(2) En este sentido se dice que la media no es un estadístico (medida) robusto.
(3) Se podría comprobar que la media armónica, geométrica y armónica guardan la siguiente
relación: Mh ≤ Mg ≤ x.
(4) Este es el criterio que se utilizará. Otros criterios consideran que son válidos ambos valores, esto es,
Me = xi y Me = xi+1, o incluso cualquier valor comprendido entre los anteriores.
(5) Identificado el intervalo mediano,

, donde cies la amplitud


del intervalo mediano y Li-1 su extremo inferior.
(6) En el Apartado 2.3 se verá cómo esta expresión se corresponde con la obtenida al expresar el
momento central de orden 2, que es la varianza, en función de los momentos ordinarios.
(7) Obsérvese cómo la suma de las desviaciones de cada valor de la variable respecto a su media es

cero , tal y como se indicó en la primera propiedad de la media


aritmética.

(8) Para calcular el número combinatorio se procede de la siguiente

forma: .
Cita de fuente (MLA 7.a edición)
"Análisis de Datos Unidimensionales." Estadística descriptiva y nociones de probabilidad. Jesús Estaban
García, et al. Madrid: Paraninfo, 2005. 25-69. Gale Virtual Reference Library. Web. 28 Sept. 2015.
URL
http://go.galegroup.com/ps/i.do?id=GALE%7CCX4052300007&v=2.1&u=unad&it=r&p=GVRL&sw=w&asi
d=03f8699ec7ccf10e8745c0ceb7b85bf1
Número de documento de Gale: GALE|CX4052300007
Ver otros artículos vinculados a estos términos de índice:
Los localizadores de página que refieren a este artículo no están vinculados.
 Coeficiente(s)

2.2.1. MEDIDAS DE POSICIÓN CENTRAL


Las medidas de posición central más importantes son las medias (aritmética, geométrica y
armónica), la mediana y la moda.
2.2.1.1. Media aritmética
Dada una distribución de frecuencias (xi; ni), la media aritmética, o simplemente media, que se
denota por x¯, viene definida por la expresión

Como , la media aritmética también puede expresarse como:

Página 19 | Inicio del artículo

Como puede apreciarse, en la media aritmética cada valor de la variable va ponderado por su
importancia relativa en la distribución. No obstante, no tiene por qué coincidir con ningún valor
de la distribución, siendo su centro de gravedad.
Si los datos estuvieran agrupados en intervalos, la expresión de la media aritmética sería la
misma, pero utilizando, esta vez, la marca de clase (x'i).
Recuadro: Ocultar
EJEMPLO 2.1
Las pensiones mensuales de jubilación de 50 personas, trabajadores autónomos, son las
siguientes:
La pensión mensual será:

Recuadro: Ocultar
EJEMPLO 2.2
Agrupando la distribución del ejemplo anterior en cinco intervalos de igual amplitud, se tiene:

Página 20 | Inicio del artículo

y la media aritmética toma el valor:

En el primer intervalo, se observa que hay 15 personas que perciben una pensión comprendida
entre 450 y 500 euros; sin embargo, al utilizar la marca de clase lo que se hace es suponer que
la pensión de todas esas personas es de 475 euros; lo mismo ocurre en los demás intervalos.
Como puede observarse, la pensión media de esta distribución no coincide con la del Ejemplo
2.1, es decir, se ha cometido un error, denominado error de agrupamiento. Con las
distribuciones agrupadas se simplifican mucho los cálculos pero también se pierde
información, o, dicho de otra manera, la información es menos exacta (lo que lleva en nuestro
ejemplo a una pensión media ligeramente inferior a la real), por lo que habrá que ver hasta qué
punto compensa el agrupar o no los valores de la distribución en intervalos.

Las principales propiedades de la media aritmética son las siguientes:


1. La suma de las desviaciones de los valores de la variable respecto a su media aritmética es
cero:

2. La media aritmética del cuadrado de las desviaciones de los valores de la variable respecto
a una constante k cualquiera se hace mínima cuando dicha constante es igual a la media
aritmética (Teorema de König). En efecto,

por lo que se hace mínima cuando , ya que en ese caso se


anula.
3. Si de un conjunto de valores se pueden obtener dos o más subconjuntos disjuntos, la media
aritmética de todo el conjunto se encuentra relacionada con las medias aritméticas de los
subconjuntos disjuntos. Considérese la distribución expuesta en la tabla de la página
siguiente, de donde se han obtenido ksubconjuntos disjuntos de tal manera que

Página 21 | Inicio del artículo


La media aritmética del conjunto total será:

Esta propiedad es muy útil cuando se incorpora algún valor a la distribución, porque no hace
falta calcular nuevamente la media de todos los valores. Si a la distribución del Ejemplo 2.1 se
le añaden las pensiones de 5 trabajadores más, cada una de 600 euros, la pensión media de
los 55 trabajadores es

Página 22 | Inicio del artículo


4. Si a todos los valores xi de una distribución (xi; ni) se les suma (resta) una constante b, la
media aritmética de la nueva distribución (yi; ni) queda aumentada (disminuida) en esa
constante. En otros términos, a la media aritmética le afectan los cambios de origen.
Si yi = xi ± b, la media aritmética de la variable y será:

5. Si a todos los valores xi, de una distribución (xi; ni) se les multiplica (divide) por una
constante a, distinta de cero, la media aritmética de la nueva distribución (yi;ni) queda
multiplicada (dividida) por esa constante. Es decir, a la media aritmética le afectan los cambios
de escala.
Si yi = axi, la media aritmética de la variable y será

6. Como consecuencia de las dos propiedades anteriores, si a una variable se le aplica un


cambio de origen b y un cambio de escala a, la media de la nueva variable y = ax ± b será

La media aritmética tiene una serie de ventajas:


 En su cálculo intervienen todos los valores de la distribución, lo cual parece un requisito indispensable de un
promedio.
 Es fácil de calcular y siempre se puede determinar. En distribuciones agrupadas es necesario que los
intervalos estén perfectamente definidos; si los intervalos son del tipo menor que o mayor que, al no poderse
calcular la marca de clase tampoco se puede calcular la media.
 Es única.
 La media aritmética es el centro de gravedad de la distribución, en virtud de la primera propiedad.
Página 23 | Inicio del artículo

Recuadro: Ocultar
EJEMPLO 2.3
Considérense las siguientes tres distribuciones de salarios anuales (miles de euros):
Estas distribuciones tienen idéntica media aritmética: 70 (en otros términos, idéntico centro de
gravedad, representado por ▴). Sin embargo, en las dos primeras este valor es el resultado de
promediar valores muy parecidos entre sí, y en la tercera valores muy grandes con valores muy
pequeños.

El principal inconveniente de la media aritmética es la escasa representatividad que puede


tener, como valor central de la distribución, en el caso de que la variable tome valores
anormalmente extremos (como ocurre en la tercera distribución del Ejemplo 2.3), dando lugar
a conclusiones no muy fiables.
2.2.1.2. Media geométrica
La media geométrica de una distribución de frecuencias (xi; ni), que se representa por G, se
define como la raíz N-ésima del producto de los valores de la variable elevados a sus
correspondientes frecuencias absolutas.

Página 24 | Inicio del artículo

Nótese que
y utilizando las propiedades de los logaritmos,

Por tanto:

es decir, el logaritmo de la media geométrica es igual a la media aritmética de los logaritmos


de los valores de la variable.
Como puede observarse, en el cálculo de la media geométrica también intervienen todos los
valores de la distribución. Sin embargo, uno de los grandes inconvenientes de esta medida
central es su no representatividad cuando uno (o varios) de los valores sea cero, ya que G se
anula. Por otra parte, cuando algunos de los valores de la variable son negativos, existen
determinados casos en los cuales no se puede calcular la media geométrica; esto no significa
que no exista sino que no se puede determinar.
La media geométrica se suele utilizar para promediar, por ejemplo, tipos de interés, tasas de
variación, porcentajes y números índice, es decir, cuando los valores de la variable presentan
variaciones acumulativas.
Recuadro: Ocultar
EJEMPLO 2.4
Un individuo invirtió 12.000 euros en un plan de pensiones. Durante los cinco años siguientes
las tasas de revalorización fueron del 5,6%, 2,25%, 4,15%, 8% y 9%, respectivamente. Calcúlese
la tasa de revalorización media anual de esos cinco años.
Si a la cantidad inicial invertida, S0, se le aplican sucesivamente las tasas de revalorización
anuales, r1, r2, r3, r4, r5, se obtienen las cantidades resultantes para los cinco años:

Página 25 | Inicio del artículo

La tasa media anual que ha de calcularse (r), que debido a su naturaleza se conoce como tasa
media anual acumulativa, debe ser tal que, aplicada sucesivamente durante cinco años a la
cantidad inicial, proporcione el montante del último año considerado. Es decir, se debe
verificar

o bien

Por tanto,

expresión que involucra la media geométrica de (1 + ri), siendoG = 1 + r.


Despejando la tasa media anual r, ésta resulta ser

Por tanto, al individuo le es indiferente que su dinero se incremente un porcentaje distinto cada
año o que aumente todos los años un 5,77%, ya que al final del quinto año la cuantía de su plan
de pensiones va a ser la misma:

Si se hubiese utilizado la media aritmética, el incremento sería

resultado no realista, pues 12.000(1 + 0,058)5 = 15.907,78 euros, cifra que no coincide con la
cantidad total que el individuo en cuestión tiene al final del quinto año: 15.886,13 euros.
2.2.1.3. Media armónica
La media armónica H de una distribución de frecuencias (xi; ni) se define como la inversa de la
media aritmética de los inversos de los valores de la variable; esto es,

Página 26 | Inicio del artículo


Igual que las dos medias anteriores, la media armónica tiene la ventaja de que en su cálculo
intervienen todos los valores de la variable; sin embargo, no tiene sentido su utilización
cuando algún valor de la distribución sea nulo.
La media armónica se suele utilizar para promediar rendimientos, productividades, etc., es
decir, cuando las unidades de medida de la variable analizada vienen dadas en forma de
cociente.
Recuadro: Ocultar
EJEMPLO 2.5
Una empresa de equipos electrónicos tiene tres talleres de montaje con las siguientes cifras
mensuales:

La productividad media del trabajo (número de equipos por empleado) se calcula de la


siguiente forma:

Nótese que 4.500/30 es el número de empleados del taller A:

Análogamente, 2.400/15 y 3.000/25 son los empleados de los talleres B y C, respectivamente,


esto es, 160 y 120.
Si se calcula la media aritmética de las productividades, se llega a:

resultado erróneo, pues, si se toma como productividad media 23,33 equipos por empleado, el
número total de equipos producidos sería 430 x 23,33 = 10.032, cuando la cifra real es de
9.900.
Página 27 | Inicio del artículo
2.2.1.4. Medias ponderadas
Cuando la ponderación de los valores de la variable (wi) es distinta de la frecuencia (absoluta
o relativa) se tienen las denominadas medias (aritmética, geométrica y armónica) ponderadas,
definidas, respectivamente, como

2.2.1.5. Mediana
Suponiendo que los valores de la variable están ordenados de menor a mayor, la mediana se
define como aquel valor que divide la distribución de frecuencias de forma que el número de
frecuencias que quedan a su izquierda es igual al número de las que quedan a su derecha.
Distribuciones no agrupadas en intervalos
Si el número total de datos es impar, la definición proporciona siempre un único valor, ya que
denominando k al número de observaciones inferiores y superiores a la mediana resulta que

siendo la mediana el valor que ocupa el lugar k + 1 de la distribución.

Sin embargo, si el número de datos es par, habrá dos valores medianos: el que ocupa el

lugar el que ocupa el lugar puesto que


Página 28 | Inicio del artículo
En este caso, se conviene en tomar como valor mediano la media aritmética de ambos. No
obstante, esto no es sino un convenio. Perfectamente podría tomarse como mediana uno u
otro.
Distribuciones agrupadas en intervalos
En el caso en que la distribución se encontrase agrupada en intervalos, no se tendrá un valor
mediano sino un intervalo mediano. Una vez establecido dicho intervalo mediano, hay que
determinar un valor dentro de él que se corresponda con la mediana, valor que no se puede
calcular de forma exacta puesto que se desconocen los diferentes valores que toma la
variable en cada uno de los intervalos. Existen varios criterios para aproximar el valor
mediano:
a) Si se asigna ni a un punto, se puede considerar que la mediana es cualquier valor del
intervalo, exceptuando Li-1, puesto que los intervalos se consideran abiertos por la izquierda y
cerrados por la derecha.
b) Si no se asigna ni a un punto sino que se considera que todos los valores del intervalo
están distribuidos de manera uniforme dentro de él, se puede aproximar la mediana de la
forma siguiente:
▪ Número de datos impar
Como se ha visto en distribuciones no agrupadas en intervalos, si el número de datos es impar
la mediana es aquel valor de la variable, supuesta una ordenación de menor a mayor, que
ocupa el lugar:

Página 29 | Inicio del artículo


Siguiendo este mismo criterio, el intervalo mediano será aquel que contenga la

frecuencia . Si el intervalo mediano es Li-1 – Li y se observa el histograma acumulativo


de frecuencias del Gráfico 2.1 se tiene:

Gráfico 2.1

Evidentemente, Me = Li-1 + m, y m se determina mediante la siguiente reglade tres:

despejando m se tiene que

con lo que

Página 30 | Inicio del artículo

▪ Número de datos par


En este caso se dispone de dos valores medianos, que son los que ocupan las posiciones
Si ambos valores están en el mismo intervalo Li-1 – Li (intervalo mediano) se tiene que

pudiéndose tomar como mediana cualquiera de ellos o la media de los dos:

es decir, la misma expresión que la obtenida para el caso de que la frecuencia total sea impar.
Si los dos valores medianos se encuentran en distintos intervalos, se procedería de forma
análoga.
La mediana, como medida de posición central, resulta de gran utilidad en los casos siguientes:
 Cuando existan valores anormalmente bajos o elevados. La mediana es menos sensible que la media
aritmética a estos valores extremos porque en su determinación no intervienen todos los valores de la variable
sino los que ocupan las posiciones centrales.
 Cuando en las distribuciones agrupadas en intervalos el primero sea del tipo menor que o el último del
tipo mayor que, siempre y cuando ninguno de estos intervalos sea el intervalo mediano.
 Cuando se analizan variables cualitativas que vienen dadas en escala ordinal. En este caso, no se puede
determinar la media aritmética, siendo la mediana la medida de tendencia central más representativa.
Página 31 | Inicio del artículo

Recuadro: Ocultar
EJEMPLO 2.6
Se dispone de la siguiente información acerca de las prestaciones mensuales por desempleo
(euros) percibidas por 15 personas:

Como el número de datos es impar, la prestación mensual mediana es el valor que ocupa el
lugar
es decir, Me = 631 euros.
Si la distribución anterior tuviera un número par de observaciones como, por ejemplo,

donde

el primer valor mediano sería 631 y el segundo 644, siendo la media aritmética de ambos 637,5.

Página 32 | Inicio del artículo

Recuadro: Ocultar
EJEMPLO 2.7
El número de beneficiarios de prestaciones de nivel contributivo por desempleo en España en
2004, según la edad de los mismos, viene recogido en la siguiente tabla:
Como se dispone de un número par de datos, los dos valores medianos ocupan,
respectivamente, las posiciones:

Dado que ambos se encuentran en el mismo intervalo mediano (35-40), la mediana es

Recuadro: Ocultar
EJEMPLO 2.8
Según la «Estadística de Accidentes de Trabajo» del Ministerio de Trabajo y Asuntos Sociales,
entre enero y septiembre de 2005 los accidentes laborales con baja registrados en España
durante la jornada de trabajo fueron, según su gravedad: leves: 675.190; graves: 7.508;
mortales: 770.
Página 33 | Inicio del artículo
Igual que ocurre en el caso de las variables, al ser el número de observaciones par, los dos
valores medianos corresponderán a aquellas dos modalidades que ocupen los lugares:

es decir, en cualquier caso, a los accidentes leves. En caso de dos modalidades medianas
distintas, es obvio que no se puede calcular la media aritmética de ambas, debiéndose proceder
con un juicio razonable. Si el número de observaciones es impar, existiría con una única
modalidad central.
2.2.1.6. Moda
La moda es aquel valor de la variable que presenta mayor frecuencia absoluta, es decir, aquel
que más veces se repite. Puede darse el caso de que existan varios valores que presenten la
máxima frecuencia absoluta, teniéndose entonces una distribución bimodal, trimodal, etc.
Si la distribución está agrupada en intervalos, en primer lugar habrá que determinar el
intervalo modal y, posteriormente, elegir como moda un valor de dicho intervalo. Se distinguen
dos casos:
A. La amplitud de los intervalos es la misma
En este caso, el intervalo modal es aquel que presenta mayor frecuencia absoluta y, como se
desconocen los valores incluidos en dicho intervalo, se puede aproximar la moda siguiendo
varios criterios:
A.1. Si se asigna ni a un punto, se puede elegir cualquier valor del intervalo como moda
(descartando el extremo inferior por considerar el intervalo abierto por la izquierda).
A.2. Si se considera que todos los valores del intervalo están distribuidos de manera uniforme
dentro de él y el intervalo modal es Li–1 – Li, la moda estará más cerca (lejos) del intervalo de la
derecha cuanto mayor (menor) frecuencia tenga este intervalo y menor (mayor) tenga el
izquierdo (Grífico 2.2).
Página 34 | Inicio del artículo
Gráfico 2.2.

La semejanza de los triángulos y permite hallar la longitud del


segmento (cantidad que se debe sumar a Li–1, para obtener el valor de la moda).
Por la semejanza de los triángulos, se verifica que

de donde se deduce que

siendo

Por tanto,

B. La amplitud de los intervalos es distinta


En este caso, el intervalo modal no es el que tiene mayor frecuencia absoluta sino el que tiene

mayor frecuencia por unidad de intervalo, es decir, mayor densidad de frecuencia .


Una vez determinado el intervalo modal se puede aproximar la moda siguiendo los criterios
vistos en el caso anterior, siendo el más razonable el último
Página 35 | Inicio del artículo

con

Por último, la moda es la mejor medida de tendencia central en el análisis de los atributos
dados en escala nominal, ya que sus modalidades no son susceptibles de ser ordenadas y
tampoco admiten ningún tipo de operación algebraica.
Recuadro: Ocultar
EJEMPLO 2.9
Los contratos registrados en España durante los ejercicios 2004 y 2005, según modalidad de
contratación y duración del contrato, fueron
El tipo de contrato más frecuente en nuestro país, tanto en el ejercicio 2004 como en 2005, fue
el eventual por circunstancias de la producción, puesto que es el que presenta en ambos años la
mayor frecuencia absoluta.

Página 36 | Inicio del artículo

Recuadro: Ocultar
EJEMPLO 2.10
Las prestaciones mensuales por desempleo (euros) de un determinado número de individuos
son las que se recogen en la siguiente tabla:
El intervalo con mayor densidad de frecuencia es (500-600) y la moda sería

2.2.2. MEDIDAS DE POSICIÓN NO CENTRAL


Estas medidas, como su nombre indica, no reflejan ninguna tendencia central. Se denominan
genéricamente cuantiles y son aquellos valores de la variable, odenados en sentido creciente,
que dividen la distribución en partes, de tal manera que cada una de ellas contiene el mismo
número de frecuencias. Si la mediana divide la distribución en dos partes con idéntico número
de observaciones, por extensión, los cuartiles (Ci), deciles (Di) y percentiles (Pi) dividen a la
misma en 4, 10 y 100 partes, respectivamente, con el mismo número de frecuencias.
A. Distribuciones no agrupadas en intervalos
La explicación se centrará en los cuartiles, si bien es fácilmente generalizable a los deciles y
percentiles.
Los cuartiles quedan perfectamente determinados si el número total de observaciones es
inferior en una unidad a cualquier múltiplo de 4. Sin embargo, en otros casos es necesario
recurrir a procedimientos que permitan determinar un valor concreto. Los procedimientos que
se proponen son los siguientes:
a) Si el número total de observaciones es múltiplo de 4: el primer y tercer cuartil quedan
perfectamente determinados; sin embargo, como segundo cuartil se tienen dos valores
medianos, ya que el número total de observaciones es par, optando por calcular la media
aritmética de ambos.
Página 37 | Inicio del artículo

El primer cuartil ocupa el lugar:


El segundo cuartil o mediana: media aritmética de los dos valores medianos.
Los dos valores medianos ocupan los lugares:

El tercer cuartil ocupa el lugar

b) Si el número total de observaciones es inferior en una unidad a un múltiplo de 4:

Los cuartiles C1 C2 y C3 son los valores que ocupan los lugares:

c) Si el número total de observaciones es inferior en 2 unidades a un múltiplo de 4: en este


caso, existen dos valores para cada cuartil, por lo que se considera la media aritmética de
ambos.
Página 38 | Inicio del artículo

El primer y segundo valor del primer cuartil ocupan los lugares


El primer y segundo valor del segundo cuartil o mediana ocupan los lugares

El primer y segundo valor del tercer cuartil ocupan los lugares

d) Si el número total de observaciones es inferior en 3 unidades a un múltiplo de 4: como el


número total de observaciones es impar se tomará un valor mediano y dos valores para el
primer y tercer cuartil, y se procede posteriormente a promediar éstos.

El primer y segundo valor del primer cuartil ocupan los lugares

Página 39 | Inicio del artículo

El segundo cuartil o mediana ocupa el lugar

El primer y segundo valor del tercer cuartil ocupan los lugares


B. Distribuciones agrupadas en intervalos
Como en el caso anterior, se hará referencia a los cuartiles, si bien se puede proceder de
forma similar para la determinación de deciles y percentiles.
En primer lugar, hay que establecer el intervalo que contiene a cada uno de ellos y,
posteriormente, asignar un valor de dicho intervalo al cuartil correspondiente. De manera
análoga a como se procedía en la determinación de la mediana, se puede tomar como cuartil
cualquier valor del intervalo excepto el correspondiente al extremo inferior, por considerarse
los intervalos abiertos por la izquierda, o bien aplicar la siguiente expresión:

siendo NCi el lugar que ocupa el cuartil i-ésimo.


Recuadro: Ocultar
EJEMPLO 2.11
A partir de la siguiente distribución de salarios mensuales (euros), determínese el primer
cuartil:

Como N es inferior en dos unidades a un múltiplo de cuatro, hay dos primeros cuartiles. Para el
primero:

Página 40 | Inicio del artículo

y, para el segundo:
es decir, 12 y 13, respectivamente. Por tanto, el primer y segundo valor del primer cuartil son

por lo que, promediando ambos, se considera como primer cuartil 1.550 euros.

2.3. Medidas de dispersón


Supóngase, por ejemplo, que el coste extra salarial (en euros) que cuatro trabajadores de una
empresa A y otros cuatro de una empresa B les suponen a ambas un determinado mes es:

pudiéndose apreciar que en la empresa B los valores de la variable varían poco y en la A


mucho. Si se calcula el coste extra salarial medio de ambas distribuciones, el resultado
obtenido es 235 euros. Sin embargo, estas dos distribuciones son bien distintas, ya que a la
empresa A ningún trabajador le supone un coste extra salarial próximo a 235 euros y a la B sí.
Es decir, se puede considerar que el coste extra salarial medio de los cuatro trabajadores de
la empresa B es más representativo que el de los cuatro de la empresa A.
Esto indica que, para caracterizar una distribución, además de calcular las medidas de
posición, también resulta necesario analizar su variabilidad. Dicha variabilidad, habitualmente,
se mide respecto a una medida de posición central, pretendiendo, de esta manera, conocer la
representatividad de los valores centrales de la distribución, es decir, si estos valores
sintetizan de forma satisfactoria o no toda la información de la distribución.
Página 41 | Inicio del artículo

Existen dos tipos de medidas de dispersión: las absolutas y las relativas. Las primeras se
utilizan cuando se trata de analizar la variabilidad de, únicamente, una distribución de
frecuencias y, las segundas, cuando se pretende comparar la variabilidad de dos o más.
2.3.1. MEDIDAS DE DISPERSIÓN ABSOLUTAS
A Medidas de dispersión obtenidas por comparación directa entre los valores de la variable
Recorrido o rango
Se define como la diferencia entre el máximo y mínimo valor de la variable:
En el ejemplo anterior, el recorrido de la distribución de la empresa A es 270 euros y en la
empresa B 20 euros. Al tener ambas el mismo número de observaciones y ser el recorrido de
la distribución de la empresa B mucho más pequeño, en principio, se puede suponer que esta
distribución está menos dispersa que la de la empresa A; o dicho de otra manera, las
diferencias entre sus valores son menores.
Esta medida tiene la ventaja de ser muy sencilla de calcular. Sin embargo, el inconveniente
que presenta es que sólo depende de los valores extremos, por lo que si éstos se encuentran
alejados del resto de los valores de la distribución (es decir, son valores anómalos) puede dar
lugar a conclusiones erróneas.
Recorrido o rango intercuartílico
Para evitar el problema de los valores anómalos, se suele emplear el denominado recorrido o
rango intercuartílico, que se define como la diferencia entre el tercer y primer cuartil

donde el intervalo de longitud RI contiene el 50% de lo valores centrales de la distribución.


Cuanto mayor sea el recorrido intercuartílico mayor será la variabilidad o dispersión de la
distribución de frecuencias.
Diferencia media de Gini
Se define como

Página 42 | Inicio del artículo

esto es, el promedio de las diferencias (en valor absoluto) entre cada par de valores de la
distribución. Su principal incoveniente radica en la tediosidad de su cálculo.
B Medidas de dispersión obtenidas por comparación entre los valores de la variable y una
medida de posición central
Si lo que se pretende es analizar la mayor o menor representatividad de los valores centrales
de la distribución, es necesario utilizar otro tipo de medidas que hagan referencia a algún
promedio. De todos los promedios estudiados se ha elegido la media aritmética, porque es la
medida de posición central por excelencia habida cuenta de sus propiedades y ventajas.
Dentro de las medidas de dispersión absolutas respecto a la media aritmética, la varianza y la
desviación típica son las más utilizadas.
Varianza
Para determinar la mayor o menor separación entre los valores de la variable y la media
aritmética, se podrían promediar las desviaciones de cada valor respecto a la media aritmética

sin embargo, por la primera propiedad de la media aritmética, esta expresión es nula ya que
las desviaciones positivas se compensan con las negativas. Una forma de evitar esta
circunstancia es considerar las desviaciones elevadas al cuadrado, con lo cual tiene que

Esta expresión se denomina varianza y se define como la media aritmética de los cuadrados
de las desviaciones entre los valores de la variable y la media aritmética, siendo, por la
segunda propiedad de la media aritmética, una medida de dispersión óptima.
La varianza mide la mayor o menor dispersión de los valores de la variable respecto a la
media aritmética. Cuanto mayor sea la varianza mayor dispersión existirá y, por tanto, menor
representatividad tendrá la media aritmética.
Las propiedades de la varianza son las siguientes:
1. La varianza siempre es mayor o igual a cero.
Página 43 | Inicio del artículo

2. La varianza se puede expresar como:

3. Si de un conjunto de valores se pueden obtener dos o más subconjuntos disjuntos, la


varianza de todo el conjunto se encuentra relacionada con las varianzas de los subconjuntos
disjuntos. Considerése la siguiente distribución:
de donde se han obtenido k subconjuntos disjuntos de tal manera que

Página 44 | Inicio del artículo

La varianza del conjunto total será

Ya se vio que es la media total de los k grupos

De la misma forma se podría expresar


Por tanto,

Pero los dos últimos términos de la expresión anterior no son sino la varianza de una
distribución cuyos valores son las medias de los grupos y sus frecuencias absolutas los
tamaños de los mismos. En consecuencia, la varianza global de la distribución se puede
expresar como la media ponderada de la varianza de los grupos más la varianza de la
distribución de medias anteriormente citada.
O, en otros términos, como

ya que la media de la distribución de medias grupales es la media de la variable.


Página 45 | Inicio del artículo

Por consiguiente, la varianza global se puede obtener como una suma ponderada de las
varianzas de cada grupo (primer sumando) más una suma ponderada de las diferencias
cuadráticas de las medias de cada grupo con respecto a la media global. En definitiva, la
varianza global se puede descomponer en dos sumandos: el primero hace referencia a la
variabilidad intrínseca de cada grupo (variabilidad intragrupos) y el segundo a la variabilidad
de las medias de cada grupo (variabilidad intergrupos).
4. Si a todos los valores (xi) de una distribución (xi; ni) se les suma (resta) una constante b, la
varianza de la nueva distribución (yi; ni) no varía, es decir, a la varianza no le afectan los
cambios de origen (si por ejemplo a todos los trabajadores de una empresa les suben el
sueldo mensual 100 euros, la variabilidad de los salarios sigue siendo la misma).
Si yi = xi ± b, la varianza de la variable y será

5. Si a todos los valores xi de una distribución (xi; ni) se les multiplica (divide) por una
constante a, distinta de cero, la varianza de la nueva distribución (yi; ni) queda multiplicada
(dividida) por esa constante al cuadrado; es decir, a la varianza le afectan los cambios de
escala.
Si yi = axi, la varianza de la variable y será

6. Teniendo en cuenta las dos propiedades anteriores, si a una variable se le aplica un cambio
de origen b y un cambio de escala a, la varianza de la nueva variable yi = axi + b es

Desviación típica o estándar


La varianza viene expresada en las mismas unidades de medida que la variable analizada
pero elevadas al cuadrado, lo que dificulta su interpretación (piénsese que en una distribución
de salarios la varianza vendrá dada en euros2). Ante esta situación, es necesario definir otra
medida que venga expresada en las mismas unidades de medida que la variable. Esta medida
es la desviación típica o estándar.
Página 46 | Inicio del artículo

Se define la desviación típica como la raíz cuadrada con signo positivo de la varianza, esto es,

Cuanto mayor sea la desviación típica, mayor dispersión existirá entre los valores de la
distribución y la media aritmética y, por tanto, la media aritmética será menos representativa.
Las propiedades de la desviación típica se deducen directamente de las de la varianza:
1. La desviación típica siempre es mayor o igual que cero.
2. La desviación típica también puede expresarse como
3. A la desviación típica no le afectan los cambios de origen: si yi = xi ± b, entonces

4. A la desviación típica le afectan los cambios de escala: si yi = axi, entonces

5. Si a una variable se le aplica un cambio de origen b y un cambio de escala a, la desviación


típica pasa a ser

6. La desviación típica, igual que la varianza, es una medida de dispersión óptima.


Recuadro: Ocultar
EJEMPLO 2.12
La siguiente tabla contiene la distribución de altas diarias de afiliados a la Seguridad Social en
España durante el mes de enero de 2006 (en miles). Calcúlese la media diaria de dichas altas,
así como su desviación típica.
Página 47 | Inicio del artículo

El núimero medio de altas diarias, en miles, será


y su desviación típica, también en miles,

2.3.2. MEDIDAS DE DISPERSIÓN RELATIVAS


Supóngase, por ejemplo, que se dispone de las distribuciones de edades de los trabajadores
afiliados a la Seguridad Social en los regímenes especiales agrícola y marítimo: en el agrícola
la edad media es de 43 años y la desviación típica de 5 años, y en el marítimo la edad media
también es de 43 años pero la desviación es de 8 años. Evidentemente, puesto que la edad
media es la misma en ambos regímenes, la distribución del régimen marítimo presenta mayor
dispersión, ya que tiene mayor desviación típica y, por tanto, la edad media es menos
representativa que en el régimen agrícola. Sin embargo, si las edades medias fueran distintas,
no se podría utilizar la desviación típica para determinar la representatividad de las mismas, ni
tampoco en Página 48 | Inicio del artículoel caso de que las unidades de medida fuesen
diferentes (por ejemplo, si se tiene una distribución de salarios y otra de edades).
Para evitar estos inconvenientes, hay que poner en relación la medida de dispersión con la de
tendencia central, y ello en forma de cociente para que la medida resultante sea adimensional.
Este tipo de cocientes son las denominadas medidas de dispersión relativas, de las que
existen varias en la literatura estadística, siendo la más utilizada el coeficiente de variación de
Pearson.
Este coeficiente se define como el cociente entre la desviación típica y el valor absoluto de la
media aritmética

Se puede apreciar que:


 Como las unidades de medida de la desviación típica y de la media aritmética son las mismas, este cociente
es adimensional; por tanto, es útil para comparar varias distribuciones.
 Como el coeficiente de variación representa el número de veces que la desviación típica contiene a la media,
cuanto mayor sea este coeficiente, mayor dispersión existirá (más veces contendrá la desviación típica a la
media aritmética), por lo que menor será la representatividad de la media aritmética y menor será la
homogeneidad de los valores de la distribución.
 El coeficiente de variación utiliza toda la información de la distribución.
 El coeficiente de variación se anula cuando la desviación típica es cero. En este caso no existiría dispersión y
todos los valores de la distribución son iguales.
 Cuando la media aritmética es cero, no tiene sentido su cálculo.
 Este coeficiente puede expresarse también en porcentaje, simplemente multi-plicando la expresión anterior
por 100.
Recuadro: Ocultar
EJEMPLO 2.13
En el Ejemplo 2.12 se ha procedido al cálculo de la media y la desviación típica de las altas
diarias de afiliados a la Seguridad Social en España durante el mes de enero de 2006. Ahora, en
la tabla adjunta, se presenta la información relativa a las bajas diarias de afiliados en España
durante dicho mes (también en miles). ¿Cuál de las dos medias diarias, la de altas o la de bajas,
es más representativa?
Página 49 | Inicio del artículo

Procediendo de la misma manera que en el ejemplo anterior, el número medio de bajas, en


miles, seraá

y su variabilidad en torno a este valor medio, también en miles,


Para determinar cuál de las dos medias es más representativa, se procede al cálculo de los
coeficientes de variación de ambas distribuciones de frecuencias,

llegándose a la conclusión de que, si bien ambos son muy similares, la media de las bajas
diarias en los registros de afiliación a la Seguridad Social es ligeramente más representativa.

Página 50 | Inicio del artículo


2.3.3. VARIABLE TIPIFICADA
Supóngase que se dispone de una distribución de frecuencias (xi; ni) con una determinada
media y desviación típica. Si a todos los valores de la distribución se les resta la media y se
les divide por la desviación típica, la variable resultante se denomina variable tipificada:

y se caracteriza porque su media es cero y su varianza uno, como puede comprobarse


fácilmente aplicando las propiedades de la media y varianza.
Recuadro: Ocultar
EJEMPLO 2.14
Un individuo tiene que elegir entre dos ofertas de trabajo: una propuesta por una empresa
española y la otra por una americana. La empresa española le ofrece un sueldo anual bruto de
53.000 euros, mientras que la oferta de la americana es de 50.000 $. Por otro lado, esta
persona tiene información sobre el sueldo medio y la desviación típica salarial de las
distribuciones de ambas empresas:

¿En cuál de las dos empresas la posición relativa de este individuo es mejor respecto a los
demás trabajadores?
Como las unidades de medida de ambas distribuciones no son iguales, no se pueden comparar
las remuneraciones de las dos empresas, por lo que habrá que transformar estos valores de
manera que las distribuciones tengan la misma media y la misma desviación típica, es decir,
habrá que tipificar los salarios.
En el caso de los salarios ofertados al individuo en cuestión, se tiene que

Como las distribuciones de los salarios tipificados tienen media igual a cero y desviación típica
igual a 1, se observa que en ambas empresas la remuneración de ese individuo está por encima
de la media. Sin embargo, en la empresa española estaría 3,71 desviaciones típicas por encima
de la media, mientras que en la americana su salario sería 7,82 desviaciones típicas superior al
salario medio, lo que refleja que su posición relativa frente a los demás trabajadores es mejor
en la empresa americana.

Página 51 | Inicio del artículo


2.3.4. DESIGUALDAD DE TCHEBICHEFF
En caso de no disponer de la distribución de frecuencias nada se puede saber sobre el
número de frecuencias mayores que un determinado valor de la variable, o menores que él, o
comprendidos entre dos valores de la variable. Sin embargo, si se conocen la media y la
desviación típica de dicha distribución es posible conocer el número mínimo de frecuencias
contenidas en un intervalo simétrico respecto de la media, aunque no se disponga de la
distribución de frecuencias. Tal aportación, sin duda importante, se debe al matemático ruso
Tchebicheff.
Sea una distribución de frecuencias (xi; ni). Se divide en dos clases: la primera,C1, contiene los
valores de la variable que distan de la media de la distribución (en valor absoluto) más que
una distancia k positiva. La segunda, C2, contiene el resto de valores.

En consecuencia:
y como en C1 resulta que , se tiene que

y despejando se obtiene que

o bien,

Página 52 | Inicio del artículo

En el caso particular en que k = k*Sx, siendo k* una constante mayor que cero, se tiene que

La interpretación de este resultado es como sigue: el porcentaje del total de valores de la


distribución que se encuentran comprendidos entre la media aritmética ± k* veces la
desviación típica de la distribución es, como mínimo, 1 – 1/k*2. De este resultado se desprende
que, para cualquier distribución de frecuencias:
— Entre están comprendidas, al menos, el 75% de las frecuencias de la
distribución.
— Entre están comprendidas, al menos, el 89% de las frecuencias de la
distribución.
— Entre están comprendidas, al menos, el 94% de las frecuencias de la
distribución.
2.4. Medidas de forma
Para realizar un resumen completo de la variable objeto de estudio se deben analizar, además
de las medidas de posición y dispersión, otra serie de medidas que caracterizan de forma más
precisa el comportamiento de dicha variable, ya que pueden existir distribuciones que
presenten el mismo valor central e igual grado de dispersión, y diferir, sin embargo, en la
forma o aspecto de sus histogramas o diagramas de barras. Estas medidas se conocen con el
nombre demedidas de forma y pueden ser de dos tipos: de asimetría y de apuntamiento o
curtosis.
2.4.1. MEDIDAS DE ASIMETRÍA
El objetivo de estas medidas es determinar, sin necesidad de dibujar la distribución de
frecuencias, la deformación horizontal de los valores de la variable analizada respecto a un
valor central, generalmente la media aritmética.
Una distribución es simétrica cuando a la izquierda y derecha de su media existe el mismo
número de valores, de manera que equidisten dos a dos de la media y tengan, además, cada
uno de ellos la misma frecuencia. Sin embargo, no siempre ocurre esto; por ello, resulta
necesario el uso de medidas que determinen la mayor o menor asimetría de los valores de la
variable respecto a la media aritmética, siendo deseable que estas medidas vengan dadas en
forma de cociente y, por tanto, sean adimensionales.
Página 53 | Inicio del artículo

Para ver el grado y la dirección de la asimetría de una distribución se podrían promediar las
desviaciones de los valores de la variable respecto a la media aritmética, ya que podría
pensarse que un promedio negativo implicaría asimetría a la izquierda, un promedio positivo
asimetría a la derecha, un promedio grande mucha asimetría y un promedio pequeño poca
asimetría. Pero, como ya se ha visto, dicho promedio es cero. Como interesa mantener los
signos de estas desviaciones, no pueden elevarse a un número par pues se perderían; por
tanto, habrá que elevarlas al número impar más pequeño: 3. Por último, se dividen por la
desviación típica al cubo con el fin de que la medida resultante sea adimensional, es decir,

La expresión resultante, la más habitual por otra parte, es conocida como elcoeficiente de
asimetría de Fisher.
Para calcular m3 se utiliza la expresión del Apéndice del final de este capítulo:

El Gráfico 2.3 recoge los tres casos posibles que pueden darse:
Gráfico 2.3
Página 54 | Inicio del artículo
 Si la distribución es simétrica: g1 = 0.
 Si la distribución es asimétrica positiva o a la derecha: g1 > 0.
 Si la distribución es asimétrica negativa o a la izquierda: g1 < 0.
También se puede señalar que:
 Si la distribución es simétrica: .
 Si la distribución es asimétrica positiva o a la derecha: .
 Si la distribución es asimétrica negativa o a la izquierda: .
2.4.2. MEDIDAS DE APUNTAMIENTO O CURTOSIS
El coefíciente de curtosis de una distribución determina el grado de apuntamiento que ésta
tiene respecto a otra distribución denominada distribución normal1 , que, por otra parte, es la
que sigue una gran mayoría de distribuciones económicas.
Este coefíciente se utiliza cuando las distribuciones son simétricas o ligeramente asimétricas,
ya que en este tipo de distribuciones frecuentemente se da el caso de que las más altas que la
normal en las colas también lo son en el centro.
Igual que ocurre con el coeficiente de asimetría, el de curtosis también es adimensional y su
expresión es la siguiente:
Para calcular m4 se utiliza la expresión del Apéndice del final de este capítulo:

El coeficiente de curtosis de la distribución normal es nulo, de tal forma que:


 Si la distribución es mesocúrtica o igual de apuntada que la normal: g2 = 0.
 Si la distribución es platicúrtica o menos apuntada que la normal 2 : g2 < 0.
 Si la distribución es leptocúrtica o más apuntada que la normal: g2 > 0.
Página 55 | Inicio del artículo

Gráfico 2.4.

Las denominaciones de mesocúrtica, platicúrtica y leptocúrtica fueron dadas originariamente


porque entre ciertas distribuciones simétricas regulares se podía percibir que las que tenían
frecuencias relativas más elevadas en las colas eran también las que tenían mayores
frecuencias relativas en la parte central. Evidentemente, esto no tiene por qué ocurrir para otro
tipo de distribuciones simétricas o para las asimétricas y, aunque la nomenclatura anterior es
útil, debe ser entendida como que describe el signo del coeficiente de apuntamiento más que
la forma de la distribución.
Algunas particularidades importantes relativas al coeficiente de apuntamiento son las
siguientes:
1. El coeficiente de apuntamiento es siempre mayor que – 2.
Considérese la desigualdad de Cauchy

salvo que ai y bi sean proporcionales, en cuyo caso la relación es de igualdad.


Hágase
Entonces, se tiene que

Página 56 | Inicio del artículo

siendo sólo la relación de igualdad cuando la distribución de frecuencias se encuentra


concentrada en dos valores.
Es decir,

y, por consiguiente,

2. En distribuciones regulares, simétricas y unimodales el coeficiente de apuntamiento es


siempre menor que 1,2.
3. Existe una relación entre los coeficientes de asimetría y apuntamiento, que viene dada por

Recuadro: Ocultar
EJEMPLO 2.15
En una empresa con 150 empleados, el número de horas extraordinarias/año de los mismos
sigue la distribución expuesta en las dos primeras columnas de la tabla:
Determínense los coeficientes de asimetría y curtosis.
Los momentos m3 y m4 se calculan en función de los momentos respecto al origen, utilizando
las expresiones del Apéndice de este capítulo.
Página 57 | Inicio del artículo

El coeficiente de asimetría de Fisher es:

y la distribución es asimétrica positiva o a la derecha.


Por otra parte, el coeficiente de curtosis resulta:
y la distribución es leptocúrtica (más apuntada que la normal).

2.5. Box and whisker plots (Gráficos de caja y bigotes)


Un box and whisker plot permite determinar fácilmente de forma visual la tendencia central, la
variabilidad, la asimetría y la existencia de valores anómalos en una distribución de
frecuencias.
Página 58 | Inicio del artículo

Un box and whisker plot incluye las siguientes características de la distribución (véase Ejemplo
2.16):
1. Box (caja): la línea interior de la caja representa la mediana, la de la izquierda el primer cuartil y la
de la derecha el tercer cuartil. La caja, que recoge el 50% de las observaciones centrales de la
distribución, se determina uniendo los extremos de estas tres líneas por dos segmentos paralelos.
2. Whiskers (bigotes): la observación más grande (pequeña) que no se aleja más de 1,5 veces el
recorrido intercuartílico (C3 – C1) desde el tercer (primer) cuartil se encuentra unida a la caja por el
denominado whisker derecho (izquierdo).
3. Valores sospechosos de ser anómalos (o): los puntos que sobrepasan los extremos de
los whiskers pero no están a más de 3 veces el recorrido intercuartílico desde el lado derecho
(izquierdo) de la caja.
4. Valores anómalos (*): puntos que se alejan del lado derecho (izquierdo) de la caja 3 o más veces
el recorrido intercuartílico.
Como ya se ha visto, la mediana proporciona una idea de la tendencia central de la
distribución y el recorrido intercuartílico indica la variabilidad de la misma (a mayor/menor
recorrido intercuartílico mayor/menor variabilidad).
La proximidad de la mediana a los extremos de la caja y la longitud de loswhiskers indicarán la
asimetría de la distribución: si la asimetría es a derechas la mediana estará próxima al
extremo de la derecha de la caja y/o la longitud delwhisker derecho será mayor que la del
izquierdo. Si la asimetría es a izquierdas, la mediana estará próxima al extremo izquierdo de la
caja y/o la longitud delwhisker izquierdo será mayor que la del derecho. Si la distribución es
simétrica, la mediana se ubicará en el centro de la caja y los whiskers serán simétricos
respecto de la mediana.
Los extremos de los whiskers representan los valores más grandes y más pequeños de la
distribución que no son considerados anómalos. Los valores sospechosos de ser anómalos
deberán ser considerados con prudencia y los anómalos pueden no considerarse como
pertenecientes a la distribución en cuestión.
Recuadro: Ocultar
EJEMPLO 2.16
Se dispone de la distribución sobre las bajas laborales (en días) de los trabajadores de una
empresa (véase la tabla de la página siguiente).
Si se observa el Gráfico 2.5, la mediana es de 2 días de baja laboral, no pudiéndose considerar
excesiva la dispersión de la distribución ya que el recorrido intercuartílico es también 2. La
asimetría de la distribución es hacia la derecha ya que la longitud del whisker derecho es mayor
que la del izquierdo (g1= 1,506).
La longitud de los whiskers es, como máximo, de 1,5 veces el recorrido intercuartílico (1,5 x 2 =
3) desde ambos extremos de la caja, es decir, los valores que no son considerados
Página 59 | Inicio del artículo

Gráfico 2.5. Box and whisker plot.

anómalos son los comprendidos entre – 2 y 6. En este caso, como la variable no toma valores
negativos ni tampoco el valor 6, se consideran como mínimo y máximo valor no anómalos de la
distribución el 0 y el 5, respectivamente.
Por otra parte, existe un valor sospechoso de ser anómalo, el correspondiente a la observación
30 (x = 7), pues sobrepasa alwhisker derecho y está entre 1,5 y 3 veces el recorrido
intercuartílico desde el extremo derecho de la caja.
Finalmente, existen dos valores anómalos, que son los correspondientes a las observaciones 31
y 32 (x = 9 y x = 10), ya que se alejan más de 3 veces el recorrido intercuartílico desde el
extremo derecho de la caja.
Como ya se había avanzado, el valor sospechoso de ser anómalo deberá ser considerado con
prudencia, mientras que los dos anómalos pueden ser considerados no representativos de la
distribución.

Página 60 | Inicio del artículo


APÉNDICE. Momentos potenciales
Los momentos de una distribución son valores característicos de la misma deducidos a partir
de todos los valores de la distribución, de modo que si dos distribuciones son iguales, todos
sus momentos son también iguales.
Los momentos potenciales se definen como:

donde c es un número real cualquiera y r el orden del momento.


En función de los valores que tome c, se pueden considerar dos tipos de momentos:
momentos respecto al origen y momentos respecto a la media aritmética o momentos
centrales.
A) MOMENTOS RESPECTO AL ORIGEN
Generalmente se representan por ar y se obtienen cuando c = 0, es decir,

Los primeros momentos respecto al origen son:


B) MOMENTOS RESPECTO A LA MEDIA ARITMÉTICA O
MOMENTOS CENTRALES
Se representan por mr y se obtienen cuando , por lo que

Página 61 | Inicio del artículo

Los primeros momentos centrales son

A efectos prácticos, una cuestión relevante de los momentos centrales es que se pueden
expresar, utilizando el binomio de Newton3 , en función de los momentos respecto al origen:

Casos particulares

1 La representación gráfica de la distribución normal es una campana (campana de Gauss)


que se caracteriza por ser simétrica respecto al eje de abscisas. El coeficiente de
apuntamiento de este tipo de distribuciones, tal y como se ha definido, es nulo.
2 No obstante, como se verá posteriormente, este coeficiente no puede tomar valores
inferiores a – 2.

3 .
Cita de fuente (MLA 7.a edición)
"Características de Una Distribución de Frecuencias." Estadística descriptiva. Jóse Maria Montero
Lorenzo. Madrid: Paraninfo, 2007. 17-61. Gale Virtual Reference Library. Web. 28 Sept. 2015.
URL
http://go.galegroup.com/ps/i.do?id=GALE%7CCX4052100008&v=2.1&u=unad&it=r&p=GVRL&sw=
w&asid=99feba20c3312cbea60961107ffc27a0

4.1 Medidas de dispersión


En el capítulo anterior definíamos una serie de medidas de tendencia central cuyo objetivo era
sintetizar toda la información de que se disponía. Pues bien, en este capítulo vamos a ver
hasta qué punto, para una determinada distribución de frecuencias, estas medidas de
tendencia central son representativas como síntesis de toda la información.
Medir la representatividad de estas medidas equivale a cuantificar la separación de los valores
de la distribución respecto a dicha medida. Por ejemplo, si queremos estudiar en qué grado
una media aritmética nos marca una tendencia central generalizable del comportamiento de
todos los elementos del conjunto estudiado (población o muestra), tendremos que fijarnos en
la separación (en la desviación) de cada valor respecto a la media. Si todos los valores están
cercanos al valor medio, éste será representativo de ellos.
A la mayor o menor separación de los valores respecto a otro, que se pretende sea su
síntesis, se le llama dispersión o variabilidad.
Para entender claramente el concepto de representatividad de la media supongamos, por
ejemplo, que dos países cualesquiera tienen en un determinado año una renta media ⟪per
cápita⟫ de 6 500 dólares. Pero así como el país A presenta una distribución de los distintos
valores de renta del tipo de histograma de la figura siguiente:
Página 74 | Inicio del artículo

FIGURA 4.1

el país B presenta una distribución del tipa:


FIGURA 4.2

La simple inspección de los gráficos pone de manifiesto que, aunque la media aritmética haya
sido correctamente aplicada y calculada, presenta un grado de representatividad muy bajo
para el país A, de forma que debe rechazarse esa cifra de 6 500 dólares como promedio
representativo del nivel db vida? de- ese país pues, como fácilmente se comprende, esa cifra
es la resultante de promediar valores muy distantes o dispersos, es decir, rentas muy altas
con rentas muy bajas, dando una idea de una falsa uniformidad representada por dicha cifra.
En cambio la cifra de 6.500 dólares es aceptable para el país B, puesto que los distintos
valores de la renta están muy concentrados alrededor de ella.
Será, pues, tanto más representativa la media aritmética de una variable. cuanto más
agrupados en torno a ella estén los valores promediados y, por el contrario, será tanto más
rechazable, por no ser representativa, cuanto mayor dispersión exista respecto a la media.
Resulta, pues, necesario para completar la información que pueda deducirse de la media
aritmética, acompañar este promedio de uno o varios coeficientes que nos midan el grado de
dispersión de la distribución de la variable. Estos coeficientes son los que llamamos medidas
de dispersión.
Página 75 | Inicio del artículo

Para una mejor sistematización, vamos a distinguir entre medidas de dispersión absolutas y
relativas.
4.1.1. MEDIDAS DE DISPERSIÓN ABSOLUTAS
Una primera aproximación para medir la dispersión en una distribución es calcular su
recorrido.
Recorrido es la diferencia entre el mayor y el menor valor de una distribución. Es decir:

Por ejemplo, si tenemos una distribución de edades y el recorrido Re = 5, siendo el número


total de observaciones N = 50, en principio podemos decir que existe poca dispersión.
Se trata, por consiguiente, de un medio burdo para medir la dispersión, aplicable sólo a
algunos casos.
Llamamos recorrido intercuartílico a la diferencia existente entre el tercer cuartil y el
primero. Es decir,
Nos indica que en un intervalo de longitud Ri están comprendidos el 50% de los valores
centrales. Si Ri es pequeño, siempre en términos relativos de acuerdo con las unidades en
que venga dada la distribución, podemos intuir una pequeña dispersión.
Ya hemos definido dos primeras medidas de dispersión, pero el objetivo que perseguimos es
determinar la representatividad de las medidas de posición, y estas dos medidas
contempladas no hacen referencia específica a ningún promedio.
Necesitamos, pues, medidas de dispersión que involucren a los promedios. Entre éstas,
estudiaremos la desviación media, la varianza y la desviación típica.
Supongamos que tenemos un promedio P, del que vamos a estudiar su representatividad.
Consideremos que tenemos dos distribuciones que originan este mismo promedio P (para
mayor facilidad supongamos que estas distribuciones son de frecuencias unitarias) y que son
tales como las que se representan en el siguiente gráfico:
Página 76 | Inicio del artículo

FIGURA 4.3

Si nos preguntamos cuál de los dos promedios es más representativo, diremos que, sin duda,
el primero porque al caracterizar la primera distribución por P, considerando cada caso
particular, el error que cometemos utilizando P es menor, en la mayoría de los valores, en la
primera que en la segunda. Luego, cuanto más agrupados estén los valores alrededor del
promedio, es decir, cuanto menos dispersos estén, más útil es P.
Pero, ¿cómo podemos medir esto para una distribución genérica (xi; ni)
La primera solución sería considerar todas las desviaciones de cada valor al promedio y
promediar estas desviaciones, es decir, determinar

pero esto, que sería lo primero que se nos ocurriría, tiene un grave inconveniente: puede
ocurrir que tengamos una distribución muy dispersa a ambos lados del promedio. Hallamos las
desviaciones respecto a P, que serán muy grandes, y promediamos éstas. Al efectuar esta
última operación, tenemos que sumar todas las desviaciones y dividir por N. Como estas
desviaciones tendrán sus correspondientes signos (positivo las desviaciones de los valores a
la derecha deP y negativo las correspondientes a las de su izquierda) al sumar se
compensarán las desviaciones positivas con las negativas y la medida que habíamos definido
resultaría pequeña siendo la dispersión grande.
Para solucionar este inconveniente tendremos que optar por una de las dos siguientes
alternativas: considerar los valores absolutos de las desviaciones o elevar éstas al cuadrado.
4.1.2. DESVIACIÓN MEDIA
Bajo este epígrafe se estima la solución de considerar las desviaciones en valor absoluto.
Página 77 | Inicio del artículo

Desviación media respecto a la media aritmética


Ahora el promedio genérico P es la media aritmética x Vimos que si considerábamos

las desviaciones se compensaban. En el caso particular de P = x, no sólo se compensan sino


que, además, D = 0 (recuérdese la primera propiedad de la media aritmética). Tomando las
desviaciones en valor absoluto, tenemos

que es la desviación media respecto a la media aritmética. Un valor de Dx grande nos indicará
una gran dispersión en la distribución.
La desviación media (respecto a la media aritmética) se puede definir, pues, como la media
aritmética de los valores absolutos de las diferencias entre los valores de la variable y la media
aritmética.
EJEMPLO
Supongamos la siguiente distribución de frecuencias que expresa las puntuaciones obtenidas
en un examen por 200 alumnos, distribución cuya media aritmética es 6,22. Teniendo en
cuenta los datos expresados en la tabla siguiente:
Página 78 | Inicio del artículo

el cálculo práctico de la desviación media respecto a la media aritmética es

El hecho de que el resultado sea pequeño se interpreta en el sentido de que gran cantidad de
alumnos tienen una puntuación próxima a la media.
Si el resultado obtenido fuese un valor grande significaría que los valores de la variable, en
este caso, las puntuaciones de los alumnos, se distribuirían en valores alejados de la media.
También es frecuente utilizar como medida de dispersión la desviación media respecto a la
mediana.
Desviación media respecto a la mediana
Si el promedio cuya eficacia queremos medir es ahora la mediana, calcularemos

que es la desviación media respecto a la mediana. Para DMe grande, la mediana no será
representativa. En la mediana demostramos que
Cuando la distribución está agrupada en intervalos, para calcular Me seguíamos el criterio:

mientras que para x utilizábamos las marcas de clase. En esta doble operación utilizamos
unas hipótesis de trabajo incompatibles. Para la Me la hipótesis era que los valores dentro del
intervalo estaban distribuidos uniformemente, mientras que para x, al utilizar las marcas de
clase, se emplea implícitamente la hipótesis de que todos los valores de cada intervalo son
iguales a xi. Debemos, Página 79 | Inicio del artículoen este caso, optar por una de las dos
hipótesis para ambos cálculos (para x y para Me).
EJEMPLO

Con los datos expresados en el ejemplo anterior con = 100 y como la mediana es Me =
6,5, teniendo en cuenta que

la desviación media respecto a la mediana será


En este ejemplo DMe nos da un valor relativamente pequeño, lo que quiere decir que la
mediana es representativa y que los valores de la variable se distribuyen próximos a ella.
Las desviaciones medias tienen un significado preciso como ⟪promedio de las desviaciones⟫,
aunque, precisamente por incorporar valores absolutos, tienen el inconveniente de no ser muy
adecuadas al cálculo algebraico.
Página 80 | Inicio del artículo
4.2 Va ríanza
De todas las medidas de dispersión absolutas respecto a la media aritmética, la varianza y su
raíz cuadrada, la desviación típica, son las más importantes. Hasta ahora, al hablar de la
dispersión absoluta, nos hemos referido a la solución que parece más simple: promediar las
desviaciones respecto a la media aritmética, con su signo correspondiente. Esto es

Pero ya vimos que la primera propiedad de la x era que el valor de D era siempre nulo; por
tanto, no se puede utilizar D como medida de dispersión. Podemos eliminar este problema
empleando una potencia par para las desviaciones. De todas las potencias pares elegimos la
más sencilla, la cuadrática, y así surge una nueva medida de dispersión,
denominada varianza, que definimos como la media aritmética de los cuadrados de las
desviaciones de los valores de la variable a la media aritmética, es decir, el momento de
segundo orden respecto a la media aritmética, S2 = m2.
Se define, por tanto, como

Evidentemente S2 nos medirá la mayor o menor dispersión de los valores respecto a la media
aritmética. Si la dispersión es muy grande, la media no será representativa.
En el caso extremo de que todas las observaciones fuesen iguales, la media coincidiría con el
valor común de las mismas y las desviaciones serían todas nulas, resultando que S2 = 0. En
general, cuanto más dispersas sean las observaciones, mayores serán las desviaciones
respecto a la media y, por tanto, mayor el valor numérico de la varianza.
4.2.1. DESVIACIÓN TÍPICA O ESTÁNDAR
Así como las desviaciones medias vienen expresadas en las mismas unidades de medida que
la distribución, la varianza no, ya que vendrá dada en las unidadesPágina 81 | Inicio del
artículocorrespondientes pero elevadas al cuadrado. Esto dificulta su interpretación, y hace

necesario definir la desviación típica.


La desviación típica que se representa por S es la raíz cuadrada, con signo positivo, de la
varianza

Al ser la raíz cuadrada de la varianza vendrá expresada en las mismas unidades de medida
que la distribución, lo cual la hace más apta como medida de dispersión.
4.2.2. PROPIEDADES DE LA VARIANZA
La varianza nunca puede ser negativa.
En efecto, como la varianza es una suma de cuadrados, ésta será cero o positiva,

Si S2 = 0, las desviaciones son todas iguales a cero, luego xi = . En este caso particular,
la variable sólo toma un valor y éste, por lo tanto, es la media.

La varianza es la medida cuadrática de dispersión óptima ya que:

(recuérdese la segunda propiedad de x).

La varianza es igual al momento de segundo orden respecto al origen menos el de


primer orden elevado al cuadrado.
En efecto
Página 82 | Inicio del artículo

También se podría haber llegado a esta relación, como caso particular del teorema de Kónig
que vimos en el capítulo anterior, y que decía

Haciendo k = 0, queda

es decir, a2 = m2 + a21.
Esta propiedad es de gran utilidad práctica, ya que así es como se suele calcular S2.
Si en la distribución de frecuencias sumamos a todos los valores de la variable una constante,
la varianza no varía.
Sea la distribución (xi; ni) cuyas media y varianza son, respectivamente,

Consideremos ahora la nueva distribución (xi + k; ni) cuya media, teniendo en cuenta las
propiedades de x, es:
Luego un cambio de origen en la variable no afecta a la varianza.

Al multiplicar los valores de una distribución de frecuencias por una constante k, la


varianza queda multiplicada por el cuadrado de la constante.
Partimos de una distribución (xi; ni) en donde

Página 83 | Inicio del artículo

Sea ahora (kxi; ni) resultando de multiplicar cada xi por k, sabemos que (siendo ahora x'i = kxi)

luego la varianza cambia al realizar un cambio de escala.


También puede utilizarse como medida de dispersión respecto a la media el coeficiente:

denominado cuasivarianza.
4.2.3. PROPIEDADES DE LA DESVIACIÓN TÍPICA
Sus propiedades se deducen fácilmente de las de la varianza:
Hemos de hacer notar que en la desviación típica tienen más influencia las desviaciones de
los valores muy extremos que en la desviación media, ya que estas desviaciones, en la
primera medida, están previamente elevadas al cuadrado.
Página 84 | Inicio del artículo
4.2.4. TIPIFICACIÓN
Vamos a estudiar ahora lo que se llama valor tipificado o tipificación. En la figura 4.4 se
considera la desviación típica S = 10 puntos, la media aritmética x = 70 puntos y un valor
individualizado xi = 90 puntos.
Resulta que el valor individual es 20 puntos superior a la media o, en términos de desviación
típica, está dos desviaciones típicas por encima de la media.

FIGURA 4.4

Si escogiésemos otro valor individualizado, por ejemplo 65 puntos, vemos que está cinco
puntos por debajo de la media, es decir 1/2 desviación típica por debajo de la media.

Siempre se puede expresar la diferencia entre la media y un valor individual en términos de


desviación típica. Se dice entonces que la desviación xi − x se ha tipificado.
Una variable estadística se denomina tipificada, estandarizada o reducida, si su media es cero
y su varianza (o su desviación típica) es uno. Evidentemente, dada una variable X con una
media x y varianza S2x, la variable

es su tipificada.
Página 85 | Inicio del artículo

En efecto

por las propiedades de la media y de la varianza.


La distribución de frecuencias correspondiente también se denomina distribución tipificada.
4.2.5. CÁLCULO DE LA VARIANZA
Habíamos definido la varianza como

pero a veces para el cálculo práctico de la varianza es preferible usar la relaciónS2 = a2 −


a21 que habíamos estudiado antes.
EJEMPLO
Calcúlese la varianza de una distribución de frecuencias referente a los resultado obtenidos
con 50 lanzamientos de un dado:
Página 86 | Inicio del artículo

Vamos a hacer ahora una ligera referencia a la relación existente entre las tres medidas
estudiadas hasta ahora: desviación media respecto a la media y respecto a la mediana, y
desviación típica.
Tanto la varianza como la desviación típica son susceptibles de aplicación del cálculo
algebraico, lo que ha hecho que su uso se haya generalizado en relación al de las otras dos
medidas.
Por último, como

tenemos que

Como resumen de las medidas de dispersión absolutas diremos que éstas, en general, se
refieren a un promedio (podríamos haber definido también la variación media respecto a la
moda y las desviaciones cuadráticas respecto a la mediana y a la moda), que vienen dadas en
las mismas unidades de medida que la distribución (o, en su defecto, en potencias de estas
unidades como en la varianza), y que marcan la representatividad de los promedios con los
que se relacionan.
4.3 Medidas de dispersión relativas
Supongamos que tenemos dos distribuciones de frecuencias cuyos promedios son P1 y P2 y
queremos saber cuál de los dos es más representativo. Sucede que esta comparación no la
podemos efectuar por sus respectivas medidas de dispersión, ya que las distribuciones, en
general, no vendrán dadas en las mismas unidades de medida. Tampoco en el caso de que
las unidades de medida sean las mismas, si los promedios son numéricamente diferentes.
Es preciso, pues, construir medidas adimensionales, es decir, que no vengan afectadas por
las unidades de medida. Estas medidas de dispersión, llamadas relativas, siempre se
concretan en forma de cociente, es decir, de índice.
Página 87 | Inicio del artículo

Entre ellas tenemos:


Coeficiente de apertura. Se define como la relación por cociente entre el mayor valor y el
menor en una distribución dada. Si éstos son xn y xi tendremos que:

El cociente ha eliminado las unidades y ahora nos es posible comparar dos distribuciones a
través de este coeficiente. Si bien es verdad que este coeficiente es el más fácil de calcular,
presenta una serie de inconvenientes, entre los cuales citamos los siguientes: mide la
dispersión de la distribución sin hacer referencia a ningún promedio, por lo que no se resuelve
el problema de la comparación entre éstos; por otra parte, como no tiene en cuenta más que
los dos valores extremos de la distribución nos dará una gran dispersión si estos valores están
muy separados, a pesar de que puede ocurrir que el resto de los valores estén concentrados
tal y como se representa en el ejemplo gráfico de la figura 4.5:

FIGURA 4.5

Otras medidas son:


Recorrido relativo. Se define como el cociente entre el recorrido y la media aritmética:

Nos indica el número de veces que el recorrido contiene a la media aritmética.


Recorrido semi-intercuartílico. Se define como el cociente entre el recorrido intercuartílico y
la suma del primer y el tercer cuartil:
Página 88 | Inicio del artículo
4.3.1. COEFICIENTE DE VARIACIÓN DE PEARSON
Un intento para resolver el problema de comparación de medias aritméticas de dos
distribuciones que pueden venir, en general, en unidades diferentes, o en las que las medias
no sean iguales, es el que K. Pearson propuso.
Si tuviéramos el caso particular de dos distribuciones en las que, por ejemplo:

y nos hacemos la pregunta de qué media es más representativa, diríamos que la primera,
porque, al ser iguales las medias, fijándonos en sus desviaciones típicas vemos que es menor
la primera, lo que implicaría una menor dispersión alrededor de x1 y, por lo tanto, que ésta
sería más representativa que x2.
Si no coincidieran las medias, la simple comparación entre desviaciones típicas no serviría.
Añadamos la complicación de las unidades de medida (por ejemplo, la primera en kilos y la
segunda en litros). ¿Cuál es el resultado? Está claro que necesitamos una media ajena a
estos problemas.
Ésta podría ser el coeficiente de variación de Pearson, que se define como la relación por
cociente entre la desviación típica y la media aritmética:

En primer lugar, observamos que al efectuar el cociente eliminamos las unidades, y por tanto
Ves adimensional, como cabía esperar.
En segundo lugar V representa el número de veces que S contiene a x, y es claro que cuanto
mayor sea V más veces contendrá S a x, luego relativamente a mayorV menor
representatividad de x
Este coeficiente también se suele expresar en tantos por ciento empleándose:
Como tanto en S como en x han intervenido todos los valores de la distribución, Vpresenta la
garantía, frente a otros coeficientes, de que utiliza toda la información.
Conviene señalar aquí el caso particular para el cual V no es significativo. Si x = 0, esto haría
que V tendiera a infinito. Aquí la utilización de V no interesa, ya que su resultado numérico nos
puede llevar a conclusiones estadísticamentePágina 89 | Inicio del artículoequivocadas. Además
se pueden argüir otros inconvenientes metodológicos como, por ejemplo, que este coeficiente
no es invariante ante cambios de origen.
4.3.2. ÍNDICE DE DISPERSIÓN RESPECTO A LA MEDIANA
Para comparar medianas se define un coeficiente similar a V. Este coeficiente esVMe, y se
define como:

El comentario expresado respecto de V, en general, se puede aplicar aquí. Como


característica específica recordaremos las dificultades de cálculo de Me y DMe.
Vamos a ver un ejemplo que haga referencia a todas las medidas más importantes que hemos
estudiado en este capítulo.
EJEMPLO
Para comparar los rendimientos entre empresas españolas y norteamericanas, pertenecientes
a un sector muy especializado, se seleccionan 20 empresas con características semejantes de
cada lugar, obteniéndose los resultados siguientes:

Página 90 | Inicio del artículo

Se pide:
Obtener el rendimiento medio en cada país, precisando en cuál de los dos hay mayor grado
de homogeneidad.
 En las empresas españolas:

 En las empresas norteamericanas:

De la comparación entre los coeficientes de variación resulta que las empresas españolas
(0,103 < 0,13) son más homogéneas que las norteamericanas.
Página 91 | Inicio del artículo
Ejercicios resueltos
EJERCICIO 1
Sea una distribución (i, ni) con las siguientes características:

Determínense estas medidas para la distribución (xi + 10, ni). Razónese la respuesta.
SOLUCIÓN. La inedia aritmética de la nueva distribución será
La moúte corresponderá al valor desplazado de 5. Si 5 es el que más se repite en la
distribución (xi; ni), 5 + 10 = 15 será también el más frecuente en la nueva
distribución (xi + 10; ni) por tanto Mo' = 15.
La varianza no viene afectada por este cambio de origen. En efecto, la nueva varianza sería:

Por último, el número total de datos, no varía.


EJERCICIO 2
¿Qué es una variable tipificada? Aplicación de sus propiedades (media igual a cero y
desviación típica igual a 1) a la distribución:
Página 92 | Inicio del artículo
SOLUCIÓN. Si (xi; ni) es una distribución de frecuencias, la variable tipificada de xies

Página 93 | Inicio del artículo

Ejercicio 3
El gasto de dos grupos de familias durante un cierto período de tiempo ha sido el
siguiente:

Determínese cuál de los dos grupos es más homogéneo respecto a su gasto, con
explicación de los pasos aplicados y de los resultados obtenidos.
SOLUCIÓN. Hemos de calcular el coeficiente de variación de Pearson, para determinar en
cuál de los dos grupos hay una mayor dispersión relativa. El grupo de familias que ofrezca una
mayor dispersión relativa será el menos homogéneo, ya que los gastos particulares de cada
familia del grupo estarán más separados del gasto medio de ese grupo.
Sabemos que el coeficiente de variación es:

Calculemos, pues, este coeficiente para cada grupo. Para el grupo A:


Página 94 | Inicio del artículo

El gasto medio del grupo A será

la varianza de ese grupo es

y la desviación típica

Por tanto el coeficiente de variación

Análogamente para el grupo B:


Comparando ambos coeficientes Vx = 0,2203, Vy = 0,2215, observamos que es menor el del
grupo A, por lo que será este grupo el más homogéneo en su gasto, aunque no hay una
excesiva diferencia.
EJERCICIO 4
En un cierto barrio se ha constatado que las familias residentes se han distribuido,
según su tamaño, de la forma siguiente:
Página 95 | Inicio del artículo

Determínese:
 ¿Cuál es el número medio de personas por familia?
 ¿Cuál es el tipo de familia más frecuente?
 Si sólo hubiera plazas de aparcamiento para el 50% de las familias y éstas se atendieran por familias
de mayor a menor tamaño, ¿qué componentes tendría que tener una familia para entrar en el cupo? Se
supone que cada familia sólo tiene un vehículo.
 ¿Se pueden hacer previsiones de acuerdo al número medio de componentes por familia?
 Si el coeficiente de variación de Pearson de otro barrio es 1,8, ¿cuál de los dos barrios puede ajustar
mejor sus previsiones en base al diferente tamaño de las familias que lo habitan?
SOLUCIÓN.
 Primero formamos la tabla con las columnas de los datos que nos van a hacer falta.

el número medio de personas por familia será


Página 96 | Inicio del artículo
 El tipo de familia más frecuente será el valor modal; el intervalo modal es (2, 4) ni, =200, ci, = 2

por lo que el tipo de familia modal será aquélla que se compone de 2,9 personas.
 Para determinar los componentes que tendría que tener una familia para que estuviera incluida en el 50% de
los que tienen aparcamiento, bajo los supuestos señalados, calculamos la mediana. Observando Ni vemos
que el intervalo mediano es

 Para poder hacer previsiones de acuerdo al número medio de personas por familia, esta media deberá ser
representativa. Calculemos su desviación típica.

 Calculemos previamente el coeficiente de variación del primer barrio:

Como el otro barrio tiene un coeficiente de variación de 1,8, el tamaño de sus familias presentará una mayor
variabilidad, y por tanto, serán menos fiables sus previsiones.
EJERCICIO 5
En una empresa el 20% es personal ⟪no cualificado⟫, el 50% es personal ⟪cualificado⟫ y
el resto personal ⟪técnico⟫. La plantilla consta de 1 000 empleados. Se ha estimado la
productividad para cada uno de estos grupos en unos coeficientes que van de 1 a 5
como se puede observar en la tabla siguiente:
Página 97 | Inicio del artículo
 Hállese la productividad media de los 1 000 empleados.
 ¿Qué nivel de productividad es el más corriente en esta empresa?
 ¿Bajo qué coeficiente están el 50% de los trabajadores menos productivos?
 Comparando las productividades medias del personal no cualificado y del personal cualificado, ¿cuál
de ellas corresponde a una distribución de frecuencias más homogénea?
SOLUCIÓN.
 Para determinar la productividad media de los 1 000 empleados, calcularemos x

Nótese que en otros ejercicios utilizábamos la media armónica para promediar productividades. Aquí, las
productividades vienen dadas por un coeficiente no relativo y, por tanto, no tiene sentido emplear la media
armónica.
 El nivel de productividad más corriente en la empresa será la productividad modal, y en este caso Mo = 4.

 El límite de productividad que separa al 50% de los trabajadores menos productivos será la mediana: =
50, luego la mediana es Me = 4.
 Consideremos aquí las siguientes distribuciones, de las que formamos las siguientes tablas:
Página 98 | Inicio del artículo

Personal no cualificado:
Personal cualificado:

entonces

Por tanto, el personal cualificado presenta una productividad media más representativa.
Cita de fuente (MLA 7.a edición)
"Dispersión." Introducción a la estadística económica y empresarial: Teoría y práctica. Marta García
Secades. 3rd ed. Madrid: Paraninfo, 2004. 73-98. Gale Virtual Reference Library. Web. 28 Sept.
2015.
URL
http://go.galegroup.com/ps/i.do?id=GALE%7CCX4052900012&v=2.1&u=unad&it=r&p=GVRL&sw=
w&asid=4a9b0a469e755a4327207c94b4c0d549

También podría gustarte