Documentos de Académico
Documentos de Profesional
Documentos de Cultura
3. Medidas de dispersión
3.1. Medidas de dispersión absolutas
3.1.1. Rango o amplitud
3.1.2. Variancia
3.1.2.1. Para datos sin agrupar
3.1.2.2. Para datos agrupados
3.1.3. Desvío estándar
3.1.3.1. Para datos sin agrupar
3.1.3.1.1. En la población
3.1.3.1.2. En la muestra
3.1.3.2. Para datos agrupados
3.1.3.2.1. En la población
3.1.3.2.2. En la muestra
3.1.4. Desvío medio
4. Medidas de asimetría
5. Medida de curtosis
1
UNIDAD II: Medidas descriptivas
1. MEDIDAS DE POSICIÓN DE TENDENCIA CENTRAL
Una de las características que interesa de un conjunto, ya sea población o muestra, es el centro
del mismo. Hay varias medidas para este centro: la media aritmética, la mediana, el modo, la media
cuadrática, la media geométrica, la media armónica y cada una tiene méritos en responder ciertas
preguntas. La media aritmética, sin embargo, es la que usaremos más frecuentemente. Definiremos las
medidas para datos no agrupados y para datos agrupados en una distribución de frecuencias.
Los resultados obtenidos a partir de datos sin agrupar y agrupados pueden no ser los mismos, ya
que en los agrupados se asume que todos los valores pertenecientes a cada clase tienen valores iguales
al punto medio de la misma.
Supongamos que x1, x2, x3,… xn, son los resultados numéricos obtenidos de una muestra de
tamaño n. La media aritmética del conjunto de los n valores observados no agrupados será:
~ x + x2 +...... + xn n
x
x = 1 =∑ i (II.1)
n i =1 n
~ f x + f 2 x 2 + ...... + f k x k ∑f x i i k
f i xi
x= 1 1 = i =1
k
=∑ (II.2)
n n
∑ fi
i =1
i =1
2
1.1.3. Propiedades de la media aritmética
1.1.3.a) La interpretación de la media como centro (o punto de equilibrio) de los datos se apoya
en una propiedad que afirma que “la suma de las desviaciones entre cada valor observado y su media
aritmética es igual a cero”, cualquiera sea su distribución.
Supongamos la siguiente serie: x1, x2, x3, x4, x5. Los desvíos de esta serie con respecto a la media
son:
d1 = x1 - ~
x
d2 = x2 - ~
x
d3 = x3 - ~
x
d4 = x4 - ~x
d5 = x5 - x~
5
∑d i = ( x1 −~
x ) + ( x2 − ~
x ) + ( x3 − ~
x ) + ( x4 − ~
x ) + ( x5 − ~
x) =
i =1
x1 + x2 + x3 + x4 + x5 − 5~
x
Reemplazando:
5
∑d i = 5~
x − 5~
x =0
i =1
∑( x
i =1
i −~
x) = 0 (II.3)
∑ f (x i i −~
x) =0 (II.4)
i =1
1.1.3.b) Dado que en el cálculo de la media aritmética intervienen todos los valores de la serie,
este promedio es muy sensible a la presencia de valores extremos en la distribución en cuestión.
Cuando en un grupo de datos hay algunos valores bastante diferentes del resto, ya sean muy pequeños
o bien muy grandes, la media se ve afectada (“arrastrada”) por estos datos que se alejan fuertemente y
se distorsiona como valor representativo, dejando de ser una buena medida de tendencia central.
1.1.3.c) La suma de los cuadrados de las desviaciones entre cada valor observado y su
media aritmética es un mínimo. Es decir que siempre será menor o a lo sumo igual que la suma de
los cuadrados de los desvíos tomados con respecto a cualquier otro valor.
n n
x ) 2 ≤ ∑ ( x − A) 2
∑ ( x −~ (II.5)
i =1 i i =1 i
k k
∑ f ( x − ~x ) ≤ ∑ f ( x − A)
2 2
i =1
i i
i =1
i i (II.6)
3
1.1.3.d) La media aritmética de una variable multiplicada por una constante, es igual a la
constante multiplicada por la media de la variable.
∑ky i n
yi (II.7)
~
x= i =1
= k∑ =k~
y
n i =1 n
es decir, una media ponderada de todas las medias. Por supuesto que los valores deberán estar
expresados en el mismo sistema de unidades.
A veces se asocia a los valores x1, x2, x3, …….. xn ciertos factores o pesos w1, w2, w3 ……. wn,
que dependen de la importancia o significación de cada uno de los números. En este caso:
n
~ w x + w2 x2 + w3 x3 .... + wn xn ∑w x i i
x= 1 1 = i =1
(II.9)
w1 + w2 + ....... + wn n
∑wi
i =1
Esta expresión recibe el nombre de media aritmética ponderada. Nótese que la media
aritmética para los datos agrupados (fórmula II.2), puede considerarse como una media aritmética
ponderada donde las ponderaciones son: f1, f2, f3 ….fk.
k
∑fx i i k
f i xi
~
x= i =1
k
=∑ (II.9 bis)
n
∑
i =1
fi i =1
1.2. Mediana
4
Supongamos que los valores observados son 20, 15, 17, 21, 13, 19, 11. Ordenados según su
magnitud resulta:
11, 13, 15, 17, 19, 20, 21.
Menores a Md Mayores a Md
Vemos que su Md es 17, ya que deja tres valores por debajo y tres por encima. En este caso la
mediana queda determinada sin ambigüedades.
En general el lugar que ocupa esta medida de tendencia central se determina mediante la
fórmula:
n +1
2 (II.10)
Cuando el número de valores es par, todo valor comprendido entre los que ocupan el lugar n/2 y
(n+2)/2 cumple la condición exigida. En este caso se toma como mediana la semisuma de los dos
valores centrales.
Si las observaciones ya ordenadas fueran 11, 13, 15, 17, 19, 20, el valor de la mediana sería
igual a 16.
En el caso de variables discretas donde cada categoría es el valor de la variable, se puede tomar
como un caso de intervalo de amplitud 1 y en este caso el cálculo de la mediana funciona exactamente
como lo visto para datos sin agrupar. Esto vale también para el resto de las medidas que se verán en
esta sección (cuartiles, deciles y percentiles).
Cuando trabajamos con variables agrupadas por intervalos es imposible determinar con precisión
los valores que toman los datos, ya que esa información se ha perdido en privilegio del agrupamiento
en intervalos. Por lo tanto, en este caso, debemos buscar otro método para determinar el valor de la
mediana.
I) Cálculo a partir de la frecuencia relativa
Sabiendo que la mediana divide al conjunto de las observaciones en dos grupos iguales, es claro
que ella se ubicará en el intervalo donde las frecuencias relativas acumuladas alcanzan el valor 0,50.
El cálculo de la mediana se haría con la siguiente fórmula:
Es decir, la mediana sería el valor que resulta del siguiente conjunto de operaciones:
1°) Restarle a 0,50, el valor de la frecuencia relativa acumulada anterior al intervalo que
contiene el valor 0,50 (Fr i-1),
2°) dividir ese resultado por la frecuencia relativa del intervalo que contiene el valor 0,50 (fri),
3°) multiplicar ese resultado por la amplitud del intervalo que contiene al valor 0,50 (w), y
4°) sumarle a la cantidad así obtenida al valor que toma el límite inferior del intervalo que
contiene el valor 0,50 de la frecuencia relativa.
5
Por lo tanto la fórmula para calcular la mediana sería:
n +1
−Fi −1
md =Li ,md + 2 .wi (II.12)
fi
Es decir, la mediana sería el valor que resulta del siguiente conjunto de operaciones:
1°) Dividir el número de casos más uno entre 2 y a ese resultado restarle la frecuencia absoluta
acumulada hasta el intervalo anterior al que contiene al caso central (Fi-1),
2°) dividir ese resultado por la frecuencia absoluta del intervalo que contiene al caso central (f i)
3°) multiplicar ese resultado por la amplitud del intervalo que contiene al dato central (w), y
4°) sumarle a la cantidad así obtenida el valor que toma el límite inferior del intervalo que
contiene al caso central.
1.2.3.a) Es poco sensible a las variaciones de los términos extremos. Puesto que es un valor que
se basa en la secuencia ordenada de las observaciones de un conjunto de datos, la existencia de algunos
valores extremos no afectará su valor. Por lo tanto si un conjunto contiene unos cuantos valores
extremos y un agregado muy alto de observaciones, la mediana podrá ser una medida de tendencia
central mucho más deseable que la media.
1.2.3.b) El número de las desviaciones positivas es igual al número de las desviaciones
negativas.
1.2.3.c) La mediana es un valor tal que, en una distribución de frecuencias, la frecuencia de los
valores que le son mayores es igual a la frecuencia de los valores que le son menores.-
6
∆1
mo = Li ,mod + .w
(II.13)
∆2 + ∆2i
∆1
mo = Li , modo +
∆ +∆
.w (II.14)
1 2
donde ∆1 y ∆2 están calculados con el mismo procedimiento pero tomando las frecuencias absolutas.
7
n
2
x1 + x + ....... + x
2 2 ∑x 2
i
(II.15)
mc = 2
= n i =1
n n
Este tipo de promedio se usa frecuentemente en silvicultura para calcular el diámetro medio
cuadrático de una masa forestal.
0 , 25 −Fri −1
Q1 =Li ,Q +
f ri
. w
(II.20) 0 , 75 −Fri −1
Q3 =Li ,Q3 +
f ri
. w (II.21)
8
2.1.2.b) Cálculo a partir de las frecuencias absolutas
n +1
−Fi −1
Q1 =Li ,Q1 + 4 .w (II.22)
f
i
n +1
.3 −Fi −1
Q3 =Li , Q3 + 4 .w (II.23)
fi
2.2. Deciles
Los deciles son valores que resultan de dividir la población o la muestra en diez partes iguales,
de manera que en cada una se encuentra el 10% de los datos. Hay 9 deciles de interés: D 1, D2, ….., D9,
que tienen interpretación y se obtienen de manera análoga a la mediana y los cuartiles. Ejemplos:
10% de los datos ≤ D1 ≤ 90% de los datos 40% de los datos ≤ D4 ≤ 60% de los datos
n +1
.i −Fi −1
Di =Li , Di + 10 .w (II.24)
fi
2.3. Percentiles
Los Percentiles son valores que resultan de dividir la población o la muestra en cien partes
iguales, de manera que en cada una se encuentra el 1% de los datos. Hay 99 percentiles de interés: P1,
P2, ….., P99, que tienen interpretación y se obtienen de manera análoga a la mediana, cuartiles y
deciles. Ejemplos:
8% de los datos ≤ P8 ≤ 92% de los datos 35% de los datos ≤ P35 ≤ 65% de los datos
n +1
.i −Fi −1
Pi =Li , Pi + 100 .w (II.25)
fi
3. MEDIDAS DE DISPERSION
Dado un conjunto de datos, estas medidas indican la variabilidad que existe entre ellos. Si todos
los datos fueran iguales, cualquiera de estas medidas serían cero.
9
La magnitud de las medidas de dispersión depende de la cercanía de los datos entre sí. Si los
datos son cercanos unos de otros, la magnitud de las medidas de dispersión será pequeña y grande en
caso contrario.
3.1.1. Rango (R) o Amplitud: es la medida de dispersión más fácil y sencilla de calcular. Resulta de la
diferencia entre xMAX y xMIN.
Cuando los datos están agrupados en una distribución de frecuencias el rango puede obtenerse
mediante la diferencia entre el límite superior del último intervalo y el límite inferior del primero.
3.1.2. Variancia (σ 2): es el promedio de los cuadrados de los desvíos de cada observación respecto
de la media aritmética, por lo tanto mide el grado de dispersión que presentan los datos alrededor de la
misma. Algunas de sus características son:
a) σ 2 ≥ 0
b) Expresa la variabilidad en unidades cuadráticas respecto de las unidades de x.
Si el conjunto de datos es una población, la variancia poblacional está dada por la siguiente
expresión:
σ 2=Σ N
(x i - µ )2 (II.27)
N
Si esos mismos datos estuvieran agrupados en una tabla de distribución de frecuencias, podemos
calcular la variancia a través de:
σ 2 ≅ (Σ k fi xi2) - N (II.28)
µ 2
Donde xi representa el punto medio de cada clase y fi es la frecuencia absoluta de cada clase.
Si el conjunto de datos es una muestra, la variancia muestral está dada por la siguiente expresión:
n K
∑ ( xi − ~x ) 2 (∑ f i xi ) − n~ (II.29)
2
x2
S =
2 i=
∧S = 2 i =1
n −1 n −1
3.1.3 Desvío estándar (σ ): Es la raíz cuadrada de la variancia. Tiene las mismas propiedades que σ 2,
con la ventaja que expresa la variabilidad en las mismas unidades que x.
Sus expresiones poblacionales y muestrales son respectivamente:
(II.30)
σ = √σ 2 y S = √ S2
10
3.1.4 Desvío Medio (DM): Es el promedio de los valores absolutos de los desvíos de cada xi respecto
de la media. Para la población completa y datos sin agrupar, su expresión es:
(II.3 1)
DM = Σ N
| xi - µ |
N
(II.33)
CV = σ /µ o cv = S / ~x
O en forma porcentual
(II.34)
CV % = (σ /µ ) 100 o cv % = (S / ~x ) 100
• No tiene unidades.
• Permite comparar la variabilidad de dos conjuntos de datos de naturaleza y/o dimensiones
diferentes.
4. MEDIDAS DE ASIMETRÍA
4.1. Sesgo. Grado de asimetría de la distribución de un conjunto de datos. Puede medirse a través de la
desigualdad de los valores medios.
4.1.1. Distribución simétrica: tiene la misma forma a ambos lados del eje central. La media, la
mediana y el modo se localizan al centro y son iguales.
~
x = M o = Md (II.35)
11
4.1.3. Distribución con asimetría negativa: La curva de frecuencias (polígono de frecuencias
suavizado) tiene una “cola” más larga a la izquierda del máximo de la curva. La distribución está
sesgada a la izquierda o tiene un sesgo negativo. La media aritmética es la menor de las medidas de
tendencia central.
A B C
A: distribución simétrica; B: distribución con asimetría positiva; C: distribución con asimetría negativa
4.2. Índice absoluto de asimetría. En esta expresión restamos de la media (promedio) el modo, o
aproximadamente 3 veces la diferencia entre la media y la mediana.
IA =~
x − M o ≅ 3( ~
x −M d ) (II.36)
4.3. Coeficiente de asimetría de Karl Pearson. Mide el grado de asimetría en relación al desvío
estándar.
(~
x − M o ) 3( ~
x − Md ) (II.37)
CA = ≅
S S
5. MEDIDA DE CURTOSIS
Una medida del grado de agudeza o apuntamiento de una curva de distribución es el Coeficiente
de curtosis.
a) Es un valor adimensional que sirve como medida del “pico” de una distribución.
b) Ofrece información sobre la forma de la distribución de la población o de la muestra con
que estemos trabajando.
c) Siempre se usa en comparación con la distribución normal.
Para los datos sin agrupar de una población, el cálculo se realiza mediante la siguiente expresión:
(II.3 N 8)
[ ∑ ( xi − µ ) 4 / N ]
a4 = i =1
σ4
5.2. Coeficiente de curtosis para datos agrupados
Para los datos agrupados en una distribución de frecuencias este coeficiente se calcula mediante:
k
[ ∑ f i ( xi − µ ) 4 / N ] (II.39)
a4 = i =1
σ4
12
En el caso que se tratara de una muestra utilizaremos ~
x en reemplazo de µ y s2 en reemplazo de
σ 2.
B
A C
13