Está en la página 1de 20

Unidad 2 / Escenario 4

Lectura fundamental

Medidas de localización y de
dispersión de datos

Contenido

1 Medidas de localización

2 Medidas de dispersión

Palabras clave: varianza, desviación estándar, coeficiente de variación, cuartil, percentil.


1. Medidas de localización

1.1. Cuartiles

Además de las medidas de tendencia central (media, mediana, moda) existen otras medidas que
determinan la ubicación de los datos, dividiendo un conjunto de observaciones en partes iguales.
Estas medidas son los cuartiles y los percentiles.

Símbolo Qk

De las medidas de tendencia central recuerde que la mediana es el valor que está en el centro de los
datos, de tal manera que el 50% de los valores más pequeños, son menores o iguales a la mediana y
el 50% de los valores más grandes son mayores o iguales a la mediana. Así como la mediana divide
los datos en dos partes iguales, los tres cuartiles, Q1, Q2, Q3 dividen los valores ordenados en
cuatro partes iguales.

Los cuartiles se denotan usualmente Q1, Q2, Q3

25% 25% 25% 25%


Q1 Q2 Q3

»» Q1, el primer cuartil, supera al 25% de los datos ordenados y es superado por el
75%.

»» Q2, el segundo cuartil, supera al 50% de los datos ordenados y es superado por
el 50%.

»» Q3, el tercer cuartil es el valor por debajo del cual se encuentra el 75% de las
observaciones.

POLITÉCNICO GRANCOLOMBIANO 2
Para el cálculo de los cuartiles en datos sin agrupar se pueden utilizar diferentes programas de
cómputo, si trabajamos en Excel, con la función fx, estadística, por ejemplo, para los siguientes datos:
12, 15, 22, 28, 31, 34, 35, 38 tendríamos:

Figura 1. Pantallazo de cuartiles en Excel


Fuente: elaboración propia

Tabla 1. Cuartiles

Cuartil 1 Q1 20,25

Cuartil 2 Q2 29,5

Cuartil 3 Q3 34,25

Fuente: elaboración propia

POLITÉCNICO GRANCOLOMBIANO 3
¿Sabía qué...?
El cuartil 2 es igual a la mediana.

Cuando los datos están organizados en una tabla de distribución de frecuencias, los cuartiles se
pueden calcular en una forma similar a la mediana en datos agrupados siguiendo los siguientes pasos:

1. Encuentre las frecuencias absolutas acumuladas.

2. Con base en la frecuencia absoluta acumulada, ubique el intervalo donde quede ubicado el
k-ésimo cuartil, es decir (k*n)/4

3. Compare el valor de (k*n)/4 con la frecuencia absoluta acumulada, hasta obtener la menor
frecuencia acumulada que lo contiene.

kn 
 - Ni-1
4. Aplique la siguiente fórmula: 4 C
Qx = Li + i
ni

en donde:

k*n
»» Li = Límite inferior del grupo en donde se ubica
4

k*n
»» N i-1= Frecuencia absoluta acumulada en el grupo anterior donde está ubicado
4

k*n
»» ni = Frecuencia del intervalo donde está
4

POLITÉCNICO GRANCOLOMBIANO 4
»» C = Amplitud del intervalo

Ejemplo: los siguientes datos representan los puntajes obtenidos por un grupo de estudiantes en una
prueba de aptitud.

Tabla 2. Distribución de frecuencia (puntajes)

Puntaje No. estudiantes ni Ni


20 - 30 4 4 Ni-1
Grupo del primer
30 - 40 9 13 cuartil Q1

40 - 50 19 32

50 - 60 7 39

60 - 70 6 45

70 - 80 5 50

Fuente: elaboración propia

De acuerdo a los pasos definidos para el cálculo de los cuartiles:

1. En esta tabla ya están calculadas las frecuencias acumuladas.

k*n 1*50
2. Calculamos el valor , como k= 1 entonces queda =12,5.
4 4

3. Al comparar el valor de 12,5 con las frecuencias acumuladas, se observa que el valor está
contenido en el segundo grupo con una frecuencia acumulada de 13.

50 
 -4 
4  10
4. Reemplazamos en la fórmula: Q1 = 30 +
9
Q1 = 30 + 9,44 = 39,44

POLITÉCNICO GRANCOLOMBIANO 5
El 25% de los estudiantes con menores puntajes obtienen un valor máximo de 39,44.

De manera similar para el cuartil tres Q3.

Tabla 3. Distribución de frecuencias (tercer cuartil)

Puntaje No. estudiantes ni Ni


20 - 30 4 4

30 - 40 9 13

40 - 50 19 32 Ni-1
Grupo del tercer
50 - 60 7 39 cuartil Q3

60 - 70 6 45

70 - 80 5 50

Fuente: elaboración propia

k*n
1. Se ubica el grupo del cuartil con
4

3*50
»» En este caso
4
= 37,5

3*50 
 - 32 
 4  10
Q3 = 50 +
7
Q3 = 50 + 7,85 = 57,85

El 75% de los estudiantes con menores puntajes obtienen un puntaje máximo de 57,85%.

POLITÉCNICO GRANCOLOMBIANO 6
1.2. Percentiles

Símbolo Pk

Los percentiles dividen los datos ordenados en cien partes iguales, cuando los datos están sin agrupar
se pueden manejar utilizando la función fx estadística:

Figura 2. Pantallazo de percentiles en Excel


Fuente: elaboración propia

Por ejemplo para los datos 12, 15, 22, 28, 31, 34, 35, 38 tenemos:

Tabla 4. Percentiles

Percentil 30 22,6

Percentil 65 32,65

Percentil 90 35,9
Fuente: elaboración propia

POLITÉCNICO GRANCOLOMBIANO 7
Cuando los datos están agrupados en una tabla de frecuencia se calculan con la siguiente fórmula:

 kn 
 - Ni-1
 100 C
Pk = Li + i
ni

Para aplicar la fórmula, como en el caso de los cuartiles, primero se ubica el grupo o intervalo que
contiene al percentil con el valor k*n
100

Este valor se compara con las frecuencias acumuladas Nj, y luego se aplica la fórmula así como en el
siguiente ejemplo:

Calcular el percentil 62 P62

Grupo del percentil con k=62

62*50
= 31
100

Tabla 5. Distribución de frecuencias (percentil)


Puntaje No. estudiantes ni Ni
20 - 30 4 4

30 - 40 9 13 Ni-1
Grupo del percentil 62
40 - 50 19 32

50 - 60 7 39

60 - 70 6 45

70 - 80 5 50

Fuente: elaboración propia

 62(50) 
 - 13
 100  10
En la fórmula: P62 = 40 + 19

P62 = 40 + 9,47 = 49,47

Este valor indica que el 62% de las personas con menores puntajes tienen un valor máximo de 49,47.

POLITÉCNICO GRANCOLOMBIANO 8
2. Medidas de dispersión
La media o promedio de los datos como medida de tendencia central pretende ser un valor
representativo de ellos. Al describir información es necesario acompañar esta medida con una que
muestre qué tanta dispersión o variación tienen los datos con respecto a esta medida de tendencia
central; para esto contamos con las medidas de dispersión tales como la varianza, la desviación
estándar y el coeficiente de variación que nos van a indicar hasta qué punto las medidas de tendencia
central son representativas.

Símbolos
Tabla 6. Símbolos

σ² = Varianza poblacional

σ = Desviación estándar o desviación típica poblacional

S² = Varianza muestral

s = Desviación estándar o desviación típica muestral

CV = Coeficiente de variación

Fuente: elaboración propia

Cuando se dio el ejemplo de la media para datos sin agrupar, se tenía un grupo de personas, en donde
la edad promedio es de 20 años y este promedio se puede ver en dos grupos de personas.

18 19 20 21 22 (Grupo A)

X = 20

4 5 6 65 (Grupo B)

Aunque la media de los dos grupos es igual, si se observa la distancia que hay entre los datos del
primer grupo A, con respecto a la media, se puede decir que entre 18 y 20 hay 2 unidades entre 19 y

POLITÉCNICO GRANCOLOMBIANO 9
20 1 unidades, etc. Para el segundo grupo, el B, las diferencias son entre 4 y 20, 16 unidades, entre 5
y 20 15 unidades etc.

Quiere decir que las distancias que hay de los datos del segundo grupo con respecto al primero son
mayores que las del primero. Esta situación nos indica que una medida de tendencia central no es
suficiente para la descripción completa de una serie de datos. Entonces existe la necesidad de encontrar
una medida que mida la distancia, variación o dispersión de los datos con respecto a la media.

En síntesis...
Las medidas de dispersión son las que miden la agrupación o dispersión de
los datos con respecto a la media. Las medidas de dispersión son el rango,
la varianza y la desviación estándar (medidas absolutas) y el coeficiente de
variación (variación relativa).

Para
Variables cuantitativas

Absolutas Relativas
• Rango • Coeficiente de variación
• Varianza
• Desviación estándar

Figura 3. Variables cuantitativas


Fuente: elaboración propia

2.1. El Rango

El rango es una medida de dispersión muy fácil de calcular. Esta medida se conoce también como
recorrido o amplitud y como se vio en los pasos para elaborar una tabla de frecuencias es la diferencia
entre el valor máximo y el valor mínimo. Esta medida, aunque es muy sencilla de calcular su empleo

POLITÉCNICO GRANCOLOMBIANO 10
no es muy usual pues no considera las variaciones de valores intermedios y es muy sensible a los
valores extremos. Esta medida se vá a identificar con la letra R.

El rango de las edades en el grupo A es:

R = 22 - 18 = 4

Significa que la diferencia entre la edad de la persona de mayor edad, con respecto a la de menor
edad, es de 4 años.

Para el grupo B el rango es:

R = 65 – 4 = 61

La diferencia entre la edad de la persona mayor con respecto a la menor es de 61 años.

En el segundo ejemplo se ve que aunque el rango es sencillo de calcular es sensible a los valores extremos.

2.2. La Varianza
Tabla 7. Símbolo varianza

σ² = Varianza poblacional
Símbolo
S² = Varianza muestral

Fuente: elaboración propia

2.2.1. Datos sin agrupar

Por definición la varianza es igual al promedio de las desviaciones al cuadrado, esto lo expresamos en
la siguiente fórmula:
Tabla 8. Datos sin agrupar

∑ (Xi - µ)2
σ² = Población
N
∑ (Xi - X)2
S² = Muestra
n-1
Fuente: elaboración propia

POLITÉCNICO GRANCOLOMBIANO 11
Ejemplo con los datos del grupo A: (X: edad)

18 19 20 21 22

La varianza es igual a 2 años.

Observamos que al elevar al cuadrado la suma de las desviaciones de los datos con respecto a la
media, las unidades de la variable también quedan elevadas al cuadrado; así encontramos años2.
Es por esto que la varianza no tiene interpretación. Para que la variable quede nuevamente en las
unidades originales, se extrae la raíz cuadrada de la varianza, obteniendo una nueva medida que
manejamos más adelante.

Para el grupo B:

POLITÉCNICO GRANCOLOMBIANO 12
Método abreviado

La varianza se puede calcular utilizando una nueva expresión conocida como la fórmula del método
abreviado:

Si la aplicamos a los datos del grupo A del ejemplo:

Tabla 9. Ejemplo 1

Xi Xi²
18 18² = 324

19 19²= 361

20 20² = 400

21 21² = 441

22 22² = 484

100 2010

∑ Xi

Fuente: elaboración propia

Las dos fórmulas para la varianza dan el mismo resultado. Por facilidad de cálculo se recomienda
la fórmula del método abreviado. Recuerde que son dos formas diferentes para llegar al mismo
resultado.

POLITÉCNICO GRANCOLOMBIANO 13
2.2.2. Datos agrupados

Para datos agrupados hacemos una pequeña modificación de la fórmula, teniendo en cuenta la
frecuencia de ocurrencia ni:

Su fórmula es: ∑ (Xi - µ)2 ni


σ² = N

Ejemplo: los siguientes datos representan el peso (kg) para un grupo de personas.

Tabla 10. Cálculo de la varianza (por definición)

Marca de ni Xi * ni Xi - µ (Xi - µ)² ni


Pesos clase Xi (Xi - µ)2

60 -62 61 5 305 -6.45 41.60 41.60(5)= 208.0

63 - 65 64 18 1152 -3.45 11.90 11.90(18)= 214.2

66 - 68 67 42 2814 -0.45 0.20 0.20(42)= 8.4

69 - 71 70 27 1890 2.55 6.50 6.50(27)= 175.5

72 - 74 73 8 584 5.55 30.80 30.80(8)= 246.4

n = 100 6745 852.5

Fuente: elaboración propia

POLITÉCNICO GRANCOLOMBIANO 14
Método abreviado

Para datos agrupados, la fórmula con el método abreviado es: ∑ Xi2 - ni


σ² = -(µ)2
N

Para calcular la varianza con esta fórmula, agregamos a la tabla original dos columnas; una con el
producto de la variable por la frecuencia, Xini y la otra con cada valor de la variable al cuadrado,
multiplicada por la frecuencia X2ni de la siguiente forma:

Tabla 11. Cálculo de la varianza (método abreviado)

Marca de ni Xi * ni Xi ² ni
Pesos clase Xi

60 -62 61 5 305 (61)²(5)= 18605

63 - 65 64 18 1152 (64)²(18)= 73728

66 - 68 67 42 2814 (67)²(42)= 188538

69 - 71 70 27 1890 (70)²(27)= 132300

72 - 74 73 8 584 (73)²(8)= 42632

n = 100 6745 455803

Fuente: elaboración propia

µ = 67.45

455803
σ² = 100 - (67.45)2

σ² = 8.52

POLITÉCNICO GRANCOLOMBIANO 15
2.3. La desviación estándar

La desviación estándar o desviación típica es la raíz cuadrada positiva de la varianza.

En el ejemplo en donde teníamos el peso de los 100 estudiantes la desviación estándar es:

La fórmula de la varianza muestra que las unidades en las que se mide la variable siempre quedan al
cuadrado, es decir, si la variable se refiere a peso en Kg, al calcular la varianza estará dado el peso en
Kg. al cuadrado. Es por esto que se utiliza la desviación estándar como medida de dispersión, pues se
expresa en las mismas unidades de la variable.

La desviación estándar se interpreta como la variación promedio de los datos con respecto a la media,
así para el ejemplo se dice que el peso de los estudiantes tiene una variación de 2,92 Kg. con respecto
al peso promedio.

Observe que la desviación estándar es la raíz cuadrada de la varianza, independientemente de si la


varianza se obtuvo de datos agrupados o de datos originales. Así, en el ejemplo para datos originales
sobre la edad de dos grupos de personas, tenemos que:

La edad en el grupo A tiene una variación promedio de 1,41 años con respecto a la edad media,
mientras que en el grupo B la variación promedio es de 25,99 años con respecto a la edad media o
promedio, indicando que los datos en el grupo B tienen una mayor variación o dispersión.

POLITÉCNICO GRANCOLOMBIANO 16
2.4. Coeficiente de variación

Es una medida relativa de dispersión. De gran utilidad cuando las variables a comparar no están en las
mismas unidades. Por ejemplo, cuando se quiere comparar la variabilidad del ingreso per-cápita de
Colombia ($) y de Estados Unidos ($US).

Tabla 12. Coeficiente de variación

σ
CV = µ *100% Población
S
CV =
X
*100% Muestra
Fuente: elaboración propia

Para la interpretación del coeficiente de variación en este módulo se va a tener en cuenta lo siguiente:

¿Sabía qué...?
Si los datos son heterogéneos, son muy dispersos, es decir existen
valores extremos, por lo tanto, la media deja de ser una medida
representativa y en esos casos es mejor describir los datos con otra
medida de tendencia central, que puede ser la mediana o la moda.

Si se sigue trabajando con el ejemplo de la edad, en el grupo A en donde:

POLITÉCNICO GRANCOLOMBIANO 17
Los datos son homogéneos, la media es una medida representativa.

Los datos son heterogéneos. La media no es representativa, es mejor caracterizar el grupo con la
mediana y no con la media. Recuerde que la mediana es el valor que ocupa la posición central de los
datos ordenados:

La edad máxima para el 50% de las personas con menor edad es de 5,5 años.

POLITÉCNICO GRANCOLOMBIANO 18
Referencias
Lind, Marchal y Wathen (2012), Estadística Aplicada a los negocios y la economía, México: editorial
Mac Graw Hill.

Martinez, C. (2002), Estadística y Muestreo, Bogotá, Colombia: ECOE Ediciones.

Newbold, P. (2008), Estadística para los Negocios y la Economía. México: Editorial Prentice Hall.

Triola, M. (2013), Estadística, México: editorial Pearson

POLITÉCNICO GRANCOLOMBIANO 19
INFORMACIÓN TÉCNICA

Módulo: Estadística I
Unidad 2: Medidas descriptivas, de localización y de
variación de datos
Escenario 4: Medidas de localización y de variación de datos
Autor: Patricia Castillo Garzón

Asesor Pedagógico: Judy Fernanda Villanueva


Diseñador Gráfico: Yinet Rodríguez
Asistente: Ginna Quiroga

Este material pertenece al Politécnico Grancolombiano. Por


ende, es de uso exclusivo de las Instituciones adscritas a la Red
Ilumno. Prohibida su reproducción total o parcial.

POLITÉCNICO GRANCOLOMBIANO 20

También podría gustarte