Está en la página 1de 6

Pontificia Universidad Católica de Chile

Departamento de Matemáticas

Mat 0100 Razonamiento Cuantitativo

Clase #17

Variación

Contenidos

Variación.

Cuartiles.
Cinco números de resumen.
Desviación estándar.

Hasta ahora hemos visto cómo describir la variación en un sentido cualitativo. Sin embargo, la idea de varia-
ción es tan importante que debemos ser capaces de describirla también en sentido cuantitativo. Veamos algunas
maneras usuales de medir la variación.

Ejemplo
Supongamos que nos encontramos ante dos bancos: A y B. En el banco A, los clientes pueden escoger una de
tres filas distintas que llevan a cajeros diferentes. En el banco B, hay tres cajeros distintos, pero una única fila, de
tal manera que el cliente es llamado al primer cajero que se desocupa. La siguiente tabla muestra los tiempos de
espera, en minutos, para 11 clientes en ambos bancos. Los tiempos están arreglados en orden ascendente.

Banco A 4,1 5,2 5,6 6,2 6,7 7,2 7,7 7,7 8,5 9,3 11
Banco B 6,6 6,7 6,7 6,9 7,1 7,2 7,3 7,4 7,7 7,8 7,8

En ambos bancos la media y la mediana de los tiempos de espera son iguales y son de 7, 2 minutos,aunque
es probable que encontremos más clientes insatisfechos en el banco A que en el banco B. La diferencia en la
insatisfacción de los clientes se debe a la variación de los tiempos de espera en ambos bancos. Los tiempos en el
banco A tienen un rango bastante amplio, entre 4, 1 y 11 minutos, con lo cual algunos clientes tendrán un tiempo
de espera bastante más largo que otros y eso probablemente los enoje. En cambio, en el banco B, los tiempos
varı́an entre 6, 6 y 7, 8 minutos, por lo tanto la espera es muy pequeña y probablemente los clientes pensarán
que han sido tratados de modo igualitario. La Figura ?? nos muestra las diferencias en las variaciones de manera
visual.

La forma más simple de describir la variación de datos es calculando su rango que es la diferencia entre el

1
2

valor máximo y el valor mı́nimo de los datos. En el caso del ejemplo anterior, en el banco A el rango es de
11 − 4, 1 = 6, 9 minutos y el rango del tiempo de espera del Banco b es 7, 8 − 6, 6 = 1,2 minutos.
A pesar de que el rango es muy fácil de calcular y puede ser muy útil,también ocasionalmente induce a error,
como veremos en el próximo ejemplo.

Ejemplo
En la siguiente tabla, se muestran las notas que obtuvieron ocho alumnos en dos pruebas:

Prueba 1 1 7 7 7 7 7 7 7
Prueba 2 2 3 4 5 6 6,5 7 5,5

El rango de la prueba 1 es 7 − 1 = 6 puntos y el de la prueba 2 es 7 − 2 = 5 puntos. Sin embargo, la prueba 1,


salvo por una única nota baja (un 1, que corresponde a un dato anómalo), no tiene variaciones, pues todo el resto
de los estudiantes obtuvieron un 7. En el caso de la prueba 2, ningún par de estudiantes obtuvo la misma nota y el
rango de valores es muy amplio. Es decir, las notas de la prueba 2 son más variadas, a pesar de que en la Prueba 1
el rango de variación es más grande. Como conclusión, vemos que el recorrido es sensible a valores extremos, lo
que nos lleva a considerar medidas de variación adicionales.

Cuartiles y los cinco números resumen


Una mejor forma de describir la variación es considerar algunos valores intermedios de los datos, además de
los valores extremos. Una manera usual, es mirando los cuartiles que corresponden a los valores que dividen los
datos en cuartos. La siguiente tabla repite los valores de los tiempos de espera en los bancos, marcando en negrita
los cuartiles. Nótese que el cuartil central, que es el que divide los datos por la mitad, es simplemente la mediana.

Banco A 4.1 5.2 5.6 6.2 6.7 7.2 7.7 7.7 8.5 9.3 11
Banco B 6.6 6.7 6.7 6.9 7.1 7.2 7.3 7.4 7.7 7.8 7.8

El primer cuartil, o cuartil inferior, es el que divide el primer cuarto del conjunto de datos de los tres cuartos
restantes. Es decir, es la mediana de la primera mitad de un conjunto de datos.
El segundo cuartil, o cuartil del medio, es la mediana del conjunto de datos.
El tercer cuartil, o cuartil superior, es la mediana de la segunda mitad del conjunto de datos.
Los cinco números resumen consisten en entregar los valores mı́nimo, máximo, primer cuartil, segundo
cuartil y tercer cuartil.
En el ejemplo del tiempo de espera en los bancos, este resumen corresponde a:

Banco A Banco B
mı́nimo 4, 1 6, 6
primer cuartil 5, 6 6, 7
mediana 7, 2 7, 2
tercer cuartil 8, 5 7, 7
máximo 11 7, 8

También podemos exhibir los cinco números resumen en un diagrama conocido como diagrama de caja y
bigote. Un diagrama de este tipo consiste en una caja rectangular, donde encerramos los valores del primer cuartil
hasta el tercero. Este rectángulo está dividido por un segmento vertical que indica dónde se posiciona la mediana y
por lo tanto, su relación con el primer y el tercer cuartiles. Esta caja se ubica a escala sobre un segmento que tiene
como extremos los valores mı́nimo y máximo de la variable. Las lı́neas que sobresalen de la caja se llaman bigotes.
Estos bigotes tienen un lı́mite de prolongación, de modo que cualquier dato o caso que no se encuentre dentro de
este rango es marcado e identificado individualmente. También se suele colocar ambas figuras verticalmente. Dado
que no hay datos que se alejen del conjunto de todos ellos, en la figura no aparecen datos más allá de los bigotes.
La Figura ?? muestra un diagrama de caja y bigote para el ejemplo de los tiempos de espera en los dos
bancos.
3

Ejemplo
Las siguientes tablas muestran dos conjuntos de datos que representan los tiempos medidos en
segundos en una carrera de 100 metros.

1. Conjunto 1
9,92 9,97 9,99 10,01 10,06 10,07 10,08 10,10 10,13 10,13
10,14 10,15 10,17 10,17 10,18 10,21 10,24 10,26 10,31 10,38
2. Conjunto 2
9,89 9,90 9,98 10,05 10,35 10,41 10,54 10,76 10,93 10,98
11,05 11,21 11,30 11,46 11,55 11,76 11,81 11,85 11,87 12,00

Cada conjunto tiene 20 datos, por lo que la mediana se encuentra a mitad de camino entre el dato 10 y el dato
11. El primer cuartil es la mediana entre el quinto y el sexto dato, y el tercer cuartil es la mediana entre los datos
de los lugares 15 y 16. Por lo tanto los cinco números resumen son:

Conjunto 1 Conjunto 2
mı́nimo 9, 92 9, 89
primer cuartil 10, 065 10, 38
mediana 10, 135 11, 015
tercer cuartil 10, 195 11, 655
máximo 10, 38 12, 00

La siguiente figura grafica estos datos con el gráfico de caja y bigote.

Como podemos apreciar en la figura anterior el diagrama de caja y bigote es muy útil para comparar dos o más
conjuntos de datos. Nuestro ejemplo ilustra la mayor variación en los tiempos de la carrera para el conjunto 2.
Al igual que con los cuartiles, los quintiles son los datos que dividen la muestra en cinco partes iguales,
agrupándolos en los porcentajes 20, 40, 60 y 80. En general se denotan por Q1 , Q2 , Q3 y Q4 . Para calcular los
4

quintiles, primero se ordenan los datos, luego se aplica la siguiente fórmula para encontrar los datos que corres-
ponden a los quintiles:
N 2N 3N 4N
Q1 = , Q2 = , Q3 = , Q4 =
5 5 5 5
donde N es el número de observaciones.
Cuando no se obtienen números enteros, el resultado se aproxima.
A continuación les asignamos a los quintiles el valor de los datos correspondientes:
1
Quintil 1 = = 0, 2
5
2
Quintil 2 = = 0, 4
5
3
Quintil 3 = = 0, 6
5
4
Quintil 4 = = 0, 8
5
Luego, para obtener la observación de cada quintil, tenemos que multiplicar N por el tanto por uno que correspon-
da.

Ejemplo
Dados los siguientes datos, calcular Q1 , Q2 , Q3 y Q4 .
39, 90, 99, 107, 155, 186, 234, 262, 275, 310, 336, 368, 395, 405, 424, 479, 496, 541, 546, 571, 673, 713, 716,
738, 753, 784, 793, 816, 840, 969, 976, 986, 998.
En este caso nuestro N es 33, luego debemos multiplicar 33 por 0, 2; 0, 4; 0, 6 y 0, 8 para obtener los quintiles:

Q1 = 6, 6, Q2 = 13, 2, Q3 = 19, 8 y Q4 = 26, 4

Aproximando, dado que los resultados no son números enteros, tenemos que Q1 es el séptimo dato, es decir, 234,
Q2 es el 14avo dato, o sea 405, Q3 es el 20 avo dato que es 571 y Q4 es el 27−avo dato que corresponde a
793.
El término quintil es bastante utilizado en economı́a para caracterizar la distribución del ingreso de una pobla-
ción. Los quintiles de ingreso se refieren a la clasificación de los hogares en cinco tramos de ingreso mutuamente
excluyentes entre sı́ y con un orden ascendente en los ingresos per cápita que representan. Cada quintil clasifica
al 20 % del total de hogares a nivel nacional, de forma tal que el primer quintil contempla al 20 % de menos
ingresos de los hogares y el quinto quintil contempla al 20 % de más altos ingresos; los quintiles intermedios
representan al 20 % de los hogares que se posicionan de acuerdo al nivel al que pertenecen, de acuerdo al ingreso
que perciben.
La clasificación de un hogar en determinado quintil queda determinada por el ingreso autónomo per cápita que
tenga el hogar en cuestión. Este monto se obtiene como la suma de todos los ingresos que perciben las personas
del hogar dividido por el número de integrantes, excluido el servicio doméstico puertas adentro. Cada persona
componente de un hogar pertenece al mismo quintil de ingresos con que se clasificó su hogar. En cada quintil
encontraremos un valor mı́nimo de ingresos y un valor máximo de ingresos; por ejemplo, según un estudio Casen
de 1998 tenemos los mı́nimos y máximos de ingreso por cápita en Chile (ver Tabla 4.8).

Quintil Mı́nimo Máximo


1 0 37,650, 00
2 37,672, 00 63,377, 50
3 63,396, 50 102,282, 50
4 102,336, 50 193,968, 00
5 193,985, 33 9,262,483, 60
5

Desviación estandar
Los cinco números resumen caracterizan bien la variación, pero los estadı́sticos prefieren describirla con un
solo número que se llama desviación estándar.
La desviación estándar es una manera de medir qué tan dispersos se encuentran los valores con respecto a la
media del conjunto de los datos. Consideremos el ejemplo de los tiempos de espera en los dos bancos. La mediana
en ambos bancos era de 7, 2 minutos. Un tiempo de espera de 8, 2 minutos tiene una desviación de la media en

8, 2 minutos − 7, 2 minutos = 1, 0 minuto


porque es un minuto más que la media. Un tiempo de espera de 5, 2 minutos tiene una desviación de la media de:

5,2 minutos − 7, 2 minutos = −2, 0 minutos

y el resultado ahora es negativo porque es menor que la media.


En esencia, la desviación estándar es una medición del promedio de todas las desviaciones de la media. Los
pasos a seguir para calcularla son los siguientes:

1. Calcular la media del conjunto de datos.


2. Calcular la desviación de la media para cada dato:

desviación de la media = valor del dato − la media.

3. Elevar al cuadrado cada valor obtenido en el paso anterior.


4. Sumar todos los cuadrados obtenidos.
5. Dividir la suma por el número total de datos menos uno.

6. La desviación estándar es la raı́z cuadrada de la división.


s
suma (desviaciones de la media)2
Desviación estándar =
número total de datos − 1

Ejemplo

Calcular la desviación estándar para el ejemplo de los tiempos de espera en los dos bancos.
1. Banco A

Tiempo Desviación de la media cuadrado de la desviación


4, 1 4, 1 − 7, 2 = −3, 1 (−3, 1)2 = 9, 61
5, 2 5, 2 − 7, 2 = −2, 0 (−2, 0)2 = 4, 00
5, 6 5, 6 − 7, 2 = −1, 6 (−1, 6)2 = 2, 56
6, 2 6, 2 − 7, 2 = −1, 0 (−1, 0)2 = 1, 00
6, 7 6, 7 − 7, 2 = −0, 5 (−0, 5)2 = 0, 25
7, 2 7, 2 − 7, 2 = 0, 0 (0, 0)2 = 0, 00
7, 7 7, 7 − 7, 2 = 0, 5 (0, 5)2 = 0, 25
7, 7 7, 7 − 7, 2 = 0, 5 (0, 5)2 = 0, 25
8, 5 8, 5 − 7, 2 = 1, 3 (1, 3)2 = 1, 69
9, 3 9, 3 − 7, 2 = 2, 1 (2, 1)2 = 4, 41
11, 0 11, 0 − 7, 2 = 3, 8 (3, 8)2 = 14, 44
media=7, 2 Suma = 38, 46
6

2. Banco B

Tiempo Desviación de la media cuadrado de la desviación


6, 6 6, 6 − 7, 2 = −0, 6 (−0, 6)2 = 0, 36
6, 7 6, 7 − 7, 2 = −0, 5 (−0, 5)2 = 0, 25
6, 7 6, 7 − 7, 2 = −0, 5 (−10, 5)2 = 0, 25
6, 9 6, 9 − 7, 2 = −0, 3 (−0, 3)2 = 0, 09
7, 1 7, 1 − 7, 2 = −0, 1 (−0, 1)2 = 0, 01
7, 2 7, 2 − 7, 2 = 0, 0 (0, 0)2 = 0, 00
7, 3 7, 3 − 7, 2 = 0, 1 (0, 1)2 = 0, 01
7, 4 7, 4 − 7, 2 = 0, 2 (0, 5)2 = 0, 04
7, 7 7, 7 − 7, 2 = 0, 5 (0, 5)2 = 0, 25
7, 8 7, 8 − 7, 2 = 0, 6 (0, 6)2 = 0, 36
7, 8 7, 8 − 7, 2 = 0, 6 (0, 6)2 = 0, 36
media=7, 2 Suma = 1, 98

Finalmente, el paso número seis nos dice que:


r
3846
Banco A: Desviación estándar = ≈ 1, 96 minutos
11 − 1
r
1, 98
Banco B: Desviación estándar = ≈ 0, 44 minutos
11 − 1
Concluimos que la variación en el banco A es mayor que la del banco B en los tiempos de espera. Como ya
suponı́amos, la desviación es mayor para el banco A, que tiene una variación más grande en los tiempos de espera.

También podría gustarte