Documentos de Académico
Documentos de Profesional
Documentos de Cultura
tendencia central
y de dispersión
Antoni Cosculluela Mas
Albert Fornieles Deu
Jaume Turbany Oset
PID_00214851
© FUOC • PID_00214851 2 Medidas de tendencia central y de dispersión
© FUOC • PID_00214851 Medidas de tendencia central y de dispersión
Índice
Objetivos ................................................................................................... 5
Actividades ............................................................................................... 19
Solucionario ............................................................................................. 21
© FUOC • PID_00214851 Medidas de tendencia central y de dispersión
© FUOC • PID_00214851 5 Medidas de tendencia central y de dispersión
Objetivos
Al final del presente apartado sobre medidas del centro deberéis ser capaces de:
• Saber cómo se calcula la mediana, o valor central, de un conjunto de datos. Véase el resumen del vídeo 4 en el
a
apartado "Resumen de los vídeos" de
• Saber cómo se calcula la media aritmética, o media, de un conjunto de datos. este módulo.
Los gráficos de tallo y hojas, así como los histogramas, proporcionan una des-
cripción general de un conjunto de datos cuantitativos. Ahora veremos mane-
ras más específicas de resumir los datos cuantitativos en índices estadísticos
numéricos, que nos permitirán comparar con facilidad diferentes conjuntos
de datos (los valores resumen son números obtenidos mediante cálculos a par-
tir de los datos. Estos índices permiten caracterizar la variable que se estudia.
La mediana y la media son dos ejemplos de ello).
En primer lugar, tenemos que la mediana es el valor que divide la distribu- Sobre la mediana podéis ver el
a
subapartado 1.1 de este módulo.
ción de los datos en dos partes iguales (deja un 50% por encima y otro 50%
por debajo). Se trata pues de un índice de posición. Para encontrar la me-
diana deberemos ordenar los datos de menor a mayor y contar el número
de elementos hasta encontrar cuál es el valor que está en el medio de la dis-
tribución. Dado que es un índice de posición, la mediana no se ve afectada
por la presencia de valores extremos, por eso decimos que es un índice re-
sistente o robusto.
derablemente a la media (de hecho, un único valor extremo puede hacer cam-
biar mucho el valor de la media aritmética), desplazándola en la dirección de
dicha cola de la distribución, por lo que este índice no será una buena opción
para describir variables asimétricas y/o con valores extremos. En estos casos es
preferible llevar a cabo la descripción de la distribución de la variable median-
te la mediana (podéis ver el resumen del vídeo 4 del CD).
Una manera fácil de conseguir un valor para el centro de una distribución es Véase el resumen del vídeo 4 en el
a
apartado "Resumen de los vídeos" de
hallar la observación que queda exactamente en el medio, lo que implica que este módulo.
la mitad de las observaciones quedan por debajo de este valor y la otra mitad
por encima de él. Este valor se denomina mediana de la distribución.
3 11 8 4 5 2 6 4 8
17 3 13 11 7 7 4 7 12
Ahora la pregunta es: ¿qué valor podéis usar como típico para describir el tiem-
po que debéis esperar? El gráfico de tallo y hojas de estos datos es:
Por tanto, la regla para conseguir la mediana pasa por buscar qué posición ha
de ocupar el valor que divide en dos partes iguales la distribución. La fórmula
para buscar esta posición es muy sencilla y consiste en sumar uno al número
total de observaciones y dividirlo por dos.
Formalmente:
n1
Posición de la mediana: Posición
2
Los valores resumen como la mediana provocan que sean más fáciles las com-
paraciones entre diferentes grupos de observaciones (el vídeo da un ejemplo
de un conjunto de sueldos para hombres y otro para mujeres. En ambos casos
se ha calculado la mediana de los sueldos y vemos que la mediana de los hom-
bres es superior a la de las mujeres).
sumamos todos los valores y dividimos por el número total de datos n. Utili-
zando la notación habitual, la media aritmética es igual a:
X
X i
Para los datos de la tabla 1 del tiempo de espera del autobús los cálculos son
los siguientes:
La media aritmética de estos valores es, por lo tanto, 7,41 minutos; es decir,
a lo largo de los 27 días habéis tenido que esperar el autobús una media de
7,41 minutos. Fijaos en que la media da un valor ligeramente superior a la
mediana (7 minutos). De ahí que en el caso de la media aritmética se deban
tomar precauciones con los datos alejados o insólitos.
2. Medidas de dispersión
Al final de este apartado sobre medidas de dispersión deberéis ser capaces de:
El rango de una variable (recorrido o amplitud) se puede calcular con una ope- a
Sobre la notación que utilizamos, véase
el subapartado 1.1 del módulo
ración muy sencilla, ya que únicamente consiste en restar el valor máximo del "Organización de los datos de una
muestra: representaciones gráficas".
mínimo. Por desgracia, se trata de un índice de escasa utilidad, ya que un úni-
co valor extremo o insólito puede hacer que pierda gran parte del su sentido
informativo. En términos de la notación habitual, en el que x(1), x(2),..., x(n) co-
rresponden al orden estadístico de una distribución ordenada: valor mínimo
= x(1), valor máximo = x(n), rango = x(n) – x(1).
que cuanto más grandes sean estas diferencias o distancias (más dispersa o he-
terogénea sea la variable), mayor será el valor de la variancia. El hecho de que
las diferencias se eleven al cuadrado evita la presencia de valores negativos (si
no se elevasen las diferencias al cuadrado, al haber algunos valores por encima
y otros por debajo de la media, su sumatorio sería 0) y provoca que las diferen-
cias más grandes pesen más en el valor del índice.
Por otro lado, también implica que la varianza sea siempre de signo positivo
y esté en la unidad de medida de la variable elevada al cuadrado (por ejemplo,
el cociente de inteligencia (CI) tiene en la población una media = 100 puntos
de CI y una varianza 2 = 225 puntos2 de CI).
Los cuartiles* son, como la mediana, índices de posición. La lógica que subya-
* Véase el vídeo 5 del CD.
ce al cálculo de este índice es la siguiente: ordenamos los datos y los dividimos
en cuatro partes del mismo tamaño, por lo que tendremos tres puntos de corte
o cuartiles.
El primer cuartil es el valor que deja el 25% de las observaciones por debajo,
el segundo coincide con la mediana y, por tanto, es el valor que divide la dis-
tribución en dos partes iguales y el tercer cuartil corresponde al valor que deja
el 75% de los valores por debajo (y, lógicamente, queda el 25% por encima).
El cálculo de los cuartiles es muy sencillo, ya que podemos decir que los cuar-
tiles 1.º y 3.º son la mediana de las dos mitades de la distribución que quedan
definidas por la mediana.
Una vez calculados los cuartiles, restando el 3.º del 1.º (Q3 – Q1) podemos ob-
tener el rango intercuartílico, que nos indica cuál es la dispersión del 50%
central de las observaciones.
2
(X i X )2
Variancia de una variable: s x
n 1
2
Desviación típica: s x
s x
• Cálculo de la media x.
• Cálculo de las desviaciones xi x.
• Cálculo de las desviaciones cuadráticas ( xi x )2 .
Veamos otro ejemplo sencillo. Imaginaos que tenemos los precios de un cierto
producto comprado en seis comercios diferentes: 260, 240, 250, 210, 230 y
© FUOC • PID_00214851 14 Medidas de tendencia central y de dispersión
250 euros. La suma de estos valores es 1.440, de manera que el valor medio es
1.440/6 = 240 euros. Las desviaciones del valor 240 son 20, 0, 10, 30, 10 y 10
(tomad nota de que las desviaciones respecto a la media aritmética siempre su-
man 0). Los cuadrados de estas desviaciones son: 400, 0, 100, 900, 100 y 100,
y suman 1.600. Finalmente, dividimos por n – 1 = 5 para obtener la varianza
(s2 = 1.600/5 = 320 euros2).
Por tanto, podemos verificar que la varianza es la media aritmética de los cua-
drados de las desviaciones de los datos de una serie con respecto a su media
aritmética.
Fijaos en que la varianza se calcula en unidades que son los cuadrados de las
unidades de los datos originales. Por tanto, tomando la raíz cuadrada de la
varianza para obtener la desviación estándar la medida de extensión vuelve
a las unidades originales. En nuestro ejemplo, la desviación estándar de los
precios es la raíz cuadrada de 320, es decir, 17,9, pongamos 18 euros. En la
tabla 2 podemos ver esta información estructurada de forma que nos facili-
tará los cálculos (en caso de hacerlos manualmente).
Tabla 2
X XX (X X )2
260 20 400
240 0 0
250 10 100
250 10 100
S= 17,89
s
CV 100
x
En ocasiones, cuando los datos son asimétricos, se realiza una serie de ope-
raciones para transformarlos de manera que la distribución de estos valores
transformados sí sea más simétrica. Por ejemplo, para datos positivos con
una cola en la distribución a la derecha, se puede aplicar una transformación
logarítmica de los datos*. La distribución de los datos transformados es más
* Véase el vídeo 10 del CD.
simétrica y, en este caso, es posible utilizar la media y la desviación estándar
para describir la dispersión de las observaciones transformadas.
© FUOC • PID_00214851 16 Medidas de tendencia central y de dispersión
Vídeo 4
Este vídeo empieza con un ejemplo de las diferencias de sueldo entre hombres
y mujeres.
Vídeo 6
trica, sin datos insólitos. Por lo tanto, podemos utilizar la media aritmética
para describir el centro. Para medir la dispersión alrededor de la media aritmé-
tica, primero calculamos las diferencias entre las observaciones y la media arit-
mética. Hay algunas positivas y otras negativas. Por esta razón, elevamos al
cuadrado estas diferencias, las sumamos y las dividimos por n – 1 (una menos
que el número de observaciones), en este caso 9. Esto nos da la varianza indi-
cada por s2. La desviación estándar, indicada por s, es la raíz cuadrada positiva
de la varianza.
Actividades
Los siguientes datos corresponden a las edades y las puntuaciones de la escala de extraversión
de 20 sujetos (corresponde a las 20 primeras puntuaciones de la matriz general).
Calculad la mediana y la media aritmética de estas dos variables y comentad los resultados.
1 28 13
2 27 15
3 30 5
4 32 7
5 41 6
6 34 13
7 21 15
8 33 2
9 29 20
10 18 11
11 40 14
12 34 11
13 42 6
14 18 18
15 30 6
16 20 10
17 28 12
18 22 7
19 31 13
20 33 12
A continuación, suponed que el último sujeto tiene 96 años (en lugar de 33). ¿En qué afecta
este cambio a la media? ¿Y a la mediana? Razonad por qué ambos valores reaccionan de di-
ferente manera.
2. Consultad de nuevo el vídeo 6 del CD. Centraos en el modo como se calcula la varianza y la
Véase la solución de esta
desviación estándar, y resolved la actividad siguiente. actividad en el anexo disponible
en la web de la asignatura.
Los siguientes datos corresponden a las edades y las puntuaciones de la escala de extraversión
de 20 sujetos (corresponde a las 20 primeras puntuaciones de la matriz general).
© FUOC • PID_00214851 20 Medidas de tendencia central y de dispersión
Calculad la varianza y la desviación estándar de estas dos variables y comentad los resultados.
1 28 13
2 27 15
3 30 5
4 32 7
5 41 6
6 34 13
7 21 15
8 33 2
9 29 20
10 18 11
11 40 14
12 34 11
13 42 6
14 18 18
15 30 6
16 20 10
17 28 12
18 22 7
19 31 13
20 33 12
© FUOC • PID_00214851 21 Medidas de tendencia central y de dispersión
Solucionario
Edad Extraversión
Si el último sujeto tuviera 96 años (en lugar de 33). Vemos cómo afecta este cambio a la me-
dia aritmética y a la mediana.
Edad cambiada
Edad
a 96 años
2.
Edad Extraversión