Tema 2

Tema 2: Medidas numéricas para la
descripción de datos
Mario Trottini & José Vicente

Dpto. Matemáticas (UA)
Índice
1. Medidas Descriptivas 1
1.1. Medidas de Posición . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.2. Medidas de Dispersión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.3. Medidas de Forma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2. Representaciones gráficas 20
2.1. Gráficos para describir variables discretas y categóricas . . . . . . . . . . . 20
2.2. Gráficos para describir variables cuantitativas continuas . . . . . . . . . . . 23
1. Medidas Descriptivas
Supongamos que se ha observado el valor de una variable estadı́stica X (cualitativa o

cuantitativa) para una muestra de tamaño n. Denotamos por xi el valor de la variable X
en la i-ésima unidad muestral, para i = 1, . . . , n. Por tanto, identificamos una muestra de
tamaño n sobre la que se ha observado la variable X con los valores
x1 , x2 , . . . , xn .
En el tema anterior hemos visto como resumir la información contenida en un conjunto

de datos unidimensionales utilizando tablas de frecuencias.
Además, si la variable unidimensional objeto de estudio es cuantitativa, es posible
resumir la información contenida en un conjunto de datos calculando, a partir de estos,
algunos coeficientes que miden ciertas caracterı́sticas importantes del conjunto de datos,
como pueden ser su posición, dispersión y forma. Los coeficientes correspondientes a esas
caracterı́sticas se clasifican como: medidas de posición; medidas de dispersión; y medidas
1
2 Tema 2: Medidas numéricas para la descripción de datos
de forma; y se describen a continuación. Algunos de estos coeficientes también se pueden

definir para variables cualitativas (lo comentaremos explicitamente cuando eso suceda).
Emplearemos la siguiente notación:
n: tamaño muestral;
x1 , x2 , . . . , xn : valores de X en la muestra observada;
k: número de valores distintos de X en la muestra (k ≤ n);
x
e1 , x
e2 , . . . , x
ek : valores distintos de X en la muestra ordenados en orden creciente;
x(1) , x(2) , . . . , x(n) : valores de la muestra ordenados de forma creciente:
x(1) = mı́n{x1 , . . . , xn }; . . . ; x(n) = máx{x1 , . . . , xn }.
1.1. Medidas de Posición
Las medidas de posición o medidas de localización son coeficientes que indican por
dónde están las observaciones de la variable. Distinguiremos entre medidas que indican
por dónde se encuentra el centro de las observaciones (medidas de localización central)
y se consideran medidas representativas del conjunto de datos; y medidas que indican
algún otro lugar (medidas de localización no central) dividiendo el conjunto de datos
ordenados en partes iguales. Concretamente, las medidas de posición más importantes
que estudiaremos en este apartado serán:
Medidas de posición central: Media (aritmética); Mediana; Moda.

Medidas de posición no central: Cuantiles.
Todas las medidas que estudiaremos en este apartado tienen la misma unidad de medida
que las observaciones utilizadas para calcularlas.
Media Aritmética
La media aritmética de un conjunto de valores observados en una muestra se denota por

x y se define como la suma de todos los valores que la variable toma en cada unidad de
la muestra analizada, dividida por el tamaño de la muestra. De forma matemática,
n
1X
x := xi (1)
n i=1
Si disponemos de la distribución de frecuencias de los datos observados (ordenados

por clases xe1 , x
e2 , . . . , x
ek y con sus frecuencias relativas), entonces una fórmula equivalente
para el cálculo de la media aritmética es la siguiente:
k
X
x= fi · x
ei (2)
i=1
Estadı́stica (Grado en Óptica) 3
Si disponemos de la distribución de frecuencias para una variable cuantitativa continua

cuyos datos se han agrupado en k intervalos siendo c1 , . . . , ck sus marcas de clase, entonces
la media aritmética (en realidad, una aproximación de la media aritmética) se calcula
mediante la expresión:
k k
1X X
x= n i · ci = f i · ci (3)
n i=1 i=1
Ejemplo 1 (Ganancia de peso de los corderos). Los siguientes datos corresponden a la

ganancia de peso (medido en libras) en dos semanas de seis corderos jóvenes de la misma
camada que han crecido con la misma dieta:
11 12 18 10 8 13
Se pide calcular el aumento medio de peso de los corderos de esta muestra.
I El aumento medio del peso en la muestra es:
11 + 12 + 18 + 10 + 8 + 13
x= = 12 libras
6
Ejemplo 2. Veáse la Tabla 1 del Tema 1 donde se recoge los datos de presión sistólica (en
mm Hg) para una muestra de 60 pacientes. Calcular la media aritmética para los datos
observados de la variable presión sistólica usando las fórmulas (1), (2) y (3).
Usando la fórmula (1) y la Tabla 1 del Tema 1, se obtiene:

151,6 + 151,9 + 146,3 + . . . + 144,4 + 151,4
x= = 147,4867 mm Hg.
60
x = 140,6 · 0,0333 + 140,9 · 0,0167 + . . . + 153,9 · 0,0167 = 147,4867 mm Hg.

x = 141,93 · 0,2167 + 144,59 · 0,1000 + . . . + 152,57 · 0,2167 = 147,5307 mm Hg.
Las principales propiedades de la media aritmética son las siguientes.
P1 : Si se multiplican los valores muestrales de una variable X por una constante b y se

le suma una constante a, se tiene una nueva variable Y = a + bX con media igual
a b por la media de X más a, esto es,
Y = a + bX =⇒ y = a + bx.
P2 : La suma de las desviaciones respecto de la media es cero,

n
X
(xi − x) = 0.
i=1
P3 : La media es aquel valor respeto del cual se hace mı́nima la suma de las desviaciones
al cuadrado, esto es,
n
X n
X n
X
x = arg mı́n (xi − φ)2 ⇐⇒ (xi − x) ≤ 2
(xi − φ)2 ∀φ ∈ R.
φ∈R
i=1 i=1 i=1
Mediana
La mediana de un conjunto de valores observados en una muestra se denota por Me y

se define como el valor que divide a la muestra ordenada en dos mitades con el “mismo
número” de datos. Para su cálculo se procede como sigue:
1 Si los datos vienen dados por extensión (x1 , . . . , xn ), entonces:
Si el tamaño muestral n es impar, la mediana es el valor de la muestra que

ocupa la posición n+1
2
-ésima en la serie ordenada de datos:
Me = x( n+1 ) .
2
Si el tamaño muestral n es par, la mediana es el promedio de los valores de la

muestra que ocupan las posiciones n2 y n2 + 1 en la serie ordenada de datos:
x( n2 ) + x( n2 +1)
Me = .
2
Alternativamente, si llamamos m a la parte entera de 12 (n + 1), entonces
2−i i 1 i
Me = x(m) + x(m+1) si m = (n + 1) + , i ∈ {0, 1}.
2 2 2 2
Ejemplo 3. Volviendo al Ejemplo 1, los datos de la ganancia de peso de los corderos
eran:
11 12 18 10 8 13.
Para calcular la mediana del peso de los corderos de esta muestra, en primer lugar se
ordenan las observaciones en orden creciente:
8 10 11 12 13 18.
Como el tamaño muestral es par (n = 6), entonces la mediana del aumento de peso es:
11 + 12
Me = = 11, 5 libras.
2
Ejemplo 4. Supongamos que en el ejemplo de ganancia de peso de los corderos la muestra
tuviera un cordero más y que su peso fuera de 5 libras. Los datos de la ganancia de peso
de los corderos serı́an:
11 12 18 10 8 13 5.
En este caso, las observaciones ordenadas en orden creciente son:
5 8 10 11 12 13 18.
Siendo n = 7 (impar), la mediana del aumento de peso es:
Me = x(4) = 11 libras.
2 Si disponemos de los datos en forma de una distribución de frecuencias como

en la Tabla 6 del Tema 1, para el cálculo de la mediana se procede como sigue:
Se construye la columna de las frecuencias (absolutas o relativas) acumuladas;

Deslizándose por esta columna, se identifica la primera frecuencia absoluta acu-
mulada (Ni∗ ) mayor o igual que n/2, o equivalentemente, la primera frecuencia
relativa acumulada (Fi∗ ) mayor o igual que 0,5.
n
Si Ni∗ > 2
(ó Fi∗ > 0,5), entonces Me = x
ei∗ .
n x
ei∗ + x
ei∗ +1
Si por el contrario Ni∗ = 2
(ó Fi∗ = 0,5), entonces Me = .
2
Ejemplo 5. Volvamos al Ejemplo 5 del Tema 1.
Número de Fr. absoluta Fr. absoluta Fr. relativa Fr. relativa

cigarrillos acumulada acumulada
2 8 8 0,2 0,2
4 8 16 0,2 0,4
5 6 22 0,15 0,55
6 4 26 0,10 0,65
7 6 32 0,15 0,80
8 6 38 0,15 0,95
9 2 40 0,05 1
Totales 40 1
Tabla 1: Distribución de frecuencias del ‘Número de cigarillos fumados a diario’
La mediana del número de cigarrillos fumados a diario para la muestra dada de tamaño
n = 40 es Me = 5 cigarrillos.
3 Si disponemos de los datos en forma de una distribución de frecuencias con

marcas de clase como en la Tabla 8 del Tema 1, para el cálculo (aproximado) de
la mediana se procede como sigue:

mulada (Ni∗ ) mayor o igual que n/2, o equivalentemente, la primera frecuencia
relativa acumulada (Fi∗ ) mayor o igual que 0,5.
Sean ai∗ y bi∗ los extremos inferior y superior, respectivamente, del intervalo
correspondiente a Ni∗ o Fi∗ . La mediana se calcula mediante la expressión:
n 1
2
− Ni∗ −1 2
− Fi∗ −1
Me = ai∗ + (bi∗ − ai∗ ) = ai∗ + (bi∗ − ai∗ )
ni∗ f i∗
Ejemplo 6. Se ha observado la albúmina total circulante (en gramos) de 50 hombres

normales comprendidos entre los 20 y los 30 años. Los datos se presentan en la Tabla 2.
Albúmina total Fr. absoluta Fr. absoluta Fr. relativa Fr. relativa
circulante (en gramos) acumulada acumulada
(99,5, 109,5] 5 5 0,1 0,1
(109,5, 119,5] 10 15 0,2 0,3
(119,5, 129,5] 12 27 0,24 0,54
(129,5, 139,5] 11 38 0,22 0,76
(139,5, 149,5] 8 46 0,16 0,92
(149,5, 159,5] 4 50 0,08 1
Totales 50 1
Tabla 2: Distribución de frecuencias de ‘Albúmina total circulante (en gramos)’
Para calcular la mediana, puesto que n = 50 y por tanto n/2 = 25, entonces:
25 − 15
Me = 119,5 + (129,5 − 119,5) = 127,83 gramos.
12
O equivalentemente,
0, 5 − 0, 3
Me = 119,5 + (129,5 − 119,5) = 127,83 gramos.
0, 24
Obsérvese que la mediana es aquel valor respecto del cual se hace mı́nima la suma del
valor absoluto de las desviaciones,
n
X n
X n
X
Me = arg mı́n |xi − φ| ⇐⇒ |xi − Me | ≤ |xi − φ| ∀φ ∈ R.
φ∈R
i=1 i=1 i=1
Moda
La moda (absoluta) de un conjunto de valores observados es aquel valor/es que presenta/n

mayor frecuencia absoluta. La denotaremos por Mo . Si existen varios valores que presentan
la misma frecuencia máxima, entonces la variable se dice que es plurimodal. Dependiendo
de si tenemos en consideración toda la distribución o la acotamos a un rango determinado
de valores, hablaremos de moda absoluta o modas relativas. En ocasiones se definen modas
relativas como aquellos valores que tienen frecuencia absoluta mayor a la de los valores
adyacentes.
Cuando los datos vienen dados en forma puntual las modas se pueden obtener
fácilmente.
Ejemplo 7. Se ha observado el número de crı́as de 12 familias de una determinada
especie obteniendo los siguientes datos:
5 3 3 8 3 6 2 7 9 3 7 7.
Se pide calcular la moda de esta muestra. Para ello, ordenamos los datos en orden cre-
ciente:
2 3 3 3 3 5 6 7 7 7 8 9.
Observamos que la moda (absoluta) es Mo = 3, puesto que el 3 es el valor que más veces
se repite, concretamente cuatro veces. Además, el 7 es una moda relativa, puesto que su
frecuencia es tres, superior a la de los valores adyacentes 6 y 8, ambas iguales a uno.
Si las observaciones vienen agrupadas en intervalos hay que distinguir dos casos.
1 Intervalos de igual amplitud. En este caso se identifica el intervalo que contenga

mayor frecuencia (intervalo modal absoluto) y aquellos con frecuencia superior a la
de los intervalos adyacentes (intervalos modales relativos). Dentro de cada intervalo
modal con extremos ai∗ y bi∗ , la moda corresponde al valor:
ni∗ − ni∗ −1
Mo = ai∗ + (bi∗ − ai∗ )
2ni∗ − (ni∗ −1 + ni∗ +1 )
Ejemplo 8. Se ha observado el peso (en kilos) de 70 empleados de un hospital. Los datos
se presentan en la Tabla 3.
Peso Fr. absoluta Fr. absoluta
(en kilos) acumulada
[50, 60] 8 8
(60, 70] 15 23
(70, 80] 21 44
(80, 90] 18 62
(90, 100] 7 69
(100, 110] 1 70
Totales 70
Tabla 3: Distribución de frecuencias del peso (en kilos)
Para calcular la moda absoluta, observamos que todos los intervalos tienen la misma
amplitud (10) y que el intervalo modal absoluto es (70, 80]. Por lo tanto, la moda es:
21 − 15 6
Mo = 70 + · (80 − 70) = 70 + · 10 = 76,67 kilos.
2 · 21 − (15 + 18) 9
2 Intervalos de distinta amplitud. En este caso se procede de forma similar al an-

terior usando en lugar de las frecuencias de cada intervalo las alturas de histograma,
hi , que se definen como el cociente de las frecuencias absolutas entre las longitudes
de los intervalos, esto es:
ni
hi := , i = 1, . . . , k.
b i − ai
Veamos algunos ejemplos de cálculo de las medidas de posición central.

Ejemplo 9 (Ataques epilépticos). Se observaron durante 8 semanas a 20 pacientes con
epilepsia severa. A continuación aparecen el número de ataques epilépticos graves sufridos
por estos pacientes en el mencionado periodo de tiempo:
5 0 7 6 0 0 5 0 6 0
5 0 0 0 0 7 0 0 4 7
Se pide determinar la media, la mediana y la moda del número de ataques epilécticos.
I El “número de ataques epilépticos” es una variable cuantitativa discreta. Podemos
calcular la media de dos formas:
Usando la fórmula (1), el número medio de ataques epilépticos es

n
1X 52
x= xi = = 2,6 ataques
n i=1 20
Usamos la fórmula (2) y la distribución de frecuencias, que viene dada por la tabla:
Para ello consideremos la siguiente tabla:
N. ataques Fr. absoluta Fr. absoluta Fr. relativa Fr. relativa
x
ei ni acumulada fi acumulada
0 11 11 0,55 0,55
4 1 12 0,05 0,60
5 3 15 0,15 0,75
6 2 17 0,10 0,85
7 3 20 0,15 1
Totales 20 1
Por lo tanto, el número medio de ataques es:

q
X
x= ei · fi = 0 · 0,55 + 4 · 0,05 + 5 · 0,15 + 6 · 0,10 + 7 · 0,15 = 2,6 ataques
x
i=1
Para calcular la mediana, como n = 20 es par, entonces

x(10) + x(11) 0+0
Me = = = 0 ataques.
2 2
Finalmente, la moda absoluta es Mo = 0 ataques, porque 0 es el valor más frecuente.
La media y la mediana habitualmente son similares, pero no siempre. Suelen diferir

cuando la distancia que hay entre las observaciones centrales y las menores es diferente
a la que hay entre las observaciones centrales y las mayores; esto puede ocurrir si hay
observaciones atı́picas o extremas (muy alejadas del centro) a la derecha pero no a la
izquierda, o al contrario. Por ejemplo, si la muestra es 3, 5, 6, 7, 9, entonces la media y
la mediana muestral coinciden y valen 6; pero si la muestra es 3, 5, 6, 7, 109, entonces la
media es 26, mientras que la mediana sigue siendo 6.
La media tiene la ventaja de que utiliza toda la información disponible sobre la va-
riable, y no sólo la información del centro; pero, por esa razón, quizá el resultado que se
obtenga con la media pueda no ser representativo del centro de la variable. Esto último
ocurre especialmente cuando hay observaciones atı́picas o extremas en la muestra; por
eso, en esos casos suele preferirse la mediana como medida central representativa.
Sin embargo, tradicionalmente la media ha sido una medida más utilizada que la
mediana por su facilidad matemática. La moda, en cambio, al indicar cuál es el valor más
frecuente de la distribución, no representa realmente cuál es el centro. Por esta razón, la
moda es menos utilizada que la media y la mediana.
El siguiente ejemplo pone de manifiesto esa sensibilidad que hemos comentado de la
media respecto a valores extremos en las observaciones.
Ejemplo 10. Se ha observado el número de pétalos de 6 flores de una determinada especie

en dos regiones A y B. Los datos obtenidos son los siguientes:
Muestra región A: 3 5 6 8 9 11
Muestra región B: 3 5 6 8 9 89
Se pide calcular el número medio de pétalos y la mediana del número de pétalos de las
dos muestras observadas.
3 + 5 + 6 + 8 + 9 + 11 42 6+8
xA = = = 7 pétalos; M eA = = 7 pétalos;
6 6 2
3 + 5 + 6 + 8 + 9 + 89 120 6+8
xB = = = 20 pétalos; M eB = = 7 pétalos;
6 6 2
Media
{3,5,6,8,9,11}
0 5 10 15 20 89
Mediana
{3,5,6,8,9,89}
0 5 10 15 20 89
Media
Ejemplo 11. Se observaron durante 8 semanas a 12 pacientes con epilepsia severa, 6

varones y 6 mujeres. A continuación aparecen el número de ataques epilépticos graves
sufridos por estos pacientes en el mencionado periodo de tiempo:
Muestra Varones: 0 0 0 10 10 10
Muestra Mujeres: 5 5 5 5 5 5
Calcular la media y la mediana del número de ataques de las dos muestras observadas.
Cuantiles
Los cuantiles de orden s de un conjunto de valores observados en una muestra son aquellos
valores que dividen a la muestra ordenada en s partes con “el mismo”número de elementos.
Entre los cuantiles destacan los cuartiles, los deciles y los percentiles. Los cuartiles
dividen la muestra ordenada en cuatro partes iguales, los deciles en diez y los percentlies
en cien. Tendremos, por por lo tanto:
Tres cuartiles, que denotaremos por Q1 , Q2 , Q3 .

Nueve deciles, que denotaremos por D1 , D2 , . . . , D9 .
Noventa y nueve percentiles, que denotaremos por P1 , P2 , . . . , P99 .
Como consecuencia de estas definiciones se obtienen las siguientes relaciones:
Me = P50 = D5 = Q2 .
D1 = P10 , . . . , D9 = P90 .
Q1 = P25 y Q3 = P75 .
De entre los posibles cuantiles, los cuartiles son los más usados en la práctica. Los
tres cuartiles, Q1 , Q2 y Q3 , dividen la muestra ordenada en cuatro grupos y cada grupo
contiene “aproximadamente” el 25 % de datos de la muestra. En particular, para muestra
de gran tamaño, en muchos casos es correcto afirmar que:
El primer cuartil Q1 es el valor que satisface que: al menos el 25 % de los datos de

la variable observados en la muestra son menores o iguales a Q1 ; y al menos el 75 %
de los datos de la variable observados en la muestra son mayores o iguales a Q1 .
El segundo cuartil Q2 (que coincide con la mediana) es el valor que satisface que: al
menos el 50 % de los datos de la variable observados en la muestra son menores o
iguales a Q2 ; y al menos el 50 % de los datos de la variable observados en la muestra
son mayores o iguales a Q2 .
El tercer cuartil Q3 es el valor que satisface que: al menos el 75 % de los datos de
la variable observados en la muestra son menores o iguales a Q3 ; y al menos el 25 %
de los datos de la variable observados en la muestra son mayores o iguales a Q3 .
Si queremos dividir el conjunto de valores observados en una muestra ordenada en s

partes (s ∈ {4, 10, 100, . . .}), para el cálculo del r-ésimo cuantil (r ∈ {1, 2, . . . , s − 1}) de
orden s, que denotaremos por Cr/s , se procede de la forma siguiente:
1 Si los datos viene dados por extensión (x1 , . . . , xn ), entonces diremos que rs (n + 1)
es la posición del r-ésimo cuantil de orden s, y llamando m a la parte entera de
r
s
(n + 1), se define:
s−i i r i
Cr/s = x(m) + x(m+1) si m = (n + 1) + , i ∈ {0, 1, . . . , s − 1}.
s s s s
2 Si disponemos de los datos en forma de una distribución de frecuencias como

en la Tabla 6 del Tema 1, para el cálculo del r-ésimo cuantil de orden s se procede
como sigue:
mulada (Ni∗ ) mayor o igual que rn/s, o equivalentemente, la primera frecuencia
relativa acumulada (Fi∗ ) mayor o igual que r/s.
rn
Si Ni∗ > s
(ó Fi∗ > rs ), entonces Cr/s = x
ei∗ .
rn s−r r
Si por el contrario Ni∗ = s
(ó Fi∗ = rs ), entonces Cr/s = x
ei∗ + xei∗ +1 .
s s
3 Si disponemos de los datos en forma de una distribución de frecuencias con
marcas de clase como en la Tabla 8 del Tema 1, para el cálculo (aproximado) del
r-ésimo cuantil de orden s se procede como sigue:
mulada (Ni∗ ) mayor o igual que rn/s, o equivalentemente, la primera frecuencia
relativa acumulada (Fi∗ ) mayor o igual que r/s.
Sean ai∗ y bi∗ los extremos inferior y superior, respectivamente, del intervalo
correspondiente a Ni∗ o Fi∗ . El r-ésimo cuantil de orden s se calcula mediante
la expressión:
rn r
s
− Ni∗ −1 s
− Fi∗ −1
Cr/s = ai∗ + (bi∗ − ai∗ ) = ai∗ + (bi∗ − ai∗ ) (4)
ni∗ f i∗
Ejemplo 12. Los siguientes datos corresponden a la presión sistólica de la sangre (en
mm Hg) de siete hombres de mediana edad:
151 124 132 170 146 124 113
Calcular el primer y el tercer cuartil. Para ello, en primer lugar ordenamos las observa-
ciones en orden creciente:
113 124 124 132 146 151 170.
Usando la notación empleada, se tiene: n = 7, s = 4, r ∈ {1, 3}.

La posición del primer cuartil Q1 es 14 (n + 1) = 2 cuya parte entera es m = 2. Ası́,
2 = 2 + 04 tomando i = 0, y por lo tanto, Q1 = x(2) = 124 mm Hg. Interpretación: al
menos el 25 % de los hombres de la muestra tiene una presión sistólica menor o igual a
124 mm Hg; y al menos el 75 % de los hombres de la muestra tiene una presión sistólica
mayor o igual a 124 mm Hg.
La posición del tercer cuartil Q3 es 34 (n + 1) = 6 cuya parte entera es m = 6. Ası́,
6 = 6 + 04 tomando i = 0, y por lo tanto, Q3 = x(6) = 151 mm Hg. Interpretación: al
menos el 75 % de los hombres de la muestra tiene una presión sistólica menor o igual a
151 mm Hg; y al menos el 25 % de los hombres de la muestra tiene una presión sistólica
mayor o igual a 151 mm Hg.
Ejemplo 13. Se ha observado el número de crı́as en 43 familias de una determinada

especie. Los datos se presentan en la Tabla 4. Calcular el primer y el tercer cuartil.

crı́as acumulada acumulada
[2, 3] 4 4 0,0930 0,0930
(3, 7] 6 10 0,1395 0,2325
(7,12] 12 22 0, 2791 0,5116
(12, 21] 8 30 0,1861 0,6977
(21,25] 6 36 0,1395 0,8372
(25, 30] 4 40 0,0930 0,9302
(30, 50] 3 43 0,0698 1
Totales 43 1
Tabla 4: Distribución de frecuencias del número de crı́as en 43 familias.
Usando la notación empleada, se tiene: n = 43, s = 4, r = {1, 3}.

El primer cuartil Q1 se encuentra en el intervalo (7, 12]. Aplicando la fórmula (4), se
tiene que:
1
4
43− 10 10,75 − 10 3,75
Q1 = 7 + (12 − 7) = 7 + (5) = 7 + = 7,3125 crı́as
12 12 12
Interpretación: al menos el 25 % de las familias observadas en la muestra tienen un núme-
ro de crı́as menor o igual a 7,3125 crı́as; y al menos el 75 % de las familias observadas
en la muestra tienen un número de crı́as mayor o igual a 7,3125 crı́as.
El tercer cuartil Q3 se encuentra en el intervalo (21, 25]. Aplicando la fórmula (4), se
tiene que:
3
4
43 − 30 32,25 − 30 9
Q3 = 21 + (25 − 21) = 21 + (4) = 21 + = 22,5 crı́as
6 6 6
Interpretación: al menos el 75 % de las familias observadas en la muestra tienen un núme-
ro de crı́as menor o igual a 22,5 crı́as; y al menos el 25 % de las familias observadas en
la muestra tienen un número de crı́as mayor o igual a 22,5 crı́as.
Ejemplo 14. Considere de nuevo la Tabla 1 del Ejemplo 5 referente a la variable número
de cigarrillos fumados a diario. Calcular e interpretar los tres cuartiles: Q1 ,Q2 y Q3 .

cigarrillos acumulada acumulada
2 8 8 0,2 0,2
4 8 16 0,2 0,4
5 6 22 0,15 0,55
6 4 26 0,10 0,65
7 6 32 0,15 0,80
8 6 38 0,15 0,95
9 2 40 0,05 1
Totales 40 1
1.2. Medidas de Dispersión
Las medidas de dispersión o medidas de variabilidad son coeficientes que indican el

nivel de concentración de los datos que se están analizando e informan sobre la bondad
de los promedios calculados como representantes del conjunto de datos.
En este apartado estudiaremos las medidas de dispersión más importantes:
Medidas de variabilidad basadas en la muestra ordenada: Rango; Rango Inter-

cuartı́lico.
Medidas de variabilidad basadas en las diferencias entre las observaciones y la media:

Varianza; Desviación Tı́pica; Desviación Absoluta; Coeficiente de Varia-
ción.
Rango
El rango (o recorrido) de un conjunto de valores observados en una muestra es la diferencia

entre el valor más grande y el más pequeño, y por lo tanto, es la longitud del menor
intervalo que contiene a todas las observaciones.
R := x(n) − x(1)
Obsérvese que el rango:
tiene la misma unidad de medida que la variable objeto de estudio;
es una medida de variabilidad que no tiene en cuenta como se distribuyen las ob-
servaciones dentro de su rango de variación (por esta razón, no es muy utilizada en
la práctica, a pesar de su sencillez);
es una medida que se ve muy afectada por observaciones atı́picas.
Ejemplo 15. Queremos analizar el tiempo (en horas) que cada semana dedican al estudio
los estudiantes de Óptica. Para ello hemos seleccionado una muestra de 13 estudiantes de
Óptica, y les hemos preguntado el tiempo que dedicaron al estudio en la última semana.
Los resultados han sido:
24 15 23 27 34 21 20 10 21 18 23 21 29
Se pide calcular el rango de la muestra.

Una vez reordenamos de forma creciente la muestra,
10 15 18 20 21 21 21 23 23 24 27 29 34
observamos que n = 13, x(1) = 10 y x(13) = 34, por lo que el rango de la muestra es:
R = x(13) − x(1) = 34 − 10 = 24 horas.
Interpretación: la diferencia en el tiempo de estudio semanal entre el que más estudia y

el que menos estudia, de entre los estudiantes de la muestra, es de 24 horas.
Rango intercuartı́lico
El rango intercuartı́lico (o recorrido intercuartı́lico) de un conjunto de valores observados

en una muestra es la diferencia entre el tercer cuartil y el primer cuartil, es decir,
RIQ = Q3 − Q1
Obsérvese que el rango intercuartı́lico:
indica la longitud del intervalo que contiene aproximadamente al 50 % de observa-

ciones centrales;
tiene la misma unidad de medida que la variable objeto de estudio;
es una medida de variabilidad central: un valor pequeño de RIQ indica que todas
las observaciones centrales están muy concentradas (poca variabilidad en el centro),
mientras que un valor grande indica lo contrario;
no se ve afectado por la presencia de observaciones atı́picas o extremas, pues éstas

no afectan a los cuartiles al ser escasas.
Ejemplo 16. Calcular el rango intercuartı́lico para los datos del ejercicio anterior.
Recuperamos la muestra ordenada de forma creciente,
10 15 18 20 21 21 21 23 23 24 27 29 34
y a continuación calculamos el primer y el tercer cuartil.

La posición del primer cuartil Q1 es 41 (n + 1) = 14 (13 + 1) = 3,5 cuya parte entera es
m = 3. Ası́, 3,5 = 3 + 42 tomando i = 2, y por lo tanto,
4−2 2 1 1
Q1 = x(3) + x(4) = (x(3) + x(4) ) = (18 + 20) = 19 horas
4 4 2 2
Interpretación: al menos el 25 % de los estudiantes de la muestra estudian 19 horas o

menos; y al menos el 75 % de los estudiantes de la muestra estudian 19 horas o más.
La posición del tercer cuartil Q3 es 34 (n + 1) = 34 (13 + 1) = 10,5 cuya parte entera es
m = 10. Ası́, 10,5 = 10 + 42 tomando i = 2, y por lo tanto,
4−2 2 1 1
Q3 = x(9) + x(10) = (x(10) + x(11) ) = (24 + 27) = 25,5 horas
4 4 4 2
Interpretación: al menos el 75 % de los estudiantes de la muestra estudian 25,5 horas o
menos; y al menos el 75 % de los estudiantes de la muestra estudian 25,5 horas o más.
Por lo tanto, RIQ = Q3 − Q1 = 25,5 − 19 = 6,5 horas. Interpretación: en un inter-
valo de longitud 6,5 horas están concentradas aproximadamente el 50 % de observaciones
centrales de la muestra.
Varianza y desviación tı́pica
La varianza y su raı́z positiva, la desviación tı́pica, son las medidas de dispersión más
importantes, estando éstas ı́ntimamente ligadas a la media como medida de representación
del conjunto de datos. La varianza de un conjunto de valores observados en una muestra,
y que denotaremos por s2x , se define como la suma de los cuadrados de las diferencias de
cada valor xi respecto de la media, dividida por el tamaño muestral. Esto es:
n
1X
s2x := (xi − x)2 (5)
n i=1
Obsérvese que la varianza:
es siempre mayor o igual que cero;
informa sobre la bondad de la media como representante del conjunto de datos:

(1) si s2x es pequeña (comparativamente) es porque todas las desviaciones a la media
son, en valor absoluto, pequeñas, lo que indica que todas las observaciones están
cerca de la media, es decir, hay poca variabilidad, mejor representa la media al
conjunto de datos;
(2) si s2x es grande (comparativamente) es porque algunas desviaciones a la media
son, en valor absoluto, grandes, lo que indica que algunas observaciones están ale-
jadas de la media, es decir, hay mucha variabilidad, y peor representa la media al
conjunto de datos.
vale cero sólo en el caso de que todos los valores de la variable en la muestra sean
iguales. En este caso, todos los valores coincidirán con la media aritmética y la media
representará perfectamente al conjunto de datos;
Si en lugar de dividir por n se divide por n − 1 en la definición de varianza muestral

en (5), se obtiene entonces la cuasivarianza muestral. Se considerará este otro concepto
cuando busquemos una mejor aproximación de la varianza poblacional en el bloque de

inferencia estadı́stica.
La unidad de medida de la varianza es el cuadrado de la unidad de medida de la
variable. Una medida de dispersión equivalente a la varianza pero dada en la misma
unidad de medida de la variable es la desviación tı́pica, que denotaremos por sx y que
se define como la raı́z positiva de la varianza,
p
sx := s2x .
Ejemplo 17. Los siguientes datos corresponden a la elongación del tallo (en mm) de
cinco plantas durante una semana en el banco de un inverdadero:
76 72 65 70 82
Se pide calcular la varianza y la desviación tı́pica de la elongación del tallo de esta muestra.
Elongación tallo Diferencia Cuadrado de la diferencia
xi xi − x (xi − x)2
65 −8 64
70 −3 9
72 −1 1
76 3 9
82 9 81
n n n
(xi − x)2 = 164
P P P
xi = 365 (xi − x) = 0
i=1 i=1 i=1
Tabla 5: Cálculos para obtener la varianza
El tamaño muestral es n = 5, y la media muestral es x = n1 ni=1 xi = 365

P
5
= 73 mm.
2
Para el cálculo de sx y sx consideremos la Tabla 5, de donde se sigue que la varianza de
la elongación del tallo, para la muestra dada, es:
n
1X 164
s2x = (xi − x)2 = = 32,8 mm2 .
n i=1 5
En consecuencia, la desviación tı́pica es:

p p
sx = s2x = 32,8 = 5,727 mm.
Si disponemos de los datos en forma de una distribución de frecuencias del tipo

de la Tabla 6 del Tema 1, una fórmula equivalente para el cálculo de la varianza es la
siguiente:
k
X
s2x = xi − x)2
fi · (e (6)
i=1
Ejemplo 18. Considere de nuevo la Tabla 1 del Ejemplo 5. Calcular la varianza y la

desviación tı́pica de la variable “número de cigarrillos fumados a diario”.
k
P
El tamaño muestral es n = 40, y la media muestral es x = fi · xi = 5,25 cigarrillos.
i=1
Para calcular la varianza, de acuerdo con (6) y siguiendo la Tabla 6 se tiene que s2x =
N. cigarrillos Fr. abs. Fr. rel. Diferencia Cuadrado

x
ei ni fi fi · x
ei ei − x
x xi − x)2
(e xi − x)2 · fi
(e
2 8 0,2 0,4 −3,25 10,5625 2,1125
4 8 0,2 0,8 −1,25 1,5625 0,3125
5 6 0,15 0,75 −0,25 0,0625 0, 009375
6 4 0,10 0,60 0,75 0,5625 0, 05625
7 6 0,15 1,05 1,75 3,0625 0, 459375
8 6 0,15 1,20 2,75 7,5625 1, 134375
9 2 0,05 0,45 3,75 14,0625 0, 703125
Totales 40 1 x = 5,25 2
sx = 4, 7875
Tabla 6: Cálculos para obtener la media y la varianza
k
xi − x)2 = 4, 7875 cigarrillos2 . La desviación tı́pica de la variable “número de
P
fi · (e
i=1 p
cigarrillos fumados a diario” es sx = s2x = 2,188 cigarrillos.
Si disponemos de los datos en forma de una distribución de frecuencias con mar-

cas de clase del tipo de la Tabla 8 del Tema 1, una expresión para el cálculo de la
varianza (en realidad, una aproximación de la varianza) es la siguiente:
k k
1X X
s2x = ni · (ci − x)2 = fi · (ci − x)2 (7)
n i=1 i=1
Se puede demostrar que:
si se multiplican los valores muestrales de una variable X por una constante b y se

le suma una constante a, se tiene una nueva variable Y = a + bX con varianza igual
a b2 por la varianza de X, esto es,
Y = a + bX =⇒ s2y = b2 s2x ; sy = |b|sx
n n
(xi − x)2 = x2i − nx2 , de donde una fórmula alternativa a (5) para el cálculo
P P
i=1 i=1
de la varianza es: !
n
1X 2
s2x = x − x2
n i=1 i
Desviación absoluta
La desviación absoluta (o desviación media absoluta) respecto a la media (Dm ) de un

conjunto de valores observados en una muestra es la suma de las diferencias, en términos
absolutos, de cada valor de la muestra xi respecto de la media, dividido por el tamaño
muestral. n
1X
Dm = |xi − x| (8)
n i=1
Alternativamente, también puede considerarse la desviación absoluta con respecto a la

mediana.
Ejemplo 19. En el Ejemplo 17, los datos correspondientes a la elongación del tallo (en
mm) de cinco plantas durante una semana en el banco de un inverdadero eran:
76 72 65 70 82
Se pide calcular la desviación absoluta respecto a la media.
Se ha visto en el Ejemplo 17 que la elongación media de los tallos de la muestra es
x = 73 mm. Para el cálculo de la desviación absoluta Dm consideremos la Tabla 7, de
donde se obtiene que
n
1X 24
Dm = |xi − x| = = 4,8 mm.
n i=1 5
Interpretación: la distancia media entre cada observación de la muestra y la elongación
media de los tallos de la muestra es de 4,8 mm.
Elongación tallo Diferencia Valor absoluto
xi xi − x |xi − x|
65 −8 8
70 −3 3
72 −1 1
76 3 3
82 9 9
n
P
Totales |xi − x| = 24
i=1
Tabla 7: Cálculos para obtener la desviación absoluta
Obsérvese que todas las medidas de dispersión que se han ilustrado hasta ahora de-
penden de las unidades de medidas de la variable estadı́stica objeto de estudio. Esto
implica que:
1. En su interpretación, se debe de tener en cuenta la unidad de medida.

2. No es posible comparar, como consecuencia del punto anterior, la dispersión de
variables expresadas en diferentes unidades de medida (como por ejemplo, peso y
altura).
Ejemplo 20. Se ha observado el peso (en Kg) de 5 varones adultos y el peso de 5 niños
de 2 meses. Los datos son:
Muestra Adultos (A): 88 88,5 89 89,5 90
Muestra Niños (B): 4 4,5 5 5,5 6
Las medias de las dos muestras son xA = 89 Kg y xB = 5 Kg. Las desviaciones tı́picas de
las dos muestras coinciden:
s(A)
x = s(B)
x = 0,707 Kg,
sin embargo, la dispersión del peso en la muestra de los adultos es inferior a la dispersión
del peso en la muestra de los niños.
Si se desea trabajar con una medida de dispersión que no dependa de la unidad de

medida de las correspondientes variables estadı́sticas y permita comparar la dispersión
de variables con distintas magnitudes y distintas escalas (evitando las situaciones del
tipo ilustrado en el ejemplo anterior) se puede utilizar el coeficiente de variación que se
describe a continuación.
Coeficiente de Variación
El coeficiente de variación de un conjunto de valores observados en una muestra, CV , se

define como el cociente entre la desviación tı́pica y el valor absoluto de la media.
sx
CV =
|x|
El coeficiente de variación:
no está definido cuando x = 0;

es una medida abstracta o adimensional, no posee unidades;
mide variabilidad respecto a la media, por ello suele utilizarse para comparar varia-
bilidad entre dos (o más) grupos de observaciones con muy distinto valor medio.
es invariable frente a cambios de escala en la variable;
además de permitir la comparación de la dispersión de variables con distintas mag-
nitudes (o escala), proporciona información sobre el grado de representatividad de
la media.
en ocasiones se expresa en porcentaje, multiplicando el cociente obtenido por 100,
y en ese caso lo que indica es variabilidad porcentual respecto a la media.
CV = c implica que la desviación tipica es c veces la media de los datos.
Ejemplo 21. En el Ejemplo 20, donde se habı́a observado el peso (en Kg) de 5 varones
adultos y de 5 niños de dos meses, los coeficientes de variación de las dos muestras son:
(A) (B)
(A) sx 0,707 (B) sx 0,707
CV = = = 0,008 < CV = = = 0,141
xA 89 xB 5
Usando el coeficiente de variación se puede (correctamente) deducir que la dispersión del
peso en la muestra de los adultos es muy inferior a la dispersión del peso en la muestra
de los niños de dos meses.
1.3. Medidas de Forma
Para un conjunto de datos relativos a una variable cuantitativa unidimensional, además

de las medidas descriptivas de posición y dispersión ilustradas a lo largo del tema, es
posible calcular también unos coeficientes que proporcionan información sobre algunas
caracterı́sticas de la forma de la distribución de la variable. Las medidas de forma más
importantes son:
Medidas de asimetrı́a: Una distribución es simétrica si la mitad izquierda de su

distribución es la imagen especular de su mitad derecha.
La simetrı́a de una distribución de frecuencias hace referencia al grado en que valores
de la variable, equidistantes a un valor que se considere centro de la distribución,
poseen frecuencias similares
Es un concepto más intuitivo a nivel visual, especialmente, si se observa una repre-
sentación gráfica (diagrama de barras, histograma...) de la distribución de frecuen-
cias, aunque existen diversos coeficientes para medir la asimetrı́a.
En las distribuciones simétricas, media y mediana coinciden. Si sólo hay una moda
también coincide con la media.
Medidas de apuntamiento: Las medidas de apuntamiento (o curtosis) nos indi-

can el grado de apuntamiento (o aplastamiento) de una distribución con respecto a
la distribución normal o gaussiana.
El apuntamiento expresa el grado en que una distribución acumula casos en sus colas
en comparación con los casos acumulados en las colas de una distribución normal
cuya dispersión sea equivalente.
2. Representaciones gráficas
La información contenida en una tabla de frecuencias unidimensional, o proporcionada

por el conjunto de las medidas descriptivas ilustradas en los apartados anteriores puede ser
visualizada de una forma simple e intuitiva con una serie de gráficas. Las más utilizadas,
clasificadas por tipo de datos, son:
Gráficos para describir variables discretas y categóricas:

Diagramas de sectores; Diagramas de barras.
Gráficos para describir variables continuas:

Histogramas; Polı́gonos de frecuencias acumuladas; Diagramas de caja.
2.1. Gráficos para describir variables discretas y categóricas
Supongamos que tenemos un conjunto de observaciones de una variable categórica o

numérica discreta. Una vez obtenida la distribución de frecuencias, podemos visualizar
conjuntamente todas las frecuencias utilizando un diagrama de sectores y un diagrama de
barras.
Un diagrama de sectores no es más que un cı́rculo en el que se reparten los 360 gra-
dos entre las diferentes categorı́as de modo proporcional a su frecuencia relativa, es decir,
si la frecuencia relativa de la categorı́a i-ésima es fi , entonces los grados que corresponden
al sector circular de esa categorı́a son 360 · fi grados. Este tipo de gráficos se utilizan
cuando hay pocos valores que representar (usualmente no más de 7). Obsérvese que un
diagrama de sectores no aporta información nueva, simplemente se utiliza para poder

visualizar rápidamente la información contenida en la tabla de frecuencias observadas.
Ejemplo 22. En una encuesta, se ha preguntado a una muestra de 112 estudiantes uni-
versitarios en qué medida consideraban saludable su estilo de vida. Las respuestas po-
sibles eran: muy saludable/bastante saludable/poco saludable/nada saludable. De los 112
estudiantes, 28 contestaron que su estilo de vida era muy saludable, 55 que era bastante
saludable, 20 que era poco saludable y 9 que no era nada saludable. Estos resultados se
presentan en la Tabla 8.
Estilo de vida Fr. absoluta Fr. relativa

ni fi
Muy saludable 28 0,250
Bastante saludable 55 0,491
Poco saludable 20 0,179
Nada saludable 9 0,080
Totales 112 1
Tabla 8: Distribución de frecuencias de la variable ‘estilo de vida’
El diagrama de sectores correspondiente a estos datos, donde también se indican las

frecuencias relativas de cada categorı́a, en porcentaje, es el siguiente:
Otro modo de visualizar las frecuencias es utilizando un diagrama de barras, que no

es más que un gráfico con barras verticales, en el que cada barra representa una categorı́a,
y la altura de cada barra es la frecuencia (absoluta o relativa) de la categorı́a corres-
pondiente. Al igual que el diagrama de sectores, el diagrama de barras tampoco aporta
información nueva, sino que simplemente permite visualizar rápidamente la información
contenida en la tabla de frecuencias observadas. Los diagramas de barras permiten utilizar
mayor número de valores que los gráficos de sectores. Son más versátiles que los gráficos
de sectores y al igual que con éstos también se pueden conseguir efectos especiales como
3D, giros e iluminaciones.
En ocasiones, el diagrama de barras se presenta ordenando las categorı́as de más
frecuente a menos frecuente. Este tipo de diagrama de barras recibe el nombre de diagrama
de Pareto, y se utiliza para ver si las frecuencias decrecen lentamente o rápidamente. Para
construir un diagrama de barras:
Sobre un eje horizontal se representan los distintos valores/modalidades de una

variable discreta o categórica, y sobre cada valor se levanta un rectángulo vertical
cuya base está separada de las contiguas.
En un eje de escala vertical se representa una caracterı́stica numérica de la variable

(frecuencia absoluta, frecuencia relativa o porcentaje).
Ejemplo 23. La tabla de frecuencias para la variable Tipo de tratamiento que vimos en
el Ejemplo 1 de Tema 1 es la siguiente:
Tipo de Tratamiento Fr. absoluta Fr. relativa

A 22 0,3667
B 13 0,2167
C 25 0,4166
Totales 60 1
Tabla 9: Distribución de frecuencias para la variable “Tipo de tratamiento”
Vamos a construir un diagrama de sectores y un diagrama de barras.
Como ejercicio, representa gráficamente el diagrama de Pareto para los datos de la

variable ‘estilo de vida’ del Ejemplo 22.
2.2. Gráficos para describir variables cuantitativas continuas
Cuando observamos una variable numérica continua, siempre habrá muchos resultados
diferentes en la muestra. En este caso, para realizar gráficos que permitan visualizar
cómo se distribuyen las observaciones es necesario comenzar agrupándolas, como ya vimos
cuando estudiamos las distribuciones de frecuencias para las variables continuas. Vamos
a ver los tres tipos de gráficos más utilizados: el histograma, el polı́gono de frecuencias
acumuladas, y el diagrama de caja.
Una vez agrupadas las observaciones en clases, el histograma se obtiene simplemente
representando barras verticales sobre los intervalos considerados como clases, siendo la
altura de cada barra la frecuencia. El histograma sirve para visualizar cómo se distribuyen
las observaciones en el intervalo de variación de la variable. Este gráfico permite dar
respuesta, de modo intuitivo, a preguntas como: ¿hay mayor proporción de observaciones
en la zona central o en los extremos?, ¿se reparten las observaciones de modo simétrico
respecto al centro?
Los histogramas son parecidos en forma a los diagramas de barras, pero su uso se
restringe únicamente a las variables continuas: los histogramas representan frecuencias
agrupadas de una variable continua sobre intervalos. A diferencia de los diagramas de
barras, los histogramas dibujan rectángulos unidos entre sı́, lo que significa que existe
una continuidad en la variable cuyos valores se representan en el eje horizontal. Este eje
horizontal se halla dividido en intervalos (usualmente de igual amplitud) sobre los que se
elevan rectángulos de altura proporcional a su frecuencia. Por lo tanto, las áreas de los
rectángulos son proporcionales a las frecuencias que representan. En particular:
Si todos los intervalos tienen la misma amplitud, entonces los rectángulos tendrán la
misma base y sólo se diferenciarán en la altura, que es proporcional a la frecuencia
del intervalo.
Si se usan intervalos de distinta amplitud, entonces la altura de cada intervalo se
f recuencia
obtiene de acuerdo con la fórmula: altura = .
amplitud
Al observar la distribución de las observaciones con un histograma, hay dos casos

que reciben un nombre especial:
Un histograma aproximadamente horizontal indica que las frecuencias son todas

similares, es decir, que todas las observaciones se reparten uniformemente entre las
diferentes clases; por esta razón, en este caso se dice que el histograma muestra
aproximadamente una distribución uniforme.
El histograma más frecuente es el que muestra una mayor proporción de observa-
ciones en el centro, y un decrecimiento rápido y simétrico a derecha e izquierda
del centro; en este caso se dice que el histograma muestra aproximadamente una
distribución normal.
Ejemplo 24. Un supervisor ha observado el tiempo (en segundos) que tardan 40 em-
pleados en ejecutar una determinada tarea. La Tabla 10 resume la información sobre la
muestra de los 40 tiempos observados. Se obtiene el histograma:
Tiempo de Marca Fr. absoluta Fr. absoluta Fr. relativa Fr. relativa
ejecución de clase acumulada acumulada
[222, 234] 228 4 4 0,100 0,100
(234, 246] 240 7 11 0,175 0,275
(246, 258] 252 10 21 0,250 0,525
(258, 270] 264 13 34 0,325 0,850
(270, 282] 276 4 38 0,100 0,950
(282, 294] 288 2 40 0,050 1,000
Total 40 1
Tabla 10: Distribución de frecuencias para la variable ‘Presión sistólica’
Examinando el histograma obtenido se observa que: (1) hay una mayor proporción de
observaciones en el centro que en los extremos, lo que nos lleva a pensar que estas obser-
vaciones no tienen una distribución uniforme; (2) el decrecimiento a derecha e izquierda
del centro no es similar, por lo que no hay simetrı́a, y esto nos lleva a pensar que estas
observaciones no tienen una distribución normal.
Ejemplo 25. La distribución de frecuencias para la variable ‘Presión sistólica’ del Ejem-
plo 1 del Tema 1 viene en la Tabla 11. Representar el histograma correspondiente.
Presión Marca Fr. absoluta Fr. absoluta Fr. relativa Fr. relativa
sistólica de clase acumulada acumulada
[140,60, 143,26) 141,93 13 13 0,2167 0,2167
[143,26, 145,92) 144,59 6 19 0,1000 0,3167
[145,92, 148,58) 147,25 16 35 0,2666 0,5833
[148,58, 151,24) 149,91 12 47 0,2000 0,7833
[151,24, 153,90] 152,27 13 60 0,2167 1,0000
Total 60 1
Tabla 11: Distribución de frecuencias para la variable ‘Presión sistólica’

Una desventaja del histograma es que la gráfica de un histograma puede ser muy
distinta para los mismos datos, simplemente variando el número de clases, por lo que la
elección del número de clases (no hay un método universal para ello) debe hacerse con
cuidado porque puede condicionar los resultados obtenidos.
Otro gráfico que se utiliza para describir cómo se distribuyen las observaciones de una
variable continua es el llamado polı́gono de frecuencias acumuladas. Se llama ası́ a la
lı́nea poligonal que une los puntos (c0 , 0), (c1 , F1 ), . . ., (ck , Fk ), siendo c0 el extremo inferior
de la primera clase, c1 , . . ., ck los extremos superiores de las clases 1, . . . , k, y F1 , . . . , Fk
las frecuencias relativas acumuladas de las clases 1, . . . , k. Este polı́gono también recibe
el nombre de ojiva.
Teniendo en cuenta la definición dada, al representar este polı́gono debemos consi-

derar en el eje vertical los valores de 0 a 1 (o de 0 a 100 si se expresa en porcentaje).
Obsérvese, además, que este polı́gono siempre es creciente.
Obsérvese que el polı́gono de frecuencias acumuladas nos permite saber, para un x

dado, aproximadamente la proporción de observaciones de la muestra que son iguales
o inferiores a ese x; para ello, basta con mirar cuál es el valor que corresponde en el
eje vertical al valor x del eje horizontal.
Este polı́gono también nos permite ver dónde hay una mayor proporción de ob-
servaciones: en las zonas en donde los segmentos correspondientes tengan mayor
pendiente (porque ahı́ es donde hay más crecimiento de la frecuencia acumulada
relativa).
Ejemplo 26. Para los datos del Ejemplo 24, el polı́gono de frecuencias acumuladas es:
✬ Tema 2: Medidas numéricas para la descripción de datos ✩
Tema 1. Sı́ntesis de datos unideminesionales 125
26
Caso extremos: valores alejados más de 3

longitudes de caja del tercer cuartil *
Caso atípico: valores alejados más de 1.5
longitudes de caja del tercer cuartil
Valor más grande que no

llega a ser atípico
Tercer cuartil
(3ª bisagra de Tukey) ½ La caja contiene el
° 50% de los valores
Mediana ¾ centrales de la
°
Primer cuartil ¿ muestra ordenada
(1ª bisagra de Tukey)
Valor más pequeño que no

llega a ser atípico
Caso atípico: valores alejados más de 1.5

longitudes de caja del primer cuartil
Caso extremos: valores alejados más de 3

longitudes de caja del primer cuartil *
Figura 1: Interpretación del diagrama de caja en SPSS
✫ ✪
Los diagramas de caja (también conocidos como diagramas de caja y bigotes) son
representaciones gráficas sencillas que no necesitan un número elevado de valores para su
construcción. Se utilizan para estudiar tanto la dispersión como la posición y la forma de
una distribución. Además, son especialmente útiles para comparar distintas muestras (o
distintos subgrupos de una misma muestra).
Un diagrama de caja, en general, consiste en: (1) un rectángulo (o caja) cuya longitud
es el rango intercuartı́lico dividido por un segmento a la altura de la mediana; (2) dos
segmentos que parten de los extremos del rectángulo cuya longitud no supera 1,5 veces el
recorrido intercuartı́lico y que intentan alcanzar los valores mı́nimo y máximo observados
(ver Figura 1).
Los distintos paquetes estadı́sticos construyen el diagrama de caja de forma ligeramen-
te distinta. Por ello es recomendable consultar el manual del paquete estadı́stico utilizado
para poder interpretar correctamente el diagrama de caja.
Veamos con un ejemplo la interpretación de un diagrama de caja.
Ejemplo 27. En un estudio sobre angina de pecho en ratas, se dividió aleatoriamente
a 100 animales afectados en dos grupos de 50 individuos cada uno. A un grupo se le
suministró un placebo y al otro un fármaco experimental FL113. Después de un ejercicio
controlado sobre una “cinta sin fin”, se determinó el tiempo de recuperación de cada
rata. A continuación se muestran los diagramas de caja para la variable “Tiempo de
recuperación (en segundos)” en las dos muestras.
(a) Describir las dos muestras utilizando la información proporcionada por los diagra-
mas de caja en la Figura 2.
placebo y al otro un fármaco experimental FL113. Después de un ejercicio controlado
sobre una “cinta sin fin”, se determinó el tiempo de recuperación de cada rata. A
continuación se muestran los diagramas de caja para la variable “Tiempo de
recuperación
Estadı́stica (Grado en(enÓptica)
segundos)” en las dos muestras. 27
500
400
300
200
Placebo FL113
Figura 2: Diagramas de caja para la variable ‘Tiempo de recuperación’ (en segundos) para
las muestrasFigura
de ratas tratadasdecon
1: Diagramas cajaplacebo y con FL113
para la variable “Tiempo de recuperación” (en
segundos) para las muestras de ratas tratadas con placebo y con FL113.
I a) Describir las dos muestras utilizando la información proporcionada por los
diagramas de caja en figura 1.
b) ¿Los datos sugieren alguna diferencia entre el tiempo de recuperación de los
ratones tratados con placebo y aquellos tratados con FL113? Argumentar la
respuesta utilizando las medidas descriptivas que se pueden identificar a partir
de los diagramas de caja en figura 1.
(b) ¿Sugieren los datos alguna diferencia entre el tiempo de recuperación de los ratones
tratados con placebo y aquellos tratados con FL113? Argumentar la respuesta utili-
zando las medidas descriptivas que se pueden identificar a partir de los diagramas
de caja en la Figura 2.
I El diagrama de caja sugiere que:
(1) Las ratas que toman el FL113 tienden a tener un tiempo de recuperación menor que
el de las ratas que toman el placebo-
(2) El tiempo de recuperación es más homogéneo en las ratas que toman el FL113 que en
las ratas que toman el placebo (es decir, el tiempo de recuperación presenta mayor
variabilidad en las ratas que toman el placebo respecto a las ratas que toman el
FL113).
Con respecto a (1): Todas las ratas en el estudio que toman el FL113 tienen un tiempo
de recuperación inferior a los 410 segundos mientras que al menos el 25 % de las ratas
que toman el placebo tiene un tiempo de recuperación superior a 410 (entre 410 y 550
segundos).
Además, si se excluye la rata de la muestra FL113 que tiene un tiempo de recuperación
inusualmente alto, el resto de la muestra FL113 (es decir el 98 % de las 50 ratas que toman
el FL113) tiene un tiempo de recuperación menor o igual que 370 segundos mientras que
al menos el 50 % de la muestra placebo tiene un tiempo de recuperación mayor o igual que
380 segundos (entre 380 y 550).
En la misma lı́nea, podemos afirmar que al menos el 75 % de las ratas en el estudio
que toman placebo tiene un tiempo de recuperación mayor o igual que 315 segundos (entre
315 y 550) mientras que: al menos el 75 % de las 50 ratas que toman el FL113 tienen un
tiempo de recuperación menor o igual que 310 (entre 200 y 310); y al menos un 50 % de
las 50 ratas que toman el FL113 tienen un tiempo de recuperación menor o igual que 280
(entre 200 y 280).
Por último, si se excluye la rata de la muestra placebo que tiene un tiempo de recupe-
ración inusualmente bajo, el resto de la muestra placebo (es decir el 98 % de las 50 ratas
que toman el placebo) tiene un tiempo de recuperación mayor o igual que a 250 segun-
dos mientras que al menos el 25 % de la muestra que toma el FL113 tiene un tiempo de
recuperación menor o igual que 250 segundos (entre 200 y 250).
Con respecto a (2): El tiempo de recuperación (en segundos) en la muestra de ratas
que toman el FL113 toma valores en el intervalo [200,410] cuya longitud (210) es aproxi-
madamente la mitad de la longitud del correspondiente intervalo para la muestra placebo
(cuyo tiempo de recuperación varı́a en el intervalo [150,550]). La misma proporción se
mantiene si calculamos el intervalo de valores que toma el tiempo de recuperación en las
dos muestras excluyendo en cada una de ellas los valores atı́picos o el 50 % de todos los
valores que corresponden a las observaciones más extremas (es decir, el 25 % de todas las
observaciones que en la muestra ordenada corresponden a las observaciones más gran-
des y el 25 % de todas las observaciones que en la muestra ordenada corresponden a las
observaciones más pequeñas).
En particular, excluyendo los casos atı́picos, el tiempo de recuperación (en segundos)

en la muestra placebo y en la muestra FL113 toma valores en los intervalos [250, 550] y
[200, 370] (cuyas amplitudes son 300 y 170) respectivamente. Excluyendo el 50 % de todos
los valores que corresponden en cada muestra a las observaciones más extremas el tiempo
de recuperación (en segundos) en la muestra placebo y en la muestra FL113 toma valores
en los intervalos [315, 410] y [280, 310] (cuyas amplitudes son 95 y 40) respectivamente.
A modo de conclusión para esta sección, señalar que, como norma general, las repre-
sentaciones gráficas deben verificar las siguientes condiciones:
1. Deben indicar claramente las escalas y las unidades de medida.
2. Deben explicarse por sı́ solas, evitando ası́ que el lector deba acudir al texto pa-
ra comprender la representación o lo que se está representando. De ahı́ que sea
fundamental que tengan un tı́tulo totalmente explicativo.
3. Deben contribuir a clarificar el material presentado. Una gráfica de oscura interpre-

tación está en contra del principio simplificador que sustenta a las representaciones
gráficas.

Tema 2

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Tema 2

Cargado por

Copyright:

Formatos disponibles

Tema 2: Medidas numéricas para la

Mario Trottini & José Vicente

Supongamos que se ha observado el valor de una variable estadı́stica X (cualitativa o

En el tema anterior hemos visto como resumir la información contenida en un conjunto

de forma; y se describen a continuación. Algunos de estos coeficientes también se pueden

1.1. Medidas de Posición

Medidas de posición central: Media (aritmética); Mediana; Moda.

La media aritmética de un conjunto de valores observados en una muestra se denota por

Si disponemos de la distribución de frecuencias de los datos observados (ordenados

Si disponemos de la distribución de frecuencias para una variable cuantitativa continua

Ejemplo 1 (Ganancia de peso de los corderos). Los siguientes datos corresponden a la

Usando la fórmula (1) y la Tabla 1 del Tema 1, se obtiene:

Usando la fórmula (3) y la Tabla 9 del Tema 1, se obtiene:

Las principales propiedades de la media aritmética son las siguientes.

P1 : Si se multiplican los valores muestrales de una variable X por una constante b y se

P2 : La suma de las desviaciones respecto de la media es cero,

La mediana de un conjunto de valores observados en una muestra se denota por Me y

1 Si los datos vienen dados por extensión (x1 , . . . , xn ), entonces:

Si el tamaño muestral n es impar, la mediana es el valor de la muestra que

Si el tamaño muestral n es par, la mediana es el promedio de los valores de la

Alternativamente, si llamamos m a la parte entera de 12 (n + 1), entonces

Siendo n = 7 (impar), la mediana del aumento de peso es:

2 Si disponemos de los datos en forma de una distribución de frecuencias como

Se construye la columna de las frecuencias (absolutas o relativas) acumuladas;

Ejemplo 5. Volvamos al Ejemplo 5 del Tema 1.

Número de Fr. absoluta Fr. absoluta Fr. relativa Fr. relativa

Tabla 1: Distribución de frecuencias del ‘Número de cigarillos fumados a diario’

3 Si disponemos de los datos en forma de una distribución de frecuencias con

Se construye la columna de las frecuencias (absolutas o relativas) acumuladas;

Ejemplo 6. Se ha observado la albúmina total circulante (en gramos) de 50 hombres

Tabla 2: Distribución de frecuencias de ‘Albúmina total circulante (en gramos)’

La moda (absoluta) de un conjunto de valores observados es aquel valor/es que presenta/n

1 Intervalos de igual amplitud. En este caso se identifica el intervalo que contenga

Tabla 3: Distribución de frecuencias del peso (en kilos)

2 Intervalos de distinta amplitud. En este caso se procede de forma similar al an-

Veamos algunos ejemplos de cálculo de las medidas de posición central.

Usando la fórmula (1), el número medio de ataques epilépticos es

Por lo tanto, el número medio de ataques es:

Para calcular la mediana, como n = 20 es par, entonces

Finalmente, la moda absoluta es Mo = 0 ataques, porque 0 es el valor más frecuente.

La media y la mediana habitualmente son similares, pero no siempre. Suelen diferir

Ejemplo 10. Se ha observado el número de pétalos de 6 flores de una determinada especie

Ejemplo 11. Se observaron durante 8 semanas a 12 pacientes con epilepsia severa, 6

Tres cuartiles, que denotaremos por Q1 , Q2 , Q3 .

Como consecuencia de estas definiciones se obtienen las siguientes relaciones:

El primer cuartil Q1 es el valor que satisface que: al menos el 25 % de los datos de

Si queremos dividir el conjunto de valores observados en una muestra ordenada en s

2 Si disponemos de los datos en forma de una distribución de frecuencias como

Usando la notación empleada, se tiene: n = 7, s = 4, r ∈ {1, 3}.

Ejemplo 13. Se ha observado el número de crı́as en 43 familias de una determinada

Número de Fr. absoluta Fr. absoluta Fr. relativa Fr. relativa

Tabla 4: Distribución de frecuencias del número de crı́as en 43 familias.

Usando la notación empleada, se tiene: n = 43, s = 4, r = {1, 3}.

Número de Fr. absoluta Fr. absoluta Fr. relativa Fr. relativa

1.2. Medidas de Dispersión

Las medidas de dispersión o medidas de variabilidad son coeficientes que indican el

Medidas de variabilidad basadas en la muestra ordenada: Rango; Rango Inter-

Medidas de variabilidad basadas en las diferencias entre las observaciones y la media:

El rango (o recorrido) de un conjunto de valores observados en una muestra es la diferencia

Obsérvese que el rango:

tiene la misma unidad de medida que la variable objeto de estudio;

es una medida que se ve muy afectada por observaciones atı́picas.

Se pide calcular el rango de la muestra.