Está en la página 1de 29

Tema 2: Medidas numéricas para la

descripción de datos

Mario Trottini & José Vicente


Dpto. Matemáticas (UA)

Índice

1. Medidas Descriptivas 1
1.1. Medidas de Posición . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.2. Medidas de Dispersión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.3. Medidas de Forma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

2. Representaciones gráficas 20
2.1. Gráficos para describir variables discretas y categóricas . . . . . . . . . . . 20
2.2. Gráficos para describir variables cuantitativas continuas . . . . . . . . . . . 23

1. Medidas Descriptivas

Supongamos que se ha observado el valor de una variable estadı́stica X (cualitativa o


cuantitativa) para una muestra de tamaño n. Denotamos por xi el valor de la variable X
en la i-ésima unidad muestral, para i = 1, . . . , n. Por tanto, identificamos una muestra de
tamaño n sobre la que se ha observado la variable X con los valores

x1 , x2 , . . . , xn .

En el tema anterior hemos visto como resumir la información contenida en un conjunto


de datos unidimensionales utilizando tablas de frecuencias.
Además, si la variable unidimensional objeto de estudio es cuantitativa, es posible
resumir la información contenida en un conjunto de datos calculando, a partir de estos,
algunos coeficientes que miden ciertas caracterı́sticas importantes del conjunto de datos,
como pueden ser su posición, dispersión y forma. Los coeficientes correspondientes a esas
caracterı́sticas se clasifican como: medidas de posición; medidas de dispersión; y medidas

1
2 Tema 2: Medidas numéricas para la descripción de datos

de forma; y se describen a continuación. Algunos de estos coeficientes también se pueden


definir para variables cualitativas (lo comentaremos explicitamente cuando eso suceda).
Emplearemos la siguiente notación:

n: tamaño muestral;
x1 , x2 , . . . , xn : valores de X en la muestra observada;
k: número de valores distintos de X en la muestra (k ≤ n);
x
e1 , x
e2 , . . . , x
ek : valores distintos de X en la muestra ordenados en orden creciente;
x(1) , x(2) , . . . , x(n) : valores de la muestra ordenados de forma creciente:
x(1) = mı́n{x1 , . . . , xn }; . . . ; x(n) = máx{x1 , . . . , xn }.

1.1. Medidas de Posición

Las medidas de posición o medidas de localización son coeficientes que indican por
dónde están las observaciones de la variable. Distinguiremos entre medidas que indican
por dónde se encuentra el centro de las observaciones (medidas de localización central)
y se consideran medidas representativas del conjunto de datos; y medidas que indican
algún otro lugar (medidas de localización no central) dividiendo el conjunto de datos
ordenados en partes iguales. Concretamente, las medidas de posición más importantes
que estudiaremos en este apartado serán:

Medidas de posición central: Media (aritmética); Mediana; Moda.


Medidas de posición no central: Cuantiles.

Todas las medidas que estudiaremos en este apartado tienen la misma unidad de medida
que las observaciones utilizadas para calcularlas.

Media Aritmética

La media aritmética de un conjunto de valores observados en una muestra se denota por


x y se define como la suma de todos los valores que la variable toma en cada unidad de
la muestra analizada, dividida por el tamaño de la muestra. De forma matemática,
n
1X
x := xi (1)
n i=1

Si disponemos de la distribución de frecuencias de los datos observados (ordenados


por clases xe1 , x
e2 , . . . , x
ek y con sus frecuencias relativas), entonces una fórmula equivalente
para el cálculo de la media aritmética es la siguiente:
k
X
x= fi · x
ei (2)
i=1
Estadı́stica (Grado en Óptica) 3

Si disponemos de la distribución de frecuencias para una variable cuantitativa continua


cuyos datos se han agrupado en k intervalos siendo c1 , . . . , ck sus marcas de clase, entonces
la media aritmética (en realidad, una aproximación de la media aritmética) se calcula
mediante la expresión:
k k
1X X
x= n i · ci = f i · ci (3)
n i=1 i=1

Ejemplo 1 (Ganancia de peso de los corderos). Los siguientes datos corresponden a la


ganancia de peso (medido en libras) en dos semanas de seis corderos jóvenes de la misma
camada que han crecido con la misma dieta:
11 12 18 10 8 13
Se pide calcular el aumento medio de peso de los corderos de esta muestra.
I El aumento medio del peso en la muestra es:
11 + 12 + 18 + 10 + 8 + 13
x= = 12 libras
6
Ejemplo 2. Veáse la Tabla 1 del Tema 1 donde se recoge los datos de presión sistólica (en
mm Hg) para una muestra de 60 pacientes. Calcular la media aritmética para los datos
observados de la variable presión sistólica usando las fórmulas (1), (2) y (3).

Usando la fórmula (1) y la Tabla 1 del Tema 1, se obtiene:


151,6 + 151,9 + 146,3 + . . . + 144,4 + 151,4
x= = 147,4867 mm Hg.
60
Usando la fórmula (2) y la Tabla 10 del Tema 1, se obtiene:
x = 140,6 · 0,0333 + 140,9 · 0,0167 + . . . + 153,9 · 0,0167 = 147,4867 mm Hg.

Usando la fórmula (3) y la Tabla 9 del Tema 1, se obtiene:


x = 141,93 · 0,2167 + 144,59 · 0,1000 + . . . + 152,57 · 0,2167 = 147,5307 mm Hg.

Las principales propiedades de la media aritmética son las siguientes.

P1 : Si se multiplican los valores muestrales de una variable X por una constante b y se


le suma una constante a, se tiene una nueva variable Y = a + bX con media igual
a b por la media de X más a, esto es,
Y = a + bX =⇒ y = a + bx.

P2 : La suma de las desviaciones respecto de la media es cero,


n
X
(xi − x) = 0.
i=1

P3 : La media es aquel valor respeto del cual se hace mı́nima la suma de las desviaciones
al cuadrado, esto es,
n
X n
X n
X
x = arg mı́n (xi − φ)2 ⇐⇒ (xi − x) ≤ 2
(xi − φ)2 ∀φ ∈ R.
φ∈R
i=1 i=1 i=1
4 Tema 2: Medidas numéricas para la descripción de datos

Mediana

La mediana de un conjunto de valores observados en una muestra se denota por Me y


se define como el valor que divide a la muestra ordenada en dos mitades con el “mismo
número” de datos. Para su cálculo se procede como sigue:

1 Si los datos vienen dados por extensión (x1 , . . . , xn ), entonces:

Si el tamaño muestral n es impar, la mediana es el valor de la muestra que


ocupa la posición n+1
2
-ésima en la serie ordenada de datos:

Me = x( n+1 ) .
2

Si el tamaño muestral n es par, la mediana es el promedio de los valores de la


muestra que ocupan las posiciones n2 y n2 + 1 en la serie ordenada de datos:

x( n2 ) + x( n2 +1)
Me = .
2

Alternativamente, si llamamos m a la parte entera de 12 (n + 1), entonces

2−i i 1 i
Me = x(m) + x(m+1) si m = (n + 1) + , i ∈ {0, 1}.
2 2 2 2
Ejemplo 3. Volviendo al Ejemplo 1, los datos de la ganancia de peso de los corderos
eran:
11 12 18 10 8 13.
Para calcular la mediana del peso de los corderos de esta muestra, en primer lugar se
ordenan las observaciones en orden creciente:

8 10 11 12 13 18.

Como el tamaño muestral es par (n = 6), entonces la mediana del aumento de peso es:

11 + 12
Me = = 11, 5 libras.
2
Ejemplo 4. Supongamos que en el ejemplo de ganancia de peso de los corderos la muestra
tuviera un cordero más y que su peso fuera de 5 libras. Los datos de la ganancia de peso
de los corderos serı́an:
11 12 18 10 8 13 5.
En este caso, las observaciones ordenadas en orden creciente son:

5 8 10 11 12 13 18.

Siendo n = 7 (impar), la mediana del aumento de peso es:

Me = x(4) = 11 libras.
Estadı́stica (Grado en Óptica) 5

2 Si disponemos de los datos en forma de una distribución de frecuencias como


en la Tabla 6 del Tema 1, para el cálculo de la mediana se procede como sigue:

Se construye la columna de las frecuencias (absolutas o relativas) acumuladas;


Deslizándose por esta columna, se identifica la primera frecuencia absoluta acu-
mulada (Ni∗ ) mayor o igual que n/2, o equivalentemente, la primera frecuencia
relativa acumulada (Fi∗ ) mayor o igual que 0,5.
n
 Si Ni∗ > 2
(ó Fi∗ > 0,5), entonces Me = x
ei∗ .
n x
ei∗ + x
ei∗ +1
 Si por el contrario Ni∗ = 2
(ó Fi∗ = 0,5), entonces Me = .
2

Ejemplo 5. Volvamos al Ejemplo 5 del Tema 1.

Número de Fr. absoluta Fr. absoluta Fr. relativa Fr. relativa


cigarrillos acumulada acumulada
2 8 8 0,2 0,2
4 8 16 0,2 0,4
5 6 22 0,15 0,55
6 4 26 0,10 0,65
7 6 32 0,15 0,80
8 6 38 0,15 0,95
9 2 40 0,05 1
Totales 40 1

Tabla 1: Distribución de frecuencias del ‘Número de cigarillos fumados a diario’

La mediana del número de cigarrillos fumados a diario para la muestra dada de tamaño
n = 40 es Me = 5 cigarrillos.

3 Si disponemos de los datos en forma de una distribución de frecuencias con


marcas de clase como en la Tabla 8 del Tema 1, para el cálculo (aproximado) de
la mediana se procede como sigue:

Se construye la columna de las frecuencias (absolutas o relativas) acumuladas;


Deslizándose por esta columna, se identifica la primera frecuencia absoluta acu-
mulada (Ni∗ ) mayor o igual que n/2, o equivalentemente, la primera frecuencia
relativa acumulada (Fi∗ ) mayor o igual que 0,5.
Sean ai∗ y bi∗ los extremos inferior y superior, respectivamente, del intervalo
correspondiente a Ni∗ o Fi∗ . La mediana se calcula mediante la expressión:
n 1
2
− Ni∗ −1 2
− Fi∗ −1
Me = ai∗ + (bi∗ − ai∗ ) = ai∗ + (bi∗ − ai∗ )
ni∗ f i∗

Ejemplo 6. Se ha observado la albúmina total circulante (en gramos) de 50 hombres


normales comprendidos entre los 20 y los 30 años. Los datos se presentan en la Tabla 2.
6 Tema 2: Medidas numéricas para la descripción de datos

Albúmina total Fr. absoluta Fr. absoluta Fr. relativa Fr. relativa
circulante (en gramos) acumulada acumulada
(99,5, 109,5] 5 5 0,1 0,1
(109,5, 119,5] 10 15 0,2 0,3
(119,5, 129,5] 12 27 0,24 0,54
(129,5, 139,5] 11 38 0,22 0,76
(139,5, 149,5] 8 46 0,16 0,92
(149,5, 159,5] 4 50 0,08 1
Totales 50 1

Tabla 2: Distribución de frecuencias de ‘Albúmina total circulante (en gramos)’

Para calcular la mediana, puesto que n = 50 y por tanto n/2 = 25, entonces:
25 − 15
Me = 119,5 + (129,5 − 119,5) = 127,83 gramos.
12
O equivalentemente,
0, 5 − 0, 3
Me = 119,5 + (129,5 − 119,5) = 127,83 gramos.
0, 24

Obsérvese que la mediana es aquel valor respecto del cual se hace mı́nima la suma del
valor absoluto de las desviaciones,
n
X n
X n
X
Me = arg mı́n |xi − φ| ⇐⇒ |xi − Me | ≤ |xi − φ| ∀φ ∈ R.
φ∈R
i=1 i=1 i=1

Moda

La moda (absoluta) de un conjunto de valores observados es aquel valor/es que presenta/n


mayor frecuencia absoluta. La denotaremos por Mo . Si existen varios valores que presentan
la misma frecuencia máxima, entonces la variable se dice que es plurimodal. Dependiendo
de si tenemos en consideración toda la distribución o la acotamos a un rango determinado
de valores, hablaremos de moda absoluta o modas relativas. En ocasiones se definen modas
relativas como aquellos valores que tienen frecuencia absoluta mayor a la de los valores
adyacentes.
Cuando los datos vienen dados en forma puntual las modas se pueden obtener
fácilmente.
Ejemplo 7. Se ha observado el número de crı́as de 12 familias de una determinada
especie obteniendo los siguientes datos:
5 3 3 8 3 6 2 7 9 3 7 7.
Se pide calcular la moda de esta muestra. Para ello, ordenamos los datos en orden cre-
ciente:
2 3 3 3 3 5 6 7 7 7 8 9.
Observamos que la moda (absoluta) es Mo = 3, puesto que el 3 es el valor que más veces
se repite, concretamente cuatro veces. Además, el 7 es una moda relativa, puesto que su
frecuencia es tres, superior a la de los valores adyacentes 6 y 8, ambas iguales a uno.
Estadı́stica (Grado en Óptica) 7

Si las observaciones vienen agrupadas en intervalos hay que distinguir dos casos.

1 Intervalos de igual amplitud. En este caso se identifica el intervalo que contenga


mayor frecuencia (intervalo modal absoluto) y aquellos con frecuencia superior a la
de los intervalos adyacentes (intervalos modales relativos). Dentro de cada intervalo
modal con extremos ai∗ y bi∗ , la moda corresponde al valor:
ni∗ − ni∗ −1
Mo = ai∗ + (bi∗ − ai∗ )
2ni∗ − (ni∗ −1 + ni∗ +1 )
Ejemplo 8. Se ha observado el peso (en kilos) de 70 empleados de un hospital. Los datos
se presentan en la Tabla 3.
Peso Fr. absoluta Fr. absoluta
(en kilos) acumulada
[50, 60] 8 8
(60, 70] 15 23
(70, 80] 21 44
(80, 90] 18 62
(90, 100] 7 69
(100, 110] 1 70
Totales 70

Tabla 3: Distribución de frecuencias del peso (en kilos)

Para calcular la moda absoluta, observamos que todos los intervalos tienen la misma
amplitud (10) y que el intervalo modal absoluto es (70, 80]. Por lo tanto, la moda es:
21 − 15 6
Mo = 70 + · (80 − 70) = 70 + · 10 = 76,67 kilos.
2 · 21 − (15 + 18) 9

2 Intervalos de distinta amplitud. En este caso se procede de forma similar al an-


terior usando en lugar de las frecuencias de cada intervalo las alturas de histograma,
hi , que se definen como el cociente de las frecuencias absolutas entre las longitudes
de los intervalos, esto es:
ni
hi := , i = 1, . . . , k.
b i − ai

Veamos algunos ejemplos de cálculo de las medidas de posición central.


Ejemplo 9 (Ataques epilépticos). Se observaron durante 8 semanas a 20 pacientes con
epilepsia severa. A continuación aparecen el número de ataques epilépticos graves sufridos
por estos pacientes en el mencionado periodo de tiempo:
5 0 7 6 0 0 5 0 6 0
5 0 0 0 0 7 0 0 4 7
Se pide determinar la media, la mediana y la moda del número de ataques epilécticos.
I El “número de ataques epilépticos” es una variable cuantitativa discreta. Podemos
calcular la media de dos formas:
8 Tema 2: Medidas numéricas para la descripción de datos

Usando la fórmula (1), el número medio de ataques epilépticos es


n
1X 52
x= xi = = 2,6 ataques
n i=1 20

Usamos la fórmula (2) y la distribución de frecuencias, que viene dada por la tabla:
Para ello consideremos la siguiente tabla:
N. ataques Fr. absoluta Fr. absoluta Fr. relativa Fr. relativa
x
ei ni acumulada fi acumulada
0 11 11 0,55 0,55
4 1 12 0,05 0,60
5 3 15 0,15 0,75
6 2 17 0,10 0,85
7 3 20 0,15 1
Totales 20 1

Por lo tanto, el número medio de ataques es:


q
X
x= ei · fi = 0 · 0,55 + 4 · 0,05 + 5 · 0,15 + 6 · 0,10 + 7 · 0,15 = 2,6 ataques
x
i=1

Para calcular la mediana, como n = 20 es par, entonces


x(10) + x(11) 0+0
Me = = = 0 ataques.
2 2

Finalmente, la moda absoluta es Mo = 0 ataques, porque 0 es el valor más frecuente.

La media y la mediana habitualmente son similares, pero no siempre. Suelen diferir


cuando la distancia que hay entre las observaciones centrales y las menores es diferente
a la que hay entre las observaciones centrales y las mayores; esto puede ocurrir si hay
observaciones atı́picas o extremas (muy alejadas del centro) a la derecha pero no a la
izquierda, o al contrario. Por ejemplo, si la muestra es 3, 5, 6, 7, 9, entonces la media y
la mediana muestral coinciden y valen 6; pero si la muestra es 3, 5, 6, 7, 109, entonces la
media es 26, mientras que la mediana sigue siendo 6.
La media tiene la ventaja de que utiliza toda la información disponible sobre la va-
riable, y no sólo la información del centro; pero, por esa razón, quizá el resultado que se
obtenga con la media pueda no ser representativo del centro de la variable. Esto último
ocurre especialmente cuando hay observaciones atı́picas o extremas en la muestra; por
eso, en esos casos suele preferirse la mediana como medida central representativa.
Sin embargo, tradicionalmente la media ha sido una medida más utilizada que la
mediana por su facilidad matemática. La moda, en cambio, al indicar cuál es el valor más
frecuente de la distribución, no representa realmente cuál es el centro. Por esta razón, la
moda es menos utilizada que la media y la mediana.
El siguiente ejemplo pone de manifiesto esa sensibilidad que hemos comentado de la
media respecto a valores extremos en las observaciones.
Estadı́stica (Grado en Óptica) 9

Ejemplo 10. Se ha observado el número de pétalos de 6 flores de una determinada especie


en dos regiones A y B. Los datos obtenidos son los siguientes:
Muestra región A: 3 5 6 8 9 11
Muestra región B: 3 5 6 8 9 89
Se pide calcular el número medio de pétalos y la mediana del número de pétalos de las
dos muestras observadas.

3 + 5 + 6 + 8 + 9 + 11 42 6+8
xA = = = 7 pétalos; M eA = = 7 pétalos;
6 6 2
3 + 5 + 6 + 8 + 9 + 89 120 6+8
xB = = = 20 pétalos; M eB = = 7 pétalos;
6 6 2

Media
{3,5,6,8,9,11}

0 5 10 15 20 89

Mediana
{3,5,6,8,9,89}

0 5 10 15 20 89

Media

Ejemplo 11. Se observaron durante 8 semanas a 12 pacientes con epilepsia severa, 6


varones y 6 mujeres. A continuación aparecen el número de ataques epilépticos graves
sufridos por estos pacientes en el mencionado periodo de tiempo:
Muestra Varones: 0 0 0 10 10 10
Muestra Mujeres: 5 5 5 5 5 5
Calcular la media y la mediana del número de ataques de las dos muestras observadas.
10 Tema 2: Medidas numéricas para la descripción de datos

Cuantiles

Los cuantiles de orden s de un conjunto de valores observados en una muestra son aquellos
valores que dividen a la muestra ordenada en s partes con “el mismo”número de elementos.
Entre los cuantiles destacan los cuartiles, los deciles y los percentiles. Los cuartiles
dividen la muestra ordenada en cuatro partes iguales, los deciles en diez y los percentlies
en cien. Tendremos, por por lo tanto:

Tres cuartiles, que denotaremos por Q1 , Q2 , Q3 .


Nueve deciles, que denotaremos por D1 , D2 , . . . , D9 .
Noventa y nueve percentiles, que denotaremos por P1 , P2 , . . . , P99 .

Como consecuencia de estas definiciones se obtienen las siguientes relaciones:

Me = P50 = D5 = Q2 .
D1 = P10 , . . . , D9 = P90 .
Q1 = P25 y Q3 = P75 .

De entre los posibles cuantiles, los cuartiles son los más usados en la práctica. Los
tres cuartiles, Q1 , Q2 y Q3 , dividen la muestra ordenada en cuatro grupos y cada grupo
contiene “aproximadamente” el 25 % de datos de la muestra. En particular, para muestra
de gran tamaño, en muchos casos es correcto afirmar que:

El primer cuartil Q1 es el valor que satisface que: al menos el 25 % de los datos de


la variable observados en la muestra son menores o iguales a Q1 ; y al menos el 75 %
de los datos de la variable observados en la muestra son mayores o iguales a Q1 .
El segundo cuartil Q2 (que coincide con la mediana) es el valor que satisface que: al
menos el 50 % de los datos de la variable observados en la muestra son menores o
iguales a Q2 ; y al menos el 50 % de los datos de la variable observados en la muestra
son mayores o iguales a Q2 .
El tercer cuartil Q3 es el valor que satisface que: al menos el 75 % de los datos de
la variable observados en la muestra son menores o iguales a Q3 ; y al menos el 25 %
de los datos de la variable observados en la muestra son mayores o iguales a Q3 .

Si queremos dividir el conjunto de valores observados en una muestra ordenada en s


partes (s ∈ {4, 10, 100, . . .}), para el cálculo del r-ésimo cuantil (r ∈ {1, 2, . . . , s − 1}) de
orden s, que denotaremos por Cr/s , se procede de la forma siguiente:

1 Si los datos viene dados por extensión (x1 , . . . , xn ), entonces diremos que rs (n + 1)
es la posición del r-ésimo cuantil de orden s, y llamando m a la parte entera de
r
s
(n + 1), se define:
s−i i r i
Cr/s = x(m) + x(m+1) si m = (n + 1) + , i ∈ {0, 1, . . . , s − 1}.
s s s s
Estadı́stica (Grado en Óptica) 11

2 Si disponemos de los datos en forma de una distribución de frecuencias como


en la Tabla 6 del Tema 1, para el cálculo del r-ésimo cuantil de orden s se procede
como sigue:
Se construye la columna de las frecuencias (absolutas o relativas) acumuladas;
Deslizándose por esta columna, se identifica la primera frecuencia absoluta acu-
mulada (Ni∗ ) mayor o igual que rn/s, o equivalentemente, la primera frecuencia
relativa acumulada (Fi∗ ) mayor o igual que r/s.
rn
 Si Ni∗ > s
(ó Fi∗ > rs ), entonces Cr/s = x
ei∗ .
rn s−r r
 Si por el contrario Ni∗ = s
(ó Fi∗ = rs ), entonces Cr/s = x
ei∗ + xei∗ +1 .
s s
3 Si disponemos de los datos en forma de una distribución de frecuencias con
marcas de clase como en la Tabla 8 del Tema 1, para el cálculo (aproximado) del
r-ésimo cuantil de orden s se procede como sigue:
Se construye la columna de las frecuencias (absolutas o relativas) acumuladas;
Deslizándose por esta columna, se identifica la primera frecuencia absoluta acu-
mulada (Ni∗ ) mayor o igual que rn/s, o equivalentemente, la primera frecuencia
relativa acumulada (Fi∗ ) mayor o igual que r/s.
Sean ai∗ y bi∗ los extremos inferior y superior, respectivamente, del intervalo
correspondiente a Ni∗ o Fi∗ . El r-ésimo cuantil de orden s se calcula mediante
la expressión:
rn r
s
− Ni∗ −1 s
− Fi∗ −1
Cr/s = ai∗ + (bi∗ − ai∗ ) = ai∗ + (bi∗ − ai∗ ) (4)
ni∗ f i∗
Ejemplo 12. Los siguientes datos corresponden a la presión sistólica de la sangre (en
mm Hg) de siete hombres de mediana edad:
151 124 132 170 146 124 113
Calcular el primer y el tercer cuartil. Para ello, en primer lugar ordenamos las observa-
ciones en orden creciente:
113 124 124 132 146 151 170.

Usando la notación empleada, se tiene: n = 7, s = 4, r ∈ {1, 3}.


La posición del primer cuartil Q1 es 14 (n + 1) = 2 cuya parte entera es m = 2. Ası́,
2 = 2 + 04 tomando i = 0, y por lo tanto, Q1 = x(2) = 124 mm Hg. Interpretación: al
menos el 25 % de los hombres de la muestra tiene una presión sistólica menor o igual a
124 mm Hg; y al menos el 75 % de los hombres de la muestra tiene una presión sistólica
mayor o igual a 124 mm Hg.
La posición del tercer cuartil Q3 es 34 (n + 1) = 6 cuya parte entera es m = 6. Ası́,
6 = 6 + 04 tomando i = 0, y por lo tanto, Q3 = x(6) = 151 mm Hg. Interpretación: al
menos el 75 % de los hombres de la muestra tiene una presión sistólica menor o igual a
151 mm Hg; y al menos el 25 % de los hombres de la muestra tiene una presión sistólica
mayor o igual a 151 mm Hg.
12 Tema 2: Medidas numéricas para la descripción de datos

Ejemplo 13. Se ha observado el número de crı́as en 43 familias de una determinada


especie. Los datos se presentan en la Tabla 4. Calcular el primer y el tercer cuartil.

Número de Fr. absoluta Fr. absoluta Fr. relativa Fr. relativa


crı́as acumulada acumulada
[2, 3] 4 4 0,0930 0,0930
(3, 7] 6 10 0,1395 0,2325
(7,12] 12 22 0, 2791 0,5116
(12, 21] 8 30 0,1861 0,6977
(21,25] 6 36 0,1395 0,8372
(25, 30] 4 40 0,0930 0,9302
(30, 50] 3 43 0,0698 1
Totales 43 1

Tabla 4: Distribución de frecuencias del número de crı́as en 43 familias.

Usando la notación empleada, se tiene: n = 43, s = 4, r = {1, 3}.


El primer cuartil Q1 se encuentra en el intervalo (7, 12]. Aplicando la fórmula (4), se
tiene que:
1
4
43− 10 10,75 − 10 3,75
Q1 = 7 + (12 − 7) = 7 + (5) = 7 + = 7,3125 crı́as
12 12 12
Interpretación: al menos el 25 % de las familias observadas en la muestra tienen un núme-
ro de crı́as menor o igual a 7,3125 crı́as; y al menos el 75 % de las familias observadas
en la muestra tienen un número de crı́as mayor o igual a 7,3125 crı́as.
El tercer cuartil Q3 se encuentra en el intervalo (21, 25]. Aplicando la fórmula (4), se
tiene que:
3
4
43 − 30 32,25 − 30 9
Q3 = 21 + (25 − 21) = 21 + (4) = 21 + = 22,5 crı́as
6 6 6
Interpretación: al menos el 75 % de las familias observadas en la muestra tienen un núme-
ro de crı́as menor o igual a 22,5 crı́as; y al menos el 25 % de las familias observadas en
la muestra tienen un número de crı́as mayor o igual a 22,5 crı́as.

Ejemplo 14. Considere de nuevo la Tabla 1 del Ejemplo 5 referente a la variable número
de cigarrillos fumados a diario. Calcular e interpretar los tres cuartiles: Q1 ,Q2 y Q3 .
Estadı́stica (Grado en Óptica) 13

Número de Fr. absoluta Fr. absoluta Fr. relativa Fr. relativa


cigarrillos acumulada acumulada
2 8 8 0,2 0,2
4 8 16 0,2 0,4
5 6 22 0,15 0,55
6 4 26 0,10 0,65
7 6 32 0,15 0,80
8 6 38 0,15 0,95
9 2 40 0,05 1
Totales 40 1

1.2. Medidas de Dispersión

Las medidas de dispersión o medidas de variabilidad son coeficientes que indican el


nivel de concentración de los datos que se están analizando e informan sobre la bondad
de los promedios calculados como representantes del conjunto de datos.
En este apartado estudiaremos las medidas de dispersión más importantes:

Medidas de variabilidad basadas en la muestra ordenada: Rango; Rango Inter-


cuartı́lico.

Medidas de variabilidad basadas en las diferencias entre las observaciones y la media:


Varianza; Desviación Tı́pica; Desviación Absoluta; Coeficiente de Varia-
ción.

Rango

El rango (o recorrido) de un conjunto de valores observados en una muestra es la diferencia


entre el valor más grande y el más pequeño, y por lo tanto, es la longitud del menor
intervalo que contiene a todas las observaciones.

R := x(n) − x(1)

Obsérvese que el rango:

tiene la misma unidad de medida que la variable objeto de estudio;

es una medida de variabilidad que no tiene en cuenta como se distribuyen las ob-
servaciones dentro de su rango de variación (por esta razón, no es muy utilizada en
la práctica, a pesar de su sencillez);

es una medida que se ve muy afectada por observaciones atı́picas.

Ejemplo 15. Queremos analizar el tiempo (en horas) que cada semana dedican al estudio
los estudiantes de Óptica. Para ello hemos seleccionado una muestra de 13 estudiantes de
14 Tema 2: Medidas numéricas para la descripción de datos

Óptica, y les hemos preguntado el tiempo que dedicaron al estudio en la última semana.
Los resultados han sido:

24 15 23 27 34 21 20 10 21 18 23 21 29

Se pide calcular el rango de la muestra.


Una vez reordenamos de forma creciente la muestra,

10 15 18 20 21 21 21 23 23 24 27 29 34

observamos que n = 13, x(1) = 10 y x(13) = 34, por lo que el rango de la muestra es:

R = x(13) − x(1) = 34 − 10 = 24 horas.

Interpretación: la diferencia en el tiempo de estudio semanal entre el que más estudia y


el que menos estudia, de entre los estudiantes de la muestra, es de 24 horas.

Rango intercuartı́lico

El rango intercuartı́lico (o recorrido intercuartı́lico) de un conjunto de valores observados


en una muestra es la diferencia entre el tercer cuartil y el primer cuartil, es decir,

RIQ = Q3 − Q1

Obsérvese que el rango intercuartı́lico:

indica la longitud del intervalo que contiene aproximadamente al 50 % de observa-


ciones centrales;

tiene la misma unidad de medida que la variable objeto de estudio;

es una medida de variabilidad central: un valor pequeño de RIQ indica que todas
las observaciones centrales están muy concentradas (poca variabilidad en el centro),
mientras que un valor grande indica lo contrario;

no se ve afectado por la presencia de observaciones atı́picas o extremas, pues éstas


no afectan a los cuartiles al ser escasas.
Ejemplo 16. Calcular el rango intercuartı́lico para los datos del ejercicio anterior.
Recuperamos la muestra ordenada de forma creciente,

10 15 18 20 21 21 21 23 23 24 27 29 34

y a continuación calculamos el primer y el tercer cuartil.


La posición del primer cuartil Q1 es 41 (n + 1) = 14 (13 + 1) = 3,5 cuya parte entera es
m = 3. Ası́, 3,5 = 3 + 42 tomando i = 2, y por lo tanto,
4−2 2 1 1
Q1 = x(3) + x(4) = (x(3) + x(4) ) = (18 + 20) = 19 horas
4 4 2 2
Estadı́stica (Grado en Óptica) 15

Interpretación: al menos el 25 % de los estudiantes de la muestra estudian 19 horas o


menos; y al menos el 75 % de los estudiantes de la muestra estudian 19 horas o más.
La posición del tercer cuartil Q3 es 34 (n + 1) = 34 (13 + 1) = 10,5 cuya parte entera es
m = 10. Ası́, 10,5 = 10 + 42 tomando i = 2, y por lo tanto,

4−2 2 1 1
Q3 = x(9) + x(10) = (x(10) + x(11) ) = (24 + 27) = 25,5 horas
4 4 4 2
Interpretación: al menos el 75 % de los estudiantes de la muestra estudian 25,5 horas o
menos; y al menos el 75 % de los estudiantes de la muestra estudian 25,5 horas o más.
Por lo tanto, RIQ = Q3 − Q1 = 25,5 − 19 = 6,5 horas. Interpretación: en un inter-
valo de longitud 6,5 horas están concentradas aproximadamente el 50 % de observaciones
centrales de la muestra.

Varianza y desviación tı́pica

La varianza y su raı́z positiva, la desviación tı́pica, son las medidas de dispersión más
importantes, estando éstas ı́ntimamente ligadas a la media como medida de representación
del conjunto de datos. La varianza de un conjunto de valores observados en una muestra,
y que denotaremos por s2x , se define como la suma de los cuadrados de las diferencias de
cada valor xi respecto de la media, dividida por el tamaño muestral. Esto es:
n
1X
s2x := (xi − x)2 (5)
n i=1

Obsérvese que la varianza:

es siempre mayor o igual que cero;

informa sobre la bondad de la media como representante del conjunto de datos:


(1) si s2x es pequeña (comparativamente) es porque todas las desviaciones a la media
son, en valor absoluto, pequeñas, lo que indica que todas las observaciones están
cerca de la media, es decir, hay poca variabilidad, mejor representa la media al
conjunto de datos;
(2) si s2x es grande (comparativamente) es porque algunas desviaciones a la media
son, en valor absoluto, grandes, lo que indica que algunas observaciones están ale-
jadas de la media, es decir, hay mucha variabilidad, y peor representa la media al
conjunto de datos.

vale cero sólo en el caso de que todos los valores de la variable en la muestra sean
iguales. En este caso, todos los valores coincidirán con la media aritmética y la media
representará perfectamente al conjunto de datos;

Si en lugar de dividir por n se divide por n − 1 en la definición de varianza muestral


en (5), se obtiene entonces la cuasivarianza muestral. Se considerará este otro concepto
16 Tema 2: Medidas numéricas para la descripción de datos

cuando busquemos una mejor aproximación de la varianza poblacional en el bloque de


inferencia estadı́stica.
La unidad de medida de la varianza es el cuadrado de la unidad de medida de la
variable. Una medida de dispersión equivalente a la varianza pero dada en la misma
unidad de medida de la variable es la desviación tı́pica, que denotaremos por sx y que
se define como la raı́z positiva de la varianza,
p
sx := s2x .
Ejemplo 17. Los siguientes datos corresponden a la elongación del tallo (en mm) de
cinco plantas durante una semana en el banco de un inverdadero:
76 72 65 70 82
Se pide calcular la varianza y la desviación tı́pica de la elongación del tallo de esta muestra.
Elongación tallo Diferencia Cuadrado de la diferencia
xi xi − x (xi − x)2
65 −8 64
70 −3 9
72 −1 1
76 3 9
82 9 81
n n n
(xi − x)2 = 164
P P P
xi = 365 (xi − x) = 0
i=1 i=1 i=1

Tabla 5: Cálculos para obtener la varianza

El tamaño muestral es n = 5, y la media muestral es x = n1 ni=1 xi = 365


P
5
= 73 mm.
2
Para el cálculo de sx y sx consideremos la Tabla 5, de donde se sigue que la varianza de
la elongación del tallo, para la muestra dada, es:
n
1X 164
s2x = (xi − x)2 = = 32,8 mm2 .
n i=1 5

En consecuencia, la desviación tı́pica es:


p p
sx = s2x = 32,8 = 5,727 mm.

Si disponemos de los datos en forma de una distribución de frecuencias del tipo


de la Tabla 6 del Tema 1, una fórmula equivalente para el cálculo de la varianza es la
siguiente:
k
X
s2x = xi − x)2
fi · (e (6)
i=1

Ejemplo 18. Considere de nuevo la Tabla 1 del Ejemplo 5. Calcular la varianza y la


desviación tı́pica de la variable “número de cigarrillos fumados a diario”.
k
P
El tamaño muestral es n = 40, y la media muestral es x = fi · xi = 5,25 cigarrillos.
i=1
Para calcular la varianza, de acuerdo con (6) y siguiendo la Tabla 6 se tiene que s2x =
Estadı́stica (Grado en Óptica) 17

N. cigarrillos Fr. abs. Fr. rel. Diferencia Cuadrado


x
ei ni fi fi · x
ei ei − x
x xi − x)2
(e xi − x)2 · fi
(e
2 8 0,2 0,4 −3,25 10,5625 2,1125
4 8 0,2 0,8 −1,25 1,5625 0,3125
5 6 0,15 0,75 −0,25 0,0625 0, 009375
6 4 0,10 0,60 0,75 0,5625 0, 05625
7 6 0,15 1,05 1,75 3,0625 0, 459375
8 6 0,15 1,20 2,75 7,5625 1, 134375
9 2 0,05 0,45 3,75 14,0625 0, 703125
Totales 40 1 x = 5,25 2
sx = 4, 7875

Tabla 6: Cálculos para obtener la media y la varianza

k
xi − x)2 = 4, 7875 cigarrillos2 . La desviación tı́pica de la variable “número de
P
fi · (e
i=1 p
cigarrillos fumados a diario” es sx = s2x = 2,188 cigarrillos.

Si disponemos de los datos en forma de una distribución de frecuencias con mar-


cas de clase del tipo de la Tabla 8 del Tema 1, una expresión para el cálculo de la
varianza (en realidad, una aproximación de la varianza) es la siguiente:
k k
1X X
s2x = ni · (ci − x)2 = fi · (ci − x)2 (7)
n i=1 i=1

Se puede demostrar que:

si se multiplican los valores muestrales de una variable X por una constante b y se


le suma una constante a, se tiene una nueva variable Y = a + bX con varianza igual
a b2 por la varianza de X, esto es,

Y = a + bX =⇒ s2y = b2 s2x ; sy = |b|sx

n n
(xi − x)2 = x2i − nx2 , de donde una fórmula alternativa a (5) para el cálculo
P P
i=1 i=1
de la varianza es: !
n
1X 2
s2x = x − x2
n i=1 i

Desviación absoluta

La desviación absoluta (o desviación media absoluta) respecto a la media (Dm ) de un


conjunto de valores observados en una muestra es la suma de las diferencias, en términos
absolutos, de cada valor de la muestra xi respecto de la media, dividido por el tamaño
muestral. n
1X
Dm = |xi − x| (8)
n i=1
18 Tema 2: Medidas numéricas para la descripción de datos

Alternativamente, también puede considerarse la desviación absoluta con respecto a la


mediana.
Ejemplo 19. En el Ejemplo 17, los datos correspondientes a la elongación del tallo (en
mm) de cinco plantas durante una semana en el banco de un inverdadero eran:
76 72 65 70 82
Se pide calcular la desviación absoluta respecto a la media.
Se ha visto en el Ejemplo 17 que la elongación media de los tallos de la muestra es
x = 73 mm. Para el cálculo de la desviación absoluta Dm consideremos la Tabla 7, de
donde se obtiene que
n
1X 24
Dm = |xi − x| = = 4,8 mm.
n i=1 5
Interpretación: la distancia media entre cada observación de la muestra y la elongación
media de los tallos de la muestra es de 4,8 mm.
Elongación tallo Diferencia Valor absoluto
xi xi − x |xi − x|
65 −8 8
70 −3 3
72 −1 1
76 3 3
82 9 9
n
P
Totales |xi − x| = 24
i=1

Tabla 7: Cálculos para obtener la desviación absoluta

Obsérvese que todas las medidas de dispersión que se han ilustrado hasta ahora de-
penden de las unidades de medidas de la variable estadı́stica objeto de estudio. Esto
implica que:

1. En su interpretación, se debe de tener en cuenta la unidad de medida.


2. No es posible comparar, como consecuencia del punto anterior, la dispersión de
variables expresadas en diferentes unidades de medida (como por ejemplo, peso y
altura).
Ejemplo 20. Se ha observado el peso (en Kg) de 5 varones adultos y el peso de 5 niños
de 2 meses. Los datos son:
Muestra Adultos (A): 88 88,5 89 89,5 90
Muestra Niños (B): 4 4,5 5 5,5 6
Las medias de las dos muestras son xA = 89 Kg y xB = 5 Kg. Las desviaciones tı́picas de
las dos muestras coinciden:
s(A)
x = s(B)
x = 0,707 Kg,
sin embargo, la dispersión del peso en la muestra de los adultos es inferior a la dispersión
del peso en la muestra de los niños.
Estadı́stica (Grado en Óptica) 19

Si se desea trabajar con una medida de dispersión que no dependa de la unidad de


medida de las correspondientes variables estadı́sticas y permita comparar la dispersión
de variables con distintas magnitudes y distintas escalas (evitando las situaciones del
tipo ilustrado en el ejemplo anterior) se puede utilizar el coeficiente de variación que se
describe a continuación.

Coeficiente de Variación

El coeficiente de variación de un conjunto de valores observados en una muestra, CV , se


define como el cociente entre la desviación tı́pica y el valor absoluto de la media.
sx
CV =
|x|
El coeficiente de variación:

no está definido cuando x = 0;


es una medida abstracta o adimensional, no posee unidades;
mide variabilidad respecto a la media, por ello suele utilizarse para comparar varia-
bilidad entre dos (o más) grupos de observaciones con muy distinto valor medio.
es invariable frente a cambios de escala en la variable;
además de permitir la comparación de la dispersión de variables con distintas mag-
nitudes (o escala), proporciona información sobre el grado de representatividad de
la media.
en ocasiones se expresa en porcentaje, multiplicando el cociente obtenido por 100,
y en ese caso lo que indica es variabilidad porcentual respecto a la media.
CV = c implica que la desviación tipica es c veces la media de los datos.
Ejemplo 21. En el Ejemplo 20, donde se habı́a observado el peso (en Kg) de 5 varones
adultos y de 5 niños de dos meses, los coeficientes de variación de las dos muestras son:
(A) (B)
(A) sx 0,707 (B) sx 0,707
CV = = = 0,008 < CV = = = 0,141
xA 89 xB 5
Usando el coeficiente de variación se puede (correctamente) deducir que la dispersión del
peso en la muestra de los adultos es muy inferior a la dispersión del peso en la muestra
de los niños de dos meses.

1.3. Medidas de Forma

Para un conjunto de datos relativos a una variable cuantitativa unidimensional, además


de las medidas descriptivas de posición y dispersión ilustradas a lo largo del tema, es
posible calcular también unos coeficientes que proporcionan información sobre algunas
caracterı́sticas de la forma de la distribución de la variable. Las medidas de forma más
importantes son:
20 Tema 2: Medidas numéricas para la descripción de datos

Medidas de asimetrı́a: Una distribución es simétrica si la mitad izquierda de su


distribución es la imagen especular de su mitad derecha.
La simetrı́a de una distribución de frecuencias hace referencia al grado en que valores
de la variable, equidistantes a un valor que se considere centro de la distribución,
poseen frecuencias similares
Es un concepto más intuitivo a nivel visual, especialmente, si se observa una repre-
sentación gráfica (diagrama de barras, histograma...) de la distribución de frecuen-
cias, aunque existen diversos coeficientes para medir la asimetrı́a.
En las distribuciones simétricas, media y mediana coinciden. Si sólo hay una moda
también coincide con la media.

Medidas de apuntamiento: Las medidas de apuntamiento (o curtosis) nos indi-


can el grado de apuntamiento (o aplastamiento) de una distribución con respecto a
la distribución normal o gaussiana.
El apuntamiento expresa el grado en que una distribución acumula casos en sus colas
en comparación con los casos acumulados en las colas de una distribución normal
cuya dispersión sea equivalente.

2. Representaciones gráficas

La información contenida en una tabla de frecuencias unidimensional, o proporcionada


por el conjunto de las medidas descriptivas ilustradas en los apartados anteriores puede ser
visualizada de una forma simple e intuitiva con una serie de gráficas. Las más utilizadas,
clasificadas por tipo de datos, son:

Gráficos para describir variables discretas y categóricas:


Diagramas de sectores; Diagramas de barras.

Gráficos para describir variables continuas:


Histogramas; Polı́gonos de frecuencias acumuladas; Diagramas de caja.

2.1. Gráficos para describir variables discretas y categóricas

Supongamos que tenemos un conjunto de observaciones de una variable categórica o


numérica discreta. Una vez obtenida la distribución de frecuencias, podemos visualizar
conjuntamente todas las frecuencias utilizando un diagrama de sectores y un diagrama de
barras.
Un diagrama de sectores no es más que un cı́rculo en el que se reparten los 360 gra-
dos entre las diferentes categorı́as de modo proporcional a su frecuencia relativa, es decir,
si la frecuencia relativa de la categorı́a i-ésima es fi , entonces los grados que corresponden
al sector circular de esa categorı́a son 360 · fi grados. Este tipo de gráficos se utilizan
cuando hay pocos valores que representar (usualmente no más de 7). Obsérvese que un
Estadı́stica (Grado en Óptica) 21

diagrama de sectores no aporta información nueva, simplemente se utiliza para poder


visualizar rápidamente la información contenida en la tabla de frecuencias observadas.

Ejemplo 22. En una encuesta, se ha preguntado a una muestra de 112 estudiantes uni-
versitarios en qué medida consideraban saludable su estilo de vida. Las respuestas po-
sibles eran: muy saludable/bastante saludable/poco saludable/nada saludable. De los 112
estudiantes, 28 contestaron que su estilo de vida era muy saludable, 55 que era bastante
saludable, 20 que era poco saludable y 9 que no era nada saludable. Estos resultados se
presentan en la Tabla 8.

Estilo de vida Fr. absoluta Fr. relativa


ni fi
Muy saludable 28 0,250
Bastante saludable 55 0,491
Poco saludable 20 0,179
Nada saludable 9 0,080
Totales 112 1

Tabla 8: Distribución de frecuencias de la variable ‘estilo de vida’

El diagrama de sectores correspondiente a estos datos, donde también se indican las


frecuencias relativas de cada categorı́a, en porcentaje, es el siguiente:

Otro modo de visualizar las frecuencias es utilizando un diagrama de barras, que no


es más que un gráfico con barras verticales, en el que cada barra representa una categorı́a,
y la altura de cada barra es la frecuencia (absoluta o relativa) de la categorı́a corres-
pondiente. Al igual que el diagrama de sectores, el diagrama de barras tampoco aporta
información nueva, sino que simplemente permite visualizar rápidamente la información
contenida en la tabla de frecuencias observadas. Los diagramas de barras permiten utilizar
22 Tema 2: Medidas numéricas para la descripción de datos

mayor número de valores que los gráficos de sectores. Son más versátiles que los gráficos
de sectores y al igual que con éstos también se pueden conseguir efectos especiales como
3D, giros e iluminaciones.
En ocasiones, el diagrama de barras se presenta ordenando las categorı́as de más
frecuente a menos frecuente. Este tipo de diagrama de barras recibe el nombre de diagrama
de Pareto, y se utiliza para ver si las frecuencias decrecen lentamente o rápidamente. Para
construir un diagrama de barras:

Sobre un eje horizontal se representan los distintos valores/modalidades de una


variable discreta o categórica, y sobre cada valor se levanta un rectángulo vertical
cuya base está separada de las contiguas.

En un eje de escala vertical se representa una caracterı́stica numérica de la variable


(frecuencia absoluta, frecuencia relativa o porcentaje).

Ejemplo 23. La tabla de frecuencias para la variable Tipo de tratamiento que vimos en
el Ejemplo 1 de Tema 1 es la siguiente:

Tipo de Tratamiento Fr. absoluta Fr. relativa


A 22 0,3667
B 13 0,2167
C 25 0,4166
Totales 60 1

Tabla 9: Distribución de frecuencias para la variable “Tipo de tratamiento”

Vamos a construir un diagrama de sectores y un diagrama de barras.

Como ejercicio, representa gráficamente el diagrama de Pareto para los datos de la


variable ‘estilo de vida’ del Ejemplo 22.
Estadı́stica (Grado en Óptica) 23

2.2. Gráficos para describir variables cuantitativas continuas

Cuando observamos una variable numérica continua, siempre habrá muchos resultados
diferentes en la muestra. En este caso, para realizar gráficos que permitan visualizar
cómo se distribuyen las observaciones es necesario comenzar agrupándolas, como ya vimos
cuando estudiamos las distribuciones de frecuencias para las variables continuas. Vamos
a ver los tres tipos de gráficos más utilizados: el histograma, el polı́gono de frecuencias
acumuladas, y el diagrama de caja.
Una vez agrupadas las observaciones en clases, el histograma se obtiene simplemente
representando barras verticales sobre los intervalos considerados como clases, siendo la
altura de cada barra la frecuencia. El histograma sirve para visualizar cómo se distribuyen
las observaciones en el intervalo de variación de la variable. Este gráfico permite dar
respuesta, de modo intuitivo, a preguntas como: ¿hay mayor proporción de observaciones
en la zona central o en los extremos?, ¿se reparten las observaciones de modo simétrico
respecto al centro?
Los histogramas son parecidos en forma a los diagramas de barras, pero su uso se
restringe únicamente a las variables continuas: los histogramas representan frecuencias
agrupadas de una variable continua sobre intervalos. A diferencia de los diagramas de
barras, los histogramas dibujan rectángulos unidos entre sı́, lo que significa que existe
una continuidad en la variable cuyos valores se representan en el eje horizontal. Este eje
horizontal se halla dividido en intervalos (usualmente de igual amplitud) sobre los que se
elevan rectángulos de altura proporcional a su frecuencia. Por lo tanto, las áreas de los
rectángulos son proporcionales a las frecuencias que representan. En particular:

Si todos los intervalos tienen la misma amplitud, entonces los rectángulos tendrán la
misma base y sólo se diferenciarán en la altura, que es proporcional a la frecuencia
del intervalo.
Si se usan intervalos de distinta amplitud, entonces la altura de cada intervalo se
f recuencia
obtiene de acuerdo con la fórmula: altura = .
amplitud

Al observar la distribución de las observaciones con un histograma, hay dos casos


que reciben un nombre especial:

Un histograma aproximadamente horizontal indica que las frecuencias son todas


similares, es decir, que todas las observaciones se reparten uniformemente entre las
diferentes clases; por esta razón, en este caso se dice que el histograma muestra
aproximadamente una distribución uniforme.
El histograma más frecuente es el que muestra una mayor proporción de observa-
ciones en el centro, y un decrecimiento rápido y simétrico a derecha e izquierda
del centro; en este caso se dice que el histograma muestra aproximadamente una
distribución normal.
Ejemplo 24. Un supervisor ha observado el tiempo (en segundos) que tardan 40 em-
pleados en ejecutar una determinada tarea. La Tabla 10 resume la información sobre la
muestra de los 40 tiempos observados. Se obtiene el histograma:
24 Tema 2: Medidas numéricas para la descripción de datos

Tiempo de Marca Fr. absoluta Fr. absoluta Fr. relativa Fr. relativa
ejecución de clase acumulada acumulada
[222, 234] 228 4 4 0,100 0,100
(234, 246] 240 7 11 0,175 0,275
(246, 258] 252 10 21 0,250 0,525
(258, 270] 264 13 34 0,325 0,850
(270, 282] 276 4 38 0,100 0,950
(282, 294] 288 2 40 0,050 1,000
Total 40 1

Tabla 10: Distribución de frecuencias para la variable ‘Presión sistólica’

Examinando el histograma obtenido se observa que: (1) hay una mayor proporción de
observaciones en el centro que en los extremos, lo que nos lleva a pensar que estas obser-
vaciones no tienen una distribución uniforme; (2) el decrecimiento a derecha e izquierda
del centro no es similar, por lo que no hay simetrı́a, y esto nos lleva a pensar que estas
observaciones no tienen una distribución normal.

Ejemplo 25. La distribución de frecuencias para la variable ‘Presión sistólica’ del Ejem-
plo 1 del Tema 1 viene en la Tabla 11. Representar el histograma correspondiente.

Presión Marca Fr. absoluta Fr. absoluta Fr. relativa Fr. relativa
sistólica de clase acumulada acumulada
[140,60, 143,26) 141,93 13 13 0,2167 0,2167
[143,26, 145,92) 144,59 6 19 0,1000 0,3167
[145,92, 148,58) 147,25 16 35 0,2666 0,5833
[148,58, 151,24) 149,91 12 47 0,2000 0,7833
[151,24, 153,90] 152,27 13 60 0,2167 1,0000
Total 60 1

Tabla 11: Distribución de frecuencias para la variable ‘Presión sistólica’


Estadı́stica (Grado en Óptica) 25

Una desventaja del histograma es que la gráfica de un histograma puede ser muy
distinta para los mismos datos, simplemente variando el número de clases, por lo que la
elección del número de clases (no hay un método universal para ello) debe hacerse con
cuidado porque puede condicionar los resultados obtenidos.

Otro gráfico que se utiliza para describir cómo se distribuyen las observaciones de una
variable continua es el llamado polı́gono de frecuencias acumuladas. Se llama ası́ a la
lı́nea poligonal que une los puntos (c0 , 0), (c1 , F1 ), . . ., (ck , Fk ), siendo c0 el extremo inferior
de la primera clase, c1 , . . ., ck los extremos superiores de las clases 1, . . . , k, y F1 , . . . , Fk
las frecuencias relativas acumuladas de las clases 1, . . . , k. Este polı́gono también recibe
el nombre de ojiva.

Teniendo en cuenta la definición dada, al representar este polı́gono debemos consi-


derar en el eje vertical los valores de 0 a 1 (o de 0 a 100 si se expresa en porcentaje).
Obsérvese, además, que este polı́gono siempre es creciente.

Obsérvese que el polı́gono de frecuencias acumuladas nos permite saber, para un x


dado, aproximadamente la proporción de observaciones de la muestra que son iguales
o inferiores a ese x; para ello, basta con mirar cuál es el valor que corresponde en el
eje vertical al valor x del eje horizontal.

Este polı́gono también nos permite ver dónde hay una mayor proporción de ob-
servaciones: en las zonas en donde los segmentos correspondientes tengan mayor
pendiente (porque ahı́ es donde hay más crecimiento de la frecuencia acumulada
relativa).

Ejemplo 26. Para los datos del Ejemplo 24, el polı́gono de frecuencias acumuladas es:
✬ Tema 2: Medidas numéricas para la descripción de datos ✩
Tema 1. Sı́ntesis de datos unideminesionales 125
26

Caso extremos: valores alejados más de 3


longitudes de caja del tercer cuartil *
Caso atípico: valores alejados más de 1.5
longitudes de caja del tercer cuartil

Valor más grande que no


llega a ser atípico

Tercer cuartil
(3ª bisagra de Tukey) ½ La caja contiene el
° 50% de los valores
Mediana ¾ centrales de la
°
Primer cuartil ¿ muestra ordenada

(1ª bisagra de Tukey)

Valor más pequeño que no


llega a ser atípico

Caso atípico: valores alejados más de 1.5


longitudes de caja del primer cuartil

Caso extremos: valores alejados más de 3


longitudes de caja del primer cuartil *
Figura 1: Interpretación del diagrama de caja en SPSS
✫ ✪
Los diagramas de caja (también conocidos como diagramas de caja y bigotes) son
representaciones gráficas sencillas que no necesitan un número elevado de valores para su
construcción. Se utilizan para estudiar tanto la dispersión como la posición y la forma de
una distribución. Además, son especialmente útiles para comparar distintas muestras (o
distintos subgrupos de una misma muestra).
Un diagrama de caja, en general, consiste en: (1) un rectángulo (o caja) cuya longitud
es el rango intercuartı́lico dividido por un segmento a la altura de la mediana; (2) dos
segmentos que parten de los extremos del rectángulo cuya longitud no supera 1,5 veces el
recorrido intercuartı́lico y que intentan alcanzar los valores mı́nimo y máximo observados
(ver Figura 1).
Los distintos paquetes estadı́sticos construyen el diagrama de caja de forma ligeramen-
te distinta. Por ello es recomendable consultar el manual del paquete estadı́stico utilizado
para poder interpretar correctamente el diagrama de caja.
Veamos con un ejemplo la interpretación de un diagrama de caja.
Ejemplo 27. En un estudio sobre angina de pecho en ratas, se dividió aleatoriamente
a 100 animales afectados en dos grupos de 50 individuos cada uno. A un grupo se le
suministró un placebo y al otro un fármaco experimental FL113. Después de un ejercicio
controlado sobre una “cinta sin fin”, se determinó el tiempo de recuperación de cada
rata. A continuación se muestran los diagramas de caja para la variable “Tiempo de
recuperación (en segundos)” en las dos muestras.

(a) Describir las dos muestras utilizando la información proporcionada por los diagra-
mas de caja en la Figura 2.
placebo y al otro un fármaco experimental FL113. Después de un ejercicio controlado
sobre una “cinta sin fin”, se determinó el tiempo de recuperación de cada rata. A
continuación se muestran los diagramas de caja para la variable “Tiempo de
recuperación
Estadı́stica (Grado en(enÓptica)
segundos)” en las dos muestras. 27

500
400
300
200

Placebo FL113

Figura 2: Diagramas de caja para la variable ‘Tiempo de recuperación’ (en segundos) para
las muestrasFigura
de ratas tratadasdecon
1: Diagramas cajaplacebo y con FL113
para la variable “Tiempo de recuperación” (en
segundos) para las muestras de ratas tratadas con placebo y con FL113.
I a) Describir las dos muestras utilizando la información proporcionada por los
diagramas de caja en figura 1.
b) ¿Los datos sugieren alguna diferencia entre el tiempo de recuperación de los
ratones tratados con placebo y aquellos tratados con FL113? Argumentar la
respuesta utilizando las medidas descriptivas que se pueden identificar a partir
de los diagramas de caja en figura 1.
28 Tema 2: Medidas numéricas para la descripción de datos

(b) ¿Sugieren los datos alguna diferencia entre el tiempo de recuperación de los ratones
tratados con placebo y aquellos tratados con FL113? Argumentar la respuesta utili-
zando las medidas descriptivas que se pueden identificar a partir de los diagramas
de caja en la Figura 2.

I El diagrama de caja sugiere que:

(1) Las ratas que toman el FL113 tienden a tener un tiempo de recuperación menor que
el de las ratas que toman el placebo-
(2) El tiempo de recuperación es más homogéneo en las ratas que toman el FL113 que en
las ratas que toman el placebo (es decir, el tiempo de recuperación presenta mayor
variabilidad en las ratas que toman el placebo respecto a las ratas que toman el
FL113).

Con respecto a (1): Todas las ratas en el estudio que toman el FL113 tienen un tiempo
de recuperación inferior a los 410 segundos mientras que al menos el 25 % de las ratas
que toman el placebo tiene un tiempo de recuperación superior a 410 (entre 410 y 550
segundos).
Además, si se excluye la rata de la muestra FL113 que tiene un tiempo de recuperación
inusualmente alto, el resto de la muestra FL113 (es decir el 98 % de las 50 ratas que toman
el FL113) tiene un tiempo de recuperación menor o igual que 370 segundos mientras que
al menos el 50 % de la muestra placebo tiene un tiempo de recuperación mayor o igual que
380 segundos (entre 380 y 550).
En la misma lı́nea, podemos afirmar que al menos el 75 % de las ratas en el estudio
que toman placebo tiene un tiempo de recuperación mayor o igual que 315 segundos (entre
315 y 550) mientras que: al menos el 75 % de las 50 ratas que toman el FL113 tienen un
tiempo de recuperación menor o igual que 310 (entre 200 y 310); y al menos un 50 % de
las 50 ratas que toman el FL113 tienen un tiempo de recuperación menor o igual que 280
(entre 200 y 280).
Por último, si se excluye la rata de la muestra placebo que tiene un tiempo de recupe-
ración inusualmente bajo, el resto de la muestra placebo (es decir el 98 % de las 50 ratas
que toman el placebo) tiene un tiempo de recuperación mayor o igual que a 250 segun-
dos mientras que al menos el 25 % de la muestra que toma el FL113 tiene un tiempo de
recuperación menor o igual que 250 segundos (entre 200 y 250).
Con respecto a (2): El tiempo de recuperación (en segundos) en la muestra de ratas
que toman el FL113 toma valores en el intervalo [200,410] cuya longitud (210) es aproxi-
madamente la mitad de la longitud del correspondiente intervalo para la muestra placebo
(cuyo tiempo de recuperación varı́a en el intervalo [150,550]). La misma proporción se
mantiene si calculamos el intervalo de valores que toma el tiempo de recuperación en las
dos muestras excluyendo en cada una de ellas los valores atı́picos o el 50 % de todos los
valores que corresponden a las observaciones más extremas (es decir, el 25 % de todas las
observaciones que en la muestra ordenada corresponden a las observaciones más gran-
des y el 25 % de todas las observaciones que en la muestra ordenada corresponden a las
observaciones más pequeñas).
Estadı́stica (Grado en Óptica) 29

En particular, excluyendo los casos atı́picos, el tiempo de recuperación (en segundos)


en la muestra placebo y en la muestra FL113 toma valores en los intervalos [250, 550] y
[200, 370] (cuyas amplitudes son 300 y 170) respectivamente. Excluyendo el 50 % de todos
los valores que corresponden en cada muestra a las observaciones más extremas el tiempo
de recuperación (en segundos) en la muestra placebo y en la muestra FL113 toma valores
en los intervalos [315, 410] y [280, 310] (cuyas amplitudes son 95 y 40) respectivamente.

A modo de conclusión para esta sección, señalar que, como norma general, las repre-
sentaciones gráficas deben verificar las siguientes condiciones:

1. Deben indicar claramente las escalas y las unidades de medida.

2. Deben explicarse por sı́ solas, evitando ası́ que el lector deba acudir al texto pa-
ra comprender la representación o lo que se está representando. De ahı́ que sea
fundamental que tengan un tı́tulo totalmente explicativo.

3. Deben contribuir a clarificar el material presentado. Una gráfica de oscura interpre-


tación está en contra del principio simplificador que sustenta a las representaciones
gráficas.

También podría gustarte