Está en la página 1de 51

Tablas estadísticas y gráficos para variables cuantitativas unidimensionales - 1

DESCRIPCIÓN DE VARIABLES
CUANTITATIVAS
UNIVARIANTES

1. TABLAS ESTADÍSTICAS Y GRÁFICOS PARA


VARIABLES CUANTITATIVAS UNIDIMENSIONALES

1.1. TABLAS DE FRECUENCIAS PARA VARIABLES DISCRETAS

Consideremos una variable estadística discreta X. A los valores que puede tomar les
denominamos xi. Si hemos tomado una muestra de tamaño n, tendremos n
observaciones que ordenadas de menor a mayor serán

x1  x2  x3 ...... xn

Una observación xi se puede repetir varias veces: al número de veces ni que se repite la
observación xi se denomina frecuencia absoluta correspondiente al valor xi. Entonces,
si hemos observado exactamente k valores distintos x1  x2   xk , podemos construir
la distribución o tabla de frecuencias absolutas que asocie a cada valor observado
su frecuencia absoluta {( xi, ni)}.

xi ni
(valor observado) (frecuencia absoluta)
x1 n1
x2 n2
..... .....
xk nk

Evidentemente, n1  n2  . . . .  nk  nk
i1
i n

Para que ni tenga significado ha de venir siempre acompañado del tamaño muestral n.
Para evitar esta continua referencia es mejor trabajar con la frecuencia relativa (fi ) de
xi que representa la proporción, sobre el total, del número de veces que se ha observado
xi , es decir,
n
frecuencia relativa de x  f  i
i i
n
2 - Tablas estadísticas y gráficos para variables cuantitativas

ni
f 
k k
Claramente, f1  f2 ........ fk  1. Además, 0  f  1.
i
n

i1

i1

Se define la frecuencia absoluta acumulada (Ni ) del valor xi como el número de


observaciones menores o iguales que xi , es decir, como la suma de las frecuencias
absolutas de todos los valores menores o iguales que xi :

Ni  n1  n2 ......... ni  i nh
h1

(suponiendo que todos los valores están ordenados en forma ascendente).

Ahora se tiene que: N1  N2  N3  . . . .  Nk  n y 0  Ni  n .

Finalmente, también podremos hablar de la frecuencia relativa acumulada (Fi) de xi,


que será el cociente entre la frecuencia absoluta acumulada de xi y el tamaño muestral n,
es decir,
N
frecuencia relativa acumulada de x  F  i
i i
n

Muchas veces, en vez de hablar de frecuencias relativas es de más fácil


interpretación multiplicar a éstas por 100 y trabajar con frecuencias relativas
porcentuales.

Todo lo expuesto anteriormente se puede resumir en una tabla que nos muestre las
diferentes frecuencias asociadas con una variable:

Valores de la Frecuencias Frecuencias Frecuencias Frecuencias


variable absolutas relativas acumuladas acumuladas
i relativas
xi ni fi  ni /n
Ni  n
h1
h
Fi  Ni /n

x1 n1 f1 N1 F1
x2 n2 f2 N2 F2
⁝ ⁝ ⁝ ⁝ ⁝
xk nk fk Nk Fk

Totales n 1

1.2. GRÁFICOS PARA VARIABLES DISCRETAS

Aunque las tablas de frecuencias contienen toda la información necesaria, es


conveniente traducir dicha información en un gráfico con el que realizar una síntesis
Tablas estadísticas y gráficos para variables cuantitativas unidimensionales - 3

visual.
Los gráficos utilizados cuando la variable es discreta son: diagrama de barras, polígono
de frecuencias y curva acumulativa o de distribución.

 Diagrama de barras: sobre unos ejes cartesianos, se toman en el eje de abscisas los
valores xi de la variable, levantándose sobre cada uno de estos valores una barra de
altura igual a su frecuencia (ya sea absoluta, relativa o porcentual). El patrón visual
es el mismo sea cual sea el tipo de frecuencia utilizado. Lo fundamental es que en
un gráfico de barras asimilamos la frecuencia de cada valor con la longitud de la
barra.

DIAGRAMADEB
ARRAS
ni o
Frecue

x1 x2 x3 x4 x5 x6

 Polígono de frecuencias: se construye uniendo con segmentos, en el diagrama de


barras, los extremos superiores de las barras.

POLÍGONODEFRECUEN
CIAS
ni o
Frecue

x1 x2 x3 x4 x5 x6

 Curva acumulativa o de distribución: sobre unos ejes cartesianos se toman, en el


eje de abscisas, los valores xi que toma la variable y sobre cada uno de estos valores
se levantan barras de altura igual a su frecuencia (absoluta o relativa) acumulada. A
continuación, se trazan paralelas al eje de abscisas sobre el extremo de cada barra
hasta cortar a la barra siguiente. Obtenemos una gráfica escalonada, cuyos saltos son
iguales a la frecuencia del valor xi correspondiente.
4 - Tablas estadísticas y gráficos para variables cuantitativas

CURVAACUMULATIVA

Ni o
n4 ó f 4

Frecue x1 x2 x3 x4 x5 x6

Ejemplo: Con objeto de estudiar los efectos de un plaguicida sobre una masa forestal se ha
tomado una muestra de 60 árboles y en cada uno de ellos se ha contado el número de cepas
enfermas, obteniéndose los siguientes datos:

1 4 3 5 4 5 5 2 2 4
7 6 3 5 3 5 4 6 4 5
4 6 2 6 1 3 6 4 3 5
6 4 1 5 4 7 4 6 3 3
4 5 5 7 2 6 3 5 4 6
7 5 2 3 6 5 8 4 2 4
Tabla 1

La distribución de frecuencias queda como muestra la siguiente tabla:

Num. de cepas enfermas (xi) Ni


ni fi fi 100 Fi Fi 100
1
2
3 3 0.05 5.00 3 0.05 5.00
4 6 0.10 10.00 9 0.15 15.00
5 9 0.15 15.00 18 0.30 30.00
6 14 0.23 23.33 32 0.53 53.33
7 13 0.22 21.67 45 0.75 75.00
8 10 0.17 16.67 55 0.92 91.67
Totales 1 4 0.07 6.67 59 0.98 98.33
1 0.02 1.67 60 1.00 100.00
60 1.00 100.00

El gráfico de barras para la frecuencia porcentual queda como:


Nºdec
epasenfermasenu
namue
strade60árb
oles
52

02

51

01
Nºdeár
(frec.

0
12345678
Nºdece
ase
pnfermas

1
Las sumas pueden no ser exactas debido a errores de redondeo.
Tablas estadísticas y gráficos para variables cuantitativas unidimensionales - 5

La curva acumulativa correspondiente o curva de distribución es:

Número de cepas enfermas en una muestra de 60 árboles


100

80

árboles (frec.
60

Nº de
40

20

0
0123456789
Nº de cepas enfermas

1.3. TABLAS DE FRECUENCIAS PARA VARIABLES CONTINUAS

Si la variable es continua o es discreta pero toma muchos valores distintos se suele


proceder a hacer una agrupación de los datos en clases.

Sea [a, b] un intervalo que contenga a todos los datos observados x1 , x2 , x3 ,......., xn .
Dividimos el intervalo [a, b] en k intervalos contiguos

a  a1  a2 ........ ak  1  b

Esta división nos sugiere las siguientes definiciones:

 Al intervalo C  ( a , a ] se le denomina clase i-ésima 2


i i i
 A ai se le denomina extremo o límite de clase
 li  ai  1  ai es la longitud o anchura de la clase i-ésima
 a  ai1 es la marca de la clase i-ésima
x*  i
i
2

Las clases pueden ser de la misma o de distinta longitud, pero, a no ser que haya
claros motivos para ello, es preferible que todas las clases tengan idéntica longitud.

Al número ni de valores observados que caen dentro de la clase i-ésima se le denomina


frecuencia absoluta de la clase i. Todos estos valores vendrán representados, para
cálculos ulteriores, mediante la marca x * de la correspondiente clase. A partir de aquí,
i
la construcción de la tabla de frecuencias de datos agrupados es análoga al caso de una
variable discreta.

¿Cómo construir una tabla de frecuencias de datos agrupados? Evidentemente, no


hay una forma única de dividir en clases un conjunto de datos. El objetivo es poner de
2
La clase C1 se considerará cerrada por ambos extremos.
6 - Tablas estadísticas y gráficos para variables cuantitativas

relieve los rasgos esenciales de los datos, eliminando detalles sin importancia. Con el
proceso de agrupación de datos se pierde parte del detalle original, pero tiene la
ventaja de presentarlos en un sencillo cuadro que facilita el hallazgo del
comportamiento y características principales de los datos.
La clave fundamental, pues, reside en la selección de las clases y, en particular, del
número k de clases a utilizar. Lo normal es emplear un número de clases comprendido
entre 5 y 20 3. El número exacto dependerá en gran medida del conjunto de datos
analizado y será cuestión de sentido común.
Además, si es posible, se seleccionarán los extremos de clases en múltiplos de números
de manejo fácil, tales como 2, 5, 10, 100... porque esto tenderá a facilitar la elaboración
y posterior uso y lectura de la tabla de frecuencias.
Finalmente, y como ya se apuntó anteriormente, siempre que sea factible se
seleccionarán las clases de la misma longitud, aunque hay casos en que esta regla no
puede aplicarse. Se suelen utilizar clases de distinta longitud cuando la mayoría de los
valores muestrales están concentrados en una parte del rango mientras que hay
relativamente pocas medidas que se extienden por el resto.
Supongamos, por ejemplo, que nos encontramos con un listado de impuestos pagados
por la población. Estas cantidades pueden variar, supongamos, entre 0 euros y 10
millones de euros. Si decidimos dividir este rango en 10 clases de la misma longitud, la
longitud de cada una de ellas sería de 1 millón de euros. Evidentemente, casi la práctica
totalidad de las observaciones caería en la primera clase. Por lo tanto, para datos de este
tipo, es más lógico utilizar clases más estrechas en la parte inicial de los datos e
intervalos mucho más anchos para el extremo superior.

1.4. GRÁFICOS PARA VARIABLES CONTINUAS

Los gráficos más utilizados cuando la variable es continua son: histogramas, polígonos
de frecuencias y curva acumulativa o de distribución.

 Histograma: La representación gráfica más frecuente para datos agrupados es el


histograma. Un histograma es un conjunto de rectángulos: la frecuencia de cada
clase queda representada mediante la superficie de su correspondiente rectángulo.

Para dibujar un histograma procederemos como sigue: sobre unos ejes cartesianos,
se marcan en el eje de abscisas los extremos de cada clase y sobre cada uno de
estos intervalos se trazan rectángulos de altura igual a:
- ni ó fi en el caso de que todas las clases sean de la misma longitud.
- ni
f
li ó i en el caso de que todas las clases no tengan la misma longitud, en
l i
donde li representa la longitud de la clase i-ésima.

3
Se han propuesto varias soluciones para la selección del número k de clases. Por ejemplo: k  n o
bien k  1 log2 n  11.4427 ln n
Tablas estadísticas y gráficos para variables cuantitativas unidimensionales - 7

HISTOGRAMA

h
a1 a2 a3 a4 a5 a6 a7 a8
 Polígono de frecuencias: es un gráfico de línea que se construye uniendo mediante
segmentos los puntos medios de las partes superiores del histograma. Se suele
prolongar el polígono suponiendo que existieran clases de frecuencia cero
inmediatamente anteriores y posteriores a la primera y última de las clases de
agrupación.
Para comparar varias muestras es más claro superponer polígonos que histogramas.
Además, el polígono sugiere el uso de una curva suave como representación ideal de
la población subyacente.

HISTOGRAMA
YPOLÍGONODEFRECUENCIAS
ni

a1 a2 a3 a4 a5 a6 a7 a8 a9
 Curva acumulativa o de distribución: sobre unos ejes cartesianos se dibujan los
puntos cuya abscisa es igual al extremo superior ai  1 de la clase i-ésima y su
ordenada igual a la frecuencia acumulada Ni o Fi de la clase i-ésima, es decir, los
puntos (ai  1, Ni ) o (ai  1, Fi ). Dichos puntos se unen mediante segmentos.
Si trabajamos con frecuencias relativas se tiene que la función de distribución es
creciente entre 0 y 1, nula para todo valor de x inferior al valor más pequeño que
pueda tomar la variable (a1), e igual a 1 para todo valor mayor o igual al mayor
extremo de clase (ak  1).
CURVADEFRECUENCIASACUMULADAS
Ni o

a1 a2 a3 a4 a5 a6 a7 a8
8 - Tablas estadísticas y gráficos para variables cuantitativas

La lectura directa del gráfico da el número o la proporción de observaciones


menores o iguales que el valor dado. Es decir, si trabajamos, por ejemplo, con
frecuencias relativas, si para un valor x su ordenada sobre el gráfico es p, significa
que, aproximadamente, hay una proporción p de observaciones menores o iguales
que x.
La lectura inversa del gráfico nos permite, dada una frecuencia o proporción,
encontrar las observaciones que están por debajo de ella.

Ejemplo: Se han medido los perímetros (en cm) de 50 pinos a la altura 1.30 m. del suelo
(altura normal) obteniéndose los siguientes resultados:

36 50 56 37 50 57 40 50 58 41
51 58 41 52 59 43 52 59 44 52
60 45 52 60 45 52 61 46 53 63
46 53 65 46 53 65 47 54 67 48
54 74 48 54 49 55 49 55 50 56
Tabla 2

En este caso, el tamaño muestral es n  50. Utilizando la regla k  n  50  7.07


deberíamos utilizar aproximadamente 7 clases. Los valores mínimo y máximo
observados son xmin  36 y xmax  74 por lo que el rango es
rango  xmax  xmin  74  36  38
rango 38
Por lo tanto, la longitud de las clases debería   5.42 , es decir, de 5.42
ser
k 7
centímetros. Si no queremos trabajar con decimales, podríamos seleccionar clases de
longitud 5 ó 6, siendo evidentemente mucho más cómodo trabajar con clases de
longitud 5. La observación mínima es 36: por lo tanto, para trabajar con extremos de
clase que sean múltiplos de 5, empezamos mejor con 35 y, a partir de aquí, vamos
definiendo las clases pertinentes con una amplitud de 5 cm. Obtendremos en total 8
clases que cubren un rango que va desde 35 hasta 75 cm.

La tabla de frecuencias para nuestra agrupación de datos queda como sigue:

Perímetro (cm) xi* ni fi100 Ni Fi100

1 35-40 37.5 3 6 3 6
2 40-45 42.5 6 12 9 18
3 45-50 47.5 12 24 21 42
4 50-55 52.5 14 28 35 70
5 55-60 57.5 9 18 44 88
6 60-65 62.5 4 8 48 96
7 65-70 67.5 1 2 49 98
8 70-75 72.5 1 2 50 100
Totales 50 100

El histograma de frecuencias relativas porcentuales y la curva de distribución


quedan como sigue:
Tablas estadísticas y gráficos para variables cuantitativas unidimensionales - 9

Histo
gramayp
olíg
nodefrecu
o ncias
e
03

52

02

51

Frecuenciarel
01

0
30 35 40 45 50 55 60 65 70 75 08
ERÍMETRO(cm)
P

Curvadedistrib
ución

01

08

06
Frecuenciarel

04

02

0
30 35 40 45 50 55 60 65 70 75 08
ERÍMETRO(cm)
P

Ejemplo: Histograma para clases de distinta longitud. Consideremos la siguiente tabla de


frecuencias para datos agrupados para una muestra de 100 datos:

Clase ni fi Altura hi

C1: 0-5 30 0.30 0.30/5  0.06


C2: 5-10 35 0.35 0.35/5  0.07
C3: 10-20 35 0.35 0.35/10  0.035

Totales 100 1.00

Las dos últimas clases contienen 35 observaciones cada una. Por lo tanto, ambas tienen
la misma frecuencia relativa. Sin embargo, en el primer caso las 35 observaciones se
extienden sobre un intervalo de longitud 5, mientras que las observaciones de la última
clase son menos densas puesto que corresponden a una clase de longitud 10. Puesto que
en un histograma asimilamos la frecuencia con el área, si utilizamos como alturas de los
rectángulos la frecuencia de cada clase, el patrón visual que nos proporciona el
histograma es falso: la clase C3 tiene el doble de frecuencia (área) que la clase C2. Por lo
tanto, tenemos que volver a calcular las alturas de los rectángulos del histograma para
lograr que el rectángulo asociado a la clase C3 tenga la misma área que el asociado a la
clase C2. Esto se consigue sin más que considerar rectángulos cuya base se coincida
con
la clase correspondiente y la ni fi
altura h  ó h  . Así logramos que el área del
i i
l il i

rectángulo asociado a la clase C2 (l2  h2  5  0.07  0.35) sea igual que el área del
rectángulo asociado a la clase C3 (l3  h3  10  0.035  0.35).
10 - Tablas estadísticas y gráficos para variables cuantitativas

0.3
Frecuencia relativa

0.05
0.2

Alt
0.1
0.01

0 5 10 15 20 0 5 101520
Histograma incorrecto Histograma correcto

2. DIAGRAMAS DE TALLO Y HOJAS

Un procedimiento semigráfico de presentar la información para variables cuantitativas,


que es especialmente útil cuando el número total de datos es pequeño (no superior a
200) son los diagramas de tallo y hojas (o de tronco y hojas; stem and leaf plot en
inglés), presentados por Tuckey en 1974.

En los diagramas de tallo y hojas se trabaja, fundamentalmente, con números de dos


dígitos. Al dígito de la izquierda, el más significativo, se le denomina el tallo o tronco.
El dígito de la derecha será la hoja. Por ejemplo, los números 34, 38, 37 tienen como
tallo a 3 y como hojas a 4, 8 y 7, respectivamente (si los números fueran 3.4, 3.8 y 3.7 o
bien 0.34, 0.38 y 0.37, el tallo y las hojas serían los mismos). El diagrama de tallo y
hojas consiste en una serie de filas horizontales de números: el número que encabeza la
fila es el tallo común; el resto de los números de la fila son las hojas. Tallo y hojas se
separan mediante una línea vertical. Así, los números anteriores quedarían
representados en un diagrama de tallo y hojas como:
3 487

hojas
tallo

Cuando se realiza un diagrama de tronco y hojas, normalmente los números se truncan


para quedarnos con dos dígitos significativos. En este caso no hay problema en la
determinación del tallo y de las hojas. Alguna vez podemos trabajar con números de
tres dígitos. Lo habitual es seleccionar el tallo como los dos dígitos de la izquierda y el
tercer dígito la hoja. Pero, según la naturaleza de los datos, puede haber ocasiones en
que sea preferible seleccionar como tallo al dígito de la izquierda y como hoja a los dos
dígitos de la derecha. Así, en el número 365 podemos tomar a 3 como tallo y 65 como
la hoja, o bien, seleccionar 36 como tallo y 5 como la hoja, es decir, las posibles
Diagramas de tallo y hojas -

representaciones quedarían como:

3 65 36 5

La construcción de diagramas de tallo y hojas admite multitud de variantes.

Ejemplo: La magnitud de 30 movimientos sísmicos en California según su medición en la


escala de Richter se muestra en la siguiente tabla:

1.0 5.0 2.7 2.3 1.4 4.0


1.2 8.3 2.2 2.4 2.1 1.3
2.0 1.0 3.1 1.2 3.0 2.1
3.3 1.9 4.1 1.1 7.7 4.1
1.4 2.2 6.3 1.1 5.1 1.5

Puesto que los números de entrada tienen dos dígitos, seleccionamos las unidades como
tallos y al dígito de las décimas como hojas. El diagrama de tallo y hojas queda como
sigue:

Diagrama de tallo y hojas sin ordenar


11 1 0 2 40 9 2 1 1 4 3 5
(8) 2 0 2 72 3 4 1 1
11 3 3 1 0
8 4 1 0 1
5 5 0 1
3 6 3
2 7 7
1 8 3
(1 2 representa 1.2)

Cuando realizamos un diagrama de tallo y hojas a mano, hemos de tener cuidado con
que el espacio entre hoja y hoja sea el mismo. Puesto que la longitud de cada línea
del diagrama nos da la correspondiente frecuencia, el apiñar ciertas hojas o escribir
demasiado separadas otras podría causarnos un falso efecto visual.
El diagrama de tallo y hojas se suele subtitular con una leyenda que nos ayude a
la lectura de los datos: si queremos reconstruir los datos originales hemos de saber
si 1 2 representa al número 12, 1.2, 0.12,...
Para completar la construcción del diagrama, se suelen ordenar en cada línea las hojas
en forma ascendente.
Es habitual acompañar a un diagrama de tallo y hojas con una columna a la izquierda
que se denomina columna de profundidades. Esta columna da el conteo de las
frecuencias acumuladas a medida que se avanza desde cualquiera de los dos extremos
hacia el centro. La columna de profundidades cuenta y acumula el número de
observaciones en cada renglón empezando desde cualquiera de los dos extremos del
diagrama hasta llegar al renglón donde se encuentra la mediana (observación central de
un conjunto de datos ordenados). Para este renglón, la columna de profundidades sólo
muestra el número de observaciones que hay en él y se escribe entre paréntesis.
12 - Diagramas de tallo y

Diagrama de tallo y hojas ordenado


11 1 0 01 1 2 2 3 4 4 5 9
(8) 2 0 11 2 2 3 4 7
11 3 0 13
8 4 0 11
5 5 0 1
3 6 3
2 7 7
1 8 3
(1 2 representa 1.2)

Un diagrama de tallo y hojas es un gráfico de fácil construcción. Tiene las siguientes


ventajas:

 Permite vislumbrar fácilmente la distribución de los datos


 Muestra rápidamente el rango y la dispersión de los datos
 Permite reconstruir todos los datos muestrales (al menos con dos o tres dígitos
significativos)
 Permite calcular fácilmente la mediana y otros estadísticos ordenados
 Permite la observación de valores atípicos (anormalmente pequeños o grandes)
 Sirven para responder a preguntas del tipo: ¿los tallos tienden a agruparse cerca de
un tallo o tallos en particular? Si se traza una curva en la parte derecha del
diagrama:
¿forma más o menos una campana? ¿es plana? ¿es simétrica...?
 Permite comparar rápidamente dos muestras distintas (diagrama de tallo y hojas
adosado o espalda con espalda)

Ejemplo: Consideremos los datos de la tabla 2 (perímetro de 50 pinos a la altura normal).

Los datos varían entre 36 y 74. Así, como tallos tenemos, a 3, 4, 5 ,6 y 7, quedando
el diagrama de tallo y hojas como:

Diagrama de tallo y hojas sin ordenar


2 3 67
17 4 99 1 3 4 5 7 6 8 6 5 6 8 1 0
(25) 5 06 0 7 0 8 1 8 2 9 6 9 2 4 2 5 3 3 2 4 4 5 3 0 2
7 6 07 5 3 1 0
1 7 4
(1 2 representa 12)

Como en este caso, cuando el primer dígito (el tallo) varía poco, la mayoría de los datos
tiende a agruparse alrededor de un único tallo y el diagrama resultante tiene poco
detalle. En este caso es conveniente subdividir cada tallo en dos líneas. Se simboliza,
por ejemplo, mediante un asterisco () a aquella línea cuyas hojas están comprendidas
entre 0 y 4 y con un punto () a la línea cuyas hojas van del 5 al 9. Resulta, así, lo que se
denomina un diagrama doble de tallo y hojas. A veces, puede ser conveniente aumentar
el detalle desglosando cada tallo en cinco líneas (hojas 0-1, 2-3, 4-5, 6-7 y 8-9).

En nuestro ejemplo, el diagrama doble de tallo y hojas resulta ser:


Diagramas de tallo y hojas -

Diagrama doble de tallo y hojas sin ordenar Diagrama doble de tallo y hojas ordenado
2 3 67 2 3 67
7 4 13410 7 4 01134
17 4 9957686568 17 4 55 6 6 6 7 8 8 9 9
(16) 5 0001224233244302 (16) 5 0000122222333444
17 5 678896955 17 5 556678899
8 6 0310 8 6 0013
4 6 755 4 6 557
1 7 4 1 7 4
(1 2 representa 12) (1 2 representa 12)

Ejemplo: Número de días con índice de contaminación 100 o mayor en 15 ciudades de U.S.A.
durante 1979:

248 113 60 58 82
106 118 88 47 128
33 55 47 208 79

En este caso los datos tienen tres dígitos. 03 3


Tomemos, en primer lugar, los dígitos de las 04 7 7
centenas y decenas como tallo y el dígito de 05 8 5
las unidades como hojas. Como observamos, 06 0
el diagrama de tallo y hojas obtenido (véase a 07 9
08 2 8
la derecha) resulta demasiado disperso. 09
10 6
La primera solución consiste en tomar como 11 3 8
tallo únicamente al dígito de las centenas y 12
como hojas a los dígitos de decenas y 13
14
unidades. Pero ahora, según se muestra más
15
abajo, obtenemos un diagrama de tallo y 16
hojas excesivamente concentrado y falto de 17
detalle 18
19
0 60 58 82 88 47 33 55 47 79 20 8
1 13 06 18 28 21
2 48 08 22
23
( 102 representa 102) 24 8
( 10 2 representa 102)

La solución final consiste en, en el último diagrama de tallo y hojas, desglosar cada
tallo en dos líneas resultado:

3 0 33 47 47
(6) 0 55 58 60 79 82 88
6 1 06 13 18 28
2 1
2 2 08 48
( 102 representa 102)
14 - Diagramas de tallo y

Ejemplo: Se define el “índice de masa corporal” como el cociente entre el peso, en kilogramos, y el
cuadrado de la altura, medida en metros. Índices por encima de 35 son indicativo de potencial riesgo
debido a la obesidad. A continuación se dan dos muestras que reflejan el
índice de masa corporal” (I.M.C.) para una muestra de 71 niñas de edades comprendidas entre
los 8 y los 12 años y de sus respectivas madres.

Para comparar los datos se ha realizado un diagrama de tallo y hojas adosado o espalda con espalda de
ambas muestras, resultando:

Diagrama de tallo y hojas espalda con espalda


Hijas Madres
44444 1
99999888888888777777777777777666666665555 1 88999
333332222100000000 2 000011122222234
866655 2 5556677777788899
2 3 0000001222333344
3 5555567788
4 1112
4 79
5 244

(1 2 representa 12)

Ambas muestras presentan una ligera asimetría positiva, sobre todo en el caso de las
madres.
Para la muestra de las niñas, la característica más notoria es lo limitado de su rango:
todas las observaciones caen entre 14 y 32, estando la mayoría de las observaciones
entre 15 y 19. Hay sólo dos observaciones que se separan un poco más de las demás: 28
y 32, pero no lo están lo suficiente como para ser consideradas outliers.
El comportamiento del índice de masa corporal para las madres es bastante distinto. Es
mucho más disperso, con valores comprendidos entre 18 y 54. La mayor parte de las
observaciones se encuentra entre 20 y 38, es decir, toman, en general, valores mucho
mayores que los índices de las hijas. Además, hay bastantes observaciones por encima
de 35 umbral por encima del cual se pueden presentar problemas de salud

3. MEDIDAS DESCRIPTIVAS

Con las tablas de frecuencias y los distintos tipos de gráficos hemos realizado una
primera síntesis de los datos. Sin embargo, la descripción de éstos será más completa si
también aportamos ciertas medidas numéricas que reflejen algunas de las características
más relevantes del conjunto observado de datos.

Un estadístico es una función de los valores muestrales mediante el cual intentamos


medir alguna de las características de la variable en estudio. Un estadístico, por lo
tanto, es un número que calculamos a partir de la muestra. Las características que se
pueden
Medidas de posición: los cuantiles -

medir de una variable y que resultan útiles a la hora de realizar un análisis estadístico
son las siguientes:

 Medidas de posición
 Medidas de centralización o de tendencia central
 Medidas de dispersión
 Medidas de forma (grado de asimetría y de apuntamiento o curtosis)

En lo que sigue, trataremos de estudiar en qué consiste cada tipo de medida y cuáles son
los estadísticos que se emplean habitualmente para la cuantificación de cada una de
dichas características.

3.1. MEDIDAS DE POSICIÓN: LOS CUANTILES

Las medidas de posición tratan de indicar cuál es el valor que ocupa una determinada
posición dentro de una lista ordenada de datos. Más en concreto, tratan de dar el valor
que deja una determinada proporción o porcentaje de observaciones por debajo de él.
Dado   0, 1 se define el cuantil- (y se denota por C) como aquel valor de la
muestra tal que una proporción  de las observaciones son menores o iguales que C y
una proporción 1  de los valores son mayores o iguales que él.

El cuantil más sencillo, que más tarde también emplearemos como medida de tendencia
central, es la mediana (Me) o cuantil-0.5. La mediana se define como el valor que ocupa
la posición central en un conjunto de datos ordenados. También se puede definir como
aquel valor tal que el 50% de las observaciones son menores o iguales que ella y el otro
50% de las observaciones son mayores o iguales que su valor. Por ejemplo, si nuestro
conjunto de datos es {3, 7, 8, 10, 12} es claro que el valor que ocupa la posición central
es 8, por lo tanto Me  8. Sin embargo, si el conjunto de datos fuera {3, 7, 8, 10, 12, 17}
no hay ningún valor que ocupe la posición central. En este caso tendríamos dos valores
centrales: 8 y 10. Entonces, como mediana del conjunto de datos se toma la media de
estos dos valores centrales, es 8  10
M  9.
decir, e
2

Otros cuantiles son los cuartiles. Los cuartiles (Q1, Q2 y Q3) son los tres valores que
dividen a la distribución de frecuencias en cuatro partes de igual tamaño. Así, el primer
cuartil Q1 (o cuantil-0.25) es el valor de la muestra tal que el 25% de los valores son
menores o iguales que él. El segundo cuartil Q2 (o cuantil 0.5) es el valor de la muestra
que deja un 50% de los datos por debajo de él. Es obvio que este segundo cuartil
coincide con la mediana. Y, finalmente, el tercer cuartil Q3 (o cuantil 0.75) es el dato
muestral tal que el 75% de los datos son menores o iguales que él. También podemos
decir que los cuartiles dividen al histograma en cuatro partes cada una de ellas
conteniendo un 25% de la frecuencia, es decir, del área total que encierra el
histograma.
16 - Medidas de posición: los

25% 25%25% 25%

Q1 Q2 Q3

Análogamente, se pueden definir los deciles Di con rango desde i  1 hasta i  9


(cuantiles 0.10, 0.20, …, 0.90) como los valores que dividen la distribución en diez
partes iguales y los percentiles Pi con rango desde i  1 hasta i  99 (cuantiles 0.01, 0.02,
0.03 …, 0.99) como aquellos valores que dividen a la distribución en cien partes
iguales. Su interpretación se realiza en términos de porcentaje de observaciones cuyo
valor es menor o igual que el rango del percentil. Así pues, si el percentil 30 de un
conjunto de datos es 77, esto significa que el 30% de los datos son menores o iguales
que 77.

Para calcular el cuantil , C, de un conjunto de datos tenemos que:

1) Ordenar los datos de menor a mayor


2) Calcular n  
3) (a) Si n   no es un número entero  C  dato que ocupa la posición  n     1 4

(b) Si n   es un número entero  C  media de los datos que ocupan las


posiciones n   y n   1

Calculemos los cuartiles en el caso de los perímetros de los pinos. Podemos utilizar el
diagrama de tallo y hojas ya que en éste teníamos ordenados los datos (la muestra era
de n  50 datos).
2 3 67
7 4 01134
17 4 5566678899
(16) 5 0000122222333444
17 5 556678899
8 6 0013
4 6 557
1 7 4
(1 2 representa 12)

4
x es el símbolo para denotar la parte entera del número real x. Por ejemplo, 7.84]  7.
Medidas de tendencia central -

Por lo tanto

 Primer cuartil Q1 (o cuantil-0.25):

n   50  0.25  12.5  como n   no es entero, Q1 es el dato que ocupa la


posición  n     1  12.5 1  12  1  13. Por lo tanto,
Q1  47 cm.

 Mediana Me o segundo cuartil Q2 (o cuantil-0.5):

n   50  0.5  25  como n   es entero, M2 es la media de los datos que


ocupan las posiciones n   25 y n   1  26 . Por
lo tanto, Me  52  52 2  52 cm.

 Tercer cuartil Q3 (o cuantil-0.75):

n   50  0.75  37.5  como n   no es entero, Q3 es el dato que ocupa la


posición  n     1  37.5 1  37  1  38. Por lo tanto,
Q2  57 cm.

3.2. MEDIDAS DE TENDENCIA CENTRAL O CENTRALIZACIÓN

Este tipo de medidas tiene por objeto dar un valor típico que sirva para representar todos
los valores individuales de la muestra. Lo que interesa hacer es, en definitiva, resumir
todos los datos muestrales en un único valor.
Las medidas de centralización más usuales son: la moda, la media aritmética y la
mediana. Por ejemplo, si nos piden que demos la nota más típica o representativa de un
examen podemos dar:

-La nota más frecuente: la moda


-La nota media: la media aritmética
-La nota que ocupa la posición central: la mediana

Hay que apuntar el hecho de que, aunque se denominen valores de tendencia central,
esto no quiere decir que dichos valores se encuentren situados en el centro del rango
de la variable. Puede ocurrir perfectamente que estén próximos a los extremos de la
distribución.
24 - Medidas de tendencia

3.2.1. LA MODA

La moda (Mo) es la más sencilla de las medidas de tendencia central. Es, simplemente,
el valor más frecuente de una muestra. Por su gran simplicidad, se puede utilizar como
un estimador rápido, aunque sólo tiene significado si destaca realmente del resto de
valores.

Es más frecuente hablar de moda para datos discretos. En el caso de datos agrupados se
suele hablar de intervalo o clase modal como aquella clase con mayor densidad de
frecuencia. En el histograma se corresponde con la clase cuyo rectángulo tenga mayor
altura (ya sean las clases de la misma o distinta amplitud).

En el ejemplo de las cepas, Mo  4, es decir, lo más frecuente es que un árbol tenga 4


cepas enfermas. En el caso de los perímetros, la clase modal  (50, 55]: lo más
frecuente es que un árbol tenga un perímetro a la altura normal comprendido entre 50 y
55 cm.

La moda es un valor bastante sujeto a fluctuaciones muestrales: dos muestras obtenidas


de la misma población pueden no tener la misma moda, ni siquiera parecida. Lo mismo
cabe decir de la división en clases.

En general, también se denomina moda a cualquier valor que sea más frecuente que
valores adyacentes. Y así, podemos hablar de muestras unimodales, bimodales,...

3.2.2. LA MEDIA ARITMÉTICA

La media aritmética ( x ) muestral, o simplemente media, es el valor de tendencia


central más utilizado. Se define como el cociente entre la suma de todos los valores
observados y el total de las observaciones. Es decir, si la variable toma los valores x1
, x2 , . . . , xn entonces:

x  x1  x2  ...  xn  1 xin
n n i 1

Si ya hemos realizado la tabla de frecuencias y tenemos que la variable toma valores x1 ,


x2 , . . . , xk con frecuencias n1 , n2 , . . . , nk, respectivamente, entonces la media se calcula
como:

x  1  ni xi
k

n i1

En el caso de que la tabla de frecuencias sea una tabla de datos agrupados,


consideramos a todos los valores de la clase i-ésima iguales a su marca xi. Tendremos,
así, un valor aproximado al verdadero valor de la media de los datos originales, pero
se admite que los errores se compensan de una observación a otra y que la imprecisión
es
Medidas de tendencia central -

pequeña.

La media es un número que viene dado en las mismas unidades que las observaciones
de la muestra. Así, en el ejemplo de las cepas:

3 1  6  2  9  3  14  4  13  5  10  6  4  7  1 8 259
x 60 60  4.3167

Es decir, el número medio de cepas enfermas es de 4.32 cepas por árbol. Cuando se van
a realizar los cálculos a mano se suele hacer una tabla que nos facilite la realización de
éstos. A las columnas originales de valores (xi ) y frecuencias (ni ) se le añade una
columna de productos de valores observados por frecuencias, es decir la columna ni 
xi. La tabla queda como:

Num. de cepas
enfermas (xi)
ni ni  xi

1 3 3
2 6 12
3 9 27
4 14 56
5 13 65
6 10 60
7 4 28
8 1 8
Totales 60 259

k
1 259
i  ni xi   4.3167 .
De nuevo obtenemos
que n i1
 60

En el ejemplo de los perímetros realizamos la tabla:

Perímetro (cm) xi ni ni  xi
1 35-40 37.5 3 112.5
2 40-45 42.5 6 255.0
3 45-50 47.5 12 570.0
4 50-55 52.5 14 735.0
5 55-60 57.5 9 517.5
6 60-65 62.5 4 250.0
7 65-70 67.5 1 67.5
8 70-75 72.5 1 72.5
Totales 50 2580.0

k
1 2580
x ni xi   51.6 , es decir, la muestra de 50 pinos tiene un
Por lo
tanto,

n i1 50
perímetro medio de 51.6 cm (si se calcula la media sobre los datos sin agrupar
obtenemos que x  52.22 cm).
26 - Medidas de tendencia

Propiedades de la media

 La media aritmética es el centro de gravedad de un conjunto de datos. ello es debido


a que se verifica que:

 (x
n
i 1
i  x)  0

Es decir, la suma de las desviaciones de todos los datos con respecto a la media es igual
a 0.
Esto lo podemos interpretar de la siguiente forma: supongamos que sobre un eje rígido
de masa despreciable colocamos pequeñas bolas, todas con la misma masa, de forma
que cada una de las bolas represente a cada uno de los datos muestrales. La media es,
precisamente, la posición donde se alcanza el equilibrio de la figura.

punto de equilibrio  media  x

 Es fácil calcular la media de una serie de números obtenida a partir de otra ya sea
por cambio de origen o de escala. Así, tenemos que:

Cambio de origen: xi '  a  xi x'  a  x


si
entonces
Cambio de escala: xi '  b  entonces x'  b  x
si xi
Cambio lineal: si xi '  a  b  xi x'  a  b  x
entonces

Es decir, si realizamos una traslación, la media queda trasladada por la misma cantidad.
Vale decir lo mismo en el caso de un cambio de escala.

Los cambios lineales nos permiten realizar codificaciones con los datos para simplificar
los cálculos de la media y otros estadísticos, además de para evitar la acumulación de
errores en los cálculos ya sea en los cálculos hechos a mano o en el ordenador.
Dado un conjunto de datos, para realizar una codificación se elige como nuevo origen
un valor central o la marca de una de las clases centrales. Si todos los datos originales
son equidistantes o si las clases son todas de la misma longitud, se toma como nueva
unidad la distancia entre los datos o la longitud de las clases9.

Veamos como realizar una codificación en el ejemplo de los perímetros de los árboles:
si miramos la tabla original (tabla 2), vemos que las clases centrales son la clase 4 y la
5, cuyas marcas son 52.5 y 57.5, respectivamente. Elijamos, por ejemplo, a 52.5 como
nuevo origen. Todos las clases tienen longitud igual a 5 cm. Por lo tanto, esta será
nuestra nueva unidad de medida. Los datos codificados xi' vendrán definidos como:

9
Si los datos no son equidistantes o todas las clases no tienen la misma longitud, habría que tomar como
nueva unidad el mínimo común múltiplo de las distancias entre datos o de las amplitudes de clase.
Medidas de tendencia central -

xi  52.5
xi ' 
5

Veamos cómo nos queda la nueva tabla:

Num. Clase Marca Codificación Frec. ni  xi'


clase (xi) xi  52.5 (ni)
X i '
5
1 3540 37.5 3 3 9
2 4045 42.5 2 6 12
3 4550 47.5 1 12 12
4 5055 52.5 0 14 0
5 5560 57.5 1 9 9
6 6065 62.5 2 4 8
7 6570 67.5 3 1 3
8 7075 72.5 4 1 4

Totales 50 9

1 k
9
Por lo
tanto,
x'   n x '  0.18
. Puesto que tenemos que
ni1 i 50

xi  52.5
x '
 x  52.5  5  x ' 
i i i
5

 x  52.5  5  x'  52.5  5  (0.18)  51.6

De nuevo obtenemos que, el perímetro medio de la muestra de 50 pinos es x  51.6


de cm.

 La media aritmética conlleva un cálculo algebraico más complicado que 1 nla moda y
x x
la
( mediana. Sin embargo, al poseer una fórmula para su cálculo  i ), ésta
ni1
nos permite derivar las propiedades matemáticas y estadísticas de la media, obtener
otros importantes estadísticos (varianza, coeficiente de correlación...)

 Una propiedad fundamental es su estabilidad en el muestreo, es decir, en general no


varía demasiado entre muestras tomadas de la misma población. Evidentemente, la
estabilidad es deseable puesto que a partir de la media muestral se intentará estimar
la media poblacional (un parámetro o valor desconocido al que se denota por ). De
los tres promedios estudiados, la media aritmética es el que cuenta con mayor
estabilidad. Además, conforme crece el tamaño muestral, la media muestral
converge a la media de la población.
28 - Medidas de tendencia

 Un problema que presenta la media es que, al depender directamente de todos los


valores de la muestra, es muy sensible a valores extremos que con frecuencia son
poco significativos, excepcionales o incluso erróneos.

Por ejemplo, supongamos que las rentas anuales de 10 personas (en cientos de
euros) son las siguientes:

100 120 160 180 220


240 300 350 360 3000

5030
1 10 x  
La renta media de las 10 personas es
de
503
x  10 i1
cientos de euros,
i
10
cifra que, evidentemente, representa muy mal a la muestra. Esta poca representatividad
deriva de ese valor de 3000 que es mucho mayor que el conjunto general de los datos y
hace distorsionar el valor de la media.

 Si la distribución es simétrica en forma de campana (o levemente asimétrica) la


media representa muy bien a los datos (de hecho, en este tipo de distribuciones se
tiene que la media, la mediana y la moda son prácticamente iguales).

3.2.3. LA MEDIANA

Si todos los datos de una muestra se ordenan en forma creciente, la mediana (Me) es el
valor que ocupa la posición central, es decir, el valor de la variable que, en principio,
deja igual número de observaciones por debajo y por encima de ella. Según hemos
visto, la mediana es el 50-percentil (p50).

Propiedades de la mediana

 Para la determinación de la mediana no es necesario conocer el valor de todas las


observaciones, sino únicamente el valor de la observación central. No utiliza, pues,
toda la información que ofrece la muestra. Sin embargo, tiene la gran ventaja de que
los valores excesivamente pequeños o grandes no influyen mucho en el valor final
de la mediana

En el ejemplo de las rentas de las 10 personas que vimos en el apartado dedicado a


la media, la media era de 503 cientos de euros, valor que representaba mal a toda la
muestra. Calculemos la mediana:

 50
n 10  5Z  profundidad )  5  0.5  5.5 
100 100 (Me

x(5)  x(6)  220  240  230 cientos de euros


 Me 
2 2
Medidas de tendencia central -

Evidentemente, este valor Me  230 cientos de euros es mucho mejor representante de la


mayor parte de los datos de la muestra.

 En la línea de lo dicho en el apartado anterior, tenemos que la mediana es un


valor más representativo que la media en distribuciones marcadamente
asimétricas.

x MeMo
Mo Me x x Me Mo

Distribución simétrica
Distribución asimétrica positiva Distribución asimétrica negativa
acampanada

Posición de la media, la mediana y la moda según la forma de la distribución

 La mediana no posee una fórmula para su cálculo: esto hace que la mediana se
preste mal a cálculos posteriores y a la obtención de otros estadísticos a partir de
ella.

3.3. MEDIDAS DE DISPERSIÓN

Las medidas de centralización intentan resumir todos los valores observados en uno
solo. La utilidad de una medida de tendencia central depende, por lo tanto, de su poder
representativo. Consideremos los siguientes conjuntos de datos:

C1  {10, 10}
C2  {9, 11}
C3  {0, 20}

Para los tres conjuntos la media coincide con 10. Sin embargo, es obvio que este valor es mucho mejor
representante de conjunto C1 que del conjunto C3. Si los valores observados están muy agrupados en
torno al promedio, éste será muy representativo, pero si los valores están muy dispersos con respeto al
promedio, éste "no valdrá demasiado". Por lo tanto, el significado de un promedio gana mucho si viene
acompañado de una medida de la concentración o dispersión de los datos en torno a él.

Por otra parte, no es necesario que una medida de dispersión haga referencia a un valor de tendencia
central. Sin tomar al valor de la media como referencia, es claro que los datos del conjunto C3 son más
dispersos que los datos del conjunto C1. Por lo tanto, podemos dividir las medidas de dispersión en dos
clases:

 Medidas de dispersión que no tienen en cuenta ningún promedio


 Medidas de dispersión que sí tienen en cuenta algún

promedio Finalmente, al medir la variabilidad de los datos, parece lógico


24 - Medidas de

 que dichas medidas tomen el valor cero cuando el conjunto de datos no presente ninguna
variabilidad (medida de dispersión para C1  0).
 que una medida de dispersión tome sólo valores mayores o iguales a cero.
 que cuanto mayor sea la variabilidad de los datos, mayor sea la medida de dispersión: (medida
de dispersión para C1  medida de dispersión para C2  medida de dispersión para C3 ).

MEDIDAS DE DISPERSIÓN QUE NO TIENEN EN CUENTA


NINGÚN PROMEDIO

3.3.1. RANGO O RECORRIDO


El rango o recorrido de una muestra es una medida de dispersión que se define como la diferencia entre
la observación mayor, x(max), y la observación más pequeña, x(min) de un conjunto de datos, es decir,

R  x(max)  x(min)

Aunque es una medida muy sencilla y rápida de calcular, está dotada de una gran inestabilidad al
depender únicamente de los valores extremos que según hemos comentado son, a menudo, poco
significativos o erróneos. Además, como su cálculo sólo se basa en dos valores, el rango puede cambiar
drásticamente entre dos muestras de la misma población pese a que los valores intermedios de ambas
muestras sean similares.

3.3.2. RANGOS INTERCUARTÍLICO E INTERDECÍLICO


Para evitar la dependencia que tiene el rango de los valores extremos, otras medidas de dispersión se
basan en recorridos parciales, es decir, se censura o elimina cierta porción de los datos.

Así, por ejemplo, se define el rango o recorrido intercuartílico (RI ) como la diferencia entre los
cuartiles superior e inferior, es decir,

RI  Q3  Q1

y representa la amplitud del intervalo donde se encuentran el 50% de las observaciones


centrales.
El rango intercuartílico es a las medidas de dispersión lo que la mediana es a las medidas de
tendencia central. Es preferible a la desviación típica en aquellas situaciones en que la mediana es
preferible a la media (asimetría, valores extremos).

A veces, también se utiliza el rango o recorrido interdecílico (RD ) que se define como la diferencia
entre el decil noveno y el primero, es decir,

RD  D9  D1

En este caso hablamos de la amplitud del intervalo donde se encuentran el 80% de


las observaciones centrales, es decir, hemos censurado el 10% de los datos inferiores
y el 10% de los datos superiores.
Medidas de dispersión -

MEDIDAS DE DISPERSIÓN QUE SÍ TIENEN EN CUENTA ALGÚN


PROMEDIO

Según hemos dicho, estas medidas intentan describir la concentración o dispersión de los datos con
respecto a una medida de tendencia central (que normalmente será la media o la mediana).

Consideremos nuestro conjunto de datos x1 , x2 , ...., xn y sea  una medida de tendencia central (la media
o la mediana). Para cada valor individual xi podemos medir la distancia entre xi y el promedio . La forma
habitual de medir la distancia entre xi y  es mediante la fórmula xi    (desviación absoluta de xi con
respecto a ). Pero, a menudo, se emplean las desviaciones cuadráticas: en este caso la distancia entre xi y
 se calcula como (x   )2 (desviación cuadrática de x con respecto a ). Haciendo el cálculo para cada
uno de los datos de lai muestra, obtenemos dos series que representan la discrepancia entre los datos
originales y la medida de tendencia central  elegida:

[serie 1]  x1   , x2   , ..., xn    (desviaciones absolutas)

[serie 2]  (x   )2, (x   )2,, ..., (x   )2 (desviaciones cuadráticas)


1 2

Pues bien, si calculamos la media o la mediana de cualquiera de estas dos series, obtendremos diferentes
medidas de dispersión que reflejarán, en promedio, cuánto distan los datos muestrales de la medida de
tendencia central elegida.
Podríamos obtener, así, ocho estadísticos distintos, pero, realmente, no todos se van a emplear. Los más
usuales son los siguientes:

1
 x Media de la serie 1   x i  x  Desviación absoluta media con respecto a la media
n
1
  Me Media de la serie 1   x M
i e
 Desviación absoluta media con respecto a la mediana
n
  Me Mediana de la serie 1  mediana{ xi  Me } MEDA
1
 x Media de la serie 2   (x i  x) 2
 Varianza muestral
n

La medida de dispersión más utilizada de entre las anteriores es la varianza muestral. El poco uso de las
demás se debe fundamentalmente a un problema de carácter técnico: al aparecer los módulos, su
manejo algebraico es más complicado.

3.3.3. LA VARIANZA MUESTRAL Y LA DESVIACIÓN TÍPICA

Según hemos dicho, en principio se define la varianza muestral (s2) como la media de las desviaciones
cuadráticas de las observaciones con respecto a la media, es decir,
n
1
s2 
 x) 2
n (x
i1 i
26 - Medidas de

Si definimos la suma de cuadrados de las x corregidas por la media (o simplemente suma de cuadrados
n SSX
SSX   (xi  x) 2 entonces s
2
de las x) como .
i1  n

Con la varianza muestral se intenta estimar el verdadero valor, desconocido, de la varianza poblacional (a
la que se denomina  2). Pues bien, en inferencia estadística se demuestra que para estimar la varianza
poblacional es mejor estimador cuando se divide la suma de cuadrados entre n  1 que entre n. Así que, a
partir de ahora, siempre que hagamos referencia a la varianza muestral, consideraremos la suma de
cuadrados de las x dividida entre n  1 10, es decir,

 (x
n
s 2  SSX  1 i  x)2
n 1n 1 i1

La varianza es un estadístico cuyas unidades de medida son las unidades de la variable original elevadas
al cuadrado. Para obtener una medida de dispersión cuyas unidades sean las mismas que las unidades de
los datos originales, se considera la desviación típica o estándar (s) que se define como la raíz cuadrada
de la varianza:


n
s s2  SSX 1 (xi  x)2
n 1n 1 i1

 Fórmula para calcular la SSX

n
Según hemos dicho, SSX   x) 2 . Los cálculos realizados con esta fórmula pueden
 (x i
i1
arrastrar numerosos errores de redondeo. Para el cálculo de SSX es preferible usar la siguiente
fórmula alternativa:

n n
1 n 2

SSX (x
i1
 ix) x 
2
 i x 
i1
2

n  i1
i

Veamos su obtención (eliminamos los índices de los sumatorios para simplificar la notación):


SSX   (xi  x) 2  x 2  2  x   x 2   x 2  2  x     x 2
i

x x
i i i
 2
2x   
2 xi   n  
2 2
xi  n  x 
 x 1 xi 

 1
xi  
n 
 xi 
n
2
 
2 1 1
 x2   x    x    x 2   x 
2 2 2

i i i i i
n n n
 Cálculo de la varianza en una tabla de frecuencias.

10
Muchos textos sí hacen distinción entre las suma de cuadrados dividida entre n (varianza muestral) y la
Medidas de dispersión -
suma de cuadrados dividida entre n  1 (varianza muestral corregida o cuasivarianza muestral).
28 - Medidas de

Si hemos realizado una tabla de frecuencias y tenemos que la variable toma valores x1 , x2 , . . . , xk
con frecuencias n1 , n2 , . . . , nk, respectivamente, entonces la fórmula de la varianza se modificará
simplemente multiplicando cada sumando por la frecuencia ni correspondiente:

k
SSX 1
1 k 1 n
 
2
   x   
s 2
n 1 n 1 n
   x) 2 
(xi n 1 ni
2
i n ni
 xi 

i
i1  i1  i1  
Es obvio, que si en nuestra tabla hemos agrupado los datos, el valor de xi será el de la marca de la
clase Ci.

De todas formas, como está claro cuándo hemos de introducir las frecuencias, por simplicidad de
notación es preferible utilizar la fórmula original de la varianza.

En los dos ejemplos que venimos siguiendo, simplemente a la tabla donde realizamos los cálculos para
obtener la media, habría que adjuntar una nueva columna para el cálculo de n  x 2.
i

Así, en el ejemplo de las cepas enfermas los cálculo quedan:

Num. de cepas n x2


ni ni  xi
enfermas (xi) i i

1 3 3 3
2 6 12 24
3 9 27 81
4 14 56 224
5 13 65 325
6 10 60 369
7 4 28 196
8 1 8 64
Totales 60 259 1277

Por lo tanto:

2 SSX  k
1 n  1   2592   2.69 (cepas enfermas)2
1 2 2 1
s    ni    ni  xi    1277 
xi n  1 n  1 n 59  60 

 i1  i1    

s  s2  2.69  1.64 cepas enfermas

En el ejemplo de los perímetros realizamos la tabla:


Medidas de dispersión -

2
Perímetro (cm) xi ni ni  xi ni  xi
1 35-40 37.5 3 112.5 4218.75
2 40-45 42.5 6 255.0 10837.50
3 45-50 47.5 12 570.0 27075.00
4 50-55 52.5 14 735.0 38587.50
5 55-60 57.5 9 517.5 29756.25
6 60-65 62.5 4 250.0 15625.00
7 65-70 67.5 1 67.5 4556.25
8 70-75 72.5 1 72.5 5256.25
Totales 50 2580.0 135912.50

Luego,

2 SSX  k
1 n  1   25802   56.83 (cm)2
1 2 2 1
s    ni    ni  xi    135912.5 
xi n  1 n  1 n 49  50 

 i1  i1    

ss2  2.69  7.54 cm

 Comportamiento de la varianza frente a cambios de origen y escala:

Cambio de origen: x 'a entonces x'  a  x s2 s2


si
x ,
i i x' x
Cambio de escala:
xi '  b  entonces x'  b  x sx  b  s x sx'  b  sx
2 22
si
xi , ,
Cambio lineal: x '  a  b  x entonces x'  a  b  x , s 2  b2  s 2
si
i i x' x

Por lo tanto, si realizamos una traslación, la varianza no se modifica en absoluto (es


obvio que las distancias entre los puntos no cambian cuando se hace un cambio de
origen). En el caso de un cambio de escala, la varianza queda multiplicada por b2 y la
desviación típica por b.

Como se vio en el caso de la media, los cambios de variable lineales se pueden emplear
para realizar codificaciones que permitan acelerar los cálculos y minimizar los errores
debidos a redondeos. Así, para los datos del perímetro, habíamos realizado la
codificación xi  52.5
x'i  . Los cálculos para la obtención de la varianza se muestran a
5
continuación:
30 - Medidas de

Num. Clase Marca Codificación ni  ni  x'i n  x' 2


i i
clase (x'i) xi  52.5
x' i 
5
1 3540 37.5 3 3 9 27
2 4045 42.5 2 6 12 24
3 4550 47.5 1 12 12 12
4 5055 52.5 0 14 0 0
5 5560 57.5 1 9 9 9
6 6065 62.5 2 4 8 16
7 6570 67.5 3 1 3 9
8 7075 72.5 4 1 4 16

Totales 50 9 113

SSX ' 1  1 1  1 
s2    x' 2
  x'  2
113   92  2.27
 
49  
x' i
n 1 n 1 n i
50 
 

Por lo tanto,
como xi  52.5  5  xi ' se tiene que:

s 2  b2  s 2  52  2.27  56.83 (cm) 2 s 


x x' x s 2x  7.54 cm

 La varianza y la desviación típica es a las medidas de dispersión como la media es a las medidas de
tendencia central. Es la medida de dispersión con más estabilidad de muestra a muestra. Presenta un
fácil manejo algebraico. Además, en muchos modelos poblacionales, la varianza aparece como un
parámetro inherente a la distribución de dicha población.

 Como en la varianza, las desviaciones van elevadas al cuadrado, las observaciones extremas tienen
una gran influencia en el valor final del estadístico.

 DESIGUALDAD DE CHEBYSHEV Y REGLA EMPÍRICA

A partir de la media y de la desviación típica de una serie de datos, el teorema de Chebyshev nos permite
obtener intervalos para predecir dónde se encuentran las observaciones.

DESIGUALDAD DE CHEBYSHEV
Sea un conjunto de datos con media x y desviación típica s. Sea k una constante mayor que 1. Entonces:

La frecuencia relativa de los datos que distan de la media menos de k desviaciones típicas de la

media es mayor o igual que 1  1 . Es decir, la frecuencia relativa de los datos que caen
k2
dentro del conjunto x  k  s, x  k  s es mayor o igual que 1  1
k2
Medidas de dispersión -

Al menos una frecuencia del


100

x- ks x xks
En particular,
3  1 
 Si k  2  al
menos  1 (o el 75%) de los datos han de distar menos de 2
 2 
4 2
 
desviaciones típicas de la media, es decir, han de estar en el intervalo x  2  s, x  2  s
8  1
 Si k  3  al
menos  1 (o el 88.9%) de los datos han de distar menos de 3
 2 
9 3
 
desviaciones típicas de la media, es decir, han de estar en el intervalo x  3 s, x  3 s

Ejemplo: En una muestra de varones menores de 21 años se encontró que el nivel medio de
colesterol era de x  160 mg/dl con una desviación típica de s  10 mg/l.

La desigualdad de Chebyshev asegura que:

 Si k  2  Al menos el 75% de los varones menores de 21 años tienen un nivel de colesterol que se
encuentra comprendido x  2  s  160  2 10  140 mg/dl y
entre
x  2  s  160  2 10  180 mg/dl.
 Si k  3  Al menos el 88.9% de los varones menores de 21 años tienen un nivel de colesterol que
se encuentra comprendido x  3 s  160  310  130 mg/dl y
entre
x  3 s  160  310  190 mg/dl.

Ejemplo: En una muestra de 100 vacas se obtuvo que la producción media de leche diaria era
de x  10.75 l con una desviación típica de s  1.5 l. ¿Qué podemos afirmar con respecto a la
frecuencia del intervalo (7, 14.5)?

Veamos si el intervalo (7, 14.5) es de la forma x  k  s, x  k  s para algún valor de k.


10.75  7
 7  x  k  s  10.75  k 1.5  k   2.5
1.5
14.5 10.75
 14.5  x  k  s  10.75  k 1.5  k   2.5
1.5
32 - Medidas de

 
Es decir, el intervalo (7, 14.5)  x  2.5  s, x  2.5  s está formado por las observaciones que
distan de la media menos de 2.5 desviaciones típicas. Por lo tanto, la desigualdad de Chebyshev asegura
que la frecuencia relativa de las observaciones que distan de la media menos de 2.5 desviaciones típicas
es  1 
mayor o igual que 1   0.84 . O sea, la producción diaria de leche de por lo menos el 84% de
 
 2.52 
las vacas de la muestra ha de estar comprendida entre los 7 y los 14.5 litros.

La desigualdad de Chebyshev se puede aplicar a cualquier tipo de muestra. Pero si los datos muestran
un histograma o un diagrama de barras aproximadamente normal (simétrico en forma de campana), la
regla empírica nos permite afinar un poco más:

REGLA EMPÍRICA

Sea un conjunto de datos aproximadamente normal con media x y desviación típica s. Entonces:

 Aproximadamente el 68% de los datos distan de la media menos de 1 desviación típica, es


decir, están en el intervalo x  s, x  s  .

 Aproximadamente el 95% de los datos distan de la media menos de 2 desviaciones típicas,



es decir, están en el intervalo x  2  s, x  2  s . 
 Aproximadamente el 99.7% de los datos distan de la media menos de 3 desviaciones

típicas, es decir, están en el intervalo x  3  s, x  3  s . 
aproximadamente el 99.7%

aproximadamente el 95%

aproximadamente el 68%

x-3s x-2s x-sxxs x2s x3s

Ejemplo: Si el histograma correspondiente al nivel de colesterol de la anterior muestra de varones


menores de 21 años fuera aproximadamente normal al aplicar la regla empírica
obtendríamos que (recuérdese que x  160 mg/dl y s  10 mg/dl):

 Si k  1  Aproximadamente el 68% de los varones menores de 21 años tienen un nivel de


colesterol que se encuentra comprendido x 1 s  160 110  150 mg/dl y
entre
x 1 s  160 110  170 mg/dl.
 Si k  2  Aproximadamente el 95% de los varones menores de 21 años tienen un nivel de
colesterol que se encuentra comprendido x  2  s  160  2 10  140 mg/dl y
entre
x  2  s  160  2 10  180 mg/dl.
Medidas de dispersión -

 Si k  3  Aproximadamente el 99.7% de los varones menores de 21 años tienen un nivel de


colesterol que se encuentra comprendido x  3 s  160  310  130 mg/dl y
entre
x  3 s  160  310  190 mg/dl.
Según se observa, cuando los datos son aproximadamente normales, la regla empírica nos permite hacer
predicciones mucho mejores que la desigualdad de Chebyshev: ésta última nos permitía decir únicamente
que por los menos el 75% de los varones menores de 21 años tiene un nivel de colesterol comprendido
entre los 140 mg/dl y los 180 mg/dl mientras que la regla empírica asegura que aproximadamente el 95%
de los varones menores de 21 años tiene un nivel de colesterol comprendido en dicho intervalo.

 Estandarización o tipificación

Según las reglas que acabamos de estudiadar, lo ordinario para una observación es que ésta diste de la
media menos de 3 desviaciones típicas. Entonces, para saber cómo de pequeña o de grande es una
observación dentro de un conjunto de datos podemos tratar de averiguar cuántas desviaciones típicas
dista de la media, es decir, podemos calcular lo que se denomina el valor estandarizado o tipificado zi
de una observación xi que se define como:

xi  x
zi 
s
Así, por ejemplo, si para un dato muestral xi su valor estandarizado es zi  1.5 esto significa que el valor xi
se encuentra situado a 1.5 desviaciones típicas por encima de la media. Si zi  1.5, entonces, xi estará
situado a 1.5 desviaciones típicas por debajo de la media.

Ejemplo: Un hombre que pesa 85 kg pertenece a un biotipo para el cual el peso medio es de 66 kg con
una desviación típica de 6.8 kg. Un segundo hombre, cuyo peso es de 97 kg, pertenece a un biotipo
cuyo peso medio es de 75 kg con una desviación típica de 9 kg. ¿Cuál de los dos hombres tiene un
mayor sobrepeso para el biotipo al que pertenece?

 Primer hombre: x1  85 kg
85  66
z  2.79
1
6.8
 Segundo hombre: x2  97 kg
97  75
z   2.44
2
9
Por lo tanto, aunque el primer hombre pesa menos, dentro de su biotipo presenta un mayor sobrepeso que
el segundo hombre dentro del suyo (el primer hombre tiene un valor tipificado de 2.79 frente al valor
estandarizado 2.44 del segundo individuo).

Según la desigualdad de Chebyshev y la regla empírica, lo ordinario es que un dato se encuentre a menos
de 3 desviaciones típicas de la media (al menos el 88.9% para cualquier distribución; aproximadamente
el 99.7% en distribuciones normales). Por lo tanto, lo habitual es que un dato tenga un valor
estandarizado comprendido entre 3 y 3. Mientras que valores estandarizados con módulo superior a 3
son bastante poco frecuentes (como mucho el 11.1% para cualquier distribución; aproximadamente el
0.3% en distribuciones normales).
34 - Medidas de

Outliers Valores ordinarios Outliers

Valores originales de la variable x 4s x 3s x 2s x 1s x x 1s x 2s x 3s x 4s
Valores estandarizados 4 3 2 1 0 1 2 3 4

En estadística, a los datos que son anormalmente pequeños o grandes dentro de un conjunto se les
denomina valores atípicos o outliers. Estos datos muchas veces provienen de errores de transcripción o
son simplemente datos perfectamente legales pero muy poco frecuentes. Los valores atípicos suelen ser
bastante molestos a la hora de trabajar con ellos: a menudo hacen que los métodos estadísticos no
funcionen bien. Así que conviene detectarlos y estudiar cuál es su procedencia. Más tarde varemos otro
criterio para detectar los outliers, si es que existen, de una muestra. De momento, nos quedaremos con la
idea de considerar como outlier a todo dato cuyo valor estandarizado tenga un módulo superior a 3.

Ejemplo: Una industria ha realizado un vertido tóxico sobre un río. Para estudiar el efecto de éste sobre
los peces se ha tomado una muestra de 144 peces y se ha medido la cantidad de
DDT (medida en ppm) existente en cada uno de ellos. Se ha observado que x  44 ppm y
s  10 ppm. Un pez de la muestra dio una medida de xi  80 ppm. ¿Qué podemos decir de esta
observación?

xi  80 ppm  zi  80 
 3.6
44
10

Por lo tanto, para la muestra, la observación xi  80 ppm tiene un valor estandarizado de 3.6 y se puede
considerar como un outlier.

3.3.4. EL COEFICIENTE DE VARIACIÓN


La desviación estándar debe usarse con precaución cuando tratamos de comparar variabilidades de
diferentes muestras. Por ejemplo, una desviación típica de s  1 m puede considerarse pequeña si estamos
midiendo alturas de árboles cuya altura media x  40 m. La misma desviación típica sería enorme si
sea
midiéramos las alturas de plantones de una semana de edad.

El coeficiente de variación (CV) de una muestra mide la variabilidad en la muestra con respecto a la
magnitud de la media muestral. Para una muestra con media x y desviación típica s, el coeficiente de
variación se define como

s
CV 
x

suponiendo que x  0 . Es decir, el coeficiente de variación expresa la desviación típica s en unidades de


la media muestral x .

Puesto que la desviación típica y la media muestral se miden en las mismas unidades, el coeficiente de
variación es una medida adimensional por lo que es útil para comparar la variabilidad de muestras cuyas
unidades de medición sean distintas. A menudo el coeficiente de variación se multiplica por 100 y se
expresa como un porcentaje. Es decir, un CV del 15% significa que la desviación típica de la muestra
representa el 15% de la media muestral

Ejemplo: Un científico de la India ha obtenido los siguientes datos referentes a los pesos de elefantes
y ratas:
Medidas de dispersión -

Elefantes Ratas
x1  3500 kg x2  400 gr
s1  250 kg s2  75 gr

¿Qué se puede decir sobre la variabilidad de cada una de las muestras?

Sólo con una ojeada, los pesos de los elefantes varían mucho más que los pesos de las ratas. Sin embargo,
si hallamos el coeficiente de variación tenemos que:

Elefantes Ratas
s1 250 s2 75
CV  100  100  7.1% CV  100  100  18.8%
x1 3500 x2 400

Es decir, como porcentaje de la media los pesos de las ratas varían mucho más que los pesos de los
elefantes: la variabilidad de los pesos de las ratas es casi el triple que la variabilidad relativa de los pesos
de los elefantes. La desviación estándar de las primeras es del 18.8% de su media, mientras que para los
elefantes la desviación típica sólo supone el 7.1% de su media.

3.4. MEDIDAS DE FORMA


Estas medidas informan sobre dos aspectos importantes relativos a la forma del histograma o diagrama de
barras de un conjunto de datos: la asimetría y la curtosis o apuntamiento. Únicamente estudiaremos los
índices clásicos g1 y g2 de asimetría y curtosis dados por Fisher.

3.4.1. EL COEFICIENTE G1 DE ASIMETRÍA DE FISHER


El coeficiente g1 de asimetría de Fisher se define como:

 (x i  x)3
g1  i1
n  s3

La justificación de este coeficiente se basa en lo siguiente: en un conjunto de datos simétricos, la suma


n

 (x
i1
i
 x)3 es nula (las desviaciones positivas y negativas con respecto a la media se compensan). Sin
embargo, con datos asimétricos la suma crecerá conforme crece la asimetría, manteniendo dicha suma el
signo de la asimetría. Así, para un conjunto de datos asimétricos positivos, la suma será positiva puesto
que las desviaciones positivas con respecto a la media pesan más que las desviaciones negativas. Si el
conjunto de datos ofreciera asimetría negativa, ocurriría justo lo contrario. Pero para tener un estadístico
que no dependa de las unidades de medida, se divide la suma anterior por s3, obteniéndose así, el
coeficiente de asimetría g1 de Fisher.

En definitiva: el coeficiente de asimetría g1 de Fisher es un coeficiente adimensional, invariable frente a


cambios de origen y de escala. Se tiene que:
Medidas de forma-

 g1  0  distribución asimétrica positiva


 g1  0  distribución simétrica
 g1  0  distribución asimétrica negativa

En la siguiente figura se muestran los histogramas de distintos conjuntos de datos junto con su
correspondiente coeficiente de asimetría. La curva en trazo continuo representa la función de densidad de
una variable normal con la misma media y desviación típica que cada muestra.

g1  0.9979 g1  0.5595 g1  0.0400

g1  0.3096 g1  1.6512 g1  6.7268

n
Para el cálculo de la suma  (x
i1
i
 x)3 es útil el empleo de la siguiente fórmula:

n n n
 (x  x)3   x3  3  x   x2  2  n  (x)3
i i i
i1 i1 i1

3.4.2. EL COEFICIENTE G2 DE CURTOSIS DE FISHER


Tomando como origen de coordenadas la media y como unidad de medida la desviación
típica, resulta que hay distribuciones que tienen forma acampanada pero mucho más
puntiagudas que una curva normal mientras que otras son mucho más aplastadas.

Un conjunto de datos es más apuntado que una distribución normal cuando valores
alejados de la media aparecen con menos frecuencia de la que cabría esperar si los datos
siguiesen una distribución normal con la misma media y la misma desviación típica. Un
apuntamiento excesivo puede revelar que los datos han sido artificialmente censurados
para eliminar valores considerados como extremos. En el otro sentido, un conjunto de
datos es más aplastado que una normal si presenta valores muy alejados de la media con
mayor frecuencia de lo que cabría esperar para una distribución normal de la misma
media y desviación típica. Frecuentemente, suele ser síntoma de que entre los datos se
incluyen outliers (errores de transcripción, observaciones pertenecientes a una población
distinta de la estudiada,...).
36 - Medidas de

Más apuntada

Normal

Más aplastada

Para medir el grado de apuntamiento o de curtosis de una distribución acampanada y


aproximadamente simétrica se utiliza el coeficiente g2 de curtosis de Fisher que se
define como:

 (x i  x)4
g2  i1 3
n  s4

 (x n i  x) 4
i1
Para cualquier distribución normal el es igual a 3, por lo tanto, a este cociente se
cociente ns
4

le resta 3 para conseguir que el coeficiente g2 de curtosis asociado a cualquier distribución normal sea
igual a 0.

Al igual que el coeficiente de asimetría g1, el coeficiente g2 de curtosis de Fisher es un coeficiente


adimensional, invariable frente a cambios de origen y de escala. Se verifica siempre que g2  2.
Además, si:

 g2  0  distribución más apuntada que una normal


 g2  0  distribución normal
 g2  0  distribución más aplastada que una normal

De nuevo, presentamos los histogramas de distintos conjuntos de datos junto con su correspondiente
coeficiente de curtosis. La curva en trazo continuo vuelve a representar la función de densidad de una
variable normal con la misma media y desviación típica que cada muestra.
Medidas de forma-

g2  0.9238 g2  0.0208

g2  2.4768 g2  5.8046

n
Para el cálculo de la suma  (x
i1
i
 x)4 podemos acudir a la siguiente fórmula:

n n n n
 (x  x) 4   x 4  4  x   x3  6  (x) 2   x 2  3  n  (x) 4
i i i i
i1 i1 i1 i1

Finalmente, hemos de apuntar que ambos coeficientes g1 y g2 de Fisher presentan el inconveniente de ser
poco resistentes ante la presencia de valores extremos. Además, en los diversos manuales se pueden
encontrar numerosas variaciones y modificaciones sobre la definición de estos coeficientes.

Veamos, a continuación, el cálculo de estos coeficientes en el ejemplo de los perímetros. En primer lugar,
vamos a realizar los cálculos sobre los datos originales, sin transformar. A la tabla realizada para el
cálculo de la varianza, le hemos de adjuntar las columnas n  x 3 y n  x 4 para el cálculo de las sumas
i i i
correspondientes.

2 3 4
Perímetro (cm) xi ni ni  xi ni  xi ni  xi ni  xi
1 35-40 37.5 3 112.5 4218.75 158203.125 5932617.188
2 40-45 42.5 6 255.0 10837.50 460593.750 19575234.375
3 45-50 47.5 12 570.0 27075.00 1286062.500 61087968.750
4 50-55 52.5 14 735.0 38587.50 2025843.750 106356796.875
5 55-60 57.5 9 517.5 29756.25 1710984.375 98381601.563
6 60-65 62.5 4 250.0 15625.00 976562.500 61035156.250
7 65-70 67.5 1 67.5 4556.25 307546.875 20759414.063
8 70-75 72.5 1 72.5 5256.25 381078.125 27628164.063
Totales 50 2580.0 135912.50 7306875.000 400756953.125

De cálculos anteriores sabíamos


que x  51.6 y s  7.54. En la nueva tabla obtenemos las sumas:

x i

2580.0
x 2
 x 3
 7306875.00 x 4
 400756953.125
135912.50
i i i
Teniendo en cuenta las fórmulas para calcular la suma de las desviaciones cúbicas y cuartas con respecto
a la media:

(x  x) i
3
  x3 i 3 x   x2 i 2  n  (x) 3  6429.6
38 - Medidas de

(x i x) 4   x4 i 4  x   x3 i 6  (x) 2   x2i  3 n  (x) 4  485206.085

Por lo tanto

 x)3

 Coeficiente de asimetría de Fisher  (x i  6429.  0.30 , es decir, los datos
g
6
1
n 50  7.543
presentan una ligera asimetría s3
positiva.

El coeficiente de curtosis tiene sentido calcularlo puesto que el histograma es acampanado y


prácticamente simétrico. Entonces:

 x)4  3
 Coeficiente de curtosis de Fisher 
g
 (x i

485206.085  3  0.0051 . Por lo
2
ns 4
50  7.544
tanto el apuntamiento de la muestra coincide, aproximadamente, con el apuntamiento de una
distribución normal con x  51.6 y desviación típica s  7.54. A continuación se muestra el
media
histograma de los datos junto con la función de densidad de una variable normal con media
x  51.6 y desviación típica s  7.54
Histo
gramayd
nsid
e adn
ormalajusta
da
03

52

02

51
Frecuenciarel

01

0
30 35 40 45 50 55 60 65 70 75 08
ERÍMETRO(cm)
P

A continuación, vamos a repetir los cálculos, pero esta vez para los datos codificados. Recordemos que
xi  52.5
x'  , x'  0.18 y  1.51. Añadamos a la tabla las columnas correspondientes para el
s
i x'
5
cálculo de las sumas de las desviaciones cúbicas y cuartas:

xi  52.5 n  x' 2 n  x' 3 n  x' 4


Perímetro (cm) xi x' i  ni  ni  x'i i i i i i i
5
1 3540 37.5 3 3 9 27 81 243
2 4045 42.5 2 6 12 24 48 96
3 4550 47.5 1 12 12 12 12 12
4 5055 52.5 0 14 0 0 0 0
5 5560 57.5 1 9 9 9 9 9
6 6065 62.5 2 4 8 16 32 64
7 6570 67.5 3 1 3 9 27 81
8 7075 72.5 4 1 4 16 64 256
i
Totales 50 9 113 9 761

Luego, tenemos que:


  x' 2
 113
x'i  9
Medidas de forma-

 x'
3
 9  i i

x'
4


7
6
1

40 - Medidas de

(x' x')
i
3
  x'3 i 3 x' x'2 i 2  n  (x') 3  51.4368

(x' x')i
4
  x'4 i 4  x' x'3 i 6  (x') 2   x'2 i  3 n  (x') 4  776.329736

Por lo tanto

 Coeficiente de asimetría de Fisher  g1(x') (x' i


x')3 51.4368  0.30
 50
 ns 3
x 1.513

 Coefic.de curtosis de Fisher  (x') (x' x')


i
4
3
776.329736
 3  0.0051
g2  ns4  50 1.514
x

Puesto que los coeficientes de Fisher son invariables frente a cambios de origen y escala, se tiene que
cumplir que g1 (x)  g1 (x') y g2 (x)  g2 (x'). Luego, de nuevo llegamos a que:

 Coeficiente de asimetría de Fisher  g1 (x)  g1 (x')  0.30

 Coeficiente de curtosis de Fisher  g2 (x)  g2 (x')  0.0051

Evidentemente, la ventaja del uso de los datos codificados para calcular los coeficientes
es la menor complejidad aritmética que conllevan los cálculos.

4. DIAGRAMAS DE CAJA Y DETECCIÓN DE OUTLIERS


Un procedimiento útil para representar un conjunto de datos numéricos son los
diagramas de caja y extensión (en inglés, box-and-whiskers plot). Un diagrama de
caja muestra las características principales de un conjunto de datos además de señalar
los posibles outliers.

Un diagrama de caja se construye como sigue12:

(1) Obtener la mediana Me y los cuartiles Q1 y Q3 de la distribución.


(2) Dibujar un rectángulo cuyos extremos son, precisamente, Q1 y Q3 y señalar la
posición de la mediana mediante una línea que cruce el rectángulo. La amplitud
del rectángulo será, por lo tanto, el rango intercuartílico RI.
(3) Calcular los límites admisibles inferior (LI) y superior (LS). El valor de estos
límites es:
LI  Q1  1.5  RI
LS  Q3  1.5 
RI
(4) Trazar una línea que vaya desde el cuartil inferior Q1 hasta el valor adyacente
12
Existen numerosas variaciones en la construcción de diagramas de caja.
42 - Diagramas de caja y detección de

inferior. Este valor es la primera observación que sea mayor o igual que LI.
Análogamente, se dibuja una línea que va desde el cuartil superior Q3 hasta el valor
adyacente superior que será la última observación que sea menor o igual que LS.
(5) Marcar individualmente mediante un círculo o cualquier otro símbolo a todos los
datos que están fuera del intervalo [LI, LS]. Estos datos serán identificados como
outliers.

Los pasos para la creación de un diagrama de caja se muestran en la siguiente gráfica:

outliers
LS
valor adyacente superior

cuartil superior
mediana cuartil inferior

valor adyacente inferior

LI

¿Qué información podemos obtener de un diagrama de caja? Los diagramas de caja son
útiles para revelar la tendencia central, la posición, la dispersión y la forma del conjunto
de datos así como para detectar la presencia de outliers.

 El centro de la distribución es mostrado mediante la mediana.


 El rango intercuartílico RI, es decir, la longitud del rectángulo central, nos da una
medida de la dispersión. El 50% de los valores centrales de un conjunto de datos
caen entre Q1 y Q3. Si el rango intercuartílico es pequeño, estos valores centrales
estarán muy concentrados entorno a la mediana. Si el rango intercuartílico es
grande, éstos mostrarán gran dispersión con respecto a la mediana.
 Estudiando la posición relativa de la mediana dentro de la caja central podemos
tener una idea de la asimetría de la distribución en su parte central. Por ejemplo, si
la línea de la mediana es más cercana al cuartil inferior que al superior, entonces hay
una mayor concentración de valores por debajo de la mediana que por encima y la
distribución será asimétrica positiva. Si la distribución es simétrica la mediana caerá
en el centro de la caja.
 Obtenemos información adicional sobre la asimetría y la dispersión de la
distribución examinando la longitud de las barras exteriores: si una línea es mucho
más larga que otra, más asimetría hay en la dirección de la barra mayor.

Dado que los diagramas de caja utilizan la mediana y los cuartiles tienen la ventaja de
no ser tan sensibles a valores extremos como son otros métodos basados en la media y
la desviación típica (valor estandarizado). Los box-plot no muestran tanta información
como un histograma o un diagrama de tronco-hojas, así que podrían no ser la mejor
opción si se trabaja con una única muestra. Los diagramas de caja adquieren su máxima
Diagramas de caja y detección de outliers -

expresión cuando se utilizan para comparar varias muestras o distintos subgrupos


dentro de una misma muestra. Al usar dos o más diagramas de caja para comparar
distintos conjuntos de datos es muy importante emplear la misma escala para
poder realizar bien las comparaciones.

A continuación se muestran distintos conjuntos de datos con sus respectivos


histogramas, diagramas de caja y coeficientes g1 y g2 de Fisher de asimetría y
curtosis

g1  0.99 g1  0.56 g1  0.04


g2  0.26 g2  0.51 g2  0.37

g1  0.31 g1  1.65 g1  6.73


g2  0.58 g2  2.91 g2  44.12
44 - Diagramas de caja y detección de

g1  0.86 g1  -0.15 g1  0.03


g2  5.8 g2  0.02 g2  0.92

Veamos cómo calcular el diagrama de caja para el ejemplo del perímetro de los árboles.
Recordemos que:

Q1  47 cm Me  52 cm Q3  57 cm

Luego, el rectángulo central va desde 47 hasta 57 y es cruzado por una línea, que
representa la mediana, en el punto 52. Además:

Límite admisible inferior  LI  Q1  1.5  RI  47  1.5  (57  47)= 32

En consecuencia, el valor adyacente inferior es el primer valor observado mayor o igual


que LI  32 que es 36. Luego, la extensión de la izquierda es una barra que va desde 36
hasta 47. Además, como no hay ningún valor que sea menor estricto que LI, por este
lado no tenemos ningún outlier.

Límite admisible superior  LS  Q3  1.5  RI 57  1.5  (57  47)= 72

El valor adyacente superior es el último valor observado menor o igual que LS  72 que
es 67, luego la extensión de la derecha será una barra que une 57 con 67. El valor xi  74
es mayor estricto que LS, luego se considerará como outlier y será marcado mediante un
círculo en el box-plot. El resultado de todos los cálculos anteriores es el siguiente
diagrama de caja:

Perímetron
ormales(cm)de50pin
os

53 04 54 05 55 06 56 07 57
Diagramas de caja y detección de outliers -

Ejemplo: Recordemos el ejemplo sobre el índice de masa corporal (I.M.C.) para una muestra de 71
niñas de edades comprendidas entre los 8 y los 12 años y de sus respectivas madres visto en el apartado
dedicado a los diagramas de tallo y hojas. Construyamos los diagramas de cajas para poder comparar
mejor ambas muestras. En la tabla siguiente se aportan los datos necesarios para ello:

Cuartil Cuartil
Mínimo Máximo Mediana inferior superior
HIJAS 14 32 18 17 20
MADRES 18 54 29 22 35

El resultado es el siguiente:

Dia
gramadecajacomp
arativod
el IMCp
aralasma
dresylashijas

MAD
RES

HIJAS

101520253035404550556
0

¿Qué te sugiere la comparación de ambos diagramas?

Ejemplo: Se desea determinar los efectos de tres métodos distintos de irrigación (gota a gota, por
aspersión y a manta) en la producción de tomates. Para ello, en una estación experimental, se han tomado
30 parcelas de igual superficie y condiciones. Cada subgrupo de 10 parcelas ha sido asignado,
aleatoriamente, a uno de los tres tipos de riego. Finalmente se ha apuntado la producción de tomates,
medida en cajas por acre, que se ha obtenido en cada parcela. Los resultados se muestran resumidos en
el siguiente gráfico:

Pro
uc
dcióndetomates, encajas oracre,
p
úntresméto
se
g osdistintosdeir
d rig
ación

Ama
nta

Porasp
ersión

Gotaaota
g

41 61 81 02 22 42
46 - Diagramas de caja y detección de

¿Cómo influye el tipo de riego en la producción de tomates?


Ejemplo: Se ha realizado un estudio para comparar los efectos de tres dietas en el tamaño de los huevos
puestos por gallinas. Se seleccionaron 24 gallinas que fueron divididas aleatoriamente en tres grupos a
los que se les designaron al azar una de las tres dietas. Se apuntó el número de huevos, de entre un total
de 25, clasificados como de tamaño XL que puso cada ave. A continuación se muestran los diagramas de
caja para cada uno de los tres subgrupos.

Númerodeh evosdetama
u ñoXLp
estosp
u or allina
g
únladieta
se
g

Dieta3

Dieta2

Dieta1

01 21 41 61 81 02 22 42 62

¿Qué conclusiones podrías sacar de la observación de los diagramas?

5. TRANSFORMACIÓN DE DATOS
A menudo, conviene realizar una transformación de los datos, buscando que la
representación de éstos sea lo más simple posible.

3.5. TRANSFORMACIONES LINEALES


Una transformación de los datos es lineal si puede escribirse como

x'i  a  b  xi

donde xi son los datos originales, x'i los datos transformados, a es una constante fija que
representa el cambio de origen y b la constante que nos da el cambio de escala.

Las transformaciones lineales suponen, fundamentalmente, un cambio en las unidades


en que vienen medidas las variables (de acres a hectáreas, de galones a litros, de euros a
pesetas, estandarización,...)

Sabemos cómo quedan modificadas la media y la varianza cuando utilizamos


transformaciones lineales:
Transformación de datos -

 x'  a  b  x

Si x'i  a  b  xi 
  s2 b s2
2 x

 x

 s x'  b  s x

Es muy importante tener en cuenta que la forma de la distribución no cambia si sobre


una variable realizamos una transformación lineal, salvo el signo de la asimetría si el
coeficiente b es negativo.

Ejemplo: En la siguiente tabla se dan las temperaturas máximas, en grados Fahrenheit, registradas en
una muestra de 33 días en una determinada localidad.

Temperatura x i* ni
(F)
1 32-41 36.5 1
2 41-50 45.5 3
3 50-59 54.5 5
4 59-68 63.5 10
5 68-77 72.5 7
6 77-86 81.5 5
7 86-95 90.5 2
Totales 33

Teniendo en cuenta la relación entre los grados Fahrenheit y centígrados, es decir,


F  32
C , que es una relación lineal, podemos pasar los datos a grados centígrados.
1.8
La tabla, en esta última unidad se da a continuación:

Temperatura ni
(C) xi*

1 0-5 2.5 1
2 5-10 7.5 3
3 10-15 12.5 5
4 15-20 17.5 10
5 20-25 22.5 7
6 25-30 27.5 5
7 30-35 32.5 2
Totales 33

Los histogramas resultantes de ambas tablas, como se puede observar, son idénticos:
sólo varía la unidad de medida y la escala.
48 – Transformación de

11 11

01 01

9 9

8 8

7 7

6 6

5 5
Nu

Nu
4 4

3 3

2 2

1 1

0 0
32 23 14 05 95 86 77 68 59 -5 0 51
0 51 02 52 03 53

Temp
eratura(gra
osFa
d eit)
hre
hn Temp
eratura(gra
osce
d ntígra
os)
d

3.6. TRANSFORMACIONES NO LINEALES

Normalmente, con la transformación de un conjunto de datos se persigue lograr una


representación de éstos lo más sencilla posible. Además, muchos métodos estadísticos
requieren la normalidad de los datos para su correcta aplicación. De ahí, que
habitualmente se pretenda, dado un conjunto de datos, transformarlo en otro que sea lo
más simétrico posible.

Las transformaciones más usadas son las pertenecientes a la llamada familia potencial.
Éstas pueden tener las siguientes formas:

x'i  xq si q  0
i
x'i  ln xi si q  0
x'i  xq si q  0
i

Hay que darse cuenta que se considera como transformación potencial con exponente 0
a la transformación logarítmica, ya que su efecto es muy parecido al de una
transformación potencial con exponente próximo a 0.
Las transformaciones potenciales tienen la virtud de cambiar la forma de la distribución
de modo que si q  1, se reduce la asimetría positiva (comprime valores altos y
expanden valores bajos) y, en el caso de que q  1, se reduce la asimetría negativa
(comprimen valores bajos y expanden valores altos).
Los valores de q menores que 0 tienen el efecto de alterar el orden original de los datos.
Por ejemplo, 5  10 pero 51 > 101. Para conservar el orden original de los datos se usa
la transformación  xq en vez de la transformación xq cuando q  0.
i i

En lo anterior, siempre se supone que los datos de partida son positivos, que es lo más
frecuente. Cuando un conjunto de datos contiene valores negativos es habitual sumarles
alguna constante antes de aplicarles una transformación potencial ya que muchas
transformaciones potenciales no se pueden aplicar sobre valores negativos.

Ejemplo: En la siguiente tabla se dan los tiempos de espera, en minutos, de 50 pacientes desde su
llegada hasta ser atendido en una sala de urgencias pediátricas.

35 22 63 6 49 19 15 83 46 19
Transformación de datos -

16 31 24 29 36 68 42 57 64 8
23 47 21 51 7 40 19 46 16 32
58 33 55 32 22 36 25 27 37 108
39 10 42 28 72 13 51 45 77 16

Realizado el histograma y el box-plot de los datos, éstos muestran una clara asimetría
positiva. A continuación se ha probado a realizar tres transformaciones potenciales
diferentes. Puesto que queremos reducir la asimetría positiva, hemos de probar con
valores de q  1. En particular se ha tomado q  1/2, q  0 y q  1. En la tabla adjunta
también se muestran los histogramas y los diagramas de caja correspondientes a los
datos transformados. Según se observa, al disminuir el valor de q también disminuye la
asimetría positiva, pero si q es demasiado pequeño, los datos transformados empiezan a
manifestar asimetría negativa.

q=1/2
22 31
21
11
01
02 9
8
7
81 6
5
4
3
61 2
1
Nu

0
Nu

2
41

21

01 02 04 06 08 001 021 3 4 5 6 7 8 9 01 11

Tiempodeesp
era(min
utos) RAÍZ(Tiempodeesp
era)
8

0
0

0 02 04 06 08 001 021 2 3 4 5 6 7 8 9 01 11

Datos originales q  1/2


q=0 q=-1

81 54

61 04

41 53

21 03

01 52

8 02
Nu

Nu

6 51

4 01

2 5

0 0
1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0 -0.20 -0.15 -0.10 -0.05 0.00

LN(TiempodeEsp
era)

-1/(Tiempodeesp
era)
50 – Transformación de

1.5 2.0 2.5 3.0 3.5 4.0 4.5 -0.20 -0.15 -0.10 -0.05 0.00
5.0
Bibliografía -

6. BIBLIOGRAFÍA

 Candel Ato, J.; Marín Pérez, A.; Ruiz Gómez, J.M.: Estadística Aplicada I:
Estadística Descriptiva. Editorial PPU.
 Devore, J.L.: Probabilidad y estadística para ingeniería y ciencias. International
Thomson Editores.
 Devore, J.L.; Peck, R.: Statistics: The Exploration and Analysis of Data. Duxbury
Press.
 Escobar, M.: Análisis Gráfico/Exploratorio. La Muralla/Hespérides.
 Freund, J.E.; Simon, G.A.: Estadística Elemental. Prentice Hall.
 Gámez Mellado, A.; Marín Trechera, L.M.: Estadística para Ingenieros Técnicos.
Servicio de Publicaciones de la Universidad de Cádiz.
 Griffiths, D.; Stirling, W.D.; Weldon, K.L.: Understanding Data. Principles and
Practice of Statistics. Wiley & Sons.
 De la Horra Navarro, J.: Estadística Aplicada. Díaz de Santos.
 Johnson, R.A.; Tsui, K.W.: Statistical Reasoning and Methods. Wiley & Sons.
 Lara Porras, A.M.: Estadística para Ciencias Biológicas y Ciencias Ambientales.
Problemas y Exámenes resueltos. Proyecto Sur.
 Mendenhall; Scheaffer; Wackerly: Estadística Matemática con Aplicaciones. Grupo
Editorial Iberoamérica.
 Milton, J.S.: Estadística para Biología y Ciencias de la Salud. Interamericana-
McGraw-Hill.
 Ott, R.L.; Mendenhall, W.: Understanding Statistics. Duxbury Press
 Peña, D.: Estadística Modelos y Métodos, Vols. I y II. Alianza Universidad Textos.
 Rao, P.V.: Statistical Research Methods in the Life Sciences. Duxbury Press
 Scheaffer, R.L.; McClave, J.T.: Probabilidad y Estadística para Ingeniería. Grupo
Editorial Iberoamérica.
 Triola, M.F.: Estadística Elemental. Addison Wesley Longman.

También podría gustarte