Documentos de Académico
Documentos de Profesional
Documentos de Cultura
DESCRIPCIÓN DE VARIABLES
CUANTITATIVAS
UNIVARIANTES
Consideremos una variable estadística discreta X. A los valores que puede tomar les
denominamos xi. Si hemos tomado una muestra de tamaño n, tendremos n
observaciones que ordenadas de menor a mayor serán
x1 x2 x3 ...... xn
Una observación xi se puede repetir varias veces: al número de veces ni que se repite la
observación xi se denomina frecuencia absoluta correspondiente al valor xi. Entonces,
si hemos observado exactamente k valores distintos x1 x2 xk , podemos construir
la distribución o tabla de frecuencias absolutas que asocie a cada valor observado
su frecuencia absoluta {( xi, ni)}.
xi ni
(valor observado) (frecuencia absoluta)
x1 n1
x2 n2
..... .....
xk nk
Evidentemente, n1 n2 . . . . nk nk
i1
i n
Para que ni tenga significado ha de venir siempre acompañado del tamaño muestral n.
Para evitar esta continua referencia es mejor trabajar con la frecuencia relativa (fi ) de
xi que representa la proporción, sobre el total, del número de veces que se ha observado
xi , es decir,
n
frecuencia relativa de x f i
i i
n
2 - Tablas estadísticas y gráficos para variables cuantitativas
ni
f
k k
Claramente, f1 f2 ........ fk 1. Además, 0 f 1.
i
n
i1
i1
Ni n1 n2 ......... ni i nh
h1
Todo lo expuesto anteriormente se puede resumir en una tabla que nos muestre las
diferentes frecuencias asociadas con una variable:
x1 n1 f1 N1 F1
x2 n2 f2 N2 F2
⁝ ⁝ ⁝ ⁝ ⁝
xk nk fk Nk Fk
Totales n 1
visual.
Los gráficos utilizados cuando la variable es discreta son: diagrama de barras, polígono
de frecuencias y curva acumulativa o de distribución.
Diagrama de barras: sobre unos ejes cartesianos, se toman en el eje de abscisas los
valores xi de la variable, levantándose sobre cada uno de estos valores una barra de
altura igual a su frecuencia (ya sea absoluta, relativa o porcentual). El patrón visual
es el mismo sea cual sea el tipo de frecuencia utilizado. Lo fundamental es que en
un gráfico de barras asimilamos la frecuencia de cada valor con la longitud de la
barra.
DIAGRAMADEB
ARRAS
ni o
Frecue
x1 x2 x3 x4 x5 x6
POLÍGONODEFRECUEN
CIAS
ni o
Frecue
x1 x2 x3 x4 x5 x6
CURVAACUMULATIVA
Ni o
n4 ó f 4
Frecue x1 x2 x3 x4 x5 x6
Ejemplo: Con objeto de estudiar los efectos de un plaguicida sobre una masa forestal se ha
tomado una muestra de 60 árboles y en cada uno de ellos se ha contado el número de cepas
enfermas, obteniéndose los siguientes datos:
1 4 3 5 4 5 5 2 2 4
7 6 3 5 3 5 4 6 4 5
4 6 2 6 1 3 6 4 3 5
6 4 1 5 4 7 4 6 3 3
4 5 5 7 2 6 3 5 4 6
7 5 2 3 6 5 8 4 2 4
Tabla 1
02
51
01
Nºdeár
(frec.
0
12345678
Nºdece
ase
pnfermas
1
Las sumas pueden no ser exactas debido a errores de redondeo.
Tablas estadísticas y gráficos para variables cuantitativas unidimensionales - 5
80
árboles (frec.
60
Nº de
40
20
0
0123456789
Nº de cepas enfermas
Sea [a, b] un intervalo que contenga a todos los datos observados x1 , x2 , x3 ,......., xn .
Dividimos el intervalo [a, b] en k intervalos contiguos
a a1 a2 ........ ak 1 b
Las clases pueden ser de la misma o de distinta longitud, pero, a no ser que haya
claros motivos para ello, es preferible que todas las clases tengan idéntica longitud.
relieve los rasgos esenciales de los datos, eliminando detalles sin importancia. Con el
proceso de agrupación de datos se pierde parte del detalle original, pero tiene la
ventaja de presentarlos en un sencillo cuadro que facilita el hallazgo del
comportamiento y características principales de los datos.
La clave fundamental, pues, reside en la selección de las clases y, en particular, del
número k de clases a utilizar. Lo normal es emplear un número de clases comprendido
entre 5 y 20 3. El número exacto dependerá en gran medida del conjunto de datos
analizado y será cuestión de sentido común.
Además, si es posible, se seleccionarán los extremos de clases en múltiplos de números
de manejo fácil, tales como 2, 5, 10, 100... porque esto tenderá a facilitar la elaboración
y posterior uso y lectura de la tabla de frecuencias.
Finalmente, y como ya se apuntó anteriormente, siempre que sea factible se
seleccionarán las clases de la misma longitud, aunque hay casos en que esta regla no
puede aplicarse. Se suelen utilizar clases de distinta longitud cuando la mayoría de los
valores muestrales están concentrados en una parte del rango mientras que hay
relativamente pocas medidas que se extienden por el resto.
Supongamos, por ejemplo, que nos encontramos con un listado de impuestos pagados
por la población. Estas cantidades pueden variar, supongamos, entre 0 euros y 10
millones de euros. Si decidimos dividir este rango en 10 clases de la misma longitud, la
longitud de cada una de ellas sería de 1 millón de euros. Evidentemente, casi la práctica
totalidad de las observaciones caería en la primera clase. Por lo tanto, para datos de este
tipo, es más lógico utilizar clases más estrechas en la parte inicial de los datos e
intervalos mucho más anchos para el extremo superior.
Los gráficos más utilizados cuando la variable es continua son: histogramas, polígonos
de frecuencias y curva acumulativa o de distribución.
Para dibujar un histograma procederemos como sigue: sobre unos ejes cartesianos,
se marcan en el eje de abscisas los extremos de cada clase y sobre cada uno de
estos intervalos se trazan rectángulos de altura igual a:
- ni ó fi en el caso de que todas las clases sean de la misma longitud.
- ni
f
li ó i en el caso de que todas las clases no tengan la misma longitud, en
l i
donde li representa la longitud de la clase i-ésima.
3
Se han propuesto varias soluciones para la selección del número k de clases. Por ejemplo: k n o
bien k 1 log2 n 11.4427 ln n
Tablas estadísticas y gráficos para variables cuantitativas unidimensionales - 7
HISTOGRAMA
h
a1 a2 a3 a4 a5 a6 a7 a8
Polígono de frecuencias: es un gráfico de línea que se construye uniendo mediante
segmentos los puntos medios de las partes superiores del histograma. Se suele
prolongar el polígono suponiendo que existieran clases de frecuencia cero
inmediatamente anteriores y posteriores a la primera y última de las clases de
agrupación.
Para comparar varias muestras es más claro superponer polígonos que histogramas.
Además, el polígono sugiere el uso de una curva suave como representación ideal de
la población subyacente.
HISTOGRAMA
YPOLÍGONODEFRECUENCIAS
ni
a1 a2 a3 a4 a5 a6 a7 a8 a9
Curva acumulativa o de distribución: sobre unos ejes cartesianos se dibujan los
puntos cuya abscisa es igual al extremo superior ai 1 de la clase i-ésima y su
ordenada igual a la frecuencia acumulada Ni o Fi de la clase i-ésima, es decir, los
puntos (ai 1, Ni ) o (ai 1, Fi ). Dichos puntos se unen mediante segmentos.
Si trabajamos con frecuencias relativas se tiene que la función de distribución es
creciente entre 0 y 1, nula para todo valor de x inferior al valor más pequeño que
pueda tomar la variable (a1), e igual a 1 para todo valor mayor o igual al mayor
extremo de clase (ak 1).
CURVADEFRECUENCIASACUMULADAS
Ni o
a1 a2 a3 a4 a5 a6 a7 a8
8 - Tablas estadísticas y gráficos para variables cuantitativas
Ejemplo: Se han medido los perímetros (en cm) de 50 pinos a la altura 1.30 m. del suelo
(altura normal) obteniéndose los siguientes resultados:
36 50 56 37 50 57 40 50 58 41
51 58 41 52 59 43 52 59 44 52
60 45 52 60 45 52 61 46 53 63
46 53 65 46 53 65 47 54 67 48
54 74 48 54 49 55 49 55 50 56
Tabla 2
1 35-40 37.5 3 6 3 6
2 40-45 42.5 6 12 9 18
3 45-50 47.5 12 24 21 42
4 50-55 52.5 14 28 35 70
5 55-60 57.5 9 18 44 88
6 60-65 62.5 4 8 48 96
7 65-70 67.5 1 2 49 98
8 70-75 72.5 1 2 50 100
Totales 50 100
Histo
gramayp
olíg
nodefrecu
o ncias
e
03
52
02
51
Frecuenciarel
01
0
30 35 40 45 50 55 60 65 70 75 08
ERÍMETRO(cm)
P
Curvadedistrib
ución
01
08
06
Frecuenciarel
04
02
0
30 35 40 45 50 55 60 65 70 75 08
ERÍMETRO(cm)
P
Clase ni fi Altura hi
Las dos últimas clases contienen 35 observaciones cada una. Por lo tanto, ambas tienen
la misma frecuencia relativa. Sin embargo, en el primer caso las 35 observaciones se
extienden sobre un intervalo de longitud 5, mientras que las observaciones de la última
clase son menos densas puesto que corresponden a una clase de longitud 10. Puesto que
en un histograma asimilamos la frecuencia con el área, si utilizamos como alturas de los
rectángulos la frecuencia de cada clase, el patrón visual que nos proporciona el
histograma es falso: la clase C3 tiene el doble de frecuencia (área) que la clase C2. Por lo
tanto, tenemos que volver a calcular las alturas de los rectángulos del histograma para
lograr que el rectángulo asociado a la clase C3 tenga la misma área que el asociado a la
clase C2. Esto se consigue sin más que considerar rectángulos cuya base se coincida
con
la clase correspondiente y la ni fi
altura h ó h . Así logramos que el área del
i i
l il i
rectángulo asociado a la clase C2 (l2 h2 5 0.07 0.35) sea igual que el área del
rectángulo asociado a la clase C3 (l3 h3 10 0.035 0.35).
10 - Tablas estadísticas y gráficos para variables cuantitativas
0.3
Frecuencia relativa
0.05
0.2
Alt
0.1
0.01
0 5 10 15 20 0 5 101520
Histograma incorrecto Histograma correcto
hojas
tallo
3 65 36 5
Puesto que los números de entrada tienen dos dígitos, seleccionamos las unidades como
tallos y al dígito de las décimas como hojas. El diagrama de tallo y hojas queda como
sigue:
Cuando realizamos un diagrama de tallo y hojas a mano, hemos de tener cuidado con
que el espacio entre hoja y hoja sea el mismo. Puesto que la longitud de cada línea
del diagrama nos da la correspondiente frecuencia, el apiñar ciertas hojas o escribir
demasiado separadas otras podría causarnos un falso efecto visual.
El diagrama de tallo y hojas se suele subtitular con una leyenda que nos ayude a
la lectura de los datos: si queremos reconstruir los datos originales hemos de saber
si 1 2 representa al número 12, 1.2, 0.12,...
Para completar la construcción del diagrama, se suelen ordenar en cada línea las hojas
en forma ascendente.
Es habitual acompañar a un diagrama de tallo y hojas con una columna a la izquierda
que se denomina columna de profundidades. Esta columna da el conteo de las
frecuencias acumuladas a medida que se avanza desde cualquiera de los dos extremos
hacia el centro. La columna de profundidades cuenta y acumula el número de
observaciones en cada renglón empezando desde cualquiera de los dos extremos del
diagrama hasta llegar al renglón donde se encuentra la mediana (observación central de
un conjunto de datos ordenados). Para este renglón, la columna de profundidades sólo
muestra el número de observaciones que hay en él y se escribe entre paréntesis.
12 - Diagramas de tallo y
Los datos varían entre 36 y 74. Así, como tallos tenemos, a 3, 4, 5 ,6 y 7, quedando
el diagrama de tallo y hojas como:
Como en este caso, cuando el primer dígito (el tallo) varía poco, la mayoría de los datos
tiende a agruparse alrededor de un único tallo y el diagrama resultante tiene poco
detalle. En este caso es conveniente subdividir cada tallo en dos líneas. Se simboliza,
por ejemplo, mediante un asterisco () a aquella línea cuyas hojas están comprendidas
entre 0 y 4 y con un punto () a la línea cuyas hojas van del 5 al 9. Resulta, así, lo que se
denomina un diagrama doble de tallo y hojas. A veces, puede ser conveniente aumentar
el detalle desglosando cada tallo en cinco líneas (hojas 0-1, 2-3, 4-5, 6-7 y 8-9).
Diagrama doble de tallo y hojas sin ordenar Diagrama doble de tallo y hojas ordenado
2 3 67 2 3 67
7 4 13410 7 4 01134
17 4 9957686568 17 4 55 6 6 6 7 8 8 9 9
(16) 5 0001224233244302 (16) 5 0000122222333444
17 5 678896955 17 5 556678899
8 6 0310 8 6 0013
4 6 755 4 6 557
1 7 4 1 7 4
(1 2 representa 12) (1 2 representa 12)
Ejemplo: Número de días con índice de contaminación 100 o mayor en 15 ciudades de U.S.A.
durante 1979:
248 113 60 58 82
106 118 88 47 128
33 55 47 208 79
La solución final consiste en, en el último diagrama de tallo y hojas, desglosar cada
tallo en dos líneas resultado:
3 0 33 47 47
(6) 0 55 58 60 79 82 88
6 1 06 13 18 28
2 1
2 2 08 48
( 102 representa 102)
14 - Diagramas de tallo y
Ejemplo: Se define el “índice de masa corporal” como el cociente entre el peso, en kilogramos, y el
cuadrado de la altura, medida en metros. Índices por encima de 35 son indicativo de potencial riesgo
debido a la obesidad. A continuación se dan dos muestras que reflejan el
índice de masa corporal” (I.M.C.) para una muestra de 71 niñas de edades comprendidas entre
los 8 y los 12 años y de sus respectivas madres.
Para comparar los datos se ha realizado un diagrama de tallo y hojas adosado o espalda con espalda de
ambas muestras, resultando:
(1 2 representa 12)
Ambas muestras presentan una ligera asimetría positiva, sobre todo en el caso de las
madres.
Para la muestra de las niñas, la característica más notoria es lo limitado de su rango:
todas las observaciones caen entre 14 y 32, estando la mayoría de las observaciones
entre 15 y 19. Hay sólo dos observaciones que se separan un poco más de las demás: 28
y 32, pero no lo están lo suficiente como para ser consideradas outliers.
El comportamiento del índice de masa corporal para las madres es bastante distinto. Es
mucho más disperso, con valores comprendidos entre 18 y 54. La mayor parte de las
observaciones se encuentra entre 20 y 38, es decir, toman, en general, valores mucho
mayores que los índices de las hijas. Además, hay bastantes observaciones por encima
de 35 umbral por encima del cual se pueden presentar problemas de salud
3. MEDIDAS DESCRIPTIVAS
Con las tablas de frecuencias y los distintos tipos de gráficos hemos realizado una
primera síntesis de los datos. Sin embargo, la descripción de éstos será más completa si
también aportamos ciertas medidas numéricas que reflejen algunas de las características
más relevantes del conjunto observado de datos.
medir de una variable y que resultan útiles a la hora de realizar un análisis estadístico
son las siguientes:
Medidas de posición
Medidas de centralización o de tendencia central
Medidas de dispersión
Medidas de forma (grado de asimetría y de apuntamiento o curtosis)
En lo que sigue, trataremos de estudiar en qué consiste cada tipo de medida y cuáles son
los estadísticos que se emplean habitualmente para la cuantificación de cada una de
dichas características.
Las medidas de posición tratan de indicar cuál es el valor que ocupa una determinada
posición dentro de una lista ordenada de datos. Más en concreto, tratan de dar el valor
que deja una determinada proporción o porcentaje de observaciones por debajo de él.
Dado 0, 1 se define el cuantil- (y se denota por C) como aquel valor de la
muestra tal que una proporción de las observaciones son menores o iguales que C y
una proporción 1 de los valores son mayores o iguales que él.
El cuantil más sencillo, que más tarde también emplearemos como medida de tendencia
central, es la mediana (Me) o cuantil-0.5. La mediana se define como el valor que ocupa
la posición central en un conjunto de datos ordenados. También se puede definir como
aquel valor tal que el 50% de las observaciones son menores o iguales que ella y el otro
50% de las observaciones son mayores o iguales que su valor. Por ejemplo, si nuestro
conjunto de datos es {3, 7, 8, 10, 12} es claro que el valor que ocupa la posición central
es 8, por lo tanto Me 8. Sin embargo, si el conjunto de datos fuera {3, 7, 8, 10, 12, 17}
no hay ningún valor que ocupe la posición central. En este caso tendríamos dos valores
centrales: 8 y 10. Entonces, como mediana del conjunto de datos se toma la media de
estos dos valores centrales, es 8 10
M 9.
decir, e
2
Otros cuantiles son los cuartiles. Los cuartiles (Q1, Q2 y Q3) son los tres valores que
dividen a la distribución de frecuencias en cuatro partes de igual tamaño. Así, el primer
cuartil Q1 (o cuantil-0.25) es el valor de la muestra tal que el 25% de los valores son
menores o iguales que él. El segundo cuartil Q2 (o cuantil 0.5) es el valor de la muestra
que deja un 50% de los datos por debajo de él. Es obvio que este segundo cuartil
coincide con la mediana. Y, finalmente, el tercer cuartil Q3 (o cuantil 0.75) es el dato
muestral tal que el 75% de los datos son menores o iguales que él. También podemos
decir que los cuartiles dividen al histograma en cuatro partes cada una de ellas
conteniendo un 25% de la frecuencia, es decir, del área total que encierra el
histograma.
16 - Medidas de posición: los
Q1 Q2 Q3
Calculemos los cuartiles en el caso de los perímetros de los pinos. Podemos utilizar el
diagrama de tallo y hojas ya que en éste teníamos ordenados los datos (la muestra era
de n 50 datos).
2 3 67
7 4 01134
17 4 5566678899
(16) 5 0000122222333444
17 5 556678899
8 6 0013
4 6 557
1 7 4
(1 2 representa 12)
4
x es el símbolo para denotar la parte entera del número real x. Por ejemplo, 7.84] 7.
Medidas de tendencia central -
Por lo tanto
Este tipo de medidas tiene por objeto dar un valor típico que sirva para representar todos
los valores individuales de la muestra. Lo que interesa hacer es, en definitiva, resumir
todos los datos muestrales en un único valor.
Las medidas de centralización más usuales son: la moda, la media aritmética y la
mediana. Por ejemplo, si nos piden que demos la nota más típica o representativa de un
examen podemos dar:
Hay que apuntar el hecho de que, aunque se denominen valores de tendencia central,
esto no quiere decir que dichos valores se encuentren situados en el centro del rango
de la variable. Puede ocurrir perfectamente que estén próximos a los extremos de la
distribución.
24 - Medidas de tendencia
3.2.1. LA MODA
La moda (Mo) es la más sencilla de las medidas de tendencia central. Es, simplemente,
el valor más frecuente de una muestra. Por su gran simplicidad, se puede utilizar como
un estimador rápido, aunque sólo tiene significado si destaca realmente del resto de
valores.
Es más frecuente hablar de moda para datos discretos. En el caso de datos agrupados se
suele hablar de intervalo o clase modal como aquella clase con mayor densidad de
frecuencia. En el histograma se corresponde con la clase cuyo rectángulo tenga mayor
altura (ya sean las clases de la misma o distinta amplitud).
En general, también se denomina moda a cualquier valor que sea más frecuente que
valores adyacentes. Y así, podemos hablar de muestras unimodales, bimodales,...
x x1 x2 ... xn 1 xin
n n i 1
x 1 ni xi
k
n i1
pequeña.
La media es un número que viene dado en las mismas unidades que las observaciones
de la muestra. Así, en el ejemplo de las cepas:
3 1 6 2 9 3 14 4 13 5 10 6 4 7 1 8 259
x 60 60 4.3167
Es decir, el número medio de cepas enfermas es de 4.32 cepas por árbol. Cuando se van
a realizar los cálculos a mano se suele hacer una tabla que nos facilite la realización de
éstos. A las columnas originales de valores (xi ) y frecuencias (ni ) se le añade una
columna de productos de valores observados por frecuencias, es decir la columna ni
xi. La tabla queda como:
Num. de cepas
enfermas (xi)
ni ni xi
1 3 3
2 6 12
3 9 27
4 14 56
5 13 65
6 10 60
7 4 28
8 1 8
Totales 60 259
k
1 259
i ni xi 4.3167 .
De nuevo obtenemos
que n i1
60
Perímetro (cm) xi ni ni xi
1 35-40 37.5 3 112.5
2 40-45 42.5 6 255.0
3 45-50 47.5 12 570.0
4 50-55 52.5 14 735.0
5 55-60 57.5 9 517.5
6 60-65 62.5 4 250.0
7 65-70 67.5 1 67.5
8 70-75 72.5 1 72.5
Totales 50 2580.0
k
1 2580
x ni xi 51.6 , es decir, la muestra de 50 pinos tiene un
Por lo
tanto,
n i1 50
perímetro medio de 51.6 cm (si se calcula la media sobre los datos sin agrupar
obtenemos que x 52.22 cm).
26 - Medidas de tendencia
Propiedades de la media
(x
n
i 1
i x) 0
Es decir, la suma de las desviaciones de todos los datos con respecto a la media es igual
a 0.
Esto lo podemos interpretar de la siguiente forma: supongamos que sobre un eje rígido
de masa despreciable colocamos pequeñas bolas, todas con la misma masa, de forma
que cada una de las bolas represente a cada uno de los datos muestrales. La media es,
precisamente, la posición donde se alcanza el equilibrio de la figura.
Es fácil calcular la media de una serie de números obtenida a partir de otra ya sea
por cambio de origen o de escala. Así, tenemos que:
Es decir, si realizamos una traslación, la media queda trasladada por la misma cantidad.
Vale decir lo mismo en el caso de un cambio de escala.
Los cambios lineales nos permiten realizar codificaciones con los datos para simplificar
los cálculos de la media y otros estadísticos, además de para evitar la acumulación de
errores en los cálculos ya sea en los cálculos hechos a mano o en el ordenador.
Dado un conjunto de datos, para realizar una codificación se elige como nuevo origen
un valor central o la marca de una de las clases centrales. Si todos los datos originales
son equidistantes o si las clases son todas de la misma longitud, se toma como nueva
unidad la distancia entre los datos o la longitud de las clases9.
Veamos como realizar una codificación en el ejemplo de los perímetros de los árboles:
si miramos la tabla original (tabla 2), vemos que las clases centrales son la clase 4 y la
5, cuyas marcas son 52.5 y 57.5, respectivamente. Elijamos, por ejemplo, a 52.5 como
nuevo origen. Todos las clases tienen longitud igual a 5 cm. Por lo tanto, esta será
nuestra nueva unidad de medida. Los datos codificados xi' vendrán definidos como:
9
Si los datos no son equidistantes o todas las clases no tienen la misma longitud, habría que tomar como
nueva unidad el mínimo común múltiplo de las distancias entre datos o de las amplitudes de clase.
Medidas de tendencia central -
xi 52.5
xi '
5
Totales 50 9
1 k
9
Por lo
tanto,
x' n x ' 0.18
. Puesto que tenemos que
ni1 i 50
xi 52.5
x '
x 52.5 5 x '
i i i
5
La media aritmética conlleva un cálculo algebraico más complicado que 1 nla moda y
x x
la
( mediana. Sin embargo, al poseer una fórmula para su cálculo i ), ésta
ni1
nos permite derivar las propiedades matemáticas y estadísticas de la media, obtener
otros importantes estadísticos (varianza, coeficiente de correlación...)
Por ejemplo, supongamos que las rentas anuales de 10 personas (en cientos de
euros) son las siguientes:
5030
1 10 x
La renta media de las 10 personas es
de
503
x 10 i1
cientos de euros,
i
10
cifra que, evidentemente, representa muy mal a la muestra. Esta poca representatividad
deriva de ese valor de 3000 que es mucho mayor que el conjunto general de los datos y
hace distorsionar el valor de la media.
3.2.3. LA MEDIANA
Si todos los datos de una muestra se ordenan en forma creciente, la mediana (Me) es el
valor que ocupa la posición central, es decir, el valor de la variable que, en principio,
deja igual número de observaciones por debajo y por encima de ella. Según hemos
visto, la mediana es el 50-percentil (p50).
Propiedades de la mediana
50
n 10 5Z profundidad ) 5 0.5 5.5
100 100 (Me
x MeMo
Mo Me x x Me Mo
Distribución simétrica
Distribución asimétrica positiva Distribución asimétrica negativa
acampanada
La mediana no posee una fórmula para su cálculo: esto hace que la mediana se
preste mal a cálculos posteriores y a la obtención de otros estadísticos a partir de
ella.
Las medidas de centralización intentan resumir todos los valores observados en uno
solo. La utilidad de una medida de tendencia central depende, por lo tanto, de su poder
representativo. Consideremos los siguientes conjuntos de datos:
C1 {10, 10}
C2 {9, 11}
C3 {0, 20}
Para los tres conjuntos la media coincide con 10. Sin embargo, es obvio que este valor es mucho mejor
representante de conjunto C1 que del conjunto C3. Si los valores observados están muy agrupados en
torno al promedio, éste será muy representativo, pero si los valores están muy dispersos con respeto al
promedio, éste "no valdrá demasiado". Por lo tanto, el significado de un promedio gana mucho si viene
acompañado de una medida de la concentración o dispersión de los datos en torno a él.
Por otra parte, no es necesario que una medida de dispersión haga referencia a un valor de tendencia
central. Sin tomar al valor de la media como referencia, es claro que los datos del conjunto C3 son más
dispersos que los datos del conjunto C1. Por lo tanto, podemos dividir las medidas de dispersión en dos
clases:
que dichas medidas tomen el valor cero cuando el conjunto de datos no presente ninguna
variabilidad (medida de dispersión para C1 0).
que una medida de dispersión tome sólo valores mayores o iguales a cero.
que cuanto mayor sea la variabilidad de los datos, mayor sea la medida de dispersión: (medida
de dispersión para C1 medida de dispersión para C2 medida de dispersión para C3 ).
R x(max) x(min)
Aunque es una medida muy sencilla y rápida de calcular, está dotada de una gran inestabilidad al
depender únicamente de los valores extremos que según hemos comentado son, a menudo, poco
significativos o erróneos. Además, como su cálculo sólo se basa en dos valores, el rango puede cambiar
drásticamente entre dos muestras de la misma población pese a que los valores intermedios de ambas
muestras sean similares.
Así, por ejemplo, se define el rango o recorrido intercuartílico (RI ) como la diferencia entre los
cuartiles superior e inferior, es decir,
RI Q3 Q1
A veces, también se utiliza el rango o recorrido interdecílico (RD ) que se define como la diferencia
entre el decil noveno y el primero, es decir,
RD D9 D1
Según hemos dicho, estas medidas intentan describir la concentración o dispersión de los datos con
respecto a una medida de tendencia central (que normalmente será la media o la mediana).
Consideremos nuestro conjunto de datos x1 , x2 , ...., xn y sea una medida de tendencia central (la media
o la mediana). Para cada valor individual xi podemos medir la distancia entre xi y el promedio . La forma
habitual de medir la distancia entre xi y es mediante la fórmula xi (desviación absoluta de xi con
respecto a ). Pero, a menudo, se emplean las desviaciones cuadráticas: en este caso la distancia entre xi y
se calcula como (x )2 (desviación cuadrática de x con respecto a ). Haciendo el cálculo para cada
uno de los datos de lai muestra, obtenemos dos series que representan la discrepancia entre los datos
originales y la medida de tendencia central elegida:
Pues bien, si calculamos la media o la mediana de cualquiera de estas dos series, obtendremos diferentes
medidas de dispersión que reflejarán, en promedio, cuánto distan los datos muestrales de la medida de
tendencia central elegida.
Podríamos obtener, así, ocho estadísticos distintos, pero, realmente, no todos se van a emplear. Los más
usuales son los siguientes:
1
x Media de la serie 1 x i x Desviación absoluta media con respecto a la media
n
1
Me Media de la serie 1 x M
i e
Desviación absoluta media con respecto a la mediana
n
Me Mediana de la serie 1 mediana{ xi Me } MEDA
1
x Media de la serie 2 (x i x) 2
Varianza muestral
n
La medida de dispersión más utilizada de entre las anteriores es la varianza muestral. El poco uso de las
demás se debe fundamentalmente a un problema de carácter técnico: al aparecer los módulos, su
manejo algebraico es más complicado.
Según hemos dicho, en principio se define la varianza muestral (s2) como la media de las desviaciones
cuadráticas de las observaciones con respecto a la media, es decir,
n
1
s2
x) 2
n (x
i1 i
26 - Medidas de
Si definimos la suma de cuadrados de las x corregidas por la media (o simplemente suma de cuadrados
n SSX
SSX (xi x) 2 entonces s
2
de las x) como .
i1 n
Con la varianza muestral se intenta estimar el verdadero valor, desconocido, de la varianza poblacional (a
la que se denomina 2). Pues bien, en inferencia estadística se demuestra que para estimar la varianza
poblacional es mejor estimador cuando se divide la suma de cuadrados entre n 1 que entre n. Así que, a
partir de ahora, siempre que hagamos referencia a la varianza muestral, consideraremos la suma de
cuadrados de las x dividida entre n 1 10, es decir,
(x
n
s 2 SSX 1 i x)2
n 1n 1 i1
La varianza es un estadístico cuyas unidades de medida son las unidades de la variable original elevadas
al cuadrado. Para obtener una medida de dispersión cuyas unidades sean las mismas que las unidades de
los datos originales, se considera la desviación típica o estándar (s) que se define como la raíz cuadrada
de la varianza:
n
s s2 SSX 1 (xi x)2
n 1n 1 i1
n
Según hemos dicho, SSX x) 2 . Los cálculos realizados con esta fórmula pueden
(x i
i1
arrastrar numerosos errores de redondeo. Para el cálculo de SSX es preferible usar la siguiente
fórmula alternativa:
n n
1 n 2
SSX (x
i1
ix) x
2
i x
i1
2
n i1
i
Veamos su obtención (eliminamos los índices de los sumatorios para simplificar la notación):
SSX (xi x) 2 x 2 2 x x 2 x 2 2 x x 2
i
x x
i i i
2
2x
2 xi n
2 2
xi n x
x 1 xi
1
xi
n
xi
n
2
2 1 1
x2 x x x 2 x
2 2 2
i i i i i
n n n
Cálculo de la varianza en una tabla de frecuencias.
10
Muchos textos sí hacen distinción entre las suma de cuadrados dividida entre n (varianza muestral) y la
Medidas de dispersión -
suma de cuadrados dividida entre n 1 (varianza muestral corregida o cuasivarianza muestral).
28 - Medidas de
Si hemos realizado una tabla de frecuencias y tenemos que la variable toma valores x1 , x2 , . . . , xk
con frecuencias n1 , n2 , . . . , nk, respectivamente, entonces la fórmula de la varianza se modificará
simplemente multiplicando cada sumando por la frecuencia ni correspondiente:
k
SSX 1
1 k 1 n
2
x
s 2
n 1 n 1 n
x) 2
(xi n 1 ni
2
i n ni
xi
i
i1 i1 i1
Es obvio, que si en nuestra tabla hemos agrupado los datos, el valor de xi será el de la marca de la
clase Ci.
De todas formas, como está claro cuándo hemos de introducir las frecuencias, por simplicidad de
notación es preferible utilizar la fórmula original de la varianza.
En los dos ejemplos que venimos siguiendo, simplemente a la tabla donde realizamos los cálculos para
obtener la media, habría que adjuntar una nueva columna para el cálculo de n x 2.
i
1 3 3 3
2 6 12 24
3 9 27 81
4 14 56 224
5 13 65 325
6 10 60 369
7 4 28 196
8 1 8 64
Totales 60 259 1277
Por lo tanto:
2 SSX k
1 n 1 2592 2.69 (cepas enfermas)2
1 2 2 1
s ni ni xi 1277
xi n 1 n 1 n 59 60
i1 i1
2
Perímetro (cm) xi ni ni xi ni xi
1 35-40 37.5 3 112.5 4218.75
2 40-45 42.5 6 255.0 10837.50
3 45-50 47.5 12 570.0 27075.00
4 50-55 52.5 14 735.0 38587.50
5 55-60 57.5 9 517.5 29756.25
6 60-65 62.5 4 250.0 15625.00
7 65-70 67.5 1 67.5 4556.25
8 70-75 72.5 1 72.5 5256.25
Totales 50 2580.0 135912.50
Luego,
2 SSX k
1 n 1 25802 56.83 (cm)2
1 2 2 1
s ni ni xi 135912.5
xi n 1 n 1 n 49 50
i1 i1
Como se vio en el caso de la media, los cambios de variable lineales se pueden emplear
para realizar codificaciones que permitan acelerar los cálculos y minimizar los errores
debidos a redondeos. Así, para los datos del perímetro, habíamos realizado la
codificación xi 52.5
x'i . Los cálculos para la obtención de la varianza se muestran a
5
continuación:
30 - Medidas de
Totales 50 9 113
SSX ' 1 1 1 1
s2 x' 2
x' 2
113 92 2.27
49
x' i
n 1 n 1 n i
50
Por lo tanto,
como xi 52.5 5 xi ' se tiene que:
La varianza y la desviación típica es a las medidas de dispersión como la media es a las medidas de
tendencia central. Es la medida de dispersión con más estabilidad de muestra a muestra. Presenta un
fácil manejo algebraico. Además, en muchos modelos poblacionales, la varianza aparece como un
parámetro inherente a la distribución de dicha población.
Como en la varianza, las desviaciones van elevadas al cuadrado, las observaciones extremas tienen
una gran influencia en el valor final del estadístico.
A partir de la media y de la desviación típica de una serie de datos, el teorema de Chebyshev nos permite
obtener intervalos para predecir dónde se encuentran las observaciones.
DESIGUALDAD DE CHEBYSHEV
Sea un conjunto de datos con media x y desviación típica s. Sea k una constante mayor que 1. Entonces:
La frecuencia relativa de los datos que distan de la media menos de k desviaciones típicas de la
media es mayor o igual que 1 1 . Es decir, la frecuencia relativa de los datos que caen
k2
dentro del conjunto x k s, x k s es mayor o igual que 1 1
k2
Medidas de dispersión -
x- ks x xks
En particular,
3 1
Si k 2 al
menos 1 (o el 75%) de los datos han de distar menos de 2
2
4 2
desviaciones típicas de la media, es decir, han de estar en el intervalo x 2 s, x 2 s
8 1
Si k 3 al
menos 1 (o el 88.9%) de los datos han de distar menos de 3
2
9 3
desviaciones típicas de la media, es decir, han de estar en el intervalo x 3 s, x 3 s
Ejemplo: En una muestra de varones menores de 21 años se encontró que el nivel medio de
colesterol era de x 160 mg/dl con una desviación típica de s 10 mg/l.
Si k 2 Al menos el 75% de los varones menores de 21 años tienen un nivel de colesterol que se
encuentra comprendido x 2 s 160 2 10 140 mg/dl y
entre
x 2 s 160 2 10 180 mg/dl.
Si k 3 Al menos el 88.9% de los varones menores de 21 años tienen un nivel de colesterol que
se encuentra comprendido x 3 s 160 310 130 mg/dl y
entre
x 3 s 160 310 190 mg/dl.
Ejemplo: En una muestra de 100 vacas se obtuvo que la producción media de leche diaria era
de x 10.75 l con una desviación típica de s 1.5 l. ¿Qué podemos afirmar con respecto a la
frecuencia del intervalo (7, 14.5)?
Es decir, el intervalo (7, 14.5) x 2.5 s, x 2.5 s está formado por las observaciones que
distan de la media menos de 2.5 desviaciones típicas. Por lo tanto, la desigualdad de Chebyshev asegura
que la frecuencia relativa de las observaciones que distan de la media menos de 2.5 desviaciones típicas
es 1
mayor o igual que 1 0.84 . O sea, la producción diaria de leche de por lo menos el 84% de
2.52
las vacas de la muestra ha de estar comprendida entre los 7 y los 14.5 litros.
La desigualdad de Chebyshev se puede aplicar a cualquier tipo de muestra. Pero si los datos muestran
un histograma o un diagrama de barras aproximadamente normal (simétrico en forma de campana), la
regla empírica nos permite afinar un poco más:
REGLA EMPÍRICA
Sea un conjunto de datos aproximadamente normal con media x y desviación típica s. Entonces:
aproximadamente el 95%
aproximadamente el 68%
Estandarización o tipificación
Según las reglas que acabamos de estudiadar, lo ordinario para una observación es que ésta diste de la
media menos de 3 desviaciones típicas. Entonces, para saber cómo de pequeña o de grande es una
observación dentro de un conjunto de datos podemos tratar de averiguar cuántas desviaciones típicas
dista de la media, es decir, podemos calcular lo que se denomina el valor estandarizado o tipificado zi
de una observación xi que se define como:
xi x
zi
s
Así, por ejemplo, si para un dato muestral xi su valor estandarizado es zi 1.5 esto significa que el valor xi
se encuentra situado a 1.5 desviaciones típicas por encima de la media. Si zi 1.5, entonces, xi estará
situado a 1.5 desviaciones típicas por debajo de la media.
Ejemplo: Un hombre que pesa 85 kg pertenece a un biotipo para el cual el peso medio es de 66 kg con
una desviación típica de 6.8 kg. Un segundo hombre, cuyo peso es de 97 kg, pertenece a un biotipo
cuyo peso medio es de 75 kg con una desviación típica de 9 kg. ¿Cuál de los dos hombres tiene un
mayor sobrepeso para el biotipo al que pertenece?
Primer hombre: x1 85 kg
85 66
z 2.79
1
6.8
Segundo hombre: x2 97 kg
97 75
z 2.44
2
9
Por lo tanto, aunque el primer hombre pesa menos, dentro de su biotipo presenta un mayor sobrepeso que
el segundo hombre dentro del suyo (el primer hombre tiene un valor tipificado de 2.79 frente al valor
estandarizado 2.44 del segundo individuo).
Según la desigualdad de Chebyshev y la regla empírica, lo ordinario es que un dato se encuentre a menos
de 3 desviaciones típicas de la media (al menos el 88.9% para cualquier distribución; aproximadamente
el 99.7% en distribuciones normales). Por lo tanto, lo habitual es que un dato tenga un valor
estandarizado comprendido entre 3 y 3. Mientras que valores estandarizados con módulo superior a 3
son bastante poco frecuentes (como mucho el 11.1% para cualquier distribución; aproximadamente el
0.3% en distribuciones normales).
34 - Medidas de
Valores originales de la variable x 4s x 3s x 2s x 1s x x 1s x 2s x 3s x 4s
Valores estandarizados 4 3 2 1 0 1 2 3 4
En estadística, a los datos que son anormalmente pequeños o grandes dentro de un conjunto se les
denomina valores atípicos o outliers. Estos datos muchas veces provienen de errores de transcripción o
son simplemente datos perfectamente legales pero muy poco frecuentes. Los valores atípicos suelen ser
bastante molestos a la hora de trabajar con ellos: a menudo hacen que los métodos estadísticos no
funcionen bien. Así que conviene detectarlos y estudiar cuál es su procedencia. Más tarde varemos otro
criterio para detectar los outliers, si es que existen, de una muestra. De momento, nos quedaremos con la
idea de considerar como outlier a todo dato cuyo valor estandarizado tenga un módulo superior a 3.
Ejemplo: Una industria ha realizado un vertido tóxico sobre un río. Para estudiar el efecto de éste sobre
los peces se ha tomado una muestra de 144 peces y se ha medido la cantidad de
DDT (medida en ppm) existente en cada uno de ellos. Se ha observado que x 44 ppm y
s 10 ppm. Un pez de la muestra dio una medida de xi 80 ppm. ¿Qué podemos decir de esta
observación?
xi 80 ppm zi 80
3.6
44
10
Por lo tanto, para la muestra, la observación xi 80 ppm tiene un valor estandarizado de 3.6 y se puede
considerar como un outlier.
El coeficiente de variación (CV) de una muestra mide la variabilidad en la muestra con respecto a la
magnitud de la media muestral. Para una muestra con media x y desviación típica s, el coeficiente de
variación se define como
s
CV
x
Puesto que la desviación típica y la media muestral se miden en las mismas unidades, el coeficiente de
variación es una medida adimensional por lo que es útil para comparar la variabilidad de muestras cuyas
unidades de medición sean distintas. A menudo el coeficiente de variación se multiplica por 100 y se
expresa como un porcentaje. Es decir, un CV del 15% significa que la desviación típica de la muestra
representa el 15% de la media muestral
Ejemplo: Un científico de la India ha obtenido los siguientes datos referentes a los pesos de elefantes
y ratas:
Medidas de dispersión -
Elefantes Ratas
x1 3500 kg x2 400 gr
s1 250 kg s2 75 gr
Sólo con una ojeada, los pesos de los elefantes varían mucho más que los pesos de las ratas. Sin embargo,
si hallamos el coeficiente de variación tenemos que:
Elefantes Ratas
s1 250 s2 75
CV 100 100 7.1% CV 100 100 18.8%
x1 3500 x2 400
Es decir, como porcentaje de la media los pesos de las ratas varían mucho más que los pesos de los
elefantes: la variabilidad de los pesos de las ratas es casi el triple que la variabilidad relativa de los pesos
de los elefantes. La desviación estándar de las primeras es del 18.8% de su media, mientras que para los
elefantes la desviación típica sólo supone el 7.1% de su media.
(x i x)3
g1 i1
n s3
(x
i1
i
x)3 es nula (las desviaciones positivas y negativas con respecto a la media se compensan). Sin
embargo, con datos asimétricos la suma crecerá conforme crece la asimetría, manteniendo dicha suma el
signo de la asimetría. Así, para un conjunto de datos asimétricos positivos, la suma será positiva puesto
que las desviaciones positivas con respecto a la media pesan más que las desviaciones negativas. Si el
conjunto de datos ofreciera asimetría negativa, ocurriría justo lo contrario. Pero para tener un estadístico
que no dependa de las unidades de medida, se divide la suma anterior por s3, obteniéndose así, el
coeficiente de asimetría g1 de Fisher.
En la siguiente figura se muestran los histogramas de distintos conjuntos de datos junto con su
correspondiente coeficiente de asimetría. La curva en trazo continuo representa la función de densidad de
una variable normal con la misma media y desviación típica que cada muestra.
n
Para el cálculo de la suma (x
i1
i
x)3 es útil el empleo de la siguiente fórmula:
n n n
(x x)3 x3 3 x x2 2 n (x)3
i i i
i1 i1 i1
Un conjunto de datos es más apuntado que una distribución normal cuando valores
alejados de la media aparecen con menos frecuencia de la que cabría esperar si los datos
siguiesen una distribución normal con la misma media y la misma desviación típica. Un
apuntamiento excesivo puede revelar que los datos han sido artificialmente censurados
para eliminar valores considerados como extremos. En el otro sentido, un conjunto de
datos es más aplastado que una normal si presenta valores muy alejados de la media con
mayor frecuencia de lo que cabría esperar para una distribución normal de la misma
media y desviación típica. Frecuentemente, suele ser síntoma de que entre los datos se
incluyen outliers (errores de transcripción, observaciones pertenecientes a una población
distinta de la estudiada,...).
36 - Medidas de
Más apuntada
Normal
Más aplastada
(x i x)4
g2 i1 3
n s4
(x n i x) 4
i1
Para cualquier distribución normal el es igual a 3, por lo tanto, a este cociente se
cociente ns
4
le resta 3 para conseguir que el coeficiente g2 de curtosis asociado a cualquier distribución normal sea
igual a 0.
De nuevo, presentamos los histogramas de distintos conjuntos de datos junto con su correspondiente
coeficiente de curtosis. La curva en trazo continuo vuelve a representar la función de densidad de una
variable normal con la misma media y desviación típica que cada muestra.
Medidas de forma-
g2 0.9238 g2 0.0208
g2 2.4768 g2 5.8046
n
Para el cálculo de la suma (x
i1
i
x)4 podemos acudir a la siguiente fórmula:
n n n n
(x x) 4 x 4 4 x x3 6 (x) 2 x 2 3 n (x) 4
i i i i
i1 i1 i1 i1
Finalmente, hemos de apuntar que ambos coeficientes g1 y g2 de Fisher presentan el inconveniente de ser
poco resistentes ante la presencia de valores extremos. Además, en los diversos manuales se pueden
encontrar numerosas variaciones y modificaciones sobre la definición de estos coeficientes.
Veamos, a continuación, el cálculo de estos coeficientes en el ejemplo de los perímetros. En primer lugar,
vamos a realizar los cálculos sobre los datos originales, sin transformar. A la tabla realizada para el
cálculo de la varianza, le hemos de adjuntar las columnas n x 3 y n x 4 para el cálculo de las sumas
i i i
correspondientes.
2 3 4
Perímetro (cm) xi ni ni xi ni xi ni xi ni xi
1 35-40 37.5 3 112.5 4218.75 158203.125 5932617.188
2 40-45 42.5 6 255.0 10837.50 460593.750 19575234.375
3 45-50 47.5 12 570.0 27075.00 1286062.500 61087968.750
4 50-55 52.5 14 735.0 38587.50 2025843.750 106356796.875
5 55-60 57.5 9 517.5 29756.25 1710984.375 98381601.563
6 60-65 62.5 4 250.0 15625.00 976562.500 61035156.250
7 65-70 67.5 1 67.5 4556.25 307546.875 20759414.063
8 70-75 72.5 1 72.5 5256.25 381078.125 27628164.063
Totales 50 2580.0 135912.50 7306875.000 400756953.125
x i
2580.0
x 2
x 3
7306875.00 x 4
400756953.125
135912.50
i i i
Teniendo en cuenta las fórmulas para calcular la suma de las desviaciones cúbicas y cuartas con respecto
a la media:
(x x) i
3
x3 i 3 x x2 i 2 n (x) 3 6429.6
38 - Medidas de
Por lo tanto
x)3
Coeficiente de asimetría de Fisher (x i 6429. 0.30 , es decir, los datos
g
6
1
n 50 7.543
presentan una ligera asimetría s3
positiva.
x)4 3
Coeficiente de curtosis de Fisher
g
(x i
485206.085 3 0.0051 . Por lo
2
ns 4
50 7.544
tanto el apuntamiento de la muestra coincide, aproximadamente, con el apuntamiento de una
distribución normal con x 51.6 y desviación típica s 7.54. A continuación se muestra el
media
histograma de los datos junto con la función de densidad de una variable normal con media
x 51.6 y desviación típica s 7.54
Histo
gramayd
nsid
e adn
ormalajusta
da
03
52
02
51
Frecuenciarel
01
0
30 35 40 45 50 55 60 65 70 75 08
ERÍMETRO(cm)
P
A continuación, vamos a repetir los cálculos, pero esta vez para los datos codificados. Recordemos que
xi 52.5
x' , x' 0.18 y 1.51. Añadamos a la tabla las columnas correspondientes para el
s
i x'
5
cálculo de las sumas de las desviaciones cúbicas y cuartas:
x'
3
9 i i
x'
4
7
6
1
40 - Medidas de
(x' x')
i
3
x'3 i 3 x' x'2 i 2 n (x') 3 51.4368
(x' x')i
4
x'4 i 4 x' x'3 i 6 (x') 2 x'2 i 3 n (x') 4 776.329736
Por lo tanto
Puesto que los coeficientes de Fisher son invariables frente a cambios de origen y escala, se tiene que
cumplir que g1 (x) g1 (x') y g2 (x) g2 (x'). Luego, de nuevo llegamos a que:
Evidentemente, la ventaja del uso de los datos codificados para calcular los coeficientes
es la menor complejidad aritmética que conllevan los cálculos.
inferior. Este valor es la primera observación que sea mayor o igual que LI.
Análogamente, se dibuja una línea que va desde el cuartil superior Q3 hasta el valor
adyacente superior que será la última observación que sea menor o igual que LS.
(5) Marcar individualmente mediante un círculo o cualquier otro símbolo a todos los
datos que están fuera del intervalo [LI, LS]. Estos datos serán identificados como
outliers.
outliers
LS
valor adyacente superior
cuartil superior
mediana cuartil inferior
LI
¿Qué información podemos obtener de un diagrama de caja? Los diagramas de caja son
útiles para revelar la tendencia central, la posición, la dispersión y la forma del conjunto
de datos así como para detectar la presencia de outliers.
Dado que los diagramas de caja utilizan la mediana y los cuartiles tienen la ventaja de
no ser tan sensibles a valores extremos como son otros métodos basados en la media y
la desviación típica (valor estandarizado). Los box-plot no muestran tanta información
como un histograma o un diagrama de tronco-hojas, así que podrían no ser la mejor
opción si se trabaja con una única muestra. Los diagramas de caja adquieren su máxima
Diagramas de caja y detección de outliers -
Veamos cómo calcular el diagrama de caja para el ejemplo del perímetro de los árboles.
Recordemos que:
Q1 47 cm Me 52 cm Q3 57 cm
Luego, el rectángulo central va desde 47 hasta 57 y es cruzado por una línea, que
representa la mediana, en el punto 52. Además:
El valor adyacente superior es el último valor observado menor o igual que LS 72 que
es 67, luego la extensión de la derecha será una barra que une 57 con 67. El valor xi 74
es mayor estricto que LS, luego se considerará como outlier y será marcado mediante un
círculo en el box-plot. El resultado de todos los cálculos anteriores es el siguiente
diagrama de caja:
Perímetron
ormales(cm)de50pin
os
53 04 54 05 55 06 56 07 57
Diagramas de caja y detección de outliers -
Ejemplo: Recordemos el ejemplo sobre el índice de masa corporal (I.M.C.) para una muestra de 71
niñas de edades comprendidas entre los 8 y los 12 años y de sus respectivas madres visto en el apartado
dedicado a los diagramas de tallo y hojas. Construyamos los diagramas de cajas para poder comparar
mejor ambas muestras. En la tabla siguiente se aportan los datos necesarios para ello:
Cuartil Cuartil
Mínimo Máximo Mediana inferior superior
HIJAS 14 32 18 17 20
MADRES 18 54 29 22 35
El resultado es el siguiente:
Dia
gramadecajacomp
arativod
el IMCp
aralasma
dresylashijas
MAD
RES
HIJAS
101520253035404550556
0
Ejemplo: Se desea determinar los efectos de tres métodos distintos de irrigación (gota a gota, por
aspersión y a manta) en la producción de tomates. Para ello, en una estación experimental, se han tomado
30 parcelas de igual superficie y condiciones. Cada subgrupo de 10 parcelas ha sido asignado,
aleatoriamente, a uno de los tres tipos de riego. Finalmente se ha apuntado la producción de tomates,
medida en cajas por acre, que se ha obtenido en cada parcela. Los resultados se muestran resumidos en
el siguiente gráfico:
Pro
uc
dcióndetomates, encajas oracre,
p
úntresméto
se
g osdistintosdeir
d rig
ación
Ama
nta
Porasp
ersión
Gotaaota
g
41 61 81 02 22 42
46 - Diagramas de caja y detección de
Númerodeh evosdetama
u ñoXLp
estosp
u or allina
g
únladieta
se
g
Dieta3
Dieta2
Dieta1
01 21 41 61 81 02 22 42 62
5. TRANSFORMACIÓN DE DATOS
A menudo, conviene realizar una transformación de los datos, buscando que la
representación de éstos sea lo más simple posible.
x'i a b xi
donde xi son los datos originales, x'i los datos transformados, a es una constante fija que
representa el cambio de origen y b la constante que nos da el cambio de escala.
x' a b x
Si x'i a b xi
s2 b s2
2 x
x
s x' b s x
Ejemplo: En la siguiente tabla se dan las temperaturas máximas, en grados Fahrenheit, registradas en
una muestra de 33 días en una determinada localidad.
Temperatura x i* ni
(F)
1 32-41 36.5 1
2 41-50 45.5 3
3 50-59 54.5 5
4 59-68 63.5 10
5 68-77 72.5 7
6 77-86 81.5 5
7 86-95 90.5 2
Totales 33
Temperatura ni
(C) xi*
1 0-5 2.5 1
2 5-10 7.5 3
3 10-15 12.5 5
4 15-20 17.5 10
5 20-25 22.5 7
6 25-30 27.5 5
7 30-35 32.5 2
Totales 33
Los histogramas resultantes de ambas tablas, como se puede observar, son idénticos:
sólo varía la unidad de medida y la escala.
48 – Transformación de
11 11
01 01
9 9
8 8
7 7
6 6
5 5
Nu
Nu
4 4
3 3
2 2
1 1
0 0
32 23 14 05 95 86 77 68 59 -5 0 51
0 51 02 52 03 53
Temp
eratura(gra
osFa
d eit)
hre
hn Temp
eratura(gra
osce
d ntígra
os)
d
Las transformaciones más usadas son las pertenecientes a la llamada familia potencial.
Éstas pueden tener las siguientes formas:
x'i xq si q 0
i
x'i ln xi si q 0
x'i xq si q 0
i
Hay que darse cuenta que se considera como transformación potencial con exponente 0
a la transformación logarítmica, ya que su efecto es muy parecido al de una
transformación potencial con exponente próximo a 0.
Las transformaciones potenciales tienen la virtud de cambiar la forma de la distribución
de modo que si q 1, se reduce la asimetría positiva (comprime valores altos y
expanden valores bajos) y, en el caso de que q 1, se reduce la asimetría negativa
(comprimen valores bajos y expanden valores altos).
Los valores de q menores que 0 tienen el efecto de alterar el orden original de los datos.
Por ejemplo, 5 10 pero 51 > 101. Para conservar el orden original de los datos se usa
la transformación xq en vez de la transformación xq cuando q 0.
i i
En lo anterior, siempre se supone que los datos de partida son positivos, que es lo más
frecuente. Cuando un conjunto de datos contiene valores negativos es habitual sumarles
alguna constante antes de aplicarles una transformación potencial ya que muchas
transformaciones potenciales no se pueden aplicar sobre valores negativos.
Ejemplo: En la siguiente tabla se dan los tiempos de espera, en minutos, de 50 pacientes desde su
llegada hasta ser atendido en una sala de urgencias pediátricas.
35 22 63 6 49 19 15 83 46 19
Transformación de datos -
16 31 24 29 36 68 42 57 64 8
23 47 21 51 7 40 19 46 16 32
58 33 55 32 22 36 25 27 37 108
39 10 42 28 72 13 51 45 77 16
Realizado el histograma y el box-plot de los datos, éstos muestran una clara asimetría
positiva. A continuación se ha probado a realizar tres transformaciones potenciales
diferentes. Puesto que queremos reducir la asimetría positiva, hemos de probar con
valores de q 1. En particular se ha tomado q 1/2, q 0 y q 1. En la tabla adjunta
también se muestran los histogramas y los diagramas de caja correspondientes a los
datos transformados. Según se observa, al disminuir el valor de q también disminuye la
asimetría positiva, pero si q es demasiado pequeño, los datos transformados empiezan a
manifestar asimetría negativa.
q=1/2
22 31
21
11
01
02 9
8
7
81 6
5
4
3
61 2
1
Nu
0
Nu
2
41
21
01 02 04 06 08 001 021 3 4 5 6 7 8 9 01 11
Tiempodeesp
era(min
utos) RAÍZ(Tiempodeesp
era)
8
0
0
0 02 04 06 08 001 021 2 3 4 5 6 7 8 9 01 11
81 54
61 04
41 53
21 03
01 52
8 02
Nu
Nu
6 51
4 01
2 5
0 0
1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0 -0.20 -0.15 -0.10 -0.05 0.00
LN(TiempodeEsp
era)
-1/(Tiempodeesp
era)
50 – Transformación de
1.5 2.0 2.5 3.0 3.5 4.0 4.5 -0.20 -0.15 -0.10 -0.05 0.00
5.0
Bibliografía -
6. BIBLIOGRAFÍA
Candel Ato, J.; Marín Pérez, A.; Ruiz Gómez, J.M.: Estadística Aplicada I:
Estadística Descriptiva. Editorial PPU.
Devore, J.L.: Probabilidad y estadística para ingeniería y ciencias. International
Thomson Editores.
Devore, J.L.; Peck, R.: Statistics: The Exploration and Analysis of Data. Duxbury
Press.
Escobar, M.: Análisis Gráfico/Exploratorio. La Muralla/Hespérides.
Freund, J.E.; Simon, G.A.: Estadística Elemental. Prentice Hall.
Gámez Mellado, A.; Marín Trechera, L.M.: Estadística para Ingenieros Técnicos.
Servicio de Publicaciones de la Universidad de Cádiz.
Griffiths, D.; Stirling, W.D.; Weldon, K.L.: Understanding Data. Principles and
Practice of Statistics. Wiley & Sons.
De la Horra Navarro, J.: Estadística Aplicada. Díaz de Santos.
Johnson, R.A.; Tsui, K.W.: Statistical Reasoning and Methods. Wiley & Sons.
Lara Porras, A.M.: Estadística para Ciencias Biológicas y Ciencias Ambientales.
Problemas y Exámenes resueltos. Proyecto Sur.
Mendenhall; Scheaffer; Wackerly: Estadística Matemática con Aplicaciones. Grupo
Editorial Iberoamérica.
Milton, J.S.: Estadística para Biología y Ciencias de la Salud. Interamericana-
McGraw-Hill.
Ott, R.L.; Mendenhall, W.: Understanding Statistics. Duxbury Press
Peña, D.: Estadística Modelos y Métodos, Vols. I y II. Alianza Universidad Textos.
Rao, P.V.: Statistical Research Methods in the Life Sciences. Duxbury Press
Scheaffer, R.L.; McClave, J.T.: Probabilidad y Estadística para Ingeniería. Grupo
Editorial Iberoamérica.
Triola, M.F.: Estadística Elemental. Addison Wesley Longman.