Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Introducción
Una forma básica de presentar los datos implica el uso de una tabla, cuyas
columnas contienen la descripción de los atributos de una muestra y cada renglón
representa una observación. Sin embargo, una tabla revela muy poco sobre sus
características y comportamiento.
Este instrumento muestra la frecuencia con la cual son observados los datos
dentro de un cierto intervalo o clase.
Por convención, la longitud para los intervalos de las clases debe ser la misma,
además es necesario establecer los puntos medios y los límites inferior y superior
de cada clase.
Es importante señalar que existen dos tipos de representaciones para una tabla de
frecuencias: el histograma de frecuencias absolutas y el de frecuencias relativas.
Tabla 1. Tabla de frecuencias absolutas para el experimento de lanzar 50 veces dos dados y
sumar los puntos obtenidos.
Polígono de frecuencias
17.7, 17.8, 9.5, 5.2, 4.1, 19.2, 12.4, 15.8, 20.8, 24.1, 14.7, 21.6, 12.8, 11.9, 35.4,
12.3, 14.9, 19.6, 10.6, 15.1, 15.6, 9.3, 8.1, 13.5, 30.2, 29.1, 7.4, 12.3, 13.6, 9.5,
13.1, 27.4, 8.8, 11.4, 6.4, 11, 11.4, 14.1, 20.9, 10.6, 15.3, 24, 12.3, 7.8, 9.9, 20.7,
25.0, 19.1, 13.1, 27.4
El histograma se realizará con diez clases, por lo que cada una tendrá una
amplitud de 31.3 / 10 = 3.13. Las diez clases obtenidas se muestran en la primera
columna de la tabla 2.
Como se observa, para la primera clase el valor mínimo será 4.1 (el mínimo de la
muestra) y el máximo del intervalo será 4.1 + 3.13 = 7.23. Es decir, el intervalo
queda como [4.1 ,7.23), lo cual implica que en esta clase permanecerán todas las
observaciones en donde la concentración de zinc va de 4.1 a 7.23.
El símbolo ‘[‘del intervalo indica que el 4.1 está dentro de la clase, mientras ‘]’
refiere que 7.23 es el límite superior de la clase, aunque el valor exacto 7.23 ya no
está dentro de ella. Por lo anterior, se dice que el intervalo es cerrado por la
izquierda y abierto por la derecha. Esto se hace para que cada valor esté bien
definido dentro de una sola clase.
En la tercera columna, están las frecuencias obtenidas para cada clase, la suma
total de frecuencias debe ser igual al tamaño de la muestra (50). En la segunda
columna, se toma como valor representativo de la clase el punto medio de cada
intervalo ((valor mínimo del intervalo + valor máximo del intervalo)/2).
Por ejemplo, la primera clase tendría una amplitud que va de 4.1 a 7.23. La altura
(frecuencia absoluta de la clase) sería 3.
Curva acumulativa
Las tablas 2 y 3 son las mismas, pero la última incluye una columna extra para la
frecuencia acumulada. En la primera clase, la frecuencia acumulada es de 3, es
decir, existen tres observaciones en donde la concentración de zinc es mayor o
igual a 4.1 y menor a 7.3.
Por otra parte, los valores del eje y representan la frecuencia absoluta acumulada.
En ésta, la frecuencia para cada observación consiste en el número de
observaciones de una concentración menor o igual a la del valor del punto en x.
Muchas veces es más útil expresar las frecuencias en términos del porcentaje total
de la muestra.
En la tabla 4 se agregaron dos columnas a los datos del zinc, una para las
frecuencias relativas y otra para las frecuencias relativas acumuladas. Los datos
de estas columnas se obtienen al dividir entre 50 (tamaño de la muestra) cada
frecuencia absoluta y cada frecuencia absoluta acumulada. Posteriormente se
muestran las gráficas correspondientes al histograma de frecuencias relativas y a
la curva acumulativa de frecuencias relativas (ilustraciones 5 y 6). La forma de la
gráfica no se modifica ante estas transformaciones, sólo cambia la escala del eje
vertical.
Diagramas de caja
Para realizar este diagrama, se requiere conocer los valores mínimo y máximo de
las muestras, el valor de la mediana, del primer y tercer cuartil.
½ * (Xn / 2 + X ( n / 2 ) + 1 ) si n es par
X ( n + 1 ) / 2 si n es impar
El tercer cuartil será igual a la mediana del subconjunto {5,6,7,8,9,10}, que en este
caso es ½ * ( 7 + 8 ) = ½ * ( 15 ) = 7.5.
En el histograma se aprecia que la distribución de los datos tiene una cola del lado
derecho (sesgo positivo), lo cual indica que hay clases con poca frecuencia
relativa y con valores de zinc muy altos en comparación con los valores de las
clases con mayor frecuencia relativa.
En este punto, el problema radica en identificar en esta cola de valores, aquellos
que se pueden constituir en valores extremos. El diagrama de caja es una
herramienta que ayuda a identificarlos.
Los datos necesarios para construir el diagrama de caja en el caso del río Meuse
son los siguientes:
Mínimo = 113.0 ppm
Primer cuartil = 198.0 ppm
Mediana = 326.0 ppm
Tercer cuartil = 674.5 ppm
Máximo = 1839.0 ppm
Tomando en cuenta que en la caja del diagrama (la cual representa el rango de
observaciones del primer al tercer cuartil) se encuentra el 50 por ciento de todas
las observaciones, entonces se utiliza como criterio para identificar valores
extremos una longitud máxima de los bigotes con magnitud igual a 1.5 veces el
rango intercuartil (la magnitud de la diferencia entre el tercer cuartil y el primer
cuartil).
De esta manera, las observaciones que quedan fuera de los bigotes pueden
considerarse valores extremos.
En este caso el rango intercuartil es 674.5 – 198.0 = 476.5 ppm. Dado que el
criterio es 1.5 veces el rango intercuartil, la longitud máxima de cada bigote será
1.5*( 476.5 ) = 714.75 ppm.
Bajo el mismo criterio, el segundo bigote tendrá una extensión máxima que va del
valor del tercer cuartil (674.5 ppm) a un valor máximo de 674.5 + 714.75 = 1389.25
ppm.
En este caso, todos los valores observados mayores a 1389.25 ppm se grafican
como puntos fuera de los bigotes y constituyen valores extremos (ilustración 11).
En este caso, los valores extremos no son producto del error, por lo que no existen
argumentos para eliminarlos de la muestra.
En ocasiones, el agrupamiento de valores extremos en una región determinada
indica que el fenómeno de estudio tiene un comportamiento diferente y, por tanto,
Ilustración 11. Distribución espacial de las mediciones del zinc para los datos Meuse.
Bivand, R.S., Pebesma, E. y Gómez-Rubio, V. (2013). Applied Spatial Data Analysis with
R. Unites States: Springer.