Está en la página 1de 20

MOOC

Prof. M. en G. Alberto Porras Velázquez

Derechos reservados ©Centro de Investigación en Ciencias de Información Geoespacial, A.C.


Contoy 137 Esq. Chemax, Col. Lomas de Padierna, Delegación Tlalpan, CP 14240, México, CDMX
Presentación de los datos por medio de gráficas

Introducción

Una forma básica de presentar los datos implica el uso de una tabla, cuyas
columnas contienen la descripción de los atributos de una muestra y cada renglón
representa una observación. Sin embargo, una tabla revela muy poco sobre sus
características y comportamiento.

En cambio, la representación gráfica ofrece más facilidades para explorar los


datos, de tal forma que se pueden revelar patrones a partir de los cuales se
generan o prueban hipótesis.

A continuación mostraremos las diferentes herramientas para presentar y analizar


los datos.

Tablas de frecuencias e histogramas

Este instrumento muestra la frecuencia con la cual son observados los datos
dentro de un cierto intervalo o clase.

Las tablas de frecuencias se representan gráficamente con un histograma,


requieren la definición del número de clases y la selección de los intervalos.

Por convención, la longitud para los intervalos de las clases debe ser la misma,
además es necesario establecer los puntos medios y los límites inferior y superior
de cada clase.

Es importante señalar que existen dos tipos de representaciones para una tabla de
frecuencias: el histograma de frecuencias absolutas y el de frecuencias relativas.

Derechos reservados ©Centro de Investigación en Ciencias de Información Geoespacial, A.C.


Contoy 137 Esq. Chemax, Col. Lomas de Padierna, Delegación Tlalpan, CP 14240, México, CDMX
En el primero, se marcan las clases sobre el eje de las abscisas y sobre cada
clase se levanta un rectángulo con la misma altura que la frecuencia absoluta de
las observaciones para cada clase.

En el caso del histograma de frecuencias relativas, se levanta un rectángulo cuya


altura corresponde a la proporción del total de las observaciones que representan
las frecuencias absolutas de cada clase.

Por ejemplo, la tabla 1 muestra los resultados de 50 experimentos, en los cuales


se lanzaron dos dados y se sumó el número de puntos obtenidos en cada
experimento.

En la primera columna está el resultado de la suma y en la columna siguiente, la


frecuencia (el número de ensayos del experimento que dieron el mismo resultado).
Observa que la suma de las frecuencias debe ser 50, igual al número de ensayos
realizados.

Tabla 1. Tabla de frecuencias absolutas para el experimento de lanzar 50 veces dos dados y
sumar los puntos obtenidos.

Derechos reservados ©Centro de Investigación en Ciencias de Información Geoespacial, A.C.


Contoy 137 Esq. Chemax, Col. Lomas de Padierna, Delegación Tlalpan, CP 14240, México, CDMX
El histograma de frecuencias absolutas se obtiene al graficar las clases en el eje x
(el conjunto de resultados que se puede obtener al lanzar dos dados). En este
caso tan solo hay 11 resultados posibles.

En el eje y (eje vertical), la altura de la barra corresponde a la frecuencia absoluta,


es decir, al total de veces que se obtuvo un resultado determinado (ilustración 1).

Ilustración 1. Histograma de frecuencias absolutas.

Polígono de frecuencias

En el ejemplo, hay una muestra con cincuenta observaciones (separadas una de


otra a dos metros) del porcentaje de concentración de zinc (%Zn) a lo largo de una
línea recta en el terreno de una mina.

17.7, 17.8, 9.5, 5.2, 4.1, 19.2, 12.4, 15.8, 20.8, 24.1, 14.7, 21.6, 12.8, 11.9, 35.4,
12.3, 14.9, 19.6, 10.6, 15.1, 15.6, 9.3, 8.1, 13.5, 30.2, 29.1, 7.4, 12.3, 13.6, 9.5,
13.1, 27.4, 8.8, 11.4, 6.4, 11, 11.4, 14.1, 20.9, 10.6, 15.3, 24, 12.3, 7.8, 9.9, 20.7,
25.0, 19.1, 13.1, 27.4

Derechos reservados ©Centro de Investigación en Ciencias de Información Geoespacial, A.C.


Contoy 137 Esq. Chemax, Col. Lomas de Padierna, Delegación Tlalpan, CP 14240, México, CDMX
Para construir el polígono de frecuencias absolutas, primero es necesario
encontrar el rango de valores que abarcan los datos. En este caso, la
concentración máxima es de 35.4 y la mínima es de 4.1, es decir, la diferencia
entre ambas es de 31.3.

El histograma se realizará con diez clases, por lo que cada una tendrá una
amplitud de 31.3 / 10 = 3.13. Las diez clases obtenidas se muestran en la primera
columna de la tabla 2.

Como se observa, para la primera clase el valor mínimo será 4.1 (el mínimo de la
muestra) y el máximo del intervalo será 4.1 + 3.13 = 7.23. Es decir, el intervalo
queda como [4.1 ,7.23), lo cual implica que en esta clase permanecerán todas las
observaciones en donde la concentración de zinc va de 4.1 a 7.23.

El símbolo ‘[‘del intervalo indica que el 4.1 está dentro de la clase, mientras ‘]’
refiere que 7.23 es el límite superior de la clase, aunque el valor exacto 7.23 ya no
está dentro de ella. Por lo anterior, se dice que el intervalo es cerrado por la
izquierda y abierto por la derecha. Esto se hace para que cada valor esté bien
definido dentro de una sola clase.

En la tercera columna, están las frecuencias obtenidas para cada clase, la suma
total de frecuencias debe ser igual al tamaño de la muestra (50). En la segunda
columna, se toma como valor representativo de la clase el punto medio de cada
intervalo ((valor mínimo del intervalo + valor máximo del intervalo)/2).

Derechos reservados ©Centro de Investigación en Ciencias de Información Geoespacial, A.C.


Contoy 137 Esq. Chemax, Col. Lomas de Padierna, Delegación Tlalpan, CP 14240, México, CDMX
Tabla 2. Tabla de frecuencias absolutas para las mediciones de concentración de zinc.

El polígono de frecuencias es muy similar a un histograma: en el eje x contiene los


puntos medios de cada clase y en el eje y la frecuencia de clase. A diferencia del
histograma, los valores de las clases no se representan con barras, sino como
puntos que se unen mediante una línea (ilustración 2).

Observa que la curva comienza en el punto medio de la clase inmediata, antes de


la más baja y que termina en el punto medio de la clase inmediata después de la
más alta (frecuencia 0 en ambos casos).

La curva se construye considerando que las observaciones de cada clase están


distribuidas de modo uniforme a lo largo de la clase.

Derechos reservados ©Centro de Investigación en Ciencias de Información Geoespacial, A.C.


Contoy 137 Esq. Chemax, Col. Lomas de Padierna, Delegación Tlalpan, CP 14240, México, CDMX
Ilustración 2. Polígono de frecuencias absolutas para las mediciones de concentración de
zinc.

A partir de la información de la tabla 2, también se puede obtener el histograma.


En este caso, las clases estarían centradas en los puntos graficados en el
polígono de frecuencias y la amplitud de cada clase estaría determinada por sus
valores mínimos y máximos.

Por ejemplo, la primera clase tendría una amplitud que va de 4.1 a 7.23. La altura
(frecuencia absoluta de la clase) sería 3.

Curva acumulativa

En ocasiones, es importante conocer el número o la proporción de los datos que


se encuentran bajo un valor determinado. Por ejemplo, los grados de
concentración bajo los cuales la explotación de un metal no es rentable en una
mina o la proporción de datos cuyos valores de concentración se encuentran
sobre la norma.

Derechos reservados ©Centro de Investigación en Ciencias de Información Geoespacial, A.C.


Contoy 137 Esq. Chemax, Col. Lomas de Padierna, Delegación Tlalpan, CP 14240, México, CDMX
Esta información se puede obtener a partir de una tabla de frecuencias
acumuladas o de su forma gráfica, llamada curva (u ojiva) de frecuencias
acumuladas.

Para realizar la tabla de frecuencias acumuladas, los datos son ordenados en


forma ascendente, mostrando la frecuencia total de aparición de los datos
menores o iguales a él.

Como ejemplo, utilizaremos los mismos datos descritos en el ejemplo de la


construcción del polígono de frecuencias (datos de concentración de zinc).

Las tablas 2 y 3 son las mismas, pero la última incluye una columna extra para la
frecuencia acumulada. En la primera clase, la frecuencia acumulada es de 3, es
decir, existen tres observaciones en donde la concentración de zinc es mayor o
igual a 4.1 y menor a 7.3.

Para la segunda clase [7.23, 10.36), a la frecuencia de la misma clase (8) se le


suman las frecuencias acumuladas anteriormente (3 en este caso), lo que da
3 + 8 = 11 y nos dice que hay once observaciones cuyo valor de concentración de
zinc va de 4.1 a 10.36. La última clase tendrá una frecuencia acumulada de
3 + 8 + 13 + 9 + 5 + 4 + 3 + 3 + 1 + 1 = 50, que es el total de observaciones.

Derechos reservados ©Centro de Investigación en Ciencias de Información Geoespacial, A.C.


Contoy 137 Esq. Chemax, Col. Lomas de Padierna, Delegación Tlalpan, CP 14240, México, CDMX
Tabla 3. Frecuencias acumuladas para los datos de concentración de zinc.

La curva acumulativa se muestra a continuación. El eje x corresponde a los


intervalos de clase (cada punto está en el valor representativo) y en el eje y se
grafica la frecuencia acumulada.

Ilustración 3. Curva acumulativa de frecuencias absolutas para las mediciones de


concentración de zinc (datos agrupados en clases).

Derechos reservados ©Centro de Investigación en Ciencias de Información Geoespacial, A.C.


Contoy 137 Esq. Chemax, Col. Lomas de Padierna, Delegación Tlalpan, CP 14240, México, CDMX
Mediante un proceso similar, se puede obtener la curva acumulativa para los datos
crudos (no divididos en clases). Los datos se ordenan por los valores de
concentración en forma ascendente.
En la gráfica de la ilustración 4, cada punto corresponde a una observación. Los
valores del eje x coinciden con los niveles de concentración del zinc de cada
observación.

Por otra parte, los valores del eje y representan la frecuencia absoluta acumulada.
En ésta, la frecuencia para cada observación consiste en el número de
observaciones de una concentración menor o igual a la del valor del punto en x.

Ilustración 4. Curva acumulativa de frecuencias absolutas para las mediciones de


concentración de zinc (datos crudos).

Tablas de frecuencias relativas y gráficas con frecuencias relativas

Muchas veces es más útil expresar las frecuencias en términos del porcentaje total
de la muestra.

Derechos reservados ©Centro de Investigación en Ciencias de Información Geoespacial, A.C.


Contoy 137 Esq. Chemax, Col. Lomas de Padierna, Delegación Tlalpan, CP 14240, México, CDMX
La frecuencia relativa de una clase es la proporción del total de observaciones
dentro de ella. Se obtiene dividiendo la frecuencia absoluta de la clase entre el
número total de observaciones. La suma de todas las frecuencias relativas debe
dar un total de uno.

A partir de estas tablas, se obtienen histogramas de frecuencias relativas,


polígonos de frecuencias relativas o curvas acumulativas de frecuencias relativas.

En la tabla 4 se agregaron dos columnas a los datos del zinc, una para las
frecuencias relativas y otra para las frecuencias relativas acumuladas. Los datos
de estas columnas se obtienen al dividir entre 50 (tamaño de la muestra) cada
frecuencia absoluta y cada frecuencia absoluta acumulada. Posteriormente se
muestran las gráficas correspondientes al histograma de frecuencias relativas y a
la curva acumulativa de frecuencias relativas (ilustraciones 5 y 6). La forma de la
gráfica no se modifica ante estas transformaciones, sólo cambia la escala del eje
vertical.

Tabla 4. Datos con frecuencias relativas y frecuencias relativas acumuladas.

Derechos reservados ©Centro de Investigación en Ciencias de Información Geoespacial, A.C.


Contoy 137 Esq. Chemax, Col. Lomas de Padierna, Delegación Tlalpan, CP 14240, México, CDMX
Ilustración 5. Histograma de frecuencias relativas.

Ilustración 6. Curva acumulativa de frecuencias relativas.

Diagramas de caja

Otra forma de observar la distribución de un conjunto de datos es mediante los


diagramas de caja, también conocidos como diagrama de bigotes.

Para realizar este diagrama, se requiere conocer los valores mínimo y máximo de
las muestras, el valor de la mediana, del primer y tercer cuartil.

La mediana M es el valor central de un conjunto de observaciones ordenadas,


según su magnitud. La mitad de las observaciones tiene un valor menor o igual a

Derechos reservados ©Centro de Investigación en Ciencias de Información Geoespacial, A.C.


Contoy 137 Esq. Chemax, Col. Lomas de Padierna, Delegación Tlalpan, CP 14240, México, CDMX
M. Si el número de observaciones (n) es par, generalmente se considera como
mediana al promedio de los dos valores centrales y si n es impar se considera
como el valor de la observación que queda en medio de la muestra ordenada.

½ * (Xn / 2 + X ( n / 2 ) + 1 ) si n es par
X ( n + 1 ) / 2 si n es impar

Se definen tres cuartiles, Q1, Q2 y Q3, que dividen a un conjunto de datos en


cuatro partes iguales. El cuartil Q1 es el valor antes del cual quedará una cuarta
parte de todas las mediciones. Q2=mediana.

Por ejemplo, para el siguiente conjunto de números a={0,1,2,3,4,5,6,7,8,9,10}, el


mínimo es 1 y el máximo es 10. Como el número de observaciones es impar (11),
la mediana será X ( 11 + 1 ) / 2 = X6, que corresponde al valor 5.

El primer cuartil será la mediana de los datos menores o iguales a la mediana. Es


decir, la mediana de 0,1,2,3,4,5. En este caso el subconjunto tiene un número par
de elementos (6), por lo cual la mediana del subconjunto es
½ * ( X6 /2 + X ( 6 / 2) +1 ) = ½ * ( X3 + X4 ) = ½ * ( 2 + 3 ) = ½*(5 ) = 2.5.

El tercer cuartil será igual a la mediana del subconjunto {5,6,7,8,9,10}, que en este
caso es ½ * ( 7 + 8 ) = ½ * ( 15 ) = 7.5.

Es muy importante que no olvide ordenar los valores de las observaciones de


forma ascendente para calcular la mediana.

Derechos reservados ©Centro de Investigación en Ciencias de Información Geoespacial, A.C.


Contoy 137 Esq. Chemax, Col. Lomas de Padierna, Delegación Tlalpan, CP 14240, México, CDMX
Ilustración 7. Diagrama de caja

Identificación de valores extremos

En lecciones posteriores de este módulo, aprenderás a caracterizar un conjunto de


datos a través del comportamiento de las gráficas y de un grupo de medidas que
describen los valores en torno a los que se da su mayor agrupamiento (medidas
de tendencia central), su variabilidad (medidas de dispersión) y su distribución, ya
sea simétrica, plana o picuda (medidas de la forma).
Por ejemplo, el histograma de frecuencias relativas de la ilustración 5 tiene una
distribución asimétrica. Esto es evidente por la presencia de una cola prolongada
de clases con poca frecuencia relativa, ubicada al lado derecho de las clases con
el mayor agrupamiento de frecuencias (ilustración 9).

En este caso se dice que el histograma tiene un sesgo positivo.

Derechos reservados ©Centro de Investigación en Ciencias de Información Geoespacial, A.C.


Contoy 137 Esq. Chemax, Col. Lomas de Padierna, Delegación Tlalpan, CP 14240, México, CDMX
Ilustración 8. Distribución asimétrica.

La asimetría es una característica natural en la distribución de los valores que


puede tomar una variable para muchos tipos de fenómenos; sin embargo, en
algunos casos, esta asimetría puede deberse o acentuarse a causa de los
llamados valores extremos (outliers, en inglés).

En la fase de análisis exploratorio, es recomendable identificar si existen valores


extremos en la distribución de los datos. En algunas ocasiones estos valores son
inherentes al fenómeno de estudio; en otros casos, pueden ser indicativos de
errores de medición en campo o de que la variable tiene un comportamiento
heterogéneo en el espacio.

Por ejemplo, en la ilustración 10 se muestra el histograma de frecuencias relativas


para las mediciones de concentración de zinc en la llanura de inundación del río
Meuse, cercano a la ciudad de Stein en Holanda.

Derechos reservados ©Centro de Investigación en Ciencias de Información Geoespacial, A.C.


Contoy 137 Esq. Chemax, Col. Lomas de Padierna, Delegación Tlalpan, CP 14240, México, CDMX
Ilustración 9. Histograma de frecuencias relativas para la concentración de zinc en la llanura
de inundación del Río Meuse.

En el histograma se aprecia que la distribución de los datos tiene una cola del lado
derecho (sesgo positivo), lo cual indica que hay clases con poca frecuencia
relativa y con valores de zinc muy altos en comparación con los valores de las
clases con mayor frecuencia relativa.
En este punto, el problema radica en identificar en esta cola de valores, aquellos
que se pueden constituir en valores extremos. El diagrama de caja es una
herramienta que ayuda a identificarlos.

Los datos necesarios para construir el diagrama de caja en el caso del río Meuse
son los siguientes:
 Mínimo = 113.0 ppm
 Primer cuartil = 198.0 ppm
 Mediana = 326.0 ppm
 Tercer cuartil = 674.5 ppm
 Máximo = 1839.0 ppm

Derechos reservados ©Centro de Investigación en Ciencias de Información Geoespacial, A.C.


Contoy 137 Esq. Chemax, Col. Lomas de Padierna, Delegación Tlalpan, CP 14240, México, CDMX
Como se vio anteriormente, en un diagrama de caja típico, el primer bigote iría del
valor mínimo al primer cuartil (de 113.0 a 198.0); el segundo bigote, del tercer
cuartil al máximo (674.5 a 1839.0).

Tomando en cuenta que en la caja del diagrama (la cual representa el rango de
observaciones del primer al tercer cuartil) se encuentra el 50 por ciento de todas
las observaciones, entonces se utiliza como criterio para identificar valores
extremos una longitud máxima de los bigotes con magnitud igual a 1.5 veces el
rango intercuartil (la magnitud de la diferencia entre el tercer cuartil y el primer
cuartil).

De esta manera, las observaciones que quedan fuera de los bigotes pueden
considerarse valores extremos.
En este caso el rango intercuartil es 674.5 – 198.0 = 476.5 ppm. Dado que el
criterio es 1.5 veces el rango intercuartil, la longitud máxima de cada bigote será
1.5*( 476.5 ) = 714.75 ppm.

La diferencia entre el primer cuartil y el valor mínimo es 198.0 -113.0 = 85 ppm,


magnitud mucho menor a 1.5 veces el rango intercuartil (714.75 ppm). Por ello, el
primer bigote irá de 113.0 ppm a 198.0 ppm y no se identificarán valores extremos
en la cola inferior del diagrama.

Bajo el mismo criterio, el segundo bigote tendrá una extensión máxima que va del
valor del tercer cuartil (674.5 ppm) a un valor máximo de 674.5 + 714.75 = 1389.25
ppm.

En este caso, todos los valores observados mayores a 1389.25 ppm se grafican
como puntos fuera de los bigotes y constituyen valores extremos (ilustración 11).

Derechos reservados ©Centro de Investigación en Ciencias de Información Geoespacial, A.C.


Contoy 137 Esq. Chemax, Col. Lomas de Padierna, Delegación Tlalpan, CP 14240, México, CDMX
Ilustración 10. Diagrama de caja de la distribución del zinc para los datos Meuse
con criterio de 1.5 veces el rango intercuartil para la longitud de los bigotes.

En el diagrama de caja, se identifican seis observaciones con valores extremos. Si


se encuentra que estos valores son producto de errores de medición, entonces las
seis observaciones se pueden eliminar de la muestra.

Otro elemento de análisis es la distribución espacial de los datos. En la ilustración


11 se muestra este elemento para las mediciones de zinc.

De acuerdo con la imagen, el diámetro de los círculos es proporcional a la


concentración medida del metal. Asimismo, se identifica un patrón: las mediciones
de concentraciones de zinc son más altas en los bancos del río Meuse, es decir, a
una menor magnitud de la distancia de separación entre la observación y el río,
suele corresponderle una medición de alta concentración de zinc.

En este caso, los valores extremos no son producto del error, por lo que no existen
argumentos para eliminarlos de la muestra.
En ocasiones, el agrupamiento de valores extremos en una región determinada
indica que el fenómeno de estudio tiene un comportamiento diferente y, por tanto,

Derechos reservados ©Centro de Investigación en Ciencias de Información Geoespacial, A.C.


Contoy 137 Esq. Chemax, Col. Lomas de Padierna, Delegación Tlalpan, CP 14240, México, CDMX
la muestra debe ser partida y los datos de cada región analizados por separado.
Esto suele suceder cuando hay accidentes geográficos.

En otros casos se puede encontrar una función matemática que describa y


caracterice el comportamiento de la variable en el área de estudio; para los datos
Meuse, la concentración de zinc en función del inverso de la distancia de
separación entre la observación y el río.

Ilustración 11. Distribución espacial de las mediciones del zinc para los datos Meuse.

Derechos reservados ©Centro de Investigación en Ciencias de Información Geoespacial, A.C.


Contoy 137 Esq. Chemax, Col. Lomas de Padierna, Delegación Tlalpan, CP 14240, México, CDMX
Bibliografía

Bivand, R.S., Pebesma, E. y Gómez-Rubio, V. (2013). Applied Spatial Data Analysis with
R. Unites States: Springer.

Chao, L. L. (2006). Introducción a la estadística. México: Cecsa.


Walpole, R. E.; Myers, R. H.; Myers, S. L. y Ye, K. (2007). Probabilidad y estadística para
ingeniería y ciencias. México: Pearson Educación.

Derechos reservados ©Centro de Investigación en Ciencias de Información Geoespacial, A.C.


Contoy 137 Esq. Chemax, Col. Lomas de Padierna, Delegación Tlalpan, CP 14240, México, CDMX

También podría gustarte