Está en la página 1de 16

Ordenación, Organización, Exploración y Presentación de

Datos en RStudio

2020
El análisis exploratorio comprende una variedad de técnicas y métodos para
maximizar la comprensión de los conjuntos de datos, desde descubrir su estructura y
detectar fallas como outlayers o valores atípicos, hasta comprobar suposiciones y
desarrollar modelos. El análisis exploratorio de inicio comprende gráficas estadísticas
que ayudan a precisar y afinar las preguntas de investigación (Ramón, 2018).

¿Por qué utilizar gráficas? Teniendo como base que una imagen puede resumir
y explicar un fenómeno mejor que describiéndolo con palabras. Las gráficas estadísticas
son unas de las herramientas mas importantes a la hora de apoyar un proceso de
análisis de datos. Con ellas se puede transmitir información de forma rápida y con un
lenguaje de fácil interpretación. Previo a la realización de análisis estadísticos, es
necesario conocer las características de los datos, que pueden ser proporcionadas
mediante las gráficas estadísticas. Convirtiéndose en una herramienta útil que simplifica
el razonamiento critico de los datos (Ramón, 2018).

Para construir una grafica estadística es necesario tener en cuenta aspectos de


diseño como: tamaño y escalas de variables. Pero sobre todo tener claro el mensaje
que se desea transmitir a través de esta herramienta. Actualmente, con los avances
tecnológicos, la estadística moderna tiene a la mano recursos que facilitan el
desempeño y ejecución de las técnicas de análisis de datos. Existen programas
estadísticos que facilitan la construcción de gráficas, manipulación de ejes, selección de
datos, etiquetado, colores, leyendas entre otras tareas más (Ramón, 2018). RStudio es
un lenguaje de programación flexible que permite desarrollar graficas de alta calidad.

Partiremos del hecho de que los datos pueden ser definidos como información
que representa atributos cualitativos y cuantitativos de una variable o conjunto de
variables. En estadística los datos se clasifican en datos no agrupados y datos
agrupados. Un dato que es registrado, medido, recopilado de manea inicial corresponde
a un dato no agrupado por ejemplo: la longitud corporal de una hormiga, el área basal
de un árbol o el número de especies de un área especifica (Ramón, 2018).

Tablas de frecuencia
Las tablas de frecuencia surgen como una herramienta para agrupar grandes
cantidades de datos, con el objetivo de simplificar el cálculo de análisis descriptivos o
inferenciales. Una propiedad de las tablas de frecuencia es que cuando se trata de
variables cuantitativas continuas con valores grandes, esos valores se agrupan en
intervalos de clase con la misma amplitud y mutuamente excluyentes. Una regla
empírica establece que deben ser entre 6 y 15 intervalos para obtener un resumen
adecuado, con una misma amplitud. Para establecer la amplitud, una regla a seguir es
la generación de 5 o 10 unidades (si esta en escala de 0 y 1, las amplitudes serian 0.05,
0.10….), siendo el limite inferior del primer intervalo, menor o igual al valor mínimo de la
variable; análogamente, el limite superior del intervalo, debe ser mayor o igual al máximo
valor de la variable.

Como ejemplo, vamos a construir una tabla con 5 columnas. Las columnas están
conformadas por: intervalos de clases, frecuencias absolutas, frecuencias relativas, y
frecuencias acumuladas:
El archivo sobre el cual vamos a trabajar corresponde a datos sobre la calidad
del aire: “Calidad_aire_1.txt”

Tenga en cuenta que para la lectura de archivos, RStudio trabaja con la dirección
de ubicación del archivo. Se sugiere crear una carpeta (Estadística) en el escritorio de
su ordenador. En el interior de esta carpeta almacene el archivo “Calidad_aire_1.txt”.
Sobre esta carpeta se establecerá la dirección de trabajo, se almacenará el RScript y
las gráficas generadas.

Para establecer la dirección de trabajo seleccione la opción Session de la barra


de tareas. Luego, seleccione Set Working Direntory y luego Choose Directory. En la
ventana que aparecerá, elija la carpeta que creó en el escritorio de su ordenador.

Use el código a continuación para leer el archivo "Calidad_aire_1.txt": en la


variable calidad_aire almacenaremos el archivo "Calidad_aire_1.txt".

calidad_aire <- read.table("Calidad_aire_1.txt", header = T,


na.strings = "NA")

read.table() es una función para la lectura de archivos en formato .txt. Existen


otras funciones para leer archivos en otro formato como: read.csv(), para archivos .csv
(delimitados por comas “,”) o read_excel() para archivos en formato .xlxs. Sin embargo,
el formato de archivo con el que vamos a trabajar a lo largo de la asignatura será .txt,
con la función read.table().

Los argumentos: header = TRUE o FALSE dentro de la función de lectura de


archivos read.table(), indica que los archivos cuentan con un encabezado en las
columnas (TRUE) o no (FALSE). Mientras que, na.strings = “NA”, hace posible la lectura
de espacios vacíos (NA) dentro de las observaciones de los campos, variables o
columnas (revise las variables Ozone y Solar.R del objeto calidad_aire).

Observe la estructura de los datos de con la función str().

str(calidad_aire)

'data.frame': 153 obs. of 6 variables:


$ Ozone : int 41 36 12 18 NA 28 23 19 8 NA ...
$ Solar.R: int 190 118 149 313 NA NA 299 99 19 194 ...
$ Wind : num 7.4 8 12.6 11.5 14.3 14.9 8.6 13.8 20.1 8.6 ...
$ Temp : int 67 72 74 62 56 66 65 59 61 69 ...
$ Month : int 5 5 5 5 5 5 5 5 5 5 ...
$ Day : int 1 2 3 4 5 6 7 8 9 10 ...

El objeto calidad_aire es una hoja de datos o ‘data.frame’, con 153


observaciones (filas) y 6 variables (columnas). Todas las variables son cuantitativas:
cuantitativas discretas (int) en la mayoría de variables, a excepción de ‘Wind’ que
presenta un tipo de variable cuantitativa continua (num). Ademas, se puede observar la
presencia de espacios vacíos ‘NA’ en las variables ‘Ozone’ y ‘Solar.R’.

Si se desea observar con mejor detalle las variables de la hoja de datos, con la
función View() lo podemos hacer. Esta función devuelve un visor de datos de la hoja de
datos:

View(calidad_aire)
Vamos a concentrarnos en resumir la variable temperatura ‘Temp’ de la hoja de
datos calidad_aire:

1. A continuación vamos a crear una copia únicamente con los datos de


temperatura ‘Temp’ de la hoja de datos calidad_aire (temperatura medida en
grados F). A esta copia la vamos a denominar ‘temperatura’, vamos agregar el
operador ‘<-’, y con el signo ‘$’ vamos a seleccionar únicamente la variable
‘Temp’ de la hoja de datos ‘calidad_aire’. Escriba el siguiente código en el editor
de comandos y ejecute:

temperatura <- calidad_aire$Temp


temperatura

2. Ahora, vamos a observar el rango o amplitud de esta variable. Escribimos en el


editor:

range(temperatura)
[1] 56 97

Se observa 56ºF y 97ºF son los valores mínimo y máximo de temperatura


respectivamente.

3. A continuación, vamos a crear un vector denominado ‘clases’, con una secuencia


numérica que contenga los valores mínimo y máximo de temperatura. Con un
numero de 10 clases, que resulta de dividir la diferencia de los valores máximo
y mínimo (97 – 56 = 41) para el número de clases deseado (41 / 10 = 4.1).
Escribimos en el editor:

clases=seq(56,97,4.1)

donde 56 es la temperatura mínima, 97 la temperatura máxima y 4.1 es el ancho de


cada clase:

clases
[1] 56.0 60.1 64.2 68.3 72.4 76.5 80.6 84.7 88.8 92.9 97.0

4. Vamos a crear una distribución de frecuencias de los datos de ‘temperatura’


mediante la función ‘hist()’ y la vamos a almacenar en H:

H=hist(temperatura,breaks=clases)

Observamos los resultados de H:

$breaks
[1] 56.0 60.1 64.2 68.3 72.4 76.5 80.6 84.7 88.8 92.9 97.0
breaks corresponde a los limites de intervalo de clases (cada 4.1)

$counts
[1] 8 8 13 10 22 24 29 20 12 7
counts corresponde a las frecuencias de cada clase (F)

$mids
[1] 58.05 62.15 66.25 70.35 74.45 78.55 82.65 86.75 90.85 94.95
mids representa los puntos medios de cada clase.
5. Si es de interés, se puede calcular las frecuencias relativas de la siguiente
manera:

Fr=H$counts /length(temperatura)
Donde ‘length(temperatura)’ es el tamaño de la muestra (n = 153)

Fr
[1] 0.05228758 0.05228758 0.08496732 0.06535948 0.14379085
0.15686275
[7] 0.18954248 0.13071895 0.07843137 0.04575163

6. Las frecuencias absoluta acumulada ‘Fa’ y la frecuencia relativa acumulada ‘Fra’


de las puede calcular mediante la función ‘cumsum()’. Esta función realiza la
operación de suma sucesiva desde el primer elemento hasta el último:

Fa= cumsum(H$counts)
Fa
[1] 8 16 29 39 61 85 114 134 146 153
Fa es igual a la suma sucesiva de las frecuencias de cada clase

Fra= cumsum(H$counts/length(temperatura))
Fra
[1] 0.05228758 0.10457516 0.18954248 0.25490196 0.39869281
0.55555556
[7] 0.74509804 0.87581699 0.95424837 1.00000000
Fra es igual a la suma sucesiva de la división de las frecuencias de cada clase divididas para el tamaño de
la muestra.

7. Para controlar o fijar el número de dígitos decimales, podemos hacerlo con la


instrucción ‘round()’. Esta instrucción permite redondear las frecuencias al
número de cifras decimales que se desee:

Fra= cumsum(round(H$counts/length(temperatura), digits=3))


Fra
[1] 0.052 0.104 0.189 0.254 0.398 0.555 0.745 0.876 0.954 1.000
Dentro de la instrucción ‘round()’ se establece el número de dígitos decimales que se desea ‘digits=3’.

Tabla 1. Datos de temperatura, organizados en 10 clases (clase), con su


frecuencia absoluta (F), frecuencia absoluta acumulada (Fa), frecuencia relativa (Fr) y
frecuencia relativa acumulada (Fra).

Fuente: Chambers et al. 1983


Elaborado por: Ramón, P. (2018)
8. Se propone una función para calcular de forma sencilla y rápida la tabla de
frecuencias. Copie esta función en el editor de comandos:

distrib.frec<-function(datos,n.clases){
datos<-na.omit(datos)
ac=(range(datos)[2]-range(datos)[1])/n.clases
clases=seq(range(datos)[1],range(datos)[2],ac)
H=hist(datos,breaks=clases)
F=H$counts
Fa=cumsum(H$counts)
n=length(datos)
Fr= H$counts/n
Fra= cumsum(H$counts/n)
C=1:n.clases
tabla.frec=cbind(C,F,Fa,Fr,Fra)
print(tabla.frec)
}

9. Posteriormente para ejecutar esta función debe escribir el siguiente comando


‘distrib.frec()’, definiendo la variable y el numero de clases:

distrib.frec(temperatura,10)

La consola devolverá la tabla de frecuencias (Figura 1). Así como también, una
gráfica de la distribución de frecuencias (Figura 1)

Figura 1. Tabla de frecuencias y gráfica de distribución de frecuencias en RStudio


(Captura de pantalla).

Resolver ejercicio (1) en RStudio:

Agrupar los datos de la variable ozono (Ozone) de la hoja de datos ‘calidad_aire’,


en siete clases y reportar los resultados conforme la Tabla 1.

Sugerencias para el desarrollo:

La variable Ozone está dada en partes por billón (ppb). Similar al ejemplo de la
temperatura, ahora va a crear una nueva variable ‘ozono’, tenga en cuenta que esta
nueva variable tiene datos incompletos o faltantes, que aparecen como “NA”, antes de
avanzar con los cálculos, deberá omitir los datos faltantes, de la siguiente manera:
escriba las siguientes líneas de código:
ozono<-airquality$Ozone
ozono<-na.omit(ozono)

O si desea, puede utilizar la función “distrib.frec” que le permitirá construir de


forma rápida y sencilla la tabla de frecuencias.

Gráficas en RStudio

Gráficas estadísticas para variables categóricas


Las gráficas mas utilizadas cuando de datos categóricos se trata son las gráficas
de diagrama circular de sectores (pie chart) y el diagrama de barras (barplot).

Diagrama Circular

Es una representación gráfica con regiones de un circulo con diferentes colores.


El área de cada región corresponde a las frecuencias absolutas y relativas de las
categorías de la variable categórica.

En RStudio mediante la función pie(x, labels=…) se puede construir un diagrama


circular. Donde x toma valores de las frecuencias y labels es un vector de caracteres o
nombres para cada región.

Ejemplo:

Crear una variable ‘wind.cat’ a partir de categorizar la variable ‘Wind’ de la hoja


de datos ‘calidad_aire’ en tres categorías: ‘menor o igual a 5; entre 5 y 15 y mayor a 15’
La medida de esta variable esta dada en millas por hora. Representar a través de un
diagrama circular la nueva variable ‘wind.cat’:

Tenga en cuenta que con la función ‘cut()’ se puede categorizar variables


categóricas. A continuación el desarrollo de este ejercicio:

1. Asignación de nombre a la variable que vamos a construir:

wind.cat=cut(calidad_aire$Wind,
breaks=c(0,5,15,Inf),labels=c("baja","media","alta"))

Con la función ‘cut()’ creamos la variable ‘wind.cat’, que es una variable categórica con
valores de ‘baja’, ‘media’, y ‘alta’. La instrucción ‘breaks=c(0,5,15,Inf)’ indica que los datos
numéricos de la variable ‘Wind’ van a se reemplazados por un valor categórico.

Si los datos de ‘Wind’ están entre 0 y 5, serán reemplazados por el valor categórico ‘baja’ en la
nueva variable ‘wind.cat’.

Si los datos de ‘Wind’ están entre 5 y 15 se les asignara, serán reemplazados por el valor
categórico ‘media’ en la nueva variable ‘wind.cat’.

Si los datos de ‘Wind’ están entre 15 e Inf (infinito) se les asignara, serán reemplazados por el
valor categórico ‘baja’ en la nueva variable ‘wind.cat’.
2. Se puede observar la variable creada:

Wind.cat

3. O se puede generar una frecuencia absoluta de los valores categóricos


presentes, con la función ‘table()’:

t=table(wind.cat)
t
wind.cat
baja media alta
10 133 10
wind.cat contiene 153 valores categóricos: 10 valores categóricos ‘baja’, 133 valores categóricos ‘media’, y
10 valores categóricos ‘alta’, almacenados en ‘t’.

4. Definimos los colores, aunque si no se define, el programa puede asignar


colores por defecto:

colores<-heat.colors(3)
Se especifica el número de colores (3) en relación a los valores categóricos.

5. Calculamos los porcentajes de cada sector:

p=round(t/sum(t) * 100, 1)
p
wind.cat
baja media alta
6.5 86.9 6.5
En ‘p’ almacenamos el producto de la multiplicación de la división de los valores almacenados en ‘t’
(10,133,10) para la suma de ‘t’ (153), por 100. Y con la función ‘round()’ establecemos un solo numero
decimal.

6. Agregamos el signo de porcentaje a cada valor:

p=paste(p, "%", sep="")


p
[1] "6.5%" "86.9%" "6.5%"
Con la función paste pegamos el símbolo ‘%’ a cada número en ‘p’. Con la instrucción ‘sep=””’ se indica a
cuantos espacios se va a colocar este símbolo del número.

7. Y generamos el diagrama:

pie(t,col=colores,labels=p,cex=1.5)
Con la función ‘pie()’ generamos la gráfica circular, con las frecuencias almacenadas en ‘t’, los colores
almacenados en ‘colores’, con las etiquetas almacenadas en ‘p’ y con un tamaño de letra de ‘cex=1.5’.
8. Creamos una leyenda para indicar lo que representa cada color:

legend("topright", names(t), cex=1, fill=colores, title= "Velocidad - viento",bty="n")


Con la función ‘legend()’ se puede agregar una leyenda a la grafica generada. “topright” hace referencia a
la última gráfica generada, names(t) son los nombre almacenados en t(baja, media,alta), cex=1 es el
tamaño de letra, fii= corresponde a la asignación de colores que va a ser igual a los colores generados en
colores, con title= se le asigna un titulo a la leyenda y con bty= “n” que corresponde a la presentación del
recuadro enviado al fondo.

Diagramas de Barras

Se utilizan también para representar variables categóricas. En donde cada


categoría o nivel corresponde a una barra vertical, cuya altura será fijada por la
frecuencia absoluta y relativa de cada categoría.
Esta gráfica es útil cuando se dispone de dos columnas de datos, una categórica
(nombre de especie) y otra numérica (abundancia).

Ejemplo:

1. Vamos a utilizar los datos categorizados de ‘wind.cat’. podemos generar un


diagrama de barras con las frecuencias absolutas almacenadas en t, de la
siguiente manera:

barplot(t, xlab = "Velocidad del viento", ylab= "Frecuencia


absoluta", cex.lab =1.5, cex.names=1.2, cex.axis =1.2, las=1)
La función barplot() genero el diagrama de barras. Con xlab colocamos una etiqueta en el eje de las x
(horizontal). Con ylab colocamos una etiqueta en el eje de las x (vertical) y con cex.lab =1.5, cex.names
=1.2, cex.axis =1.2 controlamos el tamaño de letra de los ejes. Con las=1, se controla la orientación de los
valores de frecuencias (en este caso horizontal).

O también podemos emplear las frecuencias relativas:

barplot(t/sum(t), xlab="Velocidad del viento",ylab="Frecuencia


relativa", cex.lab=1. 5,cex.names=1.2,cex.axis=1.2,las=1)

Gráficas estadísticas para variables numéricas

Es importante conocer la distribución de los datos cuando se dispone de


variables numéricas. Para establecer análisis sobre ellos como: rango o amplitud,
medidas de tendencia central o que tan dispersos están los datos.

Histogramas

Son diagramas que consisten en barras verticales que muestran la distribución


de frecuencias de una variable cuantitativa. Son útiles para muestras mayor a 30.

La función hist(x, breaks=…) permite la generación de estos histogramas. Donde x


es el vector numérico y breaks una secuencia que representa los limites de las clases.

Ejemplo:

1. Vamos a utilizar los datos de la variable ‘temperatura’ anteriormente


anteriormente seleccionada:
hist(temperatura, col= "gray", cex.axis =1.2, xlab= "Temperatura
(oF)", main="", ylab="Frecuencia", cex.lab=1.5,las=1)

2. Para controlar el numero de clases: Primero creamos un vector que permita


definir las clases:

clases = seq(55,100,9)

3. Para crear las clases es necesario tres valores: un valor inicial (55), este valor
puede ser un valor anterior al mínimo (56); un valor final (100), que puede ser un
valor superior al máximo (97) y el tercer valor que será el cociente entre la
diferencia entre el máximo y el mínimo (100-55), dividido para el numero de
clases deseado (45/5=9) y será tomado como el ancho de cada clase.

hist(temperatura, breaks=clases, col="gray", cex.axis=1.2,


xlab="Temperatura (oF)", main="", ylab="Frecuencia",
cex.lab=1.5,las=1)

Se observa que, al modificar el número de clases, consecuentemente se modifica la


frecuencia de cada clase (5). Al reducir el número de clases se incrementa el ancho de
clase y el valor de la frecuencia.
Respecto a la forma de la distribución podemos decir que es bastante simétrica, es
decir las frecuencias más altas se ubican en la parte central de la distribución y decrecen
“simétricamente” en ambos lados de la distribución. No obstante, con mayor número de
clases el decrecimiento de las frecuencias no es muy simétrico puesto que las
frecuencias de las clases de la izquierda decrecen más lentamente que aquellas que se
ubican a la derecha de la gráfica.

A manera de observación se puede resaltar que una distribución con mayor número
de clases es más susceptible de identificar sesgos o asimetrías. La pregunta que suele
presentarse en esta situación es ¿Cuál es el número óptimo de clases?, no hay una
regla exacta, sino que la literatura sugiere un número entre 5 y 12 clases, dependiendo
del conjunto de datos.

Resolver ejercicio (2) en RStudio:

- Analizar la distribución de datos de la variable Ozone de la hoja de datos


calidad_aire, mediante un histograma de siete clases.
- La distribución ¿presenta una curva simétrica?, Si no es simétrica, ¿cuál es el
sesgo?. Aclarar estas dudas le permitirá asimilar la idea intuitiva de la propiedad
de normalidad.

Diagrama de cajas

La importancia en hacer uso de este tipo de diagramas es para la observación


de valores anómalos (autlayers) y para comparar distribuciones. La distribución de los
datos se realiza a través de cinco estadísticos resumen: el mínimo, el primer cuartil (Q1),
la mediana (Q2), el tercer cuartil (Q3) y el máximo.

Por ahora nos concentraremos en construir un diagrama de cajas en su forma


mas simple. Este diagrama presenta un rectángulo central cuya altura es el rango inter-
cuartil (IQR), el segmento dentro del rectángulo corresponde a la mediana y las líneas
(bigotes), arriba y abajo del rectángulo corresponden a los limites superior e inferior
respectivamente.

Algunos aspectos a considerar para su interpretación son: una distribución con


sesgo positivo tendrá un bigote mas largo en la dirección positiva que en la negativa.
Cuando el valor medio es mayor que la mediana, también habría indicios de sesgo
positivo. Los valores atípicos (outlayers) no necesariamente indican que son malos
datos u observaciones, de hecho, son importantes porque poseen información valiosa
del conjunto de datos.

Ejemplo:

1. Vamos a representar la velocidad del viento (millas por hora) de la hoja de datos:
calidad_aire$Wind (variable cuantitativa continua), mediante un diagrama de
cajas:

boxplot(calidad_aire$Wind, pch=19, cex=2, lwd=2, las=1,


ylab="Velocidad del viento (mi/h)", cex.axis=1.3, cex.lab=1.5)
Si previamente no ha creado una copia de la variable Wind (conforme se hizo
para la temperatura), se puede referir a la variable como calidad_aire$Wind, esta
notación tiene la estructura: nombre-de-la-hoja-de-datos$nombre-de-la-variable. El
signo de dólar ($) especifica una variable de entre todas las que conforman la hoja de
datos.

2. Para una mejor comprensión, a continuación la misma figura donde se muestran


todos los componentes del diagrama de cajas:

Por ahora nos limitaremos a decir que el valor central de la velocidad está
alrededor de 10millas/hora, y que hay presencia de valores atípicos de la velocidad,
ubicados por arriba del límite superior. Estos atípicos corresponden a valores muy altos
de la velocidad (días con viento muy fuerte). Otro aspecto importante es que los límites
(inferior y superior) no siempre van a coincidir con los valores mínimo y máximo de la
variable. El cálculo de los límites se realiza mediante las siguientes relaciones:

Límite inferior = Q1 – (1.5*IQR)


Límite superior = Q3 + (1.5*IQR)

En posteriores clases sobre estadísticos descriptivos, se detallará la forma de


calcular cada uno de los elementos del boxplot, para facilitar la interpretación de la
gráfica.

Relación de variables categóricas con variables numéricas


Diagrama de cajas

En el ejemplo anterior utilizamos el diagrama de cajas para representar la


distribución de una sola variable numérica (velocidad del viento). Ahora utilizaremos
este mismo tipo de diagrama para identificar la relación entre una variable numérica
(variable respuesta) y una variable categórica (variable explicativa). Existe muchas
situaciones que suponen una relación. Por ejemplo: la variación de la temperatura a lo
largo del año (mes por mes). Otros ejemplos pueden ser, la variación en la la longitud
corporal de especies de hormigas en respuesta a la variación altitudinal. La variación de
la presión arterial en respuesta a diferentes concentraciones de medicamentos. La
variación en la concentración de metales pesados en un rio como efecto de la
contaminación por minería; etc. Para establecer la relación es necesario que la variable
explicativa o independiente este conformada por dos o mas grupos (categorías o
tratamientos).

Ejemplo:

1. Vamos a utilizar las variables: temperatura (Temp) y mes (Month) de la hoja de


datos calidad_aire. Se desea conocer como cambia la temperatura en cada mes
observado.

Visualmente estas relaciones se pueden identificar mediante un diagrama de cajas


bi-variado:

2. Creamos una nueva variable ‘mes’ únicamente con los datos de ‘Month’ de la
hoja de datos calidad_aire:

mes<-calidad_aire$Month
mes
[1] 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5
5 6 6 6 6 6 6
[38] 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 7 7 7 7 7 7
7 7 7 7 7 7 7
[75] 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 8 8 8 8 8 8 8 8 8 8 8 8
8 8 8 8 8 8 8
[112] 8 8 8 8 8 8 8 8 8 8 8 8 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9
9 9 9 9 9 9 9
[149] 9 9 9 9 9

3. Construimos el diagrama de cajas:

boxplot(temperatura~mes, xlab="Mes",ylab="Velocidad del viento


(mi/h)", cex.axis=1.3, cex.lab=1.5, pch=19, cex=2, lwd=2,las=1)
Tenga en cuenta que dentro de la función boxplot() escribimos siempre la variable numérica (variable
respuesta) en este caso la temperatura; seguido de la variable categórica mes (variable explicativa)
enlazando las variables con el operador ‘~’, Que en RStudio se lee ‘en función de’. Es decir “temperatura
en función de mes”.
- El mes 5 presentó temperatura más baja, y el mes 8 la temperatura más alta.
- Los meses 6 y 7 presentan valores anómalos, registros muy bajos de la
temperatura. Consecuentemente distribución sesgada de la temperatura.
- El mes 6 y 9 muestran mayor variación en la temperatura, esto se puede deducir
por la longitud de los bigotes, y la presencia de atípicos.
- La relación no es constante, tampoco directa (lineal creciente) a lo largo de los
meses observados, pues la trayectoria que forman las cajas es parabólica.

Resolver ejercicio en RStudio:

- Analizar la relación entre variable Ozone presente y el mes Month, presentes en


calidad_aire. Realice un diagrama de cajas ¿Qué puede concluir a partir de la
grafica?
- Tenga presente que para este tipo de gráficas bi-variadas, una variable es
numérica y la otra es categórica, la variable categórica es la variable dependiente
(eje Y) y la variable categórica es la variable independiente (eje X). Ya en la
grafica analice el valor central en cada grupo y la variación en cada grupo,
reflejada en los anchos de caja, y en base a las diferencias que observe, escriba
su interpretación.

Relación de variable numérica con otra variable numérica

Diagrama de dispersión

El diagrama de dispersión es un conjunto de puntos graficado en un plano de


coordenadas, donde cada eje del plano representa una variable numérica. Por ejemplo,
la relación altitud versus área de dosel en arboles de cierta especie.

Los diagramas de dispersión son útiles como herramienta de visualización de


datos para ilustrar tendencias o identificar posibles asociaciones entre dos variables,
donde una de ellas podría ser considerada explicativa y la otra podría ser considerada
respuesta. Cuando la tendencia es creciente en ambos se hablaría de una asociación
positiva; si es creciente en un eje y decreciente en el otro, entonces se hablaría de una
asociación negativa. En el caso de no existir una tendencia (puntos dispersos
aleatoriamente en el plano), las variables no estarían correlacionadas.
Algunas consideraciones para la construcción de estos diagramas:

- Cuanto mas la formación de los puntos en el diagrama se asemeje a una recta


diagonal, mas fuerte es la relación (positiva o negativa).
- La fuerza de la relación se determina mediante estadísticos de prueba (técnicas
que se revisarán en clases posteriores).
- Dibujar un diagrama de dispersión es el primer paso en el análisis relacional
entre variables numéricas.

Ejemplo:

1. Mediante un diagramas de dispersión, analizar la relación entre variables


numéricas de la hoja de datos calidad_aire: temperatura versus radiación solar
y la relación entre temperatura y velocidad del viento:

Como primer paso creamos las variables de las cuales vamos a analizar su
relación: temperatura, radiación y velocidad:

temperatura<-calidad_aire$Temp
radiacion<-calidad_aire$Solar.R
velocidad<-calidad_aire$Wind

2. Diagrama de la relación radiación solar

plot(radiacion,temperatura,pch=20,cex=2,cex.axis=1.3,
xlab="Radiación (A)",ylab="Temperatura (oF)",cex.lab=1.5)

Hay una ligera (leve) relación positiva entre la temperatura del ambiente y la
radiación solar, sin embargo si se observa con detalle, la tendencia parece ser
cuadrática (forma parabólica.

3. Diagrama relación temperatura versus velocidad del viento:

plot(velocidad, temperatura, pch=20, cex=2, cex.axis = 1.3,


xlab="Velocidad (mi/h)", ylab="Temperatura (oF)",cex.lab=1.5)
Se evidencia una relación negativa (inversa) mediana entre la temperatura y la
velocidad del viento.

Hay una clara diferencia entre los dos diagramas, el segundo (temperatura -
velocidad) muestra una relación más definida que el primero (temperatura - radiación).
Esta fuerza de relación puede ser cuantificada mediante un coeficiente de correlación
(que se revisará en clases posteriores).

Bibliografía:

- Chambers, J. M., Cleveland, W. S., Kleiner, B. y Tukey, P. A. (1983). Graphical


Methods for Data Analysis. Belmont, CA: Wadsworth.

- Ramón P. (2018). Estadística descriptiva con aplicaciones usando R.


Departamento de Ciencias Biológicas, Sección de Ecología y Sistemática,
Universidad Técnica Particular de Loja

También podría gustarte