Está en la página 1de 5

Actividad 4.

Estadística descriptiva
Universidad del Tolima- Programa de Química
Estadística General-Semestre 3
Nombre: Nidian Lizeth Narvaez Garcia
Código: 070300322022

ANÁLISIS EXPLORATORIO DE LOS DATOS A ANALIZAR

➔ Variables cuantitativas (Continuas): COD, PO4 Y NO2


➔ Variables cualitativas (Nominal): month

En primera instancia, se realizará un diagrama de cajas y bigotes para cada variable


diferenciado por mes, con el fin de comparar la distribución de datos mediante la
identificación de los siguientes estadísticos: Cuartiles( Primer cuartil, Segundo cuartil o
mediana y tercer cuartil), Rango intercuartílico (RIC), Rango (Máx-Mín) y los valores
atípicos.

Figura 1.

En este caso se puede observar que ambas distribuciones de datos presentan una distribución
simétrica, puesto que para cada caso la mediana se sitúa en la mitad de la caja, dividiendo los
datos en un 50% en la parte inferior y 50% en la parte superior. También es posible identificar
que se presentan dos valores atípicos en la distribución que corresponde al mes de mayo,
puesto que tales valores se encuentran más allá del límite inferior, es decir, superan 1.5 veces
RIC. Sí comparamos ambas distribuciones, podemos observar que existe vayor variabilidad
en los datos del mes de noviembre, debido a que presenta un mayor rango respecto al mes de
mayo.
Figura 2.

En la figura 2 podemos observar que aparentemente las distribuciones entre la variable PO4
respecto al cada mes son simétricas y con medianas similares, sin embargo, es posible
distinguir dos tipos de distribuciones: En el primer caso una simétrica, dado que la mediana
se sitúa en el centro de la caja, y en la segunda caja se puede observar una distribución
asimétrica negativa, puesto que es posible detectar que la mediana está ligeramente más cerca
del Q3, es decir, los datos inferiores se encuentran un poco dispersos y los superiores más
concentrados o agrupados. Respecto a las diferencias entre ambas distribuciones cabe
destacar que el mes de mayo presenta mayor dispersión de los datos, debido a que su rango
es mayor en comparación a la distribución de noviembre, y a su vez presenta 3 datos atípicos
más allá del límite superior, los cuales indican que tales valores superan el 1.5 veces RI.

Figura 3.
Al igual que en la figura anterior es posible decir a simple vista que ambos casos presentan
una misma distribución simétrica, a excepción de sus medianas las cuales difieren entre sí.
Sin embargo, lo anterior es incorrecto ya que en la distribución que corresponde al mes de
mayo se puede observar que los datos inferiores presentan mayor dispersión respecto a los
superiores, es decir, la mediana está más cerca al Q3, por lo tanto, tal distribución de los datos
presenta una asimetría negativa. Para ambos casos es posible identificar 5 valores atípicos
tanto en los límites superiores como en los inferiores, esto se debe a que existen valores que
superaron 1.5 veces RI los valores de los máximos y mínimos en cada distribución, también
cabe resaltar que existe mayor dispersión de los datos en el mes de noviembre respecto al mes
de mayo, puesto que se presenta un mayor rango, dicha dispersión se observa
mayoritariamente en los datos más pequeños ubicados antes del Q1.

ANÁLISIS BIVARIADO ENTRE LAS VARIABLES CONTINUAS


A continuación se presenta un gráfico por cada par de variables continuas respecto a cada
mes, con el fin de analizar la relación entre una variable y otra. En este caso se presentan las
siguientes estadísticos para cada variable.
Nota: La correlación se realiza con el fin de señalar la intensidad que tiene una variable
respecto a otra, sin embargo, no se prueba una relación causal.
Figura 4.
,
En la Figura 4. se puede observar una baja correlación positiva, puesto que a pesar de ser
evidente que el valor de NO2(Variable Y) aumenta ligeramente a medida que aumenta el
valor de PO4(Variable X), es posible observar una gran dispersión de los datos, además de
datos anómalos que pueden relacionarse a los valores atípicos, tal dispersión de los datos se
nota más en el mes de mayo en comparación al mes de noviembre.

Figura 5.
En la Figura 5 a simple vista se puede observar que para ambos meses los datos presentan
una buena correlación positiva, donde es posible identificar como los valores de COD(Y)
aumentan de forma proporcional a la variable NO2(X). En comparación al ejemplo anterior
existe menos dispersión de los datos, sin embargo, en el mes de noviembre se logra observar
una considerable dispersión de los datos, especialmente en el rango de valores altos .

Figura 6.
En el caso de la Figura 6, es evidente observar que en el mes de noviembre existe una muy
baja correlación positiva de los datos, porque a pesar de que ambas variables incrementan
ligeramente a medida que la otra lo hace, existe mucha dispersión de los datos, tanto de los
datos menores como en los mayores, lo cual marca una diferencia respecto al mes de mayo en
el cual existe un mejor agrupamiento de los datos, aunque no es una correlación positiva
perfecta, se logra observar una mejor tendencia.

También podría gustarte