Está en la página 1de 21

1

Análisis exploratorio y preprocesamiento de datos


climáticos y lluvia en Australia
Andrea Mora, Juan Hernández

Universidad nacional de Colombia,


Profesora Elizabeth Leon Guzman

I. I NTRODUCCI ÓN
Aquı́ puedes escribir una introducción sobre el tema de tu artı́culo y la importancia del análisis exploratorio y el preproce-
samiento de datos en la minerı́a de datos.

II. A N ÁLISIS E XPLORATORIO DE DATOS


En esta sección, se explora el dataset de manera visual con histogramas, gráficos de dispersión, estimación de densidad,
diagramas de caja, entre otros. Adicionalmente, se calculan medidas descriptivas de centralidad y dispersión.

A. Visualización del dataset


Inicialmente, se explora el conjunto de datos para comprender su estructura y contenido. El dataset está compuesto por
un total de 23 atributos y contiene 145,460 registros, lo que proporciona una visión general de la cantidad de información
disponible. En la Tabla I, se presenta una descripción detallada de cada atributo junto con su tipo, una explicación de la medida
que representa y las unidades en las que se expresa. Además, se indica si el atributo contiene datos faltantes, más adelante
esto será importante ya que dependiendo de la cantidad de datos faltantes se usarán diferentes estrategias para imputar datos,
o remover columnas, esto es necesario ya que la mayorı́a de algoritmos de clasificación y clustering requieren vectores de una
misma dimensión, es decir no puede haber datos faltantes.
La mayorı́a de los atributos son de tipo numérico y están relacionados con medidas climáticas, el conjunto de datos se centra
en la recopilación de información meteorológica. Esta información inicial nos permite tener una visión general de la naturaleza
de los datos y prepararnos para realizar análisis más detallados y especı́ficos en la sección de preprocesamiento.
2

Atributo Tipo Datos faltantes


Descripción
Date Ordinal - Categórico No
Fecha en la que se toman las medidas. Desde 2007-11-01 hasta 2017-06-25
Location Nominal-Categórico No
Algunas ciudades de Australia
MinTemp Numérico - Intervalo Si
Mı́nima temperatura en un periodo de 24 horas hasta las 9 am. En unidades de grados
Celsius.
MaxTemp Numérico- Intervalo Sı́
Máxima temperatura en un periodo de 24 horas hasta las 9 am. En unidades de grados
Celsius.
Rainfall Numérico- Intervalo Si
Precipitación en un periodo de 24 horas hasta las 9 am. En unidades de milı́metro.
Evaporation Numérico - Intervalo Si
Evaporación medida con técnica de tanque de clase A en un periodo de 24 horas hasta
las 9 am. En unidad de milı́metros
Sunshine Numérico - Intervalo Si
Horas en las que la luz de sol es mayor que un cierto valor, del inglés ”bright sunshine
hours”. En el intervalo de 24 horas hasta la medianoche. En unidades de horas
WindGustDir Numérico- Intervalo Si
Dirección de la ráfaga de viento más fuerte en el intervalo de 24 horas hasta la
medianoche. Unidades de 16 puntos de compás
WindGustSpeed Numérico- Intervalo Si
Velocidad de la ráfaga de viento más fuerte en el intervalo de 24 horas hasta la
medianoche. Unidades de kilómetros por hora.
WindDir9am Numérico- Intervalo Si
Dirección de la ráfaga de viento promediado en 10 minutos antes de las 9 am. Unidades
de puntos de compás.
WindDir3pm Numérico- Intervalo Si
Dirección de la ráfaga de viento promediado en 10 minutos antes de las 3 pm. Unidades
de puntos de compás.
WindSpeed9am Numérico- Intervalo Si
Velocidad de la ráfaga de viento promediada en 10 minutos antes de las 3 pm. Unidades
de kilómetros por hora.
WindSpeed3pm Numérico- Intervalo Si
Velocidad de la ráfaga de viento promediada en 10 minutos antes de las 3 pm. Unidades
de kilómetros por hora.
Humidity9am Numérico- Intervalo Si
Porcentaje de humedad a las 9 am. Se mide por el porcentaje de vapor de agua en el aire
Humidity3pm Numérico- Intervalo Si
Porcentaje de humedad a las 3 pm. Se mide por el porcentaje de vapor de agua en el
aire
Pressure9am Numérico- Intervalo Si
La presión atmosférica reducida al nivel medio del mar a las 9 am. Unidad de medida
(hpa) hectopascal
Pressure3pm Numérico- Intervalo Si
La presión atmosférica reducida al nivel medio del mar a las 3 pm. Unidad de medida
(hpa) hectopascal
Cloud9am Numérico- Intervalo Fracción del cielo oscurecida por las nubes a las 9 am. Unidad de medida oktas (octavos Si
de cielo nublado)
Cloud3pm Numérico- Intervalo Fracción del cielo oscurecida por las nubes a las 3 pm. Unidad de medida oktas (octavos Si
de cielo nublado)
Temp9am Numérico- Intervalo Si
Temperatura a las 9 am. Unidad de medida grados Celsius
Temp3pm Numérico- Intervalo Si
Temperatura a las 3 pm. Unidad de medida grados Celsius
RainToday Nominal - Binario Si
1 si la precipitación (mm) en las 24 horas hasta las 9 am excede 1 mm; de lo contrario,
0. Unidad mm litro de agua por metro cuadrado
RainTomorrow Nominal - Binario Si
La cantidad de lluvia del dı́a siguiente en mm. Se utiliza para crear la variable de respuesta

TABLE I: En la tabla se detallan los nombres de los atributos, una descripción detallada de las variables y una columna binaria
que indica si se tienen datos faltantes.

Con el método describe de pandas podemos hacer un análisis inicial del rango de las variables, como se ve en la Tabla II,
y sus estadı́sticas descriptivas, como sus cuartiles, media, máximo y mı́nimo. Aunque se hará un análisis de estos valores más
adelante, por ahora se puede evidenciar el rango de las variables, por ejemplo las únicas que toman valores por debajo de 0
son las medidas de temperatura [”Temp9am”,”Temp3pm”,”MinTemp”,”MaxTemp”]. Las variables que tiene valores más altos
son las medidas de presión [’Pressure9am’,’Pressure3pm].
3

Variable count mean std min 25% 50% 75% max


MinTemp 143975.0 12.194034 6.398495 -8.5 7.6 12.0 16.9 33.9
MaxTemp 144199.0 23.221348 7.119049 -4.8 17.9 22.6 28.2 48.1
Rainfall 142199.0 2.360918 8.478060 0.0 0.0 0.0 0.8 371.0
Evaporation 82670.0 5.468232 4.193704 0.0 2.6 4.8 7.4 145.0
Sunshine 75625.0 7.611178 3.785483 0.0 4.8 8.4 10.6 14.5
WindGustSpeed 135197.0 40.035230 13.607062 6.0 31.0 39.0 48.0 135.0
WindSpeed9am 143693.0 14.043426 8.915375 0.0 7.0 13.0 19.0 130.0
WindSpeed3pm 142398.0 18.662657 8.809800 0.0 13.0 19.0 24.0 87.0
Humidity9am 142806.0 68.880831 19.029164 0.0 57.0 70.0 83.0 100.0
Humidity3pm 140953.0 51.539116 20.795902 0.0 37.0 52.0 66.0 100.0
Pressure9am 130395.0 1017.649940 7.106530 980.5 1012.9 1017.6 1022.4 1041.0
Pressure3pm 130432.0 1015.255889 7.037414 977.1 1010.4 1015.2 1020.0 1039.6
Cloud9am 89572.0 4.447461 2.887159 0.0 1.0 5.0 7.0 9.0
Cloud3pm 86102.0 4.509930 2.720357 0.0 2.0 5.0 7.0 9.0
Temp9am 143693.0 16.990631 6.488753 -7.2 12.3 16.7 21.6 40.2
Temp3pm 141851.0 21.683390 6.936650 -5.4 16.6 21.1 26.4 46.7

TABLE II: Con el método describe de pandas se obtienen estadı́sticas descriptivas como los cuartiles, el minimo l

Adicionalmente, es importante saber que valores faltantes tiene cada atributo. En la Tabla III se muestra el conteo de valores
nulos, conteo de valores no nulos, porcentaje de nulos y porcentaje de no nulos. Las únicas variables que no tiene nulos son
’Date’ y ’Location’. La tabla está ordenada en orden ascendente de acuerdo a la cantidad de nulos. Las variables ’Evaporation’
y ’Sunshine’ son las que más valores nulos contienen, esto probablemente es debido a que son medidas más complejas y
demoradas de tomar. En la sección de preprocesamiento se tendrá en cuenta la cantidad de datos faltantes para determinar con
qué valor se pueden remplazar, o si vale la pena conservar atributos como ’Sunshine’ que contienen un porcentaje significativo
de datos faltantes.
conteo de nulos conteo de no nulos porcentaje de nulos porcentaje de no nulos
Date 0 145460 0.000000 1.000000
Location 0 145460 0.000000 1.000000
MaxTemp 1261 144199 0.008669 0.991331
MinTemp 1485 143975 0.010209 0.989791
Temp9am 1767 143693 0.012148 0.987852
WindSpeed9am 1767 143693 0.012148 0.987852
Humidity9am 2654 142806 0.018246 0.981754
WindSpeed3pm 3062 142398 0.021050 0.978950
Rainfall 3261 142199 0.022419 0.977581
RainToday 3261 142199 0.022419 0.977581
RainTomorrow 3267 142193 0.022460 0.977540
Temp3pm 3609 141851 0.024811 0.975189
WindDir3pm 4228 141232 0.029066 0.970934
Humidity3pm 4507 140953 0.030984 0.969016
WindGustSpeed 10263 135197 0.070555 0.929445
WindGustDir 10326 135134 0.070989 0.929011
WindDir9am 10566 134894 0.072639 0.927361
Pressure3pm 15028 130432 0.103314 0.896686
Pressure9am 15065 130395 0.103568 0.896432
Cloud9am 55888 89572 0.384216 0.615784
Cloud3pm 59358 86102 0.408071 0.591929
Evaporation 62790 82670 0.431665 0.568335
Sunshine 69835 75625 0.480098 0.519902

TABLE III: Datos faltantes en cantidad y porcentaje.


4

B. Frecuencia de atributos categóricos


1) Frecuencias de datos para ’Date’: Para este campo encontramos que los registros van desde el primero de noviembre
de 2007 hasta el 25 de junio de 2017. En la Figura 1, podemos ver que agrupando los datos por año, se observa diferentes
frecuencias para cada uno, siendo el perı́odo entre 2014 a 2016 donde se registran la mayor cantidad de datos por año.

Fig. 1: Frecuencias de registros en el campo ’Date’, agrupadas por año.

2) Frecuencias de datos para ’Location’: En la Figura 2, podemos observar que las estaciones, o el campo ’Location’,
tienen una cantidad de registros similares (exceptuando los tres últimos). Esto nos podrı́a servir para realizar muestras basadas
en la cantidad de datos de cada estación o incluso llevar a cabo el mismo análisis con las ubicaciones que tienen más datos.

Fig. 2: Frecuencias de registros en el campo ’Location’.


5

3) Frecuencias de datos para la dirección del viento: En la Figura 3, podemos observar que las frecuencias de dirección
del viento son similares. Esto podrı́a indicar una consistencia en las condiciones climáticas a lo largo del dı́a, con patrones de
viento estables en la ubicación donde fueron tomados los registros.

Fig. 3: Frecuencias de registros en los campos ’WindGustDir’, ’WindDir9am’ y ’WindDir3pm’.

C. Frecuencias porcentuales de atributos categóricos


En la Tabla IV se agrupan los datos en las variables binarias Rain Today y Rain Tomorrow. Se puede ver que tienen
proporciones similares, esto es debido a que tienen los mismos valores con la diferencia de un dı́a de corrimiento. No hay una
cantidad significativa de datos nulos, al rededor de 2% para ambas variables binarias. Las frecuencias de los dı́as de No lluvia
(aproximadamente 76%) son mayores que las de lluvia (aproximadamente 22%), esto genera un set de datos asimétrico con
una representación de datos de no lluvia mucho mayor a los datos de dı́as de lluvia.
Rain Tomorrow Rain Today
No 0.758394 0.758415
Yes 0.219146 0.219167
datos nulos 0.022460 0.022419

TABLE IV: Frecuencias de datos en las variables ’Rain Today’ y ’Rain Tomorrow’.

En la Figura 4a se evidencian las frecuencias de la Tabla IV de manera gráfica para el atributo ’Rain Today’. Se pueden
evidenciar además las frecuencias de datos agrupados en las 49 ciudades de australia disponibles en este dataset, cada
localización tiene aproximadamente 2% de los registros, no hay registros faltantes en la variable ’Location’.

(b) Frecuencia de datos en distintas ciudades de


(a) Frecuencias de datos presentes en ’Rain Today’ Australia.
Fig. 4: Gráficos de torta para frecuencias de los datos categóricos del dataset
6

D. Medidas de centralidad
Ya que nuestra variable objetivo es ’RainTomorrow’, para ver las medidas de centralidad en nuestro dataset. Haremos el
análisis agrupando por esta variable.
1) Media: Esta la tabla V, además de mostrar la centralidad de los datos para cada atributo, agrupados en No o Yes para la
variable ’RainTomorrow’, nos permite ver cómo la lluvia afecta a diferentes atributos meteorológicos. Podemos notar algunas
cosas como:
• La cantidad de lluvia (Rainfall) es significativamente mayor en los dı́as de lluvia que en los dı́as sin lluvia.
• La temperatura mı́nima y máxima no parecen tener tanta incidencia en sı́ llueve o no. Esto podrı́a deberse al hecho de
que representan el rango de temperatura en lugar de un momento especı́fico, por lo que puede que no coincidan con el
momento en el que llovió.
• La humedad (Humidity9am y Humidity3pm) parece ser más alta en los dı́as de lluvia en comparación con los dı́as sin
lluvia.
• La velocidad del viento (WindGustSpeed, WindSpeed9am, WindSpeed3pm) también parece estar afectada y ser mayor
en los dı́as que llueve.
• La presión atmosférica (Pressure9am y Pressure3pm) no cambia mucho con respecto a la lluvia, por lo que harı́a falta un
análisis más avanzado para determinar si esta variable puede ser influyente.
• Las nubes (Cloud9am y Cloud3pm) parecen tener una incidencia importante, ya que hay un incremento cuando llueve.
• La temperatura en momentos especı́ficos (Temp9am y Temp3pm) no parece tener mucha incidencia en sı́ llueve o no.
Nuevamente, esto podrı́a deberse al hecho de que la lluvia se presenta en horas diferentes y que faltarı́a un dato de
temperatura por la noche para hacer una comparación adecuada. Por lo tanto, podemos observar que la temperatura no
es tan influyente.
Con esto, podemos obtener una primera impresión de cómo se relacionan las variables y determinar cuáles son más relevantes
para poder predecir la lluvia.
RainTomorrow MinTemp MaxTemp Rainfall Evaporation Sunshine WindGustSpeed WindSpeed9am WindSpeed3pm Humidity9am Humidity3pm Pressure9am Pressure3pm Cloud9am Cloud3pm Temp9am Temp3pm
No 11.897675 23.836247 1.270290 5.734807 8.546358 38.288391 13.567314 18.222804 66.217573 46.510625 1018.595599 1016.113587 3.932282 3.921896 17.077001 22.402905
Yes 13.186890 21.119100 6.142104 4.527779 4.471761 45.946764 15.508577 20.078509 77.983314 68.800019 1014.400000 1012.300820 6.099990 6.360065 16.676598 19.197113

TABLE V: Medias de las variables agrupadas ’RainTomorrow’

2) Media robusta: Para hallar esta media robusta, se hizo un recorte del 5% de los datos y se agrupó por la variable objetivo
’RainTomorrow’.

Al comparar la media estándar y la media robusta de las variables numéricas en nuestro conjunto de datos, podemos apreciar
cómo la eliminación de valores extremos afecta las estimaciones de las medias. En ciertos casos, la exclusión de estos datos
atı́picos reduce la influencia de valores excepcionales en la media, como es evidente en la variable ’Rainfall’, donde se observan
los mayores cambios. Esto sugiere la existencia de datos atı́picos que impactan la tendencia central de este atributo, ası́ como
de otras variables en el conjunto de datos. Este hallazgo es coherente con el análisis previo que reveló cómo la tabla de medias
estándar tiende a reflejar valores promedio más extremos en comparación con la tabla de medias robustas. La Tabla VI, que
representa las medias robustas, parece estar menos influenciada por valores atı́picos y proporciona estimaciones estadı́sticas
más robustas y confiables.
RainTomorrow MinTemp MaxTemp Rainfall Evaporation Sunshine WindGustSpeed WindSpeed9am WindSpeed3pm Humidity9am Humidity3pm Pressure9am Pressure3pm Cloud9am Cloud3pm Temp9am Temp3pm
No 11.897281 23.721210 0.416288 5.365168 8.726692 37.708933 13.169438 17.909313 66.832434 46.489423 1018.586664 1016.081804 3.924727 3.913202 17.060715 22.2877935
Yes 13.194350 21.001861 3.834361 4.222806 4.343173 45.325444 15.051436 19.705051 79.020774 69.604644 1014.461468 1012.330848 6.290302 6.560624 16.614379 19.064665

TABLE VI: Media robusta de las variables agrupadas por ’RainTomorrow’

3) Mediana: En la tabla VII, podemos ver que los datos tienen valores similares a los presentes en las tablas de medias y
medias robustas, sin embargo, podemos ver que en la variable ’Rainfall’ los valores tiene un cambio significativo, esto sugiere
nuevamente que en las tareas de preprocesamiento se debe revisar esta variable para eliminar outliers o administrar los datos
faltantes.
Sabemos que la mediana es más resistente a outliers, por lo tanto, estos datos pueden ser usados para completar los valores
faltantes en los atributos que lo necesiten.
RainTomorrow MinTemp MaxTemp Rainfall Evaporation Sunshine WindGustSpeed WindSpeed9am WindSpeed3pm Humidity9am Humidity3pm Pressure9am Pressure3pm Cloud9am Cloud3pm Temp9am Temp3pm
No 11.8 23.3 0.0 5.0 9.4 37.0 13.0 17.0 67.0 47.0 1018.5 1016.0 4.0 4.0 16.9 21.9
Yes 12.7 20.2 0.8 3.8 4.3 44.0 15.0 19.0 80.0 70.0 1014.3 1012.2 7.0 7.0 16.1 18.4

TABLE VII: Mediana de las variables agrupadas por ’RainTomorrow’

4) Moda: La tabla VIII representa los datos que más se repiten por cada atributo, agrupado por la variable ’RainTomorrow’.
Con esto podemos encontrar las siguientes cosas:
• Para la variable location, sabemos que en la estación que más llueve es en Portland y en la que menos llueve es Canberra.
7

• En algunos atributos cómo Rainfall y Sunshine hay diferencias notables, esto debido a los datos faltantes y que en rainfall
el 60% tiene como valor 0
• Podemos ver que para ’RainTomorrow’ en ’RainToday - Yes’ la moda es No, aquı́ debemos hacer un análisis cuidadoso
para determinar cuando ’RainTomorrow’ puede ser Yes o No
• En general los valores de la moda son similares a los de las anteriores tablas
RainTomorrow Date Location MinTemp MaxTemp Rainfall Evaporation Sunshine WindGustDir WindGustSpeed WindDir9am WindDir3pm WindSpeed9am WindSpeed3pm Humidity9am Humidity3pm Pressure9am Pressure3pm Cloud9am Cloud3pm Temp9am Temp3pm RainToday
No 2014-03-18 Canberra 11.0 20.0 0.0 4.0 11.0 E 35.0 N SE 9.0 13.0 65.0 52.0 1017.9 1015.5 1.0 1.0 16.0 20.0 No
Yes 2010-09-03 Portland 9.6 17.2 0.0 4.0 0.0 W 39.0 N W 9.0 17.0 99.0 69.0 1014.0 1010.4 8.0 8.0 13.8 16.0 No

TABLE VIII: Moda de las variables agrupadas por ’RainTomorrow’

E. Cuartiles y Percentiles
El k-esimo percentil de una variable numérica es un valor tal que el k% de las observaciones se encuentran debajo del
percentil y el (100 - k)% se encuentran sobre este valor. En estadı́stica se usan los cuartiles que son equivalentes a los
percentiles expresados en fracciones en vez de porcentajes.
1) Percentiles: Estos percentiles representan los valores que dividen una muestra en 100 partes iguales. Cada valor en la
tabla de la figura 5 indica el valor mı́nimo requerido para estar en un cierto percentil

Fig. 5: Percentiles de las variables numéricas del dataset.


8

2) Cuartiles: Revisando cuartiles del conjunto de datos en la tabla IX, podemos observar que no todos los valores son
positivos, sino que también hay negativos, esto en el caso de las temperaturas (medidas en grados Celsius). Para el caso de
Rainfall, podemos ver que la mayorı́a de datos están entre 0 y 0.8, pero hay un salto considerable de 0.8 a 371, comprobando
que en este campo hay valores atı́picos en un porcentaje pequeño de los datos Las presiones atmosféricas son las únicas
variables que no cambian significativamente.
Cuartil 0.00 0.25 0.50 0.75 1.00
Cloud3pm 0.0 2.0 5.0 7.0 9.0
Cloud9am 0.0 1.0 5.0 7.0 9.0
Evaporation 0.0 2.6 4.8 7.4 145.0
Humidity3pm 0.0 37.0 52.0 66.0 100.0
Humidity9am 0.0 57.0 70.0 83.0 100.0
MaxTemp -4.8 17.9 22.6 28.2 48.1
MinTemp -8.5 7.6 12.0 16.9 33.9
Pressure3pm 977.1 1010.4 1015.2 1020.0 1039.6
Pressure9am 980.5 1012.9 1017.6 1022.4 1041.0
Rainfall 0.0 0.0 0.0 0.8 371.0
Sunshine 0.0 4.8 8.4 10.6 14.5
Temp3pm -5.4 16.6 21.1 26.4 46.7
Temp9am -7.2 12.3 16.7 21.6 40.2
WindGustSpeed 6.0 31.0 39.0 48.0 135.0
WindSpeed3pm 0.0 13.0 19.0 24.0 87.0
WindSpeed9am 0.0 7.0 13.0 19.0 130.0

TABLE IX: Cuartiles de variables numéricas y fechas.

F. Medidas de dispersión
1) Rango de variables numéricas: En la Tabla X se pueden ver los rangos de todas las variables numéricas y una variable
temporal. La fecha mı́nima es el primero de noviembre de 2007 hasta el 25 de mayo de 2017, para un total de 3524 dı́as. El
rango más pequeño de variación es el de Cloud9am de 9 oktas. La mayor variación es la fecha, seguido por la lluvia que tiene
un rango de 371 mm.
Minimum Maximum rango
Date 2007-11-01 2017-06-25 3524
MinTemp -8.5 33.9 42.4
MaxTemp -4.8 48.1 52.9
Rainfall 0.0 371.0 371.0
Evaporation 0.0 145.0 145.0
Sunshine 0.0 14.5 14.5
WindGustSpeed 6.0 135.0 129.0
WindSpeed9am 0.0 130.0 130.0
WindSpeed3pm 0.0 87.0 87.0
Humidity9am 0.0 100.0 100.0
Humidity3pm 0.0 100.0 100.0
Pressure9am 980.5 1041.0 60.5
Pressure3pm 977.1 1039.6 62.5
Cloud9am 0.0 9.0 9.0
Cloud3pm 0.0 9.0 9.0
Temp9am -7.2 40.2 47.4
Temp3pm -5.4 46.7 52.1

TABLE X: Rangos de variables numéricas y fechas.

2) Desviación estándar y desviación media absoluta: En la Tabla XI se puede evidenciar que para todos los atributos las
desviaciones estándar están por encima de las desviaciones estándar media absoluta; sin embargo, hay valores como en Rainfall
que la diferencia es mucho mayor de 8.478060 a 2.360918, esto da indicio de que para este atributo hay unos valores extremos
(outliers) que hacen que suba la desviación estándar significativamente, debido a que la desviación estándar media absoluta es
más robusta a outliers su valor no se ve casi afectado por estos outliers.
9

Desviación estándar Desviación estándar media absoluta


MinTemp 6.398495 5.231592
MaxTemp 7.119049 5.795634
Rainfall 8.478060 2.360918
Evaporation 4.193704 2.862389
Sunshine 3.785483 3.137593
WindGustSpeed 13.607062 10.417909
WindSpeed9am 8.915375 7.003354
WindSpeed3pm 8.809800 6.922337
Humidity9am 19.029164 15.225327
Humidity3pm 20.795902 16.869715
Pressure9am 7.106530 5.631181
Pressure3pm 7.037414 5.611885
Cloud9am 2.887159 2.611530
Cloud3pm 2.720357 2.427772
Temp9am 6.488753 5.280155
Temp3pm 6.936650 5.610266

TABLE XI: Desviaciones estándar y desviaciones medias absolutas para las variables numéricas.

G. Matriz de covarianzas
En esta subsección se estudia la matriz de covarianza entre las variables numéricas. En la tabla XII se observa si hay una
relación lineal entre las variables, cuando la covarianza es positiva, estas varı́an en la misma dirección, es decir, si una aumenta
también la otra. Por ejemplo, las variables Temp9am aumenta cuando MaxTemp o MinTemp aumentan. Por otro lado, las
covarianzas de valor negativo en la tabla tienen un color gris, indica que cuando una de las variables decrece la otra aumenta.
MinTemp MaxTemp Rainfall Evaporation Sunshine WindGustSpeed WindSpeed9am WindSpeed3pm Humidity9am Humidity3pm Pressure9am Pressure3pm Cloud9am Cloud3pm Temp9am Temp3pm
MinTemp 40.94 33.53 5.63 12.54 1.73 15.59 9.96 9.87 -28.30 0.81 -20.28 -20.54 1.46 0.38 37.39 31.36
MaxTemp 33.53 50.68 -4.51 17.43 12.34 6.62 0.91 3.16 -67.96 -74.82 -16.43 -20.93 -5.89 -5.34 40.79 48.32
Rainfall 5.63 -4.51 71.88 -1.78 -7.65 15.26 6.58 4.30 36.19 44.83 -10.17 -7.58 5.32 4.35 0.62 -4.65
Evaporation 12.54 17.43 -1.78 17.59 5.06 11.43 6.94 4.63 -39.71 -33.48 -7.99 -8.64 -2.15 -2.00 15.00 16.58
Sunshine 1.73 12.34 -7.65 5.06 14.33 -1.77 0.18 1.74 -34.94 -48.33 1.12 -0.52 -7.16 -7.05 7.12 12.61
WindGustSpeed 15.59 6.62 15.26 11.43 -1.77 185.15 72.40 81.04 -56.15 -7.47 -43.93 -39.22 2.78 4.01 13.39 3.12
WindSpeed9am 9.96 0.91 6.58 6.94 0.18 72.40 79.48 40.59 -45.94 -5.83 -14.36 -10.93 0.64 1.31 7.43 0.28
WindSpeed3pm 9.87 3.16 4.30 4.63 1.74 81.04 40.59 77.61 -24.44 3.01 -18.32 -15.64 1.36 0.61 9.33 1.70
Humidity9am -28.30 -67.96 36.19 -39.71 -34.94 -56.15 -45.94 -24.44 362.11 263.96 18.76 24.88 24.62 18.31 -58.17 -65.69
Humidity3pm 0.81 -74.82 44.83 -33.48 -48.33 -7.47 -5.83 3.01 263.96 432.47 -4.04 7.55 30.90 29.54 -29.70 -80.40
Pressure9am -20.28 -16.43 -10.17 -7.99 1.12 -43.93 -14.36 -18.32 18.76 -4.04 50.50 48.08 -2.63 -2.82 -19.26 -13.83
Pressure3pm -20.54 -20.93 -7.58 -8.64 -0.52 -39.22 -10.93 -15.64 24.88 7.55 48.08 49.53 -1.22 -1.61 -21.22 -18.58
Cloud9am 1.46 -5.89 5.32 -2.15 -7.16 2.78 0.64 1.36 24.62 30.90 -2.63 -1.22 8.34 4.71 -2.59 -6.00
Cloud3pm 0.38 -5.34 4.35 -2.00 -7.05 4.01 1.31 0.61 18.31 29.54 -2.82 -1.61 4.71 7.40 -2.26 -5.98
Temp9am 37.39 40.79 0.62 15.00 7.12 13.39 7.43 9.33 -58.17 -29.70 -19.26 -21.22 -2.59 -2.26 42.10 38.51
Temp3pm 31.36 48.32 -4.65 16.58 12.61 3.12 0.28 1.70 -65.69 -80.40 -13.83 -18.58 -6.00 -5.98 38.51 48.12

TABLE XII: Matriz de covarianzas

H. Correlación lineal
Leyendo los datos de la tabla XIII, podemos observar que hay algunas relaciones fuertes entre las variables del dataset:

VARIABLES QUE SE CORRELACIONAN POSITIVAMENTE : VARIABLES QUE SE CORRELACIONAN NEGATIVAMENTE :


• MaxTemp y Temp3pm: 0.984503 • Sunshine y Humidity9am: -0.490819
• Pressure9am y Pressure3pm: 0.961326 • Temp9am y Humidity3pm: -0.498399
• MinTemp y Temp9am: 0.901821 • Evaporation y Humidity9am: -0.504092
• MaxTemp y Temp9am: 0.887210 • MaxTemp y Humidity9am: -0.504110
• Temp9am y Temp3pm: 0.860591 • MaxTemp y Humidity3pm: -0.508855
• MinTemp y MaxTemp: 0.736555 • Temp3pm y Humidity3pm: -0.557841
• MinTemp y Temp3pm: 0.708906 • Sunshine y Humidity3pm: -0.629130
• WindGustSpeed y WindSpeed3pm: 0.686307 • Cloud3pm y Sunshine: -0.703930
• Humidity9am y Humidity3pm: 0.666949
• WindGustSpeed y WindSpeed9am: 0.605303
• Cloud9am y Cloud3pm: 0.603564
• MaxTemp y Evaporation: 0.587932
• Evaporation y Temp3pm: 0.572893
• Evaporation y Temp9am: 0.545115
• WindSpeed9am y WindSpeed3pm: 0.519547

• Temperatura (MinTemp, MaxTemp, Temp9am, Temp3pm): Hay fuertes correlaciones positivas entre estas variables. Por
ejemplo, la temperatura mı́nima (MinTemp) está altamente correlacionada con la temperatura máxima (MaxTemp), la
temperatura a las 9 a.m. (Temp9am) y la temperatura a las 3 p.m. (Temp3pm). Esto es de esperar, ya que estas variables
están relacionadas directamente con la temperatura.
• Humedad (Humidity9am, Humidity3pm): La humedad a las 9 a.m. y a las 3 p.m. también muestra una correlación positiva
significativa entre sı́. Esto sugiere que la humedad tiende a mantenerse relativamente consistente durante el dı́a.
• Presión (Pressure9am, Pressure3pm): La presión a las 9 a.m. y a las 3 p.m. también está altamente correlacionada. Esto
sugiere que la presión atmosférica tiende a mantenerse constante durante el dı́a.
10

• Viento (WindGustSpeed, WindSpeed9am, WindSpeed3pm): Las velocidades del viento a diferentes momentos del dı́a
están moderadamente correlacionadas entre sı́, lo que indica una cierta consistencia en las condiciones del viento a lo
largo del dı́a.
• Lluvia (Rainfall): La cantidad de lluvia no muestra fuertes correlaciones con otras variables, lo que puede ser esperado,
ya que la lluvia es un evento climático relativamente independiente de otras condiciones.
• Nubosidad (Cloud9am, Cloud3pm): La nubosidad a las 9 a.m. y a las 3 p.m. está correlacionada positivamente, pero no
de manera muy fuerte. Esto sugiere cierta consistencia en las condiciones de nubosidad, pero con variabilidad.
• Brillo solar (Sunshine): El brillo solar muestra una correlación negativa significativa con la humedad y la nubosidad a las
9 a.m. y a las 3 p.m. Esto indica que dı́as más soleados tienden a tener menos nubosidad y humedad.
MinTemp MaxTemp Rainfall Evaporation Sunshine WindGustSpeed WindSpeed9am WindSpeed3pm Humidity9am Humidity3pm Pressure9am Pressure3pm Cloud9am Cloud3pm Temp9am Temp3pm
MinTemp 1.000000 0.736555 0.103938 0.466993 0.072586 0.177415 0.175064 0.175173 -0.232899 0.006089 -0.450970 -0.461292 0.078754 0.021605 0.901821 0.708906
MaxTemp 0.736555 1.000000 -0.074992 0.587932 0.470156 0.067615 0.014450 0.050300 -0.504110 -0.508855 -0.332061 -0.427167 -0.289370 -0.277921 0.887210 0.984503
Rainfall 0.103938 -0.074992 1.000000 -0.064351 -0.227549 0.133659 0.087338 0.057887 0.224405 0.255755 -0.168154 -0.126534 0.198528 0.172403 0.011192 -0.079657
Evaporation 0.466993 0.587932 -0.064351 1.000000 0.365602 0.203021 0.193084 0.129400 -0.504092 -0.390243 -0.270362 -0.293581 -0.183793 -0.182618 0.545115 0.572893
Sunshine 0.072586 0.470156 -0.227549 0.365602 1.000000 -0.034750 0.005499 0.053834 -0.490819 -0.629130 0.041970 -0.019719 -0.675323 -0.703930 0.291188 0.490501
WindGustSpeed 0.177415 0.067615 0.133659 0.203021 -0.034750 1.000000 0.605303 0.686307 -0.215070 -0.026327 -0.458744 -0.413749 0.071736 0.109168 0.150150 0.032748
WindSpeed9am 0.175064 0.014450 0.087338 0.193084 0.005499 0.605303 1.000000 0.519547 -0.270858 -0.031614 -0.228743 -0.175817 0.025112 0.054639 0.128545 0.004569
WindSpeed3pm 0.175173 0.050300 0.057887 0.129400 0.053834 0.686307 0.519547 1.000000 -0.145525 0.016432 -0.296351 -0.255439 0.053337 0.025396 0.163030 0.027778
Humidity9am -0.232899 -0.504110 0.224405 -0.504092 -0.490819 -0.215070 -0.270858 -0.145525 1.000000 0.666949 0.139442 0.186858 0.452297 0.357326 -0.471354 -0.498399
Humidity3pm 0.006089 -0.508855 0.255755 -0.390243 -0.629130 -0.026327 -0.031614 0.016432 0.666949 1.000000 -0.027544 0.051997 0.517120 0.523120 -0.221019 -0.557841
Pressure9am -0.450970 -0.332061 -0.168154 -0.270362 0.041970 -0.458744 -0.228743 -0.296351 0.139442 -0.027544 1.000000 0.961326 -0.129796 -0.147861 -0.422556 -0.286770
Pressure3pm -0.461292 -0.427167 -0.126534 -0.293581 -0.019719 -0.413749 -0.175817 -0.255439 0.186858 0.051997 0.961326 1.000000 -0.060772 -0.084778 -0.470187 -0.389548
Cloud9am 0.078754 -0.289370 0.198528 -0.183793 -0.675323 0.071736 0.025112 0.053337 0.452297 0.517120 -0.129796 -0.060772 1.000000 0.603564 -0.136959 -0.302060
Cloud3pm 0.021605 -0.277921 0.172403 -0.182618 -0.703930 0.109168 0.054639 0.025396 0.357326 0.523120 -0.147861 -0.084778 0.603564 1.000000 -0.126659 -0.317420
Temp9am 0.901821 0.887210 0.011192 0.545115 0.291188 0.150150 0.128545 0.163030 -0.471354 -0.221019 -0.422556 -0.470187 -0.136959 -0.126659 1.000000 0.860591
Temp3pm 0.708906 0.984503 -0.079657 0.572893 0.490501 0.032748 0.004569 0.027778 -0.498399 -0.557841 -0.286770 -0.389548 -0.302060 -0.317420 0.860591 1.000000

TABLE XIII: Correlación lineal o confı́ente de correlación de Pearson

I. Tablas de contingencia
Las tablas de contingencia presentadas muestran relaciones cruciales entre diversas variables meteorológicas categóricas y
la ocurrencia de lluvia al dı́a siguiente (’RainTomorrow’). Estas tablas permiten un análisis detallado de cómo factores como
la ubicación geográfica, la dirección del viento y la lluvia del dı́a cambian en función de la clasificación de RainTomorrow.
RainTomorrow Adelaide Albany Albury AliceSprings BadgerysCreek Ballarat Bendigo Brisbane Cairns
No 2402 2114 2393 2787 2345 2247 2472 2452 2038
Yes 688 902 618 244 583 781 562 709 950

TABLE XIV: Tabla de contingencia #1 para la variable Location

RainTomorrow Canberra Cobar CoffsHarbour Dartmoor Darwin GoldCoast Hobart Katherine Launceston
No 2789 2602 2084 2021 2340 2205 2427 1294 2329
Yes 629 386 869 922 852 775 761 265 699

TABLE XV: Tabla de contingencia #2 para la variable Location

RainTomorrow Melbourne MelbourneAirport Mildura Moree MountGambier MountGinini Newcastle Nhil NorahHead
No 1799 2356 2680 2460 2110 2088 2224 1327 2121
Yes 636 653 327 394 920 819 731 242 808

TABLE XVI: Tabla de contingencia #3 para la variable Location

RainTomorrow NorfolkIsland Nuriootpa PearceRAAF Penrith Perth PerthAirport Portland Richmond Sale
No 2045 2410 2257 2369 2548 2442 1901 2391 2357
Yes 919 592 505 595 645 567 1095 560 643

TABLE XVII: Tabla de contingencia #4 para la variable Location

RainTomorrow SalmonGums Sydney SydneyAirport Townsville Tuggeranong Uluru WaggaWagga Walpole Watsonia
No 2483 2472 2231 2514 2430 1405 2440 1870 2261
Yes 472 865 774 519 568 116 536 949 738

TABLE XVIII: Tabla de contingencia #5 para la variable Location

RainTomorrow Williamtown Witchcliffe Wollongong Woomera


No 1853 2073 2270 2788
Yes 700 879 713 202

TABLE XIX: Tabla de contingencia #6 para la Location

RainTomorrow E ENE ESE N NE NNE NNW NW S SE SSE SSW SW W WNW WSW


No 7721 6704 6105 6581 5741 4952 4698 5719 6932 7576 7238 6713 6993 7173 5791 6816
Yes 1350 1288 1200 2452 1319 1481 1863 2284 2017 1733 1755 1897 1804 2607 2275 2085

TABLE XX: Tabla de contingencia para la variable WindGustDir


11

RainTomorrow E ENE ESE N NE NNE NNW NW S SE SSE SSW SW W WNW WSW


No 7709 6370 6440 7883 5959 5811 5410 6163 6812 7671 7365 5803 6328 6103 5246 5151
Yes 1315 1365 1118 3510 1568 2137 2430 2389 1681 1491 1601 1645 1909 2157 1948 1692

TABLE XXI: Tabla de contingencia para la variable WindDir9am

RainTomorrow E ENE ESE N NE NNE NNW NW S SE SSE SSW SW W WNW WSW


No 6913 6342 6961 6246 6623 4867 5547 6075 7523 8632 7392 6221 7374 7383 6256 7236
Yes 1429 1382 1421 2421 1541 1577 2186 2393 2075 2031 1750 1789 1808 2528 2400 2093

TABLE XXII: Tabla de contingencia para la variable WindDir3pm

RainTomorrow No Yes
No 92728 16858
Yes 16604 14597

TABLE XXIII: Tabla de contingencia para la variable RainToday

J. Histogramas
En esta sección se muestran histogramas de los atributos del dataset. En la Figura 6 se evidencia el histograma de la variable
’Rain Today’, se puede ver que hay muchos más dı́as de no lluvia, esto indica una representación de datos desbalanceada.

Fig. 6: Este histograma muestra las frecuencias de dı́as de lluvia y no lluvia en el dataset.

A continuación se observan las variables numéricas agrupadas en atributos con las mismas unidades, aunque algunas variables
con las mismas unidades se grafican por separado, ya que las distribuciones son similares, o tienen una superposición tal que
serı́a difı́cil distinguir entre dos distribuciones. En la Figura 7 se tienen los histogramas de ’Evaporation’ y ’Rainfall’, en ellos
se ve que se acumulan la mayorı́a de valores en el rango cercano a 0, además hay algunos outliers que hacen que el rango de
la gráfica sea mucho mayor del rango en el que están concentrados la mayorı́a de los datos. Las distribuciones de temperatura
máxima y mı́nima son simétricas respecto a un eje vertical en 10 y 25 para la temperatura mı́nima y máxima respectivamente.
Para la gráfica de ’Sunshine’ hay una acumulación de valores en 0 que parecen salirse de la tendencia general de la distribución,
además esta tiene una asimetrı́a hacia la derecha.
12

Fig. 7: En la sección superior izquierda se tienen histogramas de temperaturas máxima y mı́nima. En la sección superior
derecha se tiene el histograma de lluvia. En la sección inferior izquierda se tiene el histograma para la evaporación, finalmente
en la sección inferior derecha se tiene el histograma de ’Sunshine’.

En la Figura 8 se pueden ver que para la variable ’Wind Gust speed’, ’Wind speed 9am’ y ’Wind Speed 3pm’ se tienen una
asimetrı́a hacia la izquierda. Por otro lado, la humedad presenta una distribución simétrica respecto a 50 y 70 para la humedad
a las 3pm y 9am respectivamente, hay algunos valores atı́picos a la distribución acumulados en valores de 100. Las variables
de presión también son simétricas al rededor de 1015 aproximadamente.
13

Fig. 8: En la sección superior izquierda se tiene el histograma de la velocidad del viento. En la sección superior derecha se
tiene el histograma de la velocidad del viento a ciertas horas. En la sección inferior izquierda se tiene el histograma de las
variables de humedad, finalmente en la sección inferior derecha se tiene el histograma de las variables de presión.

En la Figura 9 se puede observar que para la variable de cobertura de nubes se tienen dos picos en los bins correspondientes
a 1 y 8, ambas horas tienen un comportamiento similar. Las temperaturas a las 3pm y 9am tienen una distribución similar,
pero la correspondiente a las 3pm está corrida hacia la derecha, es decir, a las 3pm suele haber una mayor temperatura.

Fig. 9: En la gráfica de la izquierda se tiene el histograma de la cobertura de nubes a las 9am y 3pm. En la sección derecha
se tiene el histograma de temperaturas a las 9am y 3pm.

K. Estimación de densidad
En lugar de simplemente contar cuántos datos caen en diferentes rangos como en un histograma, la estimación de densidad
de kernel crea una especie de curva suave que muestra cómo se agrupan los datos en diferentes partes del rango.
Esta técnica es útil para determinar si los datos se asemejan a una distribución especı́fica que ya conocemos. En resumen,
la estimación de densidad de kernel nos ayuda a comprender mejor la forma en que se distribuyen nuestros datos sin hacer
suposiciones rı́gidas sobre la forma en que deberı́an estar distribuidos.
14

1) MinTemp y MaxTemp: En la figura 10 podemos observar que ambas siguen una distribución sesgada a la derecha (o
sesgo positivo). También podemos observar que sus cantidades son similares, pero en MinTemp, los valores son menores

Fig. 10: Diagramas de dimensionalidad para MinTemp y MaxTemp.

2) Temperaturas 9am y 3pm: En la figura 11 podemos observar que estos atributos siguen una distribución estándar, ya que
la mayorı́a de datos está cerca a la media y paree haber simetrı́a

Fig. 11: Diagramas de dimensionalidad para Cloud3pm y Cloud3pm.

3) Rainfall, Evaporation y Sunshine:


• En la figura 12, la primera gráfica (Rainfall) muestra que la mayorı́a de los datos están en valor de cero a 10. También
podemos entender que este atributo no sigue ninguna distribución conocida (o puede seguir una distribución sesgada a la
derecha), esto se puede deber a outliers.
• En la figura 12, la segunda gráfica (Evaporation) muestra que hay un comportamiento similar a ”Rainfall”, lo que puede
dar a entender que contiene outliers. Los datos no siguen ninguna distribución conocida (o puede seguir una distribución
sesgada a la derecha).
• En la figura 12, la tercera gráfica (Sunshine) muestra que los datos siguen una distribución bimodal, ya que hay dos picos
en la gráfica. Esto hace que la media y la mediana no sean de utilidad para este atributo, ya que sus valores estarán en
algún lugar entre los dos puntos máximos. Sabemos que el 48% de los datos es nulo, aquı́ deberı́amos tomar la decisión
en el preprocesamiento de quitar el atributo, o completarlo usando la técnica que más funcione.
En la figura 12 podemos observar que ambas siguen una distribución sesgada a la derecha (o sesgo positivo). También podemos
observar que sus cantidades son similares, pero en MinTemp, los valores son menores
15

Fig. 12: Diagramas de dimensionalidad para Rainfall, Evaporation y Sunshine.

4) Velocidades del viento: Si usamos todos los datos, las gráficas son irregulares, esto puede significar ruido o outliers. Se
implementó una muestra de 1000 registros aleatorios para suavizar las gráficas y poder ver mejor la dimensionalidad.
Podemos observar que tanto WindGustSpeed, WindSpeed9am y WindSpeed3pm siguen una distribución sesgada a la derecha
(o sesgo positivo).
Algo que debemos tener en cuenta es que las gráficas se generaron con una muestra aleatoria de 1000 registros, esto afecto
un poco los picos de las gráficas y pareciera que ’WindGustSpeed’ que representa la ráfaga de viento más fuerte en el dı́a tiene
datos de menor valor, pero si revisamos las medias, podemos ver que la velocidad tiende a subir a medida que pasa el dı́a y
WindGustSpeed tiene valores más altos: WindGustSpeed mean = 40.0352, WindSpeed9am mean = 14.0434, WindSpeed3pm
mean = 18.6626.

Fig. 13: Diagramas de dimensionalidad para WindGustSpeed, WindSpeed9am y WindSpeed3pm.

5) Humedad:
• En la figura 12, la primera gráfica (Humidity9am) muestra que sigue una distribución bimodal, ya que hay dos picos en
la gráfica. Esto hace que la media y la mediana no sean de utilidad para este atributo, ya que sus valores estarán en algún
lugar entre los dos puntos máximos.
• En la figura 12, la segunda gráfica (Humidity3pm) muestra que el atributo tiende a seguir una distribución normal, ya
que la mayorı́a de los datos se acercan a la media y parecen ser simétricos.

Fig. 14: Diagramas de dimensionalidad para Humidity9am y Humidity3pm.


16

6) Presiones atmosfericas: En la figura 15 podemos observar que las presiones atmosféricas a las 9am y 3pm tienen
distribuciones normales, y los datos son similares. Esta variable deberı́a ser analizada más a fondo en el preprocesamiento para
verificar si tiene cambios importantes, clasificando por la variable objetivo ’RainTomorrow’ y saber si aportan información
importante para predecir.

Fig. 15: Diagramas de dimensionalidad para Pressure9am y Pressure3pm.

7) Nubes: En la figura 16 podemos observar que estos atributos no siguen ninguna distribución conocida, la mediana no
es útil, ya que los valores puedes estar entre los diferentes picos. Teniendo en cuenta que hay varias modas, para estos dos
atributos podrı́amos discretizarlos para convertirlos a categorı́as. Lo más probable es que salgan 8 categorı́as, una por cada
okta.

Fig. 16: Diagramas de dimensionalidad para Cloud3pm y Cloud3pm.

L. Diagramas de caja
En la Figura 17 se puede observar el diagrama de caja de las variables de temperatura, la altura de las cajas es pequeña,
esto nos indica que la dispersión de los datos no es mucha, además la distancia de los cuartiles 1 y 4 en todos los casos
es aproximadamente igual a los extremos de la caja, esto indica simetrı́a en la distribución. Por otro lado, la media de la
temperatura a las 3 pm está más cercana a la media de la temperatura máxima, y la media de temperatura a las 9 am está más
cercana a las medias de la temperatura mı́nima. Todas las cajas contienen outliers por debajo del 1er cuartil y por encima del
4to cuartil.
En la figura 17 en el diagrama de la evaporación y la lluvia, se tienen cajas demasiado compactas, de manera que parecen
lı́neas, esto quiere decir que los datos están muy acumulados en un solo valor, tiene una dispersión muy baja, adicionalmente
tienen una cantidad considerable de outliers, todos por encima del 4to cuartil.
En la Figura 17 se evidencia el diagrama de las velocidades del viento, todas presentan un tamaño de caja que indica una
dispersión moderada, pero no es tan baja como en el caso de los diagramas para evaporación y lluvia. Las distancias de los
cuartiles 1 y 4 a las cajas son simetricas para ’WindGustSpeed’ y para ’WindSpeed3pm’, para ’WindSpeed9am’ hay una ligera
asimetrı́a que muestra como el cuartil 4 está más lejos de la caja y el cuartil 1 más cerca. Todas las variables de viento
tienen outliers por encima del 4to cuartil. La intersección de las cajas no es considerable, por lo que las distribuciones difieren
aparentemente.
17

Fig. 17: Diagramas de caja agrupados de acuerdo a la unidad de medida. En la gráfica superior se tienen medidas de temperatura.
En la siguiente gráfica se tienen medidas de lluvia y evaporación. En la gráfica inferior se tienen medidas de velocidad del
viento.

En la Figura 18 para los diagramas de humedad los cuartiles 1 y 4 están más alejados, indicando un mayor rango de datos,
se puede ver simetrı́a en la distribución de los datos entre la media y los cuartiles 2 y 3. La humedad a las 9am tiene outliers
por debajo del primer cuartil. Para los diagramas de las variables de presión a las 9 am y 3pm se observa que son similares,
tienen medias cercanas, rangos similares, y las distancias entre cuartiles también son similares, ambos poseen outliers por
encima y por debajo del cuartil 4 y 1 respectivamente, son distribuciones simétricas. Para la variable Sunshine se tiene una
media más cercana al cuartil 3, lo que indica una asimetrı́a, adicionalmente la caja está más cercana al cuartil 4, y no tiene
outliers. Para los diagramas de cobertura de nubes a las 9am y 3pm las distancias de los cuartiles 2 y 3 son considerables,
indicando dispersión, las medias y los rangos de ambos diagramas son similares, aunque para Cloud9am el cuartil 2 está más
abajo y cercano al cuartil 1.

Fig. 18: Las gráficas se agrupan de acuerdo a la unidad de medida. En la esquina superior izquierda se tienen variables de
unidad. En la sección superior derecha variable de presión. En la esquina inferior izquierda, ’Sunshine’. En la sección inferior
derecha cobertura de nubes.
18

M. Diagramas de dispersión
En la Figura 20 podemos observar las gráficas de dispersión para todas las variables del dataset.
1) Dispersión de Datos: En general, los datos no muestran una dispersión excesiva. Cuando se clasifican por ”RainTomor-
row” (lluvia prevista para el dı́a siguiente), la mayorı́a de las gráficas revelan puntos cercanos y, en algunos casos, superpuestos.
2) Relaciones Encontradas:
• Las temperaturas mı́nimas vs. máximas y las temperaturas a las 9 a.m. y 3 p.m. muestran una fuerte relación lineal
positiva.
• La presión atmosférica a las 9 a.m. y 3 p.m. también exhibe una relación lineal positiva fuerte.
• ”WindGustSpeed” presenta una relación positiva débil en cuanto a la velocidad del en ”WindSpeed9am” y ”Wind-
Speed3pm”.
• ”Humidity” se relaciona de manera positiva con ”Rainfall”. Aunque no es una relación influyente, en la mayorı́a de los
casos, un aumento en la humedad se asocia con un aumento en la lluvia.
• ”Sunshine” y ”Rainfall” muestran una relación negativa no lineal. A medida que disminuye la cantidad de sol, aumenta
la lluvia.
• La presión no parece influir significativamente en las otras variables.
• Las nubes tampoco parecen ser muy influyentes en relación con las demás variables.
3) Valores Atı́picos (Outliers): Notamos que la variable que presenta más valores atı́picos es ”Rainfall”. En todos los casos
en los que contrastamos ”Rainfall” con otros atributos, encontramos datos atı́picos. Además, la variable ”Evaporation” también
exhibe valores atı́picos al compararla con otras variables.
Estos análisis nos ayudan a comprender mejor las relaciones entre las variables y a identificar las áreas donde los datos
pueden requerir un tratamiento adicional, como la detección y gestión de valores atı́picos.

Fig. 19: Diagramas de dispersión en el dataset.


19

N. Coordenadas paralelas
En la Figura 20 se pueden ver las coordenadas paralelas para las ciudades Albury, BadgerysCreek, Cobar y CoffsHarbour, en
las gráficas que tienen huecos es debido a la ausencia total de datos en esa variable. Por ejemplo, para Albury no hay ningún
dato para el atributo Sunshineo Evaporation, por este motivo no puede unir los puntos en esa región. En algunas ciudades hay
más datos de No lluvias, pero en ciudades como Darwin,Katherine AliceSprings y Launceston es más visible los datos de ’Si’
para lluvia, puede ser que en estas ciudades se tenga más probabilidad de precipitación. Finalmente, los datos para ’Si’ y ’No’
están entrelazados en todas las gráficas de coordenadas paralelas por ciudad.

Fig. 20: Coordenadas paralelas para las ciudades Albury, BadgerysCreek, Cobar y CoffsHarbour.

En la Figura 21 se puede ver que para este set de ciudades no hay datos faltantes en las variables Evaporation o Sunshine.
20

Fig. 21: Coordenadas paralelas para las ciudades Perth, SalmonGums, Walpole y Hobart.

O. Diagramas de estrella
Ya que los datos están en diferente escala, para que las gráficas puedan mostrar mejor los datos, primero se debe normalizar
para que todos queden en escala de 0 a 1. Teniendo esto en cuenta, con estos diagramas estrella, podemos tener una noción
de cómo se comportan los datos respecto a la variable RainTomorrow.
• Podemos ver que la variable Sunshine presenta un decrecimiento interesante de No a Yes en RainTomorrow
• Las medidas tomadas de la velocidad del viento no muestran un cambio significante de No a Yes en RainTomorrow, se
mantienen.
• En cuanto a la humedad, podemos ver que en 9am no cambia mucho, pero a las 3pm tiende a disminuir más.
• La presión a las 9am y 3pm tiende a bajar cuando RainTomorrow es Yes.
• La humedad es mayor cuando RainTomorrow es Yes, lo cual tiene sentido porque la lluvia hace que la humedad aumente.
• La cantidad de nubes presenta un crecimiento cuando RainTomorrow es yes.
• Las temperaturas no cambian mucho, pero se ve que tienden a disminuir su valor cuando RainTomorrow es yes.

Fig. 22: Diagramas estrellas para todas las variables agrupadas por RainTomorrow.
21

P. Caras de Chernoff
Se tomó una muestra aleatoria de todo el dataset de 10. En la Figura 23 se puede ver que las primeras caras para ’No’ se
parecen a las caras de ’Si’; sin embargo, algunas caras para ’No’ difieren entre las etiquetadas como ’Si’ y tambien con otras
de ’No’. En resumen, las variables de ’Si’ son todas parecidas, y aunque hay algunos casos en que las etiquetadas con ’No’
se parecen, solo las etiquetadas con ’No’ contienen caras que difieren, tienen una boca orientada hacia abajo.

Fig. 23: Coordenadas paralelas para las ciudades Perth, SalmonGums, Walpole y Hobart.

III. P REPROCESAMIENTO DE DATOS


A. Caras de Chernoff
Describe en detalle las etapas de preprocesamiento de datos, incluyendo limpieza, transformación, reducción de dimension-
alidad, etc.

IV. C ONCLUSIONES
Resumen de las conclusiones principales de tu artı́culo.

También podría gustarte