Está en la página 1de 8

2021 Mexican International Conference on Computer Science (ENC).

Morelia, Mexico

Spatio-temporal interpolation of rainfall data in


western Mexico
Zaira Carolina Martı́nez Vargas S. Ivvan Valdez Jorge Paredes-Tavares
Centro Univiersitario de Centro de Investigación en Ciencias Centro de Investigación en Ciencias
2021 Mexican International Conference on Computer Science (ENC) | 978-1-6654-2612-1/21/$31.00 ©2021 IEEE | DOI: 10.1109/ENC53357.2021.9534803

Ciencias Exactas e Ingenierı́as de Información Geoespacial de Información Geoespacial


Universidad de Guadalajara CONACyT CONACyT
Guadalajara, México Querétaro, México Ciudad de México, México
zairac.martinez@alumnos.udg.mx sergio.valdez@conacyt.mx jorge.paredes@conacyt.mx

Resumen—One of the most common problems related to Adicionalmente, el tipo de variable climatológica que se
meteorological information is the missing registers. This lack of busca estimar es determinante para la efectividad de los valores
data generates uncertainties in the analysis of climate, hydrology, estimados. En este sentido, los eventos de precipitación (en
and natural disasters. In Mexico, very often, this problem is
present in all the meteorological stations of the country. In comparación con la temperatura) suelen ser bastante hete-
this study, we apply two well-established spatial interpolation rogéneos debido a su comportamiento aleatorio dentro de una
methods that have report competitive performance in the spe- misma unidad territorial [4], como una cuenca o una zona
cialized literature: the Inverse Distance Weighting (IDW) and urbana [5].
Modified Inverse Distance Weighting (MIDW); and they are
compared with a proposal of spatio-temporal regression using
an artificial neural network of the kind of multilayer perceptron I-A. Estado del arte
(MLP). The results show that using a combination of spatial and
temporal data with a low number of predictors is competitive Entre los métodos más comúnmente empleados para estimar
with the comparing methods using a high number of predictors. datos faltantes se encuentran Arithmetic Average (AA), Nea-
We compare the methods through statistical measures of the rest Neighbor (NN), Inverse Distance Weighting (IDW), Modi-
error for 31 meteorological stations of the Jalisco state in the fied Inverse Distance Weighting (MIDW), que considera en el
period of 2002-2006.
Index Terms—Estimación de datos faltantes, Perceptrón mul-
cálculo la diferencia de elevación entre estaciones, Correlation
ticapa, IDW, MIDW, Regresión espacio-temporal, Precipitación Coefficient (CC), Kriging, y Thin-plate Spline, la mayorı́a de
ellos son métodos no supervisados, es decir, que no requieren
información del problema para determinar parámetros internos
I. I NTRODUCCI ÓN del modelo. Las ventajas que ofrecen estos métodos son, por
La precipitación es una de las variables más relevantes una parte, una implementación menos compleja y por otra, un
en el proceso de clasificación climática de una región [1]. consumo menor de recursos computacionales.
Su registro adecuado en el tiempo y en el espacio es fun- Más recientemente se han empleado otros métodos basados
damental al momento de realizar estudios relacionados con en Inteligencia Artificial o Cómputo Suave, entre los que
la disponibilidad de recursos hı́dricos para el desarrollo de destacan las redes neuronales artificiales (ANN por sus siglas
actividades productivas (agricultura, generación de energı́a, en inglés), las máquinas de soporte vectorial, árboles y bosques
transformación de materia prima, entre otros); y en los análisis aleatorios, entre otros [6].
de riesgo relacionados con desastres naturales como sequı́as, La mayor parte de las investigaciones se centran en com-
inundaciones y movimientos en masa. parar dos o más métodos, mientras que algunos investiga-
Uno de los problemas más recurrentes a los que se enfrentan dores proponen métodos basados en dos etapas empleando
los investigadores y técnicos que estudian los fenómenos en conjunto dos de los métodos anteriormente mencionados
relacionados con esta variable, es la falta de registros en las [7]. Como ejemplo se encuentra el trabajo realizado por Di
estaciones meteorológicas para un momento determinado o Piazza et al. [8] quienes utilizaron datos de 247 estacio-
para un periodo de tiempo (que puede prolongarse durante nes del sur de Italia para aplicar métodos determinı́sticos y
meses o años), usualmente debidos a un funcionamiento geoestadı́sticos, obteniendo el mejor resultado al combinar
inadecuado de los instrumentos o errores en la medición [2]. Ordinary Kriging con Artificial Neural Network (ANN). De
Ante este panorama, se han empleado diversos métodos para forma similar, Bostan y Akyürek [9] compararon los métodos
estimar datos meteorológicos faltantes a partir de valores de Kriging, mı́nimos cuadrados y regresión ponderada. El método
estaciones vecinas o de series de tiempo. El desempeño de que reportó menor error cuadrático medio fue Kriging.
dichos métodos varia dependiendo de la cantidad de estaciones Con la intención de estimar datos no observados de preci-
con las que se cuente, de la ubicación geográfica de la zona pitación en época de monsón en Pakistán, Hussain et al. [10]
de estudio y de la complejidad del relieve [3]. presentan una propuesta para zonas que no cuentan con esta-

978-1-6654-2612-1/21/$31.00 ©2021 IEEE

Authorized licensed use limited to: UNIVERSIDAD AUTONOMA METROPOLITANA. Downloaded on May 23,2022 at 01:35:19 UTC from IEEE Xplore. Restrictions apply.
2021 Mexican International Conference on Computer Science (ENC). Morelia, Mexico

ciones meteorológicas mediante redes neuronales, realizando hasta los 2850 msnm en la cima del Volcán de Colima [19].
una interpolación lineal de los residuales para reducir el error. Una cadena montañosa divide la costa occidental de la planicie
En este sentido, Antonić et al. [11] utilizaron redes neuro- que se forma en el centro de la entidad, donde se asienta la
nales para estimar datos de diversas variables meteorológicas tercer zona metropolitana más grande del paı́s. Las diferencias
en Croacia, considerando variables como elevación, latitud, en el relieve se deben a que en el estado convergen las provin-
longitud y época del año. En este caso, la dimensión temporal cias fisiográficas Sierra Madre Occidental, Eje Neovolcánico,
solo se aplicó para ordenar los datos, usando aquellos del Sierra Madre del Sur, y el Altiplano Mexicano, lo que genera
mismo mes en diferentes estaciones. diferencias considerables en los valores de lluvia, registrando
Otro estudio realizado por Hasanpour y Dinpashoh en rangos de precipitación anual total con extremos que van de
2012 [12] comparó 11 métodos para estimar datos de 18 los 282.5 mm hasta los 2282 mm [20].
estaciones, en zonas con distintas condiciones climáticas (seco,
semiárido y húmedo) al noroeste y sureste de Irán. Los mejores
resultados se obtuvieron a través del método ANN.
Por su parte, Sattari et al. [13] encontraron que el método
M5 decision-tree es más efectivo que el IDWM; este estudio
se aplicó en una zona árida con relieve homogéneo, y con
datos de seis estaciones, lo que le otorga una componente de
homogeneidad al área de estudio.
En México se han generado diversos estudios en las últimas
décadas para estimar datos de precipitación, entre ellos se
encuentra la comparación de métodos Kriging para la predic-
ción de precipitación diaria realizado por Carrera-Hernádez y
Gaskin [14]; por su parte, Dı́az-Padilla et al. [15] generaron
superficies de temperatura y precipitación utilizando el método
thin-plate spline en las zonas de barlovento y sotavento del
Golfo de México; mientras que Cuervo-Robayo et al. [16]
reconstruyeron datos climáticos de temperatura en el periodo
1910-2009 para toda la República Mexicana con el método
second-order spline.
En particular, en la zona de estudio, Boer et al. [17]
compararon los métodos Kriging y thin-plate spline usando
datos de temperatura y precipitación del estado de Jalisco, sus Figura 1. Ubicación del área de estudio.
resultados mostraron que la estimación mediante el método
Kriging fue la más precisa. Sin embargo, el método de Kriging
requiere de conocimiento experto para ajustar el variograma, II-B. Métodos de interpolación espacial
además de datos de entrenamiento.
En este trabajo, se aborda el problema de estimación de En el proceso de interpolación se busca estimar, a partir de
datos faltantes utilizando métodos supervisados y no supervi- una muestra zi , los valores de precipitación zˆi para un con-
sados que no requieren conocimiento a priori o experto del junto de puntos (X, Y ). Bajo este postulado, comparamos los
problema. métodos Inverse Distance Weighting (IDW), Modified Inverse
Para cumplir este objetivo, se aplicaron tres métodos de Distance Weighting (MIDW) y Nearest Neighbor (NN). Las
interpolación espacial (IDW, MIDW y NN) y una red neuronal caracterı́sticas de cada método se describen a continuación.
perceptrón multicapa (ANN), para estimar la lluvia total men- II-B1. Nearest Neighbor (NN): Este método se basa en
sual con datos publicados por la Comisión Nacional del Agua construir bisectrices perpendiculares para cada punto [21].
(CONAGUA) [18] en el periodo de enero 2002 a diciembre Cuando se construyen estas bisectrices se forman polı́gonos
del 2006. Asimismo, los resultados se compararon utilizando de Voronoi (Vi) por muestra, donde la muestra está localizada
el error absoluto medio, con un total de 31 estaciones meteo- dentro del polı́gono. De esta manera, al definir la ubicación
rológicas, ya que estas contaban con datos completos en el que se desea interpolar, el peso se describe por:
periodo de tiempo elegido.

II. M ATERIALES Y M ÉTODOS 1 si xi ∈ Vi
wi = (1)
0 de otra manera
II-A. Área de estudio
El área de estudio corresponde al estado de Jalisco, México Se utilizó el método Nearest Neighbor Interpolator [22]
(Figura 1). Se caracteriza por ser una región que en su porción de Python y se manipuló la información para que con cada
occidental colinda con el Océano Pacı́fico y por presentar iteración del código se limpien los datos y ası́ evitar que se
geoformas con diversos niveles altitudinales, desde los cero utilicen datos faltantes.

Authorized licensed use limited to: UNIVERSIDAD AUTONOMA METROPOLITANA. Downloaded on May 23,2022 at 01:35:19 UTC from IEEE Xplore. Restrictions apply.
2021 Mexican International Conference on Computer Science (ENC). Morelia, Mexico

II-B2. Inverse Distance Weighting (IDW): Este es un Layer de Layer Layer de


método muy usado en las Ciencias de la Tierra por su facilidad entrada oculto salida
de implementación e interpretación de resultados, es más
avanzado que Nearest Neighbor ya que las modificaciones de
este permiten incluir más caracterı́sticas que solo los puntos Input #1
cercanos. El valor en la estación de interés está dado por una
combinación lineal de los pesos de las estaciones cercanas
Input #2
[23]. Por lo tanto, mientras más cerca esté a la estación que
se desea interpolar, esta influirá más en el resultado de la Output
interpolación. El peso está dado por: Input #3
1
dp Input #4
wi = Pn i 1 (2)
i=1 dp
i

donde n es el total de vecinos por estación (2 ≤ n ≤ 50),


Figura 2. Modelo de una red neuronal.
di es la distancia de la estación de interés con sus vecinos y p
es un parámetro del interpolador igual a 2. Para la distancia se
utilizó la fórmula del semiverseno que utiliza los parámetros donde n es el número total de entradas, X1 , X2 ...., Xn son
de longitud y latitud. En este caso, el algoritmo encontró n las entradas, y W1 , W2 , ..., Wn son los pesos correspondientes
vecinos de la estación objetivo y sólo se tomaron en cuenta para cada dato de entrada, bj es una constante denominada bias
los datos que no estuvieran incompletos, por eso, la cantidad y f es la función de activación.
de vecinos que influye en cada mes es variable. Para esta investigación, se tomaron datos de 4 vecinos
II-B3. Modified Inverse Distance Weighting (MIDW): cercanos espacialmente y 5 valores en el tiempo (dos meses
Como ya se mencionó, el método IDW tiene como ventaja anteriores, dos meses posteriores al mes que se desea inferir
incuir otras variables en el proceso de interpolación. En el y el tiempo), para estimar los valores correspondientes al mes
caso de las variables meteorológicas, se puede introducir el j.
efecto de la diferencia de altura [23], especificando que si La configuración del número de datos de entrada de la red
la diferencia de altura es menor, habrá más influencia de la neuronal fue 12-8-4. Es decir, 9 entradas, 12 neuronas en la
estación vecina. Por lo que el peso está dado por: primera capa oculta, 8 en la segunda y 4 en la tercera, en una
 p topologı́a completamente conectada, debido a que fue la de
di
∆H+ menor valor de mediana del MAE, como se muestra en la sec-
wi = P  p (3) ción de Resultados. Los datos fueron normalizados dividiendo
n di
i=1 ∆H+ entre el valor máximo de los datos de entrenamiento. Note que
donde di es la distancia entre la estación de interés y sus la red neuronal es entrenada para asignar pesos que minimizan
vecinos, ∆H es la diferencia de altura entre estos, n es la el error, combinando información espacial y temporal.
cantidad de vecinos,  es un término igual a 0.0001 que se II-D. Evaluación del desempeño de los métodos empleados
añadió para evitar una diferencia de altura nula y p es el
parámetro del interpolador que es igual a 2. En este caso, se El rendimiento de los métodos se evaluó a partir de los
calculó la misma distancia que el método anterior y el valor valores del Error Absoluto Medio (MAE por sus siglas en
de n varió de la misma manera, al igual que la cantidad de inglés), mediante la comparación de los valores reales con los
vecinos que influı́a por mes. estimados a través de la aplicación de la siguiente fórmula:
n
II-C. Perceptrón Multicapa 1X
M AEi = |zˆi − zi | (5)
El modelo de redes neuronales perceptrón multicapa (MLP n i=1
por sus siglas en inglés) es el más comúnmente utilizado [24]. donde n es la cantidad de valores en la muestra, zˆi es el
Consiste en un layer con datos de entrada (input), al menos valor interpolado y zi es el valor real de la estación.
un layer oculto donde se genera una solución al problema, y
un layer de salida (output) (Figura 2). III. R ESULTADOS
III-A. Número óptimo de vecinos para los métodos IDW y
La estructura matemática de este modelo se puede expresar MIDW
mediante la siguiente fórmula:
Mediante análisis de las métricas estadı́sticas de desempeño
n
se determinó el número óptimo de vecinos en la ejecución de
los métodos IDW y MIDW. Para el método IDW, las pruebas
X
Outputj = f (bj + Xi Wi ) = f (bj + X1 W1 ... + Xn Wn )
i=1
indican que la mediana del MAE es menor al considerar
(4) 47 estaciones vecinas (19.5991 mm), el promedio de las

Authorized licensed use limited to: UNIVERSIDAD AUTONOMA METROPOLITANA. Downloaded on May 23,2022 at 01:35:19 UTC from IEEE Xplore. Restrictions apply.
2021 Mexican International Conference on Computer Science (ENC). Morelia, Mexico

cinco estaciones que muestran menor error es de 22.6698 Por estas razones decidimos utilizar el procedimiento de 30
mm, lo cual se considera adecuado considerando la extensión repeticiones con selección aleatoria del 70 % de los datos de
geográfica del área de estudio y la complejidad del relieve. El entrenamiento y el 30 % de prueba.
concentrado de estos valores se muestra en la Tabla I, donde el El criterio de selección de la topologı́a de la red seleccio-
valor más bajo de la mediana del MAE se considera el óptimo. nada es la de menor mediana en Tabla III. Considerando que
las topologı́as con mejor desempeño no son significativamente
Tabla I diferentes en un sentido estadı́stico, es decir, no se acepta la
M ÉTRICAS ESTAD ÍSTICAS DE DESEMPE ÑO DEL M ÉTODO IDW prueba de hipótesis de que su media o mediana es diferente.
Esta topologı́a es la de 12-8-4, que también es la segunda
Error absoluto medio IDW (mm) mejor en promedio, pero con una capa menos que la de mejor
Desviación
Vecinos Promedio
estándar
Mı́nimo Mediana Máximo promedio.
47 22.6698 11.6701 12.3269 19.5991 75.4018 Los parámetros utilizados en el entrenamiento de la red
44 22.6871 11.5925 12.4683 19.6065 74.9333 fueron los siguientes, se utilizó el algoritmo de entrenamiento
45 22.6955 11.6472 12.4224 19.6275 75.3058
41 22.7082 11.6410 12.5097 19.6769 75.3338 rprop+ [25], limites de learning rate factor en 0.9 y 1.05, el
42 22.6884 11.5734 12.4814 19.6769 74.8551 máximo de iteraciones de optimización son 100 000 (aunque el
algoritmo usualmente converge en cientos de iteraciones) para
este caso especı́fico, y la función de activación es la logı́stica.
Por su parte, la Tabla II muestra que el método MIDW
requiere menor cantidad de vecinos (33) para alcanzar su ren-
Tabla III
dimiento óptimo (valor más bajo en la mediana), sin embargo, M ÉTRICAS ESTAD ÍSTICAS DE LA RED NEURONAL APLICANDO
la mediana del MAE es mayor que la obtenida con el método DIFERENTES CONFIGURACIONES
IDW. El valor más bajo de este parámetro es 26.4973 mm, que
Desviación
comparado con los 19.5991 mm representa una diferencia de Capas Promedio
estándar
Mı́nimo Mediana Máximo
6.89 mm. La diferencia más notable se observa en los valores 4 38.5415 17.1744 18.9038 33.8169 103.8646
máximos, cuyos promedios varı́an en 13.83 mm. 4-2 36.3223 14.9946 18.3600 32.7388 92.0526
4-8-2 34.7670 13.4087 18.5965 31.0222 82.4969
8-4 35.9953 14.8695 18.5775 33.2311 87.5206
Tabla II 8-4-2 34.3785 13.3326 18.2124 28.9630 76.8016
M ÉTRICAS ESTAD ÍSTICAS DE DESEMPE ÑO DEL M ÉTODO MIDW ( MM ) 12-8-4 34.2893 16.3303 19.5654 28.6415 89.2046
8-12-4-2 34.2831 12.9536 16.5543 30.2706 77.7224
Error absoluto medio MIDW (mm)
Desviación
Vecinos Promedio Mı́nimo Mediana Máximo III-C. Comparativo de los métodos de estimación
estándar
33 31.5920 13.9025 17.8753 26.4973 89.2280
32 31.5258 13.9317 17.8753 26.6410 89.2280
La Tabla IV compara los tres métodos de interpolación
24 31.0479 13.8546 18.3540 27.0891 88.5779 espacial, donde se puede apreciar que el de mejor desempeño
31 31.4900 14.0541 17.8753 27.1622 89.2280 en promedio y mediana es el IDW, ası́ como en un intervalo
30 30.6530 13.8860 17.8758 27.2669 89.2280
de error menor, y el de peor desempeño es el de Nearest
Neighbor, estos métodos se comparan contra el método pro-
puesto usando la ANN, donde se puede apreciar que es un
III-B. Red neuronal método altamente competitivo contra los de mejor desempeño
La Tabla III muestra estadı́sticos de 30 repeticiones de y que requiere mucho menos información (8 vecinos y el mes
entrenamiento-prueba de redes neuronales con diferentes to- a interpolar) para realizar la interpolación. En este sentido,
pologı́as. En cada entrenamieto-prueba, se particionan alea- en la selección de las caracterı́sticas de entrada o predictores
toriamente los datos dejando el 70 % de los datos para en- no se utilizó ninguna estrategia que maximice el desempeño
trenamiento y el 30 % para prueba. Decidimos aplicar este de la red, sino que se seleccionaron los vecinos espaciales y
procedimiento, ya que en la realidad los datos faltantes pueden temporales más cercanos a priori. El trabajo futuro pretende
superar el 50 %. En caso de aplicar una validación cruzada con abordar este problema de selección de caracterı́sticas.
10 particiones, que es la más comunmente usada (10-fold cross
validation), serı́a equivalente a indicar que sólo falta el 10 % Tabla IV
de los datos, lo que está muy lejos de lo observado en el caso C OMPARATIVA DE DESEMPE ÑO DE LOS M ÉTODOS UTILIZADOS
de estudio.
Si usamos validación cruzada con 3 o 2 particiones, lo que Comparación de métodos de interpolación espacial
Desviación
darı́a casos de entrenamiento y prueba cercanos a la realidad Método Promedio
estándar
Mı́nimo Mediana Máximo
(considerar entre 50 y 66 % de datos de entrenamiento y entre IDW 22.6698 11.6701 12.3269 19.5991 75.4018
50 y 33 % de datos faltantes), al ser tan pocas particiones, MIDW 31.5920 13.9025 17.8753 26.4973 89.2280
NN 43.1944 10.7881 27.6133 42.3633 83.2500
no evitarı́amos el sesgo del entrenamiento del modelo porque ANN 34.2893 16.3303 19.5654 28.6415 89.2046
es un número de particiones muy pequeño, cuando evitar
ese sesgo es el objetivo principal de la validación cruzada.

Authorized licensed use limited to: UNIVERSIDAD AUTONOMA METROPOLITANA. Downloaded on May 23,2022 at 01:35:19 UTC from IEEE Xplore. Restrictions apply.
2021 Mexican International Conference on Computer Science (ENC). Morelia, Mexico

Figura 3. Diagramas de caja de 30 ejecuciones del perceptrón multicapa, utilizando 70 % de datos entrenamiento y 30 % de prueba tomados de forma aleatoria
en cada ejecución, los diagramas de caja corresponden al MAE sobre los 30 conjuntos de datos de prueba.

Figura 4. Error absoluto medio del método Inverse Distance Weighting, cada diagrama de caja se construye utilizando el 30 % de los datos del periodo
seleccionados de manera aleatoria, es decir, considerando que existe 30 % de datos faltantes con las 31 estaciones del estado de Jalisco que tienen datos
completos.

Authorized licensed use limited to: UNIVERSIDAD AUTONOMA METROPOLITANA. Downloaded on May 23,2022 at 01:35:19 UTC from IEEE Xplore. Restrictions apply.
2021 Mexican International Conference on Computer Science (ENC). Morelia, Mexico

Figura 5. Error absoluto promedio del método Modified Inverse Distance Weighting, cada diagrama de caja se construye utilizando el 30 % de los datos del
periodo seleccionados de manera aleatoria, es decir, considerando que existe 30 % de datos faltantes.

IV. D ISCUSI ÓN están la configuración del relieve, las zonas de barlovento y
sotavento, la colindancia de la zona de estudio con el océano
La intención de ajustar una red neuronal que use solo 4 Pacı́fico y los eventos ciclónicos que impactan esa región del
valores espaciales, 4 valores temporales y el tiempo, es tener paı́s, además, la convergencia de las regiones fisiográficas en
un método que considere ambas dimensiones con un mı́nimo el estado de Jalisco generan diversas condiciones climáticas
de datos, note que los otros métodos empleados usan 33 y que determinan la dinámica de la precipitación, por lo que se
47 vecinos, aunque reportan un menor error en su promedio y recomienda considerar estos factores en próximas investiga-
mediana, requieren de mucho más información que en general, ciones.
no está disponible.
La Figura 3, muestra los diagramas de caja de 30 ejecu-
V. C ONCLUSIONES
ciones del método propuesto con el perceptrón multicapa para
cada estación. Cada ejecución es diferente porque los datos de Presentamos una propuesta para estimación de datos fal-
prueba y entrenamiento son seleccionados aleatoriamente para tantes usando un perceptrón multicapa. El método propuesto
cada una, en subconjuntos con el 30 y 70 por ciento de los es una regresión espacio-temporal de un método supervisado,
datos, respectivamente. Las Figuras 4 y 5 muestran diagramas que se compara con tres métodos espaciales no supervisados
de caja para los métodos IDW y MIDW, donde se quitaron al que han sido ampliamente usados, y dos de estos reportan
azar el 30 % de los datos para poder compararlos contra los resultados de alto desempeño en la literatura.
resultados de la red neuronal. Se observa que la varianza de El método propuesto requiere solo 8 vecinos, 4 espaciales
la estación 14339 es grande en las tres figuras, mientras que y 4 temporales, para estimar un dato faltante, mientras que
para los métodos IDW y MIDW, la estación 14044 es la que los otros métodos requieren de 47 y 33 vecinos espaciales
tiene un MAE mayor. Asimismo, la red neuronal es la que para el mejor desempeño, sin embargo, estas caracterı́sticas
tiene más varianza en la mayorı́a de las estaciones. o predictores fueron seleccionadas arbitrariamente sólo por
En general, analizando los datos presentados en la Tabla V, usar una cantidad baja de vecinos espaciales y temporales. El
el método de la red neuronal con la información propuesta trabajo futuro considera abordar el problema de selección de
es competitivo con los otros y requiere aproximadamente una caracterı́sticas para mejorar el desempeño del método. Esta es
cuarta parte de los datos que requieren los otros métodos; la primera propuesta en la que se combinan vecinos espaciales
aunque en contraste, también necesita entrenar los pesos y y temporales, la mayorı́a de las propuestas discutidas en el es-
sesgos para realizar la interpolación. tado del arte solo consideran vecinos espaciales, la dimensión
Entre las variables que pueden afectar el desempeño de los temporal sólo se usa para seleccionar datos del mismo mes, o
métodos de estimación de datos faltantes en la zona de estudio de la misma fecha en los predictores y predicción.

Authorized licensed use limited to: UNIVERSIDAD AUTONOMA METROPOLITANA. Downloaded on May 23,2022 at 01:35:19 UTC from IEEE Xplore. Restrictions apply.
2021 Mexican International Conference on Computer Science (ENC). Morelia, Mexico

Tabla V [7] T.-W. Kim and H. Ahn, “Spatial rainfall model using a pattern classifier
M ÉTRICAS ESTAD ÍSTICAS DEL M ÉTODO ANN for estimating missing daily rainfall data,” Stochastic Environmental
Research and Risk Assessment, vol. 23, no. 3, pp. 367–376, 2009.
[8] A. Di Piazza, F. L. Conti, L. V. Noto, F. Viola, and G. La Loggia,
Error absoluto medio ANN (mm)
“Comparative analysis of different techniques for spatial interpolation
Desviación of rainfall data to create a serially complete monthly time series of
Estación Promedio Mı́nimo Mediana Máximo
Estándar precipitation for sicily, italy,” International Journal of Applied Earth
14002 34.4234 20.2677 8.9583 31.8160 96.3922 Observation and Geoinformation, vol. 13, no. 3, pp. 396–408, 2011.
14006 21.8918 9.3478 7.4043 21.8531 43.1975
[9] P. Bostan and Z. Akyürek, “Spatio-temporal analysis of precipitation
14009 23.8619 10.9770 7.4368 23.9029 46.9422
and temperature distribution over turkey,” International Archives of the
14023 25.4345 10.1014 3.8170 27.8962 43.4037
Photogrammetry, Remote Sensing and Spatial Information Sciences,
14030 28.0545 10.9217 9.4223 26.8073 50.0492
vol. 38, no. Part II, 2009.
14038 24.2850 7.1534 11.5596 24.3417 43.3781
[10] I. Hussain, G. Spöck, J. Pilz, M. Faisal, and H.-L. Yu, “Spatio-temporal
14040 30.7959 17.0293 8.8322 28.2907 73.5542
interpolation of precipitation including covariates: During monsoon
14044 52.2678 29.0594 9.7507 44.6858 132.8593
periods in pakistan.” Pakistan Journal of Statistics, vol. 28, no. 3, 2012.
14047 27.9301 11.7310 9.9677 26.6646 53.7370
14066 21.4106 9.7351 9.8426 19.6401 48.0964 [11] O. Antonić, J. Križan, A. Marki, and D. Bukovec, “Spatio-
14069 40.8056 14.5094 16.0752 40.3840 69.6290 temporal interpolation of climatic variables over large region of
14072 23.1929 6.4317 8.5921 24.0224 34.6328 complex terrain using neural networks,” Ecological Modelling,
14076 29.2405 7.8040 13.1029 29.1169 48.8905 vol. 138, no. 1, pp. 255–263, 2001. [Online]. Available: https:
14086 31.6585 11.5382 8.8862 32.8803 50.7555 //www.sciencedirect.com/science/article/pii/S0304380000004063
14090 33.6236 15.8863 9.9565 34.7696 80.6795 [12] M. H. Kashani and Y. Dinpashoh, “Evaluation of efficiency of different
14093 40.2320 15.6868 10.2739 39.8807 73.0581 estimation methods for missing climatological data,” Stochastic Envi-
14096 28.2184 10.9958 10.4394 25.1512 50.0908 ronmental Research and Risk Assessment, vol. 26, no. 1, pp. 59–71,
14099 35.2551 9.4868 20.1388 34.4403 60.1418 2012.
14113 33.6197 10.3341 7.9055 32.0753 53.2038 [13] M.-T. Sattari, A. Rezazadeh-Joudi, and A. Kusiak, “Assessment of
14132 44.1095 17.3172 19.6241 42.5934 91.6666 different methods for estimation of missing data in precipitation studies,”
14141 41.5875 12.5606 17.4349 45.2226 66.4371 Hydrology Research, vol. 48, no. 4, pp. 1032–1044, 2017.
14143 32.1059 12.8010 8.5706 31.5356 51.7711 [14] J. Carrera-Hernández and S. Gaskin, “Spatio temporal analysis of
14146 26.0407 12.9101 5.1531 21.8813 57.5875 daily precipitation and temperature in the basin of mexico,” Journal
14187 29.2650 13.4433 8.0717 27.2497 57.9549 of Hydrology, vol. 336, no. 3, pp. 231–249, 2007. [Online]. Available:
14189 33.2495 14.1811 5.8381 33.5858 67.5955 https://www.sciencedirect.com/science/article/pii/S0022169406006718
14195 32.0369 9.3380 15.8175 32.2628 61.1180 [15] C. Sáenz-Romero, G. E. Rehfeldt, N. L. Crookston, P. Duval, R. St-
14269 24.5841 13.6677 4.9144 21.3024 58.8206 Amant, J. Beaulieu, and B. A. Richardson, “Spline models of con-
14306 17.0818 7.5198 4.1101 17.8833 33.9287 temporary, 2030, 2060 and 2090 climates for mexico and their use
14339 83.8212 30.0345 24.2628 84.6856 140.5799 in understanding climate-change impacts on the vegetation,” Climatic
14350 29.7112 13.5645 9.4216 27.7491 61.1043 change, vol. 102, no. 3, pp. 595–623, 2010.
14351 71.5345 31.4704 34.1201 66.2896 186.7884 [16] A. P. Cuervo-Robayo, C. Ureta, M. A. Gómez-Albores, A. K. Meneses-
Mosquera, O. Téllez-Valdés, and E. Martı́nez-Meyer, “One hundred
years of climate change in mexico,” Plos one, vol. 15, no. 7, p.
e0209808, 2020.
Los mejores resultados se obtuvieron a través del método [17] E. P. Boer, K. M. de Beurs, and A. D. Hartkamp, “Kriging and thin
plate splines for mapping climate variables,” International Journal of
IDW, ya que, con excepción de la desviación estándar, presenta Applied Earth Observation and Geoinformation, vol. 3, no. 2, pp. 146–
los valores más bajos en las métricas estadı́sticas. Por su parte, 154, 2001.
el metodo NN fue el menos eficiente, ya que su valor mediana [18] S. M. Nacional, “Normales climatológicas,” Servicio Meteorológico
Nacional, 2021.
fue de 42.3633 mm. [19] ÏNEGI and G. del Estado de Jalisco”, “Jalisco en sı́ntesis,”
2008, [Online; acessed on June 2021]. [Online]. Available:
AGRADECIMIENTOS http://internet.contenidos.inegi.org.mx/contenidos/productos/prod serv/
contenidos/espanol/bvinegi/productos/historicos/920/702825920330/
Los autores agradecen al Consejo Nacional de Ciencia y 702825920330 1.pdf
Tecnologı́a (CONACyT) el apoyo brindado para la realización [20] INEGI, Anuario estadı́stico y geográfico de Jalisco. INEGI, 2017.
de esta investigación. [21] J. Li and A. D. Heap, “A review of spatial interpolation methods for
environmental scientists,” 2008.
R EFERENCIAS [22] P. Virtanen, R. Gommers, T. E. Oliphant, M. Haberland, T. Reddy,
D. Cournapeau, E. Burovski, P. Peterson, W. Weckesser, J. Bright, S. J.
[1] A. N. Strahler and A. H. Strahler, “Geografı́a fı́sica,” Estudios Geográfi- van der Walt, M. Brett, J. Wilson, K. J. Millman, N. Mayorov, A. R. J.
cos, vol. 52, no. 202, p. 187, 1991. Nelson, E. Jones, R. Kern, E. Larson, C. J. Carey, İ. Polat, Y. Feng, E. W.
[2] S. N. Z. A. Burhanuddin, S. M. Deni, and N. M. Ramli, “Geometric Moore, J. VanderPlas, D. Laxalde, J. Perktold, R. Cimrman, I. Henrik-
median for missing rainfall data imputation,” in AIP Conference Pro- sen, E. A. Quintero, C. R. Harris, A. M. Archibald, A. H. Ribeiro,
ceedings, vol. 1643, no. 1. American Institute of Physics, 2015, pp. F. Pedregosa, P. van Mulbregt, and SciPy 1.0 Contributors, “SciPy 1.0:
113–119. Fundamental Algorithms for Scientific Computing in Python,” Nature
[3] Y. Xia, P. Fabian, A. Stohl, and M. Winterhalter, “Forest climatology: Methods, vol. 17, pp. 261–272, 2020.
estimation of missing values for bavaria, germany,” Agricultural and [23] A. S. Boke, “Comparative evaluation of spatial interpolation methods for
Forest Meteorology, vol. 96, no. 1-3, pp. 131–144, 1999. estimation of missing meteorological variables over ethiopia,” Journal
[4] J. J. Miró, V. Caselles, and M. J. Estrela, “Multiple imputation of of Water Resource and Protection, vol. 9, no. 8, pp. 945–959, 2017.
rainfall missing data in the iberian mediterranean context,” Atmospheric [24] B. Choubin, A. Malekian, and M. Golshan, “Application of several
research, vol. 197, pp. 313–330, 2017. data-driven techniques to predict a standardized precipitation index,”
[5] V. M. Yevjevich, “Probability and statistics in hydrology,” fao.org, 1972. Atmósfera, vol. 29, no. 2, pp. 121–128, 2016.
[6] R. S. Teegavarapu and V. Chandramouli, “Improved weighting methods, [25] A. D. Anastasiadis, G. D. Magoulas, and M. N. Vrahatis, “New
deterministic and stochastic data-driven models for estimation of missing globally convergent training scheme based on the resilient propagation
precipitation records,” Journal of hydrology, vol. 312, no. 1-4, pp. 191– algorithm,” Neurocomputing, vol. 64, pp. 253–270, 2005, trends in
206, 2005. Neurocomputing: 12th European Symposium on Artificial Neural

Authorized licensed use limited to: UNIVERSIDAD AUTONOMA METROPOLITANA. Downloaded on May 23,2022 at 01:35:19 UTC from IEEE Xplore. Restrictions apply.
2021 Mexican International Conference on Computer Science (ENC). Morelia, Mexico

Networks 2004. [Online]. Available: https://www.sciencedirect.com/


science/article/pii/S0925231204005168

Authorized licensed use limited to: UNIVERSIDAD AUTONOMA METROPOLITANA. Downloaded on May 23,2022 at 01:35:19 UTC from IEEE Xplore. Restrictions apply.

También podría gustarte