Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Pizarro Ausensi Aravena Sanguesa PDF
Pizarro Ausensi Aravena Sanguesa PDF
Roberto Pizarro Tapia 1*, Paula Ausensi Tapia 2, Dayanna Aravena Garrido 2, Claudia Sangüesa Pool 1.
1*
Autor de correspondencia: Universidad de Talca, Facultad de Ciencias Forestales, Departamento de
Gestión Forestales y Ambiental, Avenida Lircay s/n, Talca, Tel.: 71 – 200375, rpizarro@utalca.cl
2
Dirección General de Aguas Región del Maule, Departamento de Administración de Recursos
Hídricos, 6 Oriente Nº 1220, Talca, Tel.: 71 – 612266, dgatalca@mop.gov.cl
ABSTRACT
This study evaluates the applicability of different methods for the estimation of rainfall missing
values, through eight raingauge stations in Maule Region of Chile. These methods were linear
correlation, distance rate, local averages, mean rates and correlation with nearly stations, proposed by
UNESCO-ROSTLAC in 1982, within the framework of the hydrologic balance for South America. In
addition, was added another method named multiple regressions. These methods were analyzed
through different statistical methods; these were determination coefficient (R²), standard error of
estimation (EEE), test of agreement of Bland and Altman and analysis of variance, in order to define
the best goodness of fit method. According to the analysis of Bland and Altman, the best method of
completing missing rain value, was multiple regression with 2 and 3 nearly stations. This result is also
validated by R² values, and also validated by standard error of estimation. On the other hand, the other
methods studied, showed important differences between real values and estimated values, so it was
concluded that multiple regressions is the best method to complete missing rain value.
Keywords: Rainfall missing value; rainfall data base; rainfall estimation.
RESUMEN
Este estudio evalúa la aplicabilidad de distintos métodos para la estimación de datos faltantes de
precipitación puntual, en ocho estaciones pluviográficas de la Región del Maule, Chile. Estos métodos
corresponden a correlación lineal, completación por razones de distancia, completación por promedios
vecinales, completación por razones promedio y completación por correlación con estaciones vecinas,
1
Completación de datos faltantes
propuestos por UNESCO-ROSTLAC, en 1982, en el marco del balance hídrico para América del Sur.
Además se agregó un sexto método, el de completación por regresiones múltiples. Los métodos se
analizan a través del coeficiente de determinación (R²), error estándar de estimación (EEE), test de
concordancia de Bland y Altman y análisis de varianza, con los que se determina que método presenta
mejor ajuste para la región. Según el análisis de Bland y Altman, el mejor método de completación fue
el de regresión múltiple con 2 y 3 estaciones cercanas, lo que además se corrobora con los valores
obtenidos del R² y el EEE. Asimismo, los errores estándar de los otros métodos estudiados fueron
demasiado altos, lo que los hace no recomendables, excepto el de correlación con estaciones vecinas
que tiende a acercarse en sus resultados al de regresiones múltiples.
INTRODUCCIÓN
En la mayoría de los estudios relacionados con hidrología y en investigaciones de los recursos
naturales o relacionados con el medio ambiente, el punto de partida es la estimación de las
precipitaciones (Tapiador et al., 2003). Por ello, conocer el comportamiento y la forma de evaluación
que tiene la precipitación es de gran importancia (Aparicio, 2003).
En la estimación de la precipitación, cuando hay carencia de datos, existen diversos métodos que
van desde avanzadas tecnologías como el uso de satélites, programas estadísticos y modelaciones
hidrológicas (Smith, et al., 1997), que por su elevado costo, no son de masiva utilización, hasta los
métodos tradicionales, que son más factibles de utilizar. Estos últimos, se basan en fórmulas
matemáticas simples, en donde se establecen relaciones entre estaciones patrones o cercanas (con datos
completos) y la estación con carencia de información pluviométrica.
En este contexto, la presente investigación compara cinco métodos de completación de datos para
la estimación de la precipitación puntual, cuando hay carencia de información en distintas estaciones
pluviométricas de la Región del Maule, Chile, con el fin de evaluar la calidad de la predicción de
dichos métodos, para su posterior recomendación.
3
Completación de datos faltantes
yˆ = a + b ∗ x [1]
Donde;
4
Completación de datos faltantes
Donde;
X = Representa la posición de una estación con carencia de información.
A y B = Señala la presencia de estaciones con información completa.
a y b = Representa la distancia sobre un plano desde la estación X.
La estación con carencia de datos debe quedar entre dos estaciones que presenten una estadística
completa; así, y utilizando la siguiente expresión, se puede estimar el dato faltante.
(PB − PA )
PX = PA + a ∗ [2]
(a + b )
Donde;
PX, PA, PB, representan la precipitación para las estaciones X, A y B, respectivamente, para el período
en estudio.
En este método se ocupan las precipitaciones y las distancias, por lo tanto se asume que existe una
variación lineal de las precipitaciones, en función de la disposición espacial.
5
Completación de datos faltantes
Donde;
X, A, B y C representan la disposición espacial de cuatro estaciones pluviométricas y donde la
estación X es la que presenta carencia de información.
De cumplir con esto, es posible la utilización de la siguiente expresión para estimar las precipitaciones.
= ∑ [3]
=
Donde;
Pi = Precipitación de la estación i en el período de estudio.
n = Número total de estaciones.
Este método, es básicamente una estimación que resulta del cálculo de un promedio aritmético en
las n estaciones vecinas existentes.
P x PA PB PN
Px = * + + ... + [4]
N PA PB P N
Donde;
6
Completación de datos faltantes
Donde;
PX = Valor estimado de precipitación en X.
PXi = Valor estimado de precipitación en X, a partir de las regresiones con cada una de las i estaciones.
rXi = Coeficiente de correlación entre los registros de la estación X, y cada una de las i estaciones.
A, B,…, N = Estaciones consideradas.
Este método sirve para la completación de información de tipo anual, y su uso es sólo recomendable
cuando el coeficiente del correlación del método de correlación lineal, no supera la barrera del valor ±
0,8 (Cazalac, 2005)
Yˆ = a + bX 1 + cX 2 + dX 3 + ...nX i [6]
Donde;
7
Completación de datos faltantes
METODOLOGÍA
Los datos requeridos para la aplicación de los métodos de completación de datos faltantes,
corresponden a los valores de precipitación mensual de las 8 estaciones consideradas para el estudio y
para un período de 15 años. De este modo, se obtuvo un total de 180 datos mensuales por estación.
Con esta información se hizo una selección aleatoria del 20% de los datos por estación, los que
fueron considerados como faltantes, con el fin de generar vacíos de información, para posteriormente
establecer las comparaciones entre las precipitaciones reales y las estimadas.
Se debe señalar que para poder utilizar de forma comparativa los métodos, se estableció que los
meses en los cuales se eliminó la información, debían ser los mismos en cada estación.
Una vez establecidos los vacíos de información mensual, los datos que se extrajeron se
consideraron como la precipitación real, que fue la base para establecer las comparaciones entre los
distintos métodos (Cuadro 1).
Cuadro 1: Precipitaciones reales que fueron eliminadas en cada estación.
ESTACIONES
Año meses
Armerillo Colorado El Guindo Gualleco Huapi Pencahue San Javier Talca
ene 5,5 3,5 3,0 1,5 1,5 6,3 5,8 3,0
1989 oct 50,0 38,0 23,0 11,0 24,0 8,0 8,5 10,6
nov 6,0 2,5 7,0 0,0 2,0 0,0 2,5 1,7
abr 108,9 50,2 41,0 41,1 50,0 25,3 41,5 22,3
1990
nov 82,5 47,8 21,5 14,7 30,5 17,6 29,0 19,5
ene 11,5 3,5 2,0 20,1 6,0 24,0 21,0 8,7
mar 0,0 0,0 0,0 0,0 0,0 0,0 0,0 0,0
1991
abr 150,0 70,2 45,5 16,4 55,9 20,9 33,7 24,7
jun 438,1 286,0 117,5 114,5 170,5 149,1 171,1 155,3
jul 159,3 134,3 46,5 36,5 62,0 22,1 41,3 28,2
1992
agost 199,6 152,5 66,5 117,7 99,0 121,0 106,7 95,6
jul 223,9 159,0 69,5 89,9 138,5 60,1 95,4 85,3
1993 oct 65,4 52,5 10,0 5,9 0,0 9,2 34,5 14,7
dic 113,4 37,5 9,0 9,3 0,0 2,5 10,6 9,6
1995 nov 1,0 0,8 0,0 0,0 1,0 0,0 0,0 0,0
mar 41,9 9,2 1,0 0,0 5,0 4,0 5,7 4,8
1996
oct 33,0 8,5 6,5 0,0 10,0 5,6 3,5 5,9
jun 1034,2 595,5 327,5 375,0 423,5 345,3 350,0 315,4
1997
oct 151,0 87,9 16,0 84,5 76,2 69,9 59,9 56,0
1998 jun 66,0 34,5 13,5 14,0 18,0 13,3 22,6 12,8
8
Completación de datos faltantes
agost 0,0 0,0 0,0 0,0 0,0 0,0 0,0 0,0
agost 433,0 218,5 135,2 133,0 172,0 80,8 103,5 85,5
1999
sep 469,5 351,0 202,0 237,5 228,0 196,3 210,8 199,1
abr 57,0 27,0 5,5 6,0 9,0 9,7 8,9 8,5
may 110,9 71,4 45,0 40,5 57,0 24,4 49,0 23,1
2000
jun 1373,0 823,3 418,5 549,0 613,0 459,2 395,7 408,0
sep 525,0 357,5 176,0 257,0 227,0 188,4 235,4 154,6
mar 0,0 2,7 0,0 0,0 0,0 0,0 0,0 0,0
2001
jun 241,0 154,2 56,0 123,1 42,7 95,9 77,3 77,6
ene 3,0 2,2 0,0 0,0 0,0 0,0 0,9 0,0
2002
jul 439,6 246,0 170,5 189,0 196,0 119,4 127,2 118,7
ene 71,1 88,5 44,0 20,0 0,0 35,0 32,9
may 204,0 126,5 89,5 139,0 94,0 112,0 75,3 58,2
2003 agost 44,0 53,0 42,0 36,0 47,5 34,5 46,6 54,5
oct 146,0 75,0 29,0 28,5 66,0 17,2 24,2 15,0
nov 124,0 80,0 48,0 64,0 51,0 53,5 75,2 46,4
Para la aplicación del método de completación por regresión lineal, se establecieron regresiones
lineales simples, entre los valores de las precipitaciones que no fueron eliminados para la estación X, y
los valores de la 1ª, 2ª y 3ª estación más cercana (Cuadro 2).
Para comprobar la calidad de los ajustes, fue necesario aplicar los supuestos de normalidad, a
través del Test de Kolmogorov – Smirnov y el gráfico de probabilidad normal de residuos; el supuesto
de homocedasticidad, por medio del gráfico de residuos; y el supuesto de no autocorrelación o
independencia, utilizando para ello el método d de Durbin-Watson, apoyado en el gráfico de residuos
versus el tiempo.
En relación a los supuestos de regresión lineal, cabe destacar que si el objetivo del modelo que se
quiere ajustar es únicamente la estimación puntual, (como lo es en el caso de los métodos de
completación), el método de los mínimos cuadrados en conjunto con el coeficiente de determinación
R², son suficientes, y no es necesario que se cumplan los supuestos clásicos de regresión. (Gujarati,
1992). Sin embargo, con el fin de tener una mejor herramienta de decisión y comparar los resultados
9
Completación de datos faltantes
del estudio con algunas extensiones de éste, de igual forma se obtuvieron los modelos con sus
respectivos supuestos clásicos de regresión.
Por otro lado, para el método de completación por razones de distancias, la estación con carencia
de información debe estar al centro de dos estaciones que tengan estadística completa. Por ello, en
primer lugar fue necesario establecer qué estaciones podían estimar a las otras (Cuadro 3), para
posteriormente calcular las distancias entre las estaciones seleccionadas. Así, para determinar las
distancias entre las estaciones, éstas fueron ubicadas en una carta topográfica con una escala 1:500.000;
se eligió esta escala, ya que permite visualizar todas las estaciones en la misma carta.
El método de completación por promedios vecinales considera una disposición espacial de tipo
triangular, y requiere de tres estaciones para estimar la precipitación en la estación que tiene
información faltante. Dada esta condición, sólo fue posible aplicarlo a 5 de las 8 estaciones (Cuadro 4),
ya que las estaciones de Armerillo, Colorado y Gualleco, no cumplieron con la disposición espacial
necesaria.
10
Completación de datos faltantes
anteriormente, y por que sólo se pretende comparar el comportamiento de los distintos métodos de
completación.
Para la aplicación del método de completación por correlación con estaciones vecinas, se
utilizaron las estimaciones hechas con la completación por regresión lineal y sus respectivos
coeficientes de correlación (R), para cada una de las estaciones. Las correlaciones con estaciones
vecinas se realizaron en dos escenarios; el primero, con dos estaciones y, el segundo, con tres
estaciones, con el fin de establecer si el número de estaciones incluidas en la estimación, tiene relación
con la calidad de ésta (Cuadro 5 y 6).
Cuadro 5: Configuración del método de completación por correlación con estaciones vecinas, con dos
estaciones.
Estación con carencia de información. Estación A Estación B
Armerillo Huapi Colorado
Colorado Huapi Armerillo
Gualleco Talca Pencahue
Huapi Colorado El Guindo
El Guindo Talca Huapi
Pencahue Talca San Javier
San Javier Talca Pencahue
Talca Pencahue San Javier
Cuadro 6. Configuración del método de completación por correlación con estaciones vecinas, con tres
estaciones.
Estación con carencia de información Estación A Estación B Estación C
Armerillo Huapi Colorado Pencahue
Colorado Huapi Armerillo Pencahue
Gualleco Talca Pencahue San Javier
Huapi Colorado El Guindo Talca
El Guindo Talca Huapi Colorado
Pencahue Talca San Javier Gualleco
San Javier Talca Pencahue Gualleco
Talca Pencahue San Javier Gualleco
Después de la aplicación de los métodos de completación, se observó que los valores de los
errores eran demasiados altos para la calidad de R² que se observaba, por lo que se decidió incluir un
sexto método de completación, el de regresiones múltiples. Este método lo que busca es establecer si la
cantidad y calidad de las estimaciones hechas con el método de correlación lineal, se ve afectada por la
cantidad de estaciones incluidas. A modo de poder realizar comparaciones, se ocupó la misma
conformación de estaciones utilizadas para el método de correlación con estaciones vecinas.
11
Completación de datos faltantes
Análisis comparativo de la calidad de la estimación
Una vez obtenida la información faltante, se hizo una comparación entre los valores reales y los
valores estimados a través de los diversos métodos de completación. Así, se analizaron los resultados
generados por cada uno, comparándolos entre sí para detectar diferencias estadísticamente
significativas entre ellos.
Para detectar estas diferencias, se aplicaron las siguientes medidas de bondad de ajuste:
Coeficiente de Determinación (R²): que expresa el porcentaje de la variación total de las precipitaciones
reales, que son explicadas por el método de completación.
Error Estándar de Estimación (EEE): Permite calcular la disparidad promedio entre los valores reales
de precipitación y los estimados., en donde los valores cercanos a cero indican la buena descripción de
la precipitación, que hace el método aplicado (Caro, 2001). Dado que los valores que resultan de esta
prueba, son inherentes al tipo de información utilizada, no son directamente comparables con los
resultados de otro conjunto de datos. (Sánchez, 2001).
Test de concordancia de Bland y Altman (ACBA): Se basa en las diferencias promedio existentes entre
el valor real y el estimado, y la comparación de las gráficas residuales. Esta última prueba permite
además, apreciar la homogeneidad del error en la misma unidad de medida que los datos (Bland y
Altman, 1999; Dunn y Roberts, 1999). En términos estadísticos, el nivel de concordancia lo asignan las
diferencias promedio (dp) entre el valor real y el estimado y la desviación estándar (SD) de dichas
diferencias. Además, establece un límite de concordancia (LC) con un 95% del nivel de significación,
definido por la expresión:
LC = dp ± 1.96* SD
Análisis de Varianza (ANDEVA): permite definir si existen o no diferencias significativas entre los
modelos. Corresponde a un procedimiento utilizado para descomponer la variabilidad total de un
experimento en componentes independientes que pueden asignarse a causas distintas, como la
variación entre y dentro de los modelos. (Peña, 1995; Marabolí, 2000). El diseño experimental aplicado
lleva a cabo pruebas de hipótesis de efectos fijos de tratamientos (modelos) cuyas hipótesis son:
Ho: Los efectos de los métodos sobre la media son iguales
Ha: Los efectos de los métodos son distintos, es decir, al menos uno de los métodos difiere
significativamente de los demás.
12
Completación de datos faltantes
El criterio utilizado para determinar la significancia estadística, establece que si el valor p es
menor o igual que el nivel de significación (* = P < 0,05), entonces existe evidencia significativa en
contra de Ho (Cid et al, 1990).
En el cuadro 7 se entregan los valores del coeficiente de determinación (R²) y el error estándar de
estimación (EEE) para cada estación, según el método aplicado.
Cuadro 7. Coeficiente de Determinación (R²) y Error Estándar de Estimación (EEE).
Armerillo Colorado Huapi El Guindo Gualleco Pencahue San Javier Talca
Método
R² EEE R² EEE R² EEE R² EEE R² EEE R² EEE R² EEE R² EEE
Razones de
0,68 164,9 0,94 43,9 0,94 31,7 0,95 21,4 0,93 32,1 0,98 13,2 0,96 17,8 0,97 15,4
Distancia
Promedios
- - - - 0,87 46,7 0,95 22,1 - - 0,98 13,2 0,77 46,1 0,98 13,7
Vecinales
Razones
- - - - 0,98 20,4 0,96 19,0 - - 0,93 25,7 0,96 18,5 0,98 12,0
Promedios
Correlación Con
Estaciones
0,0 333,6 0,99 7,2 0,99 5,7 0,98 14,9 0,84 14,9 0,98 2,5 0,99 6,3 0,98 11,9
Vecinas
(2 estaciones)
Correlación Con
Estaciones
0,0 474,1 0,05 173,4 0,95 27,9 0,96 18,3 0,89 40,8 0,99 11,1 0,99 4,3 0,96 18,5
Vecinas
(3 estaciones)
Regresiones
Múltiples 0,92 62,3 0,95 29,2 0,93 23,9 0,89 22,3 0,98 13,9 0,96 13,3 0,96 14,9 0,97 10,5
(2 estaciones)
Regresiones
Múltiples 0,93 61,1 0,97 20,9 0,94 22,7 0,91 21,8 0,98 13,7 0,98 9,8 0,96 14,6 0,97 10,4
(3 estaciones)
Regresión
Lineal simple 0,92 64,1 0,93 33,9 0,93 23,9 0,89 24,4 0,98 14,5 0,98 11,0 0,96 15,2 0,96 13,3
(1ª más cercana)
Regresión
Lineal simple 0,89 72,2 0,92 38,3 0,84 37,5 0,83 27,6 0,96 19,5 0,96 13,7 0,94 18,1 0,96 12,7
(2ª más cercana)
Regresión
Lineal simple 0,87 82,9 0,91 42,1 0,85 36,4 0,89 24,4 0,94 21,9 0,94 16,9 0,93 27,9 0,89 21,9
(3ª más cercana)
- Método no aplicado
Los Errores Estándar obtenidos en la mayoría de las estaciones, presentaron grandes diferencias
entre los distintos métodos de completación utilizados para la misma estación. Asimismo, los errores
13
Completación de datos faltantes
fueron más altos de lo que se esperaba. Se observó que las mayores diferencias se presentan para la
estación Armerillo, la cual a pesar de presentar valores de R² superiores a 0,8 (salvo en el método por
correlaciones con estaciones vecinas con dos y tres estaciones que tuvo valores 0), presentó errores
superiores a 60 mm residuales para todos los métodos. Por ello, el considerar al R² como un método
válido de bondad de ajuste, es un error, ya que sólo sirve a modo de referencia y se debe aplicar con
precaución, pues no mide qué tan apropiado es el método empleado (Montgomery y Runger, 1994).
Por otro lado, el EEE más bajo se obtuvo en la estación Pencahue con el método de correlación con
estaciones vecinas con 2 estaciones que presentó un valor de 2,5 mm, con un R² de 0,98. en general en
esta estación se presentaron bajos errores y elevados R², los que fueron en todos los casos superiores a
0,93.
Para determinar la existencia de diferencias entre los distintos métodos utilizados para cada
estación, se realizó un análisis de varianza (ANDEVA), que mide el comportamiento de los efectos
entre las medias de cada método (Cuadro 8).
El resultado de esta prueba entregó que la única estación que manifestó diferencias significativas
entre los distintos métodos utilizados, con un valor p muy bajo (inferior a 0,05), fue Armerillo.
14
Completación de datos faltantes
Lo señalado anteriormente muestra que ocurre un caso especial con esta estación, ya que por lo
general en las otras estaciones, el método de correlación con estaciones vecinas y regresiones múltiples
presentan resultados muy similares, en cambio en la estación de Armerillo, ello no ocurre.
Para determinar qué método fue el que estimó mejor los valores reales de precipitación media, se
aplicó el test de concordancia de Bland y Altman (ACBA), para cada estación en particular; los datos
que se ajustan mejor a los valores reales, son aquellos donde las diferencias promedio son menores. En
las ilustraciones 4 a la 11, se presentan las gráficas de las diferencias promedio entre los métodos
utilizados para cada estación.
15
Completación de datos faltantes
se refleja que existe una gran diferencia entre el método que estima mejor, que en este caso es el de
regresión múltiple con dos estaciones (Huapi y Armerillo), y el que estima peor, el método de
correlación con estaciones vecinas con 3 estaciones (Huapi, Talca y Pencahue) (Ilustración 5),
En el caso de la estación Huapi, el método que obtuvo las menores diferencias promedio, fue el
método de correlación con estaciones vecinas con 2 estaciones seguido del método de regresión
múltiple con 3 estaciones, (Colorado, Armerillo y Talca). Los métodos restantes se comportan muy
parecidos; la diferencia promedio más alta es de 35,49 mm, que se obtuvo con el método de regresión
simple con la estación Talca. (Ilustración 6).
16
Completación de datos faltantes
En la estación el Guindo, el análisis de concordancia de Bland y Altman arroja que las diferencias
promedio entre los métodos de completación, son muy parecidas entre sí, es decir, que no hay
diferencias importantes entre los métodos de completación utilizados (Ilustración 7). El método que
obtuvo menor valor de diferencia promedio fue el método de razones de distancia, y el valor más alto
se alcanzó con el método de regresión lineal con la estación Colorado, que es la 3ª más cercana.
17
Completación de datos faltantes
Para la estación Gualleco se pudo establecer que las menores diferencias promedio entre los
métodos de completación, se obtuvieron con el método de regresión múltiple con 2 estaciones (Talca y
Pencahue), que denotó un valor de 3,04 mm y, en el caso del método de regresión múltiple con 3
estaciones, (Pencahue, San Javier y Talca), se alcanzó los 4,78 mm. Con los otros métodos, las
diferencias promedio fueron más altas variando entre los 11,81 mm y los 28,02 mm (Ilustración 8).
(RD: Razones de Distancia; PV: Promedios Vecinales; RP: Razones Promedio; CEV, i: Correlación con estaciones vecinas: i: cantidad
de estaciones incluidas; RM, p: Regresiones Múltiples con p : Cantidad de estaciones Incluidas; R1, j : Regresión Simple: j : grado de
cercanía desde la estación con falta de información hasta la estación que está estimando. 1: la más cercana, 2: la segunda más cercana; 3 :
la tercera más cercana)
18
Completación de datos faltantes
El análisis de concordancia de Bland y Altman en la estación San Javier indica que las diferencias
promedio de los métodos de completación son relativamente bajas. Van desde los 0,32 mm (con el
método correlación con estaciones vecinas con 3 estaciones, Talca, Pencahue y Gualleco) y los 16,38
mm, con el método de regresión lineal con la estación Huapi (Ilustración 10).
Ilustración 10. Diferencias promedio del Test de Concordancia de Bland y Altman, estación San
Javier.
(RD: Razones de Distancia; PV: Promedios Vecinales; RP: Razones Promedio; CEV, i: Correlación con estaciones vecinas: i: cantidad
de estaciones incluidas; RM, p: Regresiones Múltiples con p : Cantidad de estaciones Incluidas; R1, j : Regresión Simple: j : grado de
cercanía desde la estación con falta de información hasta la estación que está estimando. 1: la más cercana, 2: la segunda más cercana; 3 :
la tercera más cercana)
19
Completación de datos faltantes
Para la estación Talca este test indica que de los métodos analizados, los que presentan menor
diferencia promedio son los métodos de regresión múltiple con 2 estaciones (Pencahue y San Javier) y
regresión múltiple con 3 estaciones (Pencahue, San Javier y Gualleco) con 1,38 mm y 1,28 mm,
respectivamente. El método con el valor más alto es el de correlación con estaciones vecinas
(Ilustración 11).
En general se puede decir que las diferencias promedio entre los métodos de completación, fueron
bajas y ningún método superó los 10 mm, lo que indica que los métodos aplicados, estiman bien a esta
estación.
Ilustración 11. Diferencias promedio del Test de Concordancia de Bland y Altman, estación
Talca.
(RD: Razones de Distancia; PV: Promedios Vecinales; RP: Razones Promedio; CEV, i: Correlación con estaciones vecinas: i: cantidad
de estaciones incluidas; RM, p: Regresiones Múltiples con p : Cantidad de estaciones Incluidas; R1, j : Regresión Simple: j : grado de
cercanía desde la estación con falta de información hasta la estación que está estimando. 1: la más cercana, 2: la segunda más cercana; 3 :
la tercera más cercana)
Con los resultados obtenidos después de la aplicación de los métodos de completación de datos
faltantes, y para cada una de las estaciones utilizadas en este estudio, en el cuadro 8 se puede observar
las veces que los distintos métodos, fueron elegidos dentro de los tres mejores estimadores, en orden
descendente, según el análisis de concordancia de Bland y Altman.
Para poder tener una más amplia visión de cuál método efectivamente fue mejor, se le asignó puntaje a
cada uno de ellos. Este puntaje varía en función de cuántas veces un método se ubicó entre la primera,
segunda o tercera posición de calidad (cuadro 9). Así, cada una de estas posiciones fue valorada con un
punto. De este modo, se pudo observar claramente que el método que obtuvo mayor puntaje, fue el
método de regresiones múltiples, con 3 y 2 estaciones respectivamente.
20
Completación de datos faltantes
Cuadro 9. Estadística de los métodos de completación de datos, que fueron elegidos como el mejor
estimador, por los distintos métodos de análisis.
Métodos De Completación puntaje
Regresión múltiple, con 3 estaciones 7
Regresión múltiple, con 2 estaciones 5
Razones de distancia 3
Regresión lineal simple con la 2ª más cercana 3
Correlación con estaciones vecinas, con 2 estaciones 2
Regresión lineal simple con la 1ª más cercana 1
Regresión lineal simple con la 3ª más cercana 1
Correlación con estaciones vecinas, con 3 estaciones 1
Razones promedio 1
CONCLUSIONES
Sobre la base de los análisis desarrollados y considerando los objetivos planteados para el estudio,
se concluye que para la completación de datos faltantes en la Región del Maule, el método que obtuvo
mejores resultados, fue el método de Regresiones Múltiples, con 3 y 2 estaciones respectivamente.
Con respecto al método de regresión lineal simple, éste es uno de los más utilizados en Chile, por su
fácil aplicación, dado que no requiere mucha información previa, sólo conocer el monto de las
precipitaciones de las estaciones cercanas. Sin embargo, a pesar de ser el más recomendado en la
literatura, en la práctica para las estaciones utilizadas en este estudio, no obtuvo los mejores resultados.
El método de razones de distancia también es de fácil aplicación, pero requiere de información
adicional, como las distancias lineales, lo que hace preciso contar con una cartografía adecuada e
instrumentos de medición, entre otros. Sin embargo, este método tampoco tuvo buenos resultados en el
estudio.
El principal problema de aplicación del método de promedios vecinales, es la distribución espacial
triangular que deben cumplir las estaciones, donde la estación con carencia de información se sitúa en
el centro. Esto dejó estaciones en las cuales no fue posible estimar los datos faltantes. Además sus
resultados también fueron deficientes.
El método de razones promedio complementa al anterior; en lo que respecta a su aplicación es más
complicado, ya que a la disposición espacial triangular, se le agrega el promedio normal de las
precipitaciones en las estaciones.
En relación al método de correlación con estaciones vecinas, éste generalmente se utiliza cuando
los coeficientes de determinación R² del método de regresión lineal no superan ± 0,8. Pero para este
estudio y a modo de comparación, se decidió probar qué sucedía, inclusive obteniendo buenos
21
Completación de datos faltantes
coeficientes de correlación entre las estaciones. De este modo, los resultados obtenidos fueron muy
favorables, ya que en 3 oportunidades se ubicó dentro de los tres mejores estimadores.
En relación al R², este puede ser un buen indicador en una primera aproximación pero no lo
suficiente para señalar calidad de ajuste, como es el caso de lo ocurrido con la estación Armerillo, que
en la mayoría de los métodos aplicados presentó valores de R² superiores a 0,8, pero los EEE superaron
los 60 mm.
En cuanto a los análisis realizados a los resultados, se puede señalar que la forma más certera de
determinar cuál de los métodos se ajustó mejor a los datos reales, fue el análisis de concordancia de
Bland y Altman, ya que éste relaciona directamente el dato real con el dato estimado en distintas
dimensiones ligadas a las desviaciones promedio, los límites y la desviación estándar.
Por otro lado, es recomendable al momento de estimar datos faltantes, contar con estaciones
cercanas y confiables, ya que los mejores resultados se obtuvieron con las estaciones más cercanas, que
no necesariamente son las más completas.
Al mismo tiempo, sería interesante extender este estudio a zonas áridas y semiáridas y a regiones
húmedas, para poder establecer comparaciones, y determinar cuáles métodos se comportan de mejor
manera dependiendo de la zona de aplicación.
Finalmente, se recomienda la aplicación del método de regresiones múltiples con 2 y 3 estaciones,
para la completación de datos faltantes, especialmente porque los EEE son bajos, comparados con otros
métodos.
AGRADECIMIENTOS
Los autores agradecen a la Dirección General de Aguas de Chile, institución que facilitó la entrega
de la información pluviométrica de Región del Maule, Chile.
REFERENCIAS
Aparicio, F. Fundamentos de hidrología de superficie. México: Editorial Limusa S. A. 2003, 303 pp.
Bland, J; D. Altman. Statistical methods in medical research. Measuring agreement in methods
comparative studies. Vol. 8, núm 2. U.S.A. 1999, pp 35-160.
Caro, J. Modelación de caudales recesivos para la cuenca del Río Purapel, Estación Nirivilo. Tesis de
Pregrado. Talca: Universidad de Talca. 2001, 113 pp.
CAZALAC (Centro del Agua para Zonas Áridas de América Latina y el Caribe). Guía metodológica
para la elaboración del mapa de zonas áridas, semiáridas y subhúmedas secas de América
Latina y El Caribe”. Chile. 2005, 66 pp.
22
Completación de datos faltantes
Cid, L.; C. Mora, M. Valenzuela. Estadística matemática. Probabilidades e Inferencia Estadística.
Departamento de Matemáticas. Facultad de Ciencias. Concepción: Universidad de Concepción.
Chile. 1990, 319 pp.
Dunn, G.; C. Roberts. Statistical methods in medical research. Biostatistics group. The medical school.
Modelling method comparison data. Vol. 8, núm. 2. 1999, pp. 161-179.
Gujarati, D. Econometría. Segunda edición. México: Editorial Mc Graw-Hill Latinoamericana. 1992,
597 pp.
IGM (Instituto Geográfico Militar). Atlas geográfico de Chile. Talleres gráficos del Instituto
Geográfico Militar de Santiago. Chile. 1985, 140 p.
Linsley, R.; M. Kholer, J. Paulhus. Hidrología para Ingenieros. 2ª Edición. Editorial Mc Graw-Hill
Latinoamericana. D.F. México. 1988, 386 pp.
Marabolí, F. Evaluación de tres modelos precipitación- escorrentía (Budyco, Turc-Pike, Pizarro), en la
cuenca del río Achibueno, VII Región, Chile. Tesis de pregrado. Talca: Universidad de Talca.
2000, 79 pp.
Mintegui, J; F. López. La ordenación agrohidrológica en la planificación. Servicio central de
publicaciones del gobierno Vasco. 1990, 306 pp.
Montgomery, D; G. Runger. Applied statistics and Probability for engineers. New York: Editorial Mc
Graw-Hill. 1994.
Peña, D. Estadística. Modelos y métodos. Modelos lineales y series temporales. Editorial Alianza.
Madrid. España. 1995, 745 pp.
Pizarro, R. et al. Elementos técnicos de hidrología III. Proyecto regional mayor sobre uso y
conservación de recursos hídricos en áreas rurales de América latina y el caribe. Talca:
Universidad de Talca. 1993, 135 pp.
Ponce, V. Engineering Hydrology. Principles and practices. Estados Unidos: Editorial Prentice-Hall.
1989, 640 pp.
Sánchez, F. Análisis y evaluación comparativa de siete modelos precipitación-escorrentía (Budyko,
Coutange, Grunsky, Peñuelas, Pizarro, Turc, Turc-Pike), en la cuenca del Río Malleco, IX
Región. Tesis de pregrado. Talca: Universidad de Talca. 2001, 75 pp.
Smith, D.; D. Kniveton, E. Barrett. Statistical modeling approach to passive microwave rainfall
retrieval. Journal of Applied Meteorology: Vol. 37, No. 2, 1997. 135–154 pp.
23
Completación de datos faltantes
Tapiador, F.; C. Kidd, V. Levizzani,; F. Marzano. A neural networks–based fusion technique to
estimate half-hourly rainfall estimates at 0.1° resolution from satellite passive microwave and
infrared data. Journal of Applied Meteorology: Vol. 43, No. 4, 2003, 576–594 p.
UNESCO - ROSTLAC. Guía metodológica para la elaboración del balance hídrico de América de
sur. Oficina Regional de Ciencias y Tecnología de la UNESCO para América latina y el
Caribe. Montevideo. Uruguay. 1982, 129 pp.
24
Completación de datos faltantes
Cuadros
Cuadro 1: Precipitaciones reales que fueron eliminadas en cada estación.
Cuadro 2. Esquema para la aplicación del método de regresión lineal.
Cuadro 3. Esquema para la aplicación del método de razones de distancias.
Cuadro 4. Esquema para la aplicación del método de promedios vecinales.
Cuadro 5: Configuración del método de completación por correlación con estaciones vecinas, con dos
estaciones.
Cuadro 6. Configuración del método de completación por correlación con estaciones vecinas, con tres
estaciones.
Cuadro 7. Coeficiente de Determinación (R²) y Error Estándar de Estimación (EEE).
Cuadro 8. ANDEVA de métodos de completación de datos aplicados por estación.
Cuadro 9. Estadística de los métodos de completación de datos, que fueron elegidos como el mejor
estimador, por los distintos métodos de análisis.
Ilustraciones
Ilustración 1. Ubicación de las estaciones pluviométricas, VII Región, Chile
Ilustración 2: Disposición espacial para la completación, por razones de distancia.
(Fuente: Pizarro et al, 1993)
Ilustración 3. Disposición espacial para la completación de datos por promedios vecinales
(Fuente: Pizarro et al, 1993)
Ilustración 4. Diferencias promedio del Test de Concordancia de Bland y Altman, estación Armerillo
Ilustración 5. Diferencias promedio del Test de Concordancia de Bland y Altman, estación Colorado.
Ilustración 6. Diferencias promedio del Test de Concordancia de Bland y Altman, estación Huapi.
Ilustración 7. Diferencias promedio del Test de Concordancia de Bland y Altman, estación El Guindo.
Ilustración 8. Diferencias promedio del Test de Concordancia de Bland y Altman, estación Gualleco
Ilustración 9. Diferencias promedio del Test de Concordancia de Bland y Altman, estación Pencahue.
Ilustración 10. Diferencias promedio del Test de Concordancia de Bland y Altman, estación San Javier.
Ilustración 11. Diferencias promedio del Test de Concordancia de Bland y Altman, estación Talca.
25
Completación de datos faltantes
26