Está en la página 1de 152

UNIVERSIDAD CENTRAL DE VENEZUELA

FACULTAD DE CIENCIAS

ESCUELA DE MATEMÁTICA

POSTGRADO EN MODELOS ALEATORIOS

Análisis Estadístico de Datos de Contaminación


Ambiental del Lago de Valencia

Trabajo de Grado presentado por el


Lic. Pedro Pacheco para optar al
título de Magíster Scientiarum en
Modelos Aleatorios.

Tutor: Dr. José Rafael León.

Caracas, Venezuela
Diciembre de 2008
AGRADECIMIENTO

Este trabajo, si bien ha requerido de mucho esfuerzo y dedicación no


hubiese sido posible su finalización sin la cooperación de todas y cada una
de las personas que a continuación citaré.

A Dios por estar siempre a mi lado, darme salud, paz, amor, fortaleza e
iluminación para vencer todos los obstáculos y poder así alcanzar esta meta.

A mis padres, hermana y sobrino, porque gracias a sus consejos y apoyo


he logrado alcanzar esta meta. Quiero que estén al tanto que este logro, es
el logro de ustedes y que mi esfuerzo es motivado por ustedes.

A mi novia y amiga Yuceny Mata, porque gracias al fruto del inmenso


apoyo, amor y confianza que en mi depositaste, me ayudo a culminar con
éxito el postgrado.

A mi tutor y amigo, Dr. José Rafael León, muchas gracias por todo su
tiempo invertido en la dirección de este trabajo y por confiar en mí.

A mi amigo, Dr. Nelson Merentes, por brindarme su ayuda en los


momentos difíciles, de verdad muchas gracias por su apoyo.

A toda mi familia, por transmitirme energías positivas durante todo el


postgrado, de verdad que les agradezco mucho por motivarme siempre.

A mis amigos en general, en especial a Jhonny Escalona, Rommel


González y María Teresa, por sus consejos y apoyo durante el postgrado.

Al Fondo Nacional de Ciencia, Tecnología e Innovación, por otorgarme la


beca Misión Ciencia para la realización de estos estudios de postgrado.

A la Universidad Central de Venezuela, por brindarme la oportunidad de


culminar el postgrado en dicha institución.

ii 

 
RESUMEN

En este trabajo, se va a estudiar un conjunto de mediciones efectuadas


en el Lago de Valencia, con el objeto de determinar la contaminación
ambiental que se presenta en el mencionado lago. Para realizar esta
investigación aplicamos técnicas estadísticas modernas como la
geoestadística que es el estudio de las variables numéricas distribuidas en el
espacio (Chauvet, 1994), series temporales entendida como un conjunto de
técnicas estadísticas que permiten, además de estudiar y modelar el
comportamiento de un fenómeno que evoluciona a lo largo del tiempo,
realizar previsiones de los valores que se alcanzarán en el futuro, y el
análisis de fluctuación sin tendencia, el cual es un método que cuantifica la
presencia o ausencia de correlaciones de largo alcance (Ho, 1997). Con la
aplicación de las técnicas estadísticas modernas, se puede obtener una
mejor comprensión de los datos de muestras de agua y temperatura tomadas
en el Lago de Valencia.

Es importante señalar, que las mediciones han sido tomadas de distintas


estaciones de monitoreo ubicadas en el Lago de Valencia, y captadas de
acuerdo a parámetros técnicos establecidos. Partiendo del conjunto de
mediciones tomadas, se van a realizar las siguientes actividades; en primer
lugar “predecir los valores de las sustancias en posiciones no
muestreadas”, en esta parte haremos uso de las técnicas de la
geoestadística para predecir la concentración de sustancias posiblemente
contaminantes en sitios donde no se haya muestreado, y en segundo lugar
“ajustar un modelo adecuado para predecir valores futuros de la
temperatura y determinar si existen correlaciones de largo alcance en
las series temperaturas”, para realizar esto usamos las teorías de series de
tiempo y análisis de fluctuación sin tendencia. A través de la realización de
las actividades señaladas, se va a lograr determinar una parte de la

iii 

 
contaminación ambiental que presenta el Lago de Valencia. Estos resultados
pueden ser considerados por los organismos competentes en el área, al
momento de buscar soluciones que ayuden a mantener el equilibrio
ambiental del Lago de Valencia.

iv 

 
ÍNDICE

LISTA DE FIGURAS…………………………………………………….... ix

LISTA DE TABLAS………..……………………………………………… xvii

INTRODUCCIÓN..………………………………………………………... 1

1 GEOESTADÍSTICA

1.1 Variables aleatorias regionalizadas………………………………. 5

1.2 Hipótesis de la geoestadística……………………………………... 7

1.3 Conceptos necesarios de estadística básica…………………….. 7

1.3.1 Estadística descriptiva………………………………………. 7

1.3.2 Construcción de gráficos estadísticos…………………….. 11

1.4 El semivariograma experimental………………………………….. 12

1.5 Problemas más comunes encontrados en el cálculo de


semivariograma…………………………………………………………... 17

1.6 Parámetros del semivariograma…………………………………... 19

1.7 Modelos teóricos de semivariogramas…………………………… 21

1.7.1 Modelo Efecto de Pepita……………………………………. 21

1.7.2 Modelo Esférico……………………………………………… 21

1.7.3 Modelo Exponencial………………………………………… 22

1.7.4 Modelo Gaussiano…………………………………………... 23

1.7.5 Modelo Potencia……………………………………………... 24

 
1.8 Validación del modelo teórico……………………………………... 25

1.9 Análisis de anisotropía……………………………………………... 26

1.10 Estimación………………………………………………………….. 27

1.11 Ecuaciones del krigeaje…………………………………………... 28

1.11.1 Krigeaje Simple…………………………………………….. 29

1.11.2 Krigeaje Ordinario………………………………………….. 29

2 ANÁLISIS GEOESTADÍSTICO

2.1 Área de estudio……………………………………………………... 32

2.2 Recolección de los datos…………………………………………... 33

2.3 Análisis geoestadístico……………………………………………... 34

2.4 Análisis exploratorio de los datos…………………………………. 36

2.5 Análisis estructural…………………………………………………. 45

2.6 Predicciones………………………………………………………… 70

2.6.1 Nitrógeno Total………………………………………………. 72

2.6.2 Nitrato…………………………………………………………. 74

2.6.3 Clorofila “a”…………………………………………………… 75

2.7 Evolución temporal de la clorofila “a”…………………………….. 75

2.7.1 Clorofila “a”, año 1998………………………………………. 77

2.7.2 Clorofila “a”, año 1999………………………………………. 78

2.7.3 Clorofila “a”, año 2001………………………………………. 80

vi 

 
2.7.4 Clorofila “a”, año 2002………………………………………. 81

2.7.5 Clorofila “a”, año 2004………………………………………. 83

2.8 Predicción idónea…………………………………………………... 83

3 SERIES TEMPORALES Y ANÁLISIS DE FLUCTUACIÓN SIN


TENDENCIA

SERIES TEMPORALES

3.1 Conceptos de series de tiempo……………………………………. 87

3.2 Componentes de una serie de tiempo…………………………… 89

3.3 Modelos de series temporales…………………………………….. 90

3.3.1 Modelos de medias móviles (MA)………………………….. 94

3.3.2 Modelos autorregresivos (AR)…………………………….... 95

3.3.3 Modelos autorregresivos de medias móviles (ARMA)…... 95

3.3.4 Modelos autorregresivos integrado de medias móviles


(ARIMA)…………………………………….………………………... 96

ANÁLISIS DE FLUCTUACIÓN SIN TENDENCIA

3.4 Correlaciones de corto alcance…………………………………… 97

3.5 Correlaciones de largo alcance…………………………………… 98

3.6 Análisis de fluctuación sin tendencia…………………………..... 99

4 ESTUDIO DE LAS SERIES TEMPERATURAS Y APLICACIÓN


DEL ANÁLISIS DE FLUCTUACIÓN SIN TENDENCIA

4.1 Recolección de los datos…………………………………………... 104

vii 

 
4.2 Metodología………………………………………………………….. 104

4.3 Análisis preliminar de las series temperaturas………………….. 106

4.4 Ajuste de modelos…………………………………………………... 117

4.5 Predicciones………………………………………………………… 121

4.6 Análisis de fluctuación sin tendencia……………………………. 123

CONCLUSIONES Y RECOMENDACIONES.………………………... 126

BIBLIOGRAFÍA…………………………………………………………… 129

viii 

 
LISTA DE FIGURAS

Figura N° Página

1 Carácter mixto de una función aleatoria……………………………. 3

2 Espacio definido por la tolerancia lineal.………………………….... 14

3 Espacio definido por la tolerancia lineal y angular...…………….... 15

4 Espacio definido por las tolerancias y el ancho de banda...……… 15

5 Forma típica del semivariograma..………………………………….... 16

6 Comportamiento del semivariograma en el origen, a. Parabólico,


b. Lineal, c. Efecto de Pepita, d. Discontinuo Puro..……………….. 17

7 Parámetros del semivariograma....………………………………….... 19

8 Modelo Efecto de Pepita.…………………………………………….... 21

9 Modelo Esférico………………………………………………………... 22

10 Modelo Exponencial…..…………………………………………….... 23

11 Modelo Gaussiano.………………………………………………….... 24

12 Modelo Potencia.…………………………………………………….... 24

13 Anisotropía Geométrica y Zonal respectivamente……………….... 27

14 Efecto Proporcional………………………………………………….... 27

15 Localización geográfica del Lago de Valencia..………………….... 32

16 Superficie del Lago de Valencia con sus estaciones de monitoreo


y tributarios…..………………………………………………………….. 33

17 Gráficos de caja para las variables nitrógeno total y nitrito.…….... 37


ix 

 
18 Gráficos de caja para las variables nitrato y fósforo total………..... 37

19 Gráfico de caja para la variable clorofila “a”..……………………..... 38

20 Histograma para la variable nitrógeno total...……………………..... 40

21 Histograma para la variable nitrito...……………………………….... 40

22 Histograma para la variable nitrato..………………………………..... 41

23 Histograma para la variable fósforo total…………………………..... 41

24 Histograma para la variable clorofila “a”…………………………..... 42

25 Posiciones de las observaciones en el plano XY para la variable


nitrógeno total (la unidad de medida es mg/l)……………………….. 45

26 Posiciones de las observaciones en el plano XY para la variable


nitrito (la unidad de medida es mg/l)…………………………………. 46

27 Posiciones de las observaciones en el plano XY para la variable


nitrato (la unidad de medida es mg/l)..……………………………….. 46

28 Posiciones de las observaciones en el plano XY para la variable


fósforo total (la unidad de medida es mg/l)………………………….. 47

29 Posiciones de las observaciones en el plano XY para la variable


Clorofila “a” (la unidad de medida es mg/m3)………………………... 47

30 Posiciones de las observaciones en el espacio para la variable


nitrógeno total ………………………………………………………….. 48

31 Posiciones de las observaciones en el espacio para la variable


nitrito…………………………………………………………………….. 49

32 Posiciones de las observaciones en el espacio para la variable


nitrato………..…………………………………………………………... 49

 
33 Posiciones de las observaciones en el espacio para la variable
fósforo total……………………………………………………………… 50

34 Posiciones de las observaciones en el espacio para la variable


Clorofila “a”……………………………………………………………… 50

35 Nube de variogramas para la variable nitrógeno total..………….... 51

36 Muestras contiguas en el plano XY para la variable nitrógeno


total………………………………………………………………………. 52

37 Nube de variogramas para la variable nitrito..……………………... 54

38 Nube de variogramas para la variable nitrato.……………………... 55

39 Nube de variogramas para la variable fósforo total……………….. 55

40 Nube de variogramas para la variable clorofila “a”………………... 56

41 Estructura del semivariograma omnidireccional para la variable


nitrógeno total (tomando como incremento inicial h = 2)...….……... 59

42 Estructura del semivariograma omnidireccional para la variable


nitrógeno total (tomando como incremento inicial h = 2 y
eliminando los valores extremos)…………………………………….. 60

43 Estructura del semivariograma omnidireccional para la variable


nitrógeno total (tomando como incremento inicial h = 2.12)...…….. 60

44 Estructura del semivariograma omnidireccional para la variable


nitrógeno total (tomando como incremento inicial h = 2.12 y
eliminando los valores extremos)…………………………………….. 61

45 Estructura del semivariograma omnidireccional para la variable


nitrógeno total (tomando como incremento inicial h = 2.36)...…….. 62

xi 

 
46 Estructura del semivariograma omnidireccional para la variable
nitrógeno total (tomando como incremento inicial h = 2.36 y
eliminando los valores extremos)…………………………………….. 62

47 Estructura del semivariograma omnidireccional para la variable


nitrito (tomando como incremento inicial h = 2.12 y eliminando
los valores extremos)…………………………………………………... 63

48 Estructura del semivariograma omnidireccional para la variable


nitrato (tomando como incremento inicial h = 2.36 y eliminando
los valores extremos)………………………………………………....... 64

49 Estructura del semivariograma omnidireccional para la variable


fósforo total (tomando como incremento inicial h = 2 y eliminando
los valores extremos).………………………………………………….. 64

50 Estructura del semivariograma omnidireccional para la variable


clorofila “a” (tomando como incremento inicial h = 2.36 y
eliminando los valores extremos)…………………………………….. 65

51 Modelo gaussiano ajustado a los datos del semivariograma


omnidireccional para la variable nitrógeno total..…………………... 68

52 Modelo efecto de pepita ajustado a los datos del semivariograma


omnidireccional para la variable nitrito..……………………………... 68

53 Modelo gaussiano ajustado a los datos del semivariograma


omnidireccional para la variable nitrato.……………………………... 69

54 Modelo efecto de pepita ajustado a los datos del semivariograma


omnidireccional para la variable fósforo total……………………….. 69

55 Modelo esférico ajustado a los datos del semivariograma


omnidireccional para la variable clorofila “a”.……………………….. 70

xii 

 
56 Rejilla de datos estimados para la variable nitrógeno total...…….. 71

57 Mapa de contornos para la variable nitrógeno total con la


superficie del Lago de Valencia y su tabla de niveles de
concentración…………………………………………………………. . 71

58 Imagen de contornos para la variable nitrógeno total con la


superficie del Lago de Valencia y su tabla de niveles de
concentración……. ……………………………………………………. 72

59 Mapa de contornos para la variable nitrato con la superficie del


Lago de Valencia y su tabla de niveles de concentración................ 73

60 Imagen de contornos para la variable nitrato con la superficie del


Lago de Valencia y su tabla de niveles de concentración.………... 73

61 Mapa de contornos para la variable clorofila “a” con la superficie


del Lago de Valencia y su tabla de niveles de concentración……. 74

62 Imagen de contornos para la variable clorofila “a” con la superficie


del Lago de Valencia y su tabla de niveles de concentración..…... 75

63 Mapa de contornos para la variable clorofila “a” con la superficie


del Lago de Valencia y su tabla de niveles de concentración (año
1998)................................................................................................. 76

64 Imagen de contornos para la variable clorofila “a” con la superficie


del Lago de Valencia y su tabla de niveles de concentración (año
1998)................................................................................................. 76

65 Mapa de contornos para la variable clorofila “a” con la superficie


del Lago de Valencia y su tabla de niveles de concentración (año
1999)................................................................................................. 77

xiii 

 
66 Imagen de contornos para la variable clorofila “a” con la superficie
del Lago de Valencia y su tabla de niveles de concentración (año
1999)…………………………………………………………………...... 78

67 Mapa de contornos para la variable clorofila “a” con la superficie


del Lago de Valencia y su tabla de niveles de concentración (año
2001)................................................................................................. 79

68 Imagen de contornos para la variable clorofila “a” con la superficie


del Lago de Valencia y su tabla de niveles de concentración (año
2001)................................................................................................. 79

69 Mapa de contornos para la variable clorofila “a” con la superficie


del Lago de Valencia y su tabla de niveles de concentración (año
2002)................................................................................................. 80

70 Imagen de contornos para la variable clorofila “a” con la superficie


del Lago de Valencia y su tabla de niveles de concentración (año
2002)................................................................................................. 81

71 Mapa de contornos para la variable clorofila “a” con la superficie


del Lago de Valencia y su tabla de niveles de concentración (año
2004)................................................................................................. 82

72 Imagen de contornos para la variable clorofila “a” con la superficie


del Lago de Valencia y su tabla de niveles de concentración (año
2004)................................................................................................. 82

73 Mapa de contornos idóneo para la variable clorofila “a” con la


superficie del Lago de Valencia y su tabla de niveles de
concentración................................................................................... 84

xiv 

 
74 Imagen de contornos idóneo para la variable clorofila “a” con la
superficie del Lago de Valencia y su tabla de niveles de
concentración.………........................................................................ 84

75 Se divide el perfil de la serie en ventanas de longitud k, y para


cada ventana se realiza ajustes lineales que constituye la
tendencia local.................................................................................. 101

76 Gráficos de caja de las series temperaturas para las estaciones


Sucre y Tacarigua respectivamente..……………………………........ 106

77 Histograma de la serie temperaturas para la estación Sucre…..... 108

78 Histograma de la serie temperaturas para la estación Tacarigua.. 108

79 Q-Q plot para la distribución normal aplicada a la serie


temperaturas para la estación Sucre.………………………………... 109

80 Q-Q plot para la distribución normal aplicada a la serie


temperaturas para la estación Tacarigua…………………………..... 109

81 Gráfico de secuencia de la serie temperaturas para la estación


Sucre…………………………………………………………………...... 110

82 Gráfico de secuencia de la serie temperaturas para la estación


Tacarigua……………………………………………………………...... 111

83 Gráficos de cajas por día de la serie temperaturas para la


estación Sucre………………………………………………………….. 112

84 Gráficos de cajas por día de la serie temperaturas para la


estación Tacarigua.……………………………………………………. 112

85 Función de autocorrelación parcial de la serie temperaturas


para la estación Sucre…………………………………………………. 114

xv 

 
86 Función de autocorrelación parcial de la serie temperaturas
para la estación Tacarigua……………………………………………. 115

87 Gráfico de dispersión por nivel de temperatura por día para la


estación Sucre………………………………………………………….. 116

88 Gráfico de dispersión por nivel de temperatura por día para la


estación Tacarigua…………………………………………………….. 116

89 Función de autocorrelación simple de la serie diferenciada


para la estación Sucre…………………………………………………. 117

90 Función de autocorrelación parcial de la serie diferenciada


para la estación Sucre………………………………………………..... 118

91 Función de autocorrelación simple de la serie diferenciada


para la estación Tacarigua……………………………………………. 118

92 Función de autocorrelación parcial de la serie diferenciada


para la estación Tacarigua……………………………………………. 119

93 Modelo AR(4) ajustado a la serie temperaturas para la estación


Sucre y su predicción………………………………………………….. 121

94 Modelo AR(7) ajustado a la serie temperaturas para la estación


Tacarigua y su predicción.…………………………………………….. 122

95 Gráfico log-log del resultado del análisis AFST para la estación


Sucre…………………………………………………………………….. 123

96 Gráfico log-log del resultado del análisis AFST para la estación


Tacarigua……………………………………………………………….. 124

xvi 

 
LISTA DE TABLAS

Tabla N° Página

1 Valores de las sustancias por estación……………………………... 36

2 Estadística descriptiva para las sustancias.………………………… 39

3 Prueba de normalidad Shapiro-Wilks..……………………………… 43

4 Modelos de regresión lineal múltiple para evaluar la


estacionaridad………………………………………………………….. 44

5 Muestras contiguas y sus distancias………………………………... 52

6 Muestras y localizaciones de valores extremos en el gráfico


de nube………………………………………………………………….. 54

7 Muestras contiguas y sus distancias para cada una de las


variables………………………………………………………………… 57

8 Muestras y localizaciones de valores extremos en los gráficos


de nube para cada variable…………………………………………… 58

9 Parámetros de los modelos ajustados para los datos de los


semivariogramas omnidireccionales………………………………… 66

10 Estadística descriptiva para las series temperaturas……………… 107

11 Medida de tendencia central para cada periodo de tiempo………. 113

12 Parámetros de los modelos ajustados para las series


temperaturas……………………………………………………………. 120

13 Valores del exponente de escala α obtenidos de los ajustes

lineales de las fig. 95 y 96……………………………………………. 124

xvii 

 
INTRODUCCIÓN

En la actualidad ha aumentado incontrolablemente la contaminación


ambiental producto de las actividades llevadas a cabo por el hombre. Las
aguas de ríos, mares, lagos, etc. se han visto afectadas por la
contaminación, producto de los vertidos de desechos industriales y de aguas
servidas.

Gran parte de los desechos que contaminan las aguas son consecuencia
de las actividades económicas, y a pesar del significado social que ellas
tienen en la generación de riquezas, se debe tomar conciencia sobre la
contaminación ambiental que ellas causan y así buscar soluciones que
ayuden a mantener el equilibrio ambiental.

En Venezuela, el Lago de Valencia está presentando un alto índice de


contaminación ambiental, producto de las grandes descarga de sustancias
químicas que se realizan en los complejos industriales, las zonas
residenciales y agrícolas que lo bordean. Estos desechos son vertidos por la
mayoría de los ríos tributarios del referido lago. Esta situación ha provocado
un desequilibrio ambiental y con ello una serie de problemas ecológicos.

En tal sentido, nos proponemos estudiar a través de la aplicación de


técnicas estadísticas modernas como la geoestadística, series temporales y
análisis de fluctuación sin tendencia, un conjunto de mediciones hechas en el
Lago de Valencia para la determinación de su contaminación ambiental.

Dentro de este marco, el resultado de nuestra investigación se ha dividido


en los siguientes capítulos:

En el capítulo I, que lleva por nombre “Geoestadística”, se presenta los


elementos conceptuales de esta ciencia con sus distintos componentes, la
aplicación de esta teoría nos va a permitir en primer lugar, estudiar las

1
mediciones de las sustancias muestreadas en el Lago de Valencia sin tener
en cuenta su distribución geográfica, en segundo lugar, calcular el
semivariograma experimental, en tercer lugar, ajustar al mismo el
semivariograma teórico que mejor explica la variabilidad espacial de los
datos, y por último se toma en consideración los modelos ajustados para
predecir los valores de las sustancias en posiciones no muestreadas, usando
el método de krigeaje puntual.

En el capítulo II, denominado “Análisis Geoestadístico”, se exponen los


resultados arrojados de la aplicación de la teoría Geoestadística a los datos
de muestras de agua, así como también algunas consideraciones y
comentarios sobre los diferentes resultados.

El capítulo III, titulado “Series Temporales y Análisis de Fluctuación sin


Tendencia”, se desarrollan las teorías de Series Temporales y Análisis de
Fluctuación sin Tendencia con sus distintos componentes. La aplicación de
estos conceptos nos va a permitir ajustar un modelo adecuado para predecir
valores futuros de una serie temporal y detectar la presencia o ausencia de
correlaciones de largo alcance en una serie, es por esto que se suelen usar
estas teorías en economía (mercados financieros), además de en diversas
disciplinas científicas y de la ingeniería.

En el capítulo IV, que se titula “Estudio de las Series Temperaturas y


Aplicación del Análisis de Fluctuación sin Tendencia”, se presentan los
resultados obtenidos luego de aplicarles a los datos de temperatura las
teorías de Series Temporales y Análisis de Fluctuación sin Tendencia. Es
importante señalar, que para complementar los análisis efectuados, se
presentan algunas consideraciones y comentarios sobre lo obtenido.

2
CAPÍTULO 1

GEOESTADÍSTICA

La Geoestadística se define como la aplicación de la Teoría de Funciones


Aleatorias al reconocimiento y estimación de fenómenos naturales (Journel y
Huijbregts, 1978), o simplemente, el estudio de las variables numéricas
distribuidas en el espacio (Chauvet, 1994), siendo una herramienta útil en el
estudio de estas variables (Zhang, 1992). Su punto de partida es asumir una
intuición topo-probabilista (Matheron, 1970). Los fenómenos distribuidos en
el espacio, la mineralización en un yacimiento mineral por ejemplo, presentan
un carácter mixto, un comportamiento caótico o aleatorio a escala local, pero
a la vez estructural a gran escala (figura 1).

Figura 1. Carácter mixto de una función aleatoria

Se puede entonces sugerir la idea de interpretar este fenómeno en


términos de Función Aleatoria (FA), es decir, a cada punto x del espacio se le
asocia una Variable Aleatoria (VA) Z(x), para dos puntos diferentes x e y, se
tendrán dos VAs Z(x) y Z(y) diferentes pero no independientes, y es
precisamente su grado de correlación el encargado de reflejar la continuidad
de la mineralización, o de cualquier otro fenómeno en estudio, de modo que

3
el éxito de esta técnica es la determinación de la función de correlación
espacial de los datos (Zhang, 1992). Su estimador, el Krigeaje, tiene como
objetivo encontrar la mejor estimación posible a partir de la información
disponible, y en efecto, el valor estimado obtenido Z*(x) de un valor real y
desconocido Z(x), consiste en una combinación lineal con pesos asociados a
cada localización donde fue muestreado un valor Z(xi) (i = 1,…,n) del
fenómeno estudiado. Observando dos condiciones fundamentales: 1.- que el
estimador sea insesgado. E(Z* - Z) = 0, y 2.- que la varianza Var(Z* - Z) sea
mínima, consiguiéndose de este modo minimizar la varianza de error de
estimación.

A diferencia de otros métodos de interpolación, como por ejemplo el


inverso de la distancia, el krigeaje utiliza en la estimación las características
de variabilidad y correlación espacial del fenómeno estudiado, por lo que su
uso implica un análisis previo de la información con el objetivo de definir o
extraer de esta información inicial un modelo que represente su continuidad
espacial. Una vez logrado esto, estamos en condiciones de obtener el mejor
valor posible en cada localización o bloque a estimar a partir de los datos
medidos, acompañada de la varianza de krigeaje como medida del error de
la estimación realizada (Armstrong y Carignan, 1997), lo que distingue al
krigeaje de otros métodos de interpolación (Abasov et al., 1990; de Fouquet,
1996; Carr, 1995).

En este sentido, son referidos a continuación los conceptos y la


aplicabilidad de los distintos componentes que comprende la teoría
geoestadística.

4
1.1 Variables aleatorias regionalizadas

Una variable aleatoria regionalizada, es una función que describe un


fenómeno natural geográficamente distribuido (Ovalles, 1991). La
característica fundamental que distingue a este tipo de variables, además de
su valor, es una posición en el espacio, hecho éste al que Matheron
denominó Variable Aleatoria Regionalizada (Matheron, 1970), la cual está
presente en la mayor parte de los estudios geológicos (Pawlowsky et al.,
1995) y fenómenos naturales (de Fouquet, 1996).

En el estudio de las variables aleatorias regionalizadas es importante


presentar conceptos que se señalan en Journel y Huijbregts (1978) y David
(1977) y que son utilizados por la mayoría de los autores donde se aplican
los métodos geoestadísticos como herramienta fundamental de trabajo.
Estos conceptos son:

• Región: se refiere al espacio en el cual existe y se estudia el


fenómeno natural.

• Localización: Es el punto de una región en la cual se define una


variable aleatoria regionalizada.

• Soporte Geométrico: Está determinado por el elemento físico


sobre el cual se realiza la determinación de la variable aleatoria
regionalizada, esto no es más que la muestra unitaria, sobre la
cual estudiaremos el atributo de interés.

• Momentos de primer orden: Si la función de distribución de Z(xi)


tiene una media definida, será una función de la localización xi.
m(xi) = E(Z(xi)).

• Momento de segundo orden: Si la varianza (Var) y la esperanza


de Z(xi) existe, entonces se define el momento de segundo orden

5
como E(Z(xi)2) = Var(Z(xi)) + [E(Z(xi)]2 y será también una función
de la localización xi.

La covarianza (Cov) de las variables Z(xi) y Z(xj) se define como


Cov(Z(xi),Z(xj)) = E([Z(xi) - E(Z(xi))][Z(xj) - E(Z(xj))]) y es función de
las localizaciones xi y xj.

Si xi = xj , entonces Cov(Z(xi),Z(xi)) = Var(Z(xi)).

La función variograma o función estructural se define como la


varianza de la diferencia Z(xi) - Z(xj), o sea
Var(Z(xi) - Z(xj)) = 2γ(xi,,xj).

La magnitud γ(xi,,xj) = ½ Var(Z(xi) - Z(xj)) se denomina


semivariograma.

También se puede definir el correlograma como


ρ(h) = C(h)/C(0), -1 ≤ ρ(h) ≤ 1 donde C(h) es la covarianza a la
distancia h y C(0) es la covarianza en el origen.

Existen relaciones entre estas medidas de correlación:

γ(h) = C(0) - C(h) con γ(0) = 0

ρ(h) = 1 - γ(h)/C(0).

Esta noción puede ser definida siempre y cuando el proceso


espacial Z sea estacionario al orden dos. Es decir la media sea
constante y la covarianza entre Z(x) y Z(y) sólo dependa de la
diferencia x - y.

6
1.2 Hipótesis de la geoestadística

La forma en que se presenta la información es muy diversa (Journel y


Huijbregts, 1978), la geoestadística se construye asumiendo condiciones de
estacionaridad. Por lo que es necesario aceptar el cumplimiento de ciertas
hipótesis sobre el carácter de la función aleatoria o procesos estocásticos
estudiados, llamadas Hipótesis de la Geoestadística. Estas son según
Journel y Huijbregts (1978) y David (1977): La Estacionaridad Estricta, La
Estacionaridad de Segundo Orden, La Hipótesis Intrínseca y los Procesos
Cuasiestacionarios.

En la práctica según Armstrong y Carignan (1997) y Chica (1987) las


hipótesis que más se presentan son: La Estacionaridad de Segundo Orden y
la Hipótesis Intrínseca. Estas condiciones de estacionaridad se asumen en el
desarrollo teórico, en la práctica deben ser verificadas en los datos antes de
comenzar un estudio geoestadístico, por lo que se puede realizar un análisis
estadístico de la información, de modo que se refleje el grado de
confiabilidad en la aplicación de estos métodos.

1.3 Conceptos necesarios de estadística básica

Con el objetivo de conocer la información disponible se puede hacer un


análisis de la estadística descriptiva (Krajewski y Gibbs, 1993; Journel y
Huijbregts, 1978; David, 1977). A continuación se presenta un resumen de
los conceptos necesarios de estadística básica.

1.3.1 Estadística descriptiva: Permite determinar la distribución de los


datos, los ejemplos más comunes son: normal, lognormal, etc.
También se puede usar para ver si los datos no se ajustan a una
distribución estadística. Para los análisis es necesario tener
conocimiento de:

7
• Número de casos: Es el número de valores muestreados del
fenómeno en estudio, representados por n y los datos por xi,
i = 1,…,n. El conjunto de valores lo llamamos muestra. Este
conjunto permite construir la distribución empírica.

• Amplitud de la distribución: Es la diferencia entre el valor


máximo y el mínimo.

• Media muestral: Es la media aritmética de los valores de la


muestra, dada por la fórmula:

1 n
x= ∑ xi
n
i =1

• Moda: Es el valor más frecuente de la distribución. La moda


puede no existir, e incluso no ser única en caso de existir.

• Mediana: Es el valor para el cual la mitad de los datos son


menores y la otra mitad están por encima de este valor. Si
ordenamos los datos de la muestra en orden ascendente
podemos calcular la mediana como:

⎧ xn + 1 si n es impar
⎪ 2

⎪⎪
M= ⎨
⎪ xn + xn
⎪ 2 +1


2
si n es par
⎪⎩ 2
La mediana es también llamada percentil 50, además los
datos no sólo se dividen en dos grupos, sino que se pueden
dividir en cuatro partes, cuartiles, donde Q1 = percentil 25,
Q2 = Mediana y Q3 = percentil 75, si los datos se dividen en 10,

8
tenemos los deciles. De forma general estas medidas se
pueden calcular por: [p(n+1)/100] ésima observación de los
datos ordenados ascendentemente, donde p es el percentil que
se desea calcular.

• Varianza muestral: Describe la variabilidad de la distribución

muestral. La varianza muestral utiliza a la media x como el


parámetro de la muestra respecto el cual se mide la
concentración de los datos. La varianza muestral está dada por:

1 n
S = ( xi − x )
2
2
n −1

i =1

La razón principal por la que se aboga por la división entre


n-1 en la estimación de la varianza, es porque proporciona un
mejor estimado; si dividimos por n-1 nos referimos a la varianza
muestral S2 como un estimador insesgado de la varianza
poblacional σ2.

• Desviación estándar muestral: Describe la tendencia o


dispersión de la distribución muestral. Es la medida de

desviación alrededor de la media y está dada por: S = S2


• Coeficiente de asimetría: Describe la simetría de la
distribución relativa a la distribución normal y está dada por:

n
∑ ( xi − x )
1 3
n
α3 = i =1
3
S

9
En la distribución normal la asimetría tiene valor
asintóticamente cero, un valor negativo indica una cola a la
izquierda y un valor positivo indica una cola a la derecha.

• Curtosis: Describe el grado de esbeltez de la distribución,


tomado por lo general en relación a una distribución normal, y
está dada por:

n
∑ ( xi − x )
1 4
n
α4 = i =1
4
S
La distribución normal tiene curtosis igual a tres, y es
llamada mesocúrtica. A las distribuciones más agudas, con
colas relativamente anchas, se les llama leptocúrticas, tienen
valores de curtosis mayores que tres, y las distribuciones más
bien achatadas en el centro se llaman platicúrticas, tienen
valores menores que tres, en ocasiones se acostumbra a definir
la curtosis como α4 - 3.

• Error estándar: Describe el grado de conocimiento de los


datos y está dada por:

ε= S
n
• Coeficiente de variación: Es una medida de la variación
S
relativa de los datos y está dada por: CV = y en
x
S
porcentaje como: 100 CV = 100 % .
x

10
Proporciona una comparación entre la variación de grandes
valores y la variación de pequeños valores. Las técnicas de
Geoestadística Lineal que predominan en el campo de las
geociencias producen los mejores resultados cuando el
coeficiente de variación es menor que uno, CV < 1. Para CV > 1
se recomiendan técnicas de Geoestadística no Lineal (Cuador,
2004).

• Prueba Chi-Cuadrado: Esta prueba permite determinar si la


distribución es normal, lognormal o alguna otra distribución
probabilística, en su lugar puede ser usada la prueba
“Kolmogorov-Smirnov”. Muchos autores la consideran más
robusta.

• Prueba Shapiro-Wilks: Esta prueba es menos conocida pero


es la que se recomienda para contrastar el ajuste de datos a
una distribución normal, sobre todo cuando la muestra es
pequeña (Molinero, 2003).

1.3.2 Construcción de gráficos estadísticos: Estos gráficos permiten


ilustrar y entender las distribuciones de los datos, identificar datos
errados, valores extremos, incluyen:

• Gráficos de caja: Son gráficos que suministran información


sobre la mediana, el primer y tercer cuartil, sobre la existencia
de datos atípicos y la simetría de la distribución. Además son
muy populares porque proporcionan de manera visual toda esta
información.

• Histogramas: Son usados para ver las características


descriptivas de la distribución. Es un gráfico de barras donde en

11
las abscisas aparecen los límites de las clases y en las
ordenadas las frecuencias correspondientes a cada clase.

• Q-Q plots: Son una herramienta visual para comparar la


distribución de dos conjuntos de datos. Si las distribuciones en
cuestión están relacionadas por un cambio de ubicación y
escala, la gráfica será aproximadamente recta. En la gráfica de
un Q-Q plot se representan los cuantiles de una distribución
contra los cuantiles correspondiente de la otra.

Todos estos elementos permiten decidir sobre las condiciones de


estacionaridad vistas anteriormente. Muchos autores sólo toman como
elementos fundamentales de estadística básica que la media y la mediana
tomen valores próximos; el coeficiente de variación sea inferior a 1; la
distribución de los datos se ajuste a la curva normal y no existan valores
extremos que afecten el desarrollo del análisis estructural.

1.4 El semivariograma experimental

El variograma se define como la media aritmética de todos los cuadrados


de las diferencias entre pares de valores experimentales separados por una
distancia h (Journel y Huijbregts, 1978), o lo que es lo mismo, la varianza de
los incrementos de la variable regionalizada en las localizaciones separadas
por una distancia h.

Var(Z(x) - Z(x+h)) = 2γ(h)

La función γ(h) = ½ Var(Z(x) - Z(x+h)) se denomina semivariograma, una


versión experimental (o muestral) puede ser obtenida por la expresión:

12
N p (h)
1
γˆ(h) = ∑ (Z ( xi ) − Z ( xi + h))
2
2N p ( h ) i =1

Donde Np(h) es el número de pares a la distancia h, h es el incremento,


Z(xi) son los valores experimentales y xi localizaciones donde son medidos
los valores Z(xi).

Esta expresión γˆ(h) representa la herramienta más importante en todo

estudio geoestadístico (Armstrong y Carignan, 1997; Weerts, y Bierkens,


1993; Chica, 1987). Su cálculo no consiste en una simple evaluación de su
expresión, según se plantea en (Krajewski y Gibbs, 1993; Journel y
Huijbregts, 1978; David, 1977; Xie y Myers, 1995a; Pannatier, 1993) esta
operación está relacionada con los elementos siguientes:

• La dirección en la que será calculado el semivariograma, uno o dos


ángulos que definen una dirección α y/o β en el espacio con
tolerancias angulares dα y/o dβ. El semivariograma calculado
usando tolerancia angular de 90º se denomina semivariograma
“omnidireccional”. El cálculo de un semivariograma
omnidireccional, proporciona una idea inicial de variabilidad
espacial de los datos, siendo el más idóneo para representar u
obtener una estructura clara y definida. El semivariograma
omnidireccional se puede pensar como el promedio de los distintos
posibles semivariogramas experimentales que se pueden realizar
para diferentes direcciones.

• El incremento o paso en el cálculo del semivariograma h y su


tolerancia lineal dh, se recomienda que el incremento h inicial sea
la distancia promedio entre las muestras contiguas y el valor de dh
sea la mitad del incremento inicial.

13
• Una distancia, que representa la distancia máxima a que pueden
estar alejados los segundos puntos del par con respecto a la línea
que define la dirección de cálculo, conocido como ancho de banda.

• La distancia Lmáx hasta la cual será calculado el semivariograma.


Se recomienda que ésta sea la mitad de la distancia entre las
muestras más alejadas (Armstrong y Carignan, 1997; Krajewski y
Gibbs, 1993), aunque dependiendo de la geometría del fenómeno
regionalizado en algunos casos puede ser calculado hasta una
distancia superior.

Definido los elementos anteriores, se evalúa la expresión del


semivariograma para todos los pares de localizaciones separadas a la
distancia h que cumplan las siguientes condiciones:

a. La distancia entre las localizaciones xi y xi+h sea mayor o igual que


h-dh y menor que h+dh, o lo que es lo mismo, el segundo punto del
par esté incluido en el espacio definido por h-dh y h+dh
encontrándose el primer punto del par en el origen o (figura 2),
este origen se mueve entre las muestras a analizar.

Figura 2. Espacio definido por la tolerancia lineal

14
b. El ángulo formado entre la línea que une los dos puntos del par y
la dirección 0o debe estar incluido entre α-dα y α+dα (figura 3).

Figura 3. Espacio definido por la tolerancia lineal y angular

c. La distancia entre el segundo punto del par y la línea que define la


dirección de cálculo del semivariograma no debe superar el ancho
de banda (Deutsch y Journel, 1998) (figura 4).

Figura 4. Espacio definido por las tolerancias y el ancho de banda

15
Finalmente se representan gráficamente los valores de γˆ(h) en función

de h.

El gráfico de γ(h) tiene las siguientes características según (Armstrong y


Carignan, 1997; Krajewski y Gibbs, 1993; Curran y Atkinson, 1998) (figura 5).

• Pasa por el origen (para h = 0, γ(h) = 0).

• Es en general una función creciente de h.

Figura 5. Forma típica del semivariograma

En la mayor parte de los casos γ(h) crece hasta cierto límite llamado
meseta, en otros casos puede crecer indefinidamente. El comportamiento en
el origen puede tener diferentes formas, las cuales son según Journel y
Huijbregts (1978), Armstrong y Carignan (1997), Chica (1987) (figura 6):

ƒ Parabólico: Caracteriza a una variable muy regular, siendo


continua y diferenciable.

ƒ Lineal: Caracteriza a una variable continua, pero no diferenciable,


es decir menos regular.

16
ƒ Discontinuidad en el origen: “Efecto de Pepita”, es el caso en
que γ(h) no tiende a cero cuando h tiende a cero. Representa a
una variable muy irregular.

ƒ Discontinuo puro: Llamado también ruido blanco, representa el


caso de mayor discontinuidad, siendo el caso limite de ausencia de
estructura, donde los valores de dos puntos cualesquiera no tienen
correlación alguna.

Figura 6. Comportamiento del semivariograma en el origen, a. Parabólico, b.


Lineal, c. Efecto de Pepita, d. Discontinuo Puro

1.5 Problemas más comunes encontrados en el cálculo de


semivariograma

De lo expresado hasta aquí, además de lo planteado en muchos textos de


geoestadística, se puede obtener la impresión de que es fácil el cálculo del
semivariograma experimental (Armstrong y Carignan, 1997). La fuente de
problemas que se pueden presentar en la realización de un análisis
estructural es muy variada, lo que está en correspondencia con la variedad
de casos que se presentan en la naturaleza. Algunos de los problemas más
comunes discutidos en Armstrong y Carignan (1997) son:

17
• El valor idóneo del incremento h: Una inadecuada selección de
h puede proporcionar un semivariograma experimental errático,
aunque no se puede dar un criterio exacto o aproximado sobre
cuál es el mejor valor de h, es recomendable calcular γˆ(h) para

distintos valores de h, hasta encontrar una forma suavizada del


mismo.

• Distribuciones con valores extremos: La existencia de valores


extremos, altos o bajos, en una distribución, puede conducir a la
obtención de un variograma fuertemente errático. En este caso la
solución puede ser simple, eliminar los datos extremos, porque
pueden ser ocasionados por errores. Una herramienta útil para
detectar valores extremos y encontrar el incremento adecuado
puede ser, calculando la “Nube de Variogramas” (Armstrong y
Carignan, 1997), el cual consiste en representar los valores de h

contra (Z ( xi ) − Z ( xi + h)) 2 , para cada par posible de la


2
información inicial. Nótese que la nube de variogramas no debe ser
calculada con valores de h más grande que la mitad de los pares
más alejados en el conjunto de datos. También es importante
saber que un valor extremo sería un punto en el gráfico de nube
que es mucho más alto o bajo que los otros puntos para esa
distancia.

En Krajewski y Gibbs (1993) se presentan otras razones por los que los
semivariogramas son erráticos, las cuales son: 1.- No hay suficientes
muestras, 2.- Las muestras no son representativas del fenómeno, 3.- Las
clasificaciones de las muestras no son válidas, 4.- El área estudiada es no
homogénea, 5.- Pequeños o largos conjuntos de datos son necesarios, 6.-

18
Pequeñas o largas distancia deben ser calculadas, 7.- Más o menos
distancias deben ser calculadas, 8.- Pequeñas tolerancias son necesarias,
9.- Las muestras pueden tener localizaciones incorrectas, 10.- Los valores
muestreados pueden ser erróneos.

El problema fundamental en la obtención de un semivariograma correcto


es, la elección adecuada de los intervalos de distancias para los cuales será
calculado el semivariograma, de modo que en éstos la cantidad de pares
encontrados sea suficiente desde el punto de vista estadístico.

1.6 Parámetros del semivariograma

Los parámetros del semivariograma caracterizan tres elementos


importantes en la variabilidad de un atributo que son: la discontinuidad en el
origen (existencia de efecto de pepita), el valor máximo de variabilidad
(meseta), y el área de influencia de la correlación (alcance), (figura 7). Como
se presentan en Krajewski y Gibbs (1993), Journel y Huijbregts (1978), David
(1977), Echaabi (1995), Lamorey y Jacobsom (1995), Wallace y Hawkims
(1994), Pannatier (1993), Arik (1990), Pitard (1994), y se describen a
continuación.

Figura 7. Parámetros del semivariograma

19
• El Efecto de Pepita (Nugget Effect): El semivariograma por
definición es nulo en el origen, pero en la práctica las funciones
obtenidas pueden presentar discontinuidad en el origen, a esta
discontinuidad se le llama efecto de pepita, en ingles (nugget
effect). Puede ser obtenido trazando una línea recta entre los
primeros puntos del semivariograma empírico y extender ésta
hasta que se intercepte con el eje Y. Si esta intersección ocurre
por debajo de cero, el valor asumido por este efecto es cero, pues
valores negativos de γ(0) no tienen significado y no son comunes.
El efecto de pepita se representa como Co.

• La Meseta (Sill): Es el valor de γ(h) para el cual con el aumento de


h su valor permanece constante, se representa como Ct = C + Co
y se denomina meseta. Puede obtenerse trazando una línea
paralela a la abscisa y que se ajuste a los puntos de mayor valor
del semivariograma, su valor se lee en la intersección de esta línea
con la ordenada.

• El Alcance (Range): La distancia h para la cual las variables Z(x)


y Z(x+h) son no correlacionadas, se denomina alcance y se
representa por a, es decir, las distancias para la cual los valores de
la variable dejan de estar correlacionados, o lo que es lo mismo, la
distancia para la cual el semivariograma alcanza su meseta. El
alcance siempre tiene valor positivo y puede ser obtenido a partir
de la intersección de las líneas descritas en los puntos anteriores,
ese punto leído en la abscisa es una fracción del propio alcance,
fracción que se detallara posteriormente en la explicación de los
modelos teóricos.

20
1.7 Modelos teóricos de semivariogramas

Los modelos teóricos de semivariogramas admisibles o autorizados más


utilizados en la práctica se presentan en Journel y Huijbregts (1978).
Atendiendo a las dos características más importantes en el modelado de
semivariogramas que son según Journel y Huijbregts (1978): 1.- Su
comportamiento en el origen, el cual puede ser lineal, parabólico y con efecto
de pepita y 2.- La presencia o ausencia de meseta. Estos modelos son:

1.7.1 Modelo Efecto de Pepita: Corresponde a un fenómeno puramente


aleatorio (ruido blanco), sin correlación entre las muestras,
cualquiera sea la distancia que las separe (figura 8), donde C
representa el valor de la meseta.

⎧0
⎪ si h = 0
γ (h) =
⎪⎪


⎪C
⎪⎩
si h ≠ 0

Figura 8. Modelo Efecto de Pepita

1.7.2 Modelo Esférico: Este modelo es probablemente el más utilizado,


es una expresión polinomial simple, en su forma representada en
la figura 9, se puede observar un crecimiento casi lineal y después

21
a cierta distancia finita del origen se alcanza una estabilización, la
meseta. La tangente en el origen encuentra a la meseta en el
punto de abscisa (2/3)a, donde a representa el valor del alcance.

⎧ ⎛ 3⎞
⎪ ⎜3 h 1 h ⎟
⎪ C⎜ − ⎟ si h ≤ a
⎪ ⎜2
⎪ ⎝
a 2 a3 ⎟

⎪⎪
γ (h) = ⎨

⎪ C si h >a



⎪⎩

Figura 9. Modelo Esférico

1.7.3 Modelo Exponencial: Este modelo a diferencia del esférico crece


inicialmente más rápido y después se estabiliza de forma asintótica
(figura 10). Como la meseta no se alcanza a una distancia finita, se
usa con fines prácticos el “alcance efectivo” o “alcance práctico” a’,
valor que se obtiene en el punto de abscisa para el cual el modelo
obtiene el 95% de la meseta, con un valor a’ = 3a, donde a es el

22
parámetro de escala. La tangente en el origen encuentra a la
meseta en el punto a = (1/3)a’.

⎛ h ⎞
⎜ − ⎟
γ (h) = C ⎜1 − e a ⎟
⎜ ⎟
⎜ ⎟
⎝ ⎠

Figura 10. Modelo Exponencial

1.7.4 Modelo Gaussiano: Este es un modelo muy regular (figura 11),


inicialmente presenta un comportamiento parabólico en el origen,
después al igual que en el modelo Exponencial se alcanza la
meseta de forma asintótica. El alcance práctico tiene un valor de
a’ = 1.73a, que es el valor de la abscisa donde se alcanza el 95%
de la meseta.

⎛ h 2 ⎞⎟
⎜ −
γ (h) = ⎜ 2 ⎟
C ⎜1 − e a ⎟
⎜ ⎟
⎜ ⎟
⎝ ⎠

23
Figura 11. Modelo Gaussiano

1.7.5 Modelo Potencia: Este es un modelo sin meseta y sin alcance, su


forma se representa en la figura 12, para valores de α
correspondientes a 0.5, 1 y 1.5. Este modelo representa
fenómenos no estacionarios.

α
γ (h) = m h con α ∈( 0, 2) y m ≥ 0 es el factor de escala

Figura 12. Modelo Potencia

Para el valor de α = 1 en el modelo anterior se obtiene el


modelo Lineal, el cual no tiene ni meseta ni alcance.

24
Se han presentado los modelos más usados en la práctica, aunque se
debe señalar que existen otros modelos.

La selección del modelo y sus parámetros debe seguir fielmente los


aspectos que se suponen importantes del semivariograma experimental
(Wackernagel, 1995), que serán usados en la interpolación geoestadística
que veremos posteriormente, además, esta selección es fundamental en el
estudio geoestadístico. Muchos autores se refieren al efecto negativo que
pudiera tener la estimación con el uso del krigeaje sin un estudio de
estructura espacial y la selección adecuada del modelo de semivariograma y
sus parámetros.

1.8 Validación del modelo teórico

El ajuste de los modelos teóricos al semivariograma experimental, se


puede realiza de forma visual o interactiva, variando los valores Co (efecto de
pepita), C + Co (meseta) y a (alcance), hasta coincidir con los parámetros
que mejor se ajustan; después se valida el modelo seleccionado y los
parámetros meseta y alcance escogidos.

También se puede realizar el ajuste de los modelos teóricos al


semivariograma experimental de forma automática. Este ajuste ha sido
presentado por varios autores, en la que se sugieren aplicar los métodos de
mínimos cuadrados, bondad de ajuste u otras variantes, para así validar el
modelo y sus parámetros, teniendo en cuenta que el modelo obtenido sea
definido positivo, es decir que ajustemos realmente un semivariograma.
Nótese que no siempre se verifica la condición de que el semivariograma
ajustado sea siempre de tipo positivo, siendo insatisfactorio (Genton, 1998),
por lo que se recomienda el uso de modelos autorizados. La efectividad de
estos se describe y argumenta en Gotway (1991) y Zhang (1995). Un criterio

25
decisivo, independiente de la forma utilizada en la elección del modelo
teórico y sus parámetros, es sin lugar a dudas, emplear los métodos de
mínimos cuadrados, bondad de ajuste u otras variantes.

1.9 Análisis de anisotropía

Conviene aquí realizar un análisis sobre el comportamiento de la


variabilidad del atributo en estudio. Se conoce que el semivariograma
describe las características de continuidad espacial de la variable
regionalizada en una dirección, pero este comportamiento pueden variar
según la dirección que se analice, como se discute en Journel y Huijbregts
(1978), David (1977), Zimmerman (1993), Krajewski y Gibbs (1993). Se exige
por este motivo un análisis del comportamiento de la continuidad en distintas
direcciones, el Análisis de Anisotropía.

Cuando el semivariograma calculado en diferentes direcciones (norte-sur,


este-oeste, y en direcciones intermedias de 45º o de 22.5º, con tolerancia de
22.5o), muestra similar comportamiento, se dice que el fenómeno es
Isotrópico, cuando muestran diferentes comportamientos es Anisotrópico
(Krajewski y Gibbs, 1993). Los tipos de anisotropías más comunes son la
Geométrica y la Zonal (Krajewski y Gibbs, 1993; Journel y Huijbregts, 1978;
Armstrong y Carignan, 1997).

• Anisotropía Geométrica: Está presente cuando los


semivariogramas en diferentes direcciones tienen la misma meseta
pero distintos alcance (figura 13).

• Anisotropía Zonal: Está presente cuando los semivariogramas en


diferentes direcciones tienen diferentes mesetas y alcances (figura
13).

26
Figura 13. Anisotropía Geométrica y Zonal respectivamente

Otro tipo de anisotropía que existe, es el efecto proporcional que está


presente cuando los semivariogramas en diferentes direcciones tienen el
mismo alcance pero distintas mesetas (figura 14).

Figura 14. Efecto Proporcional

1.10 Estimación

Todo lo expresado hasta aquí tiene un único objetivo, conocer la


información disponible para realizar estimaciones (Journel y Huijbregts, 1978;
David, 1977; Armstrong y Carignan, 1997), es decir, estimar valores
desconocidos a partir, no sólo de los conocidos, sino también de su
estructura de continuidad espacial.

27
El krigeaje, es un interpolador de la geoestadística, que utiliza los
resultados discutidos en el análisis estructural. Inicialmente, Matheron
denominó a esta técnica Krigeage (en francés) que en ingles se convierte en
Kriging y en español se escribe Krigeaje. Este término que tiene su origen
en el apellido de D.G. Krige, reconociendo de esta forma su aporte. El
krigeaje es una técnica de estimación que proporciona el mejor estimador
lineal imparcial (BLUE, en ingles, Best Linear Unbiased Estimator), (Schaug
et al.,1993; Christensen et al.,1993; Abasov et al., 1990), y que además
proporciona un error de estimación conocido como varianza de krigeaje que
depende del modelo de semivariograma obtenido y de las localizaciones de
los datos originales (Armstrong y Carignan, 1997; Journel y Huijbregts, 1978;
David, 1977; Abasov et al., 1990). Esto brinda la posibilidad de hacer análisis
sobre la calidad de las estimaciones (Weerts y Bierkens, 1993; Haas, 1992).

1.11 Ecuaciones del krigeaje

Se dispone de los valores muestreados Z(xi), i = 1,…,n, y deseamos


estimar un valor de la característica observada en el panel Z(v) por una
combinación lineal de Z(xi).
n
Z *(v) = ∑ λi Z ( xi )
i =1

Donde Z*(v) es el valor estimado y λi son los pesos de krigeaje, de modo


que los λi sean obtenidos de tal forma que proporcione un estimador:
insesgado E(Z*(v) - Z(v)) = 0 y de varianza mínima Var(Z*(v) - Z(v)).

La estimación en geoestadística por el krigeaje exige como primera etapa


y fundamental, el conocimiento del comportamiento estructural de la
información, es decir, se debe contar con el modelo de semivariograma

28
teórico que refleje fielmente las características de variabilidad y correlación
espacial de la información disponible.

Las ecuaciones del krigeaje se obtienen de acuerdo a las hipótesis de la


geoestadística que deben ser supuestas y verificadas como ya se indicó.
Teniendo en cuenta las hipótesis de la geoestadística se pueden obtener las
ecuaciones del krigeaje para los siguientes casos: función aleatoria
estacionaria de esperanza nula o conocida, método conocido como Krigeaje
Simple, para una función aleatoria estacionaria de esperanza desconocida, y
una función aleatoria intrínseca, método conocido como Krigeaje Ordinario. A
continuación se presenta el sistema krigeaje para estos casos:

1.11.1 Krigeaje Simple

= ∑ λi Z ( xi ) + m ⎜1− ∑ λi ⎟⎞ ,

n n
Estimador: Z *(v) donde
i =1 ⎝ i =1 ⎠
E(Z(v)) = m y m es conocida

n
Sistema: C ( x j −v ) = ∑ λi C ( xi − x j ) , j = 1,…,n
i =1
n
Varianza de Krigeaje: σ k2 = C ( 0 ) − ∑ λiC ( xi −v)
i =1

1.11.2 Krigeaje Ordinario

• En términos de la covarianza

n
Estimador: Z * ( v ) = ∑ λi Z ( xi )
i =1

29
( )
n
Sistema: C ( x j −v ) = ∑ λiC xi − x j − ρ , j = 1,…,n
i =1
n
donde ρ es el multiplicador de Lagrange y ∑ λi = 1
i =1
n
Varianza de Krigeaje: σ k2 = C ( 0 ) − ∑ λiC ( xi −v ) + ρ
i =1

• En términos del semivariograma

n
Estimador: Z * ( v ) = ∑ λi Z ( xi )
i =1

γ ( x j −v ) = ∑ λiγ ( xi − x j ) + ρ
n
Sistema: , j = 1,…,n
i =1
n
donde ρ es el multiplicador de Lagrange y ∑ λi = 1
i =1
n
Varianza de Krigeaje: σ k2 = ∑ λiγ ( xi −v ) + ρ
i =1

En todos los casos el sistema puede ser escrito matricialmente de la


forma:

Γ0λ0 = γ 0 (1)

λ0 = ( λ1 ,K, λn , ρ ) , ρ
t
Donde es el multiplicador de Lagrange que

n
asegura que ∑ λi = 1, γ 0 = (γ (v − x1),K, γ (v − xn ),1)t ,
i =1

30
⎧γ ( x − x ) si i =1,..., n , j =1,K, n
⎪ i j
⎪⎪
Γ0 = ⎨ 1 si i = n +1 , j =1,K, n y Γ0 es una

⎪ 0 si i = n +1 , j = n +1
⎪⎩

matriz simétrica de orden (n+1) x (n+1).

La ecuación (1) es equivalente a:

⎡ 0 γ (x1 − x 2 ) K γ ( x1 − x n ) 1 ⎤ ⎡ λ 1 ⎤ ⎡ γ (v − x1 )⎤
⎢γ (x − x ) 0 K γ (x2 − xn ) 1 ⎥ ⎢λ ⎥ ⎢γ (v − x )⎥
⎢ 2 1 ⎥⎢ 2⎥ ⎢ 2 ⎥

⎢ M M K M M ⎥⎢ M ⎥ =⎢ M ⎥
⎢ ⎥⎢ ⎥ ⎢ ⎥
⎢ γ ( x n − x1 ) γ (x n − x 2 ) K 0 1 ⎥ ⎢ λ n ⎥ ⎢γ (v − x n )⎥
⎢⎣ 1 1 1 1 0 ⎥⎦ ⎢⎣ ρ ⎥⎦ ⎢⎣ 1 ⎥⎦

Por último tenemos el intervalo de predicción que está dado por:

A = (Z *(v) − 1.96σ k , Z *(v) + 1.96σ k ) , donde este intervalo A


es un intervalo de confianza con un nivel de confianza de 95% para Z(v).
Bajo la suposición de que Z(v) es gaussiano, se satisface que

P(Z(v) є A) = 95%.

31
CAPÍTULO 2

ANÁLISIS GEOESTADÍSTICO

2.1 Área de estudio

El Lago de Valencia es el lago de agua dulce natural sin desagüe al mar


más grande de Venezuela, está situado en la parte centro-norte del país en
una cuenca endorreica que cubre 2646 Km2, equivalente a 0.29% del
territorio de Venezuela. El Lago se formó por una depresión existente entre la
Cordillera de la Costa y la Serranía del Interior. Las principales islas dentro
del Lago son: el Burro, Otama, Caiguire, el Horno, el Zorro y el Bagre. Su
área de superficie se estima en 350 km2 con un volumen de 6.3 km3,
profundidad máxima está cerca de 40 m con una profundidad promedio de
18 m, la longitud de la línea de costa es aproximadamente 117 km
(http://www.ilec.or.jp/database/sam/sam-05.html).

Figura 15. Localización geográfica del Lago de Valencia

32
Figura 16. Superficie del Lago de Valencia con sus estaciones de monitoreo
y tributarios

2.2 Recolección de los datos

Para realizar el análisis geoestadístico se tomaron en los años 1998,


1999, 2001, 2002 y 2004 muestras de agua en las estaciones de monitoreo
ubicadas en el Lago de Valencia, dichas muestras fueron captadas a través
de botellas específicas, por el Laboratorio de Calidad Ambiental del estado
Aragua del MANR, de acuerdo al parámetro o los parámetros a ser
analizados, con la debida preparación (Valles, 2005).

Luego las botellas fueron llevadas al Laboratorio de Calidad Ambiental


adscrito a la Dirección General Estadal Ambiental Aragua - Ministerio del
Ambiente y de los Recursos Naturales (MARN), donde se les aplicó la
espectrometría de absorción atómica, la cual “es una técnica analítica para la
determinación de elementos basada en la absorción de energía radiante por

33
átomos libres en su estado basal. La cantidad de energía es medible y es
proporcional a la concentración de átomos que la absorben” (Loon V. y
Barfoot, 1989. Laboratorio de Geoquímica).

Es necesario mencionar, que en algunas estaciones de monitoreo fueron


tomadas varias muestras de agua, en las cuales se hallaron diferentes
valores en la medición de una misma sustancia, lo que nos llevó a
promediarlas para obtener un valor único por estación, ya que el estudio
requiere tener un dato por estación para poder aplicar las técnicas
geoestadísticas. Estos datos son las que se analizan en el presente capítulo,
y el propósito central es “predecir los valores de las sustancias en
posiciones no muestreadas”. Sin embargo, es importante señalar que en
este capítulo nos limitamos a trabajar con las siguientes sustancias:
nitrógeno total, nitrito, nitrato, fósforo total y clorofila “a”. Esta selección se
realizó al azar dentro del grupo de sustancias posiblemente contaminantes,
que se encuentran en el Lago de Valencia.

2.3 Análisis geoestadístico

Empleamos las técnicas geoestadísticas expuestas en el marco teórico,


para las estimaciones de los valores de las sustancias en localizaciones
donde no se tiene información. El análisis geoestadístico se llevó a cabo en
tres etapas:

a. Análisis exploratorio de los datos. En esta etapa, se estudian


los datos sin tener en cuenta su distribución geográfica, o sea se
realizan gráficos de caja para detectar observaciones atípicas,
utilizando el software Matlab 7, luego se efectúa un análisis
estadístico descriptivo, histogramas y una prueba Shapiro-Wilks
para verificar si las muestras provienen de una población normal,

34
por último se realiza una prueba de significación para comprobar la
estacionaridad en las muestras, para todo esto se utiliza el
programa SPSS 15.

b. Análisis estructural. Durante esta etapa, se lleva a cabo el


estudio de la continuidad espacial de la variable. Se calcula el
semivariograma experimental y luego se ajusta al mismo, el
semivariograma teórico que mejor explica la variabilidad espacial
de los datos. Esto se efectúa utilizando el paquete geoestadístico
Variowin.

c. Predicciones. En esta última etapa, se realizan las estimaciones


de las variables en los puntos no muéstrales, considerando la
estructura de correlación espacial seleccionada e integrando la
información que se obtiene de forma directa en los puntos
muéstrales, así como la que se consigue indirectamente en forma
de tendencias conocidas. Para estas predicciones se utiliza el
paquete geoestadístico Surfer 8.

35
2.4 Análisis exploratorio de los datos

En la tabla 1 se presenta la distribución de la muestra por estación para el


año 2004.

Tabla 1. Valores de las sustancias por estación

Variable
Nitrógeno Nitrito Nitrato Fósforo Clorofila
Estación
Total (mg/l) (mg/l) Total “a”
(mg/l) (mg/l) (mg/m3)
Nº 0 1.9 0.2 0.44 0.97 71
Nº 3 3.4 0.01 0.1 0.95 32
Nº 5 1.3 0.19 0.1 0.91 41
Nº 6 3.65 0.19 0.1 0.82 78.5
Nº 12A 2.63 0.29 1.07 0.97 20
Nº 16 1.3 0.01 0.35 0.96 93
Nº 17 1.53 0.2 0.39 0.92 37
Nº 20 3.51 0.09 0.95 0.93 43
Nº 24 2.27 0.88 0.88 0.93 39
Nº 33 4.65 0.21 0.1 1.09 67
Nº 34 1.5 0.37 0.1 0.71 76
Nº 39 10.3 0.01 0.1 0.92 82.5
Nº 40 2.8 0.01 0.1 0.82 50

Nótese que la unidad de medida para las variables nitrógeno total, nitrito,
nitrato y fósforo total es el miligramos por litro (mg/l), mientras que para la
variable clorofila “a” es el miligramos por metro cúbico (mg/m3). Es

36
importante resaltar que para el año 2004 no se tomó muestras en las
estaciones número 2, 4A, 7 y 25.

Veamos si se cumple la estacionaridad en las muestras. Primero


realizamos los gráficos de caja para cada variable, esto con la finalidad de
verificar si existen observaciones atípicas en las variables.

Figura 17. Gráficos de caja para las variables nitrógeno total y nitrito

Figura 18. Gráficos de caja para las variables nitrato y fósforo total

37
Figura 19. Gráfico de caja para la variable clorofila “a”

En estos gráficos de cajas observamos algunas flechas indicando las


observaciones atípicas, o sea la variable fósforo total tiene dos
observaciones atípicas que son 0.71 y 1.09. También se pudo hallar en cada
una de las variables nitrógeno total y nitrito una observación atípica, las
cuales son 10.3 y 0.88 respectivamente. Ahora eliminamos estas
observaciones de la tabla 1 y hallamos los estadísticos de estas nuevas
variables.

38
Tabla 2. Estadística descriptiva para las sustancias

Variable
Estadístico Nitrógeno Nitrito Nitrato Fósforo Clorofila
Total Total “a”
Media 2.54 0.15 0.37 0.92 56.15
Mediana 2.45 0.19 0.1 0.93 50
0.82, 0.92,
Moda 1.3 0.01 0.1 No Existe
0.93 y 0.97
Varianza 1.19 0.02 0.13 0.003 522.93
Desviación
1.09 0.14 0.36 0.05 22.87
Estándar
Coeficiente de
0.43 0.93 0.97 0.05 0.41
Variación
Error Estándar 0.31 0.04 0.1 0.02 6.34
Mínimo 1.3 0.01 0.1 0.82 20
Máximo 4.65 0.37 1.07 0.97 93
Amplitud 3.35 0.36 0.97 0.15 73
Coeficiente de
0.52 0.22 1.1 -1.26 0.1
Asimetría
Curtosis -0.7 -0.88 -0.35 0.7 -1.33
Primer Cuartil 1.51 0.01 0.1 0.91 38
Tercer Cuartil 3.48 0.21 0.66 0.96 77.25

En esta tabla se aprecia que todas las variables tienen coeficiente de


variación menor que uno, además observamos que los valores de la media y
la mediana están cercanos en cada una de las variables. Ahora realizamos

39
histogramas para ver si la distribución de los datos de cada variable se ajusta
a la curva normal.

Figura 20. Histograma para la variable nitrógeno total

Figura 21. Histograma para la variable nitrito

40
Figura 22. Histograma para la variable nitrato

Figura 23. Histograma para la variable fósforo total

41
Figura 24. Histograma para la variable clorofila “a”

Observando estos histogramas notamos rápidamente que la distribución


de los datos de cada variable no se ajusta a la curva normal, esto puede
estar pasando puesto que tenemos muy pocos datos en cada variable. Ahora
bien sabemos que para muestras pequeñas se puede utilizar la prueba de
normalidad Shapiro-Wilks (S.W.), así que aplicamos esta prueba para ver
qué ocurre y planteamos la prueba de la siguiente manera: H0 : “la
distribución de los datos se ajusta a la curva normal” Vs Ha : “la distribución
de los datos no se ajusta a la curva normal”. A continuación presentamos en
la tabla 3 la prueba de normalidad Shapiro-Wilks.

42
Tabla 3. Prueba de normalidad Shapiro-Wilks

Estadístico
Variable Valor p
S.W.
Nitrógeno Total 0.92 0.32
Nitrito 0.88 0.09
Nitrato 0.98 0.29
Fósforo Total 0.97 0.39
Clorofila “a” 0.94 0.47

Para esta prueba se tomó un nivel de significancia α = 0.05. Nótese que la


hipótesis nula H0 se rechaza si el valor p < 0.05 y se acepta si el
valor p > 0.05. Ahora si se considera esto y se observa la tabla, se concluye
que aceptamos la hipótesis nula H0 en cada una de las variables, es decir, la
distribución de los datos de cada variable se ajusta a la curva normal, lo que
nos parece indicar que tenemos muestras que provienen de una población
normal. Es importante explicar el por qué queremos ver que los datos se
ajusten a una distribución normal, esto es debido a que los resultados de
predicción son más precisos con esta distribución de probabilidad que con
otra.

Veamos ahora si se cumple la estacionaridad en las muestras. La


estacionaridad considera que el nivel promedio de la variable debe ser
constante en todos los puntos del área de estudio, es decir, no deben existir
tendencias (Giraldo, 2003). El cumplimiento de la estacionaridad se verifica
de acuerdo a la metodología que consiste en el desarrollo de modelos de
regresión lineal múltiple de la forma: variable = a + bX + cY, en las cuales se
describe la relación entre la variable dependiente y dos variables
independientes, donde X y Y corresponden a las coordenadas planas. Para

43
establecer la estacionaridad a partir de los modelos de regresión se realiza la
prueba de significación para determinar si la regresión es no significativa, es
decir, si las variables regresoras no aportan nada a la variable de respuesta.
Esta prueba de significación se plantea de la siguiente forma: H0 : b = c = 0
Vs Ha : b ≠ 0 ó c ≠ 0. A continuación presentamos en la tabla 4 los modelos
de regresión lineal múltiple para evaluar la estacionaridad.

Tabla 4. Modelos de regresión lineal múltiple para evaluar la estacionaridad

Modelo R2 (%) Valor p

Nitrógeno Total = 2.55 – 0.04X + 0.06Y 11 0.59


Nitrito = 0.13 + 0.007X - 0.008Y 22.7 0.31
Nitrato = 0.42 + 0.008X - 0.02Y 7.8 0.67
Fósforo Total = 0.92 + 0.004X - 0.005Y 46.9 0.08
Clorofila “a” = 40.04 + 0.58X + 1.13Y 13.5 0.48

Nótese que para el cálculo de esta tabla se seleccionó un nivel de


significancia α = 0.05, además la hipótesis nula H0 se rechaza si el
valor p < 0.05 (modelo de regresión significativo) y se acepta si el
valor p > 0.05 (modelo de regresión no significativo). Como se puede
observar en esta tabla los R2 de los modelos son bajos. Sin embargo, con
base en el valor p se puede apreciar que los modelos de todas las variables
son no significativos, es decir, no existen tendencias y en consecuencia se
cumple la estacionaridad en las muestras. Esto nos indica que los mejores
modelos teóricos que se ajustaran a los semivariogramas experimentales
tendrán los parámetros meseta y alcance finito.

44
2.5 Análisis estructural

En la figura 16 observamos la superficie del Lago de Valencia y sus


estaciones de monitoreo, de aquí se toma como centroide estas estaciones,
esto con la finalidad de conocer las coordenadas X e Y. Luego de conocer
las coordenadas X e Y de los centroides, se colocan las observaciones de
cada variable y una orientación de los datos como se muestra en las
siguientes figuras.

Figura 25. Posiciones de las observaciones en el plano XY para la variable


nitrógeno total (la unidad de medida es mg/l)

45
Figura 26. Posiciones de las observaciones en el plano XY para la variable
nitrito (la unidad de medida es mg/l)

Figura 27. Posiciones de las observaciones en el plano XY para la variable


nitrato (la unidad de medida es mg/l)

46
Figura 28. Posiciones de las observaciones en el plano XY para la variable
fósforo total (la unidad de medida es mg/l)

Figura 29. Posiciones de las observaciones en el plano XY para la variable


Clorofila “a” (la unidad de medida es mg/m3)

47
En estas figuras observamos muchas posiciones en la cuadrícula donde
no se tienen valores de las sustancias, pues son pocas las estaciones con
respecto a la superficie del Lago, por esta razón estimamos estos valores
con el método de krigeaje puntual, pero antes debemos calcular los
semivariogramas omnidireccionales. No hallamos los semivariogramas
direccionales puesto que los resultados son deficientes y esto es debido a
que en cada variable no existen valores a la distancia h, como se puede ver
las observaciones de cada variable están irregularmente espaciados. Ahora
bien antes de calcular los semivariogramas omnidireccionales, veremos el
posicionamiento de las observaciones de cada variable en el espacio.

Figura 30. Posiciones de las observaciones en el espacio para la variable


nitrógeno total

48
Figura 31. Posiciones de las observaciones en el espacio para la variable
nitrito

Figura 32. Posiciones de las observaciones en el espacio para la variable


nitrato

49
Figura 33. Posiciones de las observaciones en el espacio para la variable
fósforo total

Figura 34. Posiciones de las observaciones en el espacio para la variable


Clorofila “a”

50
Ahora se hallan las nubes de variogramas para cada una de las variables.

Figura 35. Nube de variogramas para la variable nitrógeno total

La distancia máxima de un par de observaciones en la variable nitrógeno


total es 21.63, entonces 21.63 / 2 = 10.82 ≈ 11, por esta razón vemos en el
gráfico de nube que el máximo valor que puede tomar h es 11 (recuerde que
la nube de variogramas y el semivariograma experimental no deben ser
calculados con valores de h más grande que la mitad de los pares más
alejados en el conjunto de datos). Es importante resaltar que gracias a este
gráfico de nube podemos conocer las muestras contiguas y sus distancias.

51
Tabla 5. Muestras contiguas y sus distancias

Variable Nitrógeno Total


Z(xi) Z(xi+h) h
1.3 1.5 2
1.53 1.3 2
4.65 1.5 2.24
1.53 1.5 2.83

Figura 36. Muestras contiguas en el plano XY para la variable nitrógeno total

Por la teoría desarrollada anteriormente sabemos lo siguiente:

• El incremento h inicial se recomienda como la distancia promedio


entre las muestras contiguas.

• No se puede dar un criterio exacto o aproximado sobre cuál es el


mejor incremento h inicial, por lo que es recomendable calcular

52
γˆ(h) para distintos valores de h, hasta encontrar una forma

suavizada del semivariograma experimental.

Ahora bien, tomando en cuenta todo esto, los posibles incrementos


iníciales son: h = 2, h = (2+2.24) / 2 = 2.12 y h = (2+2.24+2.83) / 3 = 2.36.

• Si tomamos h = 2, entonces la tolerancia dh es 1, los intervalos de


distancia son: [1,3); [3,5); [5,7); [7,9) y [9,11). La cantidad de
intervalos de distancia y de puntos a procesar en el
semivariograma experimental es 5.

• Si tomamos h = 2.12, entonces la tolerancia dh es 1.06, los


intervalos de distancia son: [1.06,3.18); [3.18,5.3); [5.3,7.42) y
[7.42,9.54). La cantidad de intervalos de distancia y de puntos a
procesar en el semivariograma experimental es 4.

• Si tomamos h = 2.36, entonces la tolerancia dh es 1.18, los


intervalos de distancia son: [1.18,3.54); [3.54,5.9); [5.9,8.26) y
[8.26,10.62). La cantidad de intervalos de distancia y de puntos a
procesar en el semivariograma experimental es 4.

En este gráfico de nube también se observan tres flechas indicando los


valores extremos altos, la cual debemos identificar para extraerlos en el
cálculo del semivariograma omnidireccional. A continuación presentamos en
la tabla 6 las muestras que nos proporcionan estos valores extremos altos y
las localizaciones en el gráfico de nube.

53
Tabla 6. Muestras y localizaciones de valores extremos en el gráfico de nube

Variable Nitrógeno Total

Z(xi) Z(xi+h) h
(Z ( xi ) − Z ( xi + h)) 2
2
4.65 1.5 2.24 4.96
1.53 4.65 4.12 4.87
4.65 1.3 4.12 5.61

Ahora procedemos de la misma manera para las otras variables.

Figura 37. Nube de variogramas para la variable nitrito

54
Figura 38. Nube de variogramas para la variable nitrato

Figura 39. Nube de variogramas para la variable fósforo total

55
Figura 40. Nube de variogramas para la variable clorofila “a”

Para las variables nitrito, nitrato y clorofila “a”, la distancia máxima de un


par de observaciones es 21.63, mientras que para la variable fósforo total es
21.1, lo que justifica que h llegue hasta 11 en los anteriores gráficos de nube.
Nótese además que en estos gráficos de nube se puede ver una línea
punteada, que es la línea de covarianza. Ahora presentamos en la tabla 7 las
muestras contiguas y sus distancias para cada variable.

56
Tabla 7. Muestras contiguas y sus distancias para cada una de las variables

Variable Z(xi) Z(xi+h) h


Nitrito
0.2 0.01 2
0.01 0.37 2
0.21 0.37 2.24
0.2 0.37 2.83
Nitrato
0.39 0.35 2
0.35 0.1 2
0.1 0.1 2.24
0.39 0.1 2.83
Fósforo Total
0.92 0.96 2
Clorofila “a”
93 76 2
37 93 2
67 76 2.24
37 76 2.83

Observando la tabla se concluye que los posibles incrementos iníciales


para las variables nitrito, nitrato y clorofila “a” son: h = 2, h = 2.12 y h = 2.36,
mientras que para la variable fósforo total es h = 2. Por otra parte, si
apreciamos detalladamente el gráfico de nube para la variable nitrato,
notaremos que la mayoría de los valores se concentran por debajo de la
línea de covarianza para distancias menores que h = 5 y para distancias
mayores o iguales a h = 5 se concentran por arriba, por esta razón existen
valores extremos altos y bajos, como lo indican las flechas. En la siguiente

57
tabla mostramos los valores extremos y las localizaciones de los valores
extremos en los gráficos de nube para cada variable.

Tabla 8. Muestras y localizaciones de valores extremos en los gráficos de


nube para cada variable

(Z ( xi ) − Z ( xi + h)) 2
Variable Z(xi) Z(xi+h) h
2
Nitrito
0.01 0.37 2 0.065
Nitrato
0.1 0.88 3.61 0.3
0.1 0.1 5 0
0.1 0.1 5.83 0
0.44 0.35 7 0.0041
0.39 0.44 7.28 0.0013
0.88 0.95 9 0.0024
0.44 0.1 9 0.06
0.1 0.1 9.22 0
Fósforo Total
0.82 0.93 3.61 0.0061
0.91 0.82 4 0.0041
0.82 0.95 5 0.0084
0.92 0.82 5.83 0.005
0.93 0.82 11 0.0061
Clorofila “a”
37 93 2 1568
20 93 6.4 2664.5

58
Se calcula ahora los semivariogramas omnidireccionales para cada uno
de los incrementos iníciales encontrado, hasta conseguir la mejor estructura
de correlación espacial.

Figura 41. Estructura del semivariograma omnidireccional para la variable


nitrógeno total (tomando como incremento inicial h = 2)

Como podemos ver esta estructura del semivariograma omnidireccional


no posee una forma suave, puesto que tiene un decrecimiento pronunciado,
que no se supone que pasa, pues los gráficos de los semivariogramas
experimentales por lo general aumentan con distancia hasta un punto y
después llegan a ser más o menos plano. Ahora eliminaremos los valores
extremos para ver si suaviza esta estructura.

59
Figura 42. Estructura del semivariograma omnidireccional para la variable
nitrógeno total (tomando como incremento inicial h = 2 y eliminando los
valores extremos)

Todavía se mantiene el decrecimiento pronunciado y por lo tanto no es


una buena estructura de correlación espacial, así que descartamos el
incremento inicial h = 2 y veamos que ocurre cuando tomamos h = 2.12.

Figura 43. Estructura del semivariograma omnidireccional para la variable


nitrógeno total (tomando como incremento inicial h = 2.12)

60
Cuando cambiamos de incremento inicial observamos un punto menos
calculado en este semivariograma experimental y una estructura que no
posee una forma suave, puesto que existe un decrecimiento pronunciado. A
continuación se extraerán las observaciones atípicas para ver si se logra
suavizar esta estructura.

Figura 44. Estructura del semivariograma omnidireccional para la variable


nitrógeno total (tomando como incremento inicial h = 2.12 y eliminando los
valores extremos)

En este caso podemos apreciar que esta estructura tiene una forma un
poco más suave comparada con las anteriores estructuras, por lo que se
puede decir que es una buena estructura de correlación espacial. Tomemos
ahora h = 2.36 para ver si nos arroja una estructura de correlación espacial
mucho mejor que esta.

61
Figura 45. Estructura del semivariograma omnidireccional para la variable
nitrógeno total (tomando como incremento inicial h = 2.36)

Acá podemos observar que no es una buena estructura de correlación


espacial, ya que posee un decrecimiento pronunciado. Ahora eliminaremos
los valores extremos para ver si toma una forma más suave que la estructura
de la figura 44.

Figura 46. Estructura del semivariograma omnidireccional para la variable


nitrógeno total (tomando como incremento inicial h = 2.36 y eliminando los
valores extremos)

62
Como se puede apreciar esta estructura tiene una forma más suave que
la estructura de la figura 44, puesto que demuestra un crecimiento hasta un
punto y después alcanza una cierta estabilidad, por esta razón consideramos
que es la mejor estructura de correlación espacial. Nótese también que el
semivariograma es casi plano más allá de la distancia 4.5, sugiriendo que el
alcance de autocorrelación espacial termina en esa distancia (los puntos más
allá de 4.5 unidades de distancia no demuestra ningún cambio en el
semivariograma y así no está correlacionada espacialmente).

Ahora procedemos de la misma manera para las otras variables y a


continuación presentamos los gráficos de los semivariogramas
omnidireccionales de las otras variables con sus mejores estructuras de
correlación espacial.

Figura 47. Estructura del semivariograma omnidireccional para la variable


nitrito (tomando como incremento inicial h = 2.12 y eliminando los valores
extremos)

63
Figura 48. Estructura del semivariograma omnidireccional para la variable
nitrato (tomando como incremento inicial h = 2.36 y eliminando los valores
extremos)

Figura 49. Estructura del semivariograma omnidireccional para la variable


fósforo total (tomando como incremento inicial h = 2 y eliminando los valores
extremos)

64
Figura 50. Estructura del semivariograma omnidireccional para la variable
clorofila “a” (tomando como incremento inicial h = 2.36 y eliminando los
valores extremos)

Nótese que para la figura 49 observamos nada más tres puntos


calculados en el semivariograma, en lugar de cinco, esto ocurre ya que la
cantidad de pares encontrados en los dos primeros intervalos de distancia es
muy poco, por lo que el programa Variowin lo considera insuficiente desde el
punto de vista estadístico y por esa razón no calcula estos puntos. También
es bueno tener claro que el programa Variowin realiza lo siguiente: cada
valor que toma h en los gráficos de los semivariogramas, es la distancia
promedio de los pares de valores que genera el punto γˆ(h) en la gráfica.

Es importante resaltar que se pone en evidencia, en el estudio anterior,


que los semivariogramas experimentales son extremadamente sensibles a
valores extremos y que no se puede dar un criterio exacto o aproximado
sobre cuál es el mejor incremento h inicial.

65
A partir de los semivariogramas omnidireccionales con las mejores
estructuras de correlación espacial, se procede a probar los distintos
modelos teóricos. Se elige aquel que presente el mejor índice de bondad de
ajuste. Los resultados se muestran en la tabla 9.

Tabla 9. Parámetros de los modelos ajustados para los datos de los


semivariogramas omnidireccionales

Bondad
Variable Modelo Alcance Meseta Pepita Pend. Anis. Dir. de
Ajuste
Nitrógeno
Total
Esférico 4.7 1 0 ---- 1.7 90 0.094

Exponencial 4.7 1.03 0 ---- 2.4 90 0.12

Gaussiano 4.7 1.03 0 ---- 1.4 90 0.0625

Lineal ---- ---- 0.008 0.132 1 90 0.1273


Nitrito
Lineal ---- ---- 0.012 0 1 90 0.0313
Nitrato
Esférico 7.1 0.35 0 ---- 2.2 90 0.5499

Exponencial 7.1 0.35 0 ---- 3.5 90 0.8096

Gaussiano 7.1 0.35 0 ---- 1.6 90 0.236

Lineal ---- ---- 0 0.032 1 90 0.4465


Fósforo
Total
Lineal ---- ---- 0.00032 0 1 90 0.00068
Clorofila
“a”
Esférico 4.7 503 0 ---- 1 90 0.03

Exponencial 4.7 505 0 ---- 1 90 0.0485

Gaussiano 4.5 523 3 ---- 1 90 0.0365

Lineal ---- ---- 465 0 1 90 0.0752

(Pend. = Pendiente, Anis. = Anisotropía, Dir. = Dirección)

66
El índice de bondad de ajuste se calcula de acuerdo a la siguiente
expresión:

D ⎡ γˆ(i) −γ (i) ⎤
2
n P(i)
IBA = ∑ n ⎢⎣ σ 2 ⎥⎦
i=0
∑ P( j ) d (i )
j =0

Donde n es el número de intervalos de distancia, D es la máxima


distancia, P(i) es el número de pares para el intervalo i, d(i) es la media de
los pares en el intervalo i, γˆ(i) es la medida experimental para de la

continuidad para el intervalo i, γ (i) es la medida del modelo para de la

continuidad para el intervalo i, y σ2 es la varianza a priori (Pannatier, 1996).


Nótese que el mejor índice de bondad de ajuste, es aquel que está próximo a
cero, así que para la variable nitrógeno total se selecciona el modelo
gaussiano y sus parámetros. Para las variables nitrito, nitrato, fósforo total y
clorofila “a”, los modelos teóricos seleccionados con sus respectivos
parámetros son: lineal, gaussiano, lineal y esférico respectivamente. Es
importante explicar por qué a las variables nitrito y fósforo total se les ajusta
solamente un modelo que es la lineal con pendiente nula, esto es debido a la
clara estructura que poseen, además este modelo no es más que el modelo
“efecto de pepita”. Nótese también que se fija la dirección a 90, que se
requiere para el semivariograma omnidireccional en el programa Variowin.
Los gráficos con los mejores modelos teóricos ajustados a los datos de los
semivariogramas omnidireccionales se muestran a continuación.

67
Figura 51. Modelo gaussiano ajustado a los datos del semivariograma
omnidireccional para la variable nitrógeno total

Figura 52. Modelo efecto de pepita ajustado a los datos del semivariograma
omnidireccional para la variable nitrito

68
Figura 53. Modelo gaussiano ajustado a los datos del semivariograma
omnidireccional para la variable nitrato

Figura 54. Modelo efecto de pepita ajustado a los datos del semivariograma
omnidireccional para la variable fósforo total

69
Figura 55. Modelo esférico ajustado a los datos del semivariograma
omnidireccional para la variable clorofila “a”

2.6 Predicciones

Tomando como base los modelos ajustados y utilizando el software


Surfer 8, se realizan las interpolaciones por el método de krigeaje puntual y
los mapas e imágenes de contornos para el año 2004. Es importante resaltar
que no realizamos predicciones a las variables nitrito y fosforo total, puesto
que se les ajustó un modelo efecto de pepita; este modelo describe un
fenómeno puramente aleatorio, sin correlación entre las muestras, cualquiera
sea la distancia que las separe. Los resultados de las predicciones del año
2004 para las variables nitrógeno total, nitrato y clorofila “a” se presentan a
continuación.

70
Figura 56. Rejilla de datos estimados para la variable nitrógeno total

Figura 57. Mapa de contornos para la variable nitrógeno total con la


superficie del Lago de Valencia y su tabla de niveles de concentración

71
Figura 58. Imagen de contornos para la variable nitrógeno total con la
superficie del Lago de Valencia y su tabla de niveles de concentración

2.6.1 Nitrógeno Total

Se observa que los valores de esta sustancia varían de 1.2 a


6.8 mg/l (ver figura 57), aunque la mayoría de los valores oscila
principalmente entre 1.2 y 4 mg/l en casi toda la superficie del Lago
(ver figura 58). También se puede ver una concentración de
valores bastante alto por la zona de Maracay (observe las figuras
57 y 58). Nótese además que en cada nodo de la rejilla de la figura
56, se encuentra un valor estimado de esta sustancia.

72
Figura 59. Mapa de contornos para la variable nitrato con la superficie del
Lago de Valencia y su tabla de niveles de concentración

Figura 60. Imagen de contornos para la variable nitrato con la superficie del
Lago de Valencia y su tabla de niveles de concentración

73
2.6.2 Nitrato

En este caso se puede apreciar rápidamente la concentración


de valores bastante alto por las zonas de Valencia y el sur del
Lago (observe las figuras 59 y 60) esta zona es la contigua a la
población de Güigue donde hay abundante actividad agrícola.
Además podemos ver en la figura 59 el intervalo de variación que
es de 0 a 1.2 mg/l. Nótese también que la mayoría de los valores
oscila principalmente entre 0 y 0.6 mg/l en casi toda la superficie
del Lago (ver figura 60).

Figura 61. Mapa de contornos para la variable clorofila “a” con la superficie
del Lago de Valencia y su tabla de niveles de concentración

74
Figura 62. Imagen de contornos para la variable clorofila “a” con la superficie
del Lago de Valencia y su tabla de niveles de concentración

2.6.3 Clorofila “a”

Para esta sustancia se observa una gran cantidad de valores


intermedios y altos en casi toda la superficie del Lago (ver figura
62). Nótese que por las zonas de Valencia, Maracay y el norte del
Lago existen concentraciones de valores bastante altos (observe
las figuras 61 y 62). También podemos ver en la figura 61 los
límites de concentración que son 25 y 95 mg/m3.

2.7 Evolución temporal de la clorofila “a”

Como la clorofila “a” es una de la sustancia que más abunda en el Lago,


por esta razón se estudia a continuación cómo ha evolucionado esta
sustancia en el tiempo a través de mapas e imágenes de contornos.

75
Figura 63. Mapa de contornos para la variable clorofila “a” con la superficie
del Lago de Valencia y su tabla de niveles de concentración (año 1998)

Figura 64. Imagen de contornos para la variable clorofila “a” con la superficie
del Lago de Valencia y su tabla de niveles de concentración (año 1998)

76
2.7.1 Clorofila “a”, año 1998

Para este año se observan valores altos por las zonas de


Valencia y el norte del Lago (observe la figura 63). Nótese además
que los valores intermedios y altos cubren casi toda la superficie
del Lago (ver figura 64).

Figura 65. Mapa de contornos para la variable clorofila “a” con la superficie
del Lago de Valencia y su tabla de niveles de concentración (año 1999)

77
Figura 66. Imagen de contornos para la variable clorofila “a” con la superficie
del Lago de Valencia y su tabla de niveles de concentración (año 1999)

2.7.2 Clorofila “a”, año 1999

Se aprecia que para este año disminuyeron los valores altos y


el intervalo de variación, pues los niveles de concentración varían
de 27 a 45 mg/m3 (ver figura 65). También se puede apreciar la
concentración de valores altos por la zona de Valencia (observe
las figuras 65 y 66).

78
Figura 67. Mapa de contornos para la variable clorofila “a” con la superficie
del Lago de Valencia y su tabla de niveles de concentración (año 2001)

Figura 68. Imagen de contornos para la variable clorofila “a” con la superficie
del Lago de Valencia y su tabla de niveles de concentración (año 2001)

79
2.7.3 Clorofila “a”, año 2001

En este año se puede observar el gran crecimiento en los


valores altos y en el intervalo de variación, pues los niveles de
concentración varían de 36 a 82 mg/m3 (ver la figura 67). Además
podemos apreciar que una gran parte del Lago está cubierta por
valores altos, así como también se puede ver los bajos niveles de
concentración de esta sustancia en la zona sur del Lago (observe
la figura 68).

Figura 69. Mapa de contornos para la variable clorofila “a” con la superficie
del Lago de Valencia y su tabla de niveles de concentración (año 2002)

80
Figura 70. Imagen de contornos para la variable clorofila “a” con la superficie
del Lago de Valencia y su tabla de niveles de concentración (año 2002)

2.7.4 Clorofila “a”, año 2002

Para este año se sigue observando el gran crecimiento en los


valores altos y en el intervalo de variación, pues los niveles de
concentración varían de 10 a 170 mg/m3 (ver figura 69). Nótese
también una concentración de valores bastante alto por la zona de
Valencia y los bajos niveles de concentración de esta sustancia por
la zona de Maracay (observe las figuras 69 y 70).

81
Figura 71. Mapa de contornos para la variable clorofila “a” con la superficie
del Lago de Valencia y su tabla de niveles de concentración (año 2004)

Figura 72. Imagen de contornos para la variable clorofila “a” con la superficie
del Lago de Valencia y su tabla de niveles de concentración (año 2004)

82
2.7.5 Clorofila “a”, año 2004

Para este último año que se estudio, se observa un


decrecimiento en los valores altos y en el intervalo de variación,
pues los niveles de concentración varían de 25 a 95 mg/m3 (ver
figura 71). Observé que por las zonas de Valencia, Maracay y el
norte del Lago existen concentraciones de valores bastante altos
(observar las figuras 71 y 72).

2.8 Predicción idónea

Con la finalidad de obtener una predicción apropiada de la clorofila “a”


para el año 2004, se procede a realizar hasta diez predicciones continuas,
partiendo de los datos predichos del año 2004, este método se le conoce
como re-muestreó. Después de realizar los diez re-muestreos, tomamos los
valores que se encuentran ubicados en un mismo nodo en cada una de las
rejillas predichas, para luego promediar estos valores. Esto mismo se realiza
para los demás nodos y todos estos valores promediados se pudiera decir
que es una mejor predicción comparada con la primera predicción realizada.
Nótese también que se puede realizar el número de re-muestreó que se
desee, pues mientras más re-muestreó se realice mejor es la predicción. A
continuación presentamos la predicción idónea representada por un mapa e
imagen de contornos, con la metodología expuesta anteriormente ya
aplicada.

83
Figura 73. Mapa de contornos idóneo para la variable clorofila “a” con la
superficie del Lago de Valencia y su tabla de niveles de concentración

Figura 74. Imagen de contornos idóneo para la variable clorofila “a” con la
superficie del Lago de Valencia y su tabla de niveles de concentración

84
Al comparar detalladamente las figuras 71 y 73, notamos que en la figura
73 ya no son continuas las líneas de contornos y estas tienden a tener
diferentes direcciones, por lo que se concluye que estas últimas
estimaciones están más ajustadas a los verdaderos valores.

85
CAPÍTULO 3

SERIES TEMPORALES Y ANÁLISIS DE FLUCTUACIÓN SIN TENDENCIA

SERIES TEMPORALES

Cuando hablamos de una secuencia de valores observados a lo largo del


tiempo, y por tanto ordenados cronológicamente, la denominamos en un
sentido amplio, serie temporal. Los valores de una serie temporal van ligados
a instantes de tiempo, de manera que el análisis de una serie implica el
manejo conjunto de dos variables; la variable en estudio propiamente dicha y
la variable tiempo.

Las series pueden tener una periodicidad anual, semestral, trimestral,


mensual, etc., según los períodos de tiempo en los que están recogidos los
datos que la componen. Las mediciones diarias de la temperatura ambiental,
el número de pasajeros anuales registrado en una aerolínea, la cantidad de
alumnos semestrales que ingresan a una universidad, el índice de la bolsa
segundo a segundo, son ejemplos de series temporales con diferentes
periodicidades.

El análisis de series temporales presenta un conjunto de técnicas


estadísticas que permiten, además de estudiar y modelar el comportamiento
de un fenómeno que evoluciona a lo largo del tiempo, hacer previsiones de
los valores que se alcanzarán en el futuro.

Con el análisis de series temporales se pretende extraer las regularidades


que se observan en el comportamiento pasado de la variable, es decir,
obtener el mecanismo que la genera y así tener un mejor conocimiento de la
misma en el tiempo. Además, bajo el supuesto de que las condiciones
estructurales que conforman la serie objeto de estudio permanecen
constantes, también se trata de predecir el comportamiento futuro.

86
El estudio de una serie temporal puede tener distintas motivaciones. El
tipo de análisis, así como los modelos en los que basemos el estudio,
dependerán en gran medida del tipo de preguntas que queramos responder.
Cuando las observaciones corresponden a una única variable, el análisis de
series temporales suele tener como objetivo construir un modelo para
explicar la estructura (descripción) y prever la evolución (predicción) de la
variable de interés. Cuando se observa simultáneamente un grupo de
variables, el objetivo que se persigue consiste generalmente en analizar las
posibles relaciones entre las variables observadas y su evolución conjunta.
Este último punto, debe ser tratado mediante técnicas multivariantes de
análisis de series temporales, pero en la presente investigación no
cubriremos este punto, solamente nos referiremos al análisis univariante de
series temporales.

3.1 Conceptos de series de tiempo

• Tendencia y nivel de la serie

El nivel de una serie es una medida local de tendencia central,


como por ejemplo la mediana, de cada período de tiempo que
consideremos.

Una vez calculado el nivel de la serie, debemos observar su


estabilidad, es decir, ver si la medida de tendencia central elegida
tiene valores similares en los períodos de tiempo que
consideremos. También tendremos que observar su tendencia, o
sea, si presenta una dirección constante de cambio de nivel.

87
⎧Estable


⎪ ⎧Sin tendencia
⎪ ⎪
⎪ ⎪ ⎧Creciente
⎪Inestable ⎨ ⎪
El nivel de una serie puede ser: ⎨ ⎪Con tendencia ⎨
⎪ ⎪ ⎪Decreciente
⎪ ⎩ ⎩


⎪Circunstancial ⇒ El fenomeno tiene un nivel estable
⎪ salvo comportamientos estacionales.

• Estacionalidad

Corresponde a fluctuaciones periódicas de la serie temporal, en


períodos relativamente cortos de tiempo (cada año, cada mes, etc.,
dependiendo de las unidades de tiempo en que vengan recogidos
los datos). Una herramienta muy útil para detectar patrones y
periodicidades en series temporales es la función de
autocorrelación que veremos más adelante.

• Dependencia entre variabilidad y nivel

Es importante analizar la dependencia entre variabilidad y nivel


a la hora de realizar un análisis preliminar a una serie de tiempo. Si
existe dependencia de este tipo la serie no es estacionaria en
varianza, de manera que debemos transformarla. En estos casos,
cuando la variabilidad depende del nivel, se realizan
transformaciones de la familia de Box-Cox. Cuando estamos ante
una serie no estacionaria en nivel se consigue que la serie sea
estacionaria diferenciándola. Diferenciar una serie X consiste en
t

aplicarle el operador diferencia ( ∇ ) que hace lo siguiente:

88
∇X t = X t − X t − 1

Es posible que, tras diferenciar una serie, esta siga siendo no


estacionaria, en cuyo caso es posible que necesite una nueva
diferencia.

Para estudiar la dependencia existente entre variabilidad y nivel


se emplea el gráfico de dispersión por nivel. Si los puntos de la
gráfica pueden ajustarse a una línea recta decimos que existe una
dependencia entre variabilidad y nivel. Este gráfico es un diagrama
de dispersión en el que se representa el logaritmo neperiano de la
mediana (medida de tendencia central) frente al logaritmo
neperiano de la diferencia entre los percentiles 80 y 20 (medida de
la dispersión) de cada uno de los períodos considerados en la
serie.

3.2 Componentes de una serie de tiempo

Se dice que una serie de tiempo es el resultado de la integración de


cuatro componentes fundamentales (aunque no siempre aparecen todas)
que no son directamente observables, de los cuales únicamente se pueden
obtener estimaciones. Estas cuatro componentes son: tendencia (T ), ciclo
t

(C ), estacionalidad (S ) e irregularidad (E ). De esta manera podemos


t t t

considerar que una serie de tiempo X es una función de estas cuatro


t

componentes.

X t = f ( Ct , Tt , St , Et )

• Tendencia (T ) es la dirección general de la serie temporal en el


t

período de observación, es decir el cambio a largo plazo de la

89
media de la serie. Refleja la dirección del movimiento de una
determinada variable; creciente, decreciente o estable.

• Ciclo (C ) consiste en variaciones superiores al año que no son


t

estrictamente periódicas. Se trata de un factor de tipo oscilante


caracterizado por movimientos recurrentes en torno a la tendencia,
y suele aparecer fundamentalmente en series de tipo económico.

• Estacionalidad (S ) son los movimientos regulares de una serie que


t

se repite periódicamente en un tiempo relativamente corto. Recoge


las oscilaciones que año a año se repiten en una serie de forma
periódica.

• Irregularidad (E ) son movimientos erráticos que no siguen un


t

patrón específico y que obedecen a causas diversas. Esta


componente es prácticamente impredecible. De esta forma la
irregularidad lo compone todo lo que no queda explicado por la
tendencia, el ciclo y la estacionalidad.

Este método clásico de análisis de series temporales tiene la ventaja de


no ser excesivamente complejo, aunque como contrapartida responde a
preguntas menos ambiciosas. Se pueden emplear para realizar predicciones
a corto plazo, pero no a medio o largo plazo. Por ejemplo, en series
mensuales se utilizan para predecir uno o dos meses, no un año completo.

3.3 Modelos de series temporales

Antes de estudiar una serie temporal es importante suponer que la serie


esta generada por un proceso estocástico.

90
Un proceso estocástico o proceso aleatorio es un concepto matemático
que sirve para caracterizar y estudiar todo tipo de fenómenos aleatorios
(estocásticos) que evolucionan generalmente con el tiempo.

Se define en matemática un proceso estocástico como un conjunto de

variables aleatorias { X t }t ∈Z que describen la evolución de algún proceso


a través de t, donde t es la variable tiempo y a cada X le corresponde una
t

función de distribución de probabilidad. De esta forma una serie temporal con


n observaciones estaría generada por X ,…, X variables aleatorias, y sus
1 n

valores concretos x ,…, x serían una realización del proceso estocástico.


1 n

Un proceso estocástico queda determinado si conocemos la función de


distribución de las variables aleatorias que lo componen y todas las posibles
funciones de distribución conjuntas de dichas variables.

La determinación de las características de un proceso estocástico a partir


de las funciones de distribución es en general, un procedimiento complicado,
por lo que se acostumbra a caracterizarlos a partir de los momentos de
primer y segundo orden (media y covarianza).

Media o momento de primer orden: μt = E ( X t ) t ∈Z

Covarianzas o momentos de segundo orden:

γ t , s = C ov ( X t , X s ) t, s∈ Z

Para poder efectuar inferencias sobre los parámetros de un proceso


estocástico a partir de los datos obtenidos de una sola realización, es preciso
imponer restricciones al proceso. Las restricciones que se imponen
habitualmente son que sean estacionario y ergódico.

91
Un proceso estocástico es estacionario en sentido estricto si la función de
distribución conjunta de cualquier subconjunto de variables es constante
respecto a un desplazamiento en el tiempo.

F ( X 1 , K , X n ) = F ( X1 + h , K , X n + h ) ∀ n ∈ N , ∀ h ∈ Z

Limitarnos a los procesos estacionarios estrictos sería excesivo, de


manera que se opta por una solución intermedia, con los llamados procesos
estocásticos estacionarios en sentido débil, o simplemente, procesos
estacionarios de segundo orden.

Un proceso es estacionario en sentido débil cuando se verifica que la


media teórica es independiente del tiempo y las funciones de
autocovarianzas de orden h sólo vienen afectadas por el lapso de tiempo
transcurrido entre los dos periodos, además no dependen del tiempo.

1. μt = E ( X t ) es independiente de t

2. γ ( h ) = C ov( X t + h , X t ) es independiente de t para cada h

Antes de introducir la definición de proceso estocástico ergódico


necesitamos definir la función de autocorrelación.

Se le llama autocorrelación de orden h, a la correlación entre dos


variables aleatorias del proceso estocástico, distanciados un lapso de tiempo
h. La autocorrelación de orden h está dada de la siguiente manera:

Cov( X t + h , X t ) γ (h) ∀ h∈ Z , ∀ t ∈ Z
ρ (h) = =
Var ( X t + h ) ⋅ Var ( X t ) γ (0)

92
Propiedades de la autocorrelación:

a. ρ (h) = ρ (−h)

b. ρ (0) = 1

c. ρ (h) ≤ 1

La función de autocorrelación simple es la representación de ρ (h) frente


a h. Al observar la parte a. de las propiedades anteriores se concluye que la
función de autocorrelación simple es simétrica, por esta razón se suele
representar únicamente la parte positiva.

Se denomina autocorrelación parcial de orden h, a la correlación de dos


variables aleatorias cualesquiera del proceso estocástico, distanciados un
lapso de tiempo h, pero sin considerar los efectos lineales de las variables
aleatorias intermedias. Es decir, para calcular la autocorrelación parcial entre
X yX eliminamos la influencia que sobre ambas tienen X , X ,…, X .
t t+h t+1 t+2 t+h-1

La autocorrelación parcial de orden h está dada por:

φhh = corr ( X t , X t + h | X t +1 , X t + 2 ,K, X t + h−1 )

La función de autocorrelación parcial es la representación de φhh frente a


h.

La aplicación de las funciones de autocorrelación simple y parcial, tal y


como veremos más adelante, constituyen uno de los instrumentos más
importante para sugerir el ajuste de un modelo a una serie temporal.

93
Un proceso es ergódico cuando conforme h se hace más grande la
autocorrelación ρ (h) , se hace más pequeña, es decir que lo que ocurre
hoy, conforme va pasando el tiempo va teniendo menos importancia.

ρ (h) ⎯⎯⎯
h → +∞
⎯→0

Ahora bien, cuando estamos ante un proceso estacionario y ergódico,


todo el problema de inferencia se simplifica de forma considerable.

Nuestro objetivo al analizar una serie temporal es estimar el proceso


estocástico que la genera y para ello, según hemos visto hasta ahora,
debemos partir del supuesto de que dicho proceso estocástico es
estacionario y ergódico.

3.3.1 Modelos de medias móviles (MA)

X t = Zt + θ1 Zt -1 + θ2 Zt - 2 + K + θq Zt - q
Un proceso de medias móviles de orden q es un proceso en el
que la variable X se obtiene como un promedio de variables de
t

ruido blanco (Z ), siendo los θi sus coeficientes de ponderación.


i

Todos los procesos de medias móviles son procesos


estacionarios.

A continuación proporcionaremos algunas directrices generales


para identificar este modelo en las funciones de autocorrelación
simple y parcial:

• El modelo de medias móviles posee barras significativas en los


primeros o más Lags cuando aplicamos la función de
autocorrelación simple.

94
• La función de autocorrelación parcial de un modelo de medias
móviles tiene un decaimiento exponencial.

3.3.2 Modelos autorregresivos (AR)

X t = Zt + φ1 X t -1 + φ2 X t - 2 + K + φ p X t - p
Un proceso autorregresivo de orden p es un proceso en el que
la variable X se obtiene efectuando una regresión sobre valores
t

pasados de la misma más un término de perturbación o error (Z )


t

que suponemos se comporta como ruido blanco.

Todos los procesos autorregresivos son procesos invertibles.

Ahora presentaremos algunos lineamientos generales para


identificar este modelo en las funciones de autocorrelación simple
y parcial:

• El modelo autorregresivo tiene un decaimiento exponencial


cuando empleamos la función de autocorrelación simple.

• La función de autocorrelación parcial de un modelo


autorregresivo posee barras significativas en los primeros Lags.

3.3.3 Modelos autorregresivos de medias móviles (ARMA)

X t = φ1 X t -1 + K + φ p X t - p + Zt + θ1 Zt -1 + K + θq Zt - q

Los modelos autorregresivos de medias móviles, ARMA(p,q),


están dados por una ecuación donde aparece la suma de una
autorregresión de orden p y una media móvil de orden q.

95
El comportamiento general que suele tener el modelo ARMA es
que posee un decaimiento exponencial cuando aplicamos las
funciones de autocorrelación simple y parcial.

3.3.4 Modelos autorregresivos integrado de medias móviles


(ARIMA)

Un proceso { X t }t ∈Z es un proceso ARIMA(p,d,q) si satisface


una ecuación de diferencia de la forma:

φ *( B) X t ≡ φ ( B)(1− B)d X t = θ ( B)Zt

Donde {Zt } ~ WN (0,σ 2 ) , φ ( z) y θ ( z) son polinomios


de grado p y q respectivamente, y φ ( z) ≠ 0 para z ≤ 1. El

polinomio φ *( z) tiene un cero de orden d en z = 1.

La notación que se emplea a este modelo es ARIMA(p,d,q),


donde p es el número de parámetros autorregresivos, d es el
número de diferenciaciones para que la serie original sea
estacionaria y q es el número de parámetros de medias móviles.

ANÁLISIS DE FLUCTUACIÓN SIN TENDENCIA

El análisis de fluctuación sin tendencia (AFST) es un método que


cuantifica la presencia o ausencia de correlaciones de largo alcance (Ho,
1997). Es útil para analizar series de tiempo que parecen ser procesos de
larga memoria (divergiendo la correlación en el tiempo, como por ejemplo la
función de autocorrelación decae en forma de ley de potencia) o de ruido 1/f.

96
Este método nos proporciona un único parámetro cuantitativo y podrá ser
aplicado a series cuya estadísticas fundamentales (tales como media y
varianza) o dinámicas no son estacionarias (cambiando con el tiempo). Esto
está relacionado con medidas basadas en técnicas espectrales tales como
autocorrelación y transformada de Fourier.

El AFST fue introducido por Peng, 1994 y representa una extensión del
análisis de fluctuación (AF) (ordinario), que es afectado por la no
estacionaridad.

3.4 Correlaciones de corto alcance

Dada una serie temporal T = { x1 , x2 ,K, xn } con varianza

1⎛ 2⎞
n
σ = ∑ x − x 2 , se define la función de autocorrelación muestral
2
n ⎜ t =1 t ⎟
⎝ ⎠

C(k ) = ⎡ 1 n−k x x − 2⎤
como
1

⎢ n − k t =1 t t + k x ⎥. Esta función mide la
σ2 ⎣ ⎦
dependencia del valor en la posición t con el valor en la posición t + k. Para

variables que son independientes se satisface qué C(k ) = 0, pero el

reciproco no es cierto.
k

Cuando una serie es tal que C (k ) ≈ e a
se dice que la serie tiene

correlaciones de corto alcance, ya que el valor de la serie en t sólo tiene


efecto sobre los valores de la serie hasta t + a, y la intensidad de estos
efectos decae exponencialmente.

Los modelos AR, MA, ARMA y ARIMA se usan generalmente para


predecir valores futuros de una serie temporal, y por eso se suelen usar en

97
economía, además de en diversas disciplinas científicas. Sin embargo, sean
del tipo que sean, su característica común es que aunque sirven para
generar series con correlaciones, éstas caen siempre de forma exponencial,
con lo que tenemos siempre correlaciones de corto alcance.

En la naturaleza, aparecen muchos sistemas en los que las correlaciones


no son de corto alcance, sino que decaen mucho más lentamente que de
forma exponencial: ADN, dinámica del corazón, propiedades físicas en las
transiciones de fase, etc.

3.5 Correlaciones de largo alcance

Cuando las correlaciones decaen asintóticamente (es decir para k grande)


como una ley de potencia,

C (k ) ≈ k −γ con 0 < γ <1 (2)

Se dice que la serie posee correlaciones de largo alcance. Esto significa


que la influencia del valor de la serie en t se extiende sobre todos los valores
en r > t, y que esta influencia decae muy lentamente, tan lentamente que las
correlaciones no son sumables:

∞ ∞ ∞
∑ C ( k ) ≈ ∑ k ≈ ∫ k dk
−γ −γ
diverge.
k =1 k =1 1

Si en (2) se toma γ >1 , a pesar que las correlaciones decaen como una
ley de potencia, no se considera que las correlaciones sean de largo alcance
dado que son sumables.

Es conocido que la estimación directa de la función de autocorrelación


C(k) de una serie temporal es limitada a k pequeños por efectos de ruido
(Beran, 1994). Esto es un problema grave si la serie tiene correlaciones de

98
largo alcance, dado que en este caso lo característico está dado por el
comportamiento asintótico (es decir para k grande) de C(k).

Series que poseen correlaciones de largo alcance aparecen por doquier:


en señales biofísicas, ruidos en circuitos, series económicas, geofísicas, etc.
Sin embargo, estadísticamente hablando, la función de autocorrelación no es
un buen estimador de las correlaciones presentes en una serie, por lo que se
usan herramientas alternativas. Una de las más destacadas es el uso de la
Transformada de Fourier.

Si una serie es estacionaria, se pueden aplicar técnicas de análisis


espectral, y calcular el espectro de potencia S(f) de la serie como función de
la frecuencia f. Puede demostrarse que una serie con correlaciones de largo
alcance posee un espectro de potencia de la forma:

S ( f ) ≈ f −β

Donde β está relacionado con el exponente γ de las correlaciones por

medio de la siguiente expresión:

β = 1− γ

3.6 Análisis de fluctuación sin tendencia

Los dos métodos antes mencionados para determinar las correlaciones, el


cálculo de C(n) y de S(f), son adecuados sólo si la serie es estacionaria (Witt,
1998). Recientemente fue desarrollado un método (Peng, 1994), llamado
análisis de fluctuación sin tendencia, para detectar correlaciones de largo
alcance en series no estacionarias. Este método provee un único parámetro
cuantitativo, el exponente α, para cuantificar el comportamiento de las

correlaciones en una serie. La ventaja del AFST reside en que puede

99
eliminar sistemáticamente tendencias de diferentes órdenes, y así detectar
correlaciones de largo alcance en series contaminadas con tendencias
polinomiales que pueden enmascarar la verdadera naturaleza de las
correlaciones. A continuación se dará una breve explicación del AFST.

El procedimiento para implementar el AFST consiste de varias etapas.


Primero se construye el perfil y(i) de la serie temporal

T = { x1 , x2 ,K, xn } :
i
y ( i ) = ∑ ( xt − x ) con i = 1,K, n
t =1

Donde x es la media de la serie. El perfil y(i) se puede considerar como


la posición de una caminata al azar sobre una cadena lineal después de i
etapas. Las fluctuaciones del perfil en una ventana de tamaño k están
vinculadas a la función C(k). Segundo, el perfil y(i) se divide en nk = [n/k]
series no solapadas y (i) de igual tamaño k. Tercero, para cada y (i),
ν ν

v = 1,…,nk, se calcula la tendencia local t (i) con el polinomio de grado 1


ν

obtenido por mínimos cuadrados, y se calcula la varianza de y (i) - t (i).


ν ν

(v) = 1 k
( yv ( i ) − tv ( i ) )
2
Fk2 ∑
k
i =1

La siguiente figura ilustra este paso para k = 100 y k = 250.

100
Figura 75. Se divide el perfil de la serie en ventanas de longitud k, y para
cada ventana se realiza ajustes lineales que constituye la tendencia local

Es importante destacar que el ancho de la ventana más grande, es una


cuarta parte de la longitud de la serie original para asegurar una buena
estadística.

Finalmente, se promedian todas estas varianzas y se toma la raíz


cuadrada, obteniendo así la función de fluctuación del AFST:

nk
F (k ) = 1
nk
∑ Fk ( v )
2
v =1

Este cálculo se repite durante todas las escalas de tiempo (tamaños de


las ventanas), para caracterizar la relación entre el promedio de fluctuación,
F(k), y el tamaño de la ventana, k. Normalmente, F(k) se incrementará con el
tamaño de la ventana k. Una relación lineal en un gráfico log-log de k contra
F(k) indica la presencia de ley de potencia escalar que esta expresada como:

101
F ( k ) ≈ kα

El exponente α se calcula como la pendiente de una línea recta que se

ajusta al gráfico log-log de k contra F(k) usando mínimos cuadrados. Este


exponente puede tener diferentes valores:

• α < 0.5 , significa que la serie es anti-correlacionada

• α ≈ 0.5 , significa que en la serie no existen correlaciones, es decir,


la serie es ruido blanco

• α > 0.5 , significa que en la serie existen correlaciones

• α ≈ 1, significa que la serie es ruido 1/f o ruido rosa

• α ≈ 1.5 , significa que la serie es ruido Browniano

El exponente α es llamado exponente de escala, se vincula con el

exponente de las correlaciones γ y con el exponente β del espectro de

potencia por medio de sencillas relaciones:

α =1− γ , α=
1+ β
2 2
Debe tenerse presente que estas dos ecuaciones son exactas cuando
n → ∞ , y que sólo puede esperarse una concordancia limitada entre los
tres exponentes por efecto de la finitud de la serie temporal bajo estudio.

Una generalización del AFST, llamada AFST de orden m y denotada por


AFSTm, la cual consiste en calcular la tendencia local t (i) con un polinomio
ν

102
de grado m, de modo de tener una jerarquía de métodos, AFST1 (coincide
con el original AFST), AFST2, AFST3,..., que difieren entre ellos en el tipo de
no estacionariedades en T que pueden eliminar.

En resumen, si la serie es estacionaria las correlaciones están


relacionadas con las fluctuaciones alrededor del valor medio que presenta la
serie, esto implica que se pueden medir las correlaciones midiendo las
fluctuaciones, pero si la serie no es estacionaria en lugar de analizar las
fluctuaciones en torno a la media las analizamos alrededor del ajuste por
mínimos cuadrados del perfil y(i) dentro de cada ventana de tamaño k.

103
CAPÍTULO 4

ESTUDIO DE LAS SERIES TEMPERATURAS Y APLICACIÓN DEL


ANÁLISIS DE FLUCTUACIÓN SIN TENDENCIA

4.1 Recolección de los datos

Para efectuar este capítulo se contó con 2 bases de datos


correspondientes a los resultados obtenidos por la medición de la
temperatura para el año 2008 en dos estaciones de monitoreo ubicadas en el
Lago de Valencia, las cuales llevan los nombres de Sucre y Tacarigua.
Específicamente, en la primera estación referida, las muestras fueron
tomadas desde el 01/02/2008 al 11/02/2008 y en la segunda desde el
09/01/2008 al 23/01/2008, estas muestras fueron captadas a través de
dispositivos llamados termistores encargados de medir y registrar valores de
temperatura. Asimismo, es importante resaltar que la medición de la
temperatura se realizó cada 5 minutos durante los días antes referidos.

Los datos arrojados de las mediciones realizadas en las estaciones Sucre


y Tacarigua, son las que se analizan en el presente capítulo con la finalidad
de “ajustar un modelo adecuado para predecir valores futuros de la
temperatura y determinar si existen correlaciones de largo alcance en
las series temperaturas”.

4.2 Metodología

Utilizamos los métodos expuesto en el capítulo 3, para las estimaciones


de los valores futuros de la temperatura y para detectar la presencia o
ausencia de correlaciones de largo alcance en las series temperaturas. Este
estudio se llevó a cabo en cuatro etapas:

104
a. Análisis preliminar de las series temperaturas. En primer lugar,
realizamos gráficos de caja para detectar observaciones atípicas,
utilizando el software Matlab 7, en segundo lugar, efectuamos un
análisis estadístico descriptivo, histogramas y gráficos Q-Q plot
para verificar si las muestras provienen de una población normal,
en tercer lugar, empleamos los gráficos de secuencia para
observar el comportamiento de las series, en cuarto lugar,
aplicamos los gráficos de cajas por día y la función de
autocorrelación parcial para detectar si existen tendencias y
periodicidades en las series y por último realizamos gráficos de
dispersión por nivel para ver si se consigue que las series sean
estacionarias diferenciándolas, para todo esto se utilizó el paquete
SPSS 15.

b. Ajuste de modelos. En esta etapa, nuevamente empleamos la


función de autocorrelación parcial y la función de autocorrelación
simple para verificar si eliminamos la componente estacional y
para ver qué modelo nos sugería para el ajuste de nuestros datos,
esto se efectuó utilizando el programa SPSS 15. Luego se realizan
los ajustes de modelos a las series.

c. Predicciones. Durante esta etapa, efectuamos las estimaciones


de los valores futuros de la temperatura, tomando como base los
modelos ajustados. Para estas predicciones se utilizó el software
SPSS 15.

d. Análisis de fluctuación sin tendencia. En esta última etapa,


realizamos gráficos log-log para estimar el valor del exponente de
escala α, utilizando un programa escrito en Matlab por Guan

Wenye, 2008 (guanwenye@tju.edu.cn).

105
4.3 Análisis preliminar de las series temperaturas

Debemos ver si las series temperaturas para las estaciones Sucre y


Tacarigua son estacionarias, pero antes realizamos los gráficos de caja, esto
con la finalidad de verificar si existen observaciones atípicas en estas series.

Figura 76. Gráficos de caja de las series temperaturas para las estaciones
Sucre y Tacarigua respectivamente

Como se puede apreciar estas series temperaturas no poseen


observaciones atípicas. Nótese también que la unidad de medida para este
conjunto de observaciones de la temperatura es el grado centígrado (°C).

106
Tabla 10. Estadística descriptiva para las series temperaturas

Estación
Estadístico
Sucre Tacarigua
Media 24.69 25.23
Mediana 24.3 24.6
Moda 21.8 22.8 y 23.3
Varianza 11.84 5.95
Desviación Estándar 3.44 2.44
Coeficiente de Variación 0.14 0.1
Error Estándar 0.06 0.04
Mínimo 17.2 20.1
Máximo 32.7 31.1
Amplitud 15.5 11
Coeficiente de Asimetría 0.17 0.52
Curtosis -0.88 -0.86
Primer Cuartil 22.1 23.2
Tercer Cuartil 27.48 27.2

Se puede observar en esta tabla que los valores de la media y la mediana


están cercanos en cada una de las estaciones, además se puede ver que el
coeficiente de asimetría de la estación Sucre está cercano a cero, lo que
pudiéramos decir que la muestra para esta estación se ajusta a una
distribución normal. A continuación realizaremos histogramas y gráficos Q-Q
plot para la distribución normal, esto con miras a verificar si los datos de cada
estación provienen de una población normal.

107
Figura 77. Histograma de la serie temperaturas para la estación Sucre

Figura 78. Histograma de la serie temperaturas para la estación Tacarigua

108
Figura 79. Q-Q plot para la distribución normal aplicada a la serie
temperaturas para la estación Sucre

Figura 80. Q-Q plot para la distribución normal aplicada a la serie


temperaturas para la estación Tacarigua

109
En los histogramas podemos ver que la distribución de los datos no se
ajusta muy bien a la curva normal, pero cuando observamos los gráficos Q-Q
plot notamos que existe una tendencia a ajustarse a la línea recta, lo que nos
parece indicar que los datos de cada estación constituyen muestras
aleatorias que provienen de una población normal. Esta condición permite
continuar con el proceso de modelización sin transformar las series.

Veamos ahora si estas series temperaturas son estacionarias,


grafiquemos y observemos el comportamiento de este conjunto de
observaciones para cada una de las estaciones.

Figura 81. Gráfico de secuencia de la serie temperaturas para la estación


Sucre

110
Figura 82. Gráfico de secuencia de la serie temperaturas para la estación
Tacarigua

Observando estos gráficos de secuencia vemos que diariamente se


repiten unos picos, esto es debido a que aproximadamente a la hora del
medio día alcanza su mayor temperatura en estas estaciones.

Ahora estudiaremos el nivel de las series. Como las observaciones de la


temperatura fueron tomadas cada 5 minutos, consideraremos periodos de
tiempo de un día, esto con la finalidad de hallar la mediana diaria.

111
Figura 83. Gráficos de cajas por día de la serie temperaturas para la estación
Sucre

Figura 84. Gráficos de cajas por día de la serie temperaturas para la estación
Tacarigua

112
Tabla 11. Medida de tendencia central para cada periodo de tiempo

Estación Día Mediana


Sucre
1 23.3
2 23.3
3 23.6
4 24,15
5 24.6
6 23.4
7 24.35
8 24.65
9 25.3
10 25.1
11 24.95
Tacarigua
9 24.3
10 24.6
11 24.2
12 25.2
13 25.3
14 25.6
15 24.6
16 24.65
17 24.5
18 25.1
19 24.2
20 24.15
21 24.3
22 24.55
23 24.2

113
La línea que aparece en el interior de cada una de las cajas de un box-
plot representa la mediana, es decir, el nivel de la serie, pues esta es una de
las posibles medidas de tendencia central. Una vez representado el nivel de
la serie lo estudiamos para determinar si es o no estable. Cuando
observamos los gráficos de cajas y la tabla 11 concluimos que los niveles de
las series son estables, puesto que los valores de las medianas son similares
en cada uno de los días. Ahora si tomamos en cuenta que las series poseen
unos picos que se repiten periódicamente, se concluye entonces que las
series tienen un nivel circunstancial.

Comprobemos ahora que las series temperaturas poseen una


componente estacional. Para verificar esto debemos aplicar la función de
autocorrelación parcial (FACP).

Figura 85. Función de autocorrelación parcial de la serie temperaturas para


la estación Sucre

114
Figura 86. Función de autocorrelación parcial de la serie temperaturas para
la estación Tacarigua

Al observar estos gráficos de autocorrelación parcial vemos que se


marcan los intervalos de confianza para ayudar a detectar las barras
significativas, además notamos que existe una tendencia a que en cada Lag
se tenga una barra significativa, esto significa que diariamente se repite un
patrón similar, lo que quiere decir que existe una componente estacional en
estas series, por lo que se concluye que las series no son estacionarias.

Ahora estudiaremos la dependencia entre variabilidad y nivel, esto se


realiza con la finalidad de determinar si la serie no es estacionaria en
varianza o en nivel. A continuación mostraremos los gráficos de dispersión
por nivel de cada una de las estaciones.

115
Figura 87. Gráfico de dispersión por nivel de temperatura por día para la
estación Sucre

Figura 88. Gráfico de dispersión por nivel de temperatura por día para la
estación Tacarigua

116
Como podemos ver no existe dependencia entre variabilidad y nivel en las
estaciones Sucre y Tacarigua, pues los puntos en ambas gráficas no se
ajustan a una línea recta, así que podemos decir que las series no son
estacionarias en nivel, o sea se consigue que ambas series sean
estacionarias diferenciándolas.

4.4 Ajuste de modelos

Tomando en cuenta lo dicho anteriormente aplicamos el operador


diferencia a nuestras series y a estas series diferenciadas le empleamos la
función de autocorrelación simple (FACS) y la función de autocorrelación
parcial para verificar si eliminamos la componente estacional y para ver qué
modelo nos sugiere para el ajuste de nuestros datos.

Figura 89. Función de autocorrelación simple de la serie diferenciada para la


estación Sucre

117
Figura 90. Función de autocorrelación parcial de la serie diferenciada para la
estación Sucre

Figura 91. Función de autocorrelación simple de la serie diferenciada para la


estación Tacarigua

118
Figura 92. Función de autocorrelación parcial de la serie diferenciada para la
estación Tacarigua

Cuando apreciamos los gráficos de autocorrelación parcial notamos que


eliminamos la periodicidad diaria, pues ahora no se observa una tendencia
de barras significativas en cada Lag, ni un patrón de regularidad en las
barras significativas. Ahora si miramos los gráficos de autocorrelación simple
vemos que existe un comportamiento a decaer exponencialmente, típico en
los modelos autorregresivos. Por otro lado, es importante resaltar dos cosas,
primero toda función de autocorrelación muestra una barra significativa en
Lag 1, es un patrón típico de series de tiempo, y segundo el número de
barras significativas en una función de autocorrelación parcial indica el orden
del modelo. Así que para nuestras series les ajustaremos un AR(4) para la
estación Sucre y un AR(7) para la estación Tacarigua. Los resultados se
muestran en la tabla 12.

119
Tabla 12. Parámetros de los modelos ajustados para las series temperaturas

Estación Modelo φi R2 Estacionario

Sucre
AR(4) -1.01 0.85
-1.01
-1.07
-0.83
Tacarigua
AR(7) -0.82 0.88
-0.72
-0.75
-0.48
0.35
0.07
0.07

En esta tabla se observan los valores del R2 estacionario, el cual nos


proporciona una idea de lo bien que los modelos se ajustan a los datos. Este
estadístico ofrece una estimación de la proporción de la variación total en la
serie que es explicada por el modelo. Para el programa SPSS es preferible el
R2 estacionario que el R2 común cuando existe un patrón de tendencia o
estacionalidad, como es el caso aquí. Valores más grandes del R2
estacionario (hasta un valor máximo de 1) indican un mejor ajuste, así que
los valores de 0.85 y 0.88 significa que los modelos hacen un buen trabajo
de explicar la variación observada en las series.

120
4.5 Predicciones

Ahora que ajustamos los modelos a nuestras series temperaturas,


procedemos a realizar las predicciones. A continuación presentamos los
gráficos de secuencia para las estaciones Sucre y Tacarigua con los
modelos ajustados a los datos y las predicciones.

Figura 93. Modelo AR(4) ajustado a la serie temperaturas para la estación


Sucre y su predicción

121
Figura 94. Modelo AR(7) ajustado a la serie temperaturas para la estación
Tacarigua y su predicción

Como se puede apreciar en estas gráficas el futuro conserva algunas de


las características de su evolución en el pasado, es decir, conserva los picos
diarios, además vemos que existe una tendencia a aumentar los niveles de la
temperatura a medida que pasa el tiempo en el futuro para la estación Sucre
y existe una tendencia a mantenerse para la estación Tacarigua. Nótese que
para la estación Sucre realizamos predicciones para 18 días y así completar
el mes de febrero del 2008 y para la estación Tacarigua 17 días y así
completar el mes. Es importante resaltar que para cada 5 minutos realizamos
estas predicciones en esos días, además de que se realizó estas
predicciones a corto plazo, debido a que estos modelos producen
correlaciones de corto alcance, que caen de forma exponencial. Es por esto
que se observa en las predicciones una disminución en las ondas a medida
que transcurre el tiempo.

122
4.6 Análisis de fluctuación sin tendencia

La inspección visual de los gráficos de secuencia de las figuras 81 y 82


revelan la naturaleza fluctuante de éstas, que induce a analizarlas como si
fueran el resultado de algún proceso estocástico. Por otra parte, como
sabemos que las series temperaturas no son estacionarias, esto nos indica
que en las series existen correlaciones temporales que no son triviales, y
merecen un estudio más cuidadoso, así que emplearemos el método del
análisis de fluctuación sin tendencia, para verificar si nuestras series poseen
correlaciones de largo alcance. Los resultados de este estudio se presentan
a continuación.

Figura 95. Gráfico log-log del resultado del análisis AFST para la estación
Sucre

123
Figura 96. Gráfico log-log del resultado del análisis AFST para la estación
Tacarigua

Tabla 13. Valores del exponente de escala α obtenidos de los ajustes

lineales de las fig. 95 y 96

Estación α
Sucre 0.88
Tacarigua 0.28

Para la estación Sucre el valor de α esta próximo a 1, lo que implica que

en la serie existen correlaciones de largo alcance con el exponente de las


correlaciones γ próximo a cero, y así esta serie es ruido rosa

( S( f ) ≈ f −1 ), mientras que para la estación Tacarigua las correlaciones


en la serie son de corto alcance, es decir las correlaciones decaen

124
exponencialmente. Se ha demostrado (Koscielny Bunde, 1996 y 1998) que
los datos de temperatura atmosférica (uno elegido aleatoriamente de 14
regiones continentales) muestran fuertes correlaciones cuando aplicamos el

AFST con exponente α = 0.65 , esto es considerado como el

comportamiento de persistencia universal de los datos de temperatura.


Usando este resultado como un punto de referencia, concluimos que los
datos de temperatura para las estaciones Sucre y Tacarigua muestran
menos y mayores desviaciones respectivamente, del comportamiento
universal previamente observado (exponente) de 0.65.

125
CONCLUSIONES Y RECOMENDACIONES

Conclusiones

Después de haber analizado e interpretado los resultados arrojados en la


presente investigación, se pueden señalar las siguientes conclusiones:

• En los mapas e imágenes de distribución anual de la clorofila se


detectaron concentraciones bastante altas por la zona de Valencia, esto
es debido posiblemente a la presencia de complejos industriales y zonas
residenciales ubicadas en esta zona. Además existe una tendencia a
aumentar los niveles de concentración de la clorofila a medida que han
pasado los años.

• Los mapas e imágenes contienen las mejores estimaciones en los puntos


no muéstrales, ya que se basan en unos datos que se ajustan a una
distribución normal, suponiendo además que los semivariogramas
elegidos describen lo más realmente posible la variabilidad espacial.

• Con esta investigación se ilustra como la geoestadística constituye una


herramienta muy útil en el estudio de las distribuciones espaciales de las
variables naturales, lo cual es esencial cuando se deben tomar decisiones
que afectan al medio ambiente.

• De acuerdo a los resultados arrojados en las predicciones realizadas a


los datos de temperatura para las estaciones Sucre y Tacarigua, se infiere
que se podría registrar en el Lago aumento o disminución de los niveles
de agua, modificaciones en las precipitaciones y cambios en la química
del líquido. Si se registra un aumento persistente en los niveles de agua,
esto traería como consecuencia inundaciones en las poblaciones
adyacentes, de lo contrario obtendríamos un Lago seco o una baja sin
precedente de sus niveles. Las ramificaciones ecológicas de estos

126
cambios seguramente serán graves y se harán sentir en todo el
ecosistema del Lago y sus zonas contiguas.

Recomendaciones

Partiendo de los resultados arrojados en esta investigación, se mencionan


a continuación algunas recomendaciones que pudieran ser tomadas en
cuenta:

• Muestrear una cantidad de estaciones de monitoreo en el Lago de


manera que sea suficiente desde el punto de vista geoestadístico,
además tomar en cuenta las localizaciones de las estaciones de tal
manera que la distribución espacial se considere representativa de cada
zona lacustre, considerando factores externos que pueden influir en la
calidad del agua como es el ingreso cercano de aguas residuales
(urbanas, industriales y agropecuarias), así como también muestrear con
un GPS las coordenadas geográficas de estas estaciones. Tomando en
cuenta todo esto, se obtendría una mejor estimación en las posiciones no
muestreadas, usando el método de krigeaje puntual.

• Ya que no podemos influenciar directamente en las actividades


industriales, urbanas y agropecuarias que se llevan a cabo, las cuales
son las causantes de las grandes concentraciones de sustancias
químicas que se están descargando en el Lago de Valencia, es
recomendable que se realicen e implementen obras públicas orientadas a
desviar a otro lugar menos vulnerable todas las aguas residuales que
caen al Lago.

• Los organismos e instituciones competentes en el área, debieran de


realizar jornadas divulgativas sobre la no contaminación del Lago de

127
Valencia para que pensemos un poco en las consecuencias que ya se
detectaron y en las que se puedan detectar en un futuro.

• Se deben buscar soluciones inmediatas para el saneamiento del Lago de


Valencia, ya que a medida que pasa el tiempo se incrementa la
contaminación en el mismo y los efectos podrían ser irreparables.

• Los resultados arrojados en esta investigación, deberían ser


considerados por los organismos competentes en el área, al momento de
buscar soluciones que ayuden a mantener el equilibrio ambiental del Lago
de Valencia.

128
BIBLIOGRAFÍA

• Abasov M.T., Djafarov I.S. y Askerov G.I., 1990, Computer Based


System for Exploration, Optimization, and Reserve Estimation at the
Bakhar Field, South Apsheron, Azerbaijan, SSR, Computers &
Geosciences, Vol. 16, No. 2, pp. 245-249.

• Anselin L., 2003, An Introduction to Variography using Variowin.

• Arik A., 1990, Effects of Search Parameters on Kriged Reserve


Estimates, International Journal of Mining and Geological Engineering,
Vol. 8, No.12, pp. 305-318.

• Armstrong M. y Carignan J., 1997, “Géostatistique Linéaire, Application


au Domaine Minier.”, École de Mines de Paris, 112 p., “Géostatistique
Linéaire, Application au Domaine Minier.”, École de Mines de Paris, 112 p.

• Beran J., 1994, Statistics for Long-Memory Processes, Chapman & Hall,
New York.

• Brockwell P.J. y Davis R.A., 1996, Introduction to Time Series and


Forecasting. Springer.

• Carr J.R., 1995, Numerical Analysis for the Geological Sciences, Prentice
Hall Inc, 592p.

• Castillo J., Larrazábal G. y Torres C., (s.f.), Understanding Three-


Dimensional Circulation in Lake Valencia, Venezuela: A Numerical
Approach.

• Chauvet P., 1994, “Aide-Memoire de Géostatistique Miniere”, École des


Mines de Paris, 210 p.

• Chica-Olmo M., 1987, Análisis Geoestadístico en el Estudio de la

129
Explotación de Recursos Minerales, Tesis Doctoral, Universidad de
Granada, España, 387 p.

• Christensen R., 1993, Quadratic Covariance Estimation and Equivalence


of Predictions, Mathematical Geology, Vol. 25, No. 5, pp. 541-558.

• Cressie N., 1991, Statistics for Spatial Data. Wiley series.

• Cuador J.Q., 2004, Elementos de Geoestadística, Departamento de


Informática, Universidad de Pinar del Río, Cuba. Correo Electrónico:
cuador@info.upr.edu.cu. Disponible en Internet:
http://www.monografias.com/trabajos14/geoestadistica/geoestadistica.sht
ml - [Consultada: 15/11/2007].

• Curran P.J. y Atkinson P.M., 1998, Geoestatistics and Remote Sensing,


Progress in Physical Geography, 22, 1, pp. 61-78.

• David M., 1977, Geostatistical Ore Reserve Estimation, Elsevier,


Amsterdam, 364 p.

• de Fouquet C., 1996, Quelques Rappels Sur les Méthodes


Géostatistiques, Centre de Géostatistique, Ecole des Mines de París,
Fontainebleau, France, 4 p.

• Deutsch C.V. y Journel A.G., 1998, “GSLIB: Geostatistical Software


Library and User’s Guide”, Second Edition, Oxford University Press, 369
p.

• Echaabi J., Trochu F. y Gauvim R., 1995, A General Strength Theory


for Composite Materials Based on Dual Kriging Interpolation, Journal of
Reinforced Plastics and Composites, Vol.14, pp.211-232.

• Genton M.G., 1998, Variograms Fitting by Generalized Least Squares


Using an Explicit Formula for the Covariance Structure, Mathematica

130
Geology, Vol. 30. No. 4. pp. 323-345.

• Giraldo H., R. 2003, Introducción a la Geoestadística. Bogotá:


Universidad Nacional de Colombia. 94 p.

• Gotway C.A., 1991, Fitting Semivariogram Models by Weigmted Least


Squares, Short Note, Computers & Geosciences, Vol. 17, No. 1, pp.171-
172.

• Haas T.C., 1992, Redesigning Continental-Scale Monitoring Networks,


Atmospheric Environment, Vol. 26A, No. 18, pp. 3323-3333.

• Hamilton J.D., 1994, Time Series Analysis, Princeton University Press.

• Ho K.K.L., Moody G.B., Peng C-K., Mietus J.E., Larson M.G., Levy D.,
y Goldberger A.L., 1997, Predicting survival in heart failure cases and
controls using fully automated methods for deriving nonlinear and
conventional indices of heart rate dynamics. En: Circulation, 96, pp. 842-
848.

• Journel A.G. y Huijbregts C.J., 1978, Mining Geostatistics, Academic


Press, New York, 600 p.

• Kirchgässner G. y Wolters J., 2007, Introduction to Modern Time Series


Analysis, Springer.

• Koscielny Bunde E., Bunde A., Havlin S. y Goldreich Y., 1996, Physica
A 231, 393.

• Koscielny Bunde E., Bunde A., Havlin S., Roman H.E., Goldreich Y. y
Schellenhuber H.-J., 1998, Phys. Rev. Lett. 81, 729.

• Krajewski S.A. y Gibbs B.L., 1993, A Variaogram Primer, Gibbs


Associates, 93 p.

131
• Lamorey G. y Jacobsom E., 1995, Estimation of Semivariogram
Parameters and Evaluation of the Effects of Data Sparsity, Mathematical
Geology, Vol.27, No.3, pp. 327-358.

• Loon V. y Barfoot, 1989, Laboratorio de Geoquímica. Disponible en


Internet: http://geologia.cicese.mx/labs/lab_geoquim.htm - [Consultada:
12/12/2007].

• Matheron G., 1970, “La Théorie des Variables Regionalisées et ses


Applications” Les Cahiers du Centre de Morphologie Mathematique de
Fontainebleau, Fascicule 5, Ecole de Mines de Paris, 212 p.

• Molinero L.M., 2003, ¿Y si los datos no siguen una distribución normal?...


Bondad de ajuste a una normal. Transformaciones. Pruebas no
paramétricas. Correo Electrónico: bioestadística@alceingenieria.net.
Disponible en Internet: http://www.seh-lelha.org/noparame.htm -
[Consultada: 17/05/2008].

• Obando F.H., Villegas A.M., Betancur J.H. y Echeverri L., 2006,


Variabilidad Espacial de Propiedades Químicas y Físicas en un Typic
Udivitrands, Arenoso de la Región Andina Central Colombiana. Revista
Facultad Nacional de Agronomía, Medellín, Vol.59, No.1. p.3217-3235.
Facultad de Ciencias Agropecuarias, Universidad Nacional de Colombia.
Disponible en internet:
http://www.scielo.org.co/scielo.php?script=sci_arttext&pid=S0304-
28472006000100009&lng=en&nrm=iso&tlng=es - [Consultada:
12/12/2007].

• Ovalles V., F. A. 1991, Evaluación de la Variabilidad de Suelos a Nivel de


Parcela, para el Establecimiento en Lotes Comerciales en el Estado
Cojedes. En: Agronomía Tropical. Vol. 41, no. 1; p. 5-22.
• Pannatier Y., 1993, Ms-Windows Program for exploratory variography

132
and variogram modelling in 2D, International Workshop on Statistics of
Spatial Processes-Theory and Applications, Bari, Italy 27-30 September
1993.

• Pannatier Y., 1996, Variowin. Software for Spatial Data Analysis in 2D.
Springer, Statistics and Computing.

• Pawlowsky V., Olea R.A. y Davis J.C., 1995, Estimation of Regionalized


Composition: A Comparison of Three Methods, Mathematical Geology,
Vol.27, No. 1, pp.105-127.

• Peng, C.-K., Buldyrev S.V., Havlin S., Simons M., Stanley H.E. y
Goldberger A.L., 1994, Phys. Rev. E 49, 1685.

• Perazzo C.A., Fernández E.A., Chialvo D.R. y Willshaw P., 2000,


Fractals, pp. 297-312.

• Pitard F.F., 1994, Exploration of the Nugget Effect, R. Dimitrakopolous


(de.) Geostatistics for the Next Century, pp.124-136.

• Schaug J., Iversen T. y Pedersem U., 1993, Comparison of


Measurements and Model Results for Airborne Sulphur and Nitrogen
Components with Kriging, Atmospheric Environment, Vol.27A, No. 6, pp.
831-844.

• Shumway R.H. y Stoffer D.S., 2006, Time Series Analysis and Its
Applications With R Examples, Second Edition, Springer.

• Uriel E., 1985, Análisis de series temporales. Modelos ARIMA, Paraninfo.

• Valles A., 2005, Caracterización de los Tributarios en la Cuenca del Lago


de Valencia. Ministerio del Ambiente y de los Recursos Naturales.
Dirección General Estadal Ambiental Aragua. Laboratorio de Calidad
Ambiental. Venezuela.

133
• Wackernagel H., 1995, Multivariate Geostatistic, an Introduction with
applications, Berlin: Springer, 256 p.

• Wallace M.K. y Hawkims D.M., 1994, Applications of Geostatistics in


Plant Nematology, Supplement to Journal of Nematology 26 (45), pp. 626-
634.

• Weerts H.J.T. y Bierkens M.F.P., 1993, Geostatistical Analysis of Over


Bank Deposits of Anatomising and Meandering Fluvial Systems; Rhine-
Meuse Delta, The Netherlands, Sedimentary Geology, 85, Elsevier
Sciences Publishers B.V., pp. 221-232.

• Witt A., Kurths J. y Pikovsky A., 1998, Phys. Rev. E 58, 1800.

• Xie T. y Myers D.E., 1995, Fitting Matrix-Valued Variogram Models by


Simultaneous Diagonalization (Part I: Theory), Mathematical Geology, Vol.
27, No. 7, pp. 867-875.

• Zhang R., Myers D. E. y Warrick A. W., 1992, Estimation of the Spatial


Distribution of Soil Chemical Using Pseudo Cross-Variograms, Soil
Science Society of America Journal, Vol. 56, No. 5, pp.1444-1452.

• Zhang X.F., Van Eijkeren J.C.H. y Heemink A.W., 1995, On the


Weighted Least Squares Method for Fitting a Semivariogram Model, Short
Note, Computers & Geosciences, Vol. 21, No. 4, pp. 605,608.

• Zimmerman D.L., 1993, Another Look at Anisotropy in Geostatistics,


Mathematical Geology, Vol. 25, No. 4, pp. 453-470.

Páginas de Internet consultadas:

• http://geologia.cicese.mx/labs/lab_geoquim.htm - [12/12/2007].

134
• http://giscenter.isu.edu/training/geostats/Probsets.pdf - [09/01/2008].

• http://www.gisits.com/docs/Mini_manual_surfer.PDF - [09/01/2008].

• http://www.ilec.or.jp/database/sam/sam-05.html - [12/12/2007].

• http://www.mathworks.com/matlabcentral/fileexchange/19795#comment -
[22/07/2008].

• http://www.monografias.com/trabajos14/geoestadistica/geoestadistica.sht
ml - [15/11/2007].

• http://www.scielo.org.co/scielo.php?script=sci_arttext&pid=S0304-
28472006000100009&lng=en&nrm=iso&tlng=es - [12/12/2007].

• http://www.scielo.org.pe/scielo.php?script=sci_arttext&pid=S1561-
08882006000200009&lng=en&nrm=is - [09/01/2008].

• http://www.seh-lelha.org/noparame.htm - [17/05/2008].

• http://www.telefonica.net/web2/biomates/explora/explora_shapirow/explor
a_shapirow.htm - [17/05/2008].

135

También podría gustarte