MS PedroPacheco PDF

UNIVERSIDAD CENTRAL DE VENEZUELA
FACULTAD DE CIENCIAS
ESCUELA DE MATEMÁTICA
POSTGRADO EN MODELOS ALEATORIOS
Análisis Estadístico de Datos de Contaminación

Ambiental del Lago de Valencia
Trabajo de Grado presentado por el

Lic. Pedro Pacheco para optar al
título de Magíster Scientiarum en
Modelos Aleatorios.
Tutor: Dr. José Rafael León.
Caracas, Venezuela
Diciembre de 2008
AGRADECIMIENTO
Este trabajo, si bien ha requerido de mucho esfuerzo y dedicación no

hubiese sido posible su finalización sin la cooperación de todas y cada una
de las personas que a continuación citaré.
A Dios por estar siempre a mi lado, darme salud, paz, amor, fortaleza e
iluminación para vencer todos los obstáculos y poder así alcanzar esta meta.
A mis padres, hermana y sobrino, porque gracias a sus consejos y apoyo

he logrado alcanzar esta meta. Quiero que estén al tanto que este logro, es
el logro de ustedes y que mi esfuerzo es motivado por ustedes.
A mi novia y amiga Yuceny Mata, porque gracias al fruto del inmenso

apoyo, amor y confianza que en mi depositaste, me ayudo a culminar con
éxito el postgrado.
A mi tutor y amigo, Dr. José Rafael León, muchas gracias por todo su
tiempo invertido en la dirección de este trabajo y por confiar en mí.
A mi amigo, Dr. Nelson Merentes, por brindarme su ayuda en los

momentos difíciles, de verdad muchas gracias por su apoyo.
A toda mi familia, por transmitirme energías positivas durante todo el

postgrado, de verdad que les agradezco mucho por motivarme siempre.
A mis amigos en general, en especial a Jhonny Escalona, Rommel

González y María Teresa, por sus consejos y apoyo durante el postgrado.
Al Fondo Nacional de Ciencia, Tecnología e Innovación, por otorgarme la

beca Misión Ciencia para la realización de estos estudios de postgrado.
A la Universidad Central de Venezuela, por brindarme la oportunidad de

culminar el postgrado en dicha institución.
ii

RESUMEN
En este trabajo, se va a estudiar un conjunto de mediciones efectuadas

en el Lago de Valencia, con el objeto de determinar la contaminación
ambiental que se presenta en el mencionado lago. Para realizar esta
investigación aplicamos técnicas estadísticas modernas como la
geoestadística que es el estudio de las variables numéricas distribuidas en el
espacio (Chauvet, 1994), series temporales entendida como un conjunto de
técnicas estadísticas que permiten, además de estudiar y modelar el
comportamiento de un fenómeno que evoluciona a lo largo del tiempo,
realizar previsiones de los valores que se alcanzarán en el futuro, y el
análisis de fluctuación sin tendencia, el cual es un método que cuantifica la
presencia o ausencia de correlaciones de largo alcance (Ho, 1997). Con la
aplicación de las técnicas estadísticas modernas, se puede obtener una
mejor comprensión de los datos de muestras de agua y temperatura tomadas
en el Lago de Valencia.
Es importante señalar, que las mediciones han sido tomadas de distintas

estaciones de monitoreo ubicadas en el Lago de Valencia, y captadas de
acuerdo a parámetros técnicos establecidos. Partiendo del conjunto de
mediciones tomadas, se van a realizar las siguientes actividades; en primer
lugar “predecir los valores de las sustancias en posiciones no
muestreadas”, en esta parte haremos uso de las técnicas de la
geoestadística para predecir la concentración de sustancias posiblemente
contaminantes en sitios donde no se haya muestreado, y en segundo lugar
“ajustar un modelo adecuado para predecir valores futuros de la
temperatura y determinar si existen correlaciones de largo alcance en
las series temperaturas”, para realizar esto usamos las teorías de series de
tiempo y análisis de fluctuación sin tendencia. A través de la realización de
las actividades señaladas, se va a lograr determinar una parte de la
iii

contaminación ambiental que presenta el Lago de Valencia. Estos resultados
pueden ser considerados por los organismos competentes en el área, al
momento de buscar soluciones que ayuden a mantener el equilibrio
ambiental del Lago de Valencia.
iv

ÍNDICE
LISTA DE FIGURAS…………………………………………………….... ix
LISTA DE TABLAS………..……………………………………………… xvii
INTRODUCCIÓN..………………………………………………………... 1
1 GEOESTADÍSTICA
1.1 Variables aleatorias regionalizadas………………………………. 5
1.2 Hipótesis de la geoestadística……………………………………... 7
1.3 Conceptos necesarios de estadística básica…………………….. 7
1.3.1 Estadística descriptiva………………………………………. 7
1.3.2 Construcción de gráficos estadísticos…………………….. 11
1.4 El semivariograma experimental………………………………….. 12
1.5 Problemas más comunes encontrados en el cálculo de

semivariograma…………………………………………………………... 17
1.6 Parámetros del semivariograma…………………………………... 19
1.7 Modelos teóricos de semivariogramas…………………………… 21
1.7.1 Modelo Efecto de Pepita……………………………………. 21
1.7.2 Modelo Esférico……………………………………………… 21
1.7.3 Modelo Exponencial………………………………………… 22
1.7.4 Modelo Gaussiano…………………………………………... 23
1.7.5 Modelo Potencia……………………………………………... 24
v

1.8 Validación del modelo teórico……………………………………... 25
1.9 Análisis de anisotropía……………………………………………... 26
1.10 Estimación………………………………………………………….. 27
1.11 Ecuaciones del krigeaje…………………………………………... 28
1.11.1 Krigeaje Simple…………………………………………….. 29
1.11.2 Krigeaje Ordinario………………………………………….. 29
2 ANÁLISIS GEOESTADÍSTICO
2.1 Área de estudio……………………………………………………... 32
2.2 Recolección de los datos…………………………………………... 33
2.3 Análisis geoestadístico……………………………………………... 34
2.4 Análisis exploratorio de los datos…………………………………. 36
2.5 Análisis estructural…………………………………………………. 45
2.6 Predicciones………………………………………………………… 70
2.6.1 Nitrógeno Total………………………………………………. 72
2.6.2 Nitrato…………………………………………………………. 74
2.6.3 Clorofila “a”…………………………………………………… 75
2.7 Evolución temporal de la clorofila “a”…………………………….. 75
2.7.1 Clorofila “a”, año 1998………………………………………. 77
2.7.2 Clorofila “a”, año 1999………………………………………. 78
2.7.3 Clorofila “a”, año 2001………………………………………. 80
vi

2.7.4 Clorofila “a”, año 2002………………………………………. 81
2.7.5 Clorofila “a”, año 2004………………………………………. 83
2.8 Predicción idónea…………………………………………………... 83
3 SERIES TEMPORALES Y ANÁLISIS DE FLUCTUACIÓN SIN

TENDENCIA
SERIES TEMPORALES
3.1 Conceptos de series de tiempo……………………………………. 87
3.2 Componentes de una serie de tiempo…………………………… 89
3.3 Modelos de series temporales…………………………………….. 90
3.3.1 Modelos de medias móviles (MA)………………………….. 94
3.3.2 Modelos autorregresivos (AR)…………………………….... 95
3.3.3 Modelos autorregresivos de medias móviles (ARMA)…... 95
3.3.4 Modelos autorregresivos integrado de medias móviles

(ARIMA)…………………………………….………………………... 96
ANÁLISIS DE FLUCTUACIÓN SIN TENDENCIA
3.4 Correlaciones de corto alcance…………………………………… 97
3.5 Correlaciones de largo alcance…………………………………… 98
3.6 Análisis de fluctuación sin tendencia…………………………..... 99
4 ESTUDIO DE LAS SERIES TEMPERATURAS Y APLICACIÓN

DEL ANÁLISIS DE FLUCTUACIÓN SIN TENDENCIA
4.1 Recolección de los datos…………………………………………... 104
vii

4.2 Metodología………………………………………………………….. 104
4.3 Análisis preliminar de las series temperaturas………………….. 106
4.4 Ajuste de modelos…………………………………………………... 117
4.5 Predicciones………………………………………………………… 121
4.6 Análisis de fluctuación sin tendencia……………………………. 123
CONCLUSIONES Y RECOMENDACIONES.………………………... 126
BIBLIOGRAFÍA…………………………………………………………… 129
viii

LISTA DE FIGURAS
Figura N° Página
1 Carácter mixto de una función aleatoria……………………………. 3
2 Espacio definido por la tolerancia lineal.………………………….... 14
3 Espacio definido por la tolerancia lineal y angular...…………….... 15
4 Espacio definido por las tolerancias y el ancho de banda...……… 15
5 Forma típica del semivariograma..………………………………….... 16
6 Comportamiento del semivariograma en el origen, a. Parabólico,

b. Lineal, c. Efecto de Pepita, d. Discontinuo Puro..……………….. 17
7 Parámetros del semivariograma....………………………………….... 19
8 Modelo Efecto de Pepita.…………………………………………….... 21
9 Modelo Esférico………………………………………………………... 22
10 Modelo Exponencial…..…………………………………………….... 23
11 Modelo Gaussiano.………………………………………………….... 24
12 Modelo Potencia.…………………………………………………….... 24
13 Anisotropía Geométrica y Zonal respectivamente……………….... 27
14 Efecto Proporcional………………………………………………….... 27
15 Localización geográfica del Lago de Valencia..………………….... 32
16 Superficie del Lago de Valencia con sus estaciones de monitoreo

y tributarios…..………………………………………………………….. 33
17 Gráficos de caja para las variables nitrógeno total y nitrito.…….... 37

ix

18 Gráficos de caja para las variables nitrato y fósforo total………..... 37
19 Gráfico de caja para la variable clorofila “a”..……………………..... 38
20 Histograma para la variable nitrógeno total...……………………..... 40
21 Histograma para la variable nitrito...……………………………….... 40
22 Histograma para la variable nitrato..………………………………..... 41
23 Histograma para la variable fósforo total…………………………..... 41
24 Histograma para la variable clorofila “a”…………………………..... 42
25 Posiciones de las observaciones en el plano XY para la variable

nitrógeno total (la unidad de medida es mg/l)……………………….. 45

nitrito (la unidad de medida es mg/l)…………………………………. 46

nitrato (la unidad de medida es mg/l)..……………………………….. 46

fósforo total (la unidad de medida es mg/l)………………………….. 47

Clorofila “a” (la unidad de medida es mg/m3)………………………... 47
30 Posiciones de las observaciones en el espacio para la variable

nitrógeno total ………………………………………………………….. 48

nitrito…………………………………………………………………….. 49

nitrato………..…………………………………………………………... 49
x

fósforo total……………………………………………………………… 50

Clorofila “a”……………………………………………………………… 50
35 Nube de variogramas para la variable nitrógeno total..………….... 51
36 Muestras contiguas en el plano XY para la variable nitrógeno

total………………………………………………………………………. 52
37 Nube de variogramas para la variable nitrito..……………………... 54
38 Nube de variogramas para la variable nitrato.……………………... 55
39 Nube de variogramas para la variable fósforo total……………….. 55
40 Nube de variogramas para la variable clorofila “a”………………... 56
41 Estructura del semivariograma omnidireccional para la variable

nitrógeno total (tomando como incremento inicial h = 2)...….……... 59

nitrógeno total (tomando como incremento inicial h = 2 y
eliminando los valores extremos)…………………………………….. 60

nitrógeno total (tomando como incremento inicial h = 2.12)...…….. 60

nitrógeno total (tomando como incremento inicial h = 2.12 y

nitrógeno total (tomando como incremento inicial h = 2.36)...…….. 62
xi

nitrógeno total (tomando como incremento inicial h = 2.36 y

nitrito (tomando como incremento inicial h = 2.12 y eliminando
los valores extremos)…………………………………………………... 63

nitrato (tomando como incremento inicial h = 2.36 y eliminando
los valores extremos)………………………………………………....... 64

fósforo total (tomando como incremento inicial h = 2 y eliminando
los valores extremos).………………………………………………….. 64

clorofila “a” (tomando como incremento inicial h = 2.36 y
51 Modelo gaussiano ajustado a los datos del semivariograma

omnidireccional para la variable nitrógeno total..…………………... 68
52 Modelo efecto de pepita ajustado a los datos del semivariograma

omnidireccional para la variable nitrito..……………………………... 68
53 Modelo gaussiano ajustado a los datos del semivariograma

omnidireccional para la variable nitrato.……………………………... 69
54 Modelo efecto de pepita ajustado a los datos del semivariograma

omnidireccional para la variable fósforo total……………………….. 69
55 Modelo esférico ajustado a los datos del semivariograma

omnidireccional para la variable clorofila “a”.……………………….. 70
xii

56 Rejilla de datos estimados para la variable nitrógeno total...…….. 71
57 Mapa de contornos para la variable nitrógeno total con la

superficie del Lago de Valencia y su tabla de niveles de
concentración…………………………………………………………. . 71
58 Imagen de contornos para la variable nitrógeno total con la

concentración……. ……………………………………………………. 72
59 Mapa de contornos para la variable nitrato con la superficie del

Lago de Valencia y su tabla de niveles de concentración................ 73
60 Imagen de contornos para la variable nitrato con la superficie del

Lago de Valencia y su tabla de niveles de concentración.………... 73
61 Mapa de contornos para la variable clorofila “a” con la superficie

del Lago de Valencia y su tabla de niveles de concentración……. 74
62 Imagen de contornos para la variable clorofila “a” con la superficie

del Lago de Valencia y su tabla de niveles de concentración..…... 75

del Lago de Valencia y su tabla de niveles de concentración (año
1998)................................................................................................. 76

1998)................................................................................................. 76

1999)................................................................................................. 77
xiii

1999)…………………………………………………………………...... 78

2001)................................................................................................. 79

2001)................................................................................................. 79

2002)................................................................................................. 80

2002)................................................................................................. 81

2004)................................................................................................. 82

2004)................................................................................................. 82
73 Mapa de contornos idóneo para la variable clorofila “a” con la

concentración................................................................................... 84
xiv

74 Imagen de contornos idóneo para la variable clorofila “a” con la
concentración.………........................................................................ 84
75 Se divide el perfil de la serie en ventanas de longitud k, y para

cada ventana se realiza ajustes lineales que constituye la
tendencia local.................................................................................. 101
76 Gráficos de caja de las series temperaturas para las estaciones

Sucre y Tacarigua respectivamente..……………………………........ 106
77 Histograma de la serie temperaturas para la estación Sucre…..... 108
78 Histograma de la serie temperaturas para la estación Tacarigua.. 108
79 Q-Q plot para la distribución normal aplicada a la serie

temperaturas para la estación Sucre.………………………………... 109
80 Q-Q plot para la distribución normal aplicada a la serie

temperaturas para la estación Tacarigua…………………………..... 109
81 Gráfico de secuencia de la serie temperaturas para la estación

Sucre…………………………………………………………………...... 110
82 Gráfico de secuencia de la serie temperaturas para la estación

Tacarigua……………………………………………………………...... 111
83 Gráficos de cajas por día de la serie temperaturas para la

estación Sucre………………………………………………………….. 112
84 Gráficos de cajas por día de la serie temperaturas para la

estación Tacarigua.……………………………………………………. 112
85 Función de autocorrelación parcial de la serie temperaturas

para la estación Sucre…………………………………………………. 114
xv

86 Función de autocorrelación parcial de la serie temperaturas
para la estación Tacarigua……………………………………………. 115
87 Gráfico de dispersión por nivel de temperatura por día para la

estación Sucre………………………………………………………….. 116
88 Gráfico de dispersión por nivel de temperatura por día para la

estación Tacarigua…………………………………………………….. 116
89 Función de autocorrelación simple de la serie diferenciada

para la estación Sucre…………………………………………………. 117
90 Función de autocorrelación parcial de la serie diferenciada

para la estación Sucre………………………………………………..... 118
91 Función de autocorrelación simple de la serie diferenciada

92 Función de autocorrelación parcial de la serie diferenciada

93 Modelo AR(4) ajustado a la serie temperaturas para la estación

Sucre y su predicción………………………………………………….. 121
94 Modelo AR(7) ajustado a la serie temperaturas para la estación

Tacarigua y su predicción.…………………………………………….. 122
95 Gráfico log-log del resultado del análisis AFST para la estación

Sucre…………………………………………………………………….. 123
96 Gráfico log-log del resultado del análisis AFST para la estación

Tacarigua……………………………………………………………….. 124
xvi

LISTA DE TABLAS
Tabla N° Página
1 Valores de las sustancias por estación……………………………... 36
2 Estadística descriptiva para las sustancias.………………………… 39
3 Prueba de normalidad Shapiro-Wilks..……………………………… 43
4 Modelos de regresión lineal múltiple para evaluar la

estacionaridad………………………………………………………….. 44
5 Muestras contiguas y sus distancias………………………………... 52
6 Muestras y localizaciones de valores extremos en el gráfico

de nube………………………………………………………………….. 54
7 Muestras contiguas y sus distancias para cada una de las

variables………………………………………………………………… 57
8 Muestras y localizaciones de valores extremos en los gráficos

de nube para cada variable…………………………………………… 58
9 Parámetros de los modelos ajustados para los datos de los

semivariogramas omnidireccionales………………………………… 66
10 Estadística descriptiva para las series temperaturas……………… 107
11 Medida de tendencia central para cada periodo de tiempo………. 113
12 Parámetros de los modelos ajustados para las series

temperaturas……………………………………………………………. 120
13 Valores del exponente de escala α obtenidos de los ajustes
lineales de las fig. 95 y 96……………………………………………. 124
xvii

INTRODUCCIÓN
En la actualidad ha aumentado incontrolablemente la contaminación

ambiental producto de las actividades llevadas a cabo por el hombre. Las
aguas de ríos, mares, lagos, etc. se han visto afectadas por la
contaminación, producto de los vertidos de desechos industriales y de aguas
servidas.
Gran parte de los desechos que contaminan las aguas son consecuencia
de las actividades económicas, y a pesar del significado social que ellas
tienen en la generación de riquezas, se debe tomar conciencia sobre la
contaminación ambiental que ellas causan y así buscar soluciones que
ayuden a mantener el equilibrio ambiental.
En Venezuela, el Lago de Valencia está presentando un alto índice de

contaminación ambiental, producto de las grandes descarga de sustancias
químicas que se realizan en los complejos industriales, las zonas
residenciales y agrícolas que lo bordean. Estos desechos son vertidos por la
mayoría de los ríos tributarios del referido lago. Esta situación ha provocado
un desequilibrio ambiental y con ello una serie de problemas ecológicos.
En tal sentido, nos proponemos estudiar a través de la aplicación de

técnicas estadísticas modernas como la geoestadística, series temporales y
análisis de fluctuación sin tendencia, un conjunto de mediciones hechas en el
Lago de Valencia para la determinación de su contaminación ambiental.
Dentro de este marco, el resultado de nuestra investigación se ha dividido

en los siguientes capítulos:
En el capítulo I, que lleva por nombre “Geoestadística”, se presenta los

elementos conceptuales de esta ciencia con sus distintos componentes, la
aplicación de esta teoría nos va a permitir en primer lugar, estudiar las
1
mediciones de las sustancias muestreadas en el Lago de Valencia sin tener
en cuenta su distribución geográfica, en segundo lugar, calcular el
semivariograma experimental, en tercer lugar, ajustar al mismo el
semivariograma teórico que mejor explica la variabilidad espacial de los
datos, y por último se toma en consideración los modelos ajustados para
predecir los valores de las sustancias en posiciones no muestreadas, usando
el método de krigeaje puntual.
En el capítulo II, denominado “Análisis Geoestadístico”, se exponen los

resultados arrojados de la aplicación de la teoría Geoestadística a los datos
de muestras de agua, así como también algunas consideraciones y
comentarios sobre los diferentes resultados.
El capítulo III, titulado “Series Temporales y Análisis de Fluctuación sin

Tendencia”, se desarrollan las teorías de Series Temporales y Análisis de
Fluctuación sin Tendencia con sus distintos componentes. La aplicación de
estos conceptos nos va a permitir ajustar un modelo adecuado para predecir
valores futuros de una serie temporal y detectar la presencia o ausencia de
correlaciones de largo alcance en una serie, es por esto que se suelen usar
estas teorías en economía (mercados financieros), además de en diversas
disciplinas científicas y de la ingeniería.
En el capítulo IV, que se titula “Estudio de las Series Temperaturas y

Aplicación del Análisis de Fluctuación sin Tendencia”, se presentan los
resultados obtenidos luego de aplicarles a los datos de temperatura las
teorías de Series Temporales y Análisis de Fluctuación sin Tendencia. Es
importante señalar, que para complementar los análisis efectuados, se
presentan algunas consideraciones y comentarios sobre lo obtenido.
2
CAPÍTULO 1
GEOESTADÍSTICA
La Geoestadística se define como la aplicación de la Teoría de Funciones

Aleatorias al reconocimiento y estimación de fenómenos naturales (Journel y
Huijbregts, 1978), o simplemente, el estudio de las variables numéricas
distribuidas en el espacio (Chauvet, 1994), siendo una herramienta útil en el
estudio de estas variables (Zhang, 1992). Su punto de partida es asumir una
intuición topo-probabilista (Matheron, 1970). Los fenómenos distribuidos en
el espacio, la mineralización en un yacimiento mineral por ejemplo, presentan
un carácter mixto, un comportamiento caótico o aleatorio a escala local, pero
a la vez estructural a gran escala (figura 1).
Figura 1. Carácter mixto de una función aleatoria
Se puede entonces sugerir la idea de interpretar este fenómeno en

términos de Función Aleatoria (FA), es decir, a cada punto x del espacio se le
asocia una Variable Aleatoria (VA) Z(x), para dos puntos diferentes x e y, se
tendrán dos VAs Z(x) y Z(y) diferentes pero no independientes, y es
precisamente su grado de correlación el encargado de reflejar la continuidad
de la mineralización, o de cualquier otro fenómeno en estudio, de modo que
3
el éxito de esta técnica es la determinación de la función de correlación
espacial de los datos (Zhang, 1992). Su estimador, el Krigeaje, tiene como
objetivo encontrar la mejor estimación posible a partir de la información
disponible, y en efecto, el valor estimado obtenido Z*(x) de un valor real y
desconocido Z(x), consiste en una combinación lineal con pesos asociados a
cada localización donde fue muestreado un valor Z(xi) (i = 1,…,n) del
fenómeno estudiado. Observando dos condiciones fundamentales: 1.- que el
estimador sea insesgado. E(Z* - Z) = 0, y 2.- que la varianza Var(Z* - Z) sea
mínima, consiguiéndose de este modo minimizar la varianza de error de
estimación.
A diferencia de otros métodos de interpolación, como por ejemplo el

inverso de la distancia, el krigeaje utiliza en la estimación las características
de variabilidad y correlación espacial del fenómeno estudiado, por lo que su
uso implica un análisis previo de la información con el objetivo de definir o
extraer de esta información inicial un modelo que represente su continuidad
espacial. Una vez logrado esto, estamos en condiciones de obtener el mejor
valor posible en cada localización o bloque a estimar a partir de los datos
medidos, acompañada de la varianza de krigeaje como medida del error de
la estimación realizada (Armstrong y Carignan, 1997), lo que distingue al
krigeaje de otros métodos de interpolación (Abasov et al., 1990; de Fouquet,
1996; Carr, 1995).
En este sentido, son referidos a continuación los conceptos y la

aplicabilidad de los distintos componentes que comprende la teoría
geoestadística.
4
1.1 Variables aleatorias regionalizadas
Una variable aleatoria regionalizada, es una función que describe un

fenómeno natural geográficamente distribuido (Ovalles, 1991). La
característica fundamental que distingue a este tipo de variables, además de
su valor, es una posición en el espacio, hecho éste al que Matheron
denominó Variable Aleatoria Regionalizada (Matheron, 1970), la cual está
presente en la mayor parte de los estudios geológicos (Pawlowsky et al.,
1995) y fenómenos naturales (de Fouquet, 1996).
En el estudio de las variables aleatorias regionalizadas es importante

presentar conceptos que se señalan en Journel y Huijbregts (1978) y David
(1977) y que son utilizados por la mayoría de los autores donde se aplican
los métodos geoestadísticos como herramienta fundamental de trabajo.
Estos conceptos son:
• Región: se refiere al espacio en el cual existe y se estudia el

fenómeno natural.
• Localización: Es el punto de una región en la cual se define una

variable aleatoria regionalizada.
• Soporte Geométrico: Está determinado por el elemento físico

sobre el cual se realiza la determinación de la variable aleatoria
regionalizada, esto no es más que la muestra unitaria, sobre la
cual estudiaremos el atributo de interés.
• Momentos de primer orden: Si la función de distribución de Z(xi)

tiene una media definida, será una función de la localización xi.
m(xi) = E(Z(xi)).
• Momento de segundo orden: Si la varianza (Var) y la esperanza

de Z(xi) existe, entonces se define el momento de segundo orden
5
como E(Z(xi)2) = Var(Z(xi)) + [E(Z(xi)]2 y será también una función
de la localización xi.
La covarianza (Cov) de las variables Z(xi) y Z(xj) se define como

Cov(Z(xi),Z(xj)) = E([Z(xi) - E(Z(xi))][Z(xj) - E(Z(xj))]) y es función de
las localizaciones xi y xj.
Si xi = xj , entonces Cov(Z(xi),Z(xi)) = Var(Z(xi)).
La función variograma o función estructural se define como la

varianza de la diferencia Z(xi) - Z(xj), o sea
Var(Z(xi) - Z(xj)) = 2γ(xi,,xj).
La magnitud γ(xi,,xj) = ½ Var(Z(xi) - Z(xj)) se denomina

semivariograma.
También se puede definir el correlograma como

ρ(h) = C(h)/C(0), -1 ≤ ρ(h) ≤ 1 donde C(h) es la covarianza a la
distancia h y C(0) es la covarianza en el origen.
Existen relaciones entre estas medidas de correlación:
γ(h) = C(0) - C(h) con γ(0) = 0
ρ(h) = 1 - γ(h)/C(0).
Esta noción puede ser definida siempre y cuando el proceso

espacial Z sea estacionario al orden dos. Es decir la media sea
constante y la covarianza entre Z(x) y Z(y) sólo dependa de la
diferencia x - y.
6
1.2 Hipótesis de la geoestadística
La forma en que se presenta la información es muy diversa (Journel y

Huijbregts, 1978), la geoestadística se construye asumiendo condiciones de
estacionaridad. Por lo que es necesario aceptar el cumplimiento de ciertas
hipótesis sobre el carácter de la función aleatoria o procesos estocásticos
estudiados, llamadas Hipótesis de la Geoestadística. Estas son según
Journel y Huijbregts (1978) y David (1977): La Estacionaridad Estricta, La
Estacionaridad de Segundo Orden, La Hipótesis Intrínseca y los Procesos
Cuasiestacionarios.
En la práctica según Armstrong y Carignan (1997) y Chica (1987) las

hipótesis que más se presentan son: La Estacionaridad de Segundo Orden y
la Hipótesis Intrínseca. Estas condiciones de estacionaridad se asumen en el
desarrollo teórico, en la práctica deben ser verificadas en los datos antes de
comenzar un estudio geoestadístico, por lo que se puede realizar un análisis
estadístico de la información, de modo que se refleje el grado de
confiabilidad en la aplicación de estos métodos.
1.3 Conceptos necesarios de estadística básica
Con el objetivo de conocer la información disponible se puede hacer un

análisis de la estadística descriptiva (Krajewski y Gibbs, 1993; Journel y
Huijbregts, 1978; David, 1977). A continuación se presenta un resumen de
los conceptos necesarios de estadística básica.
1.3.1 Estadística descriptiva: Permite determinar la distribución de los

datos, los ejemplos más comunes son: normal, lognormal, etc.
También se puede usar para ver si los datos no se ajustan a una
distribución estadística. Para los análisis es necesario tener
conocimiento de:
7
• Número de casos: Es el número de valores muestreados del
fenómeno en estudio, representados por n y los datos por xi,
i = 1,…,n. El conjunto de valores lo llamamos muestra. Este
conjunto permite construir la distribución empírica.
• Amplitud de la distribución: Es la diferencia entre el valor

máximo y el mínimo.
• Media muestral: Es la media aritmética de los valores de la

muestra, dada por la fórmula:
1 n
x= ∑ xi
n
i =1
• Moda: Es el valor más frecuente de la distribución. La moda

puede no existir, e incluso no ser única en caso de existir.
• Mediana: Es el valor para el cual la mitad de los datos son

menores y la otra mitad están por encima de este valor. Si
ordenamos los datos de la muestra en orden ascendente
podemos calcular la mediana como:
⎧ xn + 1 si n es impar
⎪ 2
⎪
⎪⎪
M= ⎨
⎪ xn + xn
⎪ 2 +1
⎪
2
si n es par
⎪⎩ 2
La mediana es también llamada percentil 50, además los
datos no sólo se dividen en dos grupos, sino que se pueden
dividir en cuatro partes, cuartiles, donde Q1 = percentil 25,
Q2 = Mediana y Q3 = percentil 75, si los datos se dividen en 10,
8
tenemos los deciles. De forma general estas medidas se
pueden calcular por: [p(n+1)/100] ésima observación de los
datos ordenados ascendentemente, donde p es el percentil que
se desea calcular.
• Varianza muestral: Describe la variabilidad de la distribución
muestral. La varianza muestral utiliza a la media x como el

parámetro de la muestra respecto el cual se mide la
concentración de los datos. La varianza muestral está dada por:
1 n
S = ( xi − x )
2
2
n −1
∑
i =1
La razón principal por la que se aboga por la división entre

n-1 en la estimación de la varianza, es porque proporciona un
mejor estimado; si dividimos por n-1 nos referimos a la varianza
muestral S2 como un estimador insesgado de la varianza
poblacional σ2.
• Desviación estándar muestral: Describe la tendencia o

dispersión de la distribución muestral. Es la medida de
desviación alrededor de la media y está dada por: S = S2

• Coeficiente de asimetría: Describe la simetría de la
distribución relativa a la distribución normal y está dada por:
n
∑ ( xi − x )
1 3
n
α3 = i =1
3
S
9
En la distribución normal la asimetría tiene valor
asintóticamente cero, un valor negativo indica una cola a la
izquierda y un valor positivo indica una cola a la derecha.
• Curtosis: Describe el grado de esbeltez de la distribución,

tomado por lo general en relación a una distribución normal, y
está dada por:
n
∑ ( xi − x )
1 4
n
α4 = i =1
4
S
La distribución normal tiene curtosis igual a tres, y es
llamada mesocúrtica. A las distribuciones más agudas, con
colas relativamente anchas, se les llama leptocúrticas, tienen
valores de curtosis mayores que tres, y las distribuciones más
bien achatadas en el centro se llaman platicúrticas, tienen
valores menores que tres, en ocasiones se acostumbra a definir
la curtosis como α4 - 3.
• Error estándar: Describe el grado de conocimiento de los

datos y está dada por:
ε= S
n
• Coeficiente de variación: Es una medida de la variación
S
relativa de los datos y está dada por: CV = y en
x
S
porcentaje como: 100 CV = 100 % .
x
10
Proporciona una comparación entre la variación de grandes
valores y la variación de pequeños valores. Las técnicas de
Geoestadística Lineal que predominan en el campo de las
geociencias producen los mejores resultados cuando el
coeficiente de variación es menor que uno, CV < 1. Para CV > 1
se recomiendan técnicas de Geoestadística no Lineal (Cuador,
2004).
• Prueba Chi-Cuadrado: Esta prueba permite determinar si la

distribución es normal, lognormal o alguna otra distribución
probabilística, en su lugar puede ser usada la prueba
“Kolmogorov-Smirnov”. Muchos autores la consideran más
robusta.
• Prueba Shapiro-Wilks: Esta prueba es menos conocida pero

es la que se recomienda para contrastar el ajuste de datos a
una distribución normal, sobre todo cuando la muestra es
pequeña (Molinero, 2003).
1.3.2 Construcción de gráficos estadísticos: Estos gráficos permiten

ilustrar y entender las distribuciones de los datos, identificar datos
errados, valores extremos, incluyen:
• Gráficos de caja: Son gráficos que suministran información

sobre la mediana, el primer y tercer cuartil, sobre la existencia
de datos atípicos y la simetría de la distribución. Además son
muy populares porque proporcionan de manera visual toda esta
información.
• Histogramas: Son usados para ver las características

descriptivas de la distribución. Es un gráfico de barras donde en
11
las abscisas aparecen los límites de las clases y en las
ordenadas las frecuencias correspondientes a cada clase.
• Q-Q plots: Son una herramienta visual para comparar la

distribución de dos conjuntos de datos. Si las distribuciones en
cuestión están relacionadas por un cambio de ubicación y
escala, la gráfica será aproximadamente recta. En la gráfica de
un Q-Q plot se representan los cuantiles de una distribución
contra los cuantiles correspondiente de la otra.
Todos estos elementos permiten decidir sobre las condiciones de

estacionaridad vistas anteriormente. Muchos autores sólo toman como
elementos fundamentales de estadística básica que la media y la mediana
tomen valores próximos; el coeficiente de variación sea inferior a 1; la
distribución de los datos se ajuste a la curva normal y no existan valores
extremos que afecten el desarrollo del análisis estructural.
1.4 El semivariograma experimental
El variograma se define como la media aritmética de todos los cuadrados

de las diferencias entre pares de valores experimentales separados por una
distancia h (Journel y Huijbregts, 1978), o lo que es lo mismo, la varianza de
los incrementos de la variable regionalizada en las localizaciones separadas
por una distancia h.
Var(Z(x) - Z(x+h)) = 2γ(h)
La función γ(h) = ½ Var(Z(x) - Z(x+h)) se denomina semivariograma, una

versión experimental (o muestral) puede ser obtenida por la expresión:
12
N p (h)
1
γˆ(h) = ∑ (Z ( xi ) − Z ( xi + h))
2
2N p ( h ) i =1
Donde Np(h) es el número de pares a la distancia h, h es el incremento,

Z(xi) son los valores experimentales y xi localizaciones donde son medidos
los valores Z(xi).
Esta expresión γˆ(h) representa la herramienta más importante en todo
estudio geoestadístico (Armstrong y Carignan, 1997; Weerts, y Bierkens,

1993; Chica, 1987). Su cálculo no consiste en una simple evaluación de su
expresión, según se plantea en (Krajewski y Gibbs, 1993; Journel y
Huijbregts, 1978; David, 1977; Xie y Myers, 1995a; Pannatier, 1993) esta
operación está relacionada con los elementos siguientes:
• La dirección en la que será calculado el semivariograma, uno o dos

ángulos que definen una dirección α y/o β en el espacio con
tolerancias angulares dα y/o dβ. El semivariograma calculado
usando tolerancia angular de 90º se denomina semivariograma
“omnidireccional”. El cálculo de un semivariograma
omnidireccional, proporciona una idea inicial de variabilidad
espacial de los datos, siendo el más idóneo para representar u
obtener una estructura clara y definida. El semivariograma
omnidireccional se puede pensar como el promedio de los distintos
posibles semivariogramas experimentales que se pueden realizar
para diferentes direcciones.
• El incremento o paso en el cálculo del semivariograma h y su

tolerancia lineal dh, se recomienda que el incremento h inicial sea
la distancia promedio entre las muestras contiguas y el valor de dh
sea la mitad del incremento inicial.
13
• Una distancia, que representa la distancia máxima a que pueden
estar alejados los segundos puntos del par con respecto a la línea
que define la dirección de cálculo, conocido como ancho de banda.
• La distancia Lmáx hasta la cual será calculado el semivariograma.

Se recomienda que ésta sea la mitad de la distancia entre las
muestras más alejadas (Armstrong y Carignan, 1997; Krajewski y
Gibbs, 1993), aunque dependiendo de la geometría del fenómeno
regionalizado en algunos casos puede ser calculado hasta una
distancia superior.
Definido los elementos anteriores, se evalúa la expresión del

semivariograma para todos los pares de localizaciones separadas a la
distancia h que cumplan las siguientes condiciones:
a. La distancia entre las localizaciones xi y xi+h sea mayor o igual que

h-dh y menor que h+dh, o lo que es lo mismo, el segundo punto del
par esté incluido en el espacio definido por h-dh y h+dh
encontrándose el primer punto del par en el origen o (figura 2),
este origen se mueve entre las muestras a analizar.
Figura 2. Espacio definido por la tolerancia lineal
14
b. El ángulo formado entre la línea que une los dos puntos del par y
la dirección 0o debe estar incluido entre α-dα y α+dα (figura 3).
Figura 3. Espacio definido por la tolerancia lineal y angular
c. La distancia entre el segundo punto del par y la línea que define la

dirección de cálculo del semivariograma no debe superar el ancho
de banda (Deutsch y Journel, 1998) (figura 4).
Figura 4. Espacio definido por las tolerancias y el ancho de banda
15
Finalmente se representan gráficamente los valores de γˆ(h) en función
de h.
El gráfico de γ(h) tiene las siguientes características según (Armstrong y

Carignan, 1997; Krajewski y Gibbs, 1993; Curran y Atkinson, 1998) (figura 5).
• Pasa por el origen (para h = 0, γ(h) = 0).
• Es en general una función creciente de h.
Figura 5. Forma típica del semivariograma
En la mayor parte de los casos γ(h) crece hasta cierto límite llamado
meseta, en otros casos puede crecer indefinidamente. El comportamiento en
el origen puede tener diferentes formas, las cuales son según Journel y
Huijbregts (1978), Armstrong y Carignan (1997), Chica (1987) (figura 6):
Parabólico: Caracteriza a una variable muy regular, siendo

continua y diferenciable.
Lineal: Caracteriza a una variable continua, pero no diferenciable,

es decir menos regular.
16
Discontinuidad en el origen: “Efecto de Pepita”, es el caso en
que γ(h) no tiende a cero cuando h tiende a cero. Representa a
una variable muy irregular.
Discontinuo puro: Llamado también ruido blanco, representa el

caso de mayor discontinuidad, siendo el caso limite de ausencia de
estructura, donde los valores de dos puntos cualesquiera no tienen
correlación alguna.
Figura 6. Comportamiento del semivariograma en el origen, a. Parabólico, b.

Lineal, c. Efecto de Pepita, d. Discontinuo Puro
1.5 Problemas más comunes encontrados en el cálculo de

semivariograma
De lo expresado hasta aquí, además de lo planteado en muchos textos de

geoestadística, se puede obtener la impresión de que es fácil el cálculo del
semivariograma experimental (Armstrong y Carignan, 1997). La fuente de
problemas que se pueden presentar en la realización de un análisis
estructural es muy variada, lo que está en correspondencia con la variedad
de casos que se presentan en la naturaleza. Algunos de los problemas más
comunes discutidos en Armstrong y Carignan (1997) son:
17
• El valor idóneo del incremento h: Una inadecuada selección de
h puede proporcionar un semivariograma experimental errático,
aunque no se puede dar un criterio exacto o aproximado sobre
cuál es el mejor valor de h, es recomendable calcular γˆ(h) para
distintos valores de h, hasta encontrar una forma suavizada del

mismo.
• Distribuciones con valores extremos: La existencia de valores

extremos, altos o bajos, en una distribución, puede conducir a la
obtención de un variograma fuertemente errático. En este caso la
solución puede ser simple, eliminar los datos extremos, porque
pueden ser ocasionados por errores. Una herramienta útil para
detectar valores extremos y encontrar el incremento adecuado
puede ser, calculando la “Nube de Variogramas” (Armstrong y
Carignan, 1997), el cual consiste en representar los valores de h
contra (Z ( xi ) − Z ( xi + h)) 2 , para cada par posible de la

2
información inicial. Nótese que la nube de variogramas no debe ser
calculada con valores de h más grande que la mitad de los pares
más alejados en el conjunto de datos. También es importante
saber que un valor extremo sería un punto en el gráfico de nube
que es mucho más alto o bajo que los otros puntos para esa
distancia.
En Krajewski y Gibbs (1993) se presentan otras razones por los que los
semivariogramas son erráticos, las cuales son: 1.- No hay suficientes
muestras, 2.- Las muestras no son representativas del fenómeno, 3.- Las
clasificaciones de las muestras no son válidas, 4.- El área estudiada es no
homogénea, 5.- Pequeños o largos conjuntos de datos son necesarios, 6.-
18
Pequeñas o largas distancia deben ser calculadas, 7.- Más o menos
distancias deben ser calculadas, 8.- Pequeñas tolerancias son necesarias,
9.- Las muestras pueden tener localizaciones incorrectas, 10.- Los valores
muestreados pueden ser erróneos.
El problema fundamental en la obtención de un semivariograma correcto

es, la elección adecuada de los intervalos de distancias para los cuales será
calculado el semivariograma, de modo que en éstos la cantidad de pares
encontrados sea suficiente desde el punto de vista estadístico.
1.6 Parámetros del semivariograma
Los parámetros del semivariograma caracterizan tres elementos

importantes en la variabilidad de un atributo que son: la discontinuidad en el
origen (existencia de efecto de pepita), el valor máximo de variabilidad
(meseta), y el área de influencia de la correlación (alcance), (figura 7). Como
se presentan en Krajewski y Gibbs (1993), Journel y Huijbregts (1978), David
(1977), Echaabi (1995), Lamorey y Jacobsom (1995), Wallace y Hawkims
(1994), Pannatier (1993), Arik (1990), Pitard (1994), y se describen a
continuación.
Figura 7. Parámetros del semivariograma
19
• El Efecto de Pepita (Nugget Effect): El semivariograma por
definición es nulo en el origen, pero en la práctica las funciones
obtenidas pueden presentar discontinuidad en el origen, a esta
discontinuidad se le llama efecto de pepita, en ingles (nugget
effect). Puede ser obtenido trazando una línea recta entre los
primeros puntos del semivariograma empírico y extender ésta
hasta que se intercepte con el eje Y. Si esta intersección ocurre
por debajo de cero, el valor asumido por este efecto es cero, pues
valores negativos de γ(0) no tienen significado y no son comunes.
El efecto de pepita se representa como Co.
• La Meseta (Sill): Es el valor de γ(h) para el cual con el aumento de

h su valor permanece constante, se representa como Ct = C + Co
y se denomina meseta. Puede obtenerse trazando una línea
paralela a la abscisa y que se ajuste a los puntos de mayor valor
del semivariograma, su valor se lee en la intersección de esta línea
con la ordenada.
• El Alcance (Range): La distancia h para la cual las variables Z(x)

y Z(x+h) son no correlacionadas, se denomina alcance y se
representa por a, es decir, las distancias para la cual los valores de
la variable dejan de estar correlacionados, o lo que es lo mismo, la
distancia para la cual el semivariograma alcanza su meseta. El
alcance siempre tiene valor positivo y puede ser obtenido a partir
de la intersección de las líneas descritas en los puntos anteriores,
ese punto leído en la abscisa es una fracción del propio alcance,
fracción que se detallara posteriormente en la explicación de los
modelos teóricos.
20
1.7 Modelos teóricos de semivariogramas
Los modelos teóricos de semivariogramas admisibles o autorizados más

utilizados en la práctica se presentan en Journel y Huijbregts (1978).
Atendiendo a las dos características más importantes en el modelado de
semivariogramas que son según Journel y Huijbregts (1978): 1.- Su
comportamiento en el origen, el cual puede ser lineal, parabólico y con efecto
de pepita y 2.- La presencia o ausencia de meseta. Estos modelos son:
1.7.1 Modelo Efecto de Pepita: Corresponde a un fenómeno puramente

aleatorio (ruido blanco), sin correlación entre las muestras,
cualquiera sea la distancia que las separe (figura 8), donde C
representa el valor de la meseta.
⎧0
⎪ si h = 0
γ (h) =
⎪⎪
⎨
⎪
⎪C
⎪⎩
si h ≠ 0
Figura 8. Modelo Efecto de Pepita
1.7.2 Modelo Esférico: Este modelo es probablemente el más utilizado,

es una expresión polinomial simple, en su forma representada en
la figura 9, se puede observar un crecimiento casi lineal y después
21
a cierta distancia finita del origen se alcanza una estabilización, la
meseta. La tangente en el origen encuentra a la meseta en el
punto de abscisa (2/3)a, donde a representa el valor del alcance.
⎧ ⎛ 3⎞
⎪ ⎜3 h 1 h ⎟
⎪ C⎜ − ⎟ si h ≤ a
⎪ ⎜2
⎪ ⎝
a 2 a3 ⎟
⎠
⎪⎪
γ (h) = ⎨
⎪
⎪ C si h >a
⎪
⎪
⎪
⎪⎩
Figura 9. Modelo Esférico
1.7.3 Modelo Exponencial: Este modelo a diferencia del esférico crece

inicialmente más rápido y después se estabiliza de forma asintótica
(figura 10). Como la meseta no se alcanza a una distancia finita, se
usa con fines prácticos el “alcance efectivo” o “alcance práctico” a’,
valor que se obtiene en el punto de abscisa para el cual el modelo
obtiene el 95% de la meseta, con un valor a’ = 3a, donde a es el
22
parámetro de escala. La tangente en el origen encuentra a la
meseta en el punto a = (1/3)a’.
⎛ h ⎞
⎜ − ⎟
γ (h) = C ⎜1 − e a ⎟
⎜ ⎟
⎜ ⎟
⎝ ⎠
Figura 10. Modelo Exponencial
1.7.4 Modelo Gaussiano: Este es un modelo muy regular (figura 11),

inicialmente presenta un comportamiento parabólico en el origen,
después al igual que en el modelo Exponencial se alcanza la
meseta de forma asintótica. El alcance práctico tiene un valor de
a’ = 1.73a, que es el valor de la abscisa donde se alcanza el 95%
de la meseta.
⎛ h 2 ⎞⎟
⎜ −
γ (h) = ⎜ 2 ⎟
C ⎜1 − e a ⎟
⎜ ⎟
⎜ ⎟
⎝ ⎠
23
Figura 11. Modelo Gaussiano
1.7.5 Modelo Potencia: Este es un modelo sin meseta y sin alcance, su

forma se representa en la figura 12, para valores de α
correspondientes a 0.5, 1 y 1.5. Este modelo representa
fenómenos no estacionarios.
α
γ (h) = m h con α ∈( 0, 2) y m ≥ 0 es el factor de escala
Figura 12. Modelo Potencia
Para el valor de α = 1 en el modelo anterior se obtiene el

modelo Lineal, el cual no tiene ni meseta ni alcance.
24
Se han presentado los modelos más usados en la práctica, aunque se
debe señalar que existen otros modelos.
La selección del modelo y sus parámetros debe seguir fielmente los

aspectos que se suponen importantes del semivariograma experimental
(Wackernagel, 1995), que serán usados en la interpolación geoestadística
que veremos posteriormente, además, esta selección es fundamental en el
estudio geoestadístico. Muchos autores se refieren al efecto negativo que
pudiera tener la estimación con el uso del krigeaje sin un estudio de
estructura espacial y la selección adecuada del modelo de semivariograma y
sus parámetros.
1.8 Validación del modelo teórico
El ajuste de los modelos teóricos al semivariograma experimental, se

puede realiza de forma visual o interactiva, variando los valores Co (efecto de
pepita), C + Co (meseta) y a (alcance), hasta coincidir con los parámetros
que mejor se ajustan; después se valida el modelo seleccionado y los
parámetros meseta y alcance escogidos.
También se puede realizar el ajuste de los modelos teóricos al

semivariograma experimental de forma automática. Este ajuste ha sido
presentado por varios autores, en la que se sugieren aplicar los métodos de
mínimos cuadrados, bondad de ajuste u otras variantes, para así validar el
modelo y sus parámetros, teniendo en cuenta que el modelo obtenido sea
definido positivo, es decir que ajustemos realmente un semivariograma.
Nótese que no siempre se verifica la condición de que el semivariograma
ajustado sea siempre de tipo positivo, siendo insatisfactorio (Genton, 1998),
por lo que se recomienda el uso de modelos autorizados. La efectividad de
estos se describe y argumenta en Gotway (1991) y Zhang (1995). Un criterio
25
decisivo, independiente de la forma utilizada en la elección del modelo
teórico y sus parámetros, es sin lugar a dudas, emplear los métodos de
mínimos cuadrados, bondad de ajuste u otras variantes.
1.9 Análisis de anisotropía
Conviene aquí realizar un análisis sobre el comportamiento de la

variabilidad del atributo en estudio. Se conoce que el semivariograma
describe las características de continuidad espacial de la variable
regionalizada en una dirección, pero este comportamiento pueden variar
según la dirección que se analice, como se discute en Journel y Huijbregts
(1978), David (1977), Zimmerman (1993), Krajewski y Gibbs (1993). Se exige
por este motivo un análisis del comportamiento de la continuidad en distintas
direcciones, el Análisis de Anisotropía.
Cuando el semivariograma calculado en diferentes direcciones (norte-sur,

este-oeste, y en direcciones intermedias de 45º o de 22.5º, con tolerancia de
22.5o), muestra similar comportamiento, se dice que el fenómeno es
Isotrópico, cuando muestran diferentes comportamientos es Anisotrópico
(Krajewski y Gibbs, 1993). Los tipos de anisotropías más comunes son la
Geométrica y la Zonal (Krajewski y Gibbs, 1993; Journel y Huijbregts, 1978;
Armstrong y Carignan, 1997).
• Anisotropía Geométrica: Está presente cuando los

semivariogramas en diferentes direcciones tienen la misma meseta
pero distintos alcance (figura 13).
• Anisotropía Zonal: Está presente cuando los semivariogramas en

diferentes direcciones tienen diferentes mesetas y alcances (figura
13).
26
Figura 13. Anisotropía Geométrica y Zonal respectivamente
Otro tipo de anisotropía que existe, es el efecto proporcional que está

presente cuando los semivariogramas en diferentes direcciones tienen el
mismo alcance pero distintas mesetas (figura 14).
Figura 14. Efecto Proporcional
1.10 Estimación
Todo lo expresado hasta aquí tiene un único objetivo, conocer la

información disponible para realizar estimaciones (Journel y Huijbregts, 1978;
David, 1977; Armstrong y Carignan, 1997), es decir, estimar valores
desconocidos a partir, no sólo de los conocidos, sino también de su
estructura de continuidad espacial.
27
El krigeaje, es un interpolador de la geoestadística, que utiliza los
resultados discutidos en el análisis estructural. Inicialmente, Matheron
denominó a esta técnica Krigeage (en francés) que en ingles se convierte en
Kriging y en español se escribe Krigeaje. Este término que tiene su origen
en el apellido de D.G. Krige, reconociendo de esta forma su aporte. El
krigeaje es una técnica de estimación que proporciona el mejor estimador
lineal imparcial (BLUE, en ingles, Best Linear Unbiased Estimator), (Schaug
et al.,1993; Christensen et al.,1993; Abasov et al., 1990), y que además
proporciona un error de estimación conocido como varianza de krigeaje que
depende del modelo de semivariograma obtenido y de las localizaciones de
los datos originales (Armstrong y Carignan, 1997; Journel y Huijbregts, 1978;
David, 1977; Abasov et al., 1990). Esto brinda la posibilidad de hacer análisis
sobre la calidad de las estimaciones (Weerts y Bierkens, 1993; Haas, 1992).
1.11 Ecuaciones del krigeaje
Se dispone de los valores muestreados Z(xi), i = 1,…,n, y deseamos

estimar un valor de la característica observada en el panel Z(v) por una
combinación lineal de Z(xi).
n
Z *(v) = ∑ λi Z ( xi )
i =1
Donde Z*(v) es el valor estimado y λi son los pesos de krigeaje, de modo

que los λi sean obtenidos de tal forma que proporcione un estimador:
insesgado E(Z*(v) - Z(v)) = 0 y de varianza mínima Var(Z*(v) - Z(v)).
La estimación en geoestadística por el krigeaje exige como primera etapa

y fundamental, el conocimiento del comportamiento estructural de la
información, es decir, se debe contar con el modelo de semivariograma
28
teórico que refleje fielmente las características de variabilidad y correlación
espacial de la información disponible.
Las ecuaciones del krigeaje se obtienen de acuerdo a las hipótesis de la

geoestadística que deben ser supuestas y verificadas como ya se indicó.
Teniendo en cuenta las hipótesis de la geoestadística se pueden obtener las
ecuaciones del krigeaje para los siguientes casos: función aleatoria
estacionaria de esperanza nula o conocida, método conocido como Krigeaje
Simple, para una función aleatoria estacionaria de esperanza desconocida, y
una función aleatoria intrínseca, método conocido como Krigeaje Ordinario. A
continuación se presenta el sistema krigeaje para estos casos:
1.11.1 Krigeaje Simple
= ∑ λi Z ( xi ) + m ⎜1− ∑ λi ⎟⎞ ,
⎛
n n
Estimador: Z *(v) donde
i =1 ⎝ i =1 ⎠
E(Z(v)) = m y m es conocida
n
Sistema: C ( x j −v ) = ∑ λi C ( xi − x j ) , j = 1,…,n
i =1
n
Varianza de Krigeaje: σ k2 = C ( 0 ) − ∑ λiC ( xi −v)
i =1
1.11.2 Krigeaje Ordinario
• En términos de la covarianza
n
Estimador: Z * ( v ) = ∑ λi Z ( xi )
i =1
29
( )
n
Sistema: C ( x j −v ) = ∑ λiC xi − x j − ρ , j = 1,…,n
i =1
n
donde ρ es el multiplicador de Lagrange y ∑ λi = 1
i =1
n
Varianza de Krigeaje: σ k2 = C ( 0 ) − ∑ λiC ( xi −v ) + ρ
i =1
• En términos del semivariograma
n
Estimador: Z * ( v ) = ∑ λi Z ( xi )
i =1
γ ( x j −v ) = ∑ λiγ ( xi − x j ) + ρ
n
Sistema: , j = 1,…,n
i =1
n
donde ρ es el multiplicador de Lagrange y ∑ λi = 1
i =1
n
Varianza de Krigeaje: σ k2 = ∑ λiγ ( xi −v ) + ρ
i =1
En todos los casos el sistema puede ser escrito matricialmente de la

forma:
Γ0λ0 = γ 0 (1)
λ0 = ( λ1 ,K, λn , ρ ) , ρ
t
Donde es el multiplicador de Lagrange que
n
asegura que ∑ λi = 1, γ 0 = (γ (v − x1),K, γ (v − xn ),1)t ,
i =1
30
⎧γ ( x − x ) si i =1,..., n , j =1,K, n
⎪ i j
⎪⎪
Γ0 = ⎨ 1 si i = n +1 , j =1,K, n y Γ0 es una
⎪
⎪ 0 si i = n +1 , j = n +1
⎪⎩
matriz simétrica de orden (n+1) x (n+1).
La ecuación (1) es equivalente a:
⎡ 0 γ (x1 − x 2 ) K γ ( x1 − x n ) 1 ⎤ ⎡ λ 1 ⎤ ⎡ γ (v − x1 )⎤
⎢γ (x − x ) 0 K γ (x2 − xn ) 1 ⎥ ⎢λ ⎥ ⎢γ (v − x )⎥
⎢ 2 1 ⎥⎢ 2⎥ ⎢ 2 ⎥
⎢ M M K M M ⎥⎢ M ⎥ =⎢ M ⎥
⎢ ⎥⎢ ⎥ ⎢ ⎥
⎢ γ ( x n − x1 ) γ (x n − x 2 ) K 0 1 ⎥ ⎢ λ n ⎥ ⎢γ (v − x n )⎥
⎢⎣ 1 1 1 1 0 ⎥⎦ ⎢⎣ ρ ⎥⎦ ⎢⎣ 1 ⎥⎦
Por último tenemos el intervalo de predicción que está dado por:
A = (Z *(v) − 1.96σ k , Z *(v) + 1.96σ k ) , donde este intervalo A

es un intervalo de confianza con un nivel de confianza de 95% para Z(v).
Bajo la suposición de que Z(v) es gaussiano, se satisface que
P(Z(v) є A) = 95%.
31
CAPÍTULO 2
ANÁLISIS GEOESTADÍSTICO
2.1 Área de estudio
El Lago de Valencia es el lago de agua dulce natural sin desagüe al mar

más grande de Venezuela, está situado en la parte centro-norte del país en
una cuenca endorreica que cubre 2646 Km2, equivalente a 0.29% del
territorio de Venezuela. El Lago se formó por una depresión existente entre la
Cordillera de la Costa y la Serranía del Interior. Las principales islas dentro
del Lago son: el Burro, Otama, Caiguire, el Horno, el Zorro y el Bagre. Su
área de superficie se estima en 350 km2 con un volumen de 6.3 km3,
profundidad máxima está cerca de 40 m con una profundidad promedio de
18 m, la longitud de la línea de costa es aproximadamente 117 km
(http://www.ilec.or.jp/database/sam/sam-05.html).
Figura 15. Localización geográfica del Lago de Valencia
32
Figura 16. Superficie del Lago de Valencia con sus estaciones de monitoreo
y tributarios
2.2 Recolección de los datos
Para realizar el análisis geoestadístico se tomaron en los años 1998,

1999, 2001, 2002 y 2004 muestras de agua en las estaciones de monitoreo
ubicadas en el Lago de Valencia, dichas muestras fueron captadas a través
de botellas específicas, por el Laboratorio de Calidad Ambiental del estado
Aragua del MANR, de acuerdo al parámetro o los parámetros a ser
analizados, con la debida preparación (Valles, 2005).
Luego las botellas fueron llevadas al Laboratorio de Calidad Ambiental

adscrito a la Dirección General Estadal Ambiental Aragua - Ministerio del
Ambiente y de los Recursos Naturales (MARN), donde se les aplicó la
espectrometría de absorción atómica, la cual “es una técnica analítica para la
determinación de elementos basada en la absorción de energía radiante por
33
átomos libres en su estado basal. La cantidad de energía es medible y es
proporcional a la concentración de átomos que la absorben” (Loon V. y
Barfoot, 1989. Laboratorio de Geoquímica).
Es necesario mencionar, que en algunas estaciones de monitoreo fueron

tomadas varias muestras de agua, en las cuales se hallaron diferentes
valores en la medición de una misma sustancia, lo que nos llevó a
promediarlas para obtener un valor único por estación, ya que el estudio
requiere tener un dato por estación para poder aplicar las técnicas
geoestadísticas. Estos datos son las que se analizan en el presente capítulo,
y el propósito central es “predecir los valores de las sustancias en
posiciones no muestreadas”. Sin embargo, es importante señalar que en
este capítulo nos limitamos a trabajar con las siguientes sustancias:
nitrógeno total, nitrito, nitrato, fósforo total y clorofila “a”. Esta selección se
realizó al azar dentro del grupo de sustancias posiblemente contaminantes,
que se encuentran en el Lago de Valencia.
2.3 Análisis geoestadístico
Empleamos las técnicas geoestadísticas expuestas en el marco teórico,

para las estimaciones de los valores de las sustancias en localizaciones
donde no se tiene información. El análisis geoestadístico se llevó a cabo en
tres etapas:
a. Análisis exploratorio de los datos. En esta etapa, se estudian

los datos sin tener en cuenta su distribución geográfica, o sea se
realizan gráficos de caja para detectar observaciones atípicas,
utilizando el software Matlab 7, luego se efectúa un análisis
estadístico descriptivo, histogramas y una prueba Shapiro-Wilks
para verificar si las muestras provienen de una población normal,
34
por último se realiza una prueba de significación para comprobar la
estacionaridad en las muestras, para todo esto se utiliza el
programa SPSS 15.
b. Análisis estructural. Durante esta etapa, se lleva a cabo el

estudio de la continuidad espacial de la variable. Se calcula el
semivariograma experimental y luego se ajusta al mismo, el
semivariograma teórico que mejor explica la variabilidad espacial
de los datos. Esto se efectúa utilizando el paquete geoestadístico
Variowin.
c. Predicciones. En esta última etapa, se realizan las estimaciones

de las variables en los puntos no muéstrales, considerando la
estructura de correlación espacial seleccionada e integrando la
información que se obtiene de forma directa en los puntos
muéstrales, así como la que se consigue indirectamente en forma
de tendencias conocidas. Para estas predicciones se utiliza el
paquete geoestadístico Surfer 8.
35
2.4 Análisis exploratorio de los datos
En la tabla 1 se presenta la distribución de la muestra por estación para el

año 2004.
Tabla 1. Valores de las sustancias por estación
Variable
Nitrógeno Nitrito Nitrato Fósforo Clorofila
Estación
Total (mg/l) (mg/l) Total “a”
(mg/l) (mg/l) (mg/m3)
Nº 0 1.9 0.2 0.44 0.97 71
Nº 3 3.4 0.01 0.1 0.95 32
Nº 5 1.3 0.19 0.1 0.91 41
Nº 6 3.65 0.19 0.1 0.82 78.5
Nº 12A 2.63 0.29 1.07 0.97 20
Nº 16 1.3 0.01 0.35 0.96 93
Nº 17 1.53 0.2 0.39 0.92 37
Nº 20 3.51 0.09 0.95 0.93 43
Nº 24 2.27 0.88 0.88 0.93 39
Nº 33 4.65 0.21 0.1 1.09 67
Nº 34 1.5 0.37 0.1 0.71 76
Nº 39 10.3 0.01 0.1 0.92 82.5
Nº 40 2.8 0.01 0.1 0.82 50
Nótese que la unidad de medida para las variables nitrógeno total, nitrito,
nitrato y fósforo total es el miligramos por litro (mg/l), mientras que para la
variable clorofila “a” es el miligramos por metro cúbico (mg/m3). Es
36
importante resaltar que para el año 2004 no se tomó muestras en las
estaciones número 2, 4A, 7 y 25.
Veamos si se cumple la estacionaridad en las muestras. Primero

realizamos los gráficos de caja para cada variable, esto con la finalidad de
verificar si existen observaciones atípicas en las variables.
Figura 17. Gráficos de caja para las variables nitrógeno total y nitrito
Figura 18. Gráficos de caja para las variables nitrato y fósforo total
37
Figura 19. Gráfico de caja para la variable clorofila “a”
En estos gráficos de cajas observamos algunas flechas indicando las

observaciones atípicas, o sea la variable fósforo total tiene dos
observaciones atípicas que son 0.71 y 1.09. También se pudo hallar en cada
una de las variables nitrógeno total y nitrito una observación atípica, las
cuales son 10.3 y 0.88 respectivamente. Ahora eliminamos estas
observaciones de la tabla 1 y hallamos los estadísticos de estas nuevas
variables.
38
Tabla 2. Estadística descriptiva para las sustancias
Variable
Estadístico Nitrógeno Nitrito Nitrato Fósforo Clorofila
Total Total “a”
Media 2.54 0.15 0.37 0.92 56.15
Mediana 2.45 0.19 0.1 0.93 50
0.82, 0.92,
Moda 1.3 0.01 0.1 No Existe
0.93 y 0.97
Varianza 1.19 0.02 0.13 0.003 522.93
Desviación
1.09 0.14 0.36 0.05 22.87
Estándar
Coeficiente de
0.43 0.93 0.97 0.05 0.41
Variación
Error Estándar 0.31 0.04 0.1 0.02 6.34
Mínimo 1.3 0.01 0.1 0.82 20
Máximo 4.65 0.37 1.07 0.97 93
Amplitud 3.35 0.36 0.97 0.15 73
Coeficiente de
0.52 0.22 1.1 -1.26 0.1
Asimetría
Curtosis -0.7 -0.88 -0.35 0.7 -1.33
Primer Cuartil 1.51 0.01 0.1 0.91 38
Tercer Cuartil 3.48 0.21 0.66 0.96 77.25
En esta tabla se aprecia que todas las variables tienen coeficiente de

variación menor que uno, además observamos que los valores de la media y
la mediana están cercanos en cada una de las variables. Ahora realizamos
39
histogramas para ver si la distribución de los datos de cada variable se ajusta
a la curva normal.
Figura 20. Histograma para la variable nitrógeno total
Figura 21. Histograma para la variable nitrito
40
Figura 22. Histograma para la variable nitrato
Figura 23. Histograma para la variable fósforo total
41
Figura 24. Histograma para la variable clorofila “a”
Observando estos histogramas notamos rápidamente que la distribución

de los datos de cada variable no se ajusta a la curva normal, esto puede
estar pasando puesto que tenemos muy pocos datos en cada variable. Ahora
bien sabemos que para muestras pequeñas se puede utilizar la prueba de
normalidad Shapiro-Wilks (S.W.), así que aplicamos esta prueba para ver
qué ocurre y planteamos la prueba de la siguiente manera: H0 : “la
distribución de los datos se ajusta a la curva normal” Vs Ha : “la distribución
de los datos no se ajusta a la curva normal”. A continuación presentamos en
la tabla 3 la prueba de normalidad Shapiro-Wilks.
42
Tabla 3. Prueba de normalidad Shapiro-Wilks
Estadístico
Variable Valor p
S.W.
Nitrógeno Total 0.92 0.32
Nitrito 0.88 0.09
Nitrato 0.98 0.29
Fósforo Total 0.97 0.39
Clorofila “a” 0.94 0.47
Para esta prueba se tomó un nivel de significancia α = 0.05. Nótese que la

hipótesis nula H0 se rechaza si el valor p < 0.05 y se acepta si el
valor p > 0.05. Ahora si se considera esto y se observa la tabla, se concluye
que aceptamos la hipótesis nula H0 en cada una de las variables, es decir, la
distribución de los datos de cada variable se ajusta a la curva normal, lo que
nos parece indicar que tenemos muestras que provienen de una población
normal. Es importante explicar el por qué queremos ver que los datos se
ajusten a una distribución normal, esto es debido a que los resultados de
predicción son más precisos con esta distribución de probabilidad que con
otra.
Veamos ahora si se cumple la estacionaridad en las muestras. La

estacionaridad considera que el nivel promedio de la variable debe ser
constante en todos los puntos del área de estudio, es decir, no deben existir
tendencias (Giraldo, 2003). El cumplimiento de la estacionaridad se verifica
de acuerdo a la metodología que consiste en el desarrollo de modelos de
regresión lineal múltiple de la forma: variable = a + bX + cY, en las cuales se
describe la relación entre la variable dependiente y dos variables
independientes, donde X y Y corresponden a las coordenadas planas. Para
43
establecer la estacionaridad a partir de los modelos de regresión se realiza la
prueba de significación para determinar si la regresión es no significativa, es
decir, si las variables regresoras no aportan nada a la variable de respuesta.
Esta prueba de significación se plantea de la siguiente forma: H0 : b = c = 0
Vs Ha : b ≠ 0 ó c ≠ 0. A continuación presentamos en la tabla 4 los modelos
de regresión lineal múltiple para evaluar la estacionaridad.
Tabla 4. Modelos de regresión lineal múltiple para evaluar la estacionaridad
Modelo R2 (%) Valor p
Nitrógeno Total = 2.55 – 0.04X + 0.06Y 11 0.59

Nitrito = 0.13 + 0.007X - 0.008Y 22.7 0.31
Nitrato = 0.42 + 0.008X - 0.02Y 7.8 0.67
Fósforo Total = 0.92 + 0.004X - 0.005Y 46.9 0.08
Clorofila “a” = 40.04 + 0.58X + 1.13Y 13.5 0.48
Nótese que para el cálculo de esta tabla se seleccionó un nivel de

significancia α = 0.05, además la hipótesis nula H0 se rechaza si el
valor p < 0.05 (modelo de regresión significativo) y se acepta si el
valor p > 0.05 (modelo de regresión no significativo). Como se puede
observar en esta tabla los R2 de los modelos son bajos. Sin embargo, con
base en el valor p se puede apreciar que los modelos de todas las variables
son no significativos, es decir, no existen tendencias y en consecuencia se
cumple la estacionaridad en las muestras. Esto nos indica que los mejores
modelos teóricos que se ajustaran a los semivariogramas experimentales
tendrán los parámetros meseta y alcance finito.
44
2.5 Análisis estructural
En la figura 16 observamos la superficie del Lago de Valencia y sus

estaciones de monitoreo, de aquí se toma como centroide estas estaciones,
esto con la finalidad de conocer las coordenadas X e Y. Luego de conocer
las coordenadas X e Y de los centroides, se colocan las observaciones de
cada variable y una orientación de los datos como se muestra en las
siguientes figuras.
Figura 25. Posiciones de las observaciones en el plano XY para la variable

nitrógeno total (la unidad de medida es mg/l)
45
nitrito (la unidad de medida es mg/l)

nitrato (la unidad de medida es mg/l)
46
fósforo total (la unidad de medida es mg/l)

Clorofila “a” (la unidad de medida es mg/m3)
47
En estas figuras observamos muchas posiciones en la cuadrícula donde
no se tienen valores de las sustancias, pues son pocas las estaciones con
respecto a la superficie del Lago, por esta razón estimamos estos valores
con el método de krigeaje puntual, pero antes debemos calcular los
semivariogramas omnidireccionales. No hallamos los semivariogramas
direccionales puesto que los resultados son deficientes y esto es debido a
que en cada variable no existen valores a la distancia h, como se puede ver
las observaciones de cada variable están irregularmente espaciados. Ahora
bien antes de calcular los semivariogramas omnidireccionales, veremos el
posicionamiento de las observaciones de cada variable en el espacio.
Figura 30. Posiciones de las observaciones en el espacio para la variable

nitrógeno total
48
nitrito

nitrato
49
fósforo total

Clorofila “a”
50
Ahora se hallan las nubes de variogramas para cada una de las variables.
Figura 35. Nube de variogramas para la variable nitrógeno total
La distancia máxima de un par de observaciones en la variable nitrógeno

total es 21.63, entonces 21.63 / 2 = 10.82 ≈ 11, por esta razón vemos en el
gráfico de nube que el máximo valor que puede tomar h es 11 (recuerde que
la nube de variogramas y el semivariograma experimental no deben ser
calculados con valores de h más grande que la mitad de los pares más
alejados en el conjunto de datos). Es importante resaltar que gracias a este
gráfico de nube podemos conocer las muestras contiguas y sus distancias.
51
Tabla 5. Muestras contiguas y sus distancias
Variable Nitrógeno Total

Z(xi) Z(xi+h) h
1.3 1.5 2
1.53 1.3 2
4.65 1.5 2.24
1.53 1.5 2.83
Figura 36. Muestras contiguas en el plano XY para la variable nitrógeno total
Por la teoría desarrollada anteriormente sabemos lo siguiente:
• El incremento h inicial se recomienda como la distancia promedio

entre las muestras contiguas.
• No se puede dar un criterio exacto o aproximado sobre cuál es el

mejor incremento h inicial, por lo que es recomendable calcular
52
γˆ(h) para distintos valores de h, hasta encontrar una forma
suavizada del semivariograma experimental.
Ahora bien, tomando en cuenta todo esto, los posibles incrementos

iníciales son: h = 2, h = (2+2.24) / 2 = 2.12 y h = (2+2.24+2.83) / 3 = 2.36.
• Si tomamos h = 2, entonces la tolerancia dh es 1, los intervalos de

distancia son: [1,3); [3,5); [5,7); [7,9) y [9,11). La cantidad de
intervalos de distancia y de puntos a procesar en el
semivariograma experimental es 5.
• Si tomamos h = 2.12, entonces la tolerancia dh es 1.06, los

intervalos de distancia son: [1.06,3.18); [3.18,5.3); [5.3,7.42) y
[7.42,9.54). La cantidad de intervalos de distancia y de puntos a
procesar en el semivariograma experimental es 4.
• Si tomamos h = 2.36, entonces la tolerancia dh es 1.18, los

intervalos de distancia son: [1.18,3.54); [3.54,5.9); [5.9,8.26) y
[8.26,10.62). La cantidad de intervalos de distancia y de puntos a
procesar en el semivariograma experimental es 4.
En este gráfico de nube también se observan tres flechas indicando los

valores extremos altos, la cual debemos identificar para extraerlos en el
cálculo del semivariograma omnidireccional. A continuación presentamos en
la tabla 6 las muestras que nos proporcionan estos valores extremos altos y
las localizaciones en el gráfico de nube.
53
Tabla 6. Muestras y localizaciones de valores extremos en el gráfico de nube
Variable Nitrógeno Total
Z(xi) Z(xi+h) h
(Z ( xi ) − Z ( xi + h)) 2
2
4.65 1.5 2.24 4.96
1.53 4.65 4.12 4.87
4.65 1.3 4.12 5.61
Ahora procedemos de la misma manera para las otras variables.
Figura 37. Nube de variogramas para la variable nitrito
54
Figura 38. Nube de variogramas para la variable nitrato
Figura 39. Nube de variogramas para la variable fósforo total
55
Figura 40. Nube de variogramas para la variable clorofila “a”
Para las variables nitrito, nitrato y clorofila “a”, la distancia máxima de un

par de observaciones es 21.63, mientras que para la variable fósforo total es
21.1, lo que justifica que h llegue hasta 11 en los anteriores gráficos de nube.
Nótese además que en estos gráficos de nube se puede ver una línea
punteada, que es la línea de covarianza. Ahora presentamos en la tabla 7 las
muestras contiguas y sus distancias para cada variable.
56
Tabla 7. Muestras contiguas y sus distancias para cada una de las variables
Variable Z(xi) Z(xi+h) h

Nitrito
0.2 0.01 2
0.01 0.37 2
0.21 0.37 2.24
0.2 0.37 2.83
Nitrato
0.39 0.35 2
0.35 0.1 2
0.1 0.1 2.24
0.39 0.1 2.83
Fósforo Total
0.92 0.96 2
Clorofila “a”
93 76 2
37 93 2
67 76 2.24
37 76 2.83
Observando la tabla se concluye que los posibles incrementos iníciales

para las variables nitrito, nitrato y clorofila “a” son: h = 2, h = 2.12 y h = 2.36,
mientras que para la variable fósforo total es h = 2. Por otra parte, si
apreciamos detalladamente el gráfico de nube para la variable nitrato,
notaremos que la mayoría de los valores se concentran por debajo de la
línea de covarianza para distancias menores que h = 5 y para distancias
mayores o iguales a h = 5 se concentran por arriba, por esta razón existen
valores extremos altos y bajos, como lo indican las flechas. En la siguiente
57
tabla mostramos los valores extremos y las localizaciones de los valores
extremos en los gráficos de nube para cada variable.
Tabla 8. Muestras y localizaciones de valores extremos en los gráficos de

nube para cada variable
(Z ( xi ) − Z ( xi + h)) 2
Variable Z(xi) Z(xi+h) h
2
Nitrito
0.01 0.37 2 0.065
Nitrato
0.1 0.88 3.61 0.3
0.1 0.1 5 0
0.1 0.1 5.83 0
0.44 0.35 7 0.0041
0.39 0.44 7.28 0.0013
0.88 0.95 9 0.0024
0.44 0.1 9 0.06
0.1 0.1 9.22 0
Fósforo Total
0.82 0.93 3.61 0.0061
0.91 0.82 4 0.0041
0.82 0.95 5 0.0084
0.92 0.82 5.83 0.005
0.93 0.82 11 0.0061
Clorofila “a”
37 93 2 1568
20 93 6.4 2664.5
58
Se calcula ahora los semivariogramas omnidireccionales para cada uno
de los incrementos iníciales encontrado, hasta conseguir la mejor estructura
de correlación espacial.
Figura 41. Estructura del semivariograma omnidireccional para la variable

nitrógeno total (tomando como incremento inicial h = 2)
Como podemos ver esta estructura del semivariograma omnidireccional

no posee una forma suave, puesto que tiene un decrecimiento pronunciado,
que no se supone que pasa, pues los gráficos de los semivariogramas
experimentales por lo general aumentan con distancia hasta un punto y
después llegan a ser más o menos plano. Ahora eliminaremos los valores
extremos para ver si suaviza esta estructura.
59
nitrógeno total (tomando como incremento inicial h = 2 y eliminando los
valores extremos)
Todavía se mantiene el decrecimiento pronunciado y por lo tanto no es

una buena estructura de correlación espacial, así que descartamos el
incremento inicial h = 2 y veamos que ocurre cuando tomamos h = 2.12.

nitrógeno total (tomando como incremento inicial h = 2.12)
60
Cuando cambiamos de incremento inicial observamos un punto menos
calculado en este semivariograma experimental y una estructura que no
posee una forma suave, puesto que existe un decrecimiento pronunciado. A
continuación se extraerán las observaciones atípicas para ver si se logra
suavizar esta estructura.

nitrógeno total (tomando como incremento inicial h = 2.12 y eliminando los
valores extremos)
En este caso podemos apreciar que esta estructura tiene una forma un
poco más suave comparada con las anteriores estructuras, por lo que se
puede decir que es una buena estructura de correlación espacial. Tomemos
ahora h = 2.36 para ver si nos arroja una estructura de correlación espacial
mucho mejor que esta.
61
nitrógeno total (tomando como incremento inicial h = 2.36)
Acá podemos observar que no es una buena estructura de correlación

espacial, ya que posee un decrecimiento pronunciado. Ahora eliminaremos
los valores extremos para ver si toma una forma más suave que la estructura
de la figura 44.

nitrógeno total (tomando como incremento inicial h = 2.36 y eliminando los
valores extremos)
62
Como se puede apreciar esta estructura tiene una forma más suave que
la estructura de la figura 44, puesto que demuestra un crecimiento hasta un
punto y después alcanza una cierta estabilidad, por esta razón consideramos
que es la mejor estructura de correlación espacial. Nótese también que el
semivariograma es casi plano más allá de la distancia 4.5, sugiriendo que el
alcance de autocorrelación espacial termina en esa distancia (los puntos más
allá de 4.5 unidades de distancia no demuestra ningún cambio en el
semivariograma y así no está correlacionada espacialmente).
Ahora procedemos de la misma manera para las otras variables y a

continuación presentamos los gráficos de los semivariogramas
omnidireccionales de las otras variables con sus mejores estructuras de
correlación espacial.

nitrito (tomando como incremento inicial h = 2.12 y eliminando los valores
extremos)
63
nitrato (tomando como incremento inicial h = 2.36 y eliminando los valores
extremos)

fósforo total (tomando como incremento inicial h = 2 y eliminando los valores
extremos)
64
clorofila “a” (tomando como incremento inicial h = 2.36 y eliminando los
valores extremos)
Nótese que para la figura 49 observamos nada más tres puntos

calculados en el semivariograma, en lugar de cinco, esto ocurre ya que la
cantidad de pares encontrados en los dos primeros intervalos de distancia es
muy poco, por lo que el programa Variowin lo considera insuficiente desde el
punto de vista estadístico y por esa razón no calcula estos puntos. También
es bueno tener claro que el programa Variowin realiza lo siguiente: cada
valor que toma h en los gráficos de los semivariogramas, es la distancia
promedio de los pares de valores que genera el punto γˆ(h) en la gráfica.
Es importante resaltar que se pone en evidencia, en el estudio anterior,

que los semivariogramas experimentales son extremadamente sensibles a
valores extremos y que no se puede dar un criterio exacto o aproximado
sobre cuál es el mejor incremento h inicial.
65
A partir de los semivariogramas omnidireccionales con las mejores
estructuras de correlación espacial, se procede a probar los distintos
modelos teóricos. Se elige aquel que presente el mejor índice de bondad de
ajuste. Los resultados se muestran en la tabla 9.
Tabla 9. Parámetros de los modelos ajustados para los datos de los

semivariogramas omnidireccionales
Bondad
Variable Modelo Alcance Meseta Pepita Pend. Anis. Dir. de
Ajuste
Nitrógeno
Total
Esférico 4.7 1 0 ---- 1.7 90 0.094
Exponencial 4.7 1.03 0 ---- 2.4 90 0.12
Gaussiano 4.7 1.03 0 ---- 1.4 90 0.0625
Lineal ---- ---- 0.008 0.132 1 90 0.1273

Nitrito
Lineal ---- ---- 0.012 0 1 90 0.0313
Nitrato
Esférico 7.1 0.35 0 ---- 2.2 90 0.5499
Exponencial 7.1 0.35 0 ---- 3.5 90 0.8096
Gaussiano 7.1 0.35 0 ---- 1.6 90 0.236
Lineal ---- ---- 0 0.032 1 90 0.4465

Fósforo
Total
Lineal ---- ---- 0.00032 0 1 90 0.00068
Clorofila
“a”
Esférico 4.7 503 0 ---- 1 90 0.03
Exponencial 4.7 505 0 ---- 1 90 0.0485
Gaussiano 4.5 523 3 ---- 1 90 0.0365
Lineal ---- ---- 465 0 1 90 0.0752
(Pend. = Pendiente, Anis. = Anisotropía, Dir. = Dirección)
66
El índice de bondad de ajuste se calcula de acuerdo a la siguiente
expresión:
D ⎡ γˆ(i) −γ (i) ⎤
2
n P(i)
IBA = ∑ n ⎢⎣ σ 2 ⎥⎦
i=0
∑ P( j ) d (i )
j =0
Donde n es el número de intervalos de distancia, D es la máxima

distancia, P(i) es el número de pares para el intervalo i, d(i) es la media de
los pares en el intervalo i, γˆ(i) es la medida experimental para de la
continuidad para el intervalo i, γ (i) es la medida del modelo para de la
continuidad para el intervalo i, y σ2 es la varianza a priori (Pannatier, 1996).

Nótese que el mejor índice de bondad de ajuste, es aquel que está próximo a
cero, así que para la variable nitrógeno total se selecciona el modelo
gaussiano y sus parámetros. Para las variables nitrito, nitrato, fósforo total y
clorofila “a”, los modelos teóricos seleccionados con sus respectivos
parámetros son: lineal, gaussiano, lineal y esférico respectivamente. Es
importante explicar por qué a las variables nitrito y fósforo total se les ajusta
solamente un modelo que es la lineal con pendiente nula, esto es debido a la
clara estructura que poseen, además este modelo no es más que el modelo
“efecto de pepita”. Nótese también que se fija la dirección a 90, que se
requiere para el semivariograma omnidireccional en el programa Variowin.
Los gráficos con los mejores modelos teóricos ajustados a los datos de los
semivariogramas omnidireccionales se muestran a continuación.
67
Figura 51. Modelo gaussiano ajustado a los datos del semivariograma
omnidireccional para la variable nitrógeno total
Figura 52. Modelo efecto de pepita ajustado a los datos del semivariograma
omnidireccional para la variable nitrito
68
Figura 53. Modelo gaussiano ajustado a los datos del semivariograma
omnidireccional para la variable nitrato
Figura 54. Modelo efecto de pepita ajustado a los datos del semivariograma
omnidireccional para la variable fósforo total
69
Figura 55. Modelo esférico ajustado a los datos del semivariograma
omnidireccional para la variable clorofila “a”
2.6 Predicciones
Tomando como base los modelos ajustados y utilizando el software

Surfer 8, se realizan las interpolaciones por el método de krigeaje puntual y
los mapas e imágenes de contornos para el año 2004. Es importante resaltar
que no realizamos predicciones a las variables nitrito y fosforo total, puesto
que se les ajustó un modelo efecto de pepita; este modelo describe un
fenómeno puramente aleatorio, sin correlación entre las muestras, cualquiera
sea la distancia que las separe. Los resultados de las predicciones del año
2004 para las variables nitrógeno total, nitrato y clorofila “a” se presentan a
continuación.
70
Figura 56. Rejilla de datos estimados para la variable nitrógeno total
Figura 57. Mapa de contornos para la variable nitrógeno total con la

superficie del Lago de Valencia y su tabla de niveles de concentración
71
Figura 58. Imagen de contornos para la variable nitrógeno total con la
2.6.1 Nitrógeno Total
Se observa que los valores de esta sustancia varían de 1.2 a

6.8 mg/l (ver figura 57), aunque la mayoría de los valores oscila
principalmente entre 1.2 y 4 mg/l en casi toda la superficie del Lago
(ver figura 58). También se puede ver una concentración de
valores bastante alto por la zona de Maracay (observe las figuras
57 y 58). Nótese además que en cada nodo de la rejilla de la figura
56, se encuentra un valor estimado de esta sustancia.
72
Figura 59. Mapa de contornos para la variable nitrato con la superficie del
Lago de Valencia y su tabla de niveles de concentración
Figura 60. Imagen de contornos para la variable nitrato con la superficie del
Lago de Valencia y su tabla de niveles de concentración
73
2.6.2 Nitrato
En este caso se puede apreciar rápidamente la concentración

de valores bastante alto por las zonas de Valencia y el sur del
Lago (observe las figuras 59 y 60) esta zona es la contigua a la
población de Güigue donde hay abundante actividad agrícola.
Además podemos ver en la figura 59 el intervalo de variación que
es de 0 a 1.2 mg/l. Nótese también que la mayoría de los valores
oscila principalmente entre 0 y 0.6 mg/l en casi toda la superficie
del Lago (ver figura 60).
Figura 61. Mapa de contornos para la variable clorofila “a” con la superficie
del Lago de Valencia y su tabla de niveles de concentración
74
Figura 62. Imagen de contornos para la variable clorofila “a” con la superficie
del Lago de Valencia y su tabla de niveles de concentración
2.6.3 Clorofila “a”
Para esta sustancia se observa una gran cantidad de valores

intermedios y altos en casi toda la superficie del Lago (ver figura
62). Nótese que por las zonas de Valencia, Maracay y el norte del
Lago existen concentraciones de valores bastante altos (observe
las figuras 61 y 62). También podemos ver en la figura 61 los
límites de concentración que son 25 y 95 mg/m3.
2.7 Evolución temporal de la clorofila “a”
Como la clorofila “a” es una de la sustancia que más abunda en el Lago,

por esta razón se estudia a continuación cómo ha evolucionado esta
sustancia en el tiempo a través de mapas e imágenes de contornos.
75
del Lago de Valencia y su tabla de niveles de concentración (año 1998)
76
2.7.1 Clorofila “a”, año 1998
Para este año se observan valores altos por las zonas de

Valencia y el norte del Lago (observe la figura 63). Nótese además
que los valores intermedios y altos cubren casi toda la superficie
del Lago (ver figura 64).
77
Se aprecia que para este año disminuyeron los valores altos y

el intervalo de variación, pues los niveles de concentración varían
de 27 a 45 mg/m3 (ver figura 65). También se puede apreciar la
concentración de valores altos por la zona de Valencia (observe
las figuras 65 y 66).
78
79
En este año se puede observar el gran crecimiento en los

valores altos y en el intervalo de variación, pues los niveles de
concentración varían de 36 a 82 mg/m3 (ver la figura 67). Además
podemos apreciar que una gran parte del Lago está cubierta por
valores altos, así como también se puede ver los bajos niveles de
concentración de esta sustancia en la zona sur del Lago (observe
la figura 68).
80
Para este año se sigue observando el gran crecimiento en los

valores altos y en el intervalo de variación, pues los niveles de
concentración varían de 10 a 170 mg/m3 (ver figura 69). Nótese
también una concentración de valores bastante alto por la zona de
Valencia y los bajos niveles de concentración de esta sustancia por
la zona de Maracay (observe las figuras 69 y 70).
81
82
Para este último año que se estudio, se observa un

decrecimiento en los valores altos y en el intervalo de variación,
pues los niveles de concentración varían de 25 a 95 mg/m3 (ver
figura 71). Observé que por las zonas de Valencia, Maracay y el
norte del Lago existen concentraciones de valores bastante altos
(observar las figuras 71 y 72).
2.8 Predicción idónea
Con la finalidad de obtener una predicción apropiada de la clorofila “a”

para el año 2004, se procede a realizar hasta diez predicciones continuas,
partiendo de los datos predichos del año 2004, este método se le conoce
como re-muestreó. Después de realizar los diez re-muestreos, tomamos los
valores que se encuentran ubicados en un mismo nodo en cada una de las
rejillas predichas, para luego promediar estos valores. Esto mismo se realiza
para los demás nodos y todos estos valores promediados se pudiera decir
que es una mejor predicción comparada con la primera predicción realizada.
Nótese también que se puede realizar el número de re-muestreó que se
desee, pues mientras más re-muestreó se realice mejor es la predicción. A
continuación presentamos la predicción idónea representada por un mapa e
imagen de contornos, con la metodología expuesta anteriormente ya
aplicada.
83
Figura 73. Mapa de contornos idóneo para la variable clorofila “a” con la
Figura 74. Imagen de contornos idóneo para la variable clorofila “a” con la
84
Al comparar detalladamente las figuras 71 y 73, notamos que en la figura
73 ya no son continuas las líneas de contornos y estas tienden a tener
diferentes direcciones, por lo que se concluye que estas últimas
estimaciones están más ajustadas a los verdaderos valores.
85
CAPÍTULO 3
SERIES TEMPORALES Y ANÁLISIS DE FLUCTUACIÓN SIN TENDENCIA
SERIES TEMPORALES
Cuando hablamos de una secuencia de valores observados a lo largo del

tiempo, y por tanto ordenados cronológicamente, la denominamos en un
sentido amplio, serie temporal. Los valores de una serie temporal van ligados
a instantes de tiempo, de manera que el análisis de una serie implica el
manejo conjunto de dos variables; la variable en estudio propiamente dicha y
la variable tiempo.
Las series pueden tener una periodicidad anual, semestral, trimestral,

mensual, etc., según los períodos de tiempo en los que están recogidos los
datos que la componen. Las mediciones diarias de la temperatura ambiental,
el número de pasajeros anuales registrado en una aerolínea, la cantidad de
alumnos semestrales que ingresan a una universidad, el índice de la bolsa
segundo a segundo, son ejemplos de series temporales con diferentes
periodicidades.
El análisis de series temporales presenta un conjunto de técnicas

estadísticas que permiten, además de estudiar y modelar el comportamiento
de un fenómeno que evoluciona a lo largo del tiempo, hacer previsiones de
los valores que se alcanzarán en el futuro.
Con el análisis de series temporales se pretende extraer las regularidades

que se observan en el comportamiento pasado de la variable, es decir,
obtener el mecanismo que la genera y así tener un mejor conocimiento de la
misma en el tiempo. Además, bajo el supuesto de que las condiciones
estructurales que conforman la serie objeto de estudio permanecen
constantes, también se trata de predecir el comportamiento futuro.
86
El estudio de una serie temporal puede tener distintas motivaciones. El
tipo de análisis, así como los modelos en los que basemos el estudio,
dependerán en gran medida del tipo de preguntas que queramos responder.
Cuando las observaciones corresponden a una única variable, el análisis de
series temporales suele tener como objetivo construir un modelo para
explicar la estructura (descripción) y prever la evolución (predicción) de la
variable de interés. Cuando se observa simultáneamente un grupo de
variables, el objetivo que se persigue consiste generalmente en analizar las
posibles relaciones entre las variables observadas y su evolución conjunta.
Este último punto, debe ser tratado mediante técnicas multivariantes de
análisis de series temporales, pero en la presente investigación no
cubriremos este punto, solamente nos referiremos al análisis univariante de
series temporales.
3.1 Conceptos de series de tiempo
• Tendencia y nivel de la serie
El nivel de una serie es una medida local de tendencia central,

como por ejemplo la mediana, de cada período de tiempo que
consideremos.
Una vez calculado el nivel de la serie, debemos observar su

estabilidad, es decir, ver si la medida de tendencia central elegida
tiene valores similares en los períodos de tiempo que
consideremos. También tendremos que observar su tendencia, o
sea, si presenta una dirección constante de cambio de nivel.
87
⎧Estable
⎪
⎪
⎪ ⎧Sin tendencia
⎪ ⎪
⎪ ⎪ ⎧Creciente
⎪Inestable ⎨ ⎪
El nivel de una serie puede ser: ⎨ ⎪Con tendencia ⎨
⎪ ⎪ ⎪Decreciente
⎪ ⎩ ⎩
⎪
⎪
⎪Circunstancial ⇒ El fenomeno tiene un nivel estable
⎪ salvo comportamientos estacionales.
⎩
• Estacionalidad
Corresponde a fluctuaciones periódicas de la serie temporal, en

períodos relativamente cortos de tiempo (cada año, cada mes, etc.,
dependiendo de las unidades de tiempo en que vengan recogidos
los datos). Una herramienta muy útil para detectar patrones y
periodicidades en series temporales es la función de
autocorrelación que veremos más adelante.
• Dependencia entre variabilidad y nivel
Es importante analizar la dependencia entre variabilidad y nivel

a la hora de realizar un análisis preliminar a una serie de tiempo. Si
existe dependencia de este tipo la serie no es estacionaria en
varianza, de manera que debemos transformarla. En estos casos,
cuando la variabilidad depende del nivel, se realizan
transformaciones de la familia de Box-Cox. Cuando estamos ante
una serie no estacionaria en nivel se consigue que la serie sea
estacionaria diferenciándola. Diferenciar una serie X consiste en
t
aplicarle el operador diferencia ( ∇ ) que hace lo siguiente:
88
∇X t = X t − X t − 1
Es posible que, tras diferenciar una serie, esta siga siendo no

estacionaria, en cuyo caso es posible que necesite una nueva
diferencia.
Para estudiar la dependencia existente entre variabilidad y nivel

se emplea el gráfico de dispersión por nivel. Si los puntos de la
gráfica pueden ajustarse a una línea recta decimos que existe una
dependencia entre variabilidad y nivel. Este gráfico es un diagrama
de dispersión en el que se representa el logaritmo neperiano de la
mediana (medida de tendencia central) frente al logaritmo
neperiano de la diferencia entre los percentiles 80 y 20 (medida de
la dispersión) de cada uno de los períodos considerados en la
serie.
3.2 Componentes de una serie de tiempo
Se dice que una serie de tiempo es el resultado de la integración de

cuatro componentes fundamentales (aunque no siempre aparecen todas)
que no son directamente observables, de los cuales únicamente se pueden
obtener estimaciones. Estas cuatro componentes son: tendencia (T ), ciclo
t
(C ), estacionalidad (S ) e irregularidad (E ). De esta manera podemos

t t t
considerar que una serie de tiempo X es una función de estas cuatro

t
componentes.
X t = f ( Ct , Tt , St , Et )
• Tendencia (T ) es la dirección general de la serie temporal en el

t
período de observación, es decir el cambio a largo plazo de la
89
media de la serie. Refleja la dirección del movimiento de una
determinada variable; creciente, decreciente o estable.
• Ciclo (C ) consiste en variaciones superiores al año que no son

t
estrictamente periódicas. Se trata de un factor de tipo oscilante

caracterizado por movimientos recurrentes en torno a la tendencia,
y suele aparecer fundamentalmente en series de tipo económico.
• Estacionalidad (S ) son los movimientos regulares de una serie que

t
se repite periódicamente en un tiempo relativamente corto. Recoge

las oscilaciones que año a año se repiten en una serie de forma
periódica.
• Irregularidad (E ) son movimientos erráticos que no siguen un

t
patrón específico y que obedecen a causas diversas. Esta

componente es prácticamente impredecible. De esta forma la
irregularidad lo compone todo lo que no queda explicado por la
tendencia, el ciclo y la estacionalidad.
Este método clásico de análisis de series temporales tiene la ventaja de

no ser excesivamente complejo, aunque como contrapartida responde a
preguntas menos ambiciosas. Se pueden emplear para realizar predicciones
a corto plazo, pero no a medio o largo plazo. Por ejemplo, en series
mensuales se utilizan para predecir uno o dos meses, no un año completo.
3.3 Modelos de series temporales
Antes de estudiar una serie temporal es importante suponer que la serie

esta generada por un proceso estocástico.
90
Un proceso estocástico o proceso aleatorio es un concepto matemático
que sirve para caracterizar y estudiar todo tipo de fenómenos aleatorios
(estocásticos) que evolucionan generalmente con el tiempo.
Se define en matemática un proceso estocástico como un conjunto de
variables aleatorias { X t }t ∈Z que describen la evolución de algún proceso

a través de t, donde t es la variable tiempo y a cada X le corresponde una
t
función de distribución de probabilidad. De esta forma una serie temporal con

n observaciones estaría generada por X ,…, X variables aleatorias, y sus
1 n
valores concretos x ,…, x serían una realización del proceso estocástico.

1 n
Un proceso estocástico queda determinado si conocemos la función de

distribución de las variables aleatorias que lo componen y todas las posibles
funciones de distribución conjuntas de dichas variables.
La determinación de las características de un proceso estocástico a partir

de las funciones de distribución es en general, un procedimiento complicado,
por lo que se acostumbra a caracterizarlos a partir de los momentos de
primer y segundo orden (media y covarianza).
Media o momento de primer orden: μt = E ( X t ) t ∈Z
Covarianzas o momentos de segundo orden:
γ t , s = C ov ( X t , X s ) t, s∈ Z
Para poder efectuar inferencias sobre los parámetros de un proceso

estocástico a partir de los datos obtenidos de una sola realización, es preciso
imponer restricciones al proceso. Las restricciones que se imponen
habitualmente son que sean estacionario y ergódico.
91
Un proceso estocástico es estacionario en sentido estricto si la función de
distribución conjunta de cualquier subconjunto de variables es constante
respecto a un desplazamiento en el tiempo.
F ( X 1 , K , X n ) = F ( X1 + h , K , X n + h ) ∀ n ∈ N , ∀ h ∈ Z
Limitarnos a los procesos estacionarios estrictos sería excesivo, de

manera que se opta por una solución intermedia, con los llamados procesos
estocásticos estacionarios en sentido débil, o simplemente, procesos
estacionarios de segundo orden.
Un proceso es estacionario en sentido débil cuando se verifica que la

media teórica es independiente del tiempo y las funciones de
autocovarianzas de orden h sólo vienen afectadas por el lapso de tiempo
transcurrido entre los dos periodos, además no dependen del tiempo.
1. μt = E ( X t ) es independiente de t
2. γ ( h ) = C ov( X t + h , X t ) es independiente de t para cada h
Antes de introducir la definición de proceso estocástico ergódico

necesitamos definir la función de autocorrelación.
Se le llama autocorrelación de orden h, a la correlación entre dos

variables aleatorias del proceso estocástico, distanciados un lapso de tiempo
h. La autocorrelación de orden h está dada de la siguiente manera:
Cov( X t + h , X t ) γ (h) ∀ h∈ Z , ∀ t ∈ Z
ρ (h) = =
Var ( X t + h ) ⋅ Var ( X t ) γ (0)
92
Propiedades de la autocorrelación:
a. ρ (h) = ρ (−h)
b. ρ (0) = 1
c. ρ (h) ≤ 1
La función de autocorrelación simple es la representación de ρ (h) frente

a h. Al observar la parte a. de las propiedades anteriores se concluye que la
función de autocorrelación simple es simétrica, por esta razón se suele
representar únicamente la parte positiva.
Se denomina autocorrelación parcial de orden h, a la correlación de dos

variables aleatorias cualesquiera del proceso estocástico, distanciados un
lapso de tiempo h, pero sin considerar los efectos lineales de las variables
aleatorias intermedias. Es decir, para calcular la autocorrelación parcial entre
X yX eliminamos la influencia que sobre ambas tienen X , X ,…, X .
t t+h t+1 t+2 t+h-1
La autocorrelación parcial de orden h está dada por:
φhh = corr ( X t , X t + h | X t +1 , X t + 2 ,K, X t + h−1 )
La función de autocorrelación parcial es la representación de φhh frente a

h.
La aplicación de las funciones de autocorrelación simple y parcial, tal y

como veremos más adelante, constituyen uno de los instrumentos más
importante para sugerir el ajuste de un modelo a una serie temporal.
93
Un proceso es ergódico cuando conforme h se hace más grande la
autocorrelación ρ (h) , se hace más pequeña, es decir que lo que ocurre
hoy, conforme va pasando el tiempo va teniendo menos importancia.
ρ (h) ⎯⎯⎯
h → +∞
⎯→0
Ahora bien, cuando estamos ante un proceso estacionario y ergódico,

todo el problema de inferencia se simplifica de forma considerable.
Nuestro objetivo al analizar una serie temporal es estimar el proceso

estocástico que la genera y para ello, según hemos visto hasta ahora,
debemos partir del supuesto de que dicho proceso estocástico es
estacionario y ergódico.
3.3.1 Modelos de medias móviles (MA)
X t = Zt + θ1 Zt -1 + θ2 Zt - 2 + K + θq Zt - q
Un proceso de medias móviles de orden q es un proceso en el
que la variable X se obtiene como un promedio de variables de
t
ruido blanco (Z ), siendo los θi sus coeficientes de ponderación.

i
Todos los procesos de medias móviles son procesos

estacionarios.
A continuación proporcionaremos algunas directrices generales

para identificar este modelo en las funciones de autocorrelación
simple y parcial:
• El modelo de medias móviles posee barras significativas en los

primeros o más Lags cuando aplicamos la función de
autocorrelación simple.
94
• La función de autocorrelación parcial de un modelo de medias
móviles tiene un decaimiento exponencial.
3.3.2 Modelos autorregresivos (AR)
X t = Zt + φ1 X t -1 + φ2 X t - 2 + K + φ p X t - p
Un proceso autorregresivo de orden p es un proceso en el que
la variable X se obtiene efectuando una regresión sobre valores
t
pasados de la misma más un término de perturbación o error (Z )

t
que suponemos se comporta como ruido blanco.
Todos los procesos autorregresivos son procesos invertibles.
Ahora presentaremos algunos lineamientos generales para

identificar este modelo en las funciones de autocorrelación simple
y parcial:
• El modelo autorregresivo tiene un decaimiento exponencial

cuando empleamos la función de autocorrelación simple.
• La función de autocorrelación parcial de un modelo

autorregresivo posee barras significativas en los primeros Lags.
3.3.3 Modelos autorregresivos de medias móviles (ARMA)
X t = φ1 X t -1 + K + φ p X t - p + Zt + θ1 Zt -1 + K + θq Zt - q
Los modelos autorregresivos de medias móviles, ARMA(p,q),

están dados por una ecuación donde aparece la suma de una
autorregresión de orden p y una media móvil de orden q.
95
El comportamiento general que suele tener el modelo ARMA es
que posee un decaimiento exponencial cuando aplicamos las
funciones de autocorrelación simple y parcial.
3.3.4 Modelos autorregresivos integrado de medias móviles

(ARIMA)
Un proceso { X t }t ∈Z es un proceso ARIMA(p,d,q) si satisface

una ecuación de diferencia de la forma:
φ *( B) X t ≡ φ ( B)(1− B)d X t = θ ( B)Zt
Donde {Zt } ~ WN (0,σ 2 ) , φ ( z) y θ ( z) son polinomios

de grado p y q respectivamente, y φ ( z) ≠ 0 para z ≤ 1. El
polinomio φ *( z) tiene un cero de orden d en z = 1.
La notación que se emplea a este modelo es ARIMA(p,d,q),

donde p es el número de parámetros autorregresivos, d es el
número de diferenciaciones para que la serie original sea
estacionaria y q es el número de parámetros de medias móviles.
El análisis de fluctuación sin tendencia (AFST) es un método que

cuantifica la presencia o ausencia de correlaciones de largo alcance (Ho,
1997). Es útil para analizar series de tiempo que parecen ser procesos de
larga memoria (divergiendo la correlación en el tiempo, como por ejemplo la
función de autocorrelación decae en forma de ley de potencia) o de ruido 1/f.
96
Este método nos proporciona un único parámetro cuantitativo y podrá ser
aplicado a series cuya estadísticas fundamentales (tales como media y
varianza) o dinámicas no son estacionarias (cambiando con el tiempo). Esto
está relacionado con medidas basadas en técnicas espectrales tales como
autocorrelación y transformada de Fourier.
El AFST fue introducido por Peng, 1994 y representa una extensión del
análisis de fluctuación (AF) (ordinario), que es afectado por la no
estacionaridad.
3.4 Correlaciones de corto alcance
Dada una serie temporal T = { x1 , x2 ,K, xn } con varianza
1⎛ 2⎞
n
σ = ∑ x − x 2 , se define la función de autocorrelación muestral
2
n ⎜ t =1 t ⎟
⎝ ⎠
C(k ) = ⎡ 1 n−k x x − 2⎤
como
1
∑
⎢ n − k t =1 t t + k x ⎥. Esta función mide la
σ2 ⎣ ⎦
dependencia del valor en la posición t con el valor en la posición t + k. Para
variables que son independientes se satisface qué C(k ) = 0, pero el
reciproco no es cierto.
k
−
Cuando una serie es tal que C (k ) ≈ e a
se dice que la serie tiene
correlaciones de corto alcance, ya que el valor de la serie en t sólo tiene

efecto sobre los valores de la serie hasta t + a, y la intensidad de estos
efectos decae exponencialmente.
Los modelos AR, MA, ARMA y ARIMA se usan generalmente para

predecir valores futuros de una serie temporal, y por eso se suelen usar en
97
economía, además de en diversas disciplinas científicas. Sin embargo, sean
del tipo que sean, su característica común es que aunque sirven para
generar series con correlaciones, éstas caen siempre de forma exponencial,
con lo que tenemos siempre correlaciones de corto alcance.
En la naturaleza, aparecen muchos sistemas en los que las correlaciones

no son de corto alcance, sino que decaen mucho más lentamente que de
forma exponencial: ADN, dinámica del corazón, propiedades físicas en las
transiciones de fase, etc.
3.5 Correlaciones de largo alcance
Cuando las correlaciones decaen asintóticamente (es decir para k grande)

como una ley de potencia,
C (k ) ≈ k −γ con 0 < γ <1 (2)
Se dice que la serie posee correlaciones de largo alcance. Esto significa

que la influencia del valor de la serie en t se extiende sobre todos los valores
en r > t, y que esta influencia decae muy lentamente, tan lentamente que las
correlaciones no son sumables:
∞ ∞ ∞
∑ C ( k ) ≈ ∑ k ≈ ∫ k dk
−γ −γ
diverge.
k =1 k =1 1
Si en (2) se toma γ >1 , a pesar que las correlaciones decaen como una
ley de potencia, no se considera que las correlaciones sean de largo alcance
dado que son sumables.
Es conocido que la estimación directa de la función de autocorrelación

C(k) de una serie temporal es limitada a k pequeños por efectos de ruido
(Beran, 1994). Esto es un problema grave si la serie tiene correlaciones de
98
largo alcance, dado que en este caso lo característico está dado por el
comportamiento asintótico (es decir para k grande) de C(k).
Series que poseen correlaciones de largo alcance aparecen por doquier:

en señales biofísicas, ruidos en circuitos, series económicas, geofísicas, etc.
Sin embargo, estadísticamente hablando, la función de autocorrelación no es
un buen estimador de las correlaciones presentes en una serie, por lo que se
usan herramientas alternativas. Una de las más destacadas es el uso de la
Transformada de Fourier.
Si una serie es estacionaria, se pueden aplicar técnicas de análisis

espectral, y calcular el espectro de potencia S(f) de la serie como función de
la frecuencia f. Puede demostrarse que una serie con correlaciones de largo
alcance posee un espectro de potencia de la forma:
S ( f ) ≈ f −β
Donde β está relacionado con el exponente γ de las correlaciones por
medio de la siguiente expresión:
β = 1− γ
3.6 Análisis de fluctuación sin tendencia
Los dos métodos antes mencionados para determinar las correlaciones, el

cálculo de C(n) y de S(f), son adecuados sólo si la serie es estacionaria (Witt,
1998). Recientemente fue desarrollado un método (Peng, 1994), llamado
análisis de fluctuación sin tendencia, para detectar correlaciones de largo
alcance en series no estacionarias. Este método provee un único parámetro
cuantitativo, el exponente α, para cuantificar el comportamiento de las
correlaciones en una serie. La ventaja del AFST reside en que puede
99
eliminar sistemáticamente tendencias de diferentes órdenes, y así detectar
correlaciones de largo alcance en series contaminadas con tendencias
polinomiales que pueden enmascarar la verdadera naturaleza de las
correlaciones. A continuación se dará una breve explicación del AFST.
El procedimiento para implementar el AFST consiste de varias etapas.

Primero se construye el perfil y(i) de la serie temporal
T = { x1 , x2 ,K, xn } :
i
y ( i ) = ∑ ( xt − x ) con i = 1,K, n
t =1
Donde x es la media de la serie. El perfil y(i) se puede considerar como

la posición de una caminata al azar sobre una cadena lineal después de i
etapas. Las fluctuaciones del perfil en una ventana de tamaño k están
vinculadas a la función C(k). Segundo, el perfil y(i) se divide en nk = [n/k]
series no solapadas y (i) de igual tamaño k. Tercero, para cada y (i),
ν ν
v = 1,…,nk, se calcula la tendencia local t (i) con el polinomio de grado 1

ν
obtenido por mínimos cuadrados, y se calcula la varianza de y (i) - t (i).

ν ν
(v) = 1 k
( yv ( i ) − tv ( i ) )
2
Fk2 ∑
k
i =1
La siguiente figura ilustra este paso para k = 100 y k = 250.
100
Figura 75. Se divide el perfil de la serie en ventanas de longitud k, y para
cada ventana se realiza ajustes lineales que constituye la tendencia local
Es importante destacar que el ancho de la ventana más grande, es una

cuarta parte de la longitud de la serie original para asegurar una buena
estadística.
Finalmente, se promedian todas estas varianzas y se toma la raíz

cuadrada, obteniendo así la función de fluctuación del AFST:
nk
F (k ) = 1
nk
∑ Fk ( v )
2
v =1
Este cálculo se repite durante todas las escalas de tiempo (tamaños de

las ventanas), para caracterizar la relación entre el promedio de fluctuación,
F(k), y el tamaño de la ventana, k. Normalmente, F(k) se incrementará con el
tamaño de la ventana k. Una relación lineal en un gráfico log-log de k contra
F(k) indica la presencia de ley de potencia escalar que esta expresada como:
101
F ( k ) ≈ kα
El exponente α se calcula como la pendiente de una línea recta que se
ajusta al gráfico log-log de k contra F(k) usando mínimos cuadrados. Este

exponente puede tener diferentes valores:
• α < 0.5 , significa que la serie es anti-correlacionada
• α ≈ 0.5 , significa que en la serie no existen correlaciones, es decir,

la serie es ruido blanco
• α > 0.5 , significa que en la serie existen correlaciones
• α ≈ 1, significa que la serie es ruido 1/f o ruido rosa
• α ≈ 1.5 , significa que la serie es ruido Browniano
El exponente α es llamado exponente de escala, se vincula con el
exponente de las correlaciones γ y con el exponente β del espectro de
potencia por medio de sencillas relaciones:
α =1− γ , α=
1+ β
2 2
Debe tenerse presente que estas dos ecuaciones son exactas cuando
n → ∞ , y que sólo puede esperarse una concordancia limitada entre los
tres exponentes por efecto de la finitud de la serie temporal bajo estudio.
Una generalización del AFST, llamada AFST de orden m y denotada por

AFSTm, la cual consiste en calcular la tendencia local t (i) con un polinomio
ν
102
de grado m, de modo de tener una jerarquía de métodos, AFST1 (coincide
con el original AFST), AFST2, AFST3,..., que difieren entre ellos en el tipo de
no estacionariedades en T que pueden eliminar.
En resumen, si la serie es estacionaria las correlaciones están

relacionadas con las fluctuaciones alrededor del valor medio que presenta la
serie, esto implica que se pueden medir las correlaciones midiendo las
fluctuaciones, pero si la serie no es estacionaria en lugar de analizar las
fluctuaciones en torno a la media las analizamos alrededor del ajuste por
mínimos cuadrados del perfil y(i) dentro de cada ventana de tamaño k.
103
CAPÍTULO 4
ESTUDIO DE LAS SERIES TEMPERATURAS Y APLICACIÓN DEL

4.1 Recolección de los datos
Para efectuar este capítulo se contó con 2 bases de datos

correspondientes a los resultados obtenidos por la medición de la
temperatura para el año 2008 en dos estaciones de monitoreo ubicadas en el
Lago de Valencia, las cuales llevan los nombres de Sucre y Tacarigua.
Específicamente, en la primera estación referida, las muestras fueron
tomadas desde el 01/02/2008 al 11/02/2008 y en la segunda desde el
09/01/2008 al 23/01/2008, estas muestras fueron captadas a través de
dispositivos llamados termistores encargados de medir y registrar valores de
temperatura. Asimismo, es importante resaltar que la medición de la
temperatura se realizó cada 5 minutos durante los días antes referidos.
Los datos arrojados de las mediciones realizadas en las estaciones Sucre

y Tacarigua, son las que se analizan en el presente capítulo con la finalidad
de “ajustar un modelo adecuado para predecir valores futuros de la
temperatura y determinar si existen correlaciones de largo alcance en
las series temperaturas”.
4.2 Metodología
Utilizamos los métodos expuesto en el capítulo 3, para las estimaciones

de los valores futuros de la temperatura y para detectar la presencia o
ausencia de correlaciones de largo alcance en las series temperaturas. Este
estudio se llevó a cabo en cuatro etapas:
104
a. Análisis preliminar de las series temperaturas. En primer lugar,
realizamos gráficos de caja para detectar observaciones atípicas,
utilizando el software Matlab 7, en segundo lugar, efectuamos un
análisis estadístico descriptivo, histogramas y gráficos Q-Q plot
para verificar si las muestras provienen de una población normal,
en tercer lugar, empleamos los gráficos de secuencia para
observar el comportamiento de las series, en cuarto lugar,
aplicamos los gráficos de cajas por día y la función de
autocorrelación parcial para detectar si existen tendencias y
periodicidades en las series y por último realizamos gráficos de
dispersión por nivel para ver si se consigue que las series sean
estacionarias diferenciándolas, para todo esto se utilizó el paquete
SPSS 15.
b. Ajuste de modelos. En esta etapa, nuevamente empleamos la

función de autocorrelación parcial y la función de autocorrelación
simple para verificar si eliminamos la componente estacional y
para ver qué modelo nos sugería para el ajuste de nuestros datos,
esto se efectuó utilizando el programa SPSS 15. Luego se realizan
los ajustes de modelos a las series.
c. Predicciones. Durante esta etapa, efectuamos las estimaciones

de los valores futuros de la temperatura, tomando como base los
modelos ajustados. Para estas predicciones se utilizó el software
SPSS 15.
d. Análisis de fluctuación sin tendencia. En esta última etapa,

realizamos gráficos log-log para estimar el valor del exponente de
escala α, utilizando un programa escrito en Matlab por Guan
Wenye, 2008 (guanwenye@tju.edu.cn).
105
4.3 Análisis preliminar de las series temperaturas
Debemos ver si las series temperaturas para las estaciones Sucre y

Tacarigua son estacionarias, pero antes realizamos los gráficos de caja, esto
con la finalidad de verificar si existen observaciones atípicas en estas series.
Figura 76. Gráficos de caja de las series temperaturas para las estaciones
Sucre y Tacarigua respectivamente
Como se puede apreciar estas series temperaturas no poseen

observaciones atípicas. Nótese también que la unidad de medida para este
conjunto de observaciones de la temperatura es el grado centígrado (°C).
106
Tabla 10. Estadística descriptiva para las series temperaturas
Estación
Estadístico
Sucre Tacarigua
Media 24.69 25.23
Mediana 24.3 24.6
Moda 21.8 22.8 y 23.3
Varianza 11.84 5.95
Desviación Estándar 3.44 2.44
Coeficiente de Variación 0.14 0.1
Error Estándar 0.06 0.04
Mínimo 17.2 20.1
Máximo 32.7 31.1
Amplitud 15.5 11
Coeficiente de Asimetría 0.17 0.52
Curtosis -0.88 -0.86
Primer Cuartil 22.1 23.2
Tercer Cuartil 27.48 27.2
Se puede observar en esta tabla que los valores de la media y la mediana

están cercanos en cada una de las estaciones, además se puede ver que el
coeficiente de asimetría de la estación Sucre está cercano a cero, lo que
pudiéramos decir que la muestra para esta estación se ajusta a una
distribución normal. A continuación realizaremos histogramas y gráficos Q-Q
plot para la distribución normal, esto con miras a verificar si los datos de cada
estación provienen de una población normal.
107
Figura 77. Histograma de la serie temperaturas para la estación Sucre
Figura 78. Histograma de la serie temperaturas para la estación Tacarigua
108
Figura 79. Q-Q plot para la distribución normal aplicada a la serie
temperaturas para la estación Sucre
Figura 80. Q-Q plot para la distribución normal aplicada a la serie

temperaturas para la estación Tacarigua
109
En los histogramas podemos ver que la distribución de los datos no se
ajusta muy bien a la curva normal, pero cuando observamos los gráficos Q-Q
plot notamos que existe una tendencia a ajustarse a la línea recta, lo que nos
parece indicar que los datos de cada estación constituyen muestras
aleatorias que provienen de una población normal. Esta condición permite
continuar con el proceso de modelización sin transformar las series.
Veamos ahora si estas series temperaturas son estacionarias,

grafiquemos y observemos el comportamiento de este conjunto de
observaciones para cada una de las estaciones.
Figura 81. Gráfico de secuencia de la serie temperaturas para la estación

Sucre
110
Figura 82. Gráfico de secuencia de la serie temperaturas para la estación
Tacarigua
Observando estos gráficos de secuencia vemos que diariamente se

repiten unos picos, esto es debido a que aproximadamente a la hora del
medio día alcanza su mayor temperatura en estas estaciones.
Ahora estudiaremos el nivel de las series. Como las observaciones de la

temperatura fueron tomadas cada 5 minutos, consideraremos periodos de
tiempo de un día, esto con la finalidad de hallar la mediana diaria.
111
Figura 83. Gráficos de cajas por día de la serie temperaturas para la estación
Sucre
Figura 84. Gráficos de cajas por día de la serie temperaturas para la estación
Tacarigua
112
Tabla 11. Medida de tendencia central para cada periodo de tiempo
Estación Día Mediana

Sucre
1 23.3
2 23.3
3 23.6
4 24,15
5 24.6
6 23.4
7 24.35
8 24.65
9 25.3
10 25.1
11 24.95
Tacarigua
9 24.3
10 24.6
11 24.2
12 25.2
13 25.3
14 25.6
15 24.6
16 24.65
17 24.5
18 25.1
19 24.2
20 24.15
21 24.3
22 24.55
23 24.2
113
La línea que aparece en el interior de cada una de las cajas de un box-
plot representa la mediana, es decir, el nivel de la serie, pues esta es una de
las posibles medidas de tendencia central. Una vez representado el nivel de
la serie lo estudiamos para determinar si es o no estable. Cuando
observamos los gráficos de cajas y la tabla 11 concluimos que los niveles de
las series son estables, puesto que los valores de las medianas son similares
en cada uno de los días. Ahora si tomamos en cuenta que las series poseen
unos picos que se repiten periódicamente, se concluye entonces que las
series tienen un nivel circunstancial.
Comprobemos ahora que las series temperaturas poseen una

componente estacional. Para verificar esto debemos aplicar la función de
autocorrelación parcial (FACP).
Figura 85. Función de autocorrelación parcial de la serie temperaturas para

la estación Sucre
114
Figura 86. Función de autocorrelación parcial de la serie temperaturas para
la estación Tacarigua
Al observar estos gráficos de autocorrelación parcial vemos que se

marcan los intervalos de confianza para ayudar a detectar las barras
significativas, además notamos que existe una tendencia a que en cada Lag
se tenga una barra significativa, esto significa que diariamente se repite un
patrón similar, lo que quiere decir que existe una componente estacional en
estas series, por lo que se concluye que las series no son estacionarias.
Ahora estudiaremos la dependencia entre variabilidad y nivel, esto se

realiza con la finalidad de determinar si la serie no es estacionaria en
varianza o en nivel. A continuación mostraremos los gráficos de dispersión
por nivel de cada una de las estaciones.
115
Figura 87. Gráfico de dispersión por nivel de temperatura por día para la
estación Sucre
Figura 88. Gráfico de dispersión por nivel de temperatura por día para la
estación Tacarigua
116
Como podemos ver no existe dependencia entre variabilidad y nivel en las
estaciones Sucre y Tacarigua, pues los puntos en ambas gráficas no se
ajustan a una línea recta, así que podemos decir que las series no son
estacionarias en nivel, o sea se consigue que ambas series sean
estacionarias diferenciándolas.
4.4 Ajuste de modelos
Tomando en cuenta lo dicho anteriormente aplicamos el operador

diferencia a nuestras series y a estas series diferenciadas le empleamos la
función de autocorrelación simple (FACS) y la función de autocorrelación
parcial para verificar si eliminamos la componente estacional y para ver qué
modelo nos sugiere para el ajuste de nuestros datos.
Figura 89. Función de autocorrelación simple de la serie diferenciada para la

estación Sucre
117
Figura 90. Función de autocorrelación parcial de la serie diferenciada para la
estación Sucre
Figura 91. Función de autocorrelación simple de la serie diferenciada para la

estación Tacarigua
118
Figura 92. Función de autocorrelación parcial de la serie diferenciada para la
estación Tacarigua
Cuando apreciamos los gráficos de autocorrelación parcial notamos que

eliminamos la periodicidad diaria, pues ahora no se observa una tendencia
de barras significativas en cada Lag, ni un patrón de regularidad en las
barras significativas. Ahora si miramos los gráficos de autocorrelación simple
vemos que existe un comportamiento a decaer exponencialmente, típico en
los modelos autorregresivos. Por otro lado, es importante resaltar dos cosas,
primero toda función de autocorrelación muestra una barra significativa en
Lag 1, es un patrón típico de series de tiempo, y segundo el número de
barras significativas en una función de autocorrelación parcial indica el orden
del modelo. Así que para nuestras series les ajustaremos un AR(4) para la
estación Sucre y un AR(7) para la estación Tacarigua. Los resultados se
muestran en la tabla 12.
119
Tabla 12. Parámetros de los modelos ajustados para las series temperaturas
Estación Modelo φi R2 Estacionario
Sucre
AR(4) -1.01 0.85
-1.01
-1.07
-0.83
Tacarigua
AR(7) -0.82 0.88
-0.72
-0.75
-0.48
0.35
0.07
0.07
En esta tabla se observan los valores del R2 estacionario, el cual nos

proporciona una idea de lo bien que los modelos se ajustan a los datos. Este
estadístico ofrece una estimación de la proporción de la variación total en la
serie que es explicada por el modelo. Para el programa SPSS es preferible el
R2 estacionario que el R2 común cuando existe un patrón de tendencia o
estacionalidad, como es el caso aquí. Valores más grandes del R2
estacionario (hasta un valor máximo de 1) indican un mejor ajuste, así que
los valores de 0.85 y 0.88 significa que los modelos hacen un buen trabajo
de explicar la variación observada en las series.
120
4.5 Predicciones
Ahora que ajustamos los modelos a nuestras series temperaturas,

procedemos a realizar las predicciones. A continuación presentamos los
gráficos de secuencia para las estaciones Sucre y Tacarigua con los
modelos ajustados a los datos y las predicciones.
Figura 93. Modelo AR(4) ajustado a la serie temperaturas para la estación

Sucre y su predicción
121
Figura 94. Modelo AR(7) ajustado a la serie temperaturas para la estación
Tacarigua y su predicción
Como se puede apreciar en estas gráficas el futuro conserva algunas de

las características de su evolución en el pasado, es decir, conserva los picos
diarios, además vemos que existe una tendencia a aumentar los niveles de la
temperatura a medida que pasa el tiempo en el futuro para la estación Sucre
y existe una tendencia a mantenerse para la estación Tacarigua. Nótese que
para la estación Sucre realizamos predicciones para 18 días y así completar
el mes de febrero del 2008 y para la estación Tacarigua 17 días y así
completar el mes. Es importante resaltar que para cada 5 minutos realizamos
estas predicciones en esos días, además de que se realizó estas
predicciones a corto plazo, debido a que estos modelos producen
correlaciones de corto alcance, que caen de forma exponencial. Es por esto
que se observa en las predicciones una disminución en las ondas a medida
que transcurre el tiempo.
122
4.6 Análisis de fluctuación sin tendencia
La inspección visual de los gráficos de secuencia de las figuras 81 y 82

revelan la naturaleza fluctuante de éstas, que induce a analizarlas como si
fueran el resultado de algún proceso estocástico. Por otra parte, como
sabemos que las series temperaturas no son estacionarias, esto nos indica
que en las series existen correlaciones temporales que no son triviales, y
merecen un estudio más cuidadoso, así que emplearemos el método del
análisis de fluctuación sin tendencia, para verificar si nuestras series poseen
correlaciones de largo alcance. Los resultados de este estudio se presentan
a continuación.
Figura 95. Gráfico log-log del resultado del análisis AFST para la estación
Sucre
123
Figura 96. Gráfico log-log del resultado del análisis AFST para la estación
Tacarigua
Tabla 13. Valores del exponente de escala α obtenidos de los ajustes
lineales de las fig. 95 y 96
Estación α
Sucre 0.88
Tacarigua 0.28
Para la estación Sucre el valor de α esta próximo a 1, lo que implica que
en la serie existen correlaciones de largo alcance con el exponente de las

correlaciones γ próximo a cero, y así esta serie es ruido rosa
( S( f ) ≈ f −1 ), mientras que para la estación Tacarigua las correlaciones

en la serie son de corto alcance, es decir las correlaciones decaen
124
exponencialmente. Se ha demostrado (Koscielny Bunde, 1996 y 1998) que
los datos de temperatura atmosférica (uno elegido aleatoriamente de 14
regiones continentales) muestran fuertes correlaciones cuando aplicamos el
AFST con exponente α = 0.65 , esto es considerado como el
comportamiento de persistencia universal de los datos de temperatura.

Usando este resultado como un punto de referencia, concluimos que los
datos de temperatura para las estaciones Sucre y Tacarigua muestran
menos y mayores desviaciones respectivamente, del comportamiento
universal previamente observado (exponente) de 0.65.
125
CONCLUSIONES Y RECOMENDACIONES
Conclusiones
Después de haber analizado e interpretado los resultados arrojados en la

presente investigación, se pueden señalar las siguientes conclusiones:
• En los mapas e imágenes de distribución anual de la clorofila se

detectaron concentraciones bastante altas por la zona de Valencia, esto
es debido posiblemente a la presencia de complejos industriales y zonas
residenciales ubicadas en esta zona. Además existe una tendencia a
aumentar los niveles de concentración de la clorofila a medida que han
pasado los años.
• Los mapas e imágenes contienen las mejores estimaciones en los puntos

no muéstrales, ya que se basan en unos datos que se ajustan a una
distribución normal, suponiendo además que los semivariogramas
elegidos describen lo más realmente posible la variabilidad espacial.
• Con esta investigación se ilustra como la geoestadística constituye una

herramienta muy útil en el estudio de las distribuciones espaciales de las
variables naturales, lo cual es esencial cuando se deben tomar decisiones
que afectan al medio ambiente.
• De acuerdo a los resultados arrojados en las predicciones realizadas a

los datos de temperatura para las estaciones Sucre y Tacarigua, se infiere
que se podría registrar en el Lago aumento o disminución de los niveles
de agua, modificaciones en las precipitaciones y cambios en la química
del líquido. Si se registra un aumento persistente en los niveles de agua,
esto traería como consecuencia inundaciones en las poblaciones
adyacentes, de lo contrario obtendríamos un Lago seco o una baja sin
precedente de sus niveles. Las ramificaciones ecológicas de estos
126
cambios seguramente serán graves y se harán sentir en todo el
ecosistema del Lago y sus zonas contiguas.
Recomendaciones
Partiendo de los resultados arrojados en esta investigación, se mencionan

a continuación algunas recomendaciones que pudieran ser tomadas en
cuenta:
• Muestrear una cantidad de estaciones de monitoreo en el Lago de

manera que sea suficiente desde el punto de vista geoestadístico,
además tomar en cuenta las localizaciones de las estaciones de tal
manera que la distribución espacial se considere representativa de cada
zona lacustre, considerando factores externos que pueden influir en la
calidad del agua como es el ingreso cercano de aguas residuales
(urbanas, industriales y agropecuarias), así como también muestrear con
un GPS las coordenadas geográficas de estas estaciones. Tomando en
cuenta todo esto, se obtendría una mejor estimación en las posiciones no
muestreadas, usando el método de krigeaje puntual.
• Ya que no podemos influenciar directamente en las actividades

industriales, urbanas y agropecuarias que se llevan a cabo, las cuales
son las causantes de las grandes concentraciones de sustancias
químicas que se están descargando en el Lago de Valencia, es
recomendable que se realicen e implementen obras públicas orientadas a
desviar a otro lugar menos vulnerable todas las aguas residuales que
caen al Lago.
• Los organismos e instituciones competentes en el área, debieran de

realizar jornadas divulgativas sobre la no contaminación del Lago de
127
Valencia para que pensemos un poco en las consecuencias que ya se
detectaron y en las que se puedan detectar en un futuro.
• Se deben buscar soluciones inmediatas para el saneamiento del Lago de

Valencia, ya que a medida que pasa el tiempo se incrementa la
contaminación en el mismo y los efectos podrían ser irreparables.
• Los resultados arrojados en esta investigación, deberían ser

considerados por los organismos competentes en el área, al momento de
buscar soluciones que ayuden a mantener el equilibrio ambiental del Lago
de Valencia.
128
BIBLIOGRAFÍA
• Abasov M.T., Djafarov I.S. y Askerov G.I., 1990, Computer Based

System for Exploration, Optimization, and Reserve Estimation at the
Bakhar Field, South Apsheron, Azerbaijan, SSR, Computers &
Geosciences, Vol. 16, No. 2, pp. 245-249.
• Anselin L., 2003, An Introduction to Variography using Variowin.
• Arik A., 1990, Effects of Search Parameters on Kriged Reserve

Estimates, International Journal of Mining and Geological Engineering,
Vol. 8, No.12, pp. 305-318.
• Armstrong M. y Carignan J., 1997, “Géostatistique Linéaire, Application

au Domaine Minier.”, École de Mines de Paris, 112 p., “Géostatistique
Linéaire, Application au Domaine Minier.”, École de Mines de Paris, 112 p.
• Beran J., 1994, Statistics for Long-Memory Processes, Chapman & Hall,
New York.
• Brockwell P.J. y Davis R.A., 1996, Introduction to Time Series and

Forecasting. Springer.
• Carr J.R., 1995, Numerical Analysis for the Geological Sciences, Prentice
Hall Inc, 592p.
• Castillo J., Larrazábal G. y Torres C., (s.f.), Understanding Three-

Dimensional Circulation in Lake Valencia, Venezuela: A Numerical
Approach.
• Chauvet P., 1994, “Aide-Memoire de Géostatistique Miniere”, École des

Mines de Paris, 210 p.
• Chica-Olmo M., 1987, Análisis Geoestadístico en el Estudio de la
129
Explotación de Recursos Minerales, Tesis Doctoral, Universidad de
Granada, España, 387 p.
• Christensen R., 1993, Quadratic Covariance Estimation and Equivalence

of Predictions, Mathematical Geology, Vol. 25, No. 5, pp. 541-558.
• Cressie N., 1991, Statistics for Spatial Data. Wiley series.
• Cuador J.Q., 2004, Elementos de Geoestadística, Departamento de

Informática, Universidad de Pinar del Río, Cuba. Correo Electrónico:
cuador@info.upr.edu.cu. Disponible en Internet:
http://www.monografias.com/trabajos14/geoestadistica/geoestadistica.sht
ml - [Consultada: 15/11/2007].
• Curran P.J. y Atkinson P.M., 1998, Geoestatistics and Remote Sensing,

Progress in Physical Geography, 22, 1, pp. 61-78.
• David M., 1977, Geostatistical Ore Reserve Estimation, Elsevier,

Amsterdam, 364 p.
• de Fouquet C., 1996, Quelques Rappels Sur les Méthodes

Géostatistiques, Centre de Géostatistique, Ecole des Mines de París,
Fontainebleau, France, 4 p.
• Deutsch C.V. y Journel A.G., 1998, “GSLIB: Geostatistical Software

Library and User’s Guide”, Second Edition, Oxford University Press, 369
p.
• Echaabi J., Trochu F. y Gauvim R., 1995, A General Strength Theory

for Composite Materials Based on Dual Kriging Interpolation, Journal of
Reinforced Plastics and Composites, Vol.14, pp.211-232.
• Genton M.G., 1998, Variograms Fitting by Generalized Least Squares

Using an Explicit Formula for the Covariance Structure, Mathematica
130
Geology, Vol. 30. No. 4. pp. 323-345.
• Giraldo H., R. 2003, Introducción a la Geoestadística. Bogotá:

Universidad Nacional de Colombia. 94 p.
• Gotway C.A., 1991, Fitting Semivariogram Models by Weigmted Least

Squares, Short Note, Computers & Geosciences, Vol. 17, No. 1, pp.171-
172.
• Haas T.C., 1992, Redesigning Continental-Scale Monitoring Networks,

Atmospheric Environment, Vol. 26A, No. 18, pp. 3323-3333.
• Hamilton J.D., 1994, Time Series Analysis, Princeton University Press.
• Ho K.K.L., Moody G.B., Peng C-K., Mietus J.E., Larson M.G., Levy D.,
y Goldberger A.L., 1997, Predicting survival in heart failure cases and
controls using fully automated methods for deriving nonlinear and
conventional indices of heart rate dynamics. En: Circulation, 96, pp. 842-
848.
• Journel A.G. y Huijbregts C.J., 1978, Mining Geostatistics, Academic

Press, New York, 600 p.
• Kirchgässner G. y Wolters J., 2007, Introduction to Modern Time Series

Analysis, Springer.
• Koscielny Bunde E., Bunde A., Havlin S. y Goldreich Y., 1996, Physica
A 231, 393.
• Koscielny Bunde E., Bunde A., Havlin S., Roman H.E., Goldreich Y. y
Schellenhuber H.-J., 1998, Phys. Rev. Lett. 81, 729.
• Krajewski S.A. y Gibbs B.L., 1993, A Variaogram Primer, Gibbs

Associates, 93 p.
131
• Lamorey G. y Jacobsom E., 1995, Estimation of Semivariogram
Parameters and Evaluation of the Effects of Data Sparsity, Mathematical
Geology, Vol.27, No.3, pp. 327-358.
• Loon V. y Barfoot, 1989, Laboratorio de Geoquímica. Disponible en

Internet: http://geologia.cicese.mx/labs/lab_geoquim.htm - [Consultada:
12/12/2007].
• Matheron G., 1970, “La Théorie des Variables Regionalisées et ses

Applications” Les Cahiers du Centre de Morphologie Mathematique de
Fontainebleau, Fascicule 5, Ecole de Mines de Paris, 212 p.
• Molinero L.M., 2003, ¿Y si los datos no siguen una distribución normal?...

Bondad de ajuste a una normal. Transformaciones. Pruebas no
paramétricas. Correo Electrónico: bioestadística@alceingenieria.net.
Disponible en Internet: http://www.seh-lelha.org/noparame.htm -
[Consultada: 17/05/2008].
• Obando F.H., Villegas A.M., Betancur J.H. y Echeverri L., 2006,

Variabilidad Espacial de Propiedades Químicas y Físicas en un Typic
Udivitrands, Arenoso de la Región Andina Central Colombiana. Revista
Facultad Nacional de Agronomía, Medellín, Vol.59, No.1. p.3217-3235.
Facultad de Ciencias Agropecuarias, Universidad Nacional de Colombia.
Disponible en internet:
http://www.scielo.org.co/scielo.php?script=sci_arttext&pid=S0304-
28472006000100009&lng=en&nrm=iso&tlng=es - [Consultada:
12/12/2007].
• Ovalles V., F. A. 1991, Evaluación de la Variabilidad de Suelos a Nivel de

Parcela, para el Establecimiento en Lotes Comerciales en el Estado
Cojedes. En: Agronomía Tropical. Vol. 41, no. 1; p. 5-22.
• Pannatier Y., 1993, Ms-Windows Program for exploratory variography
132
and variogram modelling in 2D, International Workshop on Statistics of
Spatial Processes-Theory and Applications, Bari, Italy 27-30 September
1993.
• Pannatier Y., 1996, Variowin. Software for Spatial Data Analysis in 2D.
Springer, Statistics and Computing.
• Pawlowsky V., Olea R.A. y Davis J.C., 1995, Estimation of Regionalized

Composition: A Comparison of Three Methods, Mathematical Geology,
Vol.27, No. 1, pp.105-127.
• Peng, C.-K., Buldyrev S.V., Havlin S., Simons M., Stanley H.E. y
Goldberger A.L., 1994, Phys. Rev. E 49, 1685.
• Perazzo C.A., Fernández E.A., Chialvo D.R. y Willshaw P., 2000,

Fractals, pp. 297-312.
• Pitard F.F., 1994, Exploration of the Nugget Effect, R. Dimitrakopolous

(de.) Geostatistics for the Next Century, pp.124-136.
• Schaug J., Iversen T. y Pedersem U., 1993, Comparison of

Measurements and Model Results for Airborne Sulphur and Nitrogen
Components with Kriging, Atmospheric Environment, Vol.27A, No. 6, pp.
831-844.
• Shumway R.H. y Stoffer D.S., 2006, Time Series Analysis and Its
Applications With R Examples, Second Edition, Springer.
• Uriel E., 1985, Análisis de series temporales. Modelos ARIMA, Paraninfo.
• Valles A., 2005, Caracterización de los Tributarios en la Cuenca del Lago

de Valencia. Ministerio del Ambiente y de los Recursos Naturales.
Dirección General Estadal Ambiental Aragua. Laboratorio de Calidad
Ambiental. Venezuela.
133
• Wackernagel H., 1995, Multivariate Geostatistic, an Introduction with
applications, Berlin: Springer, 256 p.
• Wallace M.K. y Hawkims D.M., 1994, Applications of Geostatistics in

Plant Nematology, Supplement to Journal of Nematology 26 (45), pp. 626-
634.
• Weerts H.J.T. y Bierkens M.F.P., 1993, Geostatistical Analysis of Over

Bank Deposits of Anatomising and Meandering Fluvial Systems; Rhine-
Meuse Delta, The Netherlands, Sedimentary Geology, 85, Elsevier
Sciences Publishers B.V., pp. 221-232.
• Witt A., Kurths J. y Pikovsky A., 1998, Phys. Rev. E 58, 1800.
• Xie T. y Myers D.E., 1995, Fitting Matrix-Valued Variogram Models by

Simultaneous Diagonalization (Part I: Theory), Mathematical Geology, Vol.
27, No. 7, pp. 867-875.
• Zhang R., Myers D. E. y Warrick A. W., 1992, Estimation of the Spatial

Distribution of Soil Chemical Using Pseudo Cross-Variograms, Soil
Science Society of America Journal, Vol. 56, No. 5, pp.1444-1452.
• Zhang X.F., Van Eijkeren J.C.H. y Heemink A.W., 1995, On the

Weighted Least Squares Method for Fitting a Semivariogram Model, Short
Note, Computers & Geosciences, Vol. 21, No. 4, pp. 605,608.
• Zimmerman D.L., 1993, Another Look at Anisotropy in Geostatistics,

Mathematical Geology, Vol. 25, No. 4, pp. 453-470.
Páginas de Internet consultadas:
• http://geologia.cicese.mx/labs/lab_geoquim.htm - [12/12/2007].
134
• http://giscenter.isu.edu/training/geostats/Probsets.pdf - [09/01/2008].
• http://www.gisits.com/docs/Mini_manual_surfer.PDF - [09/01/2008].
• http://www.ilec.or.jp/database/sam/sam-05.html - [12/12/2007].
• http://www.mathworks.com/matlabcentral/fileexchange/19795#comment -
[22/07/2008].
• http://www.monografias.com/trabajos14/geoestadistica/geoestadistica.sht
ml - [15/11/2007].
• http://www.scielo.org.co/scielo.php?script=sci_arttext&pid=S0304-
28472006000100009&lng=en&nrm=iso&tlng=es - [12/12/2007].
• http://www.scielo.org.pe/scielo.php?script=sci_arttext&pid=S1561-
08882006000200009&lng=en&nrm=is - [09/01/2008].
• http://www.seh-lelha.org/noparame.htm - [17/05/2008].
• http://www.telefonica.net/web2/biomates/explora/explora_shapirow/explor
a_shapirow.htm - [17/05/2008].
135

MS PedroPacheco PDF

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

MS PedroPacheco PDF

Cargado por

Copyright:

Formatos disponibles

UNIVERSIDAD CENTRAL DE VENEZUELA

POSTGRADO EN MODELOS ALEATORIOS

Análisis Estadístico de Datos de Contaminación

Trabajo de Grado presentado por el

Tutor: Dr. José Rafael León.

Este trabajo, si bien ha requerido de mucho esfuerzo y dedicación no

A mis padres, hermana y sobrino, porque gracias a sus consejos y apoyo

A mi novia y amiga Yuceny Mata, porque gracias al fruto del inmenso

A mi amigo, Dr. Nelson Merentes, por brindarme su ayuda en los

A toda mi familia, por transmitirme energías positivas durante todo el

A mis amigos en general, en especial a Jhonny Escalona, Rommel

Al Fondo Nacional de Ciencia, Tecnología e Innovación, por otorgarme la

A la Universidad Central de Venezuela, por brindarme la oportunidad de

En este trabajo, se va a estudiar un conjunto de mediciones efectuadas

Es importante señalar, que las mediciones han sido tomadas de distintas

LISTA DE TABLAS………..……………………………………………… xvii

1.1 Variables aleatorias regionalizadas………………………………. 5

1.2 Hipótesis de la geoestadística……………………………………... 7

1.3 Conceptos necesarios de estadística básica…………………….. 7

1.3.1 Estadística descriptiva………………………………………. 7

1.3.2 Construcción de gráficos estadísticos…………………….. 11

1.4 El semivariograma experimental………………………………….. 12

1.5 Problemas más comunes encontrados en el cálculo de

1.6 Parámetros del semivariograma…………………………………... 19

1.7 Modelos teóricos de semivariogramas…………………………… 21

1.7.1 Modelo Efecto de Pepita……………………………………. 21

1.7.2 Modelo Esférico……………………………………………… 21

1.7.3 Modelo Exponencial………………………………………… 22

1.7.4 Modelo Gaussiano…………………………………………... 23

1.7.5 Modelo Potencia……………………………………………... 24

1.9 Análisis de anisotropía……………………………………………... 26

1.11 Ecuaciones del krigeaje…………………………………………... 28

1.11.1 Krigeaje Simple…………………………………………….. 29

1.11.2 Krigeaje Ordinario………………………………………….. 29

2.1 Área de estudio……………………………………………………... 32

2.2 Recolección de los datos…………………………………………... 33

2.3 Análisis geoestadístico……………………………………………... 34

2.4 Análisis exploratorio de los datos…………………………………. 36

2.5 Análisis estructural…………………………………………………. 45

2.6.1 Nitrógeno Total………………………………………………. 72

2.6.3 Clorofila “a”…………………………………………………… 75

2.7 Evolución temporal de la clorofila “a”…………………………….. 75

2.7.1 Clorofila “a”, año 1998………………………………………. 77

2.7.2 Clorofila “a”, año 1999………………………………………. 78

2.7.3 Clorofila “a”, año 2001………………………………………. 80

2.7.5 Clorofila “a”, año 2004………………………………………. 83

2.8 Predicción idónea…………………………………………………... 83

3 SERIES TEMPORALES Y ANÁLISIS DE FLUCTUACIÓN SIN

3.1 Conceptos de series de tiempo……………………………………. 87

3.2 Componentes de una serie de tiempo…………………………… 89

3.3 Modelos de series temporales…………………………………….. 90

3.3.1 Modelos de medias móviles (MA)………………………….. 94

3.3.2 Modelos autorregresivos (AR)…………………………….... 95

3.3.3 Modelos autorregresivos de medias móviles (ARMA)…... 95

3.3.4 Modelos autorregresivos integrado de medias móviles

ANÁLISIS DE FLUCTUACIÓN SIN TENDENCIA

3.4 Correlaciones de corto alcance…………………………………… 97

3.5 Correlaciones de largo alcance…………………………………… 98

3.6 Análisis de fluctuación sin tendencia…………………………..... 99

4 ESTUDIO DE LAS SERIES TEMPERATURAS Y APLICACIÓN

4.1 Recolección de los datos…………………………………………... 104

4.3 Análisis preliminar de las series temperaturas………………….. 106

4.4 Ajuste de modelos…………………………………………………... 117