Está en la página 1de 45

Estadı́stica Espacial en

Epidemiologı́a y Medio Ambiente

Antonio López Quı́lez

Primavera, 2006
Estadı́stica Espacial en
Epidemiologı́a y Medio Ambiente

Curso de Doctorado
Programa: Estadı́stica y Optimización
Créditos: 3

Curso: 2005-2006
Profesor: Antonio López Quı́lez
Dept. d’Estadı́stica i Investigació Operativa
Universitat de València

Objetivos

Establecer la problemática del análisis estadı́stico de la variabilidad espacial inherente


a los problemas con datos epidemiológicos y medioambientales. Introducir al estudiante
en los rudimentos de la Estadı́stica Espacial de modo que entienda sus objetivos, asimile
sus lı́neas argumentales básicas y sea capaz de aplicar algunos de los modelos de uso más
frecuente. Analizar la aplicación de la Geoestadı́stica en el ámbito de la Epidemiologı́a
y en el del Medio Ambiente. Presentar la metodologı́a aplicable al contexto, tanto desde
una perspectiva frecuentista como Bayesiana.

Programa
Unidad I. Introducción ( Duración: 0.3 créditos)

Tema 1.- Estadı́stica, Epidemiologı́a y Medio Ambiente.


Epidemiologı́a. Ciencias Ambientales. Variabilidad espacial. Estudios observacionales.
Datos epidemiológicos y medioambientales. Modelización estadı́stica. Futuro de la
Estadı́stica Espacial.

Unidad II. Geoestadı́stica (Duración: 1.2 créditos)

Tema 2.- Procesos continuos estacionarios.


Procesos estocásticos espaciales. Estacionariedad. Estacionariedad de los incremen-
tos. Modelos de variograma.
3

Tema 3.- Estimación del variograma.


Estimación empı́rica del variograma. Estimación paramétrica de modelos de vari-
ograma. Validación cruzada del variograma ajustado.
Tema 4.- Predicción espacial.
Suavización e interpolación. Kriging ordinario. Kriging universal. Kriging pulido por
la mediana. Cokriging.

Unidad III. Modelos de estructura compleja (Duración: 0.6 créditos)

Tema 5.- Modelos Lineales Generalizados.


Definición de Modelo Lineal Generalizado (GLM). Estimación de un GLM. Selección
del mejor modelo GLM. Análisis de residuos.
Tema 6.- Modelos jerárquicos Bayesianos.
Introducción. Definición de modelo jerárquico. Ejemplos de modelos jerárquicos. Pro-
cesos espaciales. Inferencia Bayesiana en modelos jerárquicos.

Unidad IV. Geoestadı́stica basada en modelos (Duración: 0.9 créditos)

Tema 7.- Inferencia Bayesiana para el modelo lineal Gaussiano.


Formulación. Parámetros de correlación fijos. Incertidumbre en los parámetros de
correlación.
Tema 8.- Modelos Lineales Generalizados con estructura espacial.
Fundamentos teóricos. Predicción. Inferencia Bayesiana. Aplicación con datos dis-
cretos.

Método de evaluación

La evaluación se compone de la resolución de ejercicios propuestos en las clases prácti-


cas y la elaboración de un trabajo aplicado con datos de un problema concreto, que
se propondrá a la vista de los intereses concretos de los estudiantes en la materia y su
formación anterior.
4

Bibliografı́a
Banerjee, S., Carlin, B.P. y Gelfand, A.E. (2004). Hierarchical Modeling and Analysis
for Spatial Data. Chapman & Hall, Boca Raton.
Christensen, O.F. y Ribeiro Jr., P.J. (2002) geoRglm: A package for Generalised Linear
Spatial Models. R-NEWS Vol 2, No 2.
http://cran.r-project.org/doc/Rnews
Cressie, N. (1993). Statistics for spatial data, segunda edición. John Wiley and Sons,
New York.
Diggle, P.J., Tawn, J.A. y Moyeed, R.A. (1998). Model-based Geostatistics (con dis-
cusión). Applied Statistics, 47:299-350.
Diggle, P.J., Ribeiro, P.J. y Christensen, O.F. (2003). An introduction to Model-based
Geostatistics. En Spatial Statistics and Computational Methods, ed. J. Moller, Springer
Verlag, New York.
Goovaerts, P. (1997). Geostatistics for Natural Resources Evaluation. Oxford University
Press, New York.
Ripley, B. D. (1981). Spatial Statistics. John Wiley and Sons, New York.
R Development Core Team (2000). An introduction to R.
http://cran.r-project.org.
Ribeiro, P. J. y Diggle, P. J. (2000). geoR/geoS: functions for geostatistical analysis
using R or S-PLUS. Technical Report ST-99-09, versión revisada. Department of
Mathematics and Statistics, Lancaster University.
http://www.maths.lancs.ac.uk/∼ribeiro/geoS.html.
Ribeiro Jr., P. J. y Diggle, P. J. (2001) geoR: A package for geostatistical analysis. R-
NEWS Vol 1, No 2.
http://cran.r-project.org/doc/Rnews
Venables, W. N. y Ripley, B. D. (1999). Modern Applied Statistics with S-PLUS, tercera
edición. Springer, New York.
http://www.stats.ox.ac.uk/pub/MASS3.
Waller, L. A. y Gotway, C. A. (2004). Applied Spatial Statistics for Public Health Data.
John Wiley and Sons, Hoboken, New Jersey.
Unidad I. Introducción

Tema 1. Estadı́stica, Epidemiologı́a y Medio Ambiente

La primera parte del programa está destinada a introducir la materia, justificar su


importancia y motivar la estructura del programa. El tema considerado pretende cubrir
este objetivo, planteando la conexión obligada entre la Estadı́stica Espacial y los estudios
epidemiológicos y medioambientales.

5
6

Tema 1.- Estadı́stica, Epidemiologı́a y Medio Ambi-


ente
1. Epidemiologı́a

2. Ciencias Ambientales

3. Variabilidad espacial

4. Estudios observacionales

5. Datos epidemiológicos y medioambientales

6. Modelización estadı́stica

7. Futuro de la Estadı́stica Espacial

Vivimos en un mundo cambiante y lleno de contrastes. La salud, la riqueza y el bi-


enestar han aumentado en muchas regiones del planeta. La esperanza de vida ha crecido
de forma espectacular. La condición social de muchas personas ha mejorado gracias al
acceso a servicios sociales y de salud, medios de comunicación y de entretenimiento. Sin
embargo, todo esto ocurre en medio de los dañinos efectos de las emisiones tóxicas y
los vertidos contaminantes con los que estropeamos nuestro entorno. Es preocupante la
contaminación del suelo, del aire y del agua, los riesgos que conllevan las emisiones ra-
dioactivas, el calentamiento global del planeta y el efecto invernadero, la contaminación
de la cadena alimenticia y el agotamiento de los recursos naturales. La aparición de nuevas
enfermedades o el crecimiento de la incidencia de algunas de ellas son consecuencia di-
recta de los cambios tecnológicos y socioeconómicos de nuestra sociedad. Es evidente la
necesidad de comprometerse seriamente con la salud de las personas y de nuestro Medio
Ambiente.

Los problemas relacionados con el Medio Ambiente surgen de las ciencias naturales y
de la vida de forma más complicada y más urgente cada dı́a. Conforme crece la población
humana, debemos entender mejor el entorno en que vivimos y nuestro efecto sobre él.
Las agresiones medioambientales no respetan fronteras polı́ticas artificiales, aunque son
generalmente los gobiernos los que fijan las polı́ticas ambientales. Los cientı́ficos de todos
los contextos, incluyendo los estadı́sticos, tienen que jugar un papel importante para
proporcionar a los gobiernos una adecuada descripción del equilibrio medioambiental,
mediante un análisis imparcial de nuestra salud ecológica.
7

También los problemas de Salud Pública transcienden, gracias al movimiento de per-


sonas y mercancı́as, hasta situaciones globalizadas. Problemas como los generados por la
gripe asiática o el ”mal de las vacas locas”han puesto en alerta los sistemas de preven-
ción y vigilancia de todo el mundo. Los paı́ses europeos unen esfuerzos y criterios para
establecer sistemas de análisis de la salud pública y detectar problemas epidemiológicos.
En esta preocupación están inmersas la administración nacional, la autonómica y la local,
con competencias repartidas.

1. Epidemiologı́a

La Epidemiologı́a se interesa por la distribución y las causas de salud y enfermedad


en las poblaciones. Su campo de interés inicial fue el de las enfermedades contagiosas,
pero actualmente se extiende a las enfermedades crónicas, a la biologı́a humana, a los
métodos de diagnóstico y tratamiento, a los ensayos terapéuticos de medicamentos, a los
métodos pronósticos e incluso a la administración de los servicios de salud. Los princi-
pios, las técnicas y las aplicaciones de la epidemiologı́a contemporánea se basan en el
concepto que entiende la salud como el producto de las interacciones entre el hombre y
su medio. La demografı́a, la diversidad geográfica, las caracterı́sticas socioeconómicas, los
hábitos de vida y las intervenciones sanitarias, entre otros factores, determinan el riesgo
de enfermedad.

2. Ciencias Ambientales

El Medio Ambiente es el conjunto de circunstancias fı́sicas que rodean a un organismo,


y la Ecologı́a es la ciencia que estudia la relación de un organismo con su entorno, es decir,
con su medio ambiente. Ası́ pues, la noción de proximidad en el espacio está implı́cita o
explı́citamente presente en todas las Ciencias Ambientales. La proximidad es una noción
relativa, dependiente de la escala espacial de la investigación cientı́fica. La ubicación de un
almacén de residuos tóxicos puede afectar a un vecindario de varios kilómetros cuadrados;
una planta térmica puede alterar toda una extensa región, a menudo altamente poblada;
y un incremento del efecto invernadero puede tener un impacto global sobre el clima.
Pero dicho impacto global se experimenta a nivel local, modificando aspectos concretos.
Una cantidad como la temperatura media global es un resumen poco informativo de cómo
puede afectar en nuestras vidas diarias el calentamiento del planeta.

El campo de trabajo en un estudio medioambiental es interdisciplinario, por cuan-


to pueden intervenir diferentes ciencias: ecologı́a, epidemiologı́a, agricultura, toxicologı́a,
8

geologı́a, oceanografı́a o meteorologı́a, entre otras. La colaboración entre ellas está con-
siguiendo entender y describir las complejas interacciones existentes entre los seres vivos
y el medio en que vivimos.

3. Variabilidad Espacial

La variabilidad espacial está omnipresente en cualquier investigación epidemiológica


y/o ambiental. Su estudio es un área relativamente nueva dentro de la Estadı́stica. La Es-
tadı́stica Espacial fue brevemente esbozada por R.A. Fisher en su investigación estadı́stica
aplicada a la agricultura. Fisher en los años 30 escribió:

Tras seleccionar el área, habitualmente no tenemos otra guı́a que el hecho


ampliamente verificable de que las parcelas más próximas son normalmente
más parecidas, en términos de producción de la cosecha, que aquellas que están
más alejadas.

Éste es el punto crucial: modelizar la variabilidad espacial o eliminarla. La aleator-


ización espacial ha tenido un impacto directo sobre el desarrollo de cultivos resistentes,
productivos y adaptados al tipo de suelo y a las condiciones climatológicas.

La distribución aleatorizada de los tratamientos en las parcelas justifica realizar un


análisis de la varianza a fin de contrastar las diferencias entre dichos tratamientos. Sin
embargo, controlar el sesgo de esta forma implica pagar un precio en términos de la
eficiencia estadı́stica del análisis.

4. Estudios Observacionales

Desafortunadamente, en los estudios medioambientales no suele ser posible realizar


un riguroso diseño del experimento. La situación cambia cuando pasamos de estudiar
plantas a analizar organismos y fenómenos móviles. Su movilidad está en relación con
una mayor diversidad genética, de forma que, como unidades experimentales, presentan
una mayor heterogeneidad. Los experimentos de toxicologı́a controlados en el laboratorio
intentan evitar este problema, aunque la variabilidad entre los humanos produce enormes
dificultades en el análisis de nuevos tratamientos en las ciencias médicas.

Una segunda consecuencia de la experimentación con unidades móviles es que la movil-


idad es parte de su naturaleza, haciéndolos difı́cil de encontrar, de rastrear, e incluso de
9

medir. Las componentes básicas del diseño de experimentos, es decir, agrupación, aleator-
ización y replicación, no suelen estar disponibles para el investigador. Incluso cuando uno
es capaz de agrupar los sujetos por edad y sexo, puede que un factor genético descono-
cido determine cómo un paciente responderá a un tratamiento determinado. En estudios
epidemiológicos, se pueden seleccionar controles equilibrados con los casos, pero los casos
no son asignados aleatoriamente a las distintas zonas. La duplicación de ensayos quı́micos
permite valorar el error de medida en un estudio sobre la contaminación atmosférica, pero
una investigación de sus efectos sobre la salud no admite la replicación.

Ası́ pues, en vez de un cuidadoso diseño de experimentos, nos enfrentamos a problemas


planteados sobre estudios observacionales. A menudo una única observación constituye
toda la información disponible.

5. Datos Epidemiológicos y Medioambientales

Los problemas epidemiológicos y medioambientales vienen relacionados con observa-


ciones espaciales de distinta ı́ndole. Los datos son continuos o discretos, están agregados
espacialmente o son observaciones individuales en puntos del espacio, sus localizaciones se
encuentran dispuestas de forma regular o irregular, e incluso, estas localizaciones provienen
de una región espacial continua o de un conjunto discreto.

Los datos espaciales se pueden clasificar en tres grupos fundamentales según el contex-
to de observación del que provienen: observaciones de un fenómeno continuo en el espacio,
datos en una red fija de localizaciones y sucesos que ocurren en el espacio proporcionando
un conjunto aleatorio de puntos llamado patrón puntual. Estos tipos de datos diferenci-
ados dan origen a formas distintas de modelización y, por tanto, de análisis estadı́stico.
Ejemplos de cada clase de datos, destacando los elementos diferenciadores, motivan el
estudio de las tres situaciones. La modelización estadı́stica de los problemas epidemiológi-
cos y medioambientales conlleva la adecuada incorporación de estos fenómenos y de las
relaciones de dependencia espacial que puedan existir entre las observaciones.

6. Modelización Estadı́stica

El análisis estadı́stico puede intentar salvar las dificultades creadas por la carencia de
diseño experimental mediante el estudio de la variabilidad. El investigador puede aventu-
rar cuáles son las posibles causas de esta variabilidad, pero un modelo adecuado deberı́a
describir la situación real estudiada. Ası́, un estudio de un fenómeno meteorológico con-
10

creto deberı́a involucrar sus relaciones fı́sicas con la presión atmosférica y los vientos, pero
esto requiere la incorporación al modelo de componentes espaciales, e incluso temporales.

La presencia de la dimensión espacial en los problemas epidemiológicos y medioam-


bientales exige la creación y el desarrollo de un marco estadı́stico que permita inferir
adecuadamente sobre los procesos y sus parámetros de interés. Los datos espaciales son
habitualmente dependientes entre sı́ y requieren modelos espaciales que recojan su es-
tructura de interrelaciones. Esta modelización y su inferencia no son siempre fáciles de
realizar, pero esto no significa que sean inviables.

Una consideración adicional sobre el comportamiento de los modelos estadı́sticos espa-


ciales es la cuestión del nivel de agregación espacial. Los vecindarios se agrupan en barrios,
municipios, comarcas, provincias y estados. Pero los datos pueden ser recogidos a un nivel
de agregación y las covariables a otro, e incluso las decisiones polı́ticas pueden tomarse
a un tercer nivel distinto. El cambio de nivel de agregación espacial puede conducir a
conclusiones completamente diferentes. Este fenómeno es denominado en la literatura
epidemiológica como falacia ecológica, y en geografı́a como problema de unidad de área
modificable. En Estadı́stica se conoce en el contexto del análisis de datos categóricos como
paradoja de Simpson. No es un problema fácil de resolver y requiere un cuidado especial
en cualquier problema epidemiológico y medioambiental.

7. Futuro de la Estadı́stica Espacial

El empleo de técnicas estadı́sticas en Epidemiologı́a es habitual desde sus inicios.


Recientemente se ha acuñado el término Epidemiologı́a Espacial referido a diferentes
tópicos sobre el estudio de la dispersión espacial de enfermedades, incluyendo la cartografı́a
de enfermedades, la detección de agrupaciones de casos, el análisis ecológico, etc. El interés
creciente en esta materia ha motivado la publicación de libros monográficos y la aparición
de números especiales sobre esta cuestión en revistas cientı́ficas prestigiosas.

El campo de la Estadı́stica Medioambiental es relativamente joven. El término “envi-


ronmetrics” ha alcanzado cierto reconocimiento recientemente gracias a la existencia de
varias revistas cientı́ficas casi completamente dedicadas a la materia (Environmetrics pub-
licada por la International Environmetrics Society y Wiley; Ecological and Environmental
Statistics publicada por Kluwer, y Journal of Agricultural, Biological and Environmen-
tal Statistics publicada por la American Statistical Association). También las principales
revistas de Estadı́stica han recogido importantes contribuciones durante las últimas dos
décadas. En estos momentos, algunas de las principales sociedades cientı́ficas tienen una
sección dedicada a este campo. El desarrollo de nuevas metodologı́as y aplicaciones se
11

verá fomentado por este interés manifiesto.

Conforme avanzan los años, parecen aumentar las posibilidades para analizar estadı́sti-
camente problemas epidemiológicos y medioambientales de gran complejidad, con datos
multivariantes de naturaleza espacial y temporal. Los métodos de Monte Carlo por cade-
nas de Markov (MCMC) proporcionan una herramienta para analizar estas situaciones
que ha propiciado el rápido desarrollo de la Estadı́stica Espacial en la última década
del siglo XX. A pesar de ello, todavı́a quedan muchas cuestiones pendientes. La comu-
nidad cientı́fica debate sobre la complejidad de los modelos y la fiabilidad de las técnicas
empleadas.

El tiempo es una componente importante en cualquier estudio cientı́fico dinámico.


Ası́, la modelización de aspectos meteorológicos o del desarrollo y evolución de epidemias
requiere de modelos espacio-temporales. Gran parte de la investigación actual se está en-
focando en esta dirección.

Destaca la necesidad de crear una amplia baterı́a de herramientas estadı́sticas para


describir, analizar y controlar el estado de un sistema ecológico. En particular, es impre-
scindible el desarrollo de software adecuado. En los próximos años, tanto los organismos
públicos como las empresas privadas necesitarán un gran número de profesionales espe-
cializados capaces de utilizar e interpretar dichas técnicas.
Unidad II. Geoestadı́stica

Tema 2. Procesos continuos estacionarios

Tema 3. Estimación del variograma

Tema 4. Predicción espacial

La Geoestadı́stica es un término que se acuñó en los años 50 para denominar a las


técnicas estadı́sticas aplicadas al análisis geográfico. Su desarrollo, en esa década y en la
siguiente, se debe a su aplicación a la ingenierı́a de minas, para predecir las reservas de
mineral a partir de observaciones espacialmente distribuidas en una región.

Hay una gran variedad de problemas que pueden resolverse utilizando métodos geoes-
tadı́sticos. La caracterı́stica común a todos ellos es que los datos pueden verse como una
realización, habitualmente parcial, de un proceso estocástico sobre una región espacial
continua. Matheron (1963) denomina esta situación como problema de variables regional-
izadas enfatizando la naturaleza espacial continua del conjunto de ı́ndices.

La clave fundamental en la modelización de la relación espacial en el proceso es el


variograma que será objeto de modelización y estimación para describir adecuadamente
el fenómeno observado. El segundo tema de la unidad está dedicado a esta cuestión.

El objetivo principal en la aplicación de la geoestadı́stica es habitualmente la predicción


en un punto o en un conjunto de puntos de la región observada. La técnica de predicción
espacial más empleada es el kriging, por lo que tiene un papel principal en el último tema
de la unidad.

12
13

Tema 2.- Procesos continuos estacionarios


1. Procesos estocásticos espaciales

a) Función de covarianza

2. Estacionariedad

a) Estacionariedad estricta
b) Estacionariedad de segundo orden
c) Correlograma

3. Estacionariedad de los incrementos

a) Estacionariedad intrı́nseca
b) Variograma
c) Isotropı́a

4. Modelos de variograma

a) Efecto pepita, rango y alféizar


b) Modelos isotrópicos
c) Modelos anisotrópicos

1. Procesos estocásticos espaciales

La formulación básica de un proceso estocástico se concreta a la situación espacial


tomando como conjunto de ı́ndices una determinada región continua D del espacio.
{Z(s) : s ∈ D}

Función de covarianza

La principal caracterı́stica de interés para el estudio espacial es la función de covari-


anza, que determina, para cada par de puntos, la covarianza entre las variables aleatorias
correspondientes.
Cov(Z(s1 ), Z(s2 ))
14

2. Estacionariedad

La predicción es posible si el proceso tiene, en algún aspecto, un comportamiento


estable en toda la región de estudio.

Estacionariedad estricta

La estacionariedad estricta es una condición muy fuerte y poco habitual, pues es-
tablece que las distribuciones de probabilidad conjunta permanezcan invariables ante una
traslación.
Fs1 +h,...,sm +h (z1 , . . . , zm ) ≡ Fs1 ,...,sm (z1 , . . . , zm )

Estacionariedad de segundo orden

Una condición menos exigente es la estacionariedad de segundo orden, o estacionar-


iedad débil, que conlleva que la esperanza sea constante y que la función de covarianza
sea invariante por traslación.
E(Z(s)) = µ, ∀s ∈ D
Cov(Z(s1 ), Z(s2 )) = C(s1 − s2 ), ∀s1 , s2 ∈ D

De esta forma, la función de covarianza de un proceso estacionario se puede expresar


en función del vector de diferencia entre los puntos. A la función C(·) se le denomina
covariograma.

Correlograma

Igualmente, se define el correlograma, o función de autocorrelación, que para cada


vector proporciona la correlación entre las variables de dos puntos separados por ese
vector.

3. Estacionariedad de los incrementos

Una perspectiva diferente de la estacionariedad se obtiene al estudiar la variabilidad


de los incrementos del proceso.
15

Estacionariedad intrı́nseca

La propiedad de estacionariedad intrı́nseca se verifica si la varianza de las diferencias


entre las variables en dos puntos depende únicamente del vector que los separa.

V ar(Z(s1 ) − Z(s2 )) = 2γ(s1 − s2 ), ∀s1 , s2 ∈ D

Esta condición es más débil que la estacionariedad de segundo orden y se emplea habit-
ualmente en la modelización geoestadı́stica.

Variograma

Se define ası́ el variograma como la función 2γ de dicho vector s1 − s2 . A la función γ


se le denomina semivariograma.

Isotropı́a

Por otro lado, un proceso intrı́nsecamente estacionario es isotrópico si el variograma


depende del vector a través de su longitud h = ks1 − s2 k, sin importar la dirección. Se
denomina proceso homogéneo a un proceso intrı́nsecamente estacionario e isotrópico.

4. Modelos de variograma

Para realizar una predicción de un proceso intrı́nsecamente estacionario es conveniente


modelizar su variograma mediante una función semidefinida negativa. Habitualmente se
emplea la mitad del variograma, que se denomina semivariograma.

Efecto pepita, rango y alféizar

Varios elementos aparecen diferenciados en el semivariograma: la pepita, el alféizar y


el rango.

Se denomina efecto pepita, término extraı́do de la aplicación a la minerı́a, a la


situación en que el variograma no tiende a 0 al acercarse al origen. Esto puede ser
16

debido al error de medida o a la variación a muy pequeña escala.

lı́m γ(h) = c0 > 0


h→0

De forma lógica, un semivariograma crece con la distancia, recogiendo el fenómeno


de que el proceso es similar en puntos próximos, hasta que se estabiliza en un valor
llamado alféizar que expresa la variabilidad entre puntos distantes.

lı́m γ(h) = cs > 0


h→∞

El rango es la distancia hs a la que se alcanza el alféizar, γ(h) = cs , ∀h > hs .

Modelos isotrópicos

Entre los muchos modelos isotrópicos de semivariograma que se han propuesto, los
más empleados son el lineal, esférico, exponencial, cuadrático racional, ondulado, po-
tencial y Gaussiano. Éstos constituyen una amplia baterı́a representativa de diferentes
comportamientos de los procesos espaciales.

Modelos anisotrópicos

Los modelos anisotrópicos permiten acercarse a situaciones en las que la dirección es


fundamental en el fenómeno estudiado.
17

Tema 3.- Estimación del variograma


1. Estimación empı́rica del variograma

a) Método de los momentos


b) Agrupación y rango del variograma
c) Estimadores robustos

2. Estimación paramétrica de modelos de variograma

a) Máxima verosimilitud
b) Máxima verosimilitud restringida
c) Mı́nima norma cuadrática
d ) Mı́nimos cuadrados

3. Validación cruzada del variograma ajustado

1. Estimación empı́rica del variograma

Método de los momentos

La estimación del variograma más sencilla puede obtenerse por el método de los mo-
mentos, proporcionando para cada vector su estimador mediante la varianza muestral de
la diferencia del proceso entre los pares de puntos separados por ese vector.

1 X
2γ̂(h) = (Z(si ) − Z(sj ))2 ,
|N (h)|
N (h)

donde
N (h) = {(si , sj ) : si − sj = h; i, j = 1, . . . , n}.

En la práctica, la estimación se realiza permitiendo cierta región de tolerancia alrededor


del vector. Las regiones de tolerancia deben ser tan pequeñas como se pueda, pero con el
número de pares suficiente para realizar una estimación estable.
18

Agrupación y rango del variograma

Algunas cuestiones de ı́ndole práctico surgen sobre el nivel de agrupación y el rango


de estimación posible, que pueden ser ilustradas con varios ejemplos.

Estimadores robustos

Una objeción a este estimador del variograma es su inestabilidad ante la presencia de


valores extremos, por lo que se han propuesto diferentes estimadores robustos mediante
la introducción de un factor corrector del sesgo o el uso de la mediana.
 4
 1 X   0,494

1/2
2γ̂(h) = |Z(si ) − Z(sj )| / 0,457 +
 |N (h)|  |N (h)|
N (h)

4
2γ̂(h) = med |Z(si ) − Z(sj )|1/2 : si , sj ) ∈ N (h)
 
/B(h)
donde B(h) es un factor corrector del sesgo que tiende asintóticamente a 0.457.

2. Estimación paramétrica de modelos de variograma

La estimación obtenida del variograma no puede ser usada directamente para la predic-
ción espacial, pues no es necesariamente semidefinida negativa. Hay que buscar un modelo
válido de semivariograma que se aproxime a la dependencia espacial encontrada por el
semivariograma empı́rico, seleccionando, de las familias expuestas en el tema anterior,
aquella que mejor describa el comportamiento observado. La estimación de los parámet-
ros puede realizarse por diferentes métodos como los de máxima verosimilitud, máxi-
ma verosimilitud restringida, mı́nima norma cuadrática, mı́nimos cuadrados y mı́nimos
cuadrados generalizados, presentando cada uno de ellos ventajas e inconvenientes.

3. Validación cruzada del variograma ajustado

El diagnóstico del variograma ajustado puede realizarse mediante validación cruzada.


Esto permite valorar la capacidad del variograma para describir la variabilidad del prob-
lema estudiado. También puede determinarse la influencia de una observación concreta.
Para ello, el procedimiento consiste en estimar el variograma sin esa observación, predecir
el proceso en ese punto y compararlo con lo realmente observado. La validación cruzada
19

se emplea también para comparar el impacto de distintos modelos sobre los resultados de
la predicción y para estimar el error de predicción.
20

Tema 4.- Predicción espacial


1. Suavización e interpolación

a) Escalas de variación
b) Superficies de tendencia

2. Kriging ordinario

a) Formulación
b) Mejor predictor lineal insesgado
c) Efecto de los parámetros del variograma y su estimación

3. Kriging universal

a) Formulación
b) Predicción
c) Estimación de los parámetros de la media
d ) Kriging en bloques

4. Kriging pulido por la mediana

a) Formulación
b) Algoritmo de estimación
c) Estimación de la tendencia espacial

5. Cokriging

El objetivo final de los estudios medioambientales es frecuentemente la predicción sobre


la región espacial completa. Para ello, la modelización y estimación de la variabilidad del
proceso, analizada en el tema anterior, constituyen una herramienta fundamental para
valorar el error producido por la predicción.

1. Suavización e interpolación

A partir de los datos observados en diferentes puntos, varios métodos consiguen una
superficie interpolada que pasa por estas observaciones. Pero la posible presencia de error
en la medición o de distorsión del proceso hace que la interpolación sea poco útil. En
cambio, la obtención de una superficie suave que se aproxime a los datos proporciona un
modelo global que intenta recoger las principales caracterı́sticas del fenómeno estudiado.
21

Escalas de variación

Para obtener una suavización, es importante distinguir entre las diferentes escalas de
variación presentes en el problema, componiendo un modelo que contemple la incertidum-
bre espacial global, o variación a gran escala, y el comportamiento local, o variación a
pequeña escala,

Z(s) = Y (s) + ε(s).

Superficies de tendencia

Entre las técnicas para calcular estas superficies suavizadas cabe destacar las medias
móviles y las superficies de tendencia. Las medias móviles pueden ser empleadas como en
las series temporales y ofrecen para cada punto una ponderación local de las observaciones
próximas. Las superficies de tendencia son una generalización a mayor dimensión del
ajuste de curvas por mı́nimos cuadrados. Pueden ser consideradas como un primer filtro
que recoge la variación a gran escala.

El ajuste de superficies de tendencia mediante regresión polinomial de las coordenadas


obtiene una forma suavizada del comportamiento global de los datos analizados. Se trata
de funciones bidimensionales de la forma

X
f (x, y) = ars xr y s .
r+s≤p

Hay varias formas de representar una superficie de tendencia o cualquier otra superficie
obtenida por suavización o predicción del proceso espacial. Se puede utilizar un diagrama
de contorno con las curvas de nivel, o una imagen coloreada de las mismas, además de la
gráfica tridimensional en perspectiva.

Además de su importante papel descriptivo, la eliminación de la superficie de ten-


dencia facilita el análisis de la variabilidad a pequeña escala. Los residuos obtenidos tras
eliminar la tendencia muestran las observaciones espacialmente anómalas. El estudio de la
autocorrelación espacial de estos residuos determinará la posible necesidad de un análisis
más detallado de la estructura espacial del problema.
22

2. Kriging ordinario

El método de predicción espacial más extendido es el kriging, término acuñado en


honor del trabajo del ingeniero de minas D.G. Krige, que consiste en la predicción lineal
espacial óptima empleando un modelo de semivariograma para recoger la estructura de
segundo orden del proceso.

Formulación

El denominado kriging ordinario consiste en la predicción lineal insesgada óptima,


considerando que el proceso se puede descomponer en la suma de un valor medio fijo y
un proceso intrı́nsecamente estacionario,
Z(s) = µ + ε(s),
con semivariograma γ(h) conocido.

El predictor lineal del proceso en un punto arbitrario s0 es p(Z; s0 ) = ni=1 λi Z(si ),


P

donde exigiremos ni=1 λi = 1 para que sea insesgado. Hay una versión de kriging denom-
P

inado kriging simple en la que µ es conocida y los coeficientes λi no están restringidos a


sumar 1.

El kriging consiste en la determinación del mejor de estos predictores en el sentido de


que minimice el error cuadrático medio de predicción,
σe2 ≡ E(Z(s0 ) − p(Z; s0 ))2 .

Mejor predictor lineal insesgado (BLUP)

Este predictor se obtiene a través de la resolución del sistema de ecuaciones de predic-


ción resultantes de la minimización del error cuadrático medio. Puede ser expresado como
0
(1 − 10 Γ−1 γ)

pk (Z; s0 ) = γ + 1 0 −1 Γ−1 Z,
1Γ 1
donde γ = (γ(s1 − s0 ), . . . , γ(sn − s0 ))0 y Γ es la matriz n × n cuyo elemento (i, j) es
γ(si − sj ).

La varianza de predicción puede expresarse como


σk2 (s0 ) = γ 0 Γ−1 γ − (10 Γ−1 γ − 1)2 /(10 Γ−1 1).
23

A partir de las expresiones anteriores, podemos construir intervalos de predicción al


100(1 − α) % mediante
pk (Z; s0 ) ± z1−α/2 σk (s0 ),
utilizando los cuantiles de la normal estandarizada.

Efecto de los parámetros del variograma y su estimación

Hay que prestar especial atención al efecto que produce sobre el kriging una variación
en los parámetros del variograma, ası́ como a la necesidad de considerar el error de esti-
mación de dichos parámetros como una fuente de variabilidad presente en el análisis. Esto
produce una subestimación de la varianza del error de predicción, al no incorporar dicho
error de estimación.

3. Kriging universal

Formulación

El kriging universal generaliza el kriging ordinario, permitiendo que el valor medio del
proceso no sea constante, sino una combinación lineal de funciones conocidas o covariables
ligadas a las mismas localizaciones. De esta forma, el kriging universal incorpora términos
de regresión y correlación espacial.

Z(s) = β0 + β1 f1 (s) + . . . + βp fp (s) + ε(s),

donde las fj (·) son funciones de la localización espacial s o variables explicativas asociadas
a los puntos.

El vector de datos Z puede escribirse como

Z = Xβ + ε,

donde X es la matriz n × (p + 1) cuyo elemento (i, j) es fj−1 (si ).

Predicción

El predictor lineal insesgado en un punto arbitrario s0 es p(Z; s0 ) = ni=1 λi Z(si ), suje-


P

to a las restricciones λ0 X = x0 para garantizar su insesgadez, con x = (f0 (s0 ), f1 (s0 ), . . . , fp (s0 ))0 .
24

La predicción óptima, que minimiza el error cuadrático medio, se realiza de forma


similar al caso anterior añadiendo tantos coeficientes como términos de regresión aparecen
en la media. La expresión del predictor resultante es
0
pk (Z; s0 ) = γ + X(X0 Γ−1 X)−1 (x − X0 Γ−1 γ) Γ−1 Z,


La varianza de predicción puede expresarse como

σk2 (s0 ) = γ 0 Γ−1 γ − (x − X0 Γ−1 γ)0 (X0 Γ−1 X)−1 (x − X0 Γ−1 γ),

y el intervalo de predicción al 100(1 − α) %

pk (Z; s0 ) ± z1−α/2 σk (s0 ).

Estimación de los parámetros de la media

La estimación de los parámetros de la media se obtiene por mı́nimos cuadrados gener-


alizados, asumiendo que los datos Z satisfacen un modelo lineal general con E(Z) = Xβ
y V ar(Z) = Σ,
β̂ gls = (X0 Σ−1 X)−1 X0 Σ−1 Z.

Kriging en bloques

En algunas situaciones se desea predecir el proceso en una pequeña zona. El kriging en


bloques realiza esa predicción modificando las expresiones del kriging universal mediante
integrales que promedian en esa zona tanto el variograma, como las covariables.

4. Kriging pulido por la mediana

Formulación

El kriging pulido por la mediana constituye una aproximación diferente al problema de


predicción espacial. En vez de intentar una identificación óptima del proceso estocástico,
este método está basado en la reconstrucción robusta de una superficie irregular. La idea
básica es la consideración de un proceso compuesto por una estructura de error y una
25

función media desconocida, cuya forma se asume que es la suma de sendas funciones de
las respectivas coordenadas

Z(s) = a + c(x) + r(y) + ε(s), s = (x, y)0 ∈ D.

Si además las localizaciones de observación forman una red regular, podemos denotar el
proceso en términos de los ı́ndices de fila y columna,

Z(s) = a + cl + rk + ε(s).

Algoritmo de estimación

La estimación de esta superficie puede realizarse mediante el algoritmo de pulido por


la mediana basado en el análisis robusto de la varianza. Es un procedimiento iterativo
que proporciona una estimación de los parámetros anteriores, a, cl y rk .

En el caso de que las observaciones no estén dispuestas sobre una red regular, un
método aproximado puede aplicarse sobre un mapa de baja resolución. Este se obtiene
superponiendo un retı́culo regular y asignando cada observación al nodo más próximo.
El algoritmo de pulido por la mediana aplicado sobre dicho mapa de baja resolución
proporciona una superficie aproximada del comportamiento medio del proceso.

Estimación de la tendencia espacial

El procedimiento del kriging pulido por la mediana comprende dos etapas, la esti-
mación y eliminación de la estructura media de tendencia espacial, y la estimación de la
estructura de dependencia espacial aplicando kriging ordinario sobre los residuos.

5. Cokriging

Una versión multivariante del kriging la proporciona el llamado cokriging. El objetivo


es predecir un vector de valores en cada localización de una región a partir de la obser-
vación en varios puntos, asumiendo que esos fenómenos están relacionados entre sı́. La
construcción del variograma cruzado proporciona la herramienta necesaria para el análisis
de la variabilidad del proceso espacial multivariante.
Unidad III. Modelos de estructura
compleja

Tema 5. Modelos Lineales Generalizados

Tema 6. Modelos jerárquicos Bayesianos

Esta parte del programa está destinada a establecer las bases formativas sobre las
que se asienta el desarrollo de los temas restantes. Los dos temas considerados pretenden
cubrir este objetivo en los ámbitos de dos grandes familias de modelos de gran aplicación
y relevancia.

Los Modelos Lineales Generalizados se introducen como extensión de los Modelos


Lineales y como referencia en modelos espaciales presentados en la siguiente unidad.

Los modelos jerárquicos añaden cierta complejidad a los modelos tradicionales permi-
tiendo la construcción de estructuras flexibles mediante el encadenamiento condicional de
modelos simples. Están suponiendo la principal herramienta de análisis en problemas en
que varios fenómenos están interconectados o que tienen variables de muy diversa ı́ndole.
Su auge, no sólo en los problemas medioambientales, viene dado por su capacidad de
adaptarse a situaciones complejas y por el desarrollo de técnicas inferenciales asequibles.

26
27

Tema 5.- Modelos Lineales Generalizados


1. Definición de Modelo Lineal Generalizado (GLM)

a) Motivación
b) Definición
c) Componentes
d ) Ejemplos

2. Estimación de un GLM

a) Máxima verosimilitud
b) Método Scoring de Fisher
c) Estimación del parámetro de dispersión

3. Selección del mejor modelo GLM

a) Desviación
b) Selección entre modelos encajados

4. Análisis de residuos

Los Modelos Lineales Generalizados (GLM) son una extensión de los modelos lineales.
Los GLM comprenden aquellas distribuciones de familia exponencial uniparamétrica que
recogen aditivamente los efectos fijos como una transformación monótona de la media.
Esta amplia familia permite modelizar una gran variedad de situaciones, con observaciones
tanto continuas como discretas.

1. Definición de Modelo Lineal Generalizado (GLM)

Motivación

Modelo Lineal General: datos independientes, y1 , y2 , . . . , yn , normalmente distribuidos.

yi ∼ N(β0 + β1 x1i + . . . + βp xpi , σ 2 )

predictor lineal β 0 xi
28

varianza constante
E[y] = Xβ, V[y] = σ 2 I

Modelo Lineal Generalizado: datos independientes de una distribución de la familia expo-


nencial (binomial, Poisson, gamma, . . .).
modeliza E[y] como una función no lineal de Xβ.

Ejemplo: Mortalidad por cáncer de próstata, Valencia 1975-1980


Y = número de defunciones por cáncer de próstata en ese perı́odo.
X1 = proporción de la población de más de 40 años.
X2 = nivel de nitratos en el suministro de agua potable.

MUNICIPIO N◦ de
Nombre habit. Y X1 X2
Ademuz 1545 1 0.590 11
Ador 1256 5 0.494 16
Adzaneta de Albaida 1364 0 0.427 18
Agullent 2016 0 0.358 8
Alaquàs 23728 5 0.324 78
Albaida 5573 3 0.387 8
Albal 8139 4 0.360 17
Albalat de la Ribera 3594 2 0.422 76
Albalat dels Sorells 567 8 0.414 60
Albalat dels Tarongers 3657 0 0.534 32
Alberique 8971 1 0.429 28
Alborache 821 0 0.439 12
Alboraya 10786 4 0.392 42
Albuixech 3005 0 0.470 66
Alcásser 6586 4 0.387 91
...

Definición de GLM

Un GLM se compone con una distribución concreta de la familia exponencial, los re-
gresores que determinan el predictor lineal y la función vı́nculo, monótona y diferenciable,
que define la relación entre la media y el predictor lineal. Estas componentes caracterizan
el modelo y permiten una gran flexibilidad en la construcción del mismo. Además, la
distribución empleada puede tener un parámetro secundario, denominado parámetro de
29

dispersión, que afecta a la variabilidad. Algunos ejemplos de GLM son tan importantes
como la regresión logı́stica o la regresión de Poisson, además del propio modelo lineal
normal.

Conjunto de variables aleatorias independientes y1 , y2 , . . . , yn con función de densidad,


o función de probabilidad, que puede escribirse como:

yi θi − b(θi )
p(yi | θi , φ) = exp{ + c(yi , φ)}
ai (φ)

donde:
θi es el parámetro natural o canónico
φ es un parámetro adicional de escala o dispersión
ai (·), b(·) y c(·) son funciones especı́ficas

Si φ es conocido este es un modelo de la familia exponencial lineal

Si φ es desconocido es un modelo de dispersión exponencial

Componentes del GLM

Queremos modelizar µi = E[yi ] en términos del predictor lineal β 0 xi formado con un


conjunto de p covariables

β 0 xi = β0 + β1 x1i + . . . + βp xpi

Las componentes que determinan un GLM son:

1 Conjunto de n variables respuesta independientes, de una distribución de la familia


exponencial

2 Un vector de parámetros β y una matriz del modelo X, determinando el predictor


lineal de cada variable β 0 xi

3 Una función vı́nculo monótona y diferenciable que define la relación entre µi y su


predictor lineal
g(µi ) = β 0 xi
30

La función vı́nculo permite modelizar distintas relaciones entre µ y el predictor lineal.

El vı́nculo natural o canónico es aquel que es igual a la función que define el parámetro
natural o canónico de esa distribución. Por tanto, θ = β 0 x

Los vı́nculos más usuales son:


π
 logit log 1−π
 probit Φ−1 (π)
 complementario log-log log[− log(1 − π)]
 identidad µ
 inverso −1/µ
 logaritmo log µ

 raiz cuadrada µ

La elección del vı́nculo depende de la familia de distribuciones, del tipo de respuestas


y de la aplicación.

Ejemplos

Distribución N(µ, σ 2 ) Gamma(λ, ν) Bi(n, π) Po(λ)


λ
E[y] = µ ν
nπ λ
µ
vı́nculo g(µ) = µ − µ1 = − λν log n−µ π
= log 1−π log λ

(identidad) (inverso) (logit) (logaritmo)

b(θ) = θ2 /2 − log(−θ) n log(1 + eθ ) eθ


1
a(φ) = σ 2 λ
1 1

Otros vı́nculos: logaritmo identidad probit identidad


raiz cuadrada logaritmo compl. log-log raiz cuadrada

Parámetro de dispersión

Con frecuencia, el término ai (φ) es de la forma φ/ωi , donde ωi es un peso.

Si los datos no son agrupados, ωi = 1


31

Si las variables respuesta expresan promedios, ωi = ni

Si son la suma de ni respuestas individuales, ωi = 1/ni

La sobredispersión es un fenómeno que ocurre en aplicaciones con distribuciones con


varianza poco flexible, como Binomial y Poisson. Al añadir un parámetro de dispersión
φ, se modifica la varianza
V[y] = a(φ)b00 (θ)

Puede representar una heterogeneidad no observada o una correlación positiva entre


respuestas individuales. También se denomina extravarianza.

2. Estimación de un GLM

La estimación de los parámetros de un GLM puede realizarse por máxima verosimili-


tud, mediante el método Scoring de Fisher. Equivale a resolver iterativamente un proble-
ma de mı́nimos cuadrados ponderados. Si el parámetro de dispersión es desconocido, su
estimación previa es necesaria para el procedimiento anterior.

Máxima verosimilitud

El logaritmo de la verosimilitud de θ para las observaciones y es


n n
X yi θi − b(θi ) X
l(θ | y) = + c(yi , φ)
i=1
ai (φ) i=1

Nuestro principal interés es la estimación de β. El estimador máximo verosı́mil de cada


βj anula la derivada de l
n
∂l X (yi − µi )xij
=
∂βj i=1
V[yi ]g 0 (µi )

En general, estas ecuaciones de estimación no se pueden resolver directamente. Su solu-


ción puede aproximarse por procedimientos iterativos, empleando la esperanza de
las segundas derivadas
n
∂2l
  X
xij xik
E =
∂βj ∂βk i=1
V[yi ]g 0 (µi )2
32

Método Scoring de Fisher

El Algoritmo de Newton-Raphson es un procedimiento iterativo a partir de una esti-


mación inicial β 0 :
β r+1 = β r − [Dβ2 l(β r )]−1 Dβ l(β r )
donde Dβ l(β r ) es el vector de primeras derivadas de l, y Dβ2 l(β r ) la matriz de segundas
derivadas, evaluadas en β r .

El Método Scoring de Fisher consiste en sustituir Dβ2 l(β r ) por su valor esperado.
n
∂2l
  X
xij xik
E =
∂βj ∂βk i=1
V[yi ]g 0 (µi )2

Equivale a resolver iterativamente un problema de mı́nimos cuadrados ponderados. La


sucesión {β r } converge al estimador máximo verosı́mil de β.

Estimación del parámetro de dispersión

Si φ no es conocido, es necesario usar una estimación para el cálculo de V[yi ] en el


procedimiento anterior.

Cuando ai (φ) = φ/ωi , la expresión de la varianza

V[yi ] = ai (φ)b00 (θi )

proporciona un estimador consistente de φ a partir de una estimación de β


n
X ωi (yi − µ̂i )2
1
φ̂ =
n − p − 1 i=1 b00 (θ̂i )

Para la normal, el estimador de la varianza del modelo de regresión lineal es la suma de


cuadrados residual n
2 1 X
σ̂ = (yi − µ̂i )2
n − p − 1 i=1

3. Selección del mejor modelo GLM

La adecuación de un modelo GLM a un problema se determina comparándolo con el


modelo saturado, que tiene la misma forma que el ajustado pero con tantos parámetros
33

como observaciones. La desviación del GLM es la principal medida de bondad de ajuste y


está basada en el estadı́stico de cociente de verosimilitudes de ambos modelos. La selección
entre modelos encajados se realiza analizando la diferencia entre sus desviaciones.

Desviación

Determinaremos la adecuación del modelo comparándolo con el modelo saturado. El


modelo saturado es el que tiene la misma forma que el ajustado, pero con tantos parámet-
ros como observaciones.

La Desviación escalada es obtenida con el estadı́stico cociente de verosimilitudes

S = −2[l(β̂ | y, φ) − l(β̃ | y, φ)]

con β̃ el EMV del modelo saturado.

En términos del parámetro natural es


n
X yi (θ˜i − θˆi ) − b(θ˜i ) + b(θˆi )
S=2
i=1
ai (φ)

Cuando φ es conocido, la desviación escalada mide cuánto se desvı́a el modelo de los


datos. :]
Si el modelo se ajusta bien a los datos, la distribución aproximada de la desviación escalada
es
S ∼ χ2 (n − p − 1)

La Desviación (no escalada) se define por

D(y, µ̂) = φS

Si ai (φ) = φ/ωi , equivale a


n
X
2 ωi [yi (θ˜i − θˆi ) − b(θ˜i ) + b(θˆi )]
i=1

La desviación es la suma de las discrepancias para cada uno de los datos


n
X
D(y, µ̂) = di (yi , µ̂i )
i=1
34

La desviación de un modelo razonable con q parámetros permite estimar φ mediante

φ̂ = D/(n − q)

debido a que la esperanza aproximada de S es igual a n − q, los grados de libertad de la


distribución χ2

Selección entre modelos encajados

La desviación es útil para comparar el ajuste de dos modelos encajados.

Un modelo M1 con q1 parámetros está encajado en otro M2 con q2 parámetros (q1 < q2 )
si son de la misma forma y las covariables de M1 están contenidas en las de M2 .

La necesidad de los q2 − q1 parámetros adicionales se contrasta con un test χ2 . Si D1


y D2 son las desviaciones de dos modelos encajados con buen ajuste,

(D1 − D2 )/φ ∼ χ2 (q2 − q1 )

Si φ tiene que ser estimado, puede hacerse el contraste con un test F, usando

(D1 − D2 )(n − q2 )
∼ F(q2 − q1 , n − q2 )
(q2 − q1 )D2

4. Análisis de residuos

El análisis de los residuos obtenidos con el modelo ajustado proporciona una valoración
de las discrepancias con los datos observados. Estos residuos son claves en la determinación
de la necesidad de incorporar elementos espaciales en el modelo.

El residuo de cada dato mide la discrepancia entre el valor observado y el pronosticado


por el modelo.

Residuos de Pearson: Generalización inmediata de los residuos habituales para datos


normales
yi − µ̂i
riP = q
b00 (θ̂i )
35

Residuos de desviación: Es la contribución de esa observación a la desviación escal-


ada p
riD = signo(yi − µ̂i ) di /φ

Residuos por exclusión: Es el residuo de ese punto para el modelo ajustado al excluir
esa observación. Pueden calcularse residuos por exclusión de Pearson y de desviación.

Estimación del modelo para la mortalidad por cáncer de próstata en Valencia.

Parámetros estimados
MODELO β0 β1 β2
tasas const. -7.172
edad -9.925 5.208
nitratos -7.876 1.23e-3
edad y nit. -10.152 5.539 2.09e-3

Diferencias entre las desviaciones de los modelos encajados.

const. edad nit. comp.


tasas const. 849.8
edad 488* 361.8
nitratos 443* — 406.8
edad y nit. 495.9* 7.9* 52.9* 353.9

Todas significativas con α = 0,01.


36

Tema 6.- Modelos jerárquicos Bayesianos


1. Introducción.

a) Combinación de información
b) Modelo lineal con efectos aleatorios
c) Extra-varianza de Poisson

2. Definición de modelo jerárquico

a) Enfoque frecuentista
b) Enfoque Bayesiano

3. Ejemplos de modelos jerárquicos

a) Modelo lineal jerárquico


b) Datos de conteo

4. Procesos espaciales

a) Modelo Gaussiano espacial jerárquico


b) Modelos espaciales para datos de conteo

5. Inferencia Bayesiana en modelos jerárquicos

a) Inferencia Bayesiana
b) Simulación MCMC
c) Selección del modelo

Los modelos jerárquicos son modelos probabilı́sticos para colecciones de variables formu-
lados como combinaciones de diversas componentes denominadas niveles, capas o eta-
pas. Esta estrategia es especialmente útil en la construcción de modelos complejos como
los que surgen en las ciencias ambientales. El desarrollo de modelos como secuencia de
distribuciones condicionales permite enlazar modelos provenientes de diferentes ciencias,
combinando las fuentes de información y empleando las relaciones entre las variables.

El modelo lineal con efectos aleatorios ilustra intuitivamente la noción de jerarquı́a en


el modelo, permitiendo introducir los diferentes elementos, las relaciones entre los términos
y el análisis en los diferentes niveles. Ası́ mismo, varios ejemplos concretos pueden clarificar
la aparición de fuentes de variabilidad habituales en los problemas medioambientales,
37

como los errores en las mediciones, la falacia ecológica y la agrupación espacial o temporal,
entre otras. De forma similar, puede ilustrarse la necesidad de incorporar efectos aleatorios
en la regresión de Poisson para añadir variabilidad al modelo. Esta situación es conocida
como sobredispersión o extra-varianza de Poisson.

La construcción de un modelo jerárquico como encadenamiento de dependencias a


través de las distribuciones condicionales presenta un gran atractivo para la modelización
por su flexibilidad. La terminologı́a para designar los elementos de un modelo jerárquico di-
fiere según el enfoque empleado, frecuentista o Bayesiano. Desde una perspectiva Bayesiana,
se consideran variables aleatorias tanto las observaciones como los parámetros. Para el
enfoque frecuentista sólo las observaciones provienen de variables aleatorias, considerando
variables latentes desconocidas, pero potencialmente observables, en las etapas interme-
dias.

Varias familias de modelos jerárquicos permiten concretar las posibles especificaciones


de las componentes y establecer una amplia baterı́a de modelos. Obviamente, el modelo
lineal jerárquico constituye el primer caso a destacar. Su generalización al considerar ob-
servaciones de distribuciones de familia exponencial conduce al modelo lineal generalizado
jerárquico. Su aplicación a un problema con datos de conteo puede ejemplificarse mediante
el modelo Poisson-Gamma para introducir la extra-varianza.

La incorporación de asociación espacial en alguna de las capas conduce a un proceso


espacial jerárquico. Dicha asociación espacial puede venir modelizada mediante un proceso
espacial continuo, un campo aleatorio markoviano o un proceso puntual. La inclusión de
un modelo autonormal genera un modelo Gaussiano espacial jerárquico, que está siendo
ampliamente utilizado tanto con observaciones continuas como discretas. En concreto,
destaca el problema de suavización de mapas de riesgo de enfermedad, que puede ser
empleado para estudiar las complicaciones que conlleva el análisis de estos modelos con
estructura compleja.

La inferencia en modelos jerárquicos puede realizarse mediante máxima verosimili-


tud, pero con frecuencia dicha verosimilitud no es totalmente conocida. La metodologı́a
Bayesiana ha extendido el uso de los modelos jerárquicos gracias a que la distribución final
puede ser muestreada por métodos MCMC. No obstante, diversas dificultades prácticas
deben tenerse en cuenta para llegar a conclusiones adecuadas. La selección entre modelos
jerárquicos alternativos también es una cuestión difı́cil, ya que habitualmente no son mod-
elos encajados, teniendo capas con diferente número de parámetros ocultos. El criterio de
información de desviación (DIC) pretende compararlos atendiendo a su bondad de ajuste
y a su complejidad.
Unidad IV. Geoestadı́stica basada en
modelos

Tema 7. Inferencia Bayesiana para el modelo lineal Gaussiano

Tema 8. Modelos Lineales Generalizados con estructura espacial

El término Geoestadı́stica basada en modelos se acuñó por Diggle, Tawn y Moyeed


(1998) para denominar la aplicación de modelos estocásticos paramétricos explı́citos y
métodos formales de inferencia en problemas geoestadı́sticos.

El principal interés por formalizar estadı́sticamente la teorı́a del kriging está en la


adaptación a situaciones inadecuadas para los métodos clásicos, tanto la generalización
a problemas con respuesta no Gaussiana, como la incorporación de fuentes de variación
que eran ignoradas o difı́cilmente incorporadas (variograma, efectos aleatorios, errores en
covariables, ...).

La complejidad de las estructuras estocásticas que se derivan a partir de esta formu-


lación general dificulta la realización de la inferencia del modelo. El planteamiento como
modelos jerárquicos permite la Inferencia Bayesiana gracias a los métodos MCMC.

38
39

Tema 7.- Inferencia Bayesiana para el modelo lineal


Gaussiano

1. Formulación

a) Formulación estadı́stica del kriging

b) Formulación como modelo jerárquico

2. Parámetros de correlación fijos

a) Distribución previa

b) Distribución posterior

c) Distribución predictiva

3. Incertidumbre en los parámetros de correlación

a) Distribución previa

b) Distribuciones posterior y predictiva

El análisis geoestadı́stico más sencillo consiste en la estimación de los parámetros del


modelo y la sustitución de dichas estimaciones en las ecuaciones del predictor como si
fueran los verdaderos valores. Esto tiende a ser optimista en el sentido en que conduce a
una subestimación de la incertidumbre de predicción, ignorando la variabilidad entre las
estimaciones de los parámetros y los verdaderos valores desconocidos. No obstante, ésta
es la aproximación más ampliamente utilizada denominada habitualmente como kriging,
y es defendible en situaciones en las que la variación de los parámetros del modelo en
unos rangos razonables produzca cambios pequeños en las varianzas de predicción.

La inferencia Bayesiana trata los parámetros del modelo como variables aleatorias,
sin hacer distinciones formales entre la estimación y la predicción. Esto proporciona una
forma natural de incorporar la incertidumbre en los parámetros en el análisis predictivo.
40

1. Formulación

Formulación estadı́stica del kriging

Una formulación estadı́stica básica del proceso estocástico espacial empleado para
realizar el kriging universal puede ser:

Z ∼ N (µ, σ 2 H(φ) + τ 2 I)

donde µ = Xβ recoge la variabilidad a gran escala, H es una matriz de correlaciones


indexada por el parámetro φ, τ 2 es la pepita y σ 2 es el alféizar parcial (valor del alféizar
menos la pepita).

Recopilando los parámetros del modelo en el vector θ = (β, σ 2 , τ 2 , φ), el análisis


Bayesiano requiere la asignación de una distribución previa p(θ). La estimación de los
parámetros se obtiene a partir de la distribución posterior

p(θ | z) ∝ f (z | θ)p(θ).

Formulación como modelo jerárquico

Utilizaremos una formulación jerárquica del modelo escribiendo como primer nivel la
distribución condicional de la respuesta Z dados los parámetros θ y un vector de efectos
espaciales W :
Z | θ, W ∼ N (µ + W, τ 2 I)

donde µ = Xβ recoge la variabilidad a gran escala.

En el segundo nivel, la especificación de W es la de una distribución normal multivari-


ante con matriz de covarianzas expresada como función paramétrica de la distancia entre
pares de puntos
W | σ 2 , φ ∼ N (0, σ 2 H(φ))

donde H es una matriz de correlaciones indexada por el parámetro φ.

El modelo es equivalente al anterior, pero ofrece ventajas computacionales al realizar


la simulación.
41

2. Parámetros de correlación fijos

Inicialmente hay que considerar la situación simplificada con τ 2 = 0 y φ fijo.

Distribución previa

Para un valor de φ fijo, la familia conjugada para (β, σ 2 ) es la Normal-χ2 -escalada-


inversa:
[β | σ 2 , φ] ∼ N (mb , σ 2 Vb )

[σ 2 | φ] ∼ χ2ScI (nσ , Sσ2 )

donde una χ2 -escalada-inversa tiene una densidad de la forma

f (z) ∝ z −(nσ /2+1) exp(−nσ Sσ2 /(2z)), z > 0.

Una previa no informativa empleada a menudo en el análisis Bayesiano de modelos


lineales es π(β, σ 2 ) ∝ 1/σ 2 .

Distribución posterior

Para una previa N χ2ScI la distribución posterior es de nuevo una Normal-χ2 -escalada-
inversa, combinando la información previa con la proporcionada por los datos a través de
su estructura de correlaciones.

Para la previa no informativa 1/σ 2 , se obtiene la distribución posterior a partir de la


expresión de la N χ2ScI simplificando algunos términos por 0.

Distribución predictiva

La distribución predictiva en puntos no observados es una t multivariante, para ambos


tipos de distribución previa. La diferencia con la predicción clásica en forma de Normal
multivariante se debe a la incertidumbre sobre la varianza representada por el alféizar.
42

3. Incertidumbre en los parámetros de correlación

La presencia de incertidumbre en el rango y en la pepita, conlleva dificultades com-


putacionales mayores. La evaluación de la matriz H(φ) para cualquier valor posible de φ
conlleva un enorme esfuerzo de cálculo.

Distribución previa

En la práctica puede paliarse el problema computacional eligiendo distribuciones pre-


2
vias discretas para el rango y la pepita relativa τrel = τ 2 /σ 2 . En concreto, el uso de
2
discretas uniformes para φ y τrel representa la situación no informativa.

Distribuciones posterior y predictiva

Estas previas discretas conllevan la simplificación de las integrales intratables en sumas


de expresiones presentadas en la sección anterior, ponderadas por la distribución posterior
2
de φ y τrel .

Para simular muestras de la distribución posterior del vector de parámetros θ basta


2
con muestrear de los valores posibles de φ y τrel y, condicionado a estos valores, muestrear
2 2
de la N χScI para β y σ .

En el caso de la predictiva, pueden calcularse los momentos de la t multivariante para


2
cada valor de φ y τrel , y calcular la suma ponderada con la posterior simulada de estos
parámetros.

A pesar de la simplificación mediante el empleo de las previas discretas, el tiempo


computacional debido a la simulación de las distribuciones posterior y predictiva puede
ser considerable.
43

Tema 8.- Modelos Lineales Generalizados con estruc-


tura espacial

1. Fundamentos teóricos

2. Predicción

3. Inferencia Bayesiana

4. Aplicación con datos discretos

a) GLSM Binomial

b) GLSM Poisson

1. Fundamentos teóricos

En algunas situaciones se obtienen mediciones que no pueden ser modelizadas de for-


ma natural empleando una distribución normal. Esto ocurre cuando las observaciones
son dicotómicas, o un conteo de casos, o incluso tratándose de variables continuas pero
asimétricas. Para estas últimas, en ocasiones una transformación adecuada puede propor-
cionar respuestas aproximadamente normales, pero será necesario verificar la condición
de estacionariedad sobre el proceso transformado.

Los Modelos Lineales Generalizados (GLM) se definen por un conjunto de respuestas


independientes de una distribución de una familia exponencial, dotando de forma lineal a
una función enlace de la esperanza. Una importante extensión es el Modelo Mixto Lineal
Generalizado (GLMM), que incorpora en el predictor lineal un conjunto de variables
latentes. Cuando estas variables latentes provienen de un proceso espacial se obtiene un
Modelo Espacial Lineal Generalizado (GLSM)

Asumiremos que el proceso espacial latente es Gaussiano. De esta forma el modelo


de kriging habitual es un GLSM con respuesta normal. Además esta estructura de mod-
elización encaja con la construcción del modelo jerárquico descrito en el tema anterior.
44

2. Predicción

La expresión de la verosimilitud en forma cerrada solo es posible como integral multi-


dimensional. Los métodos de cálculo numérico para aproximar dicha integral y evaluar
las ecuaciones de predicción pueden dar resultados imprecisos en este contexto. Pero los
métodos MCMC proporcionan una solución posible.

Asumiendo conocidos los parámetros del modelo, el algoritmo de Langevin-Hastings


truncado ha sido propuesto para realizar de forma eficiente la simulación del modelo.

3. Inferencia Bayesiana

Para realizar inferencia sobre los parámetros del modelo, es necesario establecer dis-
tribuciones previas adecuadas. Tomando τ 2 y φ como fijos, la elección inicial para la
previa de β y σ 2 es la Normal-χ2 -escalada-inversa. De esta forma las posteriores para
estos parámetros son del mismo tipo, y la marginal del proceso es una distribución t mul-
tivariante. Para realizar la predicción será necesario emplear un procedimiento MCMC
como en el caso anterior.

No es ahora una buena elección de la previa para σ 2 utilizar la inversa 1/σ 2 , ya que el
resultado es una distribución posterior impropia.

La incorporación de la incertidumbre en el rango presenta una enorme dificultad com-


putacionalal tener que evaluar H(φ) dentro del algoritmo de simulación. Este altı́simo
consumo de tiempo se puede paliar empleando una distribución previa discreta para φ.

La inclusión de la pepita requiere una atención especial. Para hacerlo de forma co-
herente, independientemente de la distribución de respuesta, se incluye en el predictor
lineal un efecto aleatorio con normales independientes de media 0 y varianza τ 2 . Aquı́, en
contraste con el caso Gaussiano, puede diferenciarse entre la variabilidad a microescala
proporcionada por este término y la variabilidad del error inducida por el mecanismo de
muestreo según el tipo de respuesta.

El procedimiento inferencial no es alterado, pero se deben emplear distribuciones pre-


vias discretas para τ 2 y φ.
45

4. Aplicación con datos discretos

El contexto de aplicación de los GLSM más interesante es la modelización de obser-


vaciones discretas, tales como respuestas binarias o conteos. Ambas situaciones pueden
analizarse empleando en el primer nivel las distribuciones Binomial y Poisson respectiva-
mente.

GLSM Binomial

El GLSM para datos binomiales se construye de forma jerárquica a partir de un con-


junto de localizaciones, tamaños experimentales y respuestas (si , ni , zi ), escribiendo como
primer nivel la distribución condicional de la respuesta Zi dados los parámetros θ y los
efectos aleatorios espaciales Wi y no espaciales Ui :

Zi | θ, Wi , Ui ∼ Binomial(ni , pi )

donde logit(pi ) = Xβ + Ui + Wi .

En el segundo nivel, la especificación de W es la de una distribución normal multi-


variante
W | σ 2 , φ ∼ N (0, σ 2 H(φ))
y las variables Ui son normales independientes

Ui | τ 2 ∼ N (0, τ 2 )

modelizando la forma del variograma y la pepita respectivamente.

GLSM Poisson

Para datos de conteos es habitual emplear una distribución de Poisson. El GLSM con
respuesta de Poisson se caracteriza por un primer nivel con distribución condicional de la
respuesta Zi dados los parámetros θ y los efectos aleatorios espaciales Wi y no espaciales
Ui :
Zi | θ, Wi , Ui ∼ P oisson(ti λi )
donde ti es una medida del espacio en el que se realiza el conteo, que puede ser tiempo, área
o población de referencia. La modelización mediante el logaritmo de λi permite introducir
en el predictor lineal los elementos necesarios log(λi ) = Xβ + Ui + Wi . Estos términos
son definidos en el segundo nivel de forma similar al caso binomial.

También podría gustarte