Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Eeema PDF
Eeema PDF
Primavera, 2006
Estadı́stica Espacial en
Epidemiologı́a y Medio Ambiente
Curso de Doctorado
Programa: Estadı́stica y Optimización
Créditos: 3
Curso: 2005-2006
Profesor: Antonio López Quı́lez
Dept. d’Estadı́stica i Investigació Operativa
Universitat de València
Objetivos
Programa
Unidad I. Introducción ( Duración: 0.3 créditos)
Método de evaluación
Bibliografı́a
Banerjee, S., Carlin, B.P. y Gelfand, A.E. (2004). Hierarchical Modeling and Analysis
for Spatial Data. Chapman & Hall, Boca Raton.
Christensen, O.F. y Ribeiro Jr., P.J. (2002) geoRglm: A package for Generalised Linear
Spatial Models. R-NEWS Vol 2, No 2.
http://cran.r-project.org/doc/Rnews
Cressie, N. (1993). Statistics for spatial data, segunda edición. John Wiley and Sons,
New York.
Diggle, P.J., Tawn, J.A. y Moyeed, R.A. (1998). Model-based Geostatistics (con dis-
cusión). Applied Statistics, 47:299-350.
Diggle, P.J., Ribeiro, P.J. y Christensen, O.F. (2003). An introduction to Model-based
Geostatistics. En Spatial Statistics and Computational Methods, ed. J. Moller, Springer
Verlag, New York.
Goovaerts, P. (1997). Geostatistics for Natural Resources Evaluation. Oxford University
Press, New York.
Ripley, B. D. (1981). Spatial Statistics. John Wiley and Sons, New York.
R Development Core Team (2000). An introduction to R.
http://cran.r-project.org.
Ribeiro, P. J. y Diggle, P. J. (2000). geoR/geoS: functions for geostatistical analysis
using R or S-PLUS. Technical Report ST-99-09, versión revisada. Department of
Mathematics and Statistics, Lancaster University.
http://www.maths.lancs.ac.uk/∼ribeiro/geoS.html.
Ribeiro Jr., P. J. y Diggle, P. J. (2001) geoR: A package for geostatistical analysis. R-
NEWS Vol 1, No 2.
http://cran.r-project.org/doc/Rnews
Venables, W. N. y Ripley, B. D. (1999). Modern Applied Statistics with S-PLUS, tercera
edición. Springer, New York.
http://www.stats.ox.ac.uk/pub/MASS3.
Waller, L. A. y Gotway, C. A. (2004). Applied Spatial Statistics for Public Health Data.
John Wiley and Sons, Hoboken, New Jersey.
Unidad I. Introducción
5
6
2. Ciencias Ambientales
3. Variabilidad espacial
4. Estudios observacionales
6. Modelización estadı́stica
Los problemas relacionados con el Medio Ambiente surgen de las ciencias naturales y
de la vida de forma más complicada y más urgente cada dı́a. Conforme crece la población
humana, debemos entender mejor el entorno en que vivimos y nuestro efecto sobre él.
Las agresiones medioambientales no respetan fronteras polı́ticas artificiales, aunque son
generalmente los gobiernos los que fijan las polı́ticas ambientales. Los cientı́ficos de todos
los contextos, incluyendo los estadı́sticos, tienen que jugar un papel importante para
proporcionar a los gobiernos una adecuada descripción del equilibrio medioambiental,
mediante un análisis imparcial de nuestra salud ecológica.
7
1. Epidemiologı́a
2. Ciencias Ambientales
geologı́a, oceanografı́a o meteorologı́a, entre otras. La colaboración entre ellas está con-
siguiendo entender y describir las complejas interacciones existentes entre los seres vivos
y el medio en que vivimos.
3. Variabilidad Espacial
4. Estudios Observacionales
medir. Las componentes básicas del diseño de experimentos, es decir, agrupación, aleator-
ización y replicación, no suelen estar disponibles para el investigador. Incluso cuando uno
es capaz de agrupar los sujetos por edad y sexo, puede que un factor genético descono-
cido determine cómo un paciente responderá a un tratamiento determinado. En estudios
epidemiológicos, se pueden seleccionar controles equilibrados con los casos, pero los casos
no son asignados aleatoriamente a las distintas zonas. La duplicación de ensayos quı́micos
permite valorar el error de medida en un estudio sobre la contaminación atmosférica, pero
una investigación de sus efectos sobre la salud no admite la replicación.
Los datos espaciales se pueden clasificar en tres grupos fundamentales según el contex-
to de observación del que provienen: observaciones de un fenómeno continuo en el espacio,
datos en una red fija de localizaciones y sucesos que ocurren en el espacio proporcionando
un conjunto aleatorio de puntos llamado patrón puntual. Estos tipos de datos diferenci-
ados dan origen a formas distintas de modelización y, por tanto, de análisis estadı́stico.
Ejemplos de cada clase de datos, destacando los elementos diferenciadores, motivan el
estudio de las tres situaciones. La modelización estadı́stica de los problemas epidemiológi-
cos y medioambientales conlleva la adecuada incorporación de estos fenómenos y de las
relaciones de dependencia espacial que puedan existir entre las observaciones.
6. Modelización Estadı́stica
El análisis estadı́stico puede intentar salvar las dificultades creadas por la carencia de
diseño experimental mediante el estudio de la variabilidad. El investigador puede aventu-
rar cuáles son las posibles causas de esta variabilidad, pero un modelo adecuado deberı́a
describir la situación real estudiada. Ası́, un estudio de un fenómeno meteorológico con-
10
creto deberı́a involucrar sus relaciones fı́sicas con la presión atmosférica y los vientos, pero
esto requiere la incorporación al modelo de componentes espaciales, e incluso temporales.
Conforme avanzan los años, parecen aumentar las posibilidades para analizar estadı́sti-
camente problemas epidemiológicos y medioambientales de gran complejidad, con datos
multivariantes de naturaleza espacial y temporal. Los métodos de Monte Carlo por cade-
nas de Markov (MCMC) proporcionan una herramienta para analizar estas situaciones
que ha propiciado el rápido desarrollo de la Estadı́stica Espacial en la última década
del siglo XX. A pesar de ello, todavı́a quedan muchas cuestiones pendientes. La comu-
nidad cientı́fica debate sobre la complejidad de los modelos y la fiabilidad de las técnicas
empleadas.
Hay una gran variedad de problemas que pueden resolverse utilizando métodos geoes-
tadı́sticos. La caracterı́stica común a todos ellos es que los datos pueden verse como una
realización, habitualmente parcial, de un proceso estocástico sobre una región espacial
continua. Matheron (1963) denomina esta situación como problema de variables regional-
izadas enfatizando la naturaleza espacial continua del conjunto de ı́ndices.
12
13
a) Función de covarianza
2. Estacionariedad
a) Estacionariedad estricta
b) Estacionariedad de segundo orden
c) Correlograma
a) Estacionariedad intrı́nseca
b) Variograma
c) Isotropı́a
4. Modelos de variograma
Función de covarianza
2. Estacionariedad
Estacionariedad estricta
La estacionariedad estricta es una condición muy fuerte y poco habitual, pues es-
tablece que las distribuciones de probabilidad conjunta permanezcan invariables ante una
traslación.
Fs1 +h,...,sm +h (z1 , . . . , zm ) ≡ Fs1 ,...,sm (z1 , . . . , zm )
Correlograma
Estacionariedad intrı́nseca
Esta condición es más débil que la estacionariedad de segundo orden y se emplea habit-
ualmente en la modelización geoestadı́stica.
Variograma
Isotropı́a
4. Modelos de variograma
Modelos isotrópicos
Entre los muchos modelos isotrópicos de semivariograma que se han propuesto, los
más empleados son el lineal, esférico, exponencial, cuadrático racional, ondulado, po-
tencial y Gaussiano. Éstos constituyen una amplia baterı́a representativa de diferentes
comportamientos de los procesos espaciales.
Modelos anisotrópicos
a) Máxima verosimilitud
b) Máxima verosimilitud restringida
c) Mı́nima norma cuadrática
d ) Mı́nimos cuadrados
La estimación del variograma más sencilla puede obtenerse por el método de los mo-
mentos, proporcionando para cada vector su estimador mediante la varianza muestral de
la diferencia del proceso entre los pares de puntos separados por ese vector.
1 X
2γ̂(h) = (Z(si ) − Z(sj ))2 ,
|N (h)|
N (h)
donde
N (h) = {(si , sj ) : si − sj = h; i, j = 1, . . . , n}.
Estimadores robustos
4
2γ̂(h) = med |Z(si ) − Z(sj )|1/2 : si , sj ) ∈ N (h)
/B(h)
donde B(h) es un factor corrector del sesgo que tiende asintóticamente a 0.457.
La estimación obtenida del variograma no puede ser usada directamente para la predic-
ción espacial, pues no es necesariamente semidefinida negativa. Hay que buscar un modelo
válido de semivariograma que se aproxime a la dependencia espacial encontrada por el
semivariograma empı́rico, seleccionando, de las familias expuestas en el tema anterior,
aquella que mejor describa el comportamiento observado. La estimación de los parámet-
ros puede realizarse por diferentes métodos como los de máxima verosimilitud, máxi-
ma verosimilitud restringida, mı́nima norma cuadrática, mı́nimos cuadrados y mı́nimos
cuadrados generalizados, presentando cada uno de ellos ventajas e inconvenientes.
se emplea también para comparar el impacto de distintos modelos sobre los resultados de
la predicción y para estimar el error de predicción.
20
a) Escalas de variación
b) Superficies de tendencia
2. Kriging ordinario
a) Formulación
b) Mejor predictor lineal insesgado
c) Efecto de los parámetros del variograma y su estimación
3. Kriging universal
a) Formulación
b) Predicción
c) Estimación de los parámetros de la media
d ) Kriging en bloques
a) Formulación
b) Algoritmo de estimación
c) Estimación de la tendencia espacial
5. Cokriging
1. Suavización e interpolación
A partir de los datos observados en diferentes puntos, varios métodos consiguen una
superficie interpolada que pasa por estas observaciones. Pero la posible presencia de error
en la medición o de distorsión del proceso hace que la interpolación sea poco útil. En
cambio, la obtención de una superficie suave que se aproxime a los datos proporciona un
modelo global que intenta recoger las principales caracterı́sticas del fenómeno estudiado.
21
Escalas de variación
Para obtener una suavización, es importante distinguir entre las diferentes escalas de
variación presentes en el problema, componiendo un modelo que contemple la incertidum-
bre espacial global, o variación a gran escala, y el comportamiento local, o variación a
pequeña escala,
Superficies de tendencia
Entre las técnicas para calcular estas superficies suavizadas cabe destacar las medias
móviles y las superficies de tendencia. Las medias móviles pueden ser empleadas como en
las series temporales y ofrecen para cada punto una ponderación local de las observaciones
próximas. Las superficies de tendencia son una generalización a mayor dimensión del
ajuste de curvas por mı́nimos cuadrados. Pueden ser consideradas como un primer filtro
que recoge la variación a gran escala.
X
f (x, y) = ars xr y s .
r+s≤p
Hay varias formas de representar una superficie de tendencia o cualquier otra superficie
obtenida por suavización o predicción del proceso espacial. Se puede utilizar un diagrama
de contorno con las curvas de nivel, o una imagen coloreada de las mismas, además de la
gráfica tridimensional en perspectiva.
2. Kriging ordinario
Formulación
donde exigiremos ni=1 λi = 1 para que sea insesgado. Hay una versión de kriging denom-
P
Hay que prestar especial atención al efecto que produce sobre el kriging una variación
en los parámetros del variograma, ası́ como a la necesidad de considerar el error de esti-
mación de dichos parámetros como una fuente de variabilidad presente en el análisis. Esto
produce una subestimación de la varianza del error de predicción, al no incorporar dicho
error de estimación.
3. Kriging universal
Formulación
El kriging universal generaliza el kriging ordinario, permitiendo que el valor medio del
proceso no sea constante, sino una combinación lineal de funciones conocidas o covariables
ligadas a las mismas localizaciones. De esta forma, el kriging universal incorpora términos
de regresión y correlación espacial.
donde las fj (·) son funciones de la localización espacial s o variables explicativas asociadas
a los puntos.
Z = Xβ + ε,
Predicción
to a las restricciones λ0 X = x0 para garantizar su insesgadez, con x = (f0 (s0 ), f1 (s0 ), . . . , fp (s0 ))0 .
24
σk2 (s0 ) = γ 0 Γ−1 γ − (x − X0 Γ−1 γ)0 (X0 Γ−1 X)−1 (x − X0 Γ−1 γ),
Kriging en bloques
Formulación
función media desconocida, cuya forma se asume que es la suma de sendas funciones de
las respectivas coordenadas
Si además las localizaciones de observación forman una red regular, podemos denotar el
proceso en términos de los ı́ndices de fila y columna,
Z(s) = a + cl + rk + ε(s).
Algoritmo de estimación
En el caso de que las observaciones no estén dispuestas sobre una red regular, un
método aproximado puede aplicarse sobre un mapa de baja resolución. Este se obtiene
superponiendo un retı́culo regular y asignando cada observación al nodo más próximo.
El algoritmo de pulido por la mediana aplicado sobre dicho mapa de baja resolución
proporciona una superficie aproximada del comportamiento medio del proceso.
El procedimiento del kriging pulido por la mediana comprende dos etapas, la esti-
mación y eliminación de la estructura media de tendencia espacial, y la estimación de la
estructura de dependencia espacial aplicando kriging ordinario sobre los residuos.
5. Cokriging
Esta parte del programa está destinada a establecer las bases formativas sobre las
que se asienta el desarrollo de los temas restantes. Los dos temas considerados pretenden
cubrir este objetivo en los ámbitos de dos grandes familias de modelos de gran aplicación
y relevancia.
Los modelos jerárquicos añaden cierta complejidad a los modelos tradicionales permi-
tiendo la construcción de estructuras flexibles mediante el encadenamiento condicional de
modelos simples. Están suponiendo la principal herramienta de análisis en problemas en
que varios fenómenos están interconectados o que tienen variables de muy diversa ı́ndole.
Su auge, no sólo en los problemas medioambientales, viene dado por su capacidad de
adaptarse a situaciones complejas y por el desarrollo de técnicas inferenciales asequibles.
26
27
a) Motivación
b) Definición
c) Componentes
d ) Ejemplos
2. Estimación de un GLM
a) Máxima verosimilitud
b) Método Scoring de Fisher
c) Estimación del parámetro de dispersión
a) Desviación
b) Selección entre modelos encajados
4. Análisis de residuos
Los Modelos Lineales Generalizados (GLM) son una extensión de los modelos lineales.
Los GLM comprenden aquellas distribuciones de familia exponencial uniparamétrica que
recogen aditivamente los efectos fijos como una transformación monótona de la media.
Esta amplia familia permite modelizar una gran variedad de situaciones, con observaciones
tanto continuas como discretas.
Motivación
predictor lineal β 0 xi
28
varianza constante
E[y] = Xβ, V[y] = σ 2 I
MUNICIPIO N◦ de
Nombre habit. Y X1 X2
Ademuz 1545 1 0.590 11
Ador 1256 5 0.494 16
Adzaneta de Albaida 1364 0 0.427 18
Agullent 2016 0 0.358 8
Alaquàs 23728 5 0.324 78
Albaida 5573 3 0.387 8
Albal 8139 4 0.360 17
Albalat de la Ribera 3594 2 0.422 76
Albalat dels Sorells 567 8 0.414 60
Albalat dels Tarongers 3657 0 0.534 32
Alberique 8971 1 0.429 28
Alborache 821 0 0.439 12
Alboraya 10786 4 0.392 42
Albuixech 3005 0 0.470 66
Alcásser 6586 4 0.387 91
...
Definición de GLM
Un GLM se compone con una distribución concreta de la familia exponencial, los re-
gresores que determinan el predictor lineal y la función vı́nculo, monótona y diferenciable,
que define la relación entre la media y el predictor lineal. Estas componentes caracterizan
el modelo y permiten una gran flexibilidad en la construcción del mismo. Además, la
distribución empleada puede tener un parámetro secundario, denominado parámetro de
29
dispersión, que afecta a la variabilidad. Algunos ejemplos de GLM son tan importantes
como la regresión logı́stica o la regresión de Poisson, además del propio modelo lineal
normal.
yi θi − b(θi )
p(yi | θi , φ) = exp{ + c(yi , φ)}
ai (φ)
donde:
θi es el parámetro natural o canónico
φ es un parámetro adicional de escala o dispersión
ai (·), b(·) y c(·) son funciones especı́ficas
β 0 xi = β0 + β1 x1i + . . . + βp xpi
El vı́nculo natural o canónico es aquel que es igual a la función que define el parámetro
natural o canónico de esa distribución. Por tanto, θ = β 0 x
Ejemplos
Parámetro de dispersión
2. Estimación de un GLM
Máxima verosimilitud
El Método Scoring de Fisher consiste en sustituir Dβ2 l(β r ) por su valor esperado.
n
∂2l
X
xij xik
E =
∂βj ∂βk i=1
V[yi ]g 0 (µi )2
Desviación
D(y, µ̂) = φS
φ̂ = D/(n − q)
Un modelo M1 con q1 parámetros está encajado en otro M2 con q2 parámetros (q1 < q2 )
si son de la misma forma y las covariables de M1 están contenidas en las de M2 .
Si φ tiene que ser estimado, puede hacerse el contraste con un test F, usando
(D1 − D2 )(n − q2 )
∼ F(q2 − q1 , n − q2 )
(q2 − q1 )D2
4. Análisis de residuos
El análisis de los residuos obtenidos con el modelo ajustado proporciona una valoración
de las discrepancias con los datos observados. Estos residuos son claves en la determinación
de la necesidad de incorporar elementos espaciales en el modelo.
Residuos por exclusión: Es el residuo de ese punto para el modelo ajustado al excluir
esa observación. Pueden calcularse residuos por exclusión de Pearson y de desviación.
Parámetros estimados
MODELO β0 β1 β2
tasas const. -7.172
edad -9.925 5.208
nitratos -7.876 1.23e-3
edad y nit. -10.152 5.539 2.09e-3
a) Combinación de información
b) Modelo lineal con efectos aleatorios
c) Extra-varianza de Poisson
a) Enfoque frecuentista
b) Enfoque Bayesiano
4. Procesos espaciales
a) Inferencia Bayesiana
b) Simulación MCMC
c) Selección del modelo
Los modelos jerárquicos son modelos probabilı́sticos para colecciones de variables formu-
lados como combinaciones de diversas componentes denominadas niveles, capas o eta-
pas. Esta estrategia es especialmente útil en la construcción de modelos complejos como
los que surgen en las ciencias ambientales. El desarrollo de modelos como secuencia de
distribuciones condicionales permite enlazar modelos provenientes de diferentes ciencias,
combinando las fuentes de información y empleando las relaciones entre las variables.
como los errores en las mediciones, la falacia ecológica y la agrupación espacial o temporal,
entre otras. De forma similar, puede ilustrarse la necesidad de incorporar efectos aleatorios
en la regresión de Poisson para añadir variabilidad al modelo. Esta situación es conocida
como sobredispersión o extra-varianza de Poisson.
38
39
1. Formulación
a) Distribución previa
b) Distribución posterior
c) Distribución predictiva
a) Distribución previa
La inferencia Bayesiana trata los parámetros del modelo como variables aleatorias,
sin hacer distinciones formales entre la estimación y la predicción. Esto proporciona una
forma natural de incorporar la incertidumbre en los parámetros en el análisis predictivo.
40
1. Formulación
Una formulación estadı́stica básica del proceso estocástico espacial empleado para
realizar el kriging universal puede ser:
Z ∼ N (µ, σ 2 H(φ) + τ 2 I)
p(θ | z) ∝ f (z | θ)p(θ).
Utilizaremos una formulación jerárquica del modelo escribiendo como primer nivel la
distribución condicional de la respuesta Z dados los parámetros θ y un vector de efectos
espaciales W :
Z | θ, W ∼ N (µ + W, τ 2 I)
Distribución previa
Distribución posterior
Para una previa N χ2ScI la distribución posterior es de nuevo una Normal-χ2 -escalada-
inversa, combinando la información previa con la proporcionada por los datos a través de
su estructura de correlaciones.
Distribución predictiva
Distribución previa
1. Fundamentos teóricos
2. Predicción
3. Inferencia Bayesiana
a) GLSM Binomial
b) GLSM Poisson
1. Fundamentos teóricos
2. Predicción
3. Inferencia Bayesiana
Para realizar inferencia sobre los parámetros del modelo, es necesario establecer dis-
tribuciones previas adecuadas. Tomando τ 2 y φ como fijos, la elección inicial para la
previa de β y σ 2 es la Normal-χ2 -escalada-inversa. De esta forma las posteriores para
estos parámetros son del mismo tipo, y la marginal del proceso es una distribución t mul-
tivariante. Para realizar la predicción será necesario emplear un procedimiento MCMC
como en el caso anterior.
No es ahora una buena elección de la previa para σ 2 utilizar la inversa 1/σ 2 , ya que el
resultado es una distribución posterior impropia.
La inclusión de la pepita requiere una atención especial. Para hacerlo de forma co-
herente, independientemente de la distribución de respuesta, se incluye en el predictor
lineal un efecto aleatorio con normales independientes de media 0 y varianza τ 2 . Aquı́, en
contraste con el caso Gaussiano, puede diferenciarse entre la variabilidad a microescala
proporcionada por este término y la variabilidad del error inducida por el mecanismo de
muestreo según el tipo de respuesta.
GLSM Binomial
Zi | θ, Wi , Ui ∼ Binomial(ni , pi )
donde logit(pi ) = Xβ + Ui + Wi .
Ui | τ 2 ∼ N (0, τ 2 )
GLSM Poisson
Para datos de conteos es habitual emplear una distribución de Poisson. El GLSM con
respuesta de Poisson se caracteriza por un primer nivel con distribución condicional de la
respuesta Zi dados los parámetros θ y los efectos aleatorios espaciales Wi y no espaciales
Ui :
Zi | θ, Wi , Ui ∼ P oisson(ti λi )
donde ti es una medida del espacio en el que se realiza el conteo, que puede ser tiempo, área
o población de referencia. La modelización mediante el logaritmo de λi permite introducir
en el predictor lineal los elementos necesarios log(λi ) = Xβ + Ui + Wi . Estos términos
son definidos en el segundo nivel de forma similar al caso binomial.