Está en la página 1de 34

Modelos bayesianos para la distribucion de especies con

observaciones de presencias
1a Escuela de Invierno en Matematicas Aplicadas
Maestra en Matematicas Aplicadas (UAGro)

Sergio Perez Elizalde


Bartolo de Jesus Villar Hernandez

Colegio de Postgraduados

Noviembre 2015
Contenido

1 Introduccion

2 Objetivos

3 Antecedentes

4 Materiales y Metodos

5 Resultados

6 Conclusiones

7 Bibliografa

sergiop@colpos.mx (COLPOS) MDEs Noviembre 2015 2 / 34


Introduccion

Introduccion
Los Los Modelos de Distribucion de Especies (MDEs) son un tema de
investigacion central en ecologa. Permiten el estudio de la distribucion
geografica de especies de flora y fauna.

espec
sergiop@colpos.mx (COLPOS) MDEs Noviembre 2015 3 / 34
Introduccion

Introduccion

Cuando un MDE es aplicado a un conjunto de datos de ocurrencias de espe-


cies y de covariables medioambientales se obtienen mapas que representan
la distribucion potencial de la especie.
Aplicaciones:
Estudio de especies intrusas.
Planeacion y diseno de areas protegidas.
Estudios en relacion a especies amenazadas o en peligro de extincion.
Estudio de especies raras o endemicas.
Investigar el impacto del cambio climatico bajo diferentes escenarios en
la distribucion de ciertas especies.

sergiop@colpos.mx (COLPOS) MDEs Noviembre 2015 4 / 34


Objetivos

Objetivos

Proponer una metodologa estadstica (bayesiana) para modelar la


distribucion potencial de especie a partir de registros de presencias a
traves de a) un modelo logstico y b) un proceso Poisson no
homogeneo,
Estimar a posteriori la probabilidad de presencia y la intensidad de
ocurrencia.
Ilustrar la implementacion practica de los modelos propuestos y
comparar los resultados obtenidos con datos reales (Dalea) y
simulados

sergiop@colpos.mx (COLPOS) MDEs Noviembre 2015 5 / 34


Antecedentes

Tipos de registros de especies

Los registros de las especies pueden ser de


presencia-ausencia (1-0): Provienen de muestreos sistematicos.
solo presencias(1): Unicamente se disponen de registros de presencias.

Dependiendo de la resolucion del estudio se realizan las generalizacio-


nes; por ejemplo, si el tamano de las celdas es de 1km 1km = 1km2 ,
la probabilidad de presencia se asocia a toda la celda.

sergiop@colpos.mx (COLPOS) MDEs Noviembre 2015 6 / 34


Antecedentes

Componentes de un MDE

sergiop@colpos.mx (COLPOS) MDEs Noviembre 2015 7 / 34


Antecedentes

Caractersticas de los modelos

Modelo Tipo registros Variables predictivas


CART Presencias-ausencias Continuas y Discretas
ANNs Presencias/ausencias (seudo-ausencias) Continuas y Discretas
GAS Presencias/seudo-ausencias Continuas y Discretas
SVM Presencias/Background Continuas
GLM Presencias/ausencias (seudo-ausencias) Continuas y Discretas
GAM Presencias/ausencias (seudo-ausencias) Continuas y Discretas
MARS Presencias/ausencias (seudo-ausencias) Continuas
Maxent Presencias/Background Continuas y Discretas

El background consiste de una muestra aleatoria de puntos de toda el area


de interes (D) donde se conocen las condiciones medioambientales.

sergiop@colpos.mx (COLPOS) MDEs Noviembre 2015 8 / 34


Antecedentes

Maxent
Propuesto por Phillips et al. (2004), hace uso del principio de maxima en-
tropa.
Se desea estimar Pr (y = 1|z) mediante

f1 (z)Pr (y = 1)
Pr (y = 1|z) = (1)
f (z)

donde
f (z) fdp de las covariables en
D (o una m.a. del
background).
f1 (z) fdp de las cov., donde la
especie y = 1.
Pr (y = 1) es la prevalencia.
sergiop@colpos.mx (COLPOS) MDEs Noviembre 2015 9 / 34
Antecedentes

Maxent. . .

Maxent resuelve:

e(z)r
Pr (y = 1 | z) = (2)
1 + e(z)r
que se denomina salida logstica. donde

f1 (z)
= e(z) (z) = + h(z)
f (z)

R
constante de normalizacion que asegura f1 (z)dz = 1
Maxent minimiza la distancia entre f1 (z) y f (z), entropa relativa.

sergiop@colpos.mx (COLPOS) MDEs Noviembre 2015 10 / 34


Materiales y Metodos

MaxBayes
Construyendo el modelo

Segun Royle et al. (2012)


Supongase que se tiene una m.a. de sitios x1 , . . . , xN y como registros
y1 , . . . , y N .
Solo se consideran aquellos sitios x1 , . . . , xn para los cuales y = 1.

x es aleatoria y x1 , . . . , xn son los datos sobre los cuales se basa la


inferencia.
sergiop@colpos.mx (COLPOS) MDEs Noviembre 2015 11 / 34
Materiales y Metodos

MaxBayes
Construyendo el modelo. . .

() fdp de x
() fdp de y.
La fdp condicional (x|y = 1) es:

(y = 1|x)(x)
(x|y = 1) = (3)
(y = 1)
donde (y = 1|x) = Pr (y = 1|x)
Considerese que X es discreto, con M elementos unicos equiprobables,
1
(x) = M .

(y = 1|x)(x)
(x|y = 1) = P (4)
xX (y = 1|x)(x)

sergiop@colpos.mx (COLPOS) MDEs Noviembre 2015 12 / 34


Materiales y Metodos

MaxBayes
Funcion de verosimilitud

(y = 1|x)
(x|y = 1) = P (5)
xX (y = 1|x)

Asociados a cada xi se tiene un vector de cov., medioambientales z,


por lo tanto, (y = 1|x) = (y = 1|z; ).
Para una m.a. de datos de solo presencias x1 , . . . , xn la funcion de
verosimilitud es
n
Y (yi = 1|z; )
L() = P (6)
i=1 xX (yi = 1|z; )

donde (yi = 1|z) puede modelarse mediante la funcion liga logit

logit((yi = 1|z)) = z0 (7)


sergiop@colpos.mx (COLPOS) MDEs Noviembre 2015 13 / 34
Materiales y Metodos

MaxBayes
kernel a posteriori

Un enfoque bayesiano del modelo Maxlike puede construirse asignando una


distribucion a priori a los parametros del modelo. Resulta natural asignar
a una normal multivariada.

N M (0 , V0 )
Aplicando el teorema de Bayes e ignorando los terminos que no involucre a
se tiene que:

n
Y (yi = 1|z); )
p ( | yi = 1, z)) P
i=1 xX (yi = 1|z); )
 
1 0 1
exp ( 0 ) V0 ( 0 ) (8)
2

sergiop@colpos.mx (COLPOS) MDEs Noviembre 2015 14 / 34


Materiales y Metodos

IPPBayes

Este modelo esta basado en un proceso poisson no homogeneo recientemen-


te propuesto por Warton and Shepherd (2010); Fithian and Hastie (2013).

IPP modela la intensidad de


ocurrencia.
D en R2 .
Puntos aleatorios W que caen
en D.
Asociado a cada wi D se tie-
ne un vector z de covariables
medioambientales.

sergiop@colpos.mx (COLPOS) MDEs Noviembre 2015 15 / 34


Materiales y Metodos

IPPBayes. . .

n1 presencias, wi D para i = 1, . . . , n1 .
n0 observaciones de background, wi para i = n1 + 1, . . . , n1 + n0 .
La funcion de intensidad se define como : D [0, ).
Para cualquier A D se tiene que
Z
(A) = (w)dw
A

(wi ), i.e, la intensidad en el punto wi , puede modelarse como una


funcion log-lineal,
0
(wi ) = e+ z

sergiop@colpos.mx (COLPOS) MDEs Noviembre 2015 16 / 34


Materiales y Metodos

IPPBayes. . .
funcion de log-verosimilitud

La log-verosimilitud en terminos de una muestra de presencias es


Z
0
X
0
l(, , y) = ( + z) e+ z dw log n1 ! (9)
i:yi =1 D

diferenciando (9) c/r a se tiene que


Z
0
n1 = e+ z dz = (D).
D

Para cualquier , es una constante de normalizacion, asegura que (w)


integre a n1 .

sergiop@colpos.mx (COLPOS) MDEs Noviembre 2015 17 / 34


Materiales y Metodos

IPPBayes. . .
modelo en espacio discreto

Si D es finito y discreto, esto es, D = {w1 , w2 , . . . , wm }, el modelo


IPP se reduce a un modelo Poisson discreto con

N (wi ) P oisson((wi )).

En este sentido el modelo IPP puede verse como una discretizacion


muy fina (es decir, de celdas muy pequenas) de D (Fithian and Hastie,
2013).
Entonces, con D discreto una aproximacion de (9) es
X  |D| X + 0 z
l(, , y) + 0z e log n1 ! (10)
n0
i:yi =1 i:yi =0

donde |D| representa el area total de la region de estudio.

sergiop@colpos.mx (COLPOS) MDEs Noviembre 2015 18 / 34


Materiales y Metodos

IPPBayes
kernel a posteriori

Tomando como funcion de verosimilitud el antilogaritmo de (10) tal que


= (, )0 se tiene que

1 |D| X 0
Y 0
L( | y) exp ez ez (11)
n1 ! n0
i:yi =0 i:yi =1

Aplicando la regla de Bayes e ignorando aquellos terminos que no involucren


a se tiene que la distribucion a posteriori de es proporcional a


|D| X 0
Y 0
p( | y) exp ez ez
n0
i:yi =0 i:yi =1
 
1 0 1
exp ( 0 ) V0 ( 0 ) (12)
2
sergiop@colpos.mx (COLPOS) MDEs Noviembre 2015 19 / 34
Materiales y Metodos

Simulacion de datos
Generacion de datos presencia-ausencia.
D, compuesta por 10, 000 celdas.
Dos covariables z1 N (0, 1) y z2 N (0, 1).
pi
log( 1p i
) = 0 + 1 z1 + 2 z2
0 = 1, 1 = 2, 2 = 2
yi Ber(1, pi ) Prevalencia de 0.38.
Implementacion MaxBayes e IPPBayes a partir de (8) y (12)
m.a. de tamanos 2000, 1000 y 100.
background, las 10000 celdas.
N M (0, V0 ), donde = (0 , 1 , 2 )0 son los parametros
asociados al intercepto y a las covariables z1 y z2 simuladas, y
5
10 0 0
V0 = 0 105 0 .
0 0 105
sergiop@colpos.mx (COLPOS) MDEs Noviembre 2015 20 / 34
Materiales y Metodos

Datos del genero Dalea

301 registros del genero Dalea.


Endemico segun Mendez et al.
(2004).

Se obtuvieron del portal de la


CONABIO.

Reserva de la biosfera
Tehuacan-Cuicatlan.

Area de estudio: Oaxaca,


Puebla y Veracruz.

Resolucion del estudio 1km2 .

sergiop@colpos.mx (COLPOS) MDEs Noviembre 2015 21 / 34


Materiales y Metodos

Datos del genero Dalea. . .

Covariables medioambientales: Pp, Alt, Tmedia, RangoT, Lat, Lon. Obte-


nidas de BIOCLIM (http://www.worldclim.org/bioclim).

sergiop@colpos.mx (COLPOS) MDEs Noviembre 2015 22 / 34


Materiales y Metodos

Datos del genero Dalea

Como Background se utilizo la informacion medioambiental prove-


nientes de las 243, 070 celdas.
El valor de las covariables medioambientales fueron estandarizadas.
Para Maxent se dejo por default = 0.5.
Para implementar MaxBayes e IPPBayes se asignaron distribuciones
a priori no informativas para , donde = (0 , 1 , . . . , 6 ).
NM (0, V0 )
105 . . .

0
.. .. .. .
V0 = . . .
0 ... 105

sergiop@colpos.mx (COLPOS) MDEs Noviembre 2015 23 / 34


Materiales y Metodos

Distribucion a posteriori
MCMC

Las muestras MCMC de las distribuciones a posteriori se obtuvieron a


traves de Metropolis-Hastings adaptativo (Chivers, 2012).
Se simularon tres cadenas de 100, 000 valores c/u, tomando como
burn in a las primeras 50, 000 iteraciones.
Adelgazamiento de 5.
La convergencia de cada cadena se midio mediante la prueba de
Gelman and Rubin (1992) implementada en el paquete coda
(Plummer et al., 2006) de R.
Se calcularon los estimadores bayesianos bajo perdida 0 1 (moda)
para .

sergiop@colpos.mx (COLPOS) MDEs Noviembre 2015 24 / 34


Resultados

Resultados Simulacion
MaxBayes

Cuadro : Resumen de MaxBayes para


distintos n (simulacion).
n = 2000
Variable Parametro Estimacion HPD Inf HPD Sup se
Intercepto 0 -0.88 -1.06 -0.70 0.09
z1 1 1.87 1.73 2.16 0.11
z2 2 -1.86 -2.19 -1.75 0.11
n = 1000
Variable Parametro Estimacion HPD Inf HPD Sup se
Intercepto 0 -0.96 -1.13 -0.62 0.13
z1 1 1.84 1.66 2.26 0.15
z2 2 -1.79 -2.29 -1.68 0.16
n = 100
Variable Parametro Estimacion HPD Inf HPD Sup se
Intercepto 0 -1.05 -1.61 0.52 0.57
z1 1 1.97 1.35 4.60 0.89
z2 2 -1.96 -3.69 -1.02 0.70

prevalencia real = 0.38


n prevalencia estimada
100 0.37
1000 0.38
2000 0.39
Figura : AUC - MaxBayes.

sergiop@colpos.mx (COLPOS) MDEs Noviembre 2015 25 / 34


Resultados

Resultados Simulacion
IPPBayes

Cuadro : Resumen de IPPBayes para Cuadro : DIC (Simulacion)


distintos n1 (simulacion). n MaxBayes IPPBayes
n1 = 2000 2000 87,813 22,841
Variable Parametro Estimacion HPD Inf HPD Sup se 1000 43,987 14,975
Intercepto -1.94 -2.00 -1.89 0.03 100 4,501 2,747
z1 1 0.58 0.54 0.63 0.02
z2 2 -0.57 -0.61 -0.53 0.02
n1 = 1000
Variable Parametro Estimacion HPD Inf HPD Sup se
Intercepto -2.62 -2.72 -2.56 0.04
z1 1 0.59 0.52 0.64 0.03
z2 2 -0.55 -0.62 -0.49 0.03
n1 = 100
Variable Parametro Estimacion HPD Inf HPD Sup se
Intercepto -4.98 -5.24 -4.73 0.13
z1 1 0.68 0.48 0.87 0.10
z2 2 -0.49 -0.69 -0.30 0.10

sergiop@colpos.mx (COLPOS) MDEs Noviembre 2015 26 / 34


Resultados

Resultados genero Dalea


Maxent y MaxBayes

Cuadro : Resumen de MaxBayes y


Maxent.

n = 301 MaxBayes Maxent


Variable Parametro Estimacion HPD Inf HPD Sup se Estimacion
Intercepto 0 -10.39 -12.26 -9.49 0.72
Altitud 1 -11.90 -13.17 -8.38 1.26 -19.45
Tmedia 2 -11.05 -12.22 -8.21 1.06 -27.38
Pp 3 -5.35 -6.57 -4.46 0.55 -24.95
RangoT 4 4.34 3.08 4.92 0.48 10.08
Lon 5 1.33 -0.27 2.48 0.72 0.74
Lat 6 -1.40 -2.26 -0.71 0.40 -5.49

Figura : Distribuciones a posteriori de


los parametros del modelo MaxBayes.

sergiop@colpos.mx (COLPOS) MDEs Noviembre 2015 27 / 34


Resultados

Resultados genero Dalea


IPPBayes

Cuadro : Resumen del modelo Cuadro : Comparativa


IPPBayes Modelo DIC
MaxBayes 15,449
Variable Parametro Estimacion HPD inf HPD sup se IPPBayes 8,515
Intercepto -12.99 -13.97 -11.43 0.64
Altitud 1 -3.95 -5.31 -2.97 0.59
Tmedia 2 -4.31 -5.48 -3.73 0.44
Pp 3 -4.73 -5.26 -3.55 0.44
RangoT 4 1.92 1.47 2.42 0.24
Lon 5 -0.26 -1.17 0.84 0.49
Lat 6 -1.37 -2.02 -0.86 0.29

Figura : Distribuciones a posteriori de los parametros del modelo IPPBayes.

sergiop@colpos.mx (COLPOS) MDEs Noviembre 2015 28 / 34


Resultados

Resultados genero Dalea


Distribucion potencial

Figura : Distribucion potencial del genero Dalea obtenidos mediante los modelos
Maxent, MaxBayes e IPPBayes.

sergiop@colpos.mx (COLPOS) MDEs Noviembre 2015 29 / 34


Resultados

Algunas consideraciones. . .

Maxent subestima la presencia-ausencia (a traves de la salida logstica).


Se debe a:
Asume que la prevalencia = 0.5, MaxBayes estima directamente la
prevalencia a traves de 0 (intercepto).
Maxent y MaxBayes utilizan diferentes funciones de enlace para Pr (y =
1|z), i.e.,
0 z
e
MaxBayes: (yi = 1|z, ) = 1+e 0 z .
z
Maxent: (yi = 1|z, ) = e
En el modelo IPPBayes, garantiza que al integrar (w) sobre todo
D resulte en n1 , i.e., n1 D exp 0 z 301.
P

En ese sentido IPPBayes proporciona intensidades de ocurrencia rela-


tivas. Si para el investigador no es de interes n1 , simplemente no se
considera.
sergiop@colpos.mx (COLPOS) MDEs Noviembre 2015 30 / 34
Conclusiones

Conclusiones

MaxBayes e IPPBayes, son alternativas viables cuando se modelan


distribuciones de especies con registros de solo presencias. Permiten
incorporar conocimiento a priori en relacion a las especies de interes,
sobre todo cuando el investigador cuenta con escasos registros de
presencia, como suele ser en la mayora de los casos.
MaxBayes, este es un modelo que aproxima la prevalencia aun cuando
el numero de presencias es pequeno (Ejemplo simulacion). Dicha
estimacion puede ser mejor cuando se utilizen distribuciones a priori
informativas.

sergiop@colpos.mx (COLPOS) MDEs Noviembre 2015 31 / 34


Conclusiones

Conclusiones . . .

Tanto MaxBayes como el modelo IPPBayes predicen patrones de distri-


bucion potencial similares al obtenido con el software Maxent (Ejemplo
Dalea).
Con MaxBayes se estima la prevalencia, con Maxent solo seobtiene
un ndice de que tan idoneo es el sitio para albergar a la especie con
respecto a otros y generalmente este sobrestima la presencia de la
especie en sitios donde no existen registros, mientras que subestima
para aquellas zonas donde la especie ha sido registrada.
Con IPPBayes se estima la intensidad de ocurrencia, es decir, el numero
esperado de especmenes por unidad de area.
Aplicaciones en otras areas (economa, mercadotecnia, criminologa,
etc.)

sergiop@colpos.mx (COLPOS) MDEs Noviembre 2015 32 / 34


Bibliografa

Bibliografa I

Chivers, C. (2012). MHadaptive: General Markov Chain Monte Carlo for Bayesian Inference using
adaptive Metropolis-Hastings sampling. R package version 1.1-8.
Fithian, W. and Hastie, T. (2013). Finite-sample equivalence in statistical models for presence-
only data. Annals of Applied Statistics, 7:19171939.
Gelman, A. and Rubin, D. (1992). Inference from iterative simulation using multiple sequences.
Statistical Sciencie, 7:457511.
Mendez, L., Ortiz, E., and Villasenor, J. (2004). Las Magnoliophyta endemicas de la porcion
xeroftica de la provincia florstica del Valle de Tehuacan-Cuicatlan, Mexico. Anales del Instituto
de Biologa. UNAM. Serie Botanica, 75(1):87104.
Phillips, S., Dudik, M., and Schapire, R. (2004). A Maximum Entropy Approach to Species
Distribution Modeling. Preceedings of the Twenty-Firts International Conference on Machine
Learning, pages 18.
Plummer, M., Best, N., Cowles, K., and Vines, K. (2006). CODA: Convergence Diagnosis and
Output Analysis for MCMC. R News, 6(1):711.
Royle, J., Chandle, R. B., Yackulic, C., and Nichols, J. (2012). Likelihood analysis of species
occurrence probability from presence-only data for modelling speciesdistributions. Methods in
Ecology and Evolution, 3:545554.
Warton, D. and Shepherd, L. (2010). Poisson Point Process Models solve the Pseudo-absence
problem for presence-only data in ecology. The Annals of Applied Statistics, 4:13831402.

sergiop@colpos.mx (COLPOS) MDEs Noviembre 2015 33 / 34


Gracias!!!

También podría gustarte