Está en la página 1de 41

Funcionamiento,

interfaz y
formato de los datos en
MaxEnt
Rplica del IV taller de modelizacin de nichos ecolgicos (27-30 Mayo 2008)
Elisa Liras
Dpto. Biologa Vegetal y Ecologa
Universidad de Almera
eliras@ual.es
Grupo de investigacin Ecologa de Zonas ridas
CENTRO ANDALUZ PARA LA EVALUACIN Y
SEGUIMIENTO DEL CAMBIO GLOBAL
Rplica del IV taller de modelizacin de nichos ecolgicos (27-30 Mayo 2008)
Qu es MaxEnt?
MaxEnt, un programa basado en una distribucin de Mxima Entropa para la
modelizacin de la distribucin geogrfica de las especies.
Ha sido escrito originalmente por Steven Phillips, Miro Dudik y Rob Schapire, con el
respaldo de AT&T Labs-Research, Princeton University, y e Centro para la
Biodiversidad y Conservacin, Museo de Historia Natural de Amrica.
Y qu hace?
MaxEnt empieza ajustando los datos a partir de una distribucin unifome, que va
modificando hasta una distribucin de Mxima Entropa. El modelo se basa en
ajustar los parmetros de la distribucin final.
Qu necesitamos?
1) conjunto de localidades (puntos) donde se sabe que la especie est
presente
2) coberturas geogrficas parmetros ambientales que pueden,
potencialmente, limitar la capacidad de supervivencia de la especie.
13. Funcionamiento, interfaz y formato de los datos en MaxEnt
Rplica del IV taller de modelizacin de nichos ecolgicos (27-30 Mayo 2008)
Qu significa Mxima Entropa?
Entropa = cantidad de informacin contenida por un sistema
Mxima entropa = distribucin ms extendida, cercana a uniforme
Entonces
El mtodo de Mxima Entropa: para estimar una distribucin desconocida:
Determinar lo que se conoce (restricciones)
Entre las predicciones que se ajustan a las restricciones se favorece la que tiene
mxima entropa
Las restricciones estn impuestas por los valores de las variables ambientales en
las localidades conocidas de la especie.
13. Funcionamiento, interfaz y formato de los datos en MaxEnt
??
Media
muestral
Regin de confianza
(m.muestral # m.poblacional)
Distribucin resultado
(modelo)
Variables ambientales
determinan cundo hay un
pico
muestra
Podemos estimar este
punto?
Valor Precipitacin a los que
aparece la especie
F
r
e
c
u
e
n
c
i
a
Rplica del IV taller de modelizacin de nichos ecolgicos (27-30 Mayo 2008)
13. Funcionamiento, interfaz y formato de los datos en MaxEnt
Rplica del IV taller de modelizacin de nichos ecolgicos (27-30 Mayo 2008)
Steven Phillips, Miro Dudik & Rob Schapire
13. Funcionamiento, interfaz y formato de los datos en MaxEnt
Rplica del IV taller de modelizacin de nichos ecolgicos (27-30 Mayo 2008)
Steven Phillips, Miro Dudik & Rob Schapire
13. Funcionamiento, interfaz y formato de los datos en MaxEnt
Rplica del IV taller de modelizacin de nichos ecolgicos (27-30 Mayo 2008)
Modelos de nicho:
$T
$T
$T
$T
$T
$T
$T
$T
$T
$T
$T$T
$T
$T
$T
$T
$T$T
$T$T
$T
$T
$T
$T
$T
$T
$T $T
$T
$T$T
$T
$T
$T$T
$T
$T
$T
$T
$T
$T
$T
$T
$T
$T
$T
$T
$T$T
$T
$T
$T
$T
$T
$T
$T
$T
$T
$T
$T$T
$T
$T
$T$T
$T
$T
$T
$T
$T$T
$T
$T
$T
$T
$T
$T
$T
$T
$T
$T
$T$T
$T
$T
$T$T
$T
$T
$T$T
$T$T$T$T
$T
$T
$T
$T
$T
$T
$T
$T
$T
$T
$T$T
$T
$T
$T
$T
$T$T
$T$T
$T
$T
$T
$T
$T
$T
$T $T
$T
$T$T
$T
$T
$T$T
$T
$T
$T
$T
$T
$T
$T
$T
$T
$T
$T
$T
$T$T
$T
$T
$T
$T
$T
$T
$T
$T
$T
$T
$T$T
$T
$T
$T$T
$T
$T
$T
$T
$T$T
$T
$T
$T
$T
$T
$T
$T
$T
$T
$T
$T$T
$T
$T
$T$T
$T
$T
$T$T
$T$T$T$T
E
s
p
a
c
i
o
G
e
o
g
r

f
i
c
o
Registros de presencia
de una especie
Temperatura
H
u
m
e
d
a
d
Modelo de Nicho Ecolgico
Prediccin de distribucin
Producto
E
s
p
a
c
i
o
E
c
o
l

g
i
c
o
Informacin
Ambiental
Proyeccin de vuelta al
espacio geogrfico
P
e
n
d
i
e
n
t
e
Datos de entrada
Algoritmo de
Modelado
13. Funcionamiento, interfaz y formato de los datos en MaxEnt
Rplica del IV taller de modelizacin de nichos ecolgicos (27-30 Mayo 2008)
Bradypus variegates
Superficie de
probabilidad
13. Funcionamiento, interfaz y formato de los datos en MaxEnt
Rplica del IV taller de modelizacin de nichos ecolgicos (27-30 Mayo 2008)
Ventajas de MaxEnt:
Datos ambientales continuos y categricos (trabaja con la frecuencia de aparcin)
Resultado continuo
Comportamiento determinista (repetible)
Capacidad interpretativa en dimensiones ecolgicas (curvas de respuesta)
Rpido
Exacto (se ajusta a los datos)
Steven Phillips, Miro Dudik & Rob Schapire
13. Funcionamiento, interfaz y formato de los datos en MaxEnt
Rplica del IV taller de modelizacin de nichos ecolgicos (27-30 Mayo 2008)
13. Funcionamiento, interfaz y formato de los datos en MaxEnt
Rplica del IV taller de modelizacin de nichos ecolgicos (27-30 Mayo 2008)
13. Funcionamiento, interfaz y formato de los datos en MaxEnt
Rplica del IV taller de modelizacin de nichos ecolgicos (27-30 Mayo 2008)
Archivo .csv
species,longitude,latitude
bradypus_variegatus,-65.4,-10.3833
bradypus_variegatus,-65.3833,-10.3833
bradypus_variegatus,-65.1333,-16.8
bradypus_variegatus,-63.6667,-17.45
bradypus_variegatus,-63.85,-17.4
Opcin: Settings Delete duplicates.
13. Funcionamiento, interfaz y formato de los datos en MaxEnt
Especificar archivo de datos
Si hubiera ms de una especie, lo
veramos aqu
(se pueden seleccionar o no,
dependiendo de si queremos
incluirlas en el modelo)
Rplica del IV taller de modelizacin de nichos ecolgicos (27-30 Mayo 2008)
13. Funcionamiento, interfaz y formato de los datos en MaxEnt
Rplica del IV taller de modelizacin de nichos ecolgicos (27-30 Mayo 2008)
Formato de coberturas:
ASCII grid de ESRI
Hay que especificar si la
variable es continua o
categrica!!
Variables categricas:
indicadas preferiblemente por
nmeros (mejor que por letras o
palabras).
13. Funcionamiento, interfaz y formato de los datos en MaxEnt
(las coberturas se pueden
seleccionar o no, dependiendo de si
queremos incluirlas en el modelo)
Especificar archivo de datos
13. Funcionamiento, interfaz y formato de los datos en MaxEnt
Rplica del IV taller de modelizacin de nichos ecolgicos (27-30 Mayo 2008)
13. Funcionamiento, interfaz y formato de los datos en MaxEnt
Rplica del IV taller de modelizacin de nichos ecolgicos (27-30 Mayo 2008)
Especificar archivo de salida
Especificar archivo con las
coberturas de proyeccin
Hay 3 tipos de
formato de
resultados
(diferencias ms
adelante)
13. Funcionamiento, interfaz y formato de los datos en MaxEnt
Rplica del IV taller de modelizacin de nichos ecolgicos (27-30 Mayo 2008)
13. Funcionamiento, interfaz y formato de los datos en MaxEnt
Rplica del IV taller de modelizacin de nichos ecolgicos (27-30 Mayo 2008)
El gain est relacionado con la desviacin, una medida de la bondad de ajuste utilizada
en GAM y GLM.
Esta medida empieza en el valor 0 y va aumentando asintticamente durante el proceso
de modelizacin.
Durante este proceso, MaxEnt est generando una distribucin de probabilidad sobre
los pxeles de la grid, empezando por una distribucin uniforme y, de forma iterativa,
mejorando el ajuste de la distribucin a los datos de muestreo.
Al final del proceso, el valor del gain indica cmo de ajustado est el modelo a las
muestras de presencia; por ejemplo, si el gain toma valor de 2, ello significa que el valor
medio de los pxeles que contienen un punto de presencia es exp(2) 7.4 veces mayor
que una distribucin al azar sobre dicho pxel.
Ntese que MaxEnt no est calculando directamente la probabilidad de ocurrencia. La
probabilidad asignada por el modelo a cada pxel es, generalmente, muy pequea, dado
que la suma de los valores totales del grid debe de ser 1
13. Funcionamiento, interfaz y formato de los datos en MaxEnt
Rplica del IV taller de modelizacin de nichos ecolgicos (27-30 Mayo 2008)
Archivos de salida (resultado de MaxEnt): html
13. Funcionamiento, interfaz y formato de los datos en MaxEnt
Rplica del IV taller de modelizacin de nichos ecolgicos (27-30 Mayo 2008)
13. Funcionamiento, interfaz y formato de los datos en MaxEnt
Rplica del IV taller de modelizacin de nichos ecolgicos (27-30 Mayo 2008)
Logistico:
Valor por defecto
Da una estimacin entre 0
y 1 de la probabilidad de
presencia
Es el ms fcil de
interpretar
13. Funcionamiento, interfaz y formato de los datos en MaxEnt
Rplica del IV taller de modelizacin de nichos ecolgicos (27-30 Mayo 2008)
Datos crudos (raw data):
Es simplemente el modelo
exponencial de MaxEnt
13. Funcionamiento, interfaz y formato de los datos en MaxEnt
Rplica del IV taller de modelizacin de nichos ecolgicos (27-30 Mayo 2008)
Cumulativo:
Es el resultado ms fcil
de interpretar en trminos
de tasa de prediccin de
omisin
13. Funcionamiento, interfaz y formato de los datos en MaxEnt
Rplica del IV taller de modelizacin de nichos ecolgicos (27-30 Mayo 2008)
13. Funcionamiento, interfaz y formato de los datos en MaxEnt
Rplica del IV taller de modelizacin de nichos ecolgicos (27-30 Mayo 2008)
% de datos que se
guardan para
realizar el test
Eliminar puntos duplicados
Archivo de datos
independientes
con los que
realizar el test
Ajuste del
modelo (menor
1: ms ajustado)
Sin seleccionar: MaxEnt utiliza
un conjuto de datos fijo
N mximo de iteraciones
Lmite de convergencia
N mximo de background
puntos (grid)
13. Funcionamiento, interfaz y formato de los datos en MaxEnt
Rplica del IV taller de modelizacin de nichos ecolgicos (27-30 Mayo 2008)
% de datos que se
guardan para
realizar el test
Eliminar puntos duplicados
Archivo de datos
independientes
con los que
realizar el test
Ajuste del
modelo (menor
1: ms ajustado)
Sin seleccionar: MaxEnt utiliza
un conjuto de datos fijo
N mximo de iteraciones
Lmite de convergencia
N mximo de background
puntos (grid)
13. Funcionamiento, interfaz y formato de los datos en MaxEnt
Rplica del IV taller de modelizacin de nichos ecolgicos (27-30 Mayo 2008)
Grfico 1: Muestra cmo las omisiones calculadas a partir de los puntos de
entrenamiento y los de test, y el rea predicha como favorable varan segn el valor
lmite cumulativo:
13. Funcionamiento, interfaz y formato de los datos en MaxEnt
Rplica del IV taller de modelizacin de nichos ecolgicos (27-30 Mayo 2008)
Grfico 2: Curva operacional (curva ROC), para los 2 grupos de datos, el de test y el de
entrenamiento, as como el rea por debajo de la curva ROC (AUC).
La curva roja (entrenamiento) representa el ajuste del modelo a los datos de
muestreo. La curva azul (test) indica el grado de ajuste del modelo a los datos de test, y
supone el test real del poder predictivo del modelo. La lnea turquesa representa la lnea
esperada si el modelo no fuese mejor que por azar. Si la curva azul (test) cae por debajo
de la lnea turquesa, indica que el modelo es peor que si se hubiese hecho al azar. Por el
contrario, cuanto ms se aproxime la curva azul a la esquina superior izquierda, mejor es el
modelo para predecir las presencias de los datos de test.
13. Funcionamiento, interfaz y formato de los datos en MaxEnt
Rplica del IV taller de modelizacin de nichos ecolgicos (27-30 Mayo 2008)
Si hay disponible un subconjunto de datos para el test, el programa calcula
automticamente la significancia estadstica de la prediccin utilizando un test
binomial de omisin.
13. Funcionamiento, interfaz y formato de los datos en MaxEnt
Rplica del IV taller de modelizacin de nichos ecolgicos (27-30 Mayo 2008)
Qu variables importan ms?
El programa asigna el incremento en el gain a las variables ambientales de las que
depende la especie. Convirtiendo dichos valores a porcentajes, al final del proceso de
modelado obtenemos la siguiente tabla:
13. Funcionamiento, interfaz y formato de los datos en MaxEnt
Rplica del IV taller de modelizacin de nichos ecolgicos (27-30 Mayo 2008)
13. Funcionamiento, interfaz y formato de los datos en MaxEnt
Rplica del IV taller de modelizacin de nichos ecolgicos (27-30 Mayo 2008)
Qu variables importan ms?
En cada vuelta del modelo se excluye una variable y se crea el modelo con las
variables remanentes. Despus, se crea un modelo con cada una de las variables por
separado. De forma adicional, se crea un modelo utilizando todas las variables, como
en el caso normal de ejecutar MaxEnt.
13. Funcionamiento, interfaz y formato de los datos en MaxEnt
Rplica del IV taller de modelizacin de nichos ecolgicos (27-30 Mayo 2008)
13. Funcionamiento, interfaz y formato de los datos en MaxEnt
Rplica del IV taller de modelizacin de nichos ecolgicos (27-30 Mayo 2008)
13. Funcionamiento, interfaz y formato de los datos en MaxEnt
Rplica del IV taller de modelizacin de nichos ecolgicos (27-30 Mayo 2008)
Cmo depende la prediccin de las variables?
Curvas de respuesta: se evala cada variables manteniendo el valor del resto fijo en
su valor medio (cuidado con variables correlacionadas!!!)
13. Funcionamiento, interfaz y formato de los datos en MaxEnt
Rplica del IV taller de modelizacin de nichos ecolgicos (27-30 Mayo 2008)
Cmo depende la prediccin de las variables?
Contribucin marginal de cada variable por s sola al modelo (obviando el resto de
variables)
13. Funcionamiento, interfaz y formato de los datos en MaxEnt
Rplica del IV taller de modelizacin de nichos ecolgicos (27-30 Mayo 2008)
13. Funcionamiento, interfaz y formato de los datos en MaxEnt
Rplica del IV taller de modelizacin de nichos ecolgicos (27-30 Mayo 2008)
Si ponemos un valor ms
pequeo: modelo menos
ajustado
Cuidado: distintos valores
pueden dar lugar a modelos
demasiado generales o modelos
sobre-ajustados
13. Funcionamiento, interfaz y formato de los datos en MaxEnt
Rplica del IV taller de modelizacin de nichos ecolgicos (27-30 Mayo 2008)
Regularizacin: modelo ms general (valor de regularizacin menor que 1)
original
regularizado
13. Funcionamiento, interfaz y formato de los datos en MaxEnt
Rplica del IV taller de modelizacin de nichos ecolgicos (27-30 Mayo 2008)
Para quien tenga un poco de experiencia en programacin
1) Cuando las grids ambientales son muy grandes se puede utilizar el
formato de datos SWD (samples with data)
2) La modelizacin puede automatizarse con comandos de lnea
(BATCH RUNNING) cuando se necesitan generar muchos modelos
cambiando los parmetros
3) Los resultado de MaxEnt se pueden importar en otros softwares
estadsticos para realizar anlisis adicionales (ejemplo: paquetes
ROCR, vcd y boot de R)
Todo esto est explicado en el manual
13. Funcionamiento, interfaz y formato de los datos en MaxEnt
Rplica del IV taller de modelizacin de nichos ecolgicos (27-30 Mayo 2008)
Muchas gracias

También podría gustarte