Modelos de distribución de especies aplicados a estudios de flora amenazada: Prácticas

Blas Benito de Pando
blasbp@ugr.es Unidad de Conservación Vegetal Departamento de Botánica Universidad de Granada

Esquema de trabajo general

SECCIÓN 1 El entorno de trabajo

Programas necesarios
Herramientas principales GRASS OpenModeller Herramientas de apoyo Octave Calc Notepad++ Google Earth

SECCIÓN 2 Preparación de las variables ambientales

Esquema de trabajo

Conceptos importantes en GRASS
BASE DE DATOS Directorio de trabajo LOCATION Área geográfica y sistema de referencia MAPSET Conjunto de mapas MASK Área de cálculo REGION Resolución y límites geográficos

Creación de la base de datos de GRASS (2.1.1)
BASE DE DATOS C:/CURSO_MODELOS/GEODATOS/GRASSDB ALMERIA_latlong latitud-longitud datum WGS84 EPSG code = 4326 ALMERIA_utm UTM datum WGS84 EPSG code = 32630 opción 5: Usen in Spain (except Northwest)

El interfaz de GRASS

Preparación de la región de trabajo (2.1.3)
Objetivos: Definir un área y una resolución de trabajo Tareas Establecer resolución Descargar e importar a GRASS un archivo vectorial con los límites provinciales de Almería Definir la extensión de la región de trabajo según los límites geográficos de la provincia de Almería

Preparación del modelo de elevaciones (2.2)
Objetivos: Obtener un modelo de elevaciones de alta resolución de la región de trabajo Tareas: Descargar el modelo de elevaciones (2.2.1) Importarlo a la base de datos de GRASS (2.2.2) Visualizarlo en la ventana de mapas de GRASS

Creación de una máscara (2.3)

Variables topográficas I (2.4.1)

Variables topográficas II (2.4.2 - 2.4.5)

Teledetección (Landsat)
Interfaz de descarga de imágenes de del programa Image 2000

Bandas Landsat

Importación y procesamiento de las bandas Landsat (2.5.1)
Objetivos: Preparar un conjunto de imágenes satélite Tareas: Descomprimir los paquetes con las capas Importarlas a GRASS Unir las parejas de imágenes Borrar los mapas sobrantes

NDVI (2.5.2)

Precipitación (2.6.1)

Estaciones pluviométricas y precipitación del mes más húmedo

Temperatura (2.6.2)

Correlación espacial (2.7)

Las variables correlacionadas aportan información redundante a los modelos de distribución Es necesario analizar la correlación entre variables y establecer un umbral de correlación máxima. Seleccionar variables de interpretación más intuitiva.

Análisis de Componentes Principales (2.8)
Técnica de reducción del número de variables correlacionadas. Transforma las variables en componentes. Es difícil interpretar biológicamente la importancia de los componentes. Habitualmente aplicado a imágenes satélite.

Cambio en la resolución de variables
Lo hacemos para ahorrar tiempo, o cuando trabajamos sobre áreas muy extensas, para reducir el número de celdas de las capas. Disminuir la resolución de las variables implica una pérdida de potencia de los modelos de distribución. Las relaciones entre los valores de las variables y la idoneidad del hábitat se distorsionan.

Algoritmos de interpolación para cambios en la resolución

Problema de no coincidencia de valores

Valor real de pendiente = 5º Valor real de temperatura = 16.1ºC

Cambiando resoluciones (2.9.2)
Objetivo: Obtener una versión de baja resolución (1000m) de cada una de las variables generadas Tareas: Cambiar la resolución de trabajo a la deseada: de 0:00:03 a 0:00:30 Remuestrear los mapas a la nueva resolución

Exportación de las variables ambientales (2.10)
Objetivo: Preparar las variables en un formato que OpenModeller pueda leer Tareas: Exportar una sola variable para aprender cómo se hace Ejecutar un guión para automatizar la exportación de todas las variables

Clasificación de las variables ambientales
Variables ambientales
Índice topográfico de humedad Orientación Pendiente (EO) Posición topográfica Radiación solar (invierno y verano) Temperatura media anual Precipitación (máxima y mínima mensual) Componentes Landsat

Importancia biológica
Gradientes de recursos
recursos y energía de consumo directo

Gradientes directos
importancia fisiológica

Gradientes indirectos
sin importancia fisiológica, pero correlacionados con combinaciones de los anteriores

Principio de la relativa constancia de ubicación
Las especies tienden a compensar diferencias regionales en las condiciones climáticas cambiando su situación topográfica para seleccionar micronichos idóneos (Walter y Walter 1953) Consecuencia: Un modelo calibrado solo con gradientes indirectos no puede aplicarse a otro área geográfica sin errores significativos, porque la misma posición topográfica en ambas áreas corresponde a distintas combinaciones de gradientes de recursos o directos.

SECCIÓN 3 Preparación de los registros de presencia

Origen y calidad de los datos de presencia Origen de los registros de presencia:
GPS (muestreo sistemático y cita casual) Polígonos o puntos sobre ortoimagen Marcas a mano sobre mapa Cuadrículas UTM (1x1, 10x10) Topónimos

Tamaño de muestra y densidad
Tamaño de muestra mínimo: en torno a 10 registros; depende de lo coherente que sea la señal ecológica que aporte. Tamaño de muestra óptimo: > 30 Densidad de los registros equilibrada

Preparación de registros de presencia para OpenModeller (3.5)
Objetivos: Generar un fichero de presencias de una especie amenazada a partir de registros de GPS, para calibrar modelos con OpenModeller Tareas: Preparar los datos en una hoja de cálculo según el formato requerido Partir aleatoriamente los datos en dos grupos, uno para calibrado (60% de puntos) y otro para evaluación (40% de puntos)

SECCIÓN 4 Modelos de distribución con OpenModeller

OpenModeller
Interfaz gráfico de OpenModeller

Preparación de las variables (4.1)
Objetivo: Preparar conjuntos de variables para calibrar modelos en OpenModeller Tareas: Preparar conjunto de variables de 1000m Preparar conjunto de variables de 90m

Ejecución de un experimento de prueba (4.2)
Objetivo: Generar modelos de baja resolución con OpenModeller Tareas: Preparar el experimento con los datos requeridos en el tutorial Ejecutar el experimento y observar los modelos resultantes

Bioclim
Envuelta bioclimática cuadrangular

Óptima [m-c*s, m+c*s]
m = media c = % desviación s = desviación

Subóptima [max, min]

Climate Space Model
Basado en el Análisis de Componentes Principales La información disponible acerca de su funcionamiento es limitada y confusa

Envelope Score
Similar a Bioclim Envueltas bioclimáticas cuadrangulares definidas según los valores máximo y mínimo de las presencias (envuelta subóptima de Bioclim) P = nº de variables que cumplen el criterio / nº total de variables

Environmental Distance (I)
Métricas de distancia ecológica (similaridad)

tiene en cuenta la correlación entre variables. Cuanto mayor es la correlación, más se aproxima a la Euclídea

Environmental Distance (II)

GARP (I)
Genetic Algorithm for Rule set Prediction
Inteligencia artificial basada en algoritmos genéticos: concepto de selección natural

Reglas
atómica rango regresión logística envuelta bioclimática envuelta bioclimática inversa

Proceso iterativo no determinista (mutación estocástica)

GARP (II)

GARP (III)

Support Vector Machines (I)
Inteligencia artificial Clasificación en espacios n-dimensionales Separación de conjuntos mediante hiperplanos Criterio de selección según distancia al hiperplano

Support Vector Machines (II)

Consideraciones sobre los resultados
Conclusiones previas multiplicidad de algoritmos y resultados modelos binarios y continuos áreas de presencia muy extensas Cuestiones... ¿cuál es el mejor algoritmo? ¿qué representan los modelos continuos? ¿son mejores los modelos continuos, o los binarios?

¿Mas conclusiones previas y cuestiones?

SECCIÓN 5 Evaluación de modelos de distribución

Empezando por lo más simple

Sensibilidad: proporción de aciertos Error de omisión (falso negativo): presencia clasificada como ausencia

Error de comisión y sobreajuste

Modelos a) y b) tienen igual sensibilidad, pero:
a) sobreestima presencia potencial: error de comisión b) muestra sobreajuste sobre localidades de presencia

Caso práctico pág. 44: Calculo de sensibilidad en modelos binarios
Preparar experimento con los modelos Bioclim, y GARP (ambas “single run”) Examina visualmente los resultados: ¿puedes valorar la sensibilidad de los modelos? OpenModeller llama accuracy a la sensibilidad, y la mide en porcentaje de aciertos. Celdas aptas: porcentaje del territorio de presencia potencial
modelo BIOCLIM GARP desktop GARP openmodeller sensibilidad omisión celdas aptas (%) 1 0.98 0.88 0 0.02 0.12 27.32 46.23 19.82

NOTA: al finalizar este caso práctico, poner en ejecución los modelos continuos de alta resolución para siguientes apartados

Complicándolo un poco más: Partición aleatoria de datos de presencia
División al azar del conjunto de presencias en dos grupos: calibrado y evaluación.

SENSIBILIDAD = 1

SENSIBILIDAD = 0

Caso práctico pág. 45: Evaluación mediante partición aleatoria de datos
Tareas:
Importación de modelos a GRASS Transformación de los valores de los modelos Importación de los puntos de evaluación a GRASS Consulta de los valores de los puntos de evaluación sobre los tres modelos Cálculo de la sensibilidad en Calc
modelo BIOCLIM GARP desktop GARP openmodeller aciertos 63 70 62 sensibilidad sensibilidad celdas aptas (%) (evaluación) (calibrado) 0.84 0.93 0.83 1 0.99 0.86 23.66 38.94 13.40

Registros de ausencia y matriz de confusión (I)
¿Cómo se identifica el error de comisión?: una posibilidad, los registros de ausencia. Un ejemplo: tres modelos calibrados con los mismos datos de presencia y ausencia.

Al incluir ausencias aparece un nuevo tipo de error: clasificar como presencia un registro de ausencia (error de comisión).

Registros de ausencia y matriz de confusión (II)
Los aciertos y errores se tabulan en una matriz de confusión:
Datos reales (registros de presencia y ausencia) presencia Datos simulados (modelo de distribución) presencia ausencia A C ausencia B D

A: presencias correctamente clasificadas D: ausencias correctamente clasificadas B: ausencias erróneamente clasificadas C: presencias erróneamente clasificadas N: A + B + C + D

Registros de ausencia y matriz de confusión (III)
Medidas de evaluación derivadas de la matriz de confusión: Sensibilidad = (A / (A + C)) Especificidad = (D / (B + D)) Kappa: [(A + D) - (((A + C) (A + B) + (B + D) (C + D)) / N)] K= [N – (((A + C) (A + B) + (B + D) (C + D)) / N)]

Registros de ausencia y matriz de confusión (IV)

modelo sensibilidad especificidad kappa a b c 1 0 0.6 0 1 0.8 0 0 0.4

Caso práctico pág. 51: Evaluación mediante partición aleatoria de datos y registros de ausencia
Tareas: Importar registros de ausencia a GRASS Crear archivo vectorial a partir de las ausencias Consultar los valores de las presencias y las ausencias sobre los modelos Calcular las medidas de evaluación de los modelos

Puntos aleatorios como sustitutos de las ausencias (I)
Las ausencias pueden ser reales, aparentes, temporales, y se basan en un criterio subjetivo. Este criterio condiciona los valores de la matriz de confusión. Los puntos aleatorios pueden sustituir a las ausencias sin desventajas conceptuales ni subjetivas. Pero también presentan problemas:

grupo aleatorios sensibilidad especificidad kappa A B 0.6 0.6 0 1 -0.4 0.6

Puntos aleatorios como sustitutos de las ausencias (II)
Una solución consiste en generar multitud de puntos aleatorios y calcular los índices de evaluación muchas veces utilizando cada vez distintos grupos de puntos aleatorios.

Caso práctico pág. 55: Evaluación mediante partición aleatoria de datos y puntos aleatorios
Tareas Generar puntos aleatorios Consultar los valores de los puntos aleatorios sobre los modelos Preparar los datos para introducirlos en Octave Calcular índices de evaluación utilizando el programa KAPPA.m en Octave

Evaluación de modelos continuos: La curva ROC (I)

NOTA: 1-especificidad = fracción de falsos positivos (error de comisión)

Evaluación de modelos continuos: La curva ROC (II)
La representación gráfica de los pares sensibilidad vs. 1especificidad proporciona una curva ROC. El área bajo la curva (AUC) indica la probabilidad de que el modelo, ante una pareja de puntos de presencia y ausencia seleccionadas al azar, clasifique la presencia con un valor de idoneidad mayor que el de la ausencia.

AUC = 0.74

Caso práctico pág. 63: Cálculo de la curva ROC
Tareas: Preparar archivos vectoriales de presencias y aleatorios Importar los modelos continuos de alta resolución a GRASS Consultar los valores de las presencias y los puntos aleatorios sobre los modelos Preparar los datos para introducirlos en Octave Calcular AUC con el programa AUC.m en Octave

SECCIÓN 6 Transformación de modelos continuos en binarios

Transformación de modelos continuos en binarios
Algunas aplicaciones de modelos de distribución funcionan mejor con modelos binarios (reservas de flora, cartografías...) Es necesario establecer un criterio: se selecciona un valor de idoneidad del modelo, por encima del cual se considera el área apta para la presencia de la planta. Este criterio será distinto según la aplicación a la que está destinada el modelo. Dos criterios sencillos pero muy efectivos: valor medio de los registros de evaluación valor medio menos desviación estándar de los registros de evaluación

Diferencias entre los criterios

criterio b) reduce omisión un 15%, pero incrementa el área apta un 861%

Caso práctico pág. 69: Transformación de un modelo continuo en binario
Tareas: Recodificar los valores del modelo continuo con mejor AUC según los valores obtenidos en el fichero de resultados RESULTADOS_AUC.txt

SECCIÓN 7 Aplicaciones prácticas de los modelos de distribución

Cartografía de poblaciones (7.1)
Objetivos: Calcular superficie potencial de Linaria nigricans Obtener cartografía a escala de reconocimiento Obtener cartografía a escala de detalle Comparación del resultado con una cartografía real Tareas Medir área potencial del modelo binario Vectorizar modelo binario para obtener cartografía a escala de detalle Eliminar ruido del modelo binario para obtener cartografía a escala de reconocimiento Comparación visual del resultado con datos reales

Cartografía de poblaciones

Algunas consideraciones: Los resultados tienen una buena relación coste-beneficio El área de presencia potencial es mayor que el área de presencia real

Cuanto mayor es la resolución, mejor será el resultado

Búsqueda de nuevas poblaciones (7.2)
Objetivos: Obtener un mapa de presencia potencial para localizar poblaciones desconocidas de una planta amenazada Tareas: Generar un mapa de distancias a las poblaciones conocidas Importar todos los modelos continuos a GRASS Transformarlos en binarios según un criterio relajado Ensamblar los modelos mediante suma Aplicación del criterio de distancia Visualización del resultado

Búsqueda de nuevas poblaciones

Una estrategia para mejorar el modelo es realimentarlo con los resultados de la búsqueda El ensamblado de modelos se considera una técnica predictiva robusta

Ensamblado de biodiversidad para asistir en el diseño de reservas de flora (7.3)
Objetivos: Obtener un mapa de biodiversidad útil como base para diseñar una red de reservas de flora Tareas: Preparar 225 modelos de especies Preparar y ejecutar un guión de GRASS para procesado masivo de modelos Comparar la biodiversidad real con la biodiversidad aparente

Ensamblado de biodiversidad para asistir en el diseño de reservas de flora

Los datos de presencia real (a) ofrecen una imagen incompleta El modelo de biodiversidad potencial (b) probablemente es más acorde a la realidad. El modelo de idoneidad (c) ofrece una visual interesante de la distribución potencial de la biodiversidad Los modelos no hacen milagros: si los datos de partida están muy sesgados, el resultado también lo estará

Evaluación del impacto del cambio climático en la distribución de las especies (7.4)

Evaluación del impacto del cambio climático en la distribución de las especies
Los escenarios climáticos regionalizados pueden combinarse con modelos de distribución para predecir la distribución potencial futura de las especies La Fundación para la Investigación del Clima (FIC) y la Agencia Estatal de Meteorología (AEMET) han preparado escenarios regionalizados para estudios de impacto del cambio del clima en España. Es importante entender la cascada de incertidumbres que afecta a estas proyecciones

Evaluación del impacto del cambio climático en la distribución de las especies
Objetivos: Generar y analizar modelos de alta resolución de distribución actual y futura (2055-2070) de una especie utilizando un escenario de cambio climático regionalizado (CGCM2-A2) Tareas: Elaborar un modelo de distribución actual y proyectarlo a las condiciones futuras Mapear las distribuciones potenciales actual y futura Encontrar los frentes de avance y retroceso de las poblaciones

Evaluación del impacto del cambio climático en la distribución de las especies

Los resultados deben interpretarse con cautela El diferencial de idoneidad es útil para localizar los frentes de avance y retroceso de poblaciones (monitoreo, actuaciones para conservación...) Es importante hacer proyecciones con distintos escenarios y modelos de distribución (ensamblado)

Ensamblado de modelos para proyecciones de distribución en escenarios de cambio climático (7.5)
Objetivos: Utilizar un ensamblado de modelos de distribución actual y futura de una especie vegetal para evaluar cambios potenciales en su distribución Tareas: Generar modelos de distribución actual y futura de una especie utilizando distintos algoritmos de modelado y variables de baja resolución Importar a GRASS y transformar los modelos continuos en binarios para ensamblarlos Medir las áreas de ocupación actual y futura, y componer un mapa que presente visualmente la información

Ejercicios propuestos
Cartografía de poblaciones de alta resolución de una especie amenazada, midiendo área potencial y preparando una visualización de los resultados sobre una imagen Landsat Búsqueda de nuevas poblaciones a partir de los resultados del ejercicio anterior Exploración libre de las ideas y conceptos que has aprendido: inventa y experimenta para buscar métodos de análisis y aplicaciones de los modelos que puedan ser útiles en tu trabajo

Sign up to vote on this title
UsefulNot useful