Evaluando Predicciones PDF

27/02/2008
Presentación por Jane Elith, con aportes deBette Loiselle, Catherine Es el modelo razonable?
Graham y Santiago Burneo
Datos para evaluación
• Datos de modelamiento
• Datos independientes
Jane Elith
Post-doctoral Research Fellow • Remuestreo
The School of Botany x Validación cruzada (cross validation)
The University of Melbourne x Bootstrap
Parkville, 3010 Estadísticas
Victoria, Australia
• Para calibración
Bette Loiselle • Para discriminación
Department of Ecology, Evolution and Systematics
• Para datos binarios (presencia / ausencia)
University of Missouri – St. Louis
¿Tiene sentido el modelo?

¿Son las predicciones apropiadas para el
• ¿Es el método de modelamiento
objetivo final?... ¿Responden la pregunta? apropiado para obtener predicciones
Definir lo q
que se q quiere de las p ec
precisas?
predicciones y a que escala • ¿Son precisas las variables?
Para propósitos de simplicidad asumir • ¿Son las curvas de respuesta
que: presencia = hábitat adecuado, razonables?
ausencia = hábitat no adecuado • ¿¿¿Cree un experto en el???
Métodos espacialmente explícitos

• Despliegan las predicciones mapeadas y ¿Que datos deben ser escogidos?
realizan afirmaciones descriptivas acerca de • ¿Los mismos usados en el modelo?
la distribución de la especie (geográfica y • ¿Independientes?
ambientalmente))
• ¿Remuestreados??
• Despliegan en un mapa la incertidumbre en
las predicciones
¿Qué estadísticas son apropiadas?
Métodos resumidos (estadísticos)
• Resumen la eficacia del modelo en un
conjunto de sitios con parámetros estadísticos
1
27/02/2008
Definiciones: Común!
Datos de entrenamiento = datos para No lo haga: sin eficacia predictiva
construir el modelo y estimar los
Fielding and Bell: “cualquier aproximación al
coeficientes modelamiento ecológico tiene poco merito si
Datos de evaluación: datos para evaluar la exactitud de sus predicciones no puede ser
las predicciones o no es evaluada usando datos
independientes”

Siempre es sobre-optimista (el modelo se
ajusta a esos datos)
Para comparaciones entre métodos puede

conducir a equivocaciones (Elith and Burgman 2002)
(a) División de los datos

• Los datos que son sacados nunca son usados para desarrollar el
(b) Datos nuevos:
Raro
modelo
Razones para colectarlos:
• Más similares que un conjunto de datos completamente nuevo
• Dudas acerca de la exactitud y sesgos de los datos de
• Sólo es útil con conjuntos grandes de datos modelamiento
• Problemas: • Aplicando un modelo desarrollado en una región
x Reduce el tamaño de la muestra para entrenamiento diferente o con datos viejos
x Sólo una división: puede ser poco representativo • i.e. (otra vez) varia con el uso final de las predicciones
Cómo construir la muestra?:
x Un método de gran varianza; el remuestreo es más consistente
• Definir una distancia geográfica mínima entre los datos de
(Steyerberg et al 2001)
entrenamiento y muestreo?
x Sólo evalúa el modelo desarrollado con el subconjunto de • Muestrear por estratos ambientales?
datos
• Muestrear por predicciones?
Datos 5-fold 10-fold Jackknife,
2 métodos principales: originales CV CV VC
Validación cruzada (cross-validation

o jackknifing)
Bootstrap
p = calibración
= evaluación
Ventajas:
No sacrifica datos para el
modelamiento
Independencia
n observaciones k=5 k = 10 k=n
Herramienta importante Desarrolle el modelo con los datos de entrenamiento, realice las predicciones para
evaluar y calcule estadística
2
27/02/2008
Estratificado
o repetido para reducir Útil
si no puede automatizar el
variacianza desarrollo del modelo
Valores comunes para k: 5 - 10
• La definición de los tamaños de muestra para PERO, nunca evalúa el modelo
el entrenamiento y la evaluación del modelo
es un aspecto clave construido con un conjunto completo
de datos – pesimista?
• Tienen que haber suficientes datos de
entrenamiento para estimar con confianza el
modelo y suficientes datos de evaluación para Otros
usos: selección de modelos
estimar la estadística de cross-validación con (GRASP)
una precisión razonable
Tratala muestra como si fuera la Tanto la validación cruzada como el

población bootstrapping son útiles
La validación cruzada requiere de una
escogencia cuidadosa de k
El p
muestreo con reemplazamiento Bootstrapping es más confiable si se puede
siempre produce muestras del mismo automatizar la selección del modelo
tamaño, con algunas repeticiones Todo el remuestreo es interno y solo brinda
Modelamiento con nuevas nuestras una independencia parcial. Si el conjunto de
demuestra repetidamente la variación datos tiene sesgos importantes los resultados
debida a la muestra no reflejarán la realidad y los datos
independientes se vuelven necesarios
Técnica importante
Dos conceptos clave: Midehasta que punto las predicciones

concuerdan exactamente con las observaciones
Calibración
¿Sonlas predicciones estimadores insesgados
Discriminación
Di i i ió de las observaciones?
Es
importante si las probabilidades predichas o
En algunas aplicaciones no estamos conteos necesitan estar bien
interesados en ambos aspectos, podemos
querer evaluarlos independientemente Discusión…. Umbrales presencia/ausencia
Se enfoca en datos de presencia/ausencia
3
27/02/2008
Respuesta a estas preguntas: Se puede tener una calibración pobre y buena

• ¿Que tan bien el modelo separa datos con diferentes discriminación pero no viceversa
respuestas? En caso de buena discriminación, una mala
• ¿Para el caso de presencia/ausencia: es el rango de calibración es corregible (pero no viceversa)
probabilidad predicha para los sitios ocupados más alto que el Una medida útil de discriminación:
rango
a o de probabilidad
obabilidad para
a a los
lo sitios
itio noo ocupados?
oc ado ? • Mann-Whitney
Mann Whitney U statistic (=area under ROC curve)
El ordenamiento relativo (i.e., la posición) de las

predicciones en relación a las observaciones es Distribución de las Distribución de las
importante en lugar de la concordancia absoluta predicciones de predicciones de
ausencia presencia
Es útil para aplicaciones donde se quiere saber cual es
el mejor hábitat (pero no se preocupa acerca de los
valores exactos)
Predicción (probabilidad)
Tipos de error Matriz de confusión
¿Cuáles tipos de errores existen?

Observación
¿Cómo se generaron
¿ g los errores? Predicción + -
Falso positivo
+ Correcto
¿Cómo podemos validar los (comisión)
modelos y medir el éxito de esos Falso negativo
- Correcto
(omisión)
modelos de distribución?
Fuentes de Errores N Fuentes de error

• Errores de omisión
N N NN
N NN
• Errores de omisión
N
N • E
Errores de
d comisión
i ió
N NN
N N N N NNNNN NN N • difícil de determinar ausencias
N NN
NNN N • sesgos en muestreo
NN N N
Error de omisión
N • interacciones bióticas
X = presencia
• eventos históricos
N
N
4
27/02/2008
Cortar modelo por extensión de

Sobreprediccion presencia
DISTRIBUCIÓN
POTENCIAL
Error de
Cotinga comisión
o
Laniisoma elegans o
71% de la extensión
de rango ocupado o
o
o o
o
o o
Error de
omisión
X = presencia
Área de Distribución
= 364,950 km2 o = ausencia
Extensión de rango en azul claro
Dependencia de Umbral Matriz de confusión

Observaciones
Predicciones + -
Falso positivo
+ Correcto
a b (comisión)
c d
Falso negativo
- Correcto
(omisión)
El éxito total de modelo = a + d / N
Omisión = c/ a+c Sensibilidad = a/a+c

5% - 20%
Comisión= d/b+d Especificidad = b/b+c
5
27/02/2008
(a + d) − [(a + c)(a + b) + (b + d)(c + d)]

N
[(a + c)(a + b) + (b + d)(c + d)]
N −{ }
N
– Proporción de la probabilidad esperada de que NO

existan desacuerdos al azar
– Proporción de concordancia después de que la
concordancia debida al azar no es tenida en cuenta
– +1.00 = concordancia perfecta
– 0 = concordancia obtenida es igual a la concordancia
debida al azar From Czaplewski 1994: interpretations of Kappa
Medidas independientes del Umbral

Problemas:
• La corrección de la probabilidad debida al azar Curvas ROC para
es errónea evaluar la eficacia en
• Demasiado sensitiva a la prevalencia y todos los umbrales
calibración
Ardea cinerea
Grey Heron
Observado Explicación de ROC

presencia ausencia
ausencia presencia
Predicción
presencia a b
ausencia c d
Fracción de verdaderos positivos (sensitivitidad) = a/[a+c]
Fracción de falsos negativos (1-especificidad) = b/[b+d] 0.0 0.2 0.4 0.8 1.0
0.6
The magnificent ROC curve Probabilidad de predicción de ocurrencia
6
27/02/2008
Umbral
Observado (0.41)
x
presencia ausencia
Umbral
Predicción
presencia a b (0.50) x
ausencia cc d
d
ausencia presencia
presencia
TP= a/[a+c] FP= b/[b+d]
presencia
ausencia
Verdadero positivo Correcto positivo
Falso Positivo Falso positivo
0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0
Probabilidad de predicción de ocurrencia Probabilidad de predicción de ocurrencia
Umbral
(0.41) Receiver Operating Characteristic
(ROC) curves
1 •El área bajo la curva
x (AUC) = la probabilidad de
ausencia presencia que la predicción para una
ad (TPF)
observación de presencia
sea mas grande que la
Área bajo la curva (AUC)
Sensitivida
predicción para una

Correcto positivo observación de ausencia
•AUC=0.5 indica que la
Falso positivo
discriminación de las
predicciones no es mejor
que una producida por un
0
conjunto de datos al azar
0 1
0.0 0.2 0.4 0.8 1.0 1-especificidad (FPF)
0.6
Probabilidad de predicción de ocurrencia
Si evalúa varios métodos puede medir

= probabilidad que la predicción para una la coincidencia de predicciones
presencia sea mas grande que la
predicción para una observación de (pero coincidencia NO SIGNIFICA
ausencia verdad)
Ejemplo…. Estadísticas:
• Coeficiente de concordancia de Kendall para
0.5: las predicciones no son mejores que al todos los métodos
azar • Entre pares de métodos:
x Rho de Spearman
x Coeficiente asimétrico de Kulczynski's
Varia de 0 a 1 x Extensión de concordancia espacial
7
27/02/2008
Patrones de incertidumbre
Caja de herramientas
Parches geográficos que pueden ser
particularmente dados al error Escoja las que sirvan para su
propósito
Proximidad de errores de predicción a
sitios conocidos de presencia Estimación basada en datos
independientes:
Patronespoco probables en las
predicciones (p.ej. Transiciones abruptas • Absolutamente independientes
entre celdas de alta probabilidad y baja • Remuestreo
probabilidad de presencia)
•Predicho como presente (y preservado en un

sistema de reservas) cuando en realidad esta
ausente
•Predicho como ausente (y considerado sin
proteger) cuando en realidad esta presente

Evaluando Predicciones PDF

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Evaluando Predicciones PDF

Cargado por

Copyright:

Formatos disponibles

27/02/2008

 ¿Tiene sentido el modelo?

 Métodos espacialmente explícitos

conducir a equivocaciones (Elith and Burgman 2002)

(a) División de los datos

Datos 5-fold 10-fold Jackknife,

2 métodos principales: originales CV CV VC

 Validación cruzada (cross-validation

 Tratala muestra como si fuera la  Tanto la validación cruzada como el

Dos conceptos clave:  Midehasta que punto las predicciones

 Respuesta a estas preguntas:  Se puede tener una calibración pobre y buena

 El ordenamiento relativo (i.e., la posición) de las

Tipos de error Matriz de confusión

¿Cuáles tipos de errores existen?

Fuentes de Errores N Fuentes de error

Cortar modelo por extensión de

Extensión de rango en azul claro

Dependencia de Umbral Matriz de confusión

El éxito total de modelo = a + d / N

Omisión = c/ a+c Sensibilidad = a/a+c

(a + d) − [(a + c)(a + b) + (b + d)(c + d)]

– Proporción de la probabilidad esperada de que NO

Medidas independientes del Umbral

Observado Explicación de ROC

Fracción de verdaderos positivos (sensitivitidad) = a/[a+c]

The magnificent ROC curve Probabilidad de predicción de ocurrencia

Falso Positivo Falso positivo

predicción para una

 Si evalúa varios métodos puede medir

•Predicho como presente (y preservado en un

También podría gustarte

¿Tiene sentido el modelo?

Métodos espacialmente explícitos

Validación cruzada (cross-validation

Tratala muestra como si fuera la Tanto la validación cruzada como el

Dos conceptos clave: Midehasta que punto las predicciones

Respuesta a estas preguntas: Se puede tener una calibración pobre y buena

El ordenamiento relativo (i.e., la posición) de las

Si evalúa varios métodos puede medir