Está en la página 1de 10

Estar seguros de la incertidumbre:

Podemos confiar en los datos de los


programas de ciencia ciudadana?
https://methodsblog.wordpress.com/2
016/03/17/citizen-science/

https://methodsblog.wordpress.com/2016/03/17/citizen-science/
Publicado en 17 de marzo de 2016 de Chris Grieves

MENSAJE PROPORCIONADO POR VIVIANA RUIZ GUTIERREZ


Ciencia ciudadana: un campo en crecimiento
Miles de voluntarios de todo el mundo trabajan en proyectos de Ciencia Ciudadana. GlacierNPS

A medida que lee esto, miles de voluntarios de todas las edades y antecedentes estn
recolectando informacin para ms de 1.100 proyectos cientficos en todo el mundo. Estos
proyectos abarcan una amplia gama de temas: desde voluntarios que recolectan muestras de
los microbios en sus tractos digestivos , hasta turistas que proporcionan imgenes de especies
amenazadas ( como los tigres ) que a menudo son costosas de estudiar.
La popularidad de las iniciativas de ciencia ciudadana ha aumentado exponencialmente en la
ltima dcada , y la riqueza de conocimiento que se aporta es abrumadora. Por ejemplo, casi
300.000 participantes han enviado alrededor de 300 millones de observaciones de aves de 252
pases en todo el mundo al programa eBird desde 2002. Sorprendentemente, las tasas
de envos han superado los 9,5 millones de observaciones en un solo mes!
El esfuerzo combinado de millones de cientficos ciudadanos genera una cantidad
impresionante de informacin valiosa, pero lo ms importante es que la informacin se est
recopilando a travs de escalas espaciales y temporales previamente inimaginables para los
programas de monitoreo biolgico. Por lo tanto, no debe sorprender que la participacin de los
cientficos ciudadanos en la investigacin ha demostrado ser muy valioso para estos estudios de
seguimiento. De hecho, ms del 70% de todos los artculos publicados que utilizan datos
cientficos de los ciudadanos se encuentran en campos relacionados con la biologa .
El uso y aplicacin de los datos cientficos de los ciudadanos slo ha comenzado a alcanzar su
mximo potencial. La combinacin de mltiples diseos de muestreo con diferencias en la
estructura del protocolo en muchos programas basados en voluntarios a menudo presentan
desafos analticos. Sin embargo, si los cientficos pueden incorporar y explicar estos factores,
muchos creen que los datos de la ciencia ciudadana pueden ser significativamente ms tiles
para informar a la investigacin a escala local y global .
Al mismo tiempo, la inclusin de protocolos de muestreo especficos y unificados (por ejemplo,
las encuestas de aves reproductoras en el Reino Unido y los Estados Unidos), junto con
objetivos claros, puede mejorar la calidad general de la informacin que se recopila. Estas
mejoras han demostrado ser fuertes indicadores del retorno de las inversiones en la recopilacin
y anlisis de datos cientficos ciudadanos que informan sobre la gestin y las polticas .
Recopilacin y anlisis de datos de la ciencia ciudadana
Para determinar la mejor manera de recopilar y analizar los datos cientficos de los ciudadanos,
primero debemos responder a dos preguntas:
1. Los datos de la ciencia ciudadana son diferentes de los datos recopilados por tcnicos y
cientficos capacitados?
2. Cules son las formas en que podemos reducir la incertidumbre en la informacin
biolgica que podemos obtener de los programas cientficos de los ciudadanos?
Debido a la amplia gama de proyectos de ciencia ciudadana, es imposible abordar
adecuadamente estas preguntas de una manera que sea aplicable a todas ellas. Decidimos
enfocarnos en un proyecto publicado en nuestro reciente trabajo - " Incertidumbre en el
monitoreo biolgico: un marco para la recoleccin y anlisis de datos para tener en cuenta
mltiples fuentes de sesgo de muestreo " - sobre cuestiones relacionadas con la calidad de los
datos donde el foco de inferencia es la probabilidad que ocurrir un evento (por ejemplo, la
probabilidad de encontrar una especie rara o detectar una enfermedad emergente).
La respuesta a la primera pregunta es: "no realmente". La evidencia reciente sugiere que no hay
mucha diferencia entre la informacin recopilada por los ciudadanos promedio y la recopilada
por tcnicos y cientficos. Por ejemplo, Danielsen et al . (2014)analizaron los datos recogidos
por los individuos entrenados y no entrenados sobre la situacin y las tendencias de un
impresionante 63 taxones de vertebrados en 34 sitios de bosques tropicales a travs de cuatro
pases y los resultados eran indistinguibles. Los miembros de la comunidad que recolectaban
los datos (tambin conocidos como cientficos ciudadanos) produjeron resultados similares a
los cientficos.
Para responder a la segunda pregunta, tenemos que examinar de cerca las dos fuentes
principales de sesgo de muestreo para cualquier programa de monitoreo biolgico, donde el
objetivo principal es recopilar la informacin necesaria para estimar la probabilidad de que
ocurra un evento:
1. La probabilidad de perder un evento que realmente ha ocurrido
2. La probabilidad de reportar inadvertidamente un evento que no ha ocurrido
Ilustramos estos principios utilizando un ejemplo hipottico, en el que queremos estimar la
probabilidad de que un ciervo individual tenga enfermedad crnica ( enfermedad ), dado que la
muestra que se tom de este individuo result positiva para la enfermedad
( prueba + ).

Esta ecuacin puede parecer abstracta e irrelevante para nuestra vida cotidiana, pero esta
estructura de probabilidad de la aparicin o ausencia de un evento (tambin conocido como
teorema de Bayes) es la base de todas nuestras inferencias en las ciencias mdicas y biolgicas!
Esta probabilidad es una combinacin de la probabilidad de dar positivo para la enfermedad,
dado que el individuo tiene la enfermedad (es decir, sensibilidad de la prueba mdica)
multiplicado por la prevalencia de la enfermedad en la poblacin, dividida por la suma de este
producto ( P ) con la probabilidad de probar positivo para la enfermedad cuando el individuo
no tiene la enfermedad (es decir, 1 - especificidad del examen mdico) multiplicado por la
prevalencia de individuos sanos en la poblacin. La correccin de ambas probabilidades, aun
cuando sea pequea, se ha demostrado que influye considerablemente en nuestras inferencias,
donde la prediccin de la ocurrencia de un evento raro podra estar sesgada hasta en un 70% en
algunos casos.
Corregir el sesgo: Falso-negativos
Las palomas de luto son una de las 16 especies focales para CUBS. CUBS

Ahora que sabemos que en algunos casos los datos recolectados por individuos entrenados y no
entrenados son similares - pero debemos corregir el sesgo en ambos tipos de datos - cmo
podemos aplicar esta estructura de probabilidad para reducir la incertidumbre en la inferencia
basada en informacin biolgica? En primer lugar, necesitamos visitas repetidas para estimar la
probabilidad de detectar un evento cuando ocurre, tambin conocido como sensibilidad en el
campo mdico, o la probabilidad de falsos negativos en las ciencias biolgicas. Este enfoque de
muestreo es la columna vertebral de numerosos avances estadsticos en lo que comnmente se
conoce como modelos de ocupacin .
Sorprendentemente, pocos programas cientficos ciudadanos han aplicado este tipo de diseo
de muestreo. El Programa de Monitoreo de Anfibios de Amrica del Norte (NAAMP) del
Servicio Geolgico de los Estados Unidos, donde los voluntarios inspeccionan rutas 3-4 veces
al ao para detectar la presencia y ausencia de especies de ranas en la primavera durante el
verano es uno de los pocos que lo hacen. Otro buen ejemplo es el Programa de Celebracin de
Aves Urbanas (CUBS) del Laboratorio Cornell de Ornitologa , donde grupos escolares y otros
voluntarios visitan un sitio tres veces en una semana, cualquier semana del ao y registran la
presencia y ausencia de 16 aves focales especies en espacios verdes en las ciudades.
Correccin de sesgo: Falso-Positivos
En este punto, podemos corregir las probabilidades falsas negativas usando un diseo de
muestreo de visitas repetidas. Sin embargo, para corregir las probabilidades falsas positivas
(por ejemplo, 1- especificidad), necesitamos recopilar informacin adicional. La naturaleza de
esa informacin depende del modelo estadstico que se utilizar para hacer inferencias, que se
clasifican en tres categoras generales :
La informacin recolectada en el campo que se valida o se puede asumir con seguridad
que es verdadera deteccin de un evento ( Site Confirmation Model)
Fuentes independientes de informacin sobre las probabilidades falsas-positivas y falsas
negativas ( Modelo de Calibracin)
Diferentes tipos de informacin recogida durante el muestreo que puede clasificarse
como ausencias verdaderas, presencias verdaderas, falsos positivos y una combinacin
de falsas ausencias y presencias ( Modelo de Confirmacin de Observaciones )
Qu enfoque es ms til para los datos de ciencias ciudadanas, cuando se realizan visitas
repetidas como parte de nuestro marco de muestreo? Pues bien, es probable que el costo y la
viabilidad de obtener datos en el campo que se puedan clasificar con exactitud como
"verdaderos" sean limitados para millones de observaciones, descartando los modelos
de Confirmacin de Sitio y Confirmacin de Observacin .
El modelo de calibracin: una forma prometedora de contabilizar la incertidumbre en el
monitoreo
Esto hace que el Modelo de Calibracin sea el enfoque ms prometedor y los pasos para
aplicar este modelo a los datos cientficos de los ciudadanos son el foco de nuestro reciente
artculo en Mtodos en Ecologa y Evolucin . Desarrollamos un modelo computacionalmente
eficiente y flexible que puede acomodar los datos de visitas repetidas para estimar las
probabilidades falsas negativas. Tambin incorpora un paso de datos de prueba independiente
para estimar las probabilidades de falsos positivos. Este modelo demostr ser muy preciso en
una gama de escenarios simulados, y puede acomodar grandes volmenes de observaciones de
campo y datos de prueba independientes.

Una rana de grillo del norte. Patrick Coin

Para evaluar la utilidad de nuestro enfoque, aplicamos nuestro modelo a los datos del programa
NAAMP y los datos de una prueba de campo realizada para estimar las probabilidades falsas
negativas de los voluntarios de NAAMP. Sin este enfoque para corregir ambas fuentes de
incertidumbre, los modelos existentes habran sobreestimado la ocurrencia de la rana de
Cricketdel Norte ( Acris crepitans ) en el noreste de Estados Unidos hasta en un 67%.
Esto es slo el comienzo sin embargo. Las plataformas en lnea necesitan ser desarrolladas para
reunir ms datos de prueba para informar las probabilidades falsas positivas. Nuestras
simulaciones nos mostraron que para especies raras que son difciles de detectar,
necesitaramos llevar a cabo por lo menos 15.000 ensayos independientes para cada especie
para poder hacer inferencias exactas usando datos de monitoreo recopilados por tcnicos y
cientficos capacitados, as como aquellos recopilados por cientficos ciudadanos.
Para ello, recomendamos que los programas cientficos de los ciudadanos aprovechen la
popularidad de las aplicaciones mviles para llevar a cabo estas pruebas. Por ejemplo,
la aplicacin de identificacin de pjaros Merlin podra tener un juego de prueba de su
habilidad , donde los observadores podran entrar y probar sus habilidades de identificacin
visual y auditiva de aves. Esto ayudara a los cientficos (incluyendo nuestro grupo en
el Laboratorio Cornell de Ornitologa ) para obtener la informacin que necesitan para hacer
inferencias mejores de las observaciones de aves recogidas por los cientficos ciudadanos!

Incertidumbres en los datos de


ocurrencias de especies: Cmo tratar
falsos positivos y falsos negativos
https://methodsblog.wordpress.com/2
017/08/17/false-positives-false-
negatives/
Publicado en 17 de agosto de 2017 de Chris Grieves

MENSAJE PROPORCIONADO POR GURUTZETA GUILLERA-ARROITA


Encuestas de especies: nuevas oportunidades y desafos de datos en curso

Las tecnologas, como los drones, abren nuevas oportunidades para la vigilancia de la vida silvestre J. Lahoz-Monfort,
UMelb.

El monitoreo es un paso fundamental en el manejo de cualquier especie. La recoleccin y el


anlisis cuidadoso de datos de especies nos permite tomar decisiones informadas sobre las
prioridades de manejo y evaluar crticamente nuestras acciones. Hay muchos aspectos de un
sistema natural que podemos medir y, cuando se trata de monitorear el estado de las especies, la
ocurrencia es una mtrica comnmente usada.
Los ecologistas tienen una larga historia de recoleccin de datos de ocurrencia de especies de
las encuestas sistemticas y nuestra capacidad para recolectar datos de especies slo va a
crecer! Esto es parcialmente posible por el hecho de que los programas de ciencia ciudadana
estn empezando a ganar un papel prominente en la vigilancia de la vida silvestre. Cada vez
hay ms reconocimiento de que las encuestas de ciencias ciudadanas bien administradas pueden
producir datos tiles, a la vez que aumentan el esfuerzo de monitoreo gracias al aumento del
poder humano de un gran nmero de voluntarios comprometidos.
El advenimiento de las nuevas tecnologas tambin est mejorando nuestras capacidades de
monitoreo. Siguen surgiendo nuevos enfoques para la recoleccin de datos: los aviones no
tripulados , los sensores trmicos y los registradores acsticosson algunos ejemplos de cmo
los avances tecnolgicos estn abriendo una gran cantidad de nuevas oportunidades para la
vigilancia de la vida silvestre.
Si bien todos estos desarrollos son emocionantes, debemos recordar que la mayora de los
mtodos de encuesta son imperfectos. Existen dos maneras de confundir los registros de
ocurrencia de especies:
Falsos negativos - Podemos registrar errneamente una especie que est presente en el
sitio como "ausente". Este es el error ms frecuente en las encuestas sobre vida
silvestre. (A menudo es un problema incluso en las encuestas de especies ssiles !) Con
el esfuerzo realista encuesta, por lo general es poco probable que la deteccin de las
especies para ser garantizado al 100%.
Falsos positivos - Por otro lado, podemos registrar errneamente una especie como
presente en un sitio donde no ocurre, tal vez porque se confunde con una especie
similar. Los mtodos que dependen de la observacin indirecta de las especies tienen
ms probabilidades de encontrarse con este tipo de problemas. Por ejemplo, se ha
demostrado que los falsos positivos pueden generalizarse en las encuestas de aves .
Contabilidad para la deteccin imperfecta: La ambigedad sobre los valores de los
parmetros requiere la integracin de datos
La buena noticia es que podemos tratar ambos tipos de error en la estimacin de las
probabilidades de ocurrencia. Hacemos esto tomando un acercamiento jerrquico al modelado,
donde el estado y los procesos de la observacin se describen por separado ( vase una revisin
de estas metodologas aqu ). Esto no viene gratis sin embargo. La adaptacin de tales modelos
requiere contar con datos adecuados que nos puedan informar sobre las probabilidades con las
que se generan falsos negativos y / o falsos positivos: no es suficiente con un solo registro de
"presencia / ausencia" por sitio.
Una manera comn de dar cuenta de los falsos negativos es llevar a cabo visitas repetidas a los
sitios de la encuesta. Estos datos permiten estimar la probabilidad de deteccin de especies en
sitios donde est presente. Los protocolos de encuesta como este y los correspondientes anlisis
de datos se aplican ampliamente en la ecologa, a menudo se denominan simplemente
"modelizacin de la ocupacin".
Las cosas se vuelven un poco ms complicadas cuando los falsos positivos tambin son un
problema potencial. A menos que se aporte alguna informacin adicional, la instalacin de un
modelo que permita falsos positivos y falsos errores negativos dar lugar a estimaciones de
parmetros ambiguas. Imagine un sistema donde la especie ocupa el 30% de los sitios
(ocupacin psi = 0,3) y un mtodo de monitoreo que detecta la especie en el 70% de las
encuestas en sitios donde est presente (probabilidad de deteccin verdadera p 11 = 0,7) y
registra falsamente en el 10% de las encuestas en sitios donde est ausente (probabilidad de
falso positivo p 10 = 0.1). Se puede demostrar matemticamente que, independientemente de la
cantidad de datos de deteccin / no deteccin replicados que recopilamos, nuestro anlisis no
podr distinguir si los valores de los parmetros son {psi = 0.3, p11 = 0,7, p 10 = 0,1} o si son {psi
= 0,7, p 11 = 0,1, p 10 = 0,7}. Se han propuesto una serie de enfoques para resolver esta
ambigedad. Estos incluyen aumentar el conjunto de datos con los registros de un mtodo de
deteccin no ambigua en algunos sitios, la clasificacin de las detecciones de acuerdo a si son
cierto o incierto, lo que confirma un subconjunto de detecciones despus de la recogida de
datos (por ejemplo, las pruebas de ADN en heces), o ejecutar experimentos de calibracin que
informan directamente sobre las tasas de error.
[Una nota de precaucin aqu: mientras que todos estos desarrollos de modelado son grandes,
debe tratar de minimizar los errores de recopilacin de datos en primer lugar, en lugar de
esperar a "arreglar" las cosas en la etapa de modelado.
Encuestas de ADN Ambiental: Errores de Deteccin Potencial a Mltiples Niveles
Muestreo de eDNA J. Griffiths, cesar.

Un nuevo enfoque prometedor para el monitoreo de especies es la recoleccin y procesamiento


de ADN ambiental (eDNA): el material gentico derramado por los organismos en su
ambiente. Estas encuestas son particularmente tiles en entornos acuticos, donde el ADNe es
omnipresente y relativamente fcil de recoger. Los costos de secuenciacin del ADN estn
disminuyendo drsticamente, haciendo de estas encuestas un mtodo de monitoreo eficiente
para muchos sistemas.
Pero como con cualquier mtodo, las encuestas de eDNA no son perfectas. A pesar de la
extraccin de ADN y protocolos de laboratorio que se perfeccionan continuamente, todava hay
algunas posibilidades de falsos positivos negativos y falsos. De hecho, las encuestas de eDNA
presentan el reto aadido de que los errores pueden generarse en mltiples niveles. Por
ejemplo, una muestra de agua puede fallar en la captura del material de eDNA de las especies
objetivo presentes en el medio ambiente. Sin embargo, incluso si se captura ADNd objetivo en
la muestra, puede no detectarse durante la PCR (Reaccin en Cadena de la Polimerasa, la
prueba de deteccin de ADNc realizada en el laboratorio). Ambos le daran un falso negativo.
Por el contrario, se pueden obtener falsos positivos por contaminacin en el nivel de muestra de
agua en el laboratorio o en el campo (por ejemplo, el ADN de la especie objetivo est
realmente presente en la muestra de agua, pero resulta de la contaminacin por la persona que
realiza el muestreo) , o en el nivel de PCR (debido a problemas en la manipulacin de muestras
en el laboratorio). Otra caracterstica a considerar al analizar o interpretar los datos es que las
encuestas de eDNA a menudo adoptan un protocolo de muestreo anidado, con varias muestras
de agua recogidas, y varias PCR realizadas por muestra de agua. Los PCR llevados a cabo en la
misma muestra de agua comparten cierta dependencia, ya que la probabilidad de falsos
negativos y / o falsos positivos depende de lo que sucedi en el nivel de muestra de agua.

Litoria ewingii G.Heard, UMelb


En nuestro artculo " Tratamiento de falsos positivos y falsos errores negativos sobre la
ocurrencia de especies en mltiples niveles"Presentamos trabajos que tratan con este tipo de
datos. Estbamos interesados en analizar los registros de las encuestas de eDNA para 4 especies
de ranas llevadas a cabo en los drenes efmeros de la carretera alrededor de Melbourne
(Australia). La combinacin de la estructura anidada de la recopilacin de datos y el potencial
de errores falsos positivos y falsos positivos en dos niveles diferentes significaba que no
podamos aplicar directamente las herramientas de modelado existentes. As, en nuestro trabajo
presentamos un modelo generalizado para este propsito. Pero, como antes, los datos de la
encuesta de eDNA por s solos no fueron suficientes para resolver las ambigedades causadas
por tener falsos positivos y falsos errores negativos. Necesitbamos ms informacin. En
nuestro estudio, se utilizaron datos adicionales de un mtodo de deteccin inequvoco
(encuestas auditivas),
Encontramos que, debido a que se trataba de errores en dos niveles, necesitbamos al menos
dos fuentes de informacin adicionales para que los parmetros del modelo fueran estimados
sin ambigedad. No todas las combinaciones de datos resolvieron completamente las
incertidumbres. La combinacin de los datos de eDNA con los registros inequvocos y el
experimento de calibracin en el nivel de PCR. Y tambin lo hizo la combinacin de datos de
eDNA con los dos experimentos de calibracin. Por supuesto, teniendo todos esos datos
disponibles para nosotros, el mejor enfoque era combinarlo todo ... as que realizamos un
anlisis integrado del lote completo!
Perfil Probabilidades ... y una advertencia sobre los mtodos MCMC estndar

Funcin de probabilidad de perfil para el parmetro de probabilidad de deteccin p11 (en valores verdes en intervalo
creble).

Hemos llevado a cabo nuestro ajuste de modelo mediante la construccin de funciones de


probabilidad de perfil. Esta es una tcnica til (pero infrautilizada), y esperamos que nuestro
trabajo sirva como una ilustracin de su valor. Entonces, cmo funciona este
mtodo? Digamos que estamos construyendo la funcin de probabilidad de perfil para un
parmetro de modelo theta. Lo que hacemos es barrer los valores potenciales de theta y asignar
a cada uno de ellos el valor de la funcin de verosimilitud, maximizada con respecto a todos los
dems parmetros del modelo. A partir de una funcin de probabilidad de perfil, podemos
calcular intervalos de confianza cortando la funcin a una distancia dada del mximo. Esto
puede sonar un poco tcnico, pero no es difcil de aplicar en la prctica (prometemos!).
Elegimos este enfoque para el ajuste porque la funcin de verosimilitud es desigual en este
modelo (este es el reflejo de la ambigedad en los valores de los parmetros que mencion
antes). Incluso cuando se dispone de datos adicionales para resolver las incertidumbres de los
parmetros, existe el riesgo de que los mtodos estndar de optimizacin de la mxima
verosimilitud se queden atascados en los mximos locales, proporcionando estimaciones de
parmetros errneas; nuestro enfoque de probabilidad de perfil evita estos problemas.
Y vale la pena sealar que el modelo bayesiano que se ajusta con herramientas estndar (por
ejemplo, BUGS, JAGS, STAN) corre riesgos similares. Hemos llevado a cabo pruebas ( ver el
apndice de nuestro artculo ) y encontr que los anlisis pueden parecer que han convergido,
pero las cadenas MCMC puede ser "atrapado" explorando slo una fraccin de la verdadera
distribucin posterior (el "bump" equivocado). Por lo tanto, voy a dejar aqu con una
recomendacin: ejecutar un buen nmero de cadenas al utilizar mtodos MCMC, ya que esto
puede ayudar a diagnosticar problemas de identificabilidad (al igual que se recomienda para
volver a ejecutar los anlisis con diferentes valores iniciales al aplicar la estimacin de mxima
verosimilitud mediante numrico mejoramiento).
Para obtener ms informacin, lea nuestro artculo sobre Mtodos en Ecologa y
Evolucin " Tratar errores falso-positivos y falsos negativos sobre la aparicin de especies
en mltiples niveles ".

También podría gustarte