Está en la página 1de 25

Análisis e interpretación de

datos

Martes 23 de abril 2019

Sylvain Delerce

S.Delerce@cgiar.org
Datos experimentales VS datos observacionales
Datos experimentales Datos observacionales

• Condiciones controladas • Captura descentralizada = mas datos


• Toma de datos por personal capacitado • Datos mas “reales” que encapsulan la realidad con toda
• Diseño experimental su complejidad
• Hacia N=todos
• La cantidad compensa la calidad
• Datos demasiado perfectos = predicciones sobre
optimistas
• Omisión voluntaria • Mas difíciles de analizar: ruido, efectos confundidos de
• Muestra no siempre tan representativa, o los predictores
limitaciones en la extrapolación • Trazabilidad difícil

La realidad: muchas veces entre los dos

Muestras cada vez mas grandes (caso de las cohortes)


Medium data con riesgos de sesgos
En agricultura
Investigacion tradicional en
agronomía se basa en la
estadística tradicional:
- Diseño experimental en
condiciones controladas
- Repeticiones
- Randomizacion Fisher, uno de los padres de la estadística desarrollo
muchas de sus teorías mientras estaba trabajando
- Testigos en Rothamsted (UK) para explicar el impacto de las
lluvias sobre el rendimiento del trigo
- ANOVA - estimación por máxima similitud
- Información de Fisher
- Diseños experimentales
- ANOVA
Ronald Fisher en 1913
Cada vez que un agricultor prepara un lote, siembra un cultivo, lo maneja y lo
cosecha, esta experimentando una combinación única de factores que resulta en
la producción que el registro.

Si somos capaces de caracterizar con suficiente detalle las condiciones de suelo y de


En agricultura

clima en las que creció un cultivo, y que tenemos el registro del manejo que se le dio
así como de la producción que genero…
… entonces cada cultivo representa un experimento del cual podemos aprender.

Al caracterizar muchos cultivos, podemos agregar el conocimiento


capturado en condiciones muy diversas y conocer la respuesta del
cultivo a las variaciones del ambiente así como del manejo.

Cock, J., Oberthür, T., Isaacs, C., Läderach, P. R., Palma, A., Carbonell, J.,

VER: … Anderson, E. (2011). Crop management based on field observations:


Case studies in sugarcane and coffee. Agricultural Systems, 104(9),
755–769. doi:10.1016/j.agsy.2011.07.001
En este paisaje, hay muchos experimentos !
En este paisaje, hay muchos experimentos !
El control de calidad
Importantísimo : garbage in, garbage out
1. Eliminación de datos erróneos
Detección de errores clásicos puede ser automatizada en gran parte:
rangos, dependencias a otras variables, coherencia temporal
2. Reconstrucción de datos faltantes
Un paso antes: validaciones automáticas

Reducir el trabajo de control de


calidad aprovechando las
posibilidades de las herramientas
modernas de captura de datos:
Validaciones automáticas de
- Rangos
- Dependencias a otras variables
- Coherencia temporal
- …
Tipos de análisis los mas comunes
Descriptivo / Exploratorio
El mas importante. Se da
uno cuenta de muchas
cosas
Evaluación rápida del
potencial de un dataset,
de su calidad y
completud.
Sirve antes de analizar,
pero también después
para interpretar
Tipos de análisis los mas comunes

Calcificación (Clustering)
Análisis no supervisado
Puede servir de exploratorio
también
Agrupar cosas comparables:
en agricultura, zonas
agroecológicas
Zonas agro ecológicas en México
Tipos de análisis los mas comunes

Interpolación
Inferir datos faltantes
Se usa mucho en datos
geoespaciales (GIS)
• Kriging
• Inverse Distance
Weigth
Tipos de análisis los mas comunes

Detección de correlaciones/
asociaciones
Una amplia gama de
herramientas permiten estudiar
las relacionar entre variables.
Desde un coeficiente de
correlación de Pearson, hasta los
modelos mas avanzados de
Machine learning
Las dependencias parciales
permiten conocer mas a fondo
las relaciones.
Tipos de análisis los mas comunes
Predicción
Predecir requiere del mejor
entendimiento de un fenómeno
posible.

Predicho
Predecir permite:
Simular para experimentar
combinaciones
Anticipar el impacto de cambios
Anticipar clima, cosecha, para mejor
planeación de cadenas de valor Real
Tipos de análisis los mas comunes Cropping event
Number of mechanical weeding
1
0
1*
0
2
1
2*
1
3
1
3*
0
4
0
4*
0
Number of post-harvest herbicides applications 0 1 1 1 0 0 0 1

Optimización multivariada Number of “rastreo”


Number of pre-sowing herbicides applications
0
1
3
2
1
1
3
2
0
1
3
2
0
1
3
2

Permite identificar la respuesta


Number of fertilizations 2 3 2 3 1 1 2 3
Number of applications of foliar fertilizers 0 0 1 0 0 2 0 2

optima en problemas Number of applications of bio fertilizers


Number of post-sowing herbicides applications
0
1
0
3
0
1
0
2
1
1
0
2
1
2
0
3

multivariados Number of applications of insecticides


Total amount of nitrogen applied
1
55.0
3
182.8
1
156.1
3
157.2
1
24.6
3
171.8
1
117.8
3
178.4
Total amount of phosphorus applied 23.0 106.4 46.0 170.5 0.0 162.9 0.0 92.0
Total amount of potassium applied 0.0 46.9 30.0 81.7 0.0 39.7 0.0 74.1
Cultivars' group criollo 1 0 0 0 0 0 0 0
Cultivars' group Dekalb 0 1 1 1 0 1 0 0
Cultivars' group others 0 0 0 0 1 0 1 0
Cultivars' group P4082W 0 0 0 0 0 0 0 1
No seed treatment 1 0 1 1 1 0 1 0
Seed treatment 0 1 0 0 0 1 0 1
Conservation agriculture 0 1 1 1 0 1 0 1
Zero or minimum tillage 1 0 0 0 0 0 1 0
Conventional tillage 0 0 0 0 1 0 0 0
5.0 5.7 4.8 5.1
Yield 1.1 5.5 1.8 2.9
355% 4% 167% 76%
Tipos de análisis los mas comunes
Lectura automatizada de imágenes
Nuevo campo con muchas posibilidades. La visión artificial puede aprovechar mas bandas
del espectro que el ojo humano. Las técnicas de aprendizaje profundo han mostrado muy
buen desempeño para estas tareas

Taigman Y, Ranzato MA, Aviv T, Park M. DeepFace : Closing the


Gap to Human-Level Performance in Face Verification Abstract.
Trampas clásicas Que es una relación espuria ?
Es una relación matemática en la cual dos acontecimientos están correlacionados aunque no tienen conexión
lógica, esto puede implicar un tercer factor no considerado.
Tomar un café fumando un cigarrillo

Consumo de café Cáncer del pulmón

X
Causa

El café causa cáncer del pulmón


Conclusiones
No hay siempre señal en los datos
Mas que técnicas, importa la coherencia
Lo mas importante: la coherencia entre objetivos, información
movilizada, herramientas usadas (en particular el nivel de complejidad)
Principio de la navaja de Occam o principio de parsimonia
Mas complejidad = mas carga computacional y tiempos de ejecución mas
altos = recursos, gastos

Tal como un arquitecto diseña una casa antes de empezar la construcción,


un analista diseña su estrategia de análisis antes de empezar, buscando
los mejores compromisos.
Data sources Pre-processing

Ground weather Quality control


Based on WMO guidelines.
stations daily records
Typically obtained form national
Automatized in R Assignment of cropping Calculation of
meteorological institutes (often open event to weather stations climatic indicators
access), but also from local partners
organizations
Estimation of Variable-wise multi-criterion algorithm for Turning weather series into
site-specific assignment of cropping events
missing values to the most representative station
variables specific to the growth
stages of the crop
Using RMAWGEN (Vector
Autoregressive models)
and random Forest
Granular Crops data:
detailed data on yield and
Quality control Dataset
management practices Cleaning, standardization, removal
Obtained from partner agricultural of too sparse variables… in SQL Ready for
organizations (never open access). Sometimes
includes data on profitability and production analysis
costs

Merging based on geo-


Soil data: location
focusing on soil functional
properties
Typically obtained from national soil institutes
(often open access). Alternatively, we use
Digital Soil Mapping techniques to interpolate
profiles data
Analyses

Partial dependencies
Studying individual relationship of the input
Feature selection Training variables with the output Output:
Selection among correlated
predictors Yield / profitability main
Removal of zero variance Models used include: Random
forest, Conditional Forest,
Variable importance limiting factors
variables Ranking the most relevant variables in the
Extratrees, CART, Neural
explanation of the variability of the output
Networks, SVM, GBM…
Mostly in R

Expert guided Explanation tasks


feature selection Models’ performances are
compared , looking for
convergence.
Prediction tasks
Stacking has also been used
under Python
Automated feature
Optimization through GHS Output:
selection
R-Package Caret, WEKA…
To find the optimum combination of
management practices within a set of
Personalized management
constraints (fixed factors) recommendations
Analyses

Outputs:
• List of the most representative weather
Hierarchical patterns + frequency of occurrence
Sowing and Harvest weather patterns Clustering of the • Information on achievable yields under each
date of each individual having been weather patterns pattern (to adjust the yield objective
cropping event cropped Enhanced with Dynamic Time • Within each pattern : best combination of
Warping (DTW) distance.
management practices identified

Characterization of the climatic variability at local scale

Historical climate data


series cleaned and Forecast using deeplearning
complete
Hierarchical Recurrent Neural Output:
Clustering of the Network using Long Weather forecast
locations Short term Memory based on historical
Enhanced with Dynamic Time
Warping (DTW) distance. (LSTM) for each cluster data
Under TensorFlow environment
ACTIVIDAD

Diseñar una estrategia de análisis (workflow) para montar


un sistema automático de detección en tiempo casi real de la deforestación

Cada grupo deberá presentar:


• Datos usados
30 min para averiguar y
armar la presentación
• Tipo de análisis/modelos usados
• Pasos del workflow 10 min de presentación
• Requerimientos del sistema en intervención humana para cada grupo
Calidad de los análisis
Problema de los amateurs
MOOC, código abierto, scripts y librerías, programas que “lo hacen
todo”…No es difícil empezar a hacer análisis
Hoy cualquier persona puede empezar a colectar datos, o usar datos
abiertos, procesarlos con algún programa y salir a vender sus servicios
Þ quien garantiza que el eligió los datos idóneos ¿ Que Les hizo un buen
control de calidad ¿ El código que uso, lo conoce bien ¿ Uso
parámetros optimizados ¿ Sabe distinguir entre relaciones espurias ¿
Þ Se anticipa la aparición de una nueva profesión: algoritmista = auditor
de códigos
Calidad de los códigos, continuidad en la empresa
La agricultura digital se basa mucho en análisis
automáticos codificados en ciertos lenguajes
El valor de la empresa esta mas en eso que en los
datos que maneja
/!\ Cuando se va un ing. De sistemas, se puede
perder todo !
Defensas: buenas practicas de desarrollo de software
- Documentar
- Requerimientos
- Mapa del código
- Respetar normas de buen código (usar funciones,
anotar, usar variables en vez de valores fijos)
¡Gracias!

También podría gustarte