Documentos de Académico
Documentos de Profesional
Documentos de Cultura
4 Analisis de Datos
4 Analisis de Datos
datos
Sylvain Delerce
S.Delerce@cgiar.org
Datos experimentales VS datos observacionales
Datos experimentales Datos observacionales
clima en las que creció un cultivo, y que tenemos el registro del manejo que se le dio
así como de la producción que genero…
… entonces cada cultivo representa un experimento del cual podemos aprender.
Cock, J., Oberthür, T., Isaacs, C., Läderach, P. R., Palma, A., Carbonell, J.,
Calcificación (Clustering)
Análisis no supervisado
Puede servir de exploratorio
también
Agrupar cosas comparables:
en agricultura, zonas
agroecológicas
Zonas agro ecológicas en México
Tipos de análisis los mas comunes
Interpolación
Inferir datos faltantes
Se usa mucho en datos
geoespaciales (GIS)
• Kriging
• Inverse Distance
Weigth
Tipos de análisis los mas comunes
Detección de correlaciones/
asociaciones
Una amplia gama de
herramientas permiten estudiar
las relacionar entre variables.
Desde un coeficiente de
correlación de Pearson, hasta los
modelos mas avanzados de
Machine learning
Las dependencias parciales
permiten conocer mas a fondo
las relaciones.
Tipos de análisis los mas comunes
Predicción
Predecir requiere del mejor
entendimiento de un fenómeno
posible.
Predicho
Predecir permite:
Simular para experimentar
combinaciones
Anticipar el impacto de cambios
Anticipar clima, cosecha, para mejor
planeación de cadenas de valor Real
Tipos de análisis los mas comunes Cropping event
Number of mechanical weeding
1
0
1*
0
2
1
2*
1
3
1
3*
0
4
0
4*
0
Number of post-harvest herbicides applications 0 1 1 1 0 0 0 1
X
Causa
Partial dependencies
Studying individual relationship of the input
Feature selection Training variables with the output Output:
Selection among correlated
predictors Yield / profitability main
Removal of zero variance Models used include: Random
forest, Conditional Forest,
Variable importance limiting factors
variables Ranking the most relevant variables in the
Extratrees, CART, Neural
explanation of the variability of the output
Networks, SVM, GBM…
Mostly in R
Outputs:
• List of the most representative weather
Hierarchical patterns + frequency of occurrence
Sowing and Harvest weather patterns Clustering of the • Information on achievable yields under each
date of each individual having been weather patterns pattern (to adjust the yield objective
cropping event cropped Enhanced with Dynamic Time • Within each pattern : best combination of
Warping (DTW) distance.
management practices identified