Documentos de Académico
Documentos de Profesional
Documentos de Cultura
AUTORES:
Director:
Francisco Carlos Calderón Bocanegra. PhD.
Codirector y Cliente:
César Augusto Vargas García. PhD.
Ingeniero Electrónico
Julián Oviedo: A Dios y a mi alma máter, la Pontificia Universidad Javeriana, un lugar de formación
integral que me permitió reconocer el valor y sentido del conocimiento. A mi director de tesis Ing. Francisco
Calderón, al investigador César Vargas por ser nuestro cliente y en su nombre a Agrosavia por brindarnos
los espacios y las muestras para realizar nuestro proyecto de grado.
A todos los que estuvieron presentes en esta etapa e hicieron posible continuar y culminar esta meta, en
especial a mis amigos, compañeros y profesores quienes me inspiraron pasión por conocer, experimentar y
aportar soluciones a la sociedad.
Dedicatoria
Camilo Ángel: Dedicó esta tesis de forma muy especial a mi familia, así como también agradezco a Dios,
a la vida y a la misma familia, mis compañeros de Carrera y amigos que he tenido en la Javeriana por formar
parte de este momento tan gratificante, es un momento donde muestro mi gratitud por ese proceso en el que
me apoyaron, me guiaron en esta carrera profesional llena de grandes retos y oportunidades, por la
preparación que conlleva, la fundamentación, porque gracias a todo ello, me motivaron a dar lo mejor de mí,
a conocerme más, a desarrollar nuevas habilidades, destrezas sobre todo a ver un poco más allá de lo que
tengo hoy en el presente, también agradezco a nuestro director de tesis por confiar en nosotros, en la
realización de un proyecto y adecuar mejoras en medio de ese desarrollo, por las asesorías y el rumbo sobre
el cual permitió llevar este año de trabajo, de igual manera resaltar que todo estos resultados y esta
investigación la dedicó a todas las personas que me vieron crecer en lo personal, en lo profesional, y en todo
sentido, porque gracias a todos los presentes puedo establecer nuevas metas para los próximos años de mi
vida profesional, incluso agradezco por tener la posibilidad de haber influido en el crecimiento de muchas
personas que estuvieron alrededor mío, así como también dedicó a quienes influyeron en mi vida personal y
profesional, generando grandes cambios positivos, de igual manera con esto quiero mostrar que todos los
sueños tienen grandes retos y que no hay imposibles, ni competencias, más que la competencia con nosotros
mismos por perseguir un sueño, y en este caso el mío es de ser un gran Ingeniero Electrónico, de ser un líder
que escucha, atiende, adapta y sobre todo que es capaz de llevar a su gente a lo más alto de la cima.
Julián Oviedo: A toda mi familia, en especial a quién construyo con amor la valentía para enfrentar cada
desafío, a ti Mamá, y a mi tía Laura (QEPD) que estaría orgullosa de saber que culminé una etapa desafiante
con éxito y con la sonrisa que me dejó para compartir con el mundo.
A mis hermanos Carlos y Laura Sofía, que aprenden y desafían al mundo con el amor que papá Guillermo
nos brinda con su ejemplo.
A mi mejor amigo y consejero, mi primo Jonathan.
A todos los que son parte de mi corazón y dejan como posdata una sonrisa.
A mi pueblo: Funes-Nariño.
Y donde te encuentres, a ti papá JHOP (QEPD).
Resumen
En Colombia varias organizaciones han contribuido en el crecimiento del sector agropecuario, entre ellas
Agrosavia que fue creada en 1993 con la finalidad de brindar un conocimiento y desarrollo tecnológico,
buscando esa mejora de calidad de vida de productor y consumidor, brindando soluciones de tipo sostenible
y accesible basados en tecnologías como la espectrometría de rango visible e infrarrojo cercano (VIS/NIRS).
[1]. La gestión del campo a través de tecnologías, sensores, radares y satélites para evaluar la calidad de
cosecha y factores climáticos es comúnmente conocido como la Agricultura de Precisión.
El análisis de suelos evalúa las condiciones de producción en cultivos y otras características, como la
salinidad, toxicidad y acidez excesiva. El espectro visible-infrarrojo cercano (VIS-NIR), brinda información
relacionada con componentes orgánicos e inorgánicos del suelo; la medida de la absorbancia sobre el espectro
en rango visible da como resultado medidas de: color de suelo, materia orgánica, pH (Ben-Dor et al., 1999)
y minerales como Hierro, principalmente hematita y goethita; también de minerales importantes en el estado
de fertilidad del suelo como el Calcio (Ca), Magnesio (Mg) y Potasio (K) (Sherman y Waite, 1985). Las
porciones del infrarrojo cercano (NIR) del espectro electromagnético están asociadas con el estiramiento y
la flexión de los grupos NH, OH y CH (Dalal y Henry, 1986; Clark, 1999; Viscarra Rossel y Behrens, 2010).
Al usar el sensor multiespectral de bajo costo (AS7341 de ams OSRAM) se realiza la adquisición de la
firma espectral para 90 muestras de parcelas agrícolas de diversos orígenes y cultivos; que han sido
previamente procesados en los laboratorios de Agrosavia usando técnicas de espectroscopia Vis-NIRS y para
los cuales se ha realizado el análisis de fertilidad en el laboratorio de química analítica de esta misma
institución. El preprocesamiento y análisis de los datos adquiridos usando algoritmos de aprendizaje de
máquina permitieron estimar variables por medio técnicas de regresión y clasificación que, tras validarse con
los resultados del análisis del laboratorio de química analítica de Agrosavia, ofrecieron predicciones en
clasificación para los rangos específicos de cada variable con una precisión y rendimiento mayor al 82 %
para pH, 74% para materia orgánica, 54,8% para Potasio (K), 56% para Calcio (Ca) y 56,2% para Magnesio
(Mg). A pesar de las limitaciones generadas por la cantidad de muestras, el control sobre las variables
externas que pudieron haber influido en la adquisición de la firma espectral, el rango y la resolución del
sensor, se pudo obtener un rendimiento comparable con los resultados obtenidos en [1], especialmente para
la estimación del pH usando clasificación.
Due to the previously founded, it’s implemented a multispectral sensor AS7341 – ams OSRAM) of low
cost to estimate soil variables with Machine Learning Techniques, that it’s used such as an alternative to
decrease the costs and increasing the availability in the country, furthermore it’s acquired the spectral sign of
90 samples of different soil types, treated, analyzed and provided by Agrosavia, that resumes in prediction
results for classification in specific ranges split a precision for pH 82%, 74%: OM, 54.8% potassium,
Calcium: 56% and Magnesium: 56.2%. The limitations are caused by the control of extern variable and
affections in the spectral sign acquisition, ranges, resolution of sensor, etc. cause that performance is
comparable with the obtained results in [1], specifically for pH.
En las últimas décadas, la espectroscopía de reflectancia difusa junto con el desarrollo de la quimiometría
representa una herramienta adicional para al análisis convencional de suelos dada su rentabilidad, facilidad
de manejo, rapidez y mínima preparación de muestras. La espectroscopía visible-infrarrojo cercano (Vis-
NIR) proporciona con un solo espectro una gran cantidad de información sobre la composición fisicoquímica
del suelo. La absorción en el rango visible proporciona una medida del color del suelo, materia orgánica
(Ben-Dor et al., 1999) y minerales de hierro (Fe), principalmente hematita y goethita (Sherman y Waite,
1985).
Todo lo relacionado con el agro, resulta en muchos casos algo natural y común, pero adoptarlo a
tecnologías y diferentes recursos implica aplicar un concepto que permite darle una plusvalía entre lo
tecnológico junto con lo agropecuario, este concepto se conoce como la agricultura de precisión, que es aquel
que permite tomar una consecución implementando diferentes dispositivos tecnológicos y electrónicos la
capacidad para evaluar y verificar como es esa calidad de cosecha así como también la influencia directa con
los factores climáticos, ya que este tipo de tecnologías permiten mejorar la calidad de vida de las personas
tanto productoras como consumidoras, buscando soluciones de tipo sostenible y accesible, todo ello por
medio de Espectrometría de Infrarrojo Cercano (NIRS). [1]. Resaltando lo fundamental por medio de los
análisis de Espectrometría se busca por medio de esos datos obtenidos establecer información fundamental
basada en cada una de las muestras de los cultivos, analizando cada una de esas propiedades físicas y
químicas, obtener cada uno de los datos, generar el procesamiento y establecer información útil para el
pequeño productor.
Realizar el análisis de suelos usando este tipo de alternativas al método químico permite establecer cómo
se comportarán diferentes semillas usando un método que no requiere de un compuesto de reactivo químico
pues es un proceso que puede estimar varios análisis en una sola medición, posee una alta repetibilidad,
Página 13 de 98
reproducibilidad y velocidad, pues permite una mejor optimización, en este tipo de análisis, hay quienes han
podido realizar estimación de aminoácidos, entre los más comunes la Lisina, Treonina y Metionina en
alimentos. [1]
1.1 Problemática
Como alternativa al análisis tradicional por química húmeda, Agrosavia cuenta actualmente con un
escáner con tecnología NIRS, sin embargo, aunque la técnica tradicional tenga una mayor precisión y
exactitud, destruye la muestra por completo, es más demorada y representa mayores costos debido al mayor
requerimiento de sustancias requeridas para su uso [20].
El uso del escáner como solución complementaria es muy innovador, pero se ha vuelto poco accesible
para algunos clientes de Agrosavia, esto hablando del costo elevado que puede generar el uso del dispositivo.
Además, el hecho de tener un solo sensor ha ocasionado una acumulación de muestras en largas filas de
espera debido a los largos tiempos en los cuales se debe realizar este proceso. Todo esto ha generado en
Agrosavia una disminución en el rendimiento de esta técnica, tanto por el número de muestras analizadas
como por el elevado costo de la misma.
El costo en el análisis de cada muestra es de aproximadamente COP 10000, sin embargo, por cada cliente,
se requieren entre 100 y 1000 muestras del suelo, por lo tanto, entre más preciso se quiera hacer el análisis,
más se sube este costo.
El suelo es un sistema no ideal, es química y mineralógicamente más complejo que los sistemas 'puros'
que a menudo se estudian utilizando procedimientos de laboratorio tradicionales. Los mecanismos de los
procesos del suelo son difíciles de comprender por completo y el vínculo fundamental entre la química del
suelo medida y los atributos o propiedades particulares del suelo puede ser complejo. Los procedimientos
químicos utilizados en la caracterización de suelos pueden, de hecho, complicar aún más la interpretación.
Los procedimientos de extracción pueden cambiar el equilibrio entre las fases sólida y de solución del
suelo y el analito como resultado de las interacciones del extractante en la solución y en la interfase solución-
partícula. Por esta razón, existe una tendencia creciente hacia el desarrollo de técnicas que preserven la
integridad básica del sistema del suelo (Janik et al. Kamrunnahar Islam, Balwant Singh y Alex McBratney).
Página 14 de 98
1.2 Objetivos
1.2.1 Objetivo General
Implementar un sensor de bajo costo para estimar variables de suelo por medio de técnicas de Aprendizaje
de Máquina.
1.3 Requerimientos
- Permitir una interacción más cercana con el usuario final reacondicionando el hardware y software
(de manera amigable).
- Emplear una certificación IP50 que mejore y proteja el prototipo a desarrollar.
- Reducir el costo y el tiempo necesario para la estimación de las propiedades en el análisis de suelo,
respecto al dispositivo empleado en Agrosavia (NIRS DS2500).
- Uso de al menos tres métodos de aprendizaje de máquina que permitan estimar las propiedades del
suelo usando el hardware implementado.
- Evaluación del desempeño en las predicciones y la eficiencia en cada modelo para la estimación de
las propiedades del suelo.
Página 15 de 98
Capítulo 2
Concepción
2.1 Estado del arte
La espectrometría y lo relacionado con imágenes multi o hiper-espectrales han tenido gran influencia
además de una gran acogida en el desarrollo del sector agropecuario, en ello radica la importancia de la
agricultura de precisión que implementa diferentes tecnologías buscando la satisfacción de las necesidades
de los agricultores, puesto que se aplica al análisis de suelos para obtener el estado de sus propiedades físico-
químicas, conocer el terreno donde se desea plantar y a su vez la realización del monitoreo de las diferentes
fases de cultivo.
Con base en lo anterior se detalla que tal medidor de beneficio decrementa cuando se requiere la búsqueda
de un mínimo conjunto de datos, sin embargo, dos características influyen en el desarrollo de estas
alternativas, una de ellas se centra en el avance en la quimiometría, puesto que juega un rol fundamental en
la obtención de un conjunto de datos robusto que luego es usado en encontrar patrones o funciones que
permitan a los modelos de aprendizaje de máquina estimar las condiciones y propiedades del suelo, como
minerales y contenido de materia orgánica, entre otras el nitrógeno, potasio, magnesio, calcio, niveles de
carbono y fósforo, factores primordiales para la evaluación de fertilidad del suelo. La segunda característica
refiere la cantidad de tiempo y volumen de muestras de suelo. Aunque el sensado remoto permite obtener la
información necesaria para evaluar condiciones de suelo por medio técnicas de técnicas de aprendizaje de
máquina, por mencionar algunas: las redes neuronales artificiales, bosque aleatorio “Random Forest”,
Regresión de soporte vectorial (Support Regression Vector “SVR”), se deben implementar diferentes
metodologías y estrategias para la recolección de datos, definición de rangos y clases para las clasificaciones;
sistemas de procesamiento que se encargan de los análisis de técnicas automatizadas para cada una de las
condiciones en los indicadores químicos y biológicos de suelo, de esta forma se correlaciona con los
nutrientes de las plantas para retener elementos químicos o compuestos que pueden ser dañinos para el medio
ambiente o los cultivos, el análisis de niveles de erosión, y la evaluación del PH que controla la
descomposición de materia orgánica, liderando la presencia de fósforo, manganeso, calcio, atributos
químicos que determinan información para proveer todo lo pertinente con la administración de fertilización.
[3]
Otra cuestión importante es resaltar como las técnicas de sensado remoto permiten establecer sistemas de
bajo costo e implementación, que permitan tomar un sistema centrado en el análisis de la absorbancia y
reflectancia en las bandas espectrales visibles 400-680 nm en bandas rojas, y mayores a 850nm en un sistema
Página 16 de 98
NIR maximizando aspectos que tengan una relación con las propiedades físico-químicas objetivo, así mismo
este tipo de sistemas buscan minimizar los costos de producción, el impacto ambiental y sobre todo contribuir
a maximizar los índices de producción.
En estimación de propiedades de suelo a nivel local se cuentan con 2 retos, el primero es relacionado con
resoluciones espaciales para muestreo e imágenes multiespectrales, analizando cultivos por área [4].
Partiendo de otras técnicas es importante delimitar un espacio que permita tomar la resolución espacial de
para mapear de forma precisa el estudio de texturas, vegetación y reflectancia que se limita al tiempo y
adquisición de imágenes y curvaturas, por ello se toma una predicción de propiedades del suelo por medio
de regresión del tipo (SMLR & PLSR); algunos autores implementan los métodos de redes neuronales
artificiales, también se implementan modelos de rendimiento para materia orgánica que van variando por el
coeficiente de correlación R2 pues permiten analizar el número de muestras en el campo en niveles de 0.5 a
0.9 en esta métrica (R2). Normalmente se toman las mediciones de texturas y propiedades químicas que
permitan usar la regresión lineal múltiple (MLR), tomando diferentes correlaciones de los modelos de
reflectancia pertinentes. [3],[4]
En [2] se toman 220 bandas, 82 de ellas se eliminan por no poseer señal, a un bajo SNR o por malas
líneas, de ahí se delimita a 138 bandas o características, y se sugiere un rango de óptica completa para trabajar
con (VIS-NIR-SWIR-TIR), en tal punto que permita mapear el estado de una forma más precisa, por medio
de un sensado remoto de suelos, que tome una resolución sensorial por medio de altos espectros basados en
estudios de espectroscopía en contraste con métodos de tradición lineal que no son fáciles de explicar y
visualizar de primera mano. En las mediciones se suele tomar contenido de materia orgánica, esto se mide
porcentualmente al peso de la muestra antes y después, es decir, antes del proceso de ignición la muestra
contiene materia orgánica, después de la ignición el mineral o lo que queda de allí de lo que se quemó
representa porciones de suelo, por ello se presenta en espacios de profundidad de 0 a 8 pulgadas de
profundidad, con rangos de materia orgánica del 2.1 al 5.3 %, en pocas palabras lo que se llama perdida de
ignición, por ello se mide por media, mediana o distribución oblicua.[2]
La búsqueda de alternativas para análisis convencionales a los presentados en laboratorio muestra que las
técnicas basadas en espectroscopía sean un candidato potencial para monitorear las condiciones
fisicoquímicas del campo. A nivel laboratorio Vis-NIR permite realizar estudios basados en la absorción de
luz para diferentes materiales en espectros de 400 a 2500nm, por ello cuando es irradiado con luz visible la
frecuencia de luz corresponde a la frecuencia de vibración molecular, que se usa también en el aprendizaje
de máquina para estimar la materia orgánica, acidez del suelo, porcentaje de nitrógeno, entre otras. En
Colombia se han identificado 11 de 12 tipos de suelo, con escalas de 1:100000 para verificar y predecir
comportamientos, mapeando por medio de técnicas geoestadísticas en regiones de más de 5100 hectáreas. Se
han realizado estudios en el Rio Suarez límites entre la regiones de Boyacá y Santander, tomando muestras
entre los años 2015 y 2016, muestras adquiridas a una profundidad de 20 centímetros y por ende este estudio
se hace de forma reticular en 700 metros a tal punto que toma 4 submuestras que componen una muestra para
un total de 653 muestras, por otro lado una de las condiciones para en análisis mediante la espectroscopia
Página 17 de 98
VIS-NIR requiere de un proceso de humidificación que permite el secado a 40°C en un proceso de 2 a 4 días
que varía según el tipo de suelo con un diámetro anular de 50mm.[1]
Para definir las estrategias de medición que se usarán en predicción con regresión y clasificación, se
captura el espectro con las características informativas que siguen un patrón. Por medio de scikit-learn una
librería para Python, se emplean métodos de clasificación y regresión que usan álgebra, cálculo y estadística
junto con herramientas avanzadas de aprendizaje de máquina para estimar las variables objetivo. El conjunto
de aplicaciones de Matlab Clasification Learner y Regression Learner, permiten visualizar y analizar de
manera rápida y optimizada un coeficiente de correlación para tomar medición y comparación en los
modelos, una herramienta que permite establecer el mejor método tanto para regresión como para
clasificación en la predicción de las propiedades de suelo.
Normalmente el análisis de espectros se toma por medio de vectores, conceptos de primera y segunda
derivada y la comúnmente conocida transformada rápida de Fourier, por la cual se hace el proceso de
normalización en la cual cada muestra, toma una varianza concatenada con cada característica para ser
evaluados por medio de 3 modelos SVR, LR, y Validación cruzada. [1]
Página 18 de 98
2.2 Marco Teórico
2.2.1 Reflexión
Se define como el cambio de dirección de rayos de luz que se da en un mismo medio al incidir sobre una
superficie de un medio distinto.[7]
2.2.2 Refracción
Cambio de dirección de rayos de luz sobre el cual al pasar de un medio a otro medio del cual se propaga
con velocidad. La refracción se caracteriza por poseer 2 principios fundamentales y característicos: [7][12]
En resumen y contrastando, se parte que la reflexión se da cuando hay una onda que se encuentra viajando
de un medio y su punto de encuentro se da en otro, por lo que a su vez parte de mostrar el retroceso de onda
regresando por el medio del que proviene y la refracción se da por medio de medios transparentes como aire
y agua, diferente a hablar de reflexión dado pues que se encuentra en materiales. [8][9]
Página 19 de 98
2.2.3 Espectro Electromagnético
Se define como la distribución característica de una radiación electromagnética de un objeto donde las
frecuencias bajas se utilizan en la radio, la radiación gamma cubre longitudes de onda a miles de kilómetros.
Planck lo establece como el límite de la longitud de onda larga tal como el tamaño del universo, también
como espectro de tipo infinito y continuo. (Pérez, s.f).
El espectro de radiación electromagnética se le considera como aquel que permite el flujo de salida de
energía partiendo de ondas electromagnéticas que se les conoce como radiación electromagnética, pues en si
el espectro electromagnético se considera como el conjunto de frecuencias a los que se produce la radiación
electromagnética. [13]
Se caracteriza por dividirse en regiones espectrales, y se clasifican según métodos necesarios para
detección de diversos tipos de radiación, por lo que son regiones que no cuentan con una frontera definida y
en ella se dan diferentes solapamientos. [13]
Son de baja frecuencia y poco energéticas, a su vez son aquellas que parten de corrientes eléctricas
oscilantes y se emplean en sistemas de microondas y sistemas de comunicación.[13]
Otro concepto que se debe tomar la absorción de luz se da gracias a la interacción de la luz partiendo de
los modos de moléculas electrónicas y aquellas que son vibratorias, por ello cada molécula cuenta con un
conjunto individual de niveles de energía asociados a composición de enlaces químicos y núcleos, procesos
por donde absorbe la luz a diferentes a longitudes de onda, partiendo de los resultados de las propiedades
espectrales.[15]
Página 20 de 98
2.2.5 Transmitancia y absorbancia
Transmitancia es la cantidad de energía que pasa de un cuerpo a otro en un momento determinado de
tiempo, por lo que hay varios tipos según las consideraciones de energía, por ello cuando se habla de
transmitancia óptica hace referencia a cantidad de luz que atraviesa dicho cuerpo sobre una longitud de onda
establecida, por lo que una parte de luz absorbida por el mismo y otra fracción de un haz de luz que atraviesa
un cuerpo como transmitancia.
𝑰
𝑻=
𝑰𝒐
𝑰
𝑻= ∗ 𝟏𝟎𝟎%
𝑰𝒐
Un haz de luz incide sobre un cuerpo de tipo traslucido, para una parte de luz absorbida por un cuerpo, y
un haz de luz que atraviesa ese cuerpo, por lo que, a mayor cantidad de luz absorbida, mayor será esa
absorbancia del cuerpo y en menor proporción se da esa cantidad de luz transmitida por ese cuerpo. Esta se
mide acorde a una longitud de onda como:
𝑰
𝑨 = − 𝐥𝐨𝐠 𝟏𝟎
𝑰𝒐
Partiendo de lo anterior la intensidad incidente y la transmitida pueden ser igual, y si ese porcentaje de
transmitancia indica el 100%, indica que la muestra no absorbe y evaluando logarítmicamente es igual a 0,
por la cantidad de luz absorbida depende de la distancia que atraviesa la luz por medio de una solución de
cromóforo y concentración que tenga este.[16] [15]
Página 21 de 98
2.2.7 Aprendizaje supervisado
El aprendizaje supervisado se toma como demarcación inicial como una rama de lo que se conoce como
el aprendizaje de máquina, o comúnmente por su procedencia del inglés como el Machine Learning , es un
método que se encargar de crear modelos matemáticos que busca explicar etiquetas de entrada/salida
partiendo de un conjunto de características de entrada, por ello se dividen principalmente en: Clasificación y
Regresión. A su vez cuentan con sub-métodos como: Aprendizaje activo, “Similarity Learning” y
Recommender Systems. [22]
El aprendizaje supervisado cuenta con un conjunto de datos en los cuales se etiquetan para entrenar un
algoritmo para realizar diferentes tareas, por lo que se aplican modelos para predecir resultados, realizar
procesos de clasificación a partir de una imagen, de esta forma los datos de entrenamiento cuentan con el
procedimiento de definir si esta correctamente etiquetada la imagen o el elemento a procesar, de esta forma
los algoritmos cuentan con datos históricos o de entrenamiento donde se aplica a entradas desconocidas para
obtener una salida, de esta este tipo de aprendizaje se usa para arboles de decisión, bosques aleatorios y
Gradient Boosting Machine. [22]
2.2.9 Regresión
La regresión en si consiste de un análisis partiendo del aprendizaje automático supervisado partiendo de
un proceso el cual consiste en establecer un método o proceso para relacionar un numero de características
con una variable objetivo continua. Por lo que la regresión se representa como un proceso estadístico para
estimar relaciones entre variables. El resultado de una regresión normalmente parte de ser un número y en
Aprendizaje de Maquina se da cuando se toma un valor numérico, en un conjunto infinito con posibles
resultados, pues de manera más precisa indica que una regresión es una forma de generar predicción de lo
que es una realidad de valores o etiquetas de salida, partiendo de valores de entrada algunos nuevos, y otros
de por sí que no parten de un conjunto de valores de entrenamiento. [23]
De esta forma la regresión lineal cuenta con una sola variable, esta es la hipótesis y se define de la
siguiente manera: ℎ (𝑥) = 𝜃 + 𝜃 𝑥 = 𝑦 [23]
Los parámetros del modelo se denotan como: 𝜃 , de ahí se puede establecer que se define una primera
instancia para mostrar una demora significativa en un proceso completo, que es donde hace uso de una
Página 22 de 98
función de costo J que permite seleccionar cada uno de los parámetros de modelo, partiendo de la siguiente
formula:
1
min ℎ 𝑥( ) − 𝑦( ) = min J(𝜃 , 𝜃 )
, 2𝑛 ,
Si la función de múltiples variables 𝐹(𝒙) es diferenciable en la vecindad del punto 𝒂, entonces 𝐹(𝒙)
decrece más rápidamente si se parte desde 𝒂 hacia una dirección dada por el gradiente negativo de 𝐹 en 𝒂,
−𝜵𝐹(𝒂). [23]
𝒂 = 𝒂 − 𝛼𝜵𝐹(𝒂 )
( ) ( ) 𝜕
𝜃 =𝜃 −𝛼 J(𝜃 , 𝜃 )
𝜕𝜃
( ) ( ) 1
𝜃 =𝜃 −𝛼 (ℎ 𝑥( ) − 𝑦( ))
𝑛
( ) ( ) 1 ()
𝜃 =𝜃 −𝛼 (ℎ 𝑥( ) − 𝑦( )) 𝑥
𝑛
Partiendo de todas las ecuaciones planteadas y lo mencionado, se tiene que se analiza una característica,
y de por sí, los datos hiperespectrales poseen gran cantidad de características, por lo que analizándolo desde
otro punto se puede ver que cuenta con diferentes variaciones para lo cual la hipótesis se define de otra forma:
ℎ (𝒙) = 𝜃 + 𝜃 𝑥 + 𝜃 𝑥 + 𝜃 𝑥 + ⋯ + 𝜃 𝑥
Página 23 de 98
𝑥
𝑥
ℎ (𝒙) = [𝜃 𝜃 …𝜃 ] =𝜃 Χ
⋮
𝑥
Por lo que de esta forma se parte plantear la función de costo de la siguiente forma:
1
min J(𝜃 , 𝜃 , … , 𝜃 ) = 𝑚𝑖𝑛 ℎ𝜽 𝒙( ) − 𝑦 ( )
, ,…, , ,…, 2𝑛
Aplicando el método del descenso de gradiente univariado, se obtiene la siguiente solución:
( ) ( ) 1 ()
𝜃 =𝜃 −𝛼 (ℎ𝜽 𝑥 ( ) − 𝑦 ( ) ) 𝑥
𝑛
Cabe mencionar que el valor de la tasa de aprendizaje es arbitrario y su selección parte del rendimiento
del modelo. [23]
Ese coeficiente de determinación (R2), por lo que es una medición de tipo estadística que puede ser
establecida y determinada por un modelo de regresión que brinda una proporción de varianza en la variable
dependiente explicado por medio de una variable independiente, en palabras más sencillas, indica que el
coeficiente de determinación cuenta sobre como los datos, por ello este coeficiente permite realizar ajustes a
los modelos.[25]
Mientras que el coeficiente de determinación provee visiones útiles con respecto a modelos de
regresiones, no solo confiar en la medición de la asignación del modelo estadístico, eso en si no revela
información sobre relaciones de causación entre variables dependientes e independientes, por lo que no indica
la exactitud de un modelo de regresión, además del usuario que permita realizar conclusiones sobre modelos
de análisis de coeficientes de determinación junto con otras variables en modelos estadísticos, que el
coeficiente de determinación toma valores entre 0 y 1, por lo que es una métrica estadística frecuentemente
expresada en porcentajes. [24][25]
Página 24 de 98
El coeficiente de determinación establece que esos valores se encuentran entre 0 y 1. Si este valor es más
cercano al valor de 1, mayor es ese ajuste del modelo a la variable para el cual se aplica el caso en concreto,
por lo que se adquiere resultados cuando se acerca a valor 0, por lo que el ajuste de modelo a variable se
aplica y por ello el resultado es menos fiable. [24]
PCA de por si se aplica para reducción de dimensión en un Conjunto de Datos que requiere un alto
número de variables, por lo que requiere de tener una mejor representación en términos de mínimos
cuadrados, para proyectar la varianza, pero a su vez se compone de componentes asociados a unos valores
propios, para reducir la dimensión partiendo de atributos del conjunto de datos, pues para el caso pertinente
se puede establecer que con una dimensión grande de datos, la varianza del PCA va aumentando o
disminuyendo según la cantidad de características y etiquetas, con las que se va analizar el sistema, entre
menos características y según las etiquetas relacionadas se requiere cierta reducción dimensional, pues para
este caso no se aplicó pero si se requiere una reducción no se agregan tantos datos. [26]
det(Σ − 𝜆𝐼) = 0
Posteriormente después de eso se buscan cada uno de los componentes más representativos para hallar el
peso de cada 𝜆, por lo que una vez definiendo ese peso, se escogen cada uno de los porcentajes de varianza
para definir los componentes y se proyectan cada uno de los valores: 𝑧 = 𝐴(𝑥 − µ)
Página 25 de 98
Z es el punto nuevo
X el original
Media : µ
Columnas de A – vectores propios escogidos.
- 1. Matriz de diseño que contenga una fila por cada fila de datos y una columna por cada parámetro
en el modelo de regresión
- 2. Calcular coeficientes de regresión.
- Paso 2.1 Multiplicar matriz de diseño transpuesta por sí misma.
- Paso 2.2 Multiplicar matriz de diseño transpuesta con vector de valores de destino.
- Multiplicar inversa de matriz de 2.1 por matriz de 2.2.
Con los valores de los coeficientes de regresión y el cálculo de valores de destino para cada fila, se
establecen cada una de las diferencias entre valores de objeto pronosticados y observados donde estos se
consideran residuos.[27]
4. Dividir cuadrado medio para modelo de regresión por cuadrado medio de fuente de error.
Todo lo anterior define el valor de significación, por lo que, si el valor de significación es menor que el
nivel de significación, los medios son totalmente diferentes.[27]
Otra cuestión importante es determinar el coeficiente de Determinación que es quien da la predicción del
modelo de regresión, por ello si se toma un nivel de significación en 5%, la predicción o potencia predictiva
Página 26 de 98
de modelo debe ser mayor al 10%, por lo cual esto permite establecer una condición de fiabilidad entre
destino y campo de entrada. [27]
2.2.13 SVR
En primera instancia es una variante de “Support vector Machine”, en este caso se usa este método para
clasificar, el modelo de vector soporte se utiliza como un esquema de regresión para predecir diferentes
valores.
Su principio fundamental parte que la salida es un número real, que no es fácil de predecir dado que
cuenta con muchas posibilidades para la regresión se maneja un margen de tolerancia cerca de un vector con
la finalidad de minimizar dicho error partiendo del error tolerado. [28]
𝑦= (𝑎 − 𝑎 ∗ ). < 𝑥 , 𝑥 > + 𝑏
Si el problema no es lineal la función Kernel transforma los datos a un punto que partan de una
característica de espacio dimensional alto para ejecutar dicha separación lineal. [28]
𝑦= (𝑎 − 𝑎 ∗ ). 𝐾(𝑥 , 𝑥) + 𝑏
Página 27 de 98
Ilustración 5. Representación de función Kernel de forma no lineal. [28]
SVM se caracteriza por construir hiperplanos o un conjunto de ellos para definirse en un espacio de
dimensionalidad alta o infinita para problemas de clasificación o regresión.
Los modelos basados en SVM se relacionan a su vez con redes neuronales por medio de una función
Kernel, que permite determinar un método de entrenamiento opcional para clasificadores de tipo polinomial
en función radial y perceptrón multicapa. [28]
Página 28 de 98
2.2.15 Perceptrón Multicapa
El perceptrón multicapa parte de un perceptrón simple a su vez de integrar capas de neuronas ocultas para
funciones no lineales, de por si se compone de una capa de entrada, una de salida y n capas ocultas
intermedias, para diferenciarlo consta de dos fases: [29]
1. Propagación – es donde se calcula el resultado de la salida de la red desde los valores de entrada hacia
adelante. [29]
2. Backpropagation que es donde el aprendizaje se da sobre errores obtenidos en la salida del perceptrón
y se propagan hacia atrás con la modalidad de poder modificar esos pesos de conexiones para calcular
el valor estimado de red y este sea similar con valor real de igual forma partir de la función gradiente
del error. [29]
Capa de entrada: conecta red con exterior a su vez cada neurona se conecta con una de las variables de
entrada de red. [29]
Capa oculta: son una o varias capas acumuladas que cuentan con una activación de una salida a la cual
se le asocia una suma de activación de capa anterior conectada con otras, partiendo de que se le agregan
también los sesgos. [29]
Capa de Salida: parte de las capas ocultas más la salida de red a la que se le proporciona los resultados.
[29].
Estos de por si generalmente pueden ser diferentes, debido a que pueden tener una operación en diferentes
muestras en un conjunto de datos, partiendo de diferentes técnicas de modelado y partir de una hipótesis
diferente. [40]
Hay algo que se puede establecer y es que cada modelo cuenta con cierto de grado de error, por ende los
errores de los modelos son diferentes a medida que estos son producidos por uno u otro modelo, esto en si
establece diferentes razones, en torno a ellas no hay un agrupamiento que dé una respuesta concreto debido
Página 30 de 98
a que se genera una dispersión en los datos, por ello si se puede establecer que en cada una de las situaciones
establece lo correcto de lo incorrecto, las agrupaciones se centran en relación a una respuesta correcta o no.
[40]
Página 31 de 98
Sensibilidad, recuperación, tasa de aciertos o tasa de verdaderos positivos (TPR)
𝑇𝑃 𝑇𝑃
𝑇𝑃𝑅 = = = 1 − 𝐹𝑁𝑅
𝑃 𝑇𝑃 + 𝐹𝑁
𝑇𝑁 𝑇𝑁
𝑇𝑁𝑅 = = = 1 − 𝐹𝑃𝑅
𝑁 𝑇𝑁 + 𝐹𝑃
El promedio del TNR y TPR se le conoce como la Exactitud Balanceada o “Balanced Accuracy” [41]
𝑇𝑃
𝑃𝑃𝑉 = = 1 − 𝐹𝐷𝑅
𝑇𝑃 + 𝐹𝑃
Exactitud (Accuracy)
𝑇𝑃 + 𝑇𝑁 𝑇𝑃 + 𝑇𝑁
𝐴𝐶𝐶 = =
𝑃+𝑁 𝑇𝑃 + 𝑇𝑁 + 𝐹𝑃 + 𝐹𝑁
F1 Métricas
Es una medida de la exactitud, puede calcularse a partir de la precisión y la sensibilidad usando la media
armónica de estas. [41]
Página 32 de 98
𝑃𝑃𝑉 ∙ 𝑇𝑃𝑅 2𝑇𝑃
F1 = 2 ∗ = ,
𝑃𝑃𝑉 + 𝑇𝑃𝑅 2𝑇𝑃 + 𝐹𝑃 + 𝐹𝑁
También se conoce como coeficiente de Sørensen-Dice o coeficiente de similitud de Dice (DSC). [41]
- Si cada una de las clases se encuentran en puntos bien separadas, los parámetros estimados en el
modelo de regresión logística son inestables. [43]
- El número de observaciones es bajo y distribución de predictores es normal en cada clase, es más
estable que la regresión logística. [43]
- Cuando se tiene un problema de clasificación cuenta con 2 niveles, se parte de métodos que cuentan
con resultados similares. [43]
- Se cuenta con un conjunto de datos de entrenamiento donde se conoce a un grupo que pertenece cada
observación. [43]
- Las probabilidades previas parten de una proporción esperada de observaciones que pertenecen a un
grupo.[43]
- Determinar la matriz de covarianzas o la varianza parte de si es homogéneo en los grupos.
- La estimación de parámetros parte de las funciones de probabilidad condicional, partiendo de las
condiciones pertinentes para cumplir las diferentes características. [43]
- Calcular el resultado de la función discriminante, en el ese resultado parte de establecer al grupo al
que es asignado cada observación. [43]
- Por validación Cruzada se estima las probabilidades de clasificaciones erróneas.
Página 33 de 98
2.2.21 Árboles de Decisión
Los árboles de clasificación y regresión son métodos que contribuyen con cada uno de los modelos de
tipo predictivo y/o explicativo, se caracterizan por tener una representación gráfica mediante árboles, pero a
su vez cuenta con un formato compacto por medio de las reglas del lenguaje natural, por ello parte de las
técnicas de modelado, por medio de clasificación permiten explicar y predecir los objetos o individuos a una
clase respectiva, con respecto a la base de variables cuantitativas y cualitativas. En cuanto a regresión permite
generar un modelo explicativo y predictivo con respecto a una variable cuantitativa. [44]
1
𝐶= |𝜔 |
𝑁
1 𝛼
𝐽= (𝑟𝑒𝑎𝑙 − 𝑒𝑠𝑡𝑖𝑚𝑎𝑑𝑜 ) + |𝜔 |
𝑀 𝑁
Para el caso de Ridge L2, se mide como la media del cuadrado de coeficientes del modelo por lo que acá
se aplica matemáticamente obtiene la siguiente ecuación:
1
𝐶= 𝜔
𝑁
Página 34 de 98
1 𝛼
𝐽= (𝑟𝑒𝑎𝑙 − 𝑒𝑠𝑡𝑖𝑚𝑎𝑑𝑜 ) + 𝜔
𝑀 2𝑁
Lo anterior parte que para el modelo Ridge se debe entrenar el modelo, tener en cuenta las variables a
predecir, para hallar las métricas de perdida, y de ahí pasar a determinar el error cuadrático| por medio de las
técnicas de regularización. [33]
2.2.24 Interpolación
La fase de extracción y transformación de los datos va acorde con el uso para el que serán destinados, en
este caso, se quiere implementar métodos de reducción de dimensionalidad como PCA e interpolación
esperando obtener un mejor desempeño en la aplicación de las técnicas de aprendizaje de maquina en las
siguientes fases, para ello basado en el estado del arte, se han elegido métodos de interpolación como primer
paso para la transformación y preparación de los datos, esta interpolación se hará usando la librería Scipy y
diferentes métodos como lo es un ajuste de polinomios cúbicos por partes, dados los vectores de entrada (x
, y), proporcionando como resultado una curva suave y natural que pasa por los puntos de los datos. Una vez
realizado este proceso se pretende comparar el método del subconjunto de funciones con el Interpolador de
datos spline cúbico de la misma librería, obteniendo resultados que permitan concluir el mejor método
aplicado al caso de estudio. [34]
Para el caso de estudio que es la aplicación de datos para un mejor trazado, de una curva suave y natural
tal como se mencionó previamente se parte de una spline cúbica que parte de encontrar tal curva que conecta
esos puntos de datos con grado 3 o menor, por ello los spline parten de una referencia polinómica suave y
continua, parten de una primer y segunda derivada continua para unirse, ellos de por si toman un conjunto de
puntos [𝑥 , 𝑦 ] 𝑝𝑎𝑟𝑎 𝑢𝑛 𝑖 = 0,1, … , 𝑛 = 𝑓(𝑥), donde se expresa ese spline de tipo cubico en una curva
continua por partes, pasando por cada uno de los valores de la tabla, al tomar las siguientes características:
𝑆 (𝑥), 𝑥𝜖[𝑥 , 𝑥 ]
𝑆 (𝑥), 𝑥𝜖[𝑥 , 𝑥 ]
𝑠(𝑥) =
⋮
𝑆 (𝑥), 𝑥𝜖[𝑥 , 𝑥 ]
Partiendo de 𝑠 (𝑥) se establece que el polinomio cubico se utilizara en un subintervalo de la siguiente
manera[𝑥 , 𝑥 ], partiendo a su vez que se tome un spline suave y continuo se parte de las siguientes
relaciones:
𝑠 (𝑥 ) = 𝑠 (𝑥 ) = 𝑓(𝑥 ) = 𝑦
Página 35 de 98
Si se toma como polinomio cubico se obtiene que al linealizarlo queda de la siguiente manera
𝑠 = (𝑀 − 𝑀 )/(𝑥 − 𝑥 ) 𝑞𝑢𝑒 𝑝𝑒𝑟𝑡𝑒𝑛𝑒𝑐𝑒 𝑎𝑙 𝑐𝑜𝑛𝑗𝑢𝑛𝑡𝑜 𝑑𝑒𝑙𝑖𝑛𝑒𝑎𝑑𝑜 𝑝𝑜𝑟 [𝑥 , 𝑥 ]
2.2.25 Escalización
Está técnica se aplica en el momento que se realiza la normalización donde consiste en calcular la media
de cada característica µ, con matriz de covarianza, de paso se seleccionan los valores y vectores propios de
una matriz de covarianza, de ahí se parte que esto se implementa justo antes de implementar algún modelo,
pues en un conjunto de datos de por si se cuenta con muchas características y etiquetas, por ello se parte que
este algoritmo de por si indique las diferentes variables con las que se puede realizar las diferentes
comparaciones, por ello el algoritmo no se debe afectar en una medida por lo cual los valores son mayores
en magnitud a otro, por ello se usa una escalización estándar partiendo de una relación matemática que
comprende el proceso de estandarización y normalización:
𝑥−𝜇
𝑧=
𝜎
Capítulo 3
Diseño
3.1 Diagrama de Bloques
El prototipo o esquema de proyecto cuenta con 2 secciones fundamentales: el sensor AS7341 de ams-
OSRAM con 11 canales de espectro. En la segunda sección se encuentra el microprocesador o sistema de
procesamiento para adquisición. Partiendo de lo anterior lo primero que le entra al sistema es la luz o fuentes
de luz y las muestras de suelo a analizar, se toma como fuente primordial la luz emitida directamente hacia
la muestra del suelo, esto se mide con ayuda del sensor multiespectral que transmite los valores al
microprocesador integrado en la Raspberry pi Pico donde se capturan y almacenan temporalmente los datos,
por medio de una interfaz que usa el protocolo I2C. Como siguiente paso la comunicación serial mediante
USB entre el microprocesador y el host en el que se implementarán y operarán las técnicas de aprendizaje
automático, juega un papel fundamental pues mediante el uso de un firmware que permita virtualizar el puerto
USB se transmitirán los datos espectrales adquiridos en una escala correspondiente a los niveles de
conversión análogo digital del microprocesador. El preprocesamiento de datos recolectados se realizará
usando librerías y herramientas del lenguaje Python y la Ciencia de Datos. Así con modelos de Regresión y
Clasificación que permiten evaluar el valor de cada una de las propiedades a examinar, se estimarán las
variables objetivo que tienen una sincronización basada en la base de datos proporcionada por Agrosavia,
con bastantes características y etiquetas por analizar.
Página 36 de 98
Ilustración 10. Diagrama de bloques sistema propuesto Fuente: Propia de los Autores
Gracias a lo anterior, se realiza el proceso de medición partiendo de los resultados obtenidos con el sensor
y los datos de Agrosavia, partiendo de esto se procede a realizar una breve explicación de cada uno de los
bloques del sistema:
Sensor óptico: Para obtener correctamente los datos necesarios provenientes de las muestras, se requiere
un sensor multiespectral con, al menos, 6 bandas espectrales, primando el espectro visible y el infrarrojo
cercano. Debe trabajar con un voltaje de alimentación de entre 3.3V y 5V ya que es el voltaje más común en
microcontroladores, con el cual se pretende alimentar. Dado su deseado uso en el campo, debe trabajar en
temperaturas de entre 5°C y 40°C, rango normal de temperaturas en el campo colombiano.
Para una adecuada distinción de cada una de las bandas espectrales, la anchura a media altura (FWHM)
de cada curva no puede ser mayor a 50 nm ya que se pueden confundir dos regiones dada su cercanía.
Microprocesador: Dada la alta dimensionalidad de los datos, se requiere una memoria mínima de
128Mb, lo cual le daría la capacidad de almacenar la información de unas cuantas muestras. No se tiene un
requerimiento en cuanto al tiempo máximo para proporcionar los resultados, por lo que no es crucial un
oscilador específico. En cuanto a los bloques correspondientes al aprendizaje de máquina, si bien no se
requieren características muy específicas ya que es un modelo muy sencillo, se tiene:
Entrenamiento y modelo de regresión: Para estas etapas no es necesario más que dividir los datos en
un grupo de entrenamiento y uno de validación, evaluando distintos modelos para escoger el más apto.
Métricas de evaluación: Métodos de evaluación del rendimiento del modelo de modo que se pueda
escoger el mejor según la aplicación y proveer una medida de confianza a la estimación de las propiedades.
Página 37 de 98
3.2 Estándares en Ingeniería
I2C: El bus I2C es un estándar que facilita la comunicación entre microcontroladores, memorias y otros
dispositivos. Sólo requiere de dos líneas de señal como son SDA para los datos y SCL para el reloj además
de una línea común o tierra [16]. Es importante para este proyecto debido a su uso en el sensor espectral de
bajo costo usado en el diseño del prototipo.
NTC 5403 Determinación de materia orgánica ICONTEC: “Esta norma cubre la determinación del
carbono orgánico en los suelos, en el laboratorio, a través de métodos de oxidación seca y húmeda y,
diferentes métodos de cuantificación. Las mediciones, objeto de esta norma pueden ser empleadas en campos
relacionados con agricultura, medio ambiente y recursos naturales. La valoración de la cantidad de carbono
orgánico sirve como índice de fertilidad del suelo y como orientación para la fertilización de los cultivos.
Además de los métodos presentados en esta norma existen otros que pueden emplearse previa validación de
los mismos frente a los aquí descritos. El criterio de selección de los métodos que cubre esta norma se basa
principalmente en su alto nivel de utilización a nivel nacional e internacional”. [18]
Cumplimiento de requerimientos para cada elemento o componente desde las metas globales del sistema
y requerimientos aprobados por el cliente.
Diseño inicial: Se ha planteado una metodología básica para el diseño, implementación y operación de
los algoritmos de inteligencia artificial que se ven involucrados como solución dando seguimiento a las
recomendaciones del director del proyecto de grado.
Prototipos experimentales y set de pruebas en el desarrollo del diseño: El diseño se realizará con el
conjunto de datos brindado por el director de tesis y el cliente desde Agrosavia como fuente de soporte en
datos, que a su vez permitirá realizar una extracción de características principales PCA como una de las
técnicas de aprendizaje de máquina para crear modelos eficientes y de calidad a partir grandes volúmenes de
datos, en el caso presente se cuenta con alrededor de 2500 características. Segmentación del conjunto de
datos 70/30 para conjunto de entrenamiento y de validación de pruebas con el hardware. El procesamiento
se realizará inicialmente en el ambiente virtual Colab de Google.
Página 38 de 98
Iteración hasta la convergencia: se probarán diferentes métodos (KNN, SVM), usando métricas de
evaluación y registrando los resultados obtenidos, en el entorno de desarrollo y de pruebas. Se generará
protocolos de pruebas.
Diseño final: se plantea una adecuación a nivel de hardware dando cumplimiento al objetivo general y a
los requerimientos del cliente.
La siguiente figura ilustra el proceso de entrenamiento y validación de datos: los modelos con los que se
va a realizar el proceso, y los diferentes softwares donde se va a realizar la medición de los datos, partiendo
de los conjuntos de datos obtenidos, así como la escogencia del mejor modelo para la regresión a aplicar.
Página 39 de 98
Ilustración 12. Diagrama de Flujo de Modelos de Clasificación
La ilustración 12 indica que se tiene claramente 90 datos de espectro de VIS-NIR con mediciones
químicas, para este caso se aplica clasificación donde el análisis no se realiza en este caso por un
entrenamiento y testeo, sino por validación cruzada. Se toma un conjunto de validación del 30% en 30
muestras, de esas se toman para etiquetas de proceso quimio-métrico, por el otro lado al pasar por Validación
cruzada se cuenta con 4 pliegues para 5 modelos de Clasificación, SVC, Redes Neuronales, K vecinos más
cercanos, Discriminante lineal, y por ultimo un aprendizaje por conjunto, donde en este caso se aplican los
modelos usando la aplicación Clasification Learnen de la caja de aplicaciones y herramientas para
aprendizaje automático de Matlab, obteniendo los valores pertinentes a exactitud y matriz de confusión, que
son por los cuales se hallan los valores de precisión, recuperación, Métricas de F1; se valida cada uno de los
modelos estableciendo cuál de ellos presenta la mejor métrica y se realiza finalmente una comparación entre
cada una de las métricas.
Página 40 de 98
su vez incluye sensores para luz blanca e infrarroja cercana, por ello detecta un parpadeo de luz en frecuencias
específicas. [31]
De por sí, el sensor indica que tiene 10 canales y uno que es un flicker de detección, en si el chip cuenta
con un Super MUX que es el que enruta la señal desde cualquier sensor a un ADC especifico, por ende,
cuenta con bandas de 415, 445, 480, 515, 555, 590, 630 y 680nm, a su vez con “CLEAR & NEAR IR”, y
una configuración de dirección I2C configurada por defecto en Hexadecimal como 0x39. Poniendo en
contexto la comunicación del sensor se indica claramente que el sensor para poder determinar la composición
de cualquier color, junto con una precisión y especificidad parte de contar con 6 canales ADC y 16 bits que
toma de medidas sin realizar el debido procesamiento y a su vez se convierte en valores digitales por los
cuales estos pueden ser leídos por I2C. [31]
Página 41 de 98
3.5.3 Microcontrolador Raspberry pi Pico
Se escogió en primera instancia debido a que cuenta 26 pines de Entrada/salida de propósito general de
3.3V, 23 pines GPIO y 3 con capacidad para ADC, una SRAM de alto rendimiento multibanco 264K, un
convertidor ADC de 12 bits y velocidad 500kbps, voltaje de E/S de 1.8 a 3.3V, 2 puertos de comunicación
UART, 2 de I2C, 2 de SPI, y 16 canales para hacer análisis de señales PWM, esto entre sus características
técnicas, entre otras también debido a que es económico, en primera instancia la comunicación con el sensor
es una de las razones por las que se escogió, la otra razón fue porque también se puede aplicar Tensor Flow
sobre la Raspberry, pues de por si Tensor Flow permite crear grafico de flujo de datos, estructuras de
descripción de datos, por medio de Python permite proporcionar diferentes abstracciones de alto nivel, así
como también la aplicación de Tensor Flow para desarrollo de redes neuronales y la implementación de
algoritmos, como una forma de concatenar la salida de una función con la entrada de otra función. [30]
Adicional a ello, se escogieron tres métodos basados en el estado del arte: Regresión Lineal, Redes
Neuronales, Regresión por Soporte Vectorial y Procesos Gaussianos para problemas de Regresión.
3.6.1 PH
Página 42 de 98
PCA 97% Varianza +
Características
Lin.
Reg 0.01 0.01
Tree
Fine 0.77 0.15
Con respecto a regresión lineal, arboles de decisión y Maquina soporte Vector, da un ajuste mucho más
definido tanto para la parte de evaluación como para la parte de validación.[32]
Página 43 de 98
Ilustración 15. Resultados de Predicción de Redes Neuronales Artificiales, Error residual, Grafica de
Test, Predicción Gaussiana
LR 0.63 0.8
Partiendo de este análisis sin PCA, se tiene cada uno de los resultados, donde está la predicción de las
redes neuronales, Predicción Gaussiana, error Residual y Grafica de Testeo, se puede ver que al realizar el
proceso sin PCA, los resultados numéricamente representan un cambio significativo en lo relacionado a
entrenamiento y test, puesto que para GPR se puede ver que en validación con PCA arrojaba 0.55 mientras
que sin PCA arroja 0.67, en cuanto a Test sin PCA es de 0.9 y con PCA es de 0.78, en resumidas cuentas el
Página 44 de 98
resultado numérico cambia en cuestión, debido a que al no realizar la reducción de dimensiones no se genera
tanta varianza, caso contrario que al reducir lo que se obtiene es un mapeo lineal de datos referente a un
espacio inferior de tal forma que esa varianza de datos en representación de las pocas dimensiones presentes
se va amplificando.
3.6.2 OM
Ilustración 16. Medición de Materia Orgánica, Graficas de Conjunto de Datos original y de predicción
Regresión
lineal 0.08 0.76
Página 45 de 98
Ilustración 17. Gráfica de Predicción de Regresión lineal, Test de Predicción de Materia Orgánica,
Error de Regresión Gaussiana de Materia Orgánica
Kernel
GPR 0.71 0.92 Exponencial
LR 0.66 0.82 0
Una vez más se observa que al no aplicar Reducción De Dimensiones se presentan mejores resultados,
pues en este caso al no trabajarlo con PCA, en primera instancia se le agrego un Kernel exponencial al GPR,
donde se obtuvo un mayor resultado en la parte de la validación y/o entrenamiento obteniendo 0.71, pues por
tal motivo se puede ver como entre lo que son redes Neuronales, Regresión lineal y SVM, se presentan buenos
resultados, por la cantidad de muestras y el comportamiento de la respuesta frente a lo estimulado.
Página 46 de 98
3.6.3 Ca
Kernel
GPR 0.27 0.53 exponencial
LR 0 0 0
Página 47 de 98
Ilustración 19. Grafica de Predicción de Regresión lineal, Test de Predicción de Ca, Error de Regresión
Gaussiana de Ca
Kernel
GPR 0.47 0.86 Exponencial
LR 0.4 0.69 0
19 características que comprenden el rango de 451 a 604 nm con espaciado de 8,5 nm entre muestra
y muestra.
Página 48 de 98
La etiqueta a predecir será pH, la que previamente se ha validado mediante pruebas quimio métricas
en laboratorio.
Los métodos a emplear fueron SVR(Regresión de soporte Vectorial), Regresión lineal múltiple y
perceptrón multicapa(MLP), por lo que todo el procedimiento consistió en eliminar las columnas que no son
necesarias o que por ende cuentan con NAN, por medio de la librería pandas, pasando de 6178 datos a un
total de 3285 muestras, por lo que 2893 cuentan con valores NAN en sus etiquetas, todo se basa en un
comentado por Agrosavia, todo cuenta con una regularización de datos de tal modo que permita mejorar el
procesamiento usando los métodos inicialmente mencionados.
Al implementar los modelos con las técnicas nombradas se cuenta con las siguientes métricas y graficas:
Página 49 de 98
Capítulo 4
Implementación
4.1 Caracterización
Como primer paso se utilizan los dispositivos pertinentes para análisis de espectro, estos se componen
del módulo de sensor multiespectral AS7341 y uso del espectrómetro Thorlabs de referencia CCS200/M.
para caracterizar el espectro en absorbancia y reflectancia mediante pruebas en diferentes materiales,
obteniendo:
Ilustración 21. Gráfica de Intensidad vs Longitud de onda para caracterización del led de sensor AS7341
Esta figura de por si representa la firma espectral del Led en la longitud de onda de 451nm, con los
parámetros suministrados por el software del espectrómetro Thorlabs, se puede apreciar el primer pico sobre
451nm donde se aprecia un nivel de reflectancia en el espectro de color azul (ubicado sobre los 450nm), una
mayor reflectancia se ve sobre el color verde donde este espectro esta sobre 530nm aproximadamente, y baja
reflectancia en el color rojo cercano a 650nm.
Página 50 de 98
Ilustración 22. Grafica de Intensidad vs Longitud de onda para caracterización del led de sensor AS7341
sin acetato.
Esta figura al igual que la anterior la medición se realizó sin acetato, para evaluar no solo su aspecto
espectral, sino para verificar como es el comportamiento sobre una superficie oscura, donde sus picos están
sobre los 450 y 560nm, donde su espectro se encuentra entre los colores azul, verde, amarillo y naranja.
Ilustración 23. Tabla de Datos y Grafica de Intensidad vs Longitud de Onda, para color azul y
anaranjado.
En la siguiente tabla con grafica anexa de Intensidad vs Longitud de Onda, se puede ver cada uno de los
picos entre las longitudes de onda del color azul y naranja, donde se toma en cuenta en términos de la
intensidad y las diferentes distancias el rango de medición, así como el comportamiento espectral de los
diferentes picos.
Página 51 de 98
Ilustración 24. Tabla de Datos y Grafica de Intensidad vs Longitud de Onda, para color azul y
anaranjado en medición sin acetato.
La ilustración presente indica de por sí parte de la medición de espectro del color violeta al rojo, dado
pues que en este caso tomo una cobertura de colores un poco más extensa que la figura anterior, las
mediciones tomadas se pueden observar que se dio en puntos donde no se presenten ruidos o perturbaciones,
donde esa intensidad se puede lograr detallar que se encuentra cercana a los 3 dB.
Ilustración 25. Medición y caracterización de luz led de sensor AS7341 al someterlo con acetato, para
longitudes de onda entre 400 y 825nm
Para este caso la medición se comenzó realizando ya no bajo una superficie oscura, sino sobre una
superficie que posteriormente pueda indicar la viabilidad para suministrar muestras, pues en este caso el
acetato al ser algo endeble o débil, muestra de por sí que es traslucido, pues en este caso con el software de
Thorlabs se puede ver que la gráfica cuenta con dos picos, el primero cercano a los 450nm y el segundo sobre
los 530nm, donde son los colores que van en el espectro del azul al verde.
Página 52 de 98
Ilustración 26. Caracterización de luz de sensor AS7341 sobre lamina de Acetato para longitudes de
onda de 448 a 530nm.
Tomando las mediciones con el led del sensor, se busca al someter la lámina de acetato con la luz evaluar
con exactitud los rangos en los que se presenta reflectancia, que en ellos tal como indica la figura están sobre
448 a 530nm aproximadamente.
Ilustración 27. Gráfica de Intensidad vs Longitud de onda para caracterización del led de sensor AS7341
suministrando caja de Petri.
La ilustración 27 se ve a continuación, indica un mejor comportamiento cuando se realiza la medición
sobre la caja de Petri, respecto a la lámina de Acetato, pues de por si, al ser transparente y como es algo frágil,
muestra un mayor índice de luz, por lo que cuando se analiza el comportamiento de los picos se ve un
comportamiento espectral menos ruidoso, más definido a su vez no se presentan cotas sobre la gráfica, es
más definido para estar entre 450 y 540 nm, que es donde están los colores que se analizaron en las previas
mediciones con acetato y sin él.
Página 53 de 98
Ilustración 28. Tabla de Datos y Grafica de Intensidad vs Longitud de Onda, para color violeta y verde.
En base a la anterior ilustración se observa la cantidad de datos tomados sobre los cuales, se presentan
los diferentes picos, en los cuales se puede ver el cómo se comporta la intensidad respecto a la longitud de
onda, gracias a eso se puede ver como es el comportamiento espectral junto con los picos sobre los que llega
la gráfica, de igual forma se puede ver que se encuentra en los rangos de 450 nm a 530nm.
Ilustración 29. Evaluación de Rango de Caracterización de luz led del sensor AS7341
Para este caso lo que se evalúa es el rango en el que se caracteriza la luz del sensor, se presenta una cota
antes de los 443nm, y en el otro rango antes de cortar en 0 dB, se puede ver un pico cercano a los 530nm.
Página 54 de 98
Ilustración 30. Gráfica Espectral de Intensidad vs Longitud de Onda para caracterización de sensor
AS7341 sin caja de Petri.
La medición al realizarse sin la caja de Petri, presenta variaciones un poco evidentes, pero pese a lo
anterior mencionado, se encuentra en el mismo rango, donde la reflectancia queda centrada sobre los colores
azul al verde.
Ilustración 31. Grafica de Absorbancia con caja de Petri, para medición de Espectro.
La figura 31 de por si establece que el rango de absorbancia en la caja de Petri para la medición de
espectro está entre los colores azul y rojo aproximadamente donde los colores que se reflejan allí van desde
el amarillo, naranja, rojo al violeta, por eso en términos de espectroscopia, lo que se busca es medir la
intensidad de color con respecto a una longitud de onda comparando sobre otra superficie que contenga un
mismo rango absorbente.
Página 55 de 98
Ilustración 32. Absorbancia de caja de Petri en conjunto con luz led de sensor AS7341, medición entre
colores violeta al rojo, longitudes de onda de 425 a 608 nm.
Tal como se mencionó para la figura anterior, y en relación con la siguiente imagen, se puede observar
que cuando hay una incidencia de luz sobre un cuerpo traslúcido, esa luz se absorbe sobre la superficie con
la que se está midiendo, pues en este caso sobre la caja de Petri, donde se puede ver que tiene una mayor
cantidad de luz absorbida y esto a su vez indica que menos luz se transmite.
Ilustración 33. Medición de Absorbancia en la caja de Petri, para análisis de Espectro por medio de led
de sensor AS7341.
Página 56 de 98
Ilustración 34. Medición de Absorbancia en lámina de Acetato, para análisis de Espectro por medio de
led de sensor AS7341.
De la ilustración presente, se puede indicar que, en la lámina de Acetato, cuando se toma diferentes
mediciones, se puede ver que la medición de absorbancia varía y por ende hay una mayor transmisión de luz
y una menor absorbancia, la razón se da preciso porque la lámina es traslucida y no le deja pasar tanta luz, el
espectro mostrado allí presenta una mayor transmisión y una menor absorción.
Ilustración 35. Medición de Absorbancia en lámina de Acetato, para análisis de Espectro por medio de
led de sensor AS7341, evaluando espectros con longitud de onda de 428 a 700nm.
Página 57 de 98
Ilustración 36. Medición de Rango de Absorbancia para caja de Petri en longitudes de onda de 425 a
608nm.
Por medio del software de Thorlabs, se realiza un zoom a la imagen para poder ver el espectro de más
cerca, pues de por si la caja de Petri, es sometida a un espacio donde al ser transparente, muestra que hay
mayor incidencia de luz, por lo que hay una mayor transmisión de luz.
Página 58 de 98
Ilustración 38.Interfaz Gráfica de Usuario
La interfaz de usuario (GUI), se debe Especificar la identificación de la muestra, el número de
mediciones, pues en este caso solo costa de dos botones para dar ejecución, en el primero se almacenan todos
esos datos y con el segundo que se encuentra definido previamente(empezar medición), se ejecuta de forma
serial la transmisión de datos del sensor, por lo cual se van guardando esos datos en una extensión predefinida,
y allí el archivo con la extensión que es de tipo CSV queda cargado en la hoja de ruta del sistema.
4.3 Empaque
Para poder realizar una medición más dinámica, como primera actividad se realiza un diseño 3D,
mostrando como es el empaque en dimensiones, con espacios para acomodar el módulo con que se toma las
mediciones, a su vez un espacio que se adecua para acomodar la Raspberry pi pico, por donde se va a llevar
a cabo la programación del sensor e incluso por donde se compilará el código donde se cargaran los datos
vía serial, también cuenta con un espacio donde se inserta una caja de Petri donde se depositará la muestra:
Página 59 de 98
Ilustración 40. Diseño con Caja de Petri, caja Protectora, carcasa con tapa, Caja de Raspberry pi Pico,
ensamblado.
A continuación, lo que se muestra acá es cada una de las diferentes piezas ensambladas, todas en conjunto,
la ranura de la Raspberry, sostenida con la ranura que se adecuó para la caja de Petri, el case protector, para
que todo quede sostenido y finalmente la carcasa que lo protege de diferentes aspectos.
Ilustración 41. Diseño de carcasa estructura interna, soporte par caja de Petri y muestra
Ilustración 44. Diseño Conjunto Separado, Ranura Caja de Petri, Case, Carcasa con Tapa y Caja de
Raspberry pi Pico
La siguiente imagen muestra cada una de las piezas diseñadas por aparte, de tal modo que se pueda
visualizar de tal modo, como van, en qué dirección se colocan, cada una de las piezas, pues de por sí, se
muestran por separado, para ilustrar el diseño y el orden en que cada una de estas piezas se colocan para
realizar las mediciones posteriores.
Página 61 de 98
4.4 Protocolo de Pruebas
Primero que todo se realiza un proceso de preprocesamiento de datos, de él depende la compilación de
todo lo referente incluso desde una buena limpieza de los datos, tarea fundamental para poder realizar
diferentes tipos de análisis y en la aplicación de los diferentes modelos de aprendizaje, en ello consiste
eliminar, corregir o cambiar algunas características que no permitan realizar dicho análisis, por lo que ello
cuenta con detectar las diferentes anomalías entre las filas y columnas, todo lo anterior se realiza por medio
de la librería de pandas, generando cada uno de los diferentes Dataframes, por lo que de esta forma se parte
de los datos que difieren significativamente de un promedio o rango observado del resto de datos, por lo que
se puede apreciar.
También se revisa la cantidad de datos nulos, los que no han introducido la información suficiente de
elementos de una variable, por ello parten de 2 cuestiones que no se estima bien la variable o por el contrario
algo que ocurrió externamente e inclusive genero impedimentos en la recolección de los datos, por ello la
razón no se pudieron establecer, por lo que de esta forma se puede generar una extrapolación para una
transformación por lo que para ello retomando en el caso de los modelos a aplicar, se eliminan o transforman
esos datos erróneos que no ayudan a que la información tenga un sentido, posteriormente se realiza la
detección de datos nulos, por filas y columnas por medio del comando isnull, posteriormente para esa
limpieza de datos se usa el comando dropna(), para eliminar las filas con datos nulos, y también para eliminar
ciertas columnas que no se usan, la limpieza con dropna(), parte de detectar los datos vacíos, y posteriormente
con describe() para establecer las estadísticas de cada uno de los datos, todo lo anterior también se hace con
ayuda de un diccionario, que permita eliminar cada dato que cuenta con vacíos, posteriormente se genera
cada archivo csv delimitado, donde por ende se establece cada una de las variables dimensionales(x,y) para
generar los procesos de entrenamiento y validación, de ahí cuando se defina lo anterior se realiza la
implementación de modelo si se trata de una red neuronal, una regresión lineal múltiple o un Soporte Vector
de Regresión, donde se establezca no solo el modelo, sino la precisión que brinda cada uno de ellos con un
modelo de regularización que para la implementación y operación se usa la regularización Ridge, finalmente
se realizan las diferentes graficas informativas de cada uno de los modelos para establecer el comportamiento
de la validación, de los valores predichos, entre otras.
Todo lo experimental y relacionado con la medición, parte de trabajar con un monto de muestras que son
brindadas por Agrosavia, de igual forma se cuenta con diferentes procedimientos para análisis, en primera
instancia después de recibir esas muestras se debe abrir el espacio donde está la ranura donde se colocará la
caja de Petri y se pone un poco de la muestra, por lo que posteriormente, cuando se realice eso se guarda la
muestra sobre el empaque, posteriormente se introduce la información de la Interfaz gráfica, los LED del
sensor así como el número de datos tomados para cada muestra, pues en sí cada proceso se realiza por
separado uno a uno, para cada muestra de suelo, se evalúan cada uno de los resultados obtenidos así como
también se unen posteriormente en una base de datos donde se observara la información espectral con todas
las características y etiquetas de propiedades a analizar, posteriormente se realiza una evaluación pertinente
con cada uno de los modelos pertinentes de regresión, con sus debidos parámetros, como preprocesamiento,
entrenamiento de datos, entre otros.
Con lo anterior, finalmente se toma cada uno de los resultados con los análisis realizados, partiendo de
comparar y evaluar cual es el modelo más acertado, adecuado y pertinente para la predicción de las variables,
de allí se toma un marco de referencia para sintonizar los datos dentro de la Interfaz de usuario y está, por
tanto, muestre los valores de la predicción en tiempo real, sincronizando cada uno de los datos tomados con
lo que se suministra vía serial.
Página 62 de 98
Capítulo 5
Operación y Resultados
Tendencia Muestra 1
F1
F2
40
30 F4
20 F3
10
0 F5
-10 0 10 20 30 40 50 60
-20 F6
-30 F7
-40
-50 F8
-60
Página 63 de 98
La figura 47 muestra la cuantización lineal del barrido espectral para la muestran. Esto permite analizar
la linealidad de las medidas obtenidas por el sensor y la posibilidad de que esa muestra se comporte de manera
normal o con tendencia gaussiana.
Lo anterior facilita el análisis descriptivo para establecer el comportamiento por medio de un histograma
y la distribución del espectro en la muestra, ya sea PDF o cdf, esto para establecer la probabilidad de
establecer variables aleatorias con un cierto valor o valores de pesos de llenado o la probabilidad acumulada
sobre un valor especifico, en este caso para cada una de las bandas.
Finalmente se realiza un análisis de tendencia restando el dato obtenido en cada una de las bandas entre
la media, esto se hace para identificar discrepancias en la huella espectral de la muestra.
Página 64 de 98
Muestra 2
Página 65 de 98
Las figuras 49 a 51 al igual que para la muestra 1, se encargan de detallar el análisis descriptivo del
espectro obtenido así:
Como observación fundamental se parte de lo siguiente: que el espectro obtenido y graficado en la figura
49, demuestra una tendencia normal o gaussiana con una desviación atípica en la banda de 445 nm,
caracterizada por el mayor pico que presenta el espectro de los leds que influyen directamente en la
absorbancia de la luz emitida y reflejada en el material.
Página 66 de 98
Ilustración 53. Gráfica de Maquina Soporte Vectorial de tipo Cúbico
Cada una de las gráficas representan un estándar de datos que varía según el análisis y modelo a analizar,
en este caso, el análisis sea toma con un SVM de tipo Cúbico para una sesión de test, sirve para entender la
desviación estándar de la varianza inexplicada, y entender cada una de las propiedades partiendo de una
respuesta indicando cada uno de los valores bajos, mostrando un mejor ajuste.
Ilustración 54. Gráfica de Proceso de Regresión Gaussiana, ajuste de funciones, Kernel y desviación
estándar
Acá varía un poco debido a que lo que se busca es evaluar los Hiperpárametros de optimización para un
proceso Gaussiano, donde en primera instancia los procesos Gaussianos de por si parten de una distribución
de probabilidad sobre funciones aleatorias, partiendo de colecciones infinitas de funciones sobre un
subconjunto de variables aleatorias finitas, en este caso parte de un método genérico de aprendizaje
supervisado para resolver problemas de regresión y clasificación, en este caso la predicción interpola cada
una de las observaciones, la predicción probabilística de por si es Gaussiana que puede calcular diferentes
intervalos para establecer los datos que tan confiables son, así como también en base a ellos realizar los
ajustes pertinentes, de por si tiene un cálculo computacional alto, pero de igual forma, es uno de los
procedimientos que en su gran mayoría dan buenos resultados. [36][37]
Página 67 de 98
Ilustración 55. Configuración de SVM tipo Cúbico, con errores graficados.
Para este caso se analiza gráficamente cada uno de los datos predichos, verdaderos y de error, donde se
configura cada uno de los hiperpárametros, se resumen con unas constantes y configuraciones según el
modelo, partiendo en primera instancia de una suavización del contorno y partiendo a su vez la función
Kernel que se implementa en el sistema.
Ilustración 56. Grafica de Datos Verdaderos contra predichos para SVM Cúbico
Página 70 de 98
Ilustración 62.Datos para Gráfica de SVR
La siguiente gráfica que se está mostrando a continuación indica claramente cada uno de los datos
obtenidos para el PH, pues para el caso presente se obtiene un resultado de precisión de 0.69, por lo que al
encontrarse en un rango de 0.5 a 0.75 se encuentra en un rango aceptable, de por si este rango indica que, si
hay un sesgo, pero es bajo.
Página 71 de 98
Ilustración 64.Grafica de SVR Test
La gráfica de por indica que cada uno de los puntos obtenidos forman parte del resultado del testeo, pues
esta grafica refleja cada uno de los puntos obtenidos para cada uno de las muestras, presenta sesgo entre cada
uno de los datos, pero igualmente estos datos obtenidos Validación son los que se encargan de indicar la
relación de precisión de 0.53.
Página 72 de 98
Ilustración 66. Datos obtenidos por Regression Learner con precisión de 0.64.
En primera instancia lo que se hace es tomar cada uno de los datos, y se ponen en una tabla en Matlab,
de ahí se importan esos datos del Conjunto de datos a Regression Learner, de ahí posteriormente lo que se
hace es escoger cada uno de los modelos con cada uno de los hiperpárametros y se procede a evaluar cada
uno de los datos, por lo que posteriormente se escoge SVM y el software toma cada uno de los Datos
pertinentes de coeficiente de correlación, de ROOT MEAN SQUARE ERROR(RMSE), entre otros para evaluar
el modelo sea por train o test, dependiendo del análisis que se vaya a realizar e incluyendo a su vez el modelo
con el que se va a realizar.
Ilustración 67. Grafica obtenida por Regression Learner con precisión de 0.64.
Cada uno de los datos obtenidos son cada uno de los puntos del SVR por medio de Regression Learner
software de Matlab donde allí se procede a mostrar como los puntos reflejan un buen coeficiente de
correlación, dado que se toma con respecto al número de mediciones y bandas, para el caso presente pudo
darse un resultado mejor, debido a que se presentó un sesgo entre cada uno de los diferentes datos, pero dado
lo anterior, se indica claramente que se encuentra en el rango de medición de 0.5 a 0.75 donde la medición
Página 73 de 98
del coeficiente de correlación y precisión del modelo indican que se obtiene 0.64 un resultado ampliamente
bueno.
Página 74 de 98
Ilustración 70. Datos para Gráfica de SVR con resultado de 0.82
La siguiente gráfica que se está mostrando a continuación indica claramente cada uno de los datos
obtenidos para el PH, pues para el caso presente se obtiene un resultado de precisión de 0.82, por lo que al
encontrarse en un rango mayor a 0.75 se encuentra en un rango excelente y óptimo para el modelo con de
Regresión a evaluar, de por si este rango indica que el sesgo presente es muy mínimo, y presenta una mejor
estabilidad sobre el modelo, por lo cual es una de las medidas con mejor resultado de precisión.
Página 75 de 98
Ilustración 72. Grafica de SVR Test de 0.82
Partiendo de cada una de las mediciones implementadas en Python se puede ver que al tener estas gráficas
de predicha vs esperada, se puede ver un mejor resultado y por ende la figura que se está mostrando junto
con la siguiente que es la que indica cada uno de los parámetros a implementar sobre código en software, se
puede ver la precisión con la que se comporta el modelo y sobre todo que los datos obtenidos parten de tener
un K-fold de 5, para una excelente validación por medio de Validación Cruzada.
Página 76 de 98
5.2 Análisis de Resultados Por Análisis de
Componentes Principales (PCA)
Ilustración 74. Análisis por PCA para Cantidad de componentes con 99% de varianza explicada.
La gráfica de análisis por PCA parte en primera instancia de definir uno de los componentes sobre el cual
se va realizar el establecimiento de características y etiquetas, para eje x, se toma como referencia cada uno
de los componentes que en este caso son las bandas, con los cálculos de la primer y segunda derivada, en las
cuales se obtienen 24 componentes, y para el eje Y lo que se define es la etiqueta de pH, de ahí se parte de
escalizar cada uno de los datos con un entrenamiento, posteriormente se establece que el análisis se realiza
con el 99% de la varianza explicada donde se establece como parámetro óptimo para realizar la reducción
dimensional, con lo que posteriormente el procedimiento a realizar consiste en establecer un entrenamiento
con los datos escalizados y de ahí definir un proceso donde se realiza la transformación, de ahí se toma como
base fundamental cada uno de los parámetros por donde se va a realizar el plot de la gráfica tomando cada
uno de los datos del radio de varianza explicada, en este caso se define un cut-off o región donde se realiza
el corte de la varianza.
Radio de Varianza Explicado para Análisis de Componentes Principales
Bandas Espectrales sensor
0 1 2 3 4 5 6 7 8
0 0.849096 0.103681 0.035542 0.0057540 0.0031627 0.0017015 0.0005431 0.0003507 0.0001674
6
Tabla 7. Bandas Espectrales para Sensor AS7341
Primera Derivada
9 10 11 12 13 14 15 16
5,93E-05 4,27E-05 3,72E-05 2,56E-04 2,41E-04 1,41E-05 1,14E-04 9,95E-06
Tabla 8. Primer Derivada definida por Bandas
Segunda Derivada
17 18 19 20 21 22 23
7,99E-06 6,03E-06 5,87E-06 5,05E-05 3,82E-06 3,36E-05 2,72E-07
Tabla 9. Datos de Segunda Derivada por Bandas
Página 77 de 98
Las tablas de las mediciones implementadas en Python, son resultado de un vector de varianza explicada
por cada dimensión, esto se da gracias al parámetro (pca.explained_variance_ratio_), de por si al ejecutar
este comando da una matriz donde cada uno de los componentes, y uno de ellos se encarga de explicar la
varianza total del sistema a analizar.
Tabla 10. Tabla de Métricas de Regresión con Validación cruzada, analizando por PCA y sin PCA
Página 79 de 98
pH
Ilustración 80. Métricas de Coeficientes de Correlación para Validación sin PCA para pH.
La mejor relación métrica que se puede obtener al realizar el proceso por validación cruzada sin aplicar
reducción dimensional parte de una regresión por procesos Gaussianos de ahí se obtiene un puntaje de
precisión para un coeficiente de correlación de 0,01.
Página 80 de 98
Ilustración 81. Resultados de Procesos Gaussianos por PCA
La regresión por Procesos Gaussianos por medio del análisis de PCA, toma como resultado reduciendo
las dimensiones un coeficiente de correlación de 1.0 para todo lo relacionado con Test, esto se hace por medio
de un proceso Matern 5/2 GPR y un Kernel isotrópico.
Calcio
Página 81 de 98
Ilustración 823. Resultado de Regresión Lineal por PCA
La Regresión lineal se implementa por medio de reducción de dimensiones obteniendo un resultado de
coeficiente de correlación de 0.52 para test y validación de 0.31, tomando como referencia que solo se reduce
a las dimensiones en las que se encuentra cada una de las bandas del sensor.
Potasio
Página 82 de 98
Ilustración 84. Modelos de regresión aplicando Reducción de Dimensionalidad (PCA)
La gráfica presente indica los resultados con el mejor coeficiente de correlación para test, donde el
resultado obtenido es con 0.51, validación de 0.22, teniendo que al aplicar Reducción de Dimensiones o PCA
que el modelo más óptimo para análisis de modelos es el modelo obtenido por SVM.
Ilustración 85. Pruebas sin PCA para modelos de Regresión para el Potasio.
La gráfica presente indica los resultados con el mejor coeficiente de correlación para test, donde el
resultado obtenido es con 0.57, validación de 0.44, sin aplicar la reducción de dimensiones se tiene que el
modelo más óptimo para análisis de modelos es el modelo obtenido por SVM, más específicos el modelo
cuadrático.
Página 83 de 98
Ilustración 86. Prueba de Modelos de Regresión sin PCA para Materia Orgánica
La gráfica presente indica los resultados con el mejor coeficiente de correlación para Validación, donde
el resultado obtenido es con -0.02, sin aplicar la reducción de dimensiones se tiene que el modelo óptimo
para análisis de modelos es el modelo obtenido por GPR, más específicos el modelo exponencial.
Página 84 de 98
Ilustración 88. Obtención de modelos aplicando PCA para Test.
La gráfica presente indica los resultados con el mejor coeficiente de correlación para Test, donde el
resultado obtenido es con 0.13, aplicando la reducción de dimensiones se tiene que el modelo más óptimo
para análisis de modelos es el modelo obtenido por árboles” tree”, más específicos el modelo ” coarse tree”.
Además de contar con un resultado en validación de 0.07.
Ilustración 89. Obtención de modelos sin PCA para Validación para Potasio
La gráfica presente indica los resultados con el mejor coeficiente de correlación para validación, donde
el resultado obtenido es de 0.26, sin aplicar la reducción de dimensiones se tiene que el modelo más óptimo
para análisis de modelos es el modelo obtenido por redes neuronales.
Página 85 de 98
Ilustración 90. Obtención de modelos sin PCA para Test.
La gráfica presente indica los resultados con el mejor coeficiente de correlación para Test, donde el
resultado obtenido es de -1.78, sin aplicar la reducción de dimensiones se tiene que el modelo más óptimo
para análisis de modelos es el modelo obtenido por redes neuronales.
Página 86 de 98
Ilustración 92. Obtención de modelos con PCA para Test.
La gráfica presente indica los resultados con el mejor coeficiente de correlación para Test, donde el
resultado obtenido es de -1.21, aplicando la reducción de dimensiones se tiene que el modelo más óptimo
para análisis de modelos es el modelo obtenido por redes neuronales, específicamente las redes neuronales
medias.
Todo lo anterior explicado de las previas 4 ilustraciones, se explica por medio de la siguiente tabla:
Tabla 12. Métricas de Regresión usando Matlab de los diferentes modelos para Materia Orgánica y pH
La tabla 12 muestra los resultados obtenidos por medio de Regression Learner en Matlab, indica cada
uno de los diferentes resultados obtenidos por cada uno de los modelos al evaluar las condiciones de
validación y test, al aplicar y no aplicar la reducción dimensionalidad, allí se pueden evidenciar cada uno de
los resultados, y sobre todo la comparación entre cual modelo es el óptimo.
Página 87 de 98
Debido al bajo rendimiento usando los modelos de aprendizaje supervisado para regresión, se decide
realizar un análisis no supervisado de los datos, con el objetivo de determinar si existen subgrupos
homogéneos dentro de los mismos, donde estos a su vez, permitan decidir sobre la posterior clasificación de
las muestras. De esta forma, se implementa el método de K- medias usando la librería Sklearn, para
determinar el mejor número de grupos, k, y verificar de manera visual la posibilidad de encontrar grupos de
datos, se hace uso del método de silueta obteniendo:
Ilustración 93. Determinación del mejor número de grupos (k) usando coeficiente de silueta
Se observan dos grupos definidos, el cual permite concluir, analizar y determinar la viabilidad de usar
métodos de clasificación para predecir en rangos o clases las variables de pH y Materia Orgánica,
principalmente; añadiendo también la estimación de las bases intercambiables correlacionadas con el rango
espectral (Vis) a analizar, Potasio (K), Calcio (Ca) y Magnesio (Mg).
Página 88 de 98
5.4 Resultados de Clasificación usando
Classification Learner
Se definen los siguientes rangos para cada clase, correspondiente a intervalos en las propiedades objetivo
de fertilidad en el análisis de suelo:
Propiedad Rango
pH Corrección por
acidez <6
Ninguna Corrección
>6-7.3
Corrección por
alcalinidad
OM Bajo < 1.5 %
Medio 3-5 %
Alto > 5 %
K Bajo < 0.2 cmol/kg
Medio 0.2-0.4
cmol/kg
Alto > 0.4 cmol/kg
Ca Bajo < 3 cmol/kg
Medio 3-5 cmol/kg
Alto > 5 cmol/kg
Mg Bajo < 1.5 cmol/kg
Medio 3-5 cmol/kg
Alto > 5 cmol/kg
Tabla 13. Tabla de propiedades y Rangos
Una vez se realiza la clasificación usando validación cruzada de 4 pliegues, con cada uno de los casos
para las muestras de Agrosavia, se obtienen las métricas y modelos de aprendizaje de máquina con los
mejores resultados y se consolidan de la siguiente manera:
Modelo/Métricas Exactitud Precisión Recuperación F1 (%) PCA 0.99
(%) (%) (%)
KNN 82.1 84.2 93.7 88.7 Si 2/24
Características
Ensemble 78.6 78 100 87.5 Si 2/24
Características
SVM 77.4 77 98.4 86.7 No
Regresión 76.2 83 85.7 84.4 No
Logistica
Las métricas presentadas en la Tabla 15 corresponden al resultado de las predicciones para pH, usando
las técnicas de clasificación presentadas en la misma tabla, se detalla el porcentaje que representa el total de
valores correctamente clasificados, tanto positivos como negativos. Para devolver una medida de calidad más
Página 89 de 98
general del modelo, se utiliza el valor de F1 métricas, siendo esta una de las métricas que se ajusta a indicar
cuál es la mejor técnica para estimar la variable especifica. Para este caso se determina con base en las
métricas obtenidas tras realizar la estimación de pH, que el mejor predictor es KNN o conocido también
como K vecinos más cercanos con una métrica de rendimiento mayor al 87% para clasificar las muestras
basadas en las clases o rangos que se han definido anteriormente en la Tabla 14.
Para realizar la validación del modelo en entrenamiento se usó la técnica de validación cruzada. Después
de entrenar los modelos, se realiza una evaluación del usando los espectros adquiridos a partir de 30 muestras
proporcionadas por el proyecto GAT [53] de la Pontificia Universidad Javeriana obteniendo:
Cabe resaltar que las 30 observaciones no se encontraban sobre el conjunto de datos, dado que se
entrenaron cada uno de los modelos, por ello, se evidencia un alto rendimiento mayor al 82% para el modelo
escogido, que es KNN, como el predictor de la variable pH. Para materia orgánica se obtiene:
La clasificación realizada para las variables Potasio, Calcio y Magnesio presentadas en las Tablas 19,20
y 21 se basan en la correlación de las bandas espectrales en el rango visible presentadas en [1]. Bajo
validación cruzada usando 4 pliegues se establece una calidad aceptable en estas variables superior a: 54,8%
para Potasio (K), 56% para Calcio (Ca) y 56,2% para Magnesio (Mg).
Página 91 de 98
5.5 Análisis de Resultados
5.5.1 Regresión
La predicción por técnicas de Regresión no funciono adecuadamente generando nuevas hipótesis en la
que se plantea: la influencia directa de luz fría de los leds en el sistema de adquisición hardware sensor-fuente
lumínica, puesto que contiene mayores pico de intensidad en 2 bandas específicas del sensor, la primera es
sobre el color índigo, y en algunas mediciones a parte de la banda de 445nm, también se da sobre las bandas
de color verde y amarillo, en ello no solamente se da por la luz e incluso por cuestiones de diseño, sino
también debido a que las muestras al estar almacenadas por largo tiempo, recolectan humedad y hacen que
la medición varíe de manera no controlada. Se alcanza a evidenciar incluso que en el espacio de adquisición
de los datos debido a que no todas las muestras tenían el mismo tiempo para realizar el proceso de adquisición,
y cada muestra variaba de acuerdo si el color de la muestra era más clara u obscura.
Por otro lado al analizar las métricas, como el coeficiente de correlación por medio del software de
Matlab, se puede ver claramente que se presenta un sesgo grande, que al evaluar cada una de las métricas de
validación y entrenamiento, dadas las muestras, la cantidad de datos adquiridos, y la evaluación frente a cada
una de las características, se puede ver que los modelos de regresión no fueron los más óptimos, ni los más
estables, e incluso cuando se intenta evaluar por el método de regresión por mínimos cuadrados parciales
(PLSR) buscando generar nuevos espacios que entre las variables predichas y las observaciones se
encuentran limitaciones en la densidad de los datos, es decir, debido a la dimensión de los datos de
reflectancia, pues como se presentó en la primera sección de resultados, el análisis y la estimación de las
propiedades con espectros de alta resolución, partiendo de las bandas consecutivas y la variedad espectral
contenida por el conjunto de datos brindado por Agrosavia, se ve que cuenta con un ancho de banda espectral
8.5nm, característica que al tomar en cuenta con respecto al sensor usado en la implementación del modelo,
no tiene la misma separación entre banda y banda provocando que se genere un sesgo entre cada uno de los
datos al no poseer información que permita al modelo generalizar de mejor manera.
A pesar del uso de la interpolación por característica o bien llamada interpolación polinómica de Hermite
como estrategia de aumento de datos y de que se consiguió mejorar la métrica en la predicción luego de
aplicarlo al modelo, no se alcanzaron resultados aceptables en la regresión, detalle que da paso para realizar
un análisis de los datos usando técnicas de agrupamiento y clasificación como alternativa de estimación
usando aprendizaje de máquina.
5.5.2 Clasificación
La aplicación de técnicas de clasificación para la predicción en rangos o clases de las variables predichas
está explicada por la Ilustración 95 y la Tabla 13 que presentan la evidencia de una clara separación de los
datos o agrupamiento usando la técnica del coeficiente de silueta, gracias a ello se observaron dos clases bien
definidas; precedente que permite generar en base a [1] los rangos para las variables a predecir (Tabla 13)
basados en la disponibilidad que muestran los nutrimentos esenciales en las muestras de suelo.
Página 92 de 98
Una vez se realiza la clasificación usando la aplicación de Matlab, Classification Learner, que nos
permitió evaluar los métodos disponibles y visualizar la matriz de confusión correspondiente, obtuvimos las
métricas que nos permitieron decidir en base a su rendimiento los mejores métodos de clasificación.
Alcanzando como es evidente en la sección precedente (5.4 Resultados de Clasificación usando
Classification Learner) resultados altamente aceptables y comparables con los alcanzados en [1] en especial
para la predicción de pH y materia orgánica que fueron evaluados también con muestras del proyecto GAT
[53] obteniendo buenos resultados en las métricas de rendimiento para la predicción mediante técnicas de
clasificación usando aprendizaje de máquina.
Lo anterior, brinda en perspectiva una alternativa en desarrollo que promete convertirse en una
herramienta complementaria al manejo agronómico cumpliendo los objetivos propuestos junto a las
limitaciones que se presentan en la concepción de este sistema-modelo, una luz frente al desarrollo de
soluciones en el país para mejorar la disponibilidad y optimizar factores como tiempo y accesibilidad para
los actores principales del sector, los agricultores.
Página 93 de 98
Capítulo 6
Conclusiones y Trabajos Futuros
Este estudio permitió encontrar mediante un experimento preliminar una alternativa al análisis de suelos
tradicional, buscando reducir el costo y aumentar la disponibilidad en el país de este tipo de soluciones costo-
efectiva, funcionando como una herramienta complementaria al manejo agronómico en campo.
Los resultados obtenidos sugieren diferentes grados de exactitud en la predicción de las propiedades de
importancia agronómica usando la técnica de espectroscopía VIS/NIR. Aplicando las técnicas de
clasificación los resultados pueden contrastarse con los obtenidos en [1]; con una precisión y rendimiento del
82% para estimar pH, 74% para Materia orgánica, 54.8 % para Potasio, 56% para Calcio y 56.2% para
Magnesio, logró demostrarse que el uso de diferentes métodos reportados en el capítulo 5, en especial los
basados en la densidad y distancia entre las observaciones, permiten la clasificación de las propiedades del
suelo dentro de un rango aceptable. Mientras que la predicción que usó los modelos de regresión no arrojó
buenos resultados, comparando las métricas basadas en el coeficiente de correlación R 2 se logró un valor de
0.17 que determina la no posibilidad de estimar las propiedades usando este sistema preliminar.
En total se analizaron las métricas donde los coeficientes de correlación para regresión no presentaron
los mejores resultados, tal es el caso de una red neuronal artificial, que después de definir las etiquetas y
características del sistema se evalúan las métricas de entrenamiento se tienen resultados de métricas de -
0.073, de coeficiente de correlación -0.37, ya con métricas de pérdida de 0.42 y regularización de 0.34, de
esta forma se puede ver que los resultados por regresión no son los más estables y se presenta demasiada
dispersión, evaluándolo por un modelo de regresión lineal basado en predictores usados y basados en
divisiones previas se puede observar que toma la forma de un árbol de decisión, pero este por ende arroja un
resultado de 0.23, resultando que no es muy óptimo para evaluar un sistema de regresión, al evaluar PLSR
con validación cruzada no da resultados óptimos debido a que la distribución de los datos no es uniforme, el
comportamiento de reflectancia no lineal indica que PLSR presenta limitaciones, tanto que en una alta fuente
de dimensión de datos, los datos de reflectancia son aquellos que poseen un espectro de alta resolución
partiendo de las bandas consecutivas de longitud de onda y una variedad espectral, por ende esa reflectancia
se aplica directamente a la relación entre transformadas de primer derivada y los datos espectrales.
Los resultados alcanzados pueden verse afectados por varios factores entre ellos: la acumulación de
humedad en las muestras de suelo, al no tener control sobre el almacenamiento de estas, la falta de calibración
estandarizada para el sensor generó un mayor porcentaje de varianza en la adquisición de las firmas
espectrales, así mismo, la limitación en rango y resolución de este último derivó en la consecución de errores
en el proceso de sensado.
El software y hardware diseñados, implementados y usados en este estudio preliminar permitieron tener
un sistema apto para la adquisición, preprocesamiento y análisis de datos espectrales. Partiendo de cada una
de las herramientas disponibles en el medio, se realizó la adaptación del ambiente de adquisición, usando una
caja de Petri de poliestireno se realizó la caracterización de la absorbancia del material y se decidió como la
mejor opción en referencia a las propiedades ópticas ofrecidas dentro de las limitaciones del sistema
implementado, que en comparación con el equipo usado en el artículo base [1] que usa el cuarzo como
material óptico para la adquisición, indica una limitante sobre el experimento dadas las condiciones de
Página 94 de 98
optimización de absorbancia espectral del material en el rango de trabajo del sensor, es decir, en el rango
visible VIS.
El análisis de datos y la predicción usando modelos de aprendizaje de máquina, fueron evaluados usando
validación cruzada de 4 pliegue debido a la cantidad de datos, y solo para pH y Materia Orgánica validados
con muestras de suelo del proyecto GAT [53] de la Universidad Javeriana, brindando así resultados
considerables para clasificación de estas propiedades.
Las diferentes limitaciones conducen al análisis de los errores causados por diversos factores convirtiendo
al sistema desarrollado en un estudio preliminar, que permitirá ser optimizado o considerado como alternativa
a las herramientas que se dispone dentro del desarrollo de la técnicas de análisis y medición rápidas y
eficientes que permitan realizar manejos agronómicos costo-efectivos en producción e influyentes en la
disminución del impacto negativo ambiental, sin que se sacrifique el rendimiento.
Realizar pruebas diseñando un experimento con el uso de una luz halógena y cálida ya que suministran
una banda de absorbancia de espectro más amplia, reduciendo de esa manera la saturación de las bandas
espectrales y proporcionando quizá una mejor medición sobre cada una de las muestras. Esta hipótesis surge
por la necesidad de reducir la ganancia de conversión análoga digital y disminuir el ruido que puede alterar
la distribución que se presenta al adquirir la huella espectral. Así podría aumentarse la posibilidad de obtener
mejores resultados en la estimación de las variables correlacionadas con el nivel de absorbancia en el espectro
visible.
Cabe aclarar que, aunque se logró realizar las estimaciones de las variables de suelo, y la evaluación de
calidad de predicciones por medio de las métricas de cada modelo como se presentó en la sección de
resultados y análisis es considerablemente aceptable, debe tenerse en cuenta características y requerimientos
más específicos del área, es decir, este tipo de estudios deben tomar en cuenta aspectos biológicos y químicos
de las muestras, como la afectación del tiempo de almacenamiento y no homogeneidad de las muestras.
Adicionalmente se recomienda realizar una calibración mucho óptima y precisa que la realizada en este
estudio preliminar, teniendo en cuenta las soluciones del mercado frente a este tipo de alternativas, así como
también revisar la posibilidad de mejora en la adquisición con el uso de un lente corrector de coseno que
permita reducir los errores de medición de manera efectiva.
Finalmente se recomienda continuar el desarrollo de la solución como Open Source para dar continuidad
a los objetivos y proyecciones de mejora de alternativas que aporten al país.
Página 95 de 98
Referencias Bibliográficas
[1] D. A. Delgadillo-Duran, C. A. Vargas-García, V. M. Varón-Ramírez, F. Calderón, A. C. Montenegro, and
P. H. Reyes-Herrera, “Using vis-NIRS and Machine Learning methods to diagnose sugarcane soil chemical
properties,” Dec. 2020, Accessed: Feb. 23, 2022. [Online]. Available: https://arxiv.org/abs/2012.12995v3
[2] L. Gedminas and S. Martin, “Soil Organic Matter Mapping Using Hyperspectral Imagery and Elevation
Data,” IEEE Aerospace Conference Proceedings, vol. 2019-March, Mar. 2019, doi:
10.1109/AERO.2019.8741728.
[3] F. A. Diaz-Gonzalez, J. Vuelvas, C. A. Correa, V. E. Vallejo, and D. Patino, “Machine learning and remote
sensing techniques applied to estimate soil indicators – Review,” Ecological Indicators, vol. 135, p.
108517, Feb. 2022, doi: 10.1016/J.ECOLIND.2021.108517.
[4] A. Ahmadi, M. Emami, A. Daccache, L. He, and F. Barbero, “Soil Properties Prediction for Precision
Agriculture Using Visible and Near-Infrared Spectroscopy: A Systematic Review and Meta-Analysis,”
2021, doi: 10.3390/agronomy11030433.
[5] S. Xu, M. Wang, X. Shi, Q. Yu, and Z. Zhang, “Integrating hyperspectral imaging with machine learning
techniques for the high-resolution mapping of soil nitrogen fractions in soil profiles,” Science of The Total
Environment, vol. 754, p. 142135, Feb. 2021, doi: 10.1016/J.SCITOTENV.2020.142135.
[6]. G. Pérez, "Espectro electromagnético", Espectrometria.com. [Online]. Available:
https://www.espectrometria.com/espectro_electromagntico. [Accessed: 02- Mar- 2022].
[7] F. José, "Reflexión y Refracción de Ondas", Fisicalab.com. [Online]. Available:
https://www.fisicalab.com/apartado/reflexion-refraccion-ondas#contenidos. [Accessed: 02- Mar- 2022].
[8] G. Mera Callejas, “Vista de Teoría de comunicaciones: La reflexión y refracción de ondas | XIKUA Boletín
Científico de la Escuela Superior de Tlahuelilpan,” XIKUA Boletín Científico De La Escuela Superior De
Tlahuelilpan, vol. 5, 2017.
[9]P. Tipler and G. Mosca, Física para la ciencia y la tecnología, 6th ed. Barcelona: Reverté, 2010.
[10]. "Reflexión y Refracción de la Luz", FisicaLab. [Online]. Available:
https://www.fisicalab.com/apartado/reflexion-refraccion-luz. [Accessed: 02- Mar- 2022].
[11]. "Reflexión y Refracción de Ondas", Fisicalab.com. [Online]. Available:
https://www.fisicalab.com/apartado/reflexion-refraccion-ondas#contenidos. [Accessed: 02- Mar- 2022].
[12]. "3. Refracción de la Luz. Prismas.", Files.sld.cu, 2011. [Online]. Available:
https://files.sld.cu/optometria/files/2011/09/refraccion-de-la-luz-prismas.pdf. [Accessed: 02- Mar- 2022].
[13]J. Luque Ordoñez, "Clasificación habitual del espectro electromagnético", prezi.com, 2021. [Online].
Available: https://prezi.com/p/5tkadsmb3wbq/clasificacion-habitual-del-espectro-electromagnetico/.
[Accessed: 02- Mar- 2022].
[14]. "¿Qué es un espectrofotómetro? | X-Rite", X-Rite. [Online]. Available: https://www.xrite.com/es/learning-
color-education/other-resources/what-is-a-spectrophotometer. [Accessed: 02- Mar- 2022].
[15]. "Espectrofotometría", HiSoUR Arte Cultura Historia. [Online]. Available:
https://www.hisour.com/es/spectrophotometry-27058/. [Accessed: 02- Mar- 2022].
[16]. M. González, "Transmitancia y absorbancia", quimica. laguia2000, 2022. [Online]. Available:
https://quimica.laguia2000.com/conceptos-basicos/transmitancia-y-absorbancia. [Accessed: 03- Mar-
2022].
[16] E. Carletti, “Comunicación - Bus I2C Descripción y funcionamiento,” Retrieved from http://robotsargentina.
com.ar/ComunicacionbusI2C.htm, pp. 1 − −5, 2008.
[17] Y. Y. Fang and X. J. Chen, “Design and simulation of UART serial communication module based on
VHDL,” 2011 3rd International Workshop on Intelligent Systems and Applications, ISA 2011 -
Proceedings, vol. 1, 2011.
[18] ICONTEC (2006). NORMA TÉCNICA COLOMBIANANTC 5403. Available:
https://1library.co/document/zwr609vy-ntc-determinacion-de-materia-organica.html
Página 96 de 98
[19] "Refracción", Recursos educativos para Infantil y Primaria. [Online]. Available:
https://www3.gobiernodecanarias.org/medusa/ecoescuela/recursoseducativos/2011/01/18/reflexion/#:~:text
=La%20refracci%C3%B3n%20es%20el%20cambio,tienen%20%C3%ADndices%20de%20refracci%C3%
B3n%20distintos. [Accessed: 03- Mar- 2022].
[20] Agrosavia, “Composición nutricional de forrajes NIR.” https://www.agrosavia.co/productos-
yservicios/oferta-tecnológica/457-composición-nutricional-de-forrajes. Visitado: 2021-02-11.
[21]. Ibm.com. 2022. Machine Learning. [online] Available at: <https://www.ibm.com/co-es/analytics/machine-
learning> [Accessed 4 September 2022].
[22]. TIBCO Software. 2022. ¿Qué es el aprendizaje supervisado?. [online] Available at:
<https://www.tibco.com/es/reference-center/what-is-supervised-
learning#:~:text=El%20aprendizaje%20supervisado%20es%20una,de%20manera%20expl%C3%ADcita%
20d%C3%B3nde%20buscar.> [Accessed 4 September 2022].
[23]. Agenciab12.com. 2022. Qué son regresión y clasificación en Machine Learning. [online] Available at:
<https://agenciab12.com/noticia/que-son-regresion-clasificacion-machine-
learning#:~:text=El%20an%C3%A1lisis%20de%20regresi%C3%B3n%20es,com%C3%BAn%20es%20la
%20regresi%C3%B3n%20lineal.> [Accessed 4 September 2022].
[24]. "Coefficient of Determination", Corporate Finance Institute. [Online]. Available:
https://corporatefinanceinstitute.com/resources/knowledge/other/coefficient-of-determination/. [Accessed:
07- Mar- 2022].
[25]. Coeficiente de determinación ¿Qué es?", Sdelsol.com. [Online]. Available:
https://www.sdelsol.com/glosario/coeficiente-de-determinacion/. [Accessed: 07- Mar- 2022].
[26]. Pro.arcgis.com. n.d. Cómo funciona Reducción de dimensión—ArcGIS Pro | Documentación. [online]
Available at: <https://pro.arcgis.com/es/pro-app/latest/tool-reference/spatial-statistics/how-dimension-
reduction-works.htm> [Accessed 4 September 2022].
[27]. Ibm.com. 2022. IBM Documentation. [online] Available at: <https://www.ibm.com/docs/es/cognos-
analytics/11.1.0?topic=tests-multiple-linear-regression> [Accessed 4 September 2022].
[28]. Avila Camacho, J., 2020. JacobSoft. [online] JacobSoft.com.mx. Available at:
<https://www.jacobsoft.com.mx/es_mx/support-vector-
regression/#:~:text=Regresi%C3%B3n%20de%20Soporte%20Vectorial%20(Support,de%20regresi%C3%
B3n%20para%20predecir%20valores.> [Accessed 4 September 2022].
[29]. Calvo, D., 2018. Perceptrón Multicapa – Red Neuronal. [online] Diegocalvo.es. Available at:
<https://www.diegocalvo.es/perceptron-multicapa/> [Accessed 4 September 2022].
[30]. Ams.com. n.d. 11-Channel Multi-Spectral Digital Sensor. [online] Available at:
<https://ams.com/documents/20143/36005/AS7341_DS000504_3-00.pdf/> [Accessed 4 September 2022].
[31]. Electronilab. n.d. AS7341 – Sensor de Luz / Color de 10 canales - Electronilab. [online] Available at:
<https://electronilab.co/tienda/as7341-sensor-de-luz-color-de-10-
canales/#:~:text=El%20sensor%20de%20luz%20%2F%20color,de%20diferentes%20longitudes%20de%20
onda.> [Accessed 4 September 2022].
[32]. Fernandez, R., n.d. Procesos Gaussianos - ▷ Cursos de Programación de 0 a Experto © Garantizados.
[online] ▷ Cursos de Programación de 0 a Experto © Garantizados. Available at:
<https://unipython.com/procesos-
gaussianos/#:~:text=Gaussian%20Processes%20(GP)%20es%20un,menos%20para%20los%20n%C3%BA
cleos%20regulares).> [Accessed 4 September 2022].
[33]. J. Heras, "Regularización Lasso L1, Ridge L2 y ElasticNet - IArtificial.net", IArtificial.net, 2020. [Online].
Available: https://www.iartificial.net/regularizacion-lasso-l1-ridge-l2-y-
elasticnet/#:~:text=Regularizaci%C3%B3n%20Ridge%20(L2)&text=Ridge%20hace%20que%20los%20co
eficientes,de%20los%20atributos%20son%20relevantes. [Accessed: 18- Sep- 2022].
[34]. "Interpolación de splines cúbicos – Acervo Lima", Es.acervolima.com. [Online]. Available:
https://es.acervolima.com/interpolacion-de-splines-cubicos/. [Accessed: 18- Sep- 2022].
Página 97 de 98
[35]. M. Rottinger, "B. The Akima Interpolation", Iue.tuwien.ac.at, 1999. [Online]. Available:
https://www.iue.tuwien.ac.at/phd/rottinger/node60.html. [Accessed: 18- Sep- 2022]
[36]. R. Fernandez, “Procesos Gaussianos,” ▷ Cursos de Programación de 0 a Experto © Garantizados, 04-Jan-
2021. [Online]. Available: https://unipython.com/procesos-
gaussianos/#:~:text=Gaussian%20Processes%20(GP)%20es%20un,menos%20para%20los%20n%C3%BA
cleos%20regulares). [Accessed: 17-Oct-2022].
[37]. Morales, E. (no date) Introduccion´ distribucion´ Gaussiana Procesos ... - inaoep.mx, inaoep.mx. Eduardo
Morales. Available at:
https://ccc.inaoep.mx/~emorales/Cursos/Aprendizaje2/Acetatos/gaussianprocesses.pdf (Accessed: October
17, 2022).
[38]. El algoritmo k-nn y su importancia en el Modelado de Datos: Blog (no date) Merkle. Merkle . Available at:
https://www.merkle.com/es/es/blog/algoritmo-knn-modelado-datos (Accessed: November 4, 2022).
[39]. Calderón Bocanegra, F., 2020. [Francisco Carlos Calderon] KNN. [Online]. Available at:
https://www.youtube.com/watch?v=HHsA2ZqIa2M&list=PLCD1yxZtin-
SpgMAEFHhomTz5KAmjAwX3&index=24. [Accessed: 04- NOV- 2022].
[40]. N. D, ¿Qué es ensemble learning?, 27-Oct-2020. [Online]. Available:
https://otech.uaeh.edu.mx/noti/index.php/ia/ai-101que-es-ensemble-learning/. [Accessed: 04-Nov-2022].
[41]. Calderón Bocanegra, F., 2020. [Francisco Carlos Calderon] Matriz de Confusión y ROC Parte 1, Caso
Binario. [Online]. Available at: https://www.youtube.com/watch?v=85eooNbVtVw&list=PLCD1yxZtin-
SpgMAEFHhomTz5KAmjAwX3&index=25. [Accessed: 04- NOV- 2022].
[42]. Regresión Logística, 13-Sep-2022. [Online]. Available: https://www.ibm.com/docs/es/spss-
statistics/saas?topic=regression-logistic. [Accessed: 04-Nov-2022].
[43]. J. A. Rodrigo, Análisis Discriminante lineal (LDA) y análisis discriminante cuadrático (QDA), Sep-2016.
[Online]. Available:
https://www.cienciadedatos.net/documentos/28_linear_discriminant_analysis_lda_y_quadratic_discriminan
t_analysis_qda. [Accessed: 04-Nov-2022].
[44]. “Árboles de Clasificación y de Regresión,” XLSTAT, Your data analysis solution. [Online]. Available:
https://www.xlstat.com/es/soluciones/funciones/arboles-de-clasificacion-y-de-
regresion#:~:text=Los%20%C3%A1rboles%20de%20clasificaci%C3%B3n%20y,las%20reglas%20de%20l
enguaje%20natural. [Accessed: 04-Nov-2022].
[45]. J. A. Rodrigo, “Optimización bayesiana de hiperparámetros,” Optimización Bayesiana de hiperparámetros,
Apr-2020. [Online]. Available:
https://www.cienciadedatos.net/documentos/62_optimizacion_bayesiana_hiperparametros.html. [Accessed:
04-Nov-2022].
[46] Lenguaje de Programación Python V3.10.6 PythonSoftwareFoundation2022.
[47] © 1994-2022 The MathWorks, Inc. MATLAB, Regression and Classification Learner 2021B´
[48] CircuitPython project-CircuitPython Libraries
[49] AnacondaIDE-Spyder©2022
[50] Scikit-learn: Machine Learning in Python
[51] ©2022NumPyproject
[52] ©2022Pandas via Num FOCUS,Inc.Hosted by OVHcloud
[53] Programa GAT. Proyecto de la facultad de Ciencias – Pontificia Universidad Javeriana url:
https://www.javeriana.edu.co/colombia-cientifica
Página 98 de 98