Documentos de Académico
Documentos de Profesional
Documentos de Cultura
1.- El archivo ‘Parameters in corn’ contiene datos de 80 muestras de maíz analizadas por
espectroscopía NIR. El rango de longitudes de onda utilizados es de 1100 hasta 2498 nm, con
intervalos de 2 nm (700 canales). Se analizaron por métodos de vía húmeda la humedad, las grasas
totales, proteínas y el almidón. Los datos fueron aleatoriamente divididos en 50 muestras de
calibración y 30 muestras
a) Evalúe si los espectros NIR pueden ser usados para proporcionar una metodología analítica con
un método de reducción de variables para poder determinar Humedad en maíz.
Para evaluar si los espectros pueden proporcionar una metodología para determinar Humedad con
un método de reducción de variables se analizó la data ‘Parameters in corn’ con el método PLC y
PCR debido al gran numero longitudes de onda (700 variables); la matriz fue centrada a la media y
preliminarmente se evaluó sin transformaciones. Se compararon sus parámetros SEV, rVal, SEC y
rCal (tabla 1 y 2) para determinar cuál de los modelos presentaba un menor error.
Tabla n°1: Errores de calibración y validación para modelo PLS sin transformaciones con cinco
variables latentes.
PLS-Sin transformación
PC %Varianza SEV rVal SEC rCal
1 98.879.883 0.295241 0.661722 0.291693 0.687483
2 0.841694 0.254370 0.763851 0.245681 0.796040
3 0.140591 0.187133 0.879909 0.170152 0.909962
4 0.046678 0.081840 0.978445 0.066048 0.987244
5 0.020654 0.043003 0.994021 0.035742 0.996364
Tabla n°2: Errores de calibración y validación para modelo PCR sin transformaciones con cuatro
variables latentes.
PCR-Sin transformación
PC %Varianza SEV rVal SEC rCal
1 99.095.154 0.295708 0.660364 0.292261 0.685984
2 0.711115 0.266672 0.736199 0.258073 0.771877
3 0.085412 0.238731 0.795592 0.228571 0.830464
4 0.043008 0.250275 0.773706 0.230665 0.831162
A
De acuerdo a los gráficos de la figura 1 se puede observar que en ambos casos existe una buena
correlación entre el Y medido y el Y predicho, sin embargo, de la tabla 1 y 2 podemos deducir que
existe un menor error de calibración y validación en el modelo de PLS comparado con PCR. De ambas
tablas y figura podemos concluir que los espectros NIR de la data entregada son adecuados para
proporcionar una metodología para de determinación de humedad en maíz.
b) Informe y discuta los parámetros estadísticos y los parámetros de calidad analítica de los
modelos que ha desarrollado.
Como anteriormente se determinó que de acuerdo a los parámetros SEV y SEC el mejor modelo
para la data entregada es el PLS, posteriormente se evaluó el modelo con distintas transformaciones
(MSC y SNV) y los resultados son los que se exponen a continuación:
Tabla 3: Errores de calibración y validación para modelo PLS-MSC con cinco variables latentes.
PLS-MSC
PC %Varianza SEV rVal SEC rCal
1 66.839.874 0.347312 0.474108 0.339962 0.532590
2 21.374.527 0.271095 0.725843 0.255888 0.776278
3 3.614.420 0.212385 0.842090 0.183610 0.894288
4 2.132.935 0.181229 0.888247 0.150395 0.931970
5 1.501.080 0.153529 0.921545 0.125323 0.954340
Tabla n°4: Errores de calibración y validación para modelo PLS-SNV con cinco componentes
principales.
PLS-SNV
PC %Varianza SEV rVal SEC rCal
1 66.833.076 0.347310 0.474117 0.339960 0.532600
2 21.375.612 0.271100 0.725832 0.255890 0.776275
3 3.615.154 0.212394 0.842075 0.183612 0.894286
4 2.133.240 0.181237 0.888236 0.150395 0.931970
5 1.501.299 0.153529 0.921544 0.125314 0.954346
C D E
Figura 2: Gráficos EJCR (exactitud y precisión) para PLS sin transformación (A), PLS-MSC (B) y PLS-
SNV.
Como podemos ver en los gráficos de Elipse (fig.2) el modelo que presenta mejor exactitud y
precisión corresponde al PLS-Sin transformaciones, resultados que concuerdan con los parámetros
de calidad analítica de la tabla n°6, como por ejemplo menores LOD, LOQ y mayos sensibilidad
analítica, además de un RPD de 9,16; es por ello que se propone como modelo de predicción el PLS
centrado en la media y sin transformaciones.
c) Discuta el efecto de diferentes métodos de pretratamiento espectral aplicados a los datos, para
mejorar los resultados del análisis cuantitativo desarrollado.
Para visualizar mejor los efectos de los pretratamientos aplicados en los datos se presentan las
siguientes figuras:
E e
F f
G g
Figura 3: Gráficos Yfit para la data sin preprocesar (E), centrada en la media (F) y auto escalada (G),
con sus respectivos espectros (e, f y g).
Tabla n°7: Tabla comparativa de SEV y SEC para PLS con distintos pretratamientos y cinco variables
latentes.
Tal como se muestra en la figura 3, aunque los espectros no cambian mucho en apariencia, al
observar los gráficos Yfit vemos que los datos se ajustan mejor al modelo con un preprocesamiento
de centrado en la media, afirmación que se corrobora con los datos de SEV y SEC donde vemos
errores más bajos en el modelo anteriormente mencionado.
d) A partir de estos datos, ¿podría Ud. indicar qué bandas o región espectral del espectro describe
en mayor medida la propiedad o parámetro que debe cuantificar?
Para identificar las bandas que contribuyen en mejor medida en la cuantificación de humedad en
las muestras de maíz se revisan los vectores de regresión para el modelo escogido, en este caso
corresponde a PLS centrado en la media sin transformaciones y con cinco variables latentes.
Variable Y1
1412 1,4185
1592 -0,1081
1910 2,5991
2114 -0,1056
2246 0,4502
e) Informe la predicción del parámetro que le corresponde evaluar usando la muestra 30 del set
de predicción como muestra “desconocida”
Tablan°9: Valores de humedad predicho por modelo PLS y valor real de la muestra n°30.
Humedad
smp30 predicha 10,4873
smp30 real 10,5500
%error 0,5945
f) Con el fin de simplificar la calibración, se desea utilizar una herramienta sencilla como regresión
lineal múltiple. Use este método como un segundo método de análisis y compare sus resultados
con los resultados obtenidos en el primer método por Ud. propuesto. Discuta sus resultados y
concluya si esta técnica puede ser más beneficiosa que un método de reducción de variables para
la cuantificación.
En primer lugar, para poder realizar un MLR el número de variables no debe ser mayor que el
número de muestras. Es por ello que para proceder se utilizan solo las longitudes de onda
correspondientes a las variables latentes que contribuyen en mayor medida en la cuantificación de
humedad encontradas mediante PLS (tabla n°8).
Los resultados para MLR Indican que el modelo explica un 99,84% de la variabilidad de humedad,
además el estadístico P nos indica que si quisiéramos simplificar aún más el modelo podríamos
eliminar la variable de la longitud de onda a 1412 que no es estadísticamente significativo
(P=0,4217) en la contribución al modelo.
Agregamos la data de validación en MLR correspondiente a las longitudes de onda seleccionada y
mediante la ecuación (*) el modelo es capaz de predecir el contenido de humedad en las muestras;
obteniendo mejores porcentajes de error que los obtenidos en la validación de PLS. Esto se puede
explicar debido a la matriz acotada que hemos ingresado para la evaluación del modelo.
(*)
Las figuras que se presentan a continuación muestran la correlación que existe entre las distintas
longitudes de onda estudiadas en el modelo con la determinación de humedad en las muestras. Se
puede observar que concuerdan con los resultados de vectores de regresión (fig. 4) obtenidos desde
el modelo PLS.
Finalmente se concluye que a pesar de que el MLR es más sencillo, ya que solo con una ecuación
puede hacer la calibración y la predicción, además de no necesitar que todas las muestras contengan
el valor de referencia para hacer la validación; este método tiene la desventaja de que para matrices
con muchas variables, como es el caso de NIR, no es adecuado ya que necesita estrictamente pasar
primero por un método de reducción de variables, como PLS, para ajustar la data y que el número
de estas sea menor al número de muestras.
2) La data dorrit3.mat contiene espectros de emisión y excitación obtenidos por
espectrofluorimetría tras el análisis de 27 muestras que contienen una mezcla presuntamente de
aminoácidos fluorescentes.
Para determinar la longitud de onda de excitación en la que se realizó el PCA se evaluó previamente
en un análisis multívias los factores de mayor contribución, de ellos se obtuvo que la longitud de
onde de excitación en 280 nm es la que presenta mayor intensidad y se encuentra en el rango de
longitudes de onda que describe el mayor porcentaje los componentes 1, 2 y 3.
Posteriormente, con la longitud de onda fija se realiza un análisis de PCA donde se seleccionaron 5
componentes principales y se obtuvieron los siguientes resultados:
Figura 7: Gráficos de componentes principales de PCA.
Tal como se puede observar en los gráficos de componentes principales (Fig. 7) no se logra ver
agrupamiento entre las muestras, por lo que solo con análisis de PCA no es posible identificar si hay
algún componente en las muestras que predomine sobre otro o que se encuentren relacionados
entre ellos.
c) A través de un método multivías, reporte:
Para la identificación de los componentes en la mezcla se realizó un análisis de PARAFAC con la data
sin preprocesar y centra en la media. De ellos se concluye que la mezcla tiene un total de 4
aminoácidos. Para corroborar el resultado de pftest se presenta las tablas n°10 y n°11 con los valores
de consistencia de núcleo y error para cada factor evaluados independientemente.
H I
h i
Figura 8: Gráficos pftest para la data sin pre procesar (H) (h) y centrada en la media (I) (i).
Tabla n°10: Valores de error, consistencia de núcleo e interacciones de PARAFAC con la data sin
pre procesar.
Tabla n°11: Valores de error, consistencia de núcleo e interacciones de PARAFAC con la data
centrada en la media.
• Perfiles de Emisión:
Tabla n°12: Bandas de emisión características para los 4 aminoácidos.
Para visualizar que contenido de aminoácidos presente en las 27 muestras analizadas se muestra el
siguiente grafico:
Contenido de aminoácidos
Muestras
Figura 9: Contenido de aminoácidos por muestra.
Para analizar si las muestras presentan agrupamientos de acuerdo a su contenido de aminoácidos,
de hacen gráficos de componentes en PARAFAC.
J K
L M
N O
Figura 10: Gráficos de score correspondiente a las 27 muestras aplicando agrupamiento por
componentes principales
De la figura 10 podemos decir que en (J), (K) y (M) hay un grupo principal de muestras que no
presenta mucho del componente 1, 2 y 3 (aminoácido 1, amoniacos 2 y aminoácido 3,
respectivamente); sin embargo, en (J) la muestra 2 tiene alto contenido del Comp2 y la muestra 5
un alto contenido de Comp1; mientras que en (k) la muestra 3 presenta un alto contenido del Comp3
y lo que concuerda con lo expuesto en (M).
Además, podemos observar que en (N), (L) y (O) se definen claramente dos grupos de muestra que
están influenciadas por el componente 2, 3 y 4 (aminoácido 2, aminoácido 3 y aminoácido 4,
respectivamente), siendo el componente 4 el que tiene mayor influencia en el agrupamiento de las
muestras.
d) Compare los resultados obtenidos en c) por un método multivías, con el resultado obtenido
cuando usó PCA respecto a la exploración de los datos (evaluación de agrupamientos).
De acuerdo a los resultados obtenidos, claramente aplicar un método bilineal, como en este caso se
utilizó PCA, no es lo más óptimo para este tipo de datas, ya que al analizar solo la matriz
correspondiente a la excitación de las muestras y dejando fuera la matriz de emisión se pierde
demasiada información importante y que con análisis de multivías se demostró que proporcionan
características en las muestras que posteriormente les permite hacer grupos con otras que
comparten un perfil similar.
e) Reporte qué muestras tienen similitudes en su composición química de acuerdo a los resultados
encontrados.
Tabla n°3: Muestras con alto y bajo contenido de aminoácido 4 de acuerdo a figura 10.
Muestras
Gráfico L Gráfico N Gráfico O
Bajo contenido de
aminoácido 4 1,2,3,4,5,11,12,13,14,16,
Alto contenido de
aminoácido 4 6,7,8,9,10,17,18,19,20,21,22,23,24,25,26,27