Está en la página 1de 15

Certamen 3 de Quimiometria

Pamela Sanhueza Novoa

1.- El archivo ‘Parameters in corn’ contiene datos de 80 muestras de maíz analizadas por
espectroscopía NIR. El rango de longitudes de onda utilizados es de 1100 hasta 2498 nm, con
intervalos de 2 nm (700 canales). Se analizaron por métodos de vía húmeda la humedad, las grasas
totales, proteínas y el almidón. Los datos fueron aleatoriamente divididos en 50 muestras de
calibración y 30 muestras

a) Evalúe si los espectros NIR pueden ser usados para proporcionar una metodología analítica con
un método de reducción de variables para poder determinar Humedad en maíz.

Para evaluar si los espectros pueden proporcionar una metodología para determinar Humedad con
un método de reducción de variables se analizó la data ‘Parameters in corn’ con el método PLC y
PCR debido al gran numero longitudes de onda (700 variables); la matriz fue centrada a la media y
preliminarmente se evaluó sin transformaciones. Se compararon sus parámetros SEV, rVal, SEC y
rCal (tabla 1 y 2) para determinar cuál de los modelos presentaba un menor error.

Tabla n°1: Errores de calibración y validación para modelo PLS sin transformaciones con cinco
variables latentes.

PLS-Sin transformación
PC %Varianza SEV rVal SEC rCal
1 98.879.883 0.295241 0.661722 0.291693 0.687483
2 0.841694 0.254370 0.763851 0.245681 0.796040
3 0.140591 0.187133 0.879909 0.170152 0.909962
4 0.046678 0.081840 0.978445 0.066048 0.987244
5 0.020654 0.043003 0.994021 0.035742 0.996364

Tabla n°2: Errores de calibración y validación para modelo PCR sin transformaciones con cuatro
variables latentes.

PCR-Sin transformación
PC %Varianza SEV rVal SEC rCal
1 99.095.154 0.295708 0.660364 0.292261 0.685984
2 0.711115 0.266672 0.736199 0.258073 0.771877
3 0.085412 0.238731 0.795592 0.228571 0.830464
4 0.043008 0.250275 0.773706 0.230665 0.831162
A

Figura 1: Gráficos de Yfit de PLS (A) y PCR (B).

De acuerdo a los gráficos de la figura 1 se puede observar que en ambos casos existe una buena
correlación entre el Y medido y el Y predicho, sin embargo, de la tabla 1 y 2 podemos deducir que
existe un menor error de calibración y validación en el modelo de PLS comparado con PCR. De ambas
tablas y figura podemos concluir que los espectros NIR de la data entregada son adecuados para
proporcionar una metodología para de determinación de humedad en maíz.

b) Informe y discuta los parámetros estadísticos y los parámetros de calidad analítica de los
modelos que ha desarrollado.

Como anteriormente se determinó que de acuerdo a los parámetros SEV y SEC el mejor modelo
para la data entregada es el PLS, posteriormente se evaluó el modelo con distintas transformaciones
(MSC y SNV) y los resultados son los que se exponen a continuación:
Tabla 3: Errores de calibración y validación para modelo PLS-MSC con cinco variables latentes.

PLS-MSC
PC %Varianza SEV rVal SEC rCal
1 66.839.874 0.347312 0.474108 0.339962 0.532590
2 21.374.527 0.271095 0.725843 0.255888 0.776278
3 3.614.420 0.212385 0.842090 0.183610 0.894288
4 2.132.935 0.181229 0.888247 0.150395 0.931970
5 1.501.080 0.153529 0.921545 0.125323 0.954340

Tabla n°4: Errores de calibración y validación para modelo PLS-SNV con cinco componentes
principales.

PLS-SNV
PC %Varianza SEV rVal SEC rCal
1 66.833.076 0.347310 0.474117 0.339960 0.532600
2 21.375.612 0.271100 0.725832 0.255890 0.776275
3 3.615.154 0.212394 0.842075 0.183612 0.894286
4 2.133.240 0.181237 0.888236 0.150395 0.931970
5 1.501.299 0.153529 0.921544 0.125314 0.954346

C D E

Figura 2: Gráficos EJCR (exactitud y precisión) para PLS sin transformación (A), PLS-MSC (B) y PLS-
SNV.

Tabla n°5: Parámetros estadísticos para los tres modelos realizados.

Statistics PLS-Sin transformación PLS-MSC PLS-SNV


RMSEP 0.0394 0,1861 0,1861
REP% 0.3877 1,8307 1,8307
R2 0.9943 0,8526 0,8526
Cal. X residuals 8,13E+04 5,71E+04 5,71E+04
Tabla n°6: Parámetros de calidad analítica para los tres modelos realizados.

AFOMs PLS-Sin transformación PLS-MSC PLS-SNV


SEN 0,0460 0,0251 0,0251
Anal. SEN 56.548 44,0211 44,0211
LODmin 0,4647 1,4607 1,4607
LODmax 0,4687 1,4706 1,4706
LOQmin 1,3940 4,3821 4,3821
LOQmax 1,4061 4,4119 4,4119

Como podemos ver en los gráficos de Elipse (fig.2) el modelo que presenta mejor exactitud y
precisión corresponde al PLS-Sin transformaciones, resultados que concuerdan con los parámetros
de calidad analítica de la tabla n°6, como por ejemplo menores LOD, LOQ y mayos sensibilidad
analítica, además de un RPD de 9,16; es por ello que se propone como modelo de predicción el PLS
centrado en la media y sin transformaciones.

c) Discuta el efecto de diferentes métodos de pretratamiento espectral aplicados a los datos, para
mejorar los resultados del análisis cuantitativo desarrollado.

Para visualizar mejor los efectos de los pretratamientos aplicados en los datos se presentan las
siguientes figuras:

E e

F f
G g

Figura 3: Gráficos Yfit para la data sin preprocesar (E), centrada en la media (F) y auto escalada (G),
con sus respectivos espectros (e, f y g).

Tabla n°7: Tabla comparativa de SEV y SEC para PLS con distintos pretratamientos y cinco variables
latentes.

Modelo SEV SEC


PLS-Sin Pretratar 0.417179 0.350267
PLS-Centrado en la Media 0.043003 0.035742
PLS-Auto escalado 0.046426 0.037611

Tal como se muestra en la figura 3, aunque los espectros no cambian mucho en apariencia, al
observar los gráficos Yfit vemos que los datos se ajustan mejor al modelo con un preprocesamiento
de centrado en la media, afirmación que se corrobora con los datos de SEV y SEC donde vemos
errores más bajos en el modelo anteriormente mencionado.

d) A partir de estos datos, ¿podría Ud. indicar qué bandas o región espectral del espectro describe
en mayor medida la propiedad o parámetro que debe cuantificar?

Para identificar las bandas que contribuyen en mejor medida en la cuantificación de humedad en
las muestras de maíz se revisan los vectores de regresión para el modelo escogido, en este caso
corresponde a PLS centrado en la media sin transformaciones y con cinco variables latentes.

Figura 4: Grafico de vectores de regresión del modelo PLS-Sin transformaciones.


Como se puede observar en la figura 4 hay cinco longitudes de onda que contribuyen en la
cuantificación de humedad en las muestras de maíz; marcadas en rojo se encuentran las longitudes
de onda que se relacionan con el aumento de humedad y en azul las que se relacionan con la
disminución de humedad. Las longitudes de onda a las cuales corresponden se muestran en la
siguiente tabla:

Tabla 8: Longitudes de onda que tienen mayor contribución en la cuantificación de humedad.

Variable Y1
1412 1,4185
1592 -0,1081
1910 2,5991
2114 -0,1056
2246 0,4502

e) Informe la predicción del parámetro que le corresponde evaluar usando la muestra 30 del set
de predicción como muestra “desconocida”

Después de confirmar que el modelo adecuando para la calibración corresponde a PLS, lo


guardamos y validamos con el set de muestras correspondientes (y1test), excluyendo la muestra
30. Finalmente, la muestra es predicha en el modelo y los resultados son los que se muestran en la
tabla n°9.

Tablan°9: Valores de humedad predicho por modelo PLS y valor real de la muestra n°30.

Humedad
smp30 predicha 10,4873
smp30 real 10,5500
%error 0,5945

f) Con el fin de simplificar la calibración, se desea utilizar una herramienta sencilla como regresión
lineal múltiple. Use este método como un segundo método de análisis y compare sus resultados
con los resultados obtenidos en el primer método por Ud. propuesto. Discuta sus resultados y
concluya si esta técnica puede ser más beneficiosa que un método de reducción de variables para
la cuantificación.

En primer lugar, para poder realizar un MLR el número de variables no debe ser mayor que el
número de muestras. Es por ello que para proceder se utilizan solo las longitudes de onda
correspondientes a las variables latentes que contribuyen en mayor medida en la cuantificación de
humedad encontradas mediante PLS (tabla n°8).

Los resultados para MLR Indican que el modelo explica un 99,84% de la variabilidad de humedad,
además el estadístico P nos indica que si quisiéramos simplificar aún más el modelo podríamos
eliminar la variable de la longitud de onda a 1412 que no es estadísticamente significativo
(P=0,4217) en la contribución al modelo.
Agregamos la data de validación en MLR correspondiente a las longitudes de onda seleccionada y
mediante la ecuación (*) el modelo es capaz de predecir el contenido de humedad en las muestras;
obteniendo mejores porcentajes de error que los obtenidos en la validación de PLS. Esto se puede
explicar debido a la matriz acotada que hemos ingresado para la evaluación del modelo.

(*)

Las figuras que se presentan a continuación muestran la correlación que existe entre las distintas
longitudes de onda estudiadas en el modelo con la determinación de humedad en las muestras. Se
puede observar que concuerdan con los resultados de vectores de regresión (fig. 4) obtenidos desde
el modelo PLS.

Figura n°5: Efecto de los componentes en las


distintas longitudes de onda estudiadas.

Finalmente se concluye que a pesar de que el MLR es más sencillo, ya que solo con una ecuación
puede hacer la calibración y la predicción, además de no necesitar que todas las muestras contengan
el valor de referencia para hacer la validación; este método tiene la desventaja de que para matrices
con muchas variables, como es el caso de NIR, no es adecuado ya que necesita estrictamente pasar
primero por un método de reducción de variables, como PLS, para ajustar la data y que el número
de estas sea menor al número de muestras.
2) La data dorrit3.mat contiene espectros de emisión y excitación obtenidos por
espectrofluorimetría tras el análisis de 27 muestras que contienen una mezcla presuntamente de
aminoácidos fluorescentes.

a) Usando el espectro de emisión obtenido a la longitud de onda de excitación más relevante


(justifique la elección de ésta), realice un análisis exploratorio que permita identificar si existe
agrupamientos o separaciones de muestras y evalúe cuántos compuestos presumibles están
presentes en las muestras.

Para determinar la longitud de onda de excitación en la que se realizó el PCA se evaluó previamente
en un análisis multívias los factores de mayor contribución, de ellos se obtuvo que la longitud de
onde de excitación en 280 nm es la que presenta mayor intensidad y se encuentra en el rango de
longitudes de onda que describe el mayor porcentaje los componentes 1, 2 y 3.

Posteriormente, con la longitud de onda fija se realiza un análisis de PCA donde se seleccionaron 5
componentes principales y se obtuvieron los siguientes resultados:
Figura 7: Gráficos de componentes principales de PCA.

b) De encontrar agrupamientos de muestras, indique las variables (longitudes de onda de emisión)


asociadas a cada grupo o clúster de muestras.

Tal como se puede observar en los gráficos de componentes principales (Fig. 7) no se logra ver
agrupamiento entre las muestras, por lo que solo con análisis de PCA no es posible identificar si hay
algún componente en las muestras que predomine sobre otro o que se encuentren relacionados
entre ellos.
c) A través de un método multivías, reporte:

a. El número de aminoácidos fluorescentes encontrados en la mezcla (suponiendo que los


componentes químicos en la mezcla son sólo aminoácidos).

Para la identificación de los componentes en la mezcla se realizó un análisis de PARAFAC con la data
sin preprocesar y centra en la media. De ellos se concluye que la mezcla tiene un total de 4
aminoácidos. Para corroborar el resultado de pftest se presenta las tablas n°10 y n°11 con los valores
de consistencia de núcleo y error para cada factor evaluados independientemente.

H I

h i

Figura 8: Gráficos pftest para la data sin pre procesar (H) (h) y centrada en la media (I) (i).

Tabla n°10: Valores de error, consistencia de núcleo e interacciones de PARAFAC con la data sin
pre procesar.

Factores Error Concondia Interacciones


1 7,016E+08 100 34
2 3,99E+08 99,9998 170
3 2,14E+08 98,6770 104
4 1,54E+08 92,6934 254
5 1,19E+08 10,0435 944

Tabla n°11: Valores de error, consistencia de núcleo e interacciones de PARAFAC con la data
centrada en la media.

Factores Error Concondia Interacciones


1 1,769E+08 99,9998 532
2 1,20E+08 99,9997 472
3 6,40E+07 96,6958 528
4 3,94E+07 95,1130 1020
5 3,77E+07 15,6005 552
b. Presente los perfiles espectrales de cada uno de los componentes indicando las bandas que
los caracterizan.

• Perfil espectral de Excitación


Tabla n°12: Bandas de excitación características para los 4 aminoácidos.

Banda de Excitación 1 (nm) Banda de Excitación 2 (nm)


Aminoácido 1
275 215
(data1)
Aminoácido 2
280 215
(data2)
Aminoácido 3
285 220
(data3)
Aminoácido 4
255 210
(data4)

• Perfiles de Emisión:
Tabla n°12: Bandas de emisión características para los 4 aminoácidos.

Banda de Emisión 1 (nm) Banda de Emisión 2 (nm)


Aminoácido 1
359 ---
(data1)
Aminoácido 2
317 ---
(data2)
Aminoácido 3
329 ---
(data3)
Aminoácido 4
287 351
(data4)

c. Analice cómo se distribuyen los aminoácidos encontrados en las 27 muestras analizadas


(separaciones, agrupamientos, muestras con más contenido de uno u otro aminoácido).

Para visualizar que contenido de aminoácidos presente en las 27 muestras analizadas se muestra el
siguiente grafico:
Contenido de aminoácidos

Muestras
Figura 9: Contenido de aminoácidos por muestra.
Para analizar si las muestras presentan agrupamientos de acuerdo a su contenido de aminoácidos,
de hacen gráficos de componentes en PARAFAC.

J K

L M

N O

Figura 10: Gráficos de score correspondiente a las 27 muestras aplicando agrupamiento por
componentes principales

De la figura 10 podemos decir que en (J), (K) y (M) hay un grupo principal de muestras que no
presenta mucho del componente 1, 2 y 3 (aminoácido 1, amoniacos 2 y aminoácido 3,
respectivamente); sin embargo, en (J) la muestra 2 tiene alto contenido del Comp2 y la muestra 5
un alto contenido de Comp1; mientras que en (k) la muestra 3 presenta un alto contenido del Comp3
y lo que concuerda con lo expuesto en (M).

Además, podemos observar que en (N), (L) y (O) se definen claramente dos grupos de muestra que
están influenciadas por el componente 2, 3 y 4 (aminoácido 2, aminoácido 3 y aminoácido 4,
respectivamente), siendo el componente 4 el que tiene mayor influencia en el agrupamiento de las
muestras.

d) Compare los resultados obtenidos en c) por un método multivías, con el resultado obtenido
cuando usó PCA respecto a la exploración de los datos (evaluación de agrupamientos).

De acuerdo a los resultados obtenidos, claramente aplicar un método bilineal, como en este caso se
utilizó PCA, no es lo más óptimo para este tipo de datas, ya que al analizar solo la matriz
correspondiente a la excitación de las muestras y dejando fuera la matriz de emisión se pierde
demasiada información importante y que con análisis de multivías se demostró que proporcionan
características en las muestras que posteriormente les permite hacer grupos con otras que
comparten un perfil similar.

e) Reporte qué muestras tienen similitudes en su composición química de acuerdo a los resultados
encontrados.

De acuerdo al análisis de componentes mediante PARAFAC las muestras se agrupan principalmente


de acuerdo a su contenido de aminoácido 4 (Comp4). Se presenta la siguiente tabla con los grupos
de muestras según su contenido de aminoácido.

Tabla n°3: Muestras con alto y bajo contenido de aminoácido 4 de acuerdo a figura 10.

Muestras
Gráfico L Gráfico N Gráfico O
Bajo contenido de
aminoácido 4 1,2,3,4,5,11,12,13,14,16,

Alto contenido de
aminoácido 4 6,7,8,9,10,17,18,19,20,21,22,23,24,25,26,27

También podría gustarte