Documentos de Académico
Documentos de Profesional
Documentos de Cultura
ANÁLISIS CRITICO
Presentado por:
CUSCO - PERÚ
2021
1 Analisis
modelos erróneos dependiendo de cómo se haga el diseño experimental. Otro factor limitante
importante para este enfoque es que requiere mucho tiempo para grandes conjuntos de datos.
obvia del ruido es el sobreajuste del modelo en el que el ruido de las señales se incluye en el
modelo de predicción.
En caso de que los vectores sean informativos, también tendrán una forma estructurada,
mientras que los vectores no informativos serán desestructurados o "ruidosos", los Hasta ahora,
las técnicas de procesamiento de señales rara vez se han aplicado a estos vectores.
esto con el fin de tener una medición objetiva de su estructura o comportamiento no aleatorio, y
residuos de regresión.
donde δxi y δxi − 1 son los residuos de puntos sucesivos en un vector y n es el número de
valores. El valor DW converge a cero si existe una fuerte correlación entre los puntos sucesivos.
Si existe una correlación débil entre los puntos sucesivos, es decir, una distribución aleatoria, el
valor DW converge a 2,0. Para n> 100, la distribución es aleatoria con un intervalo de confianza
del 95%, si DW está entre 1,7 y 2,3 . En la mayoría de los casos, si la señal adquirida por un
instrumento contiene información, las intensidades medidas entre puntos adyacentes están
utilizando el criterio DW. Con este criterio, es posible tener una medida objetiva de la estructura
3. Conjuntos de datos
Se generaron cuatro vectores con 100 elementos, cada uno conteniendo una banda en
forma de Gauss, de intensidad 1.0, ubicados en 20, 40, 60 y 70, respectivamente, y con
desviaciones estándar de 10.0, 7.0, 12.0 y 11.0, respectivamente. A partir de estos cuatro
vectores, se generaron varias matrices (matrices X) (sumando las cuatro bandas). Se añadió ruido
gaussiano a niveles entre 0 y 50% a intervalos del 10% y una distribución gaussiana. La matriz
entre 0.0 y 1.0) que se usaron para las intensidades de banda en la matriz X. Estos valores, que
por lo tanto representan las intensidades de banda iniciales (ubicadas en 20, 40, 60 y 70) en la
matriz X antes de agregar el ruido, se introducen en una matriz Y de cuatro columnas, cada
Se prepararon por triplicado soluciones acuosas de fructosa a concentraciones de 5, 10, 20, 30,
ecuación. (2), el espectro de cada solución de azúcar se corrigió por densidad y molaridad, antes
1
espectro ajustado de fructosa= ¿( )
solución fracción mola r
−espectro de agua
Se utilizaron sesenta espectros NIR de muestras de gasolina con números de octano conocidos
Este conjunto de datos se construyó a partir de espectros NIR de trigo. Contiene 100
midieron usando reflectancia difusa de 1100 a 2500 nm a intervalos de 2 nm. Para este
especificado de 100.
Resultados y discusión
este caso fue PLS1 aplicado a una matriz de datos simulada con un nivel de ruido del 20%.
procedimiento PLS1.
Fig. 5. Primeras 10 x cargas (p) del procedimiento PLS1 para la matriz simulada con un nivel de ruido del 20% (los vectores se han
Fig. 6. Primeras cargas de 10 w (w) del procedimiento PLS1 para la matriz simulada con
un nivel de ruido del 20% (los vectores se han desplazado verticalmente para mayor claridad).
Fig. 7. Primeros 10 vectores b (b) del procedimiento PLS1 para la matriz simulada con un nivel de ruido
del 20% (los vectores se han desplazado verticalmente para mayor claridad)
vectores de regresión (w), y una vez más, el aumento del nivel de ruido a lo largo de las
variables latentes es evidente. Es interesante notar que el hecho de que este vector (w) sea más
ruidoso que los demás puede deberse a la influencia de la ponderación del vector y. Finalmente,
en la Fig. 7 se puede ver la representación de los primeros 10 b vectores (b), que son los que
sirven para predecir los valores de y para nuevas señales. Como puede verse aquí, su nivel de
ruido también aumenta en función de las variables latentes. El análisis de estos gráficos (Figs. 5-
Fig. 9. Perfiles de Durbin-Watson para los primeros 10 w vectores del 0 al 50% del nivel de ruido.
Fig. 10. Perfiles de Durbin-Watson para los primeros 10 vectores b del 0 al 50% del nivel de ruido.
Se aplicó una regresión PLS entre la matriz de señales TD-NMR adquiridas para
variables latentes de la regresión PLS, se observa (Figs. 11 y 12): (a) una pérdida de estructura
Fig. 11. Vectores de carga (p) de las primeras 10 variables latentes (los vectores se han escalado y desplazado verticalmente para mayor
claridad).
Fig. 11. Vectores de carga (p) de las primeras 10 variables latentes (los vectores se han escalado y desplazado verticalmente para mayor
claridad).
Fig. 12. Vectores de carga (w) de las primeras 10 variables latentes (los vectores se han escalado y desplazado verticalmente para mayor
claridad).
Dado que los vectores b usados en el modelo de regresión PLS se calculan a partir de estos
vectores de carga (p y w), la inclusión de variables latentes “ruidosas” agregaría ruido al modelo,
lo que conduce a modelos predictivos sobreajustados y menos robustos. Para estas 10 primeras
variables latentes, se observa (Fig. 12) un incremento muy evidente en el criterio DW para los
vectores p, w y b, luego de la inclusión de la tercera variable latente. La evolución de los valores
modelos, muestra que no fue necesario probar más de las tres o cuatro primeras variables latentes
cuando se emplearon valores cruzados. validación para encontrar el modelo óptimo. En la Tabla
(Fig. 2) y el contenido de fructosa, la gráfica de las cargas muestra claramente una disminución
en la relación "señal / ruido" para la variable latente posterior (Fig. 14). La gráfica DW se utilizó
para detectar objetivamente las variables latentes “ruidosas”. La figura 15 muestra la evolución
del criterio DW para los vectores de carga y los vectores b obtenidos por PCR, en función del
Fig. 15. Evolución del criterio de Durbin-Watson de los vectores de cargas (p) (primeros 50) y los vectores b (primeros 10) obtenidos por PCR.
principales (por medio de PCA) y luego usar los perfiles DW de cargas para elegir el número
Se aplicó el procedimiento de regresión PLS1 para la determinación del índice de octano basado
el aumento de ruido de los vectores b recuperados. Como se mostró anteriormente, esto es más
fácil de analizar usando el criterio DW. La gráfica de criterio DW se muestra en la Fig. 19 para
las cargas pyw y para los vectores b. El gráfico muestra claramente que después de la cuarta
Fig. 17. Evolución del criterio de Durbin-Watson de los vectores de puntuaciones obtenidos por PCR.
Fig. 18. Primeros 10 b vectores de PLS1 entre los espectros NIR de gasolina y los números de octano (los vectores se han escalado y desplazado
verticalmente para mayor claridad).
Fig. 19. Evolución del criterio DW de cargas p, cargas w y vectores b obtenidos del modelo PLS1.
el enfoque “clásico” muestra que existen cuatro variables latentes, de acuerdo con los
aumenta muy rápidamente entre la cuarta (0.052) y la quinta (0.150) variables latentes. Otro dato
interesante es que es más fácil detectar la transición entre la cuarta y la quinta variables latentes,
utilizando el criterio DW, que utilizando los valores RMSECV de validación cruzada. Estos
En esta sección, se estudia un conjunto de datos más difícil e interesante y se muestra cómo se
Los primeros 15 vectores PLS1 b para la determinación del contenido de humedad se muestran
en la Fig. 20 (cálculos basados en la primera derivada). Está claro que para las variables de alta
Fig. 21. Evolución del criterio DW de cargas p, cargas w y vectores b obtenidos del modelo PLS1.
El hecho de este conjunto de datos es que los perfiles de DW para los vectores de regresión
examen detenido de la Fig. 21 muestra que para el caso de las cargas DW p (es decir, la
estructura de la señal de la matriz X) parece haber sólo tres variables latentes. Pero, dado que el
procedimiento PLS1 también usa la variabilidad del vector y (maximiza la covarianza entre X e
y), también se deben analizar las cargas wy los gráficos DW del vector b. Las gráficas de cargas
de DW muestran que el modelo podría tener tres o incluso ocho variables latentes. Se puede
observar que entre una y tres variables latentes, solo hay un pequeño aumento en el contenido de
caracterización objetiva del contenido de información de los vectores de regresión. Este criterio
morfológico se puede aplicar a los vectores de carga (p y w) ya los vectores b para detectar
variables latentes con bajas relaciones “señal / ruido”. Esto permitirá construir modelos de
incluyendo el menor ruido posible. Al mismo tiempo, este procedimiento permite analizar con
mayor claridad el comportamiento del modelo, ya que se tiene una medida objetiva del contenido
de información de cada dimensión del modelo. Otra ventaja de este enfoque es limitar el número
de variables latentes que se utilizarán al realizar los procedimientos de validación cruzada. Como
se ha mostrado aquí, Hay casos en los que el contenido de información (medido por DW)
asociado con cada dimensión presenta algunas variaciones (es decir, hay algunas variables de
latencia alta que parecen estar más estructuradas que las variables de latencia inferior), lo que
Y. Xie, JH Kalivas, Anal. Chim. Acta 348 (1997) 19-27. [5] DW Osten, J.