Está en la página 1de 10

Calibracin multivariante en anlisis cuantitativo.

El modelo inverso
Joan Ferr
Grupo de Quimiometra, Cualimetra y Nanosensores
Universidad Rovira i Virgili
C. Marcell Domingo s/n 43007-Tarragona

La motivacin de la calibracin multivariante es relacionar dos tipos de


medidas sobre una muestra: una fcil, rpida y/o econmica de obtener
(por ejemplo, el espectro en el infrarrojo cercano, Figura 1) y otra
complicada de obtener, cara o que requiere excesivo tiempo (por ejemplo,
el nmero de octano de una gasolina o el contenido de protena de un
pienso). El objetivo es predecir la propiedad difcil a partir de la medida
fcil. La principal ventaja de la calibracin multivariante frente a la
univariante es que no requiere medidas instrumentales selectivas. La
muestra puede contener, junto con el analito, otros componentes que
contribuyen a la seal de forma no constante. Otra ventaja es que la seal
multivariante permite detectar muestras discrepantes en prediccin
(outliers). Esto no es posible en calibracin univariante 1 .

0.5

0.4

0.3
log (1/R)

0.2

0.1

1050 1150 1250 1350 1450 1550


Longitud de onda (nm)

Figura 1. Espectros en el infrarrojo cercano (NIR) de gasolinas medidos a


271 longitudes de onda. Estas respuestas instrumentales no son selectivas y
permiten calcular un modelo inverso de calibracin multivariante para
predecir el nmero de octano en gasolinas.

1
A menos, claro, que se sospeche de alguna prediccin porque es un valor anormalmente
elevado o bajo, o carente de significado fsico/qumico.

1
En un artculo anterior [1] vimos como utilizar el modelo multivariante
directo para analizar cuantitativamente mezclas a partir de sus espectros.
Hoy veremos el modelo multivariante inverso. ste tiene aplicaciones en el
control de materias primas, en el control de procesos industriales
(seguimiento de reacciones y de productos intermedios) y en el anlisis de
productos acabados (farmacuticos, petroqumicos, alimentarios,). Incluso
permite la monitorizacin no-invasiva de glucosa en sangre [2]. Por
coherencia con el artculo [1] comentaremos estos modelos considerando
datos espectroscpicos, aunque hay que tener presente que se pueden
aplicar a otro tipo de respuestas instrumentales.

Modelos directos y modelos inversos

Llamamos modelo directo al modelo clsico que utilizamos al aplicar la ley


de Lambert-Beer en calibracin univariante:

r = k0 + k1c (1)

donde r es la respuesta instrumental (absorbancia), que situamos en el eje


de ordenadas, y c es la concentracin del analito, que situamos en el eje de
las abscisas (Figura 2). Una vez calculados los coeficientes, podemos
predecir la concentracin en una muestra problema despejando c,

c = (r k0)/k1 (2)

Si substituimos b0= k0/k1 y b1= 1/k1, vemos que en realidad estamos


prediciendo con la ecuacin

c = b0 + b1r (3)

r c
r = k0 + k 1 c c = b0 + b 1 r

k1 b1
c r
Figura 2. Calibracin univariante. Modelo directo (izquierda) e inverso (derecha).
La flecha indica la direccin en la que se realiza la prediccin.

2
La calibracin inversa se basa en ajustar desde un principio el modelo de la
ecuacin 3, utilizando la concentracin como variable dependiente y la
respuesta instrumental como variable independiente (Figura 2). Este
modelo, que se postula al revs del modelo directo, se denomina inverso.

Estadsticamente es distinto calcular los coeficientes a partir de la ecuacin


1 o de la 3. En calibracin univariante preferimos la ecuacin 1 porque
asumimos que la incertidumbre en las absorbancias (r) es mayor que en la
concentracin de los patrones. En calibracin multivariante preferimos el
modelo inverso, por los motivos que veremos a continuacin.

Del modelo univariante al multivariante

Las ecuaciones 1 y 3 se pueden repetir para todas las longitudes de onda de


un espectro (r1, r2, rJ). La ecuacin 1 da lugar al modelo multivariante
directo (classical least-squares, CLS) que vimos en [1]. La ecuacin 3 da
lugar al modelo multivariante inverso

c = b0 + b1r1 + b2r2 + .+ bJrJ (4)

Tanto el modelo directo como el inverso permiten predecir la concentracin


de un analito a partir del espectro de la muestra. La diferencia reside en la
informacin necesaria para calcular el modelo: para calcular un modelo CLS
debemos conocer la concentracin de todos los componentes que absorben
en las muestras de calibracin 2 mientras que para el modelo inverso slo es
necesario conocer la concentracin del analito de inters en dichas muestras
(u otro parmetro como el nmero de octano de una gasolina o la
viscosidad de un polmero).

Etapa de calibracin en modelos multivariantes inversos

Hay distintos mtodos para calcular los coeficientes de la ecuacin 4. Los


ms utilizados son la regresin lineal mltiple (multiple linear regression,
MLR, tambin llamada ILS, inverse least squares), la regresin sobre
componentes principales (principal component regression, PCR) y la
regresin por mnimos cuadrados parciales (partial least squares regression,
PLSR).

2
A partir de las muestras de calibracin y de sus concentraciones se obtienen los espectros de los componentes puros.
Esto permite resolver totalmente una mezcla problema, es decir, encontrar la concentracin de todos sus componentes,
tanto si nos interesan como si no.

3
MLR se basa en sustituir, en la ecuacin 4, el espectro [r1, r2, rJ] y la
concentracin c de una muestra de calibracin. De este modo se obtiene
una ecuacin con J+1 incgnitas [b0, b1, bJ]. Si lo repetimos para I
muestras de calibracin, tendremos un sistema de I ecuaciones y J+1
incgnitas. Si tenemos suficientes muestras de calibracin (al menos J+1),
podemos resolver el sistema por el mtodo de mnimos cuadrados y obtener
los coeficientes.

Aunque MLR se conoce muy bien estadsticamente, su uso es restringido


porque requiere una seleccin previa de longitudes de onda. Si utilizamos
espectros de 500 longitudes de onda, la ecuacin 4 tiene 501 coeficientes
incgnita. Por tanto, necesitamos ms de 500 muestras de calibracin para
generar las ecuaciones necesarias, lo cual es prohibitivo. Otro inconveniente
es que si las variables r estn muy correlacionadas entre s (como sucede
con los datos espectroscpicos), los coeficientes tienen una incertidumbre
elevada. Esto imposibilita la interpretacin de los coeficientes e incrementa
la incertidumbre en las predicciones, sobretodo en los extremos del dominio
experimental (a pesar de que el ajuste del modelo puede ser bueno). La
solucin a estos problemas pasa por seleccionar unas pocas longitudes de
onda que estn poco correlacionadas entre s y que sean lo ms selectivas
posible. 3 La seleccin se suele basar en el conocimiento qumico o en
algoritmos de optimizacin (como los algoritmos genticos), pero no es
fcil, y corremos el riesgo de descartar alguna parte interesante o incluir
alguna que no lo es (cmo escoger unas pocas longitudes de onda no
correlacionadas en las cuales absorba el nmero de octano de la gasolina o
la protena del pienso?).

PCR y PLSR superan las limitaciones de MLR y permiten utilizar una regin
amplia del espectro sin preocuparnos excesivamente por acotarla. Estos
mtodos aprovechan que la correlacin entre variables espectrales es
elevada para reemplazarlas por unas pocas variables que no estn
correlacionadas entre s. Estas nuevas variables se llaman variables latentes
o factores, y se calculan combinando linealmente todas las variables
originales:

t = w1r1 + w2r2 + + wJrJ (5)

donde [w1, w2, wJ] son pesos. El valor que una muestra tiene de esta
nueva variable se denomina puntuacin (score, en ingls) y se obtiene
introduciendo el espectro [r1, r2, rJ] en la ecuacin 5. Esta operacin se
realiza para todos los espectros. Cuanto ms parecidos sean dos espectros

3
Otra posibilidad para reducir el nmero de variables es medir los espectros a menor resolucin (cada 10 nm en lugar
de cada 2 nm). Pero estaramos desaprovechando la resolucin del instrumento y perderamos el detalle en zonas que
son interesantes para cuantificar.

4
0.1
Scores Factor 2

-0.1
-0.2 -0.1 0 0.1 0.2
Scores Factor 1

Figura 3. Scores de los espectros de la Figura 1. Cada crculo representa un


espectro. Con este grfico (tambin posible en 3 dimensiones) podemos
observar qu espectros se parecen mucho ms fcilmente que representando
las variables originales (Figura 1).

(cuanto ms similares sean sus [r1, r2, rJ]) ms parecidos sern sus
scores (t). Por tanto, podemos reemplazar las 271 variables de los
espectros de la Figura 1 por un score y con l podemos ver qu espectros
se parecen casi con la misma precisin que si mirsemos los espectros.
Ahora bien, un slo score no suele ser suficiente para describir la pequeas
diferencias entre espectros (a veces estas pequeas diferencias son las que
estn relacionadas con la concentracin) y suelen ser necesarios de 2 a 10
scores 4 . La Figura 3 muestra los espectros de la Figura 1 representados por
sus scores en dos factores para un modelo PLSR.

Puesto que los scores se corresponden con los espectros originales,


podemos calcular un modelo como el de la ecuacin 4, pero con scores en
lugar de espectros:

c = q0 + q1t1 + q2t2 + .+ qAtA (6)

Como utilizamos pocos scores (A<J) hay que calcular menos coeficientes
que cuando utilizamos variables originales y, por tanto, necesitamos menos
muestras de calibracin. Adems, no tenemos los problemas asociados con
la correlacin de las variables porque los factores no estn correlacionados.

5
PCR y PLSR se diferencian en cmo calculan los pesos [w1, w2, wJ] para
combinar las variables originales. En PCR se obtienen del Anlisis de
Componentes Principales (PCA) [3] de los espectros de calibracin. Esto
asegura que los scores representen las semejanzas y diferencias de los
espectros lo mejor posible. Pero algn factor suele describir una diferencia
espectral que no est relacionada con la concentracin a predecir. Al incluir
los scores de ese factor en el modelo, la prediccin no mejora. Los pesos
que calcula el algoritmo PLSR, en cambio, proporcionan scores que estn lo
ms correlacionados posible con las concentraciones. 5 Por esto, PLSR
necesita menos factores que un modelo PCR para tener una habilidad de
prediccin similar. Por todo esto, PLSR es el mtodo preferido por defecto
en calibracin multivariante. Comparados con MLR construido con variables
poco colineares, PCR y PLSR pueden ajustar ligeramente peor y pueden
predecir igual o ligeramente peor dentro del dominio de calibracin, pero
predicen mejor si es necesario extrapolar o si existen pequeas
desviaciones del comportamiento ideal.

Cul es el nmero ptimo de factores?

La uso de factores en PCR y PLSR tiene otra ventaja adems de reducir el


nmero de variables: reduce el ruido de los datos. Los factores estn
jerarquizados: cada nuevo factor que aadimos al modelo describe menos
variacin sistemtica en los espectros (que es lo que permite predecir) y
ms variacin aleatoria (el ruido, que incrementa la incertidumbre en las
predicciones). Por tanto, debemos incluir suficientes factores para modelar
la variacin sistemtica importante pero no excedernos para evitar incluir
demasiado ruido. El nmero ptimo de factores es particular para cada
problema de calibracin y depende del tipo de espectro y de la propiedad a
predecir. El nmero ptimo se determina calculando modelos con distinto
nmero de factores y validando cada modelo (por ejemplo, prediciendo
nuevas muestras de las que se conoce la concentracin). As se obtiene el
grfico de la Figura 4. En nuestro ejemplo, el modelo que predice mejor es
el de tres factores. Es decir, el que se calcula utilizando tres scores (t1, t2,
t3) por muestra en la ecuacin 6. Los modelos con uno o dos factores estn
subajustados: predicen mal porque estos pocos factores no son suficientes
para modelar todas las variaciones relevantes de los espectros y no afinan
la prediccin. Los modelos con ms de tres factores estn sobreajustados:
predicen peor que el de tres factores porque los factores del cuarto al sexto
describen ms ruido que informacin relevante, y el ruido en las muestras
problema empeora la prediccin.
4
De todos modos, 2-10 son pocos scores comparados con las 271 variables originales. Esta compresin de datos
se logra por la elevada correlacin (redundancia) de las variables espectroscpicas.

6
1.1

Error promedio de validacin


0.9

0.7

0.5

0.3

0.1
1 2 3 4 5 6
Nmero de factores utilizados en el modelo

Figura 4. Error promedio de validacin para modelos calculados con distinto


nmero de factores (de uno a seis factores) para predecir el nmero de
octano en las gasolinas de la Figura 1. Este grfico permite decidir el nmero
ptimo de factores a utilizar. El modelo ptimo (menor error de prediccin)
es el de tres factores. Los modelos con menos de tres factores estn
subajustados. Los modelos con ms de tres factores estn sobreajustados.

Resultados de aplicar PCR y PLSR

Adems del grfico de scores (Figura 3) y del grfico del error promedio de
validacin (Figura 4), los programas comerciales suelen proporcionar como
resultados de PCR y PLSR un grfico de los coeficientes del modelo para el
nmero ptimo de factores (Figura 5), y el grfico de valor predicho frente
a valor medido (Figura 6).

2
Coeficiente de regresin

-2

-4

-6

1050 1150 1250 1350 1450 1550


Longitud de onda (nm)

Figura 5. Coeficientes (las b de la ecuacin 4) del modelo PLSR para tres


factores. Estos coeficientes se obtienen descomprimiendo los coeficientes q
de la ecuacin 6. Las longitudes de onda con coeficientes de regresin
elevados son las ms tiles para predecir.

5
Por tanto, los scores de PLSR describen peor los espectros que los scores de PCR. Perode qu sirve describir
con precisin los espectros en todo su rango si slo una zona de ellos est relacionada con la propiedad a predecir?
Mejor centrarse slo en la parte del espectro que permite predecir. Esto es lo que hace PLSR.

7
90

89

Nmero de octano (Prediccin) 88

87

86

85

84

83
83 84 85 86 87 88 89 90
Nmero de octano (Referencia)

Figura 6. Nmero de octano predicho frente a nmero de octano de


referencia. En la calibracin univariante, podemos representar la absorbancia
frente a la concentracin y as inspeccionar visualmente el ajuste del modelo.
En calibracin multivariante esta representacin no existe: tenemos muchas
absorbancias y representarlas una a una slo mostrara informacin parcial
del modelo. La calidad del ajuste multivariante se visualiza con el grfico
mostrado. Para un modelo perfecto, los valores predichos y los de referencia
sern los mismos y caern sobre una lnea recta de ordenada en el origen 0 y
pendiente 1 (la lnea diagonal). Cuanto ms alejadas estn las muestras de la
lnea, mayor es el error de prediccin.

Pretratamientos de los datos

Los datos se suelen pretratar antes de aplicar PCR o PLSR. El


pretratamiento ms comn es centrar las variables, tanto las
concentraciones como las medidas instrumentales. Esto elimina la parte de
los datos que es comn a todas las muestras (y, por tanto, no til para
predecir, precisamente porque es comn). Esto puede reducir el nmero de
factores del modelo en uno. Los scores de la Figura 2 corresponden a un
modelo con datos centrados. Con datos espectroscpicos, tambin es
comn aplicar otras transformaciones para eliminar la variacin de la lnea
de base, utilizando, por ejemplo, la primera o segunda derivada del
espectro, o eliminar el efecto multiplicativo introducido por la dispersin en
medidas NIR.

8
Cuntas muestras de calibracin se necesitan?

El nmero de muestras que se necesitan para calcular un modelo PCR o PLS


vara desde unas decenas (para muestras sintticas, tales como
medicamentos, polmeros,. las cuales tienen pocos componentes y
composicin bien controlada) hasta centenares (para muestras naturales
tales como gasolinas, piensos, aceites,). El motivo es que los espectros de
las muestras de calibracin deben contener todas las variaciones que luego
encontraremos en los espectros de las muestras problema. Esto permitir al
algoritmo de calibracin aprender a diferenciar la variacin espectral que
est relacionada con la propiedad de inters de la que es debida a los
interferentes. Por tanto, se deben utilizar tantas muestras como sean
necesarias hasta abarcar todos los componentes (analitos e interferentes)
en el rango de valores que tendrn en muestras futuras. Notar que slo
necesitamos asegurar que los interferentes estn presentes en las muestras
de calibracin, pero no necesitamos conocer su concentracin.

Calibracin inversa para varios componentes

En calibracin multivariante podemos utilizar un mismo espectro para


predecir distintas propiedades. Poniendo en c de la ecuacin 4 cualquier
propiedad de inters, podemos calcular distintos modelos utilizando siempre
los mismos espectros de las muestras de calibracin (optimizando el rango
espectral si es necesario). Obtendremos unos coeficientes (b0, b1, bJ)
particulares para predecir cada propiedad. Notar, sin embargo, que aunque
siempre encontraremos un modelo, ste slo predecir con la calidad
suficiente si las variaciones en los espectros estn bien correlacionadas con
la propiedad que intentamos modelar (aunque esta relacin no sea evidente
a simple vista). Por esto la etapa de validacin, en la que se comprueba que
el modelo da predicciones aceptables, tiene una importancia fundamental
en la calibracin multivariante.

Limitaciones de la calibracin multivariante

Sin duda, la calibracin multivariante tiene una mayor complejidad


conceptual, matemtica y estadstica que la calibracin univariante. Aunque
hay programas que facilitan el uso de este tipo de calibracin, su aplicacin
no es tan inmediata como la univariante y el usuario necesita ms horas de
formacin. Adems, el clculo de la incertidumbre de las predicciones no
est completamente desarrollado. A menudo se utilizan errores medios de
prediccin como medida de la calidad de las predicciones aunque sabemos

9
que la prediccin tienen una calidad distinta segn en que punto del espacio
de calibracin se encuentre. A pesar de sus limitaciones, las ventajas de
utilizar la calibracin multivariante superan a sus inconvenientes en muchos
campos y el nmero de aplicaciones crece constantemente.

Referencias

[1] J. Ferr Tcnicas de Laboratorio 297 (2004) 986989 Calibracin


multivariante en anlisis cuantitativo. El modelo directo.

[2] M. A. Arnold, G. W. Small Anal. Chem. 77 (2005) 54295439.


Noninvasive glucose sensing.

[3] R. Boqu, J. Ferr Tcnicas de Laboratorio 290 (2004) 214-219.


Anlisis de componentes principales aplicado a la representacin de datos
multidimensionales

El autor agradece todos los comentarios relacionados con los contenidos de


este artculo. Pueden dirigirse, mediante mensaje electrnico, a la direccin:
quimio@urv.net. Una versin en soporte electrnico de este artculo puede
encontrarse en: http://www.quimica.urv.es/quimio

10

También podría gustarte