Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Regresion Lineal
Regresion Lineal
química analítica
Alejandro C. Olivieri
2
La estadística es un método sistemático para llegar
a la conclusión incorrecta con un 95% de confianza.
Clase 1
Regresión lineal
3
documento, pero se recomienda consultar paralelamente el ejemplo concreto que se analiza en
la sección Ejercicio Resuelto.
El análisis mediante recta de calibración puede hacerse cuando sólo el analito de interés
presenta señal analítica o respuesta (absorbancia, fluorescencia, potencial eléctrico, corriente,
etc.), o cuando la señal del blanco es constante.
Las etapas que deben seguirse en un análisis mediante recta de calibración son:
• Determinación del extremo superior del rango lineal
• Preparación de patrones
• Medición de la respuesta de los patrones
• Estimación de los parámetros de la regresión
• Cálculo de las cifras de mérito del método
• Predicción en muestras incógnita
Las expresiones matemáticas que se presentarán a continuación y su empleo en el análisis
univariado están tomadas, en general, del trabajo de referencia clásico de Danzer y Currie,
preparado para la Unión Internacional de Química Pura y Aplicada (IUPAC).1 De la amplia
literatura que existe en este campo, recomendamos también los libros de Gardiner2 y Miller y
Miller.3
Preparación de patrones
Una vez estimado el extremo superior del rango lineal de la técnica, deben prepararse
patrones de concentración conocida dentro de dicho rango, e incluyendo el valor cero de
concentración del analito (blanco). Usualmente, se preparan varios patrones (como mínimo
cinco) con concentraciones igualmente espaciadas entre cero y el extremo superior del rango
lineal, y cada patrón se analiza por triplicado.
Debe ponerse especial cuidado en la preparación de los patrones del analito para la
calibración, de manera que las concentraciones de calibrado se conozcan con la máxima
precisión posible. Este requisito se relaciona con el hecho de que la recta de regresión se
ajusta mediante ecuaciones que suponen que los valores del eje x (concentraciones) tienen una
incertidumbre considerablemente menor que los del eje y (respuestas).
Sólo a modo de ejemplo, si se realizan mediciones de absorbancia como respuesta,
podemos suponer que el nivel de incertidumbre en la respuesta puede ser de alrededor de
0,005 unidades de absorbancia. Si los valores de las respuestas son, en promedio, de 1 unidad
de absorbancia, esto implica un nivel relativo de incertidumbre de aproximadamente 0,5% en
la respuesta. Por lo tanto, se deben preparar patrones de calibrado cuyas concentraciones se
conozcan con un error menor al 0,5%. Preparar soluciones de calibrado, por ejemplo, con
incertidumbres del orden del 0,1% en promedio, requiere pesar más de 100 mg de reactivo,
preparar soluciones en matraces calibrados de al menos 100 mL, tomar alícuotas con pipetas
aforadas calibradas, etc.
4
Medición de la respuesta de los patrones
Una vez preparados los patrones de concentración conocida, se miden sus respuestas
analíticas, incluyendo réplicas de cada medición. Usualmente cada patrón se mide por
triplicado. Es importante establecer la siguiente nomenclatura: si se emplean 6 patrones, cada
uno por triplicado, entonces el número de niveles diferentes de concentración (p) es 6, y el
número total de puntos de la recta de calibrado (m) es 18.
Qxy ∑ ( xi − x )( yi − y )
i =1
A= = m
(1)
Qxx
∑ ( xi − x)2
i =1
B = y − Ax (2)
donde xi es la concentración de cada uno de los m patrones de calibrado, x es el promedio de
las concentraciones de calibrado, yi es la respuesta en cada punto e y es el promedio de las
respuestas de los patrones de calibrado.
Además de los valores individuales de A y B, es importante tener una idea de su
incertidumbre asociada, ya que los datos instrumentales llevan asociados un error que
depende del ruido instrumental, y el ajuste por cuadrados mínimos sólo provee estimaciones
de la pendiente y ordenada al origen. Los desvíos estándar en los parámetros A y B se calculan
con las siguientes ecuaciones:
sy/ x
sA = (3)
Qxx
1 x2
sB = s y / x + (4)
m Qxx
En las ecuaciones precedentes, el parámetro sy/x es el desvío estándar de los residuos de la
regresión y está dado por:
m
∑ ( yi − yˆ i ) 2
i =1
sy/x = (5)
m−2
donde yi es la respuesta experimental de cada patrón de calibrado e ŷi representa la respuesta
estimada en cada punto, esto es, ŷi = A xi + B. En la ecuación (5) se emplean m – 2 grados de
libertad, ya que hay m datos disponibles, y 2 parámetros estimados en la regresión (A y B).
Estos parámetros estadísticos dan también una idea de la bondad de la regresión. Es
deseable que sy/x sea lo más pequeña posible; no obstante su valor está limitado por el ruido
instrumental. La distribución de los residuos, es decir, el modo en que los valores de (yi – ŷi )
varían con la respuesta, cumple también un papel importante en el análisis de la adecuación
de los datos al modelo lineal, como veremos más adelante.
5
Predicción en muestras incógnita
Los valores de A y B se requieren para realizar predicciones en muestras incógnitas, a
través de la ecuación yinc = A xinc + B, de donde puede obtenerse la concentración estimada del
analito en la muestra:
xinc = (yinc – B) / A (6)
donde yinc es, en general, un promedio de las respuestas obtenidas para un determinado
número de réplicas de la incógnita (habitualmente tres).
Un resultado no es tal, sin embargo, si no está acompañado por su correspondiente nivel
de incertidumbre. Para informar xinc con su incertidumbre asociada, y establecer su número
correcto de cifras significativas, es necesario calcular el error estándar en la concentración
predicha s(xinc), lo cual se lleva a cabo mediante la siguiente expresión:
s y / x 1 1 ( yinc − y ) 2 s y / x 1 1 ( xinc − x ) 2
s(xinc) = + + = + + (7)
A n m A 2Qxx A n m Qxx
donde sy/x es el desvío estándar de los residuos de la regresión dado por la ecuación (5), A es
la pendiente de la recta de regresión, n es el número de réplicas de la muestra incógnita, m es
el número total de patrones de calibrado, yinc es el promedio de las respuestas de las réplicas
de la incógnita, y es el promedio de las respuestas de los patrones de calibrado, y Qxx fue
definido en la ecuación (1).
La ecuación (7) es responsable de que la incertidumbre en la predicción dependa de cada
muestra y no de la calibración en forma global, ya que para cada muestra incógnita hay un
valor predicho de la concentración (xinc) y por lo tanto un valor asociado del desvío estándar
s(xinc). La forma de la ecuación (7) proviene de un análisis de la propagación de las distintas
fuentes de error a la concentración predicha. Puede demostrarse que hay dos fuentes
principales de incertidumbre: 1) la señal medida para la muestra incógnita y 2) las señales
medidas para las muestras de calibrado. La primera contribuye con el término (1/n) dentro de
⎛ 1 (x − x)2 ⎞
la raíz cuadrada de la ecuación (7), y la segunda con los términos ⎜⎜ + inc ⎟⎟ , que
⎝m Qxx ⎠
colectivamente reciben el nombre de leva (del inglés leverage). La leva mide, de algún modo,
la "distancia" de la muestra incógnita al centro de la calibración. Dado que la leva es mínima
cuando la concentración de la incógnita es igual al promedio de las concentraciones de
calibrado (esto es, cuando xinc = x ), se concluye que el método posee su máxima precisión en
este último caso. De ahí que se recomiende analizar muestras cuya concentración de analito
sea cercana al centro de las concentraciones de calibrado. La extrapolación a concentraciones
mucho mayores o menores que el promedio de la calibración aumenta la leva y con ello el
error en la predicción.
Otra conclusión que puede extraerse de la ecuación (7) es que el efecto de la calibración
sobre el error de predicción será también menor si m > n, es decir, cuando el número de
patrones de calibrado es superior al de réplicas empleadas para predecir.
En todo caso, el análisis de la ecuación (7) muestra que, para muestras no demasiado
alejadas del centro de la calibración, y dado que en general se cumple que m > n, el error
estándar en la concentración se puede aproximar por s(xinc) = sy/x / (A n1/2).
Debe notarse finalmente que el intervalo de confianza para la concentración predicha
puede calcularse multiplicando el valor del desvío estándar dado por la ecuación (7) por el
correspondiente coeficiente de student para un dado nivel de confianza (usualmente 95%) y
un número de grados de libertad igual a (m – 2).
6
Cifras de mérito del método
Las cifras de mérito de un método analítico se utilizan regularmente con el propósito de
calificar un determinado método y comparar sus propiedades analíticas con las provistas por
otras técnicas. Incluyen, entre otras, las siguientes:
• Sensibilidad de calibración
• Sensibilidad analítica
• Límite de detección
• Límite de cuantificación
• Rango dinámico
• Rango lineal
Debe notarse que la expresión "cifras de mérito" es la traducción correcta del inglés
figures of merit. Esta última no debe traducirse como "figuras de mérito".
Sensibilidad de calibración
La sensibilidad de calibración es igual a la pendiente de la recta de calibrado:
SEN = A (8)
Indica la variación de respuesta producida por una unidad de variación de concentración
del analito, y sus unidades son de señal × concentración–1.
Sensibilidad analítica
La sensibilidad de calibración no es adecuada para comparar dos métodos analíticos
cuando estos están basados en respuestas de diferente naturaleza (por ejemplo, absorbancia y
fluorescencia, o absorbancia y medidas electroquímicas, etc.). Para ello es preferible utilizar
la llamada sensibilidad analítica γ, definida por la relación entre la sensibilidad y el ruido
instrumental:
γ = SEN / sy (9)
donde sy es una medida conveniente del nivel de ruido en la respuesta. Para estimar el nivel de
ruido pueden usarse dos procedimientos, que en teoría deberían coincidir. En el primero, se
estima el ruido instrumental (sy) a través de los desvíos de las réplicas de las mediciones de
calibrado respecto de sus promedios:
p r
∑∑ ( yij − yi ) 2
i =1 j =1
sy = (10)
m− p
donde p es el número de niveles de concentración estudiados en la recta, r es el número de
réplicas de cada punto, yij es el valor de la respuesta correspondiente a cada nivel y réplica, e
yi es el promedio de las respuestas de las réplicas para cada nivel de concentración. En la
ecuación (10), el número de grados de libertad es m – p, ya que de los m datos disponibles, p
grados de libertad se reservan para el cálculo de las p medias y i . Este cálculo se ilustra en
forma detallada en el ejercicio resuelto que acompaña al presente documento.
En el segundo método de estimación del nivel de ruido, se lo estima como el desvío
estándar de los residuos de la regresión lineal, el parámetro ya definido sy/x [véase la ecuación
(5)].
Si los datos estudiados cumplen la relación lineal entre respuesta y concentración, los dos
métodos anteriormente descritos deben proveer resultados similares en cuanto a la estimación
del ruido instrumental.
7
Límite de detección
Es la mínima concentración detectable de manera confiable por la técnica. En la
definición moderna, el límite de detección (LOD) se calcula en función del desvío estándar de
la concentración predicha para una muestra blanco (s0).4 Para estimar s0 se recurre a la
ecuación (7), escrita del modo siguiente:
s y / x 1 1 ( xinc − x ) 2
s(xinc) = + + (11)
A n m Qxx
Si suponemos que se analiza una muestra por triplicado (lo más usual es n = 3) en la que
el analito no está presente (xinc = 0), la ecuación (11) se reduce a:
sy/ x 1 1 x 2
s0 = + + (12)
A 3 m Q xx
aunque s0 será diferente si se emplea un número diferente de réplicas. En todo caso, es
importante informar qué valor de n se considera en el cálculo de s0 y por lo tanto del LOD.
Como se muestra en la Figura 1, el LOD se calcula mediante una prueba de hipótesis
estadística. En primer lugar se fija una concentración llamada nivel crítico (LC en la Figura 1),
a partir de la cual se toman decisiones respecto de la detección del analito. Para
concentraciones superiores a LC, existe una probabilidad α de cometer el llamado error de
tipo I o falso positivo. Este último consiste en aceptar erróneamente la hipótesis alternativa,
admitiendo que el analito está presente cuando en realidad está ausente. Como se aprecia en la
Figura 1, la probabilidad de cometer este error de tipo I está dada por la zona sombreada de
azul (área α), siendo la "distancia" de LC al cero de la escala igual al producto de s0 por el
coeficiente tα,ν. Si α se toma igual a 0,05, entonces una concentración superior a LC tendrá
sólo un 5% de probabilidad de constituir un falso positivo.
Del mismo modo, existe una probabilidad β de cometer un error de tipo II o falso
negativo, en el que se acepta erróneamente la hipótesis nula, admitiendo que el analito está
ausente cuando en realidad está presente (zona sombreada de rojo en la Figura 1, con
probabilidad igual a β). Si β se toma también como 0,05, la probabilidad de obtener un falso
negativo será del 5%. En este caso la distancia de LC a la concentración correspondiente a
dicho valor de β es el producto del coeficiente tβ,ν por s0, considerando que este último
parámetro es muy cercano al desvío estándar en la concentración de una muestra blanco.
Puede notarse entonces que el valor de LOD depende de α y β, y de los desvíos estándar
de las dos curvas gaussianas de la Figura 1. En general, ambas probabilidades se toman como
iguales 0,05, mientras que los desvíos estándar se suponen ambos iguales a s0. De este modo,
el LOD está dado por:5
LOD = 2 × t0,05,m–2 × s0 (13)
6 7
definición que ha sido adoptada también por IUPAC e ISO. En la práctica, dado que m es un
número relativamente grande, el valor de (2×t0,05,m–2) tiende a 3,3, por lo que una ecuación
aproximada para el límite de detección es LOD = 3,3 s0.
Nótese que antiguamente se definía el LOD contemplando únicamente errores de tipo I,
como la concentración correspondiente a una relación señal/ruido igual a 3, lo que equivale a
fijar el límite de detección como LOD = 3sbl / A, donde sbl es el desvío estándar en la señal
del blanco. En esta aproximación, la probabilidad de cometer errores de tipo I era de 0,1%,
que corresponde a t0,001,ν = 3 (para un número muy grande de grados de libertad). Esta
definición, ya abandonada por la IUPAC, no contempla los errores de tipo II.
8
(tα,ν + tβ,ν) s0
Límite de cuantificación
Es la mínima concentración cuantificable en forma confiable. Este parámetro (LOQ) se
toma como la concentración correspondiente a 10 veces el desvío estándar (en unidades de
concentración) del blanco, con lo cual:
LOQ = 10 s0 (14)
De este modo, el desvío estándar relativo (DSR) para una concentración igual al LOQ es
del 10%, nivel que se toma convencionalmente como el máximo DSR aceptable para
cuantificar el analito en una muestra.
Rango dinámico
Se considera que va desde la menor concentración detectable (el LOD) hasta la pérdida de
relación entre respuesta y concentración; véase la Figura 2, adaptada de la excelente obra de
Valcárcel.8 El rango dinámico es también el rango de aplicabilidad de la técnica. En la zona
de pérdida de la linealidad, podría aplicarse, en principio, un método de regresión polinómica
para la calibración (o algún otro de naturaleza no lineal), de modo que nada impide que dicha
zona sea utilizada con propósitos predictivos.
Rango lineal
Se considera que el rango lineal comprende desde la menor concentración que puede
medirse (el LOQ) hasta la pérdida de la linealidad (Figura 2). Una manera conveniente de
medir el cumplimiento de la linealidad es a través de la relación que existe entre la variancia
de la regresión, medida por (sy/x)2 [ecuación (5)], y la del ruido instrumental, medida por (sy)2
[ecuación (10)]. Si la primera es significativamente mayor que la segunda, se supone que hay
causas de desvío de la ley lineal que son estadísticamente superiores al ruido en la respuesta.
Para emplear esta prueba es esencial que se cumpla el supuesto bajo el cual se realiza el ajuste
lineal, esto es, que los errores en concentración de calibrado sean menores que en respuesta.
De lo contrario, se acumularían en (sy/x)2 incertidumbres derivadas de la imprecisión en las
concentraciones de los patrones, que nada tienen que ver con el ruido instrumental o las
pérdidas de la linealidad.
La prueba estadística que se utiliza para determinar si los datos se ajustan a la ley lineal es
la F: en primer lugar se calcula un valor "experimental" de F, dado por:
9
Fexp =
(s y / x )2
(15)
(s y )2
Luego se compara este valor con el crítico que se encuentra en tablas de F (de una cola)
para m – 2 y m – p grados de libertad, y un determinado nivel de confianza, por ejemplo 95%.
Si Fexp < F, se acepta que los datos se comportan linealmente. Alternativamente, se calcula la
probabilidad pF asociada a este valor de Fexp, y se considera que la prueba de linealidad es
aceptada si pF > 0,05. Esta prueba se describe en detalle en el trabajo de Danzer y Currie.1
Rango dinámico
Respuesta
Rango lineal
Pérdida de la relación
respuesta-concentración
Extremo superior
del rango lineal
Concentración
LOD
LOQ
10
A
Residuos 0
B
Residuos
C
Residuos
Concentración
Figura 3. Residuos de la regresión. A) Comportamiento
lineal. B) Comportamiento no lineal. C) Comportamiento
lineal con alta incertidumbre en la concentración de los
patrones.
También es útil, como en todo ajuste por cuadrados mínimos, examinar visualmente la
distribución de los residuos de la regresión. Un gráfico de residuos (yi – A xi + B) en función
de xi puede ser muy informativo respecto de la presencia de no linealidades, ya que el valor de
Fexp puede resultar significativo no solamente porque la relación entre las variables no sea
lineal, sino por incertidumbres en la preparación de los patrones. La Figura 3 ilustra casos
representativos al respecto. En el caso A), el comportamiento es lineal: se espera que la
11
distribución de los residuos sea al azar, y que la variabilidad interna de las réplicas a cada
nivel de concentración sea comparable a la variabilidad global (precisamente este es el sentido
de la prueba estadística F antes comentada). En el caso B) se aprecia visualmente que los
residuos poseen un comportamiento parabólico, caso típico de desvíos de la ley lineal.
Finalmente, en el caso C), los residuos muestran una variabilidad global significativamente
mayor que la que presentan las réplicas a cada nivel. Esta situación es típica de la presencia de
mayor incertidumbre en las concentraciones nominales de los patrones de calibrado que en la
señal instrumental, aunque el sistema se comporte linealmente. De ahí que se haya puesto
hincapié en la necesidad de contar con patrones cuya concentración se conozca con mayor
precisión que el ruido instrumental. En general, sin embargo, la distribución de los residuos
no es tan clara como los casos presentados en la Figura 3, por lo que es importante aplicar el
criterio estadístico F.
Debe notarse que no hemos empleado, en todo este documento, al parámetro r, el
coeficiente de correlación, aún cuando popularmente se recurre a él como prueba de
linealidad o de bondad del ajuste. En este sentido, vale la pena repetir textualmente el
siguiente pasaje del trabajo de Danzer y Currie: "el coeficiente de correlación, que es una
medida de la relación de dos variables azarosas, no tiene ningún significado en la calibración
analítica, debido a que los valores de x no están distribuidos al azar".1 El coeficiente de
correlación se emplea para responder preguntas tales como: ¿está correlacionada la
concentración de antimonio con la de plomo en muestras de agua de una zona productora de
metales?. En este caso se trata de analizar si existe correlación entre variables sobre las que el
operador tiene muy poco control.
Programas de computación
Los métodos descritos en esta clase pueden aplicarse con cualquier programa comercial
que sea capaz de efectuar una regresión por cuadrados mínimos. Los parámetros faltantes
pueden calcularse luego "a mano" con las ecuaciones provistas en este documento. En este
sentido, la obra de Gardiner2 hace una excelente descripción del uso de la planilla de cálculo
EXCEL para propósitos analíticos en general, y para estudios mediante regresión univariada
en particular.
Para quienes deseen introducirse al mundo del entorno matricial MATLAB, esencial para
cálculos avanzados en quimiometía, se proveen dos rutinas que calculan todos los parámetros
aquí descritos, y permiten calibrar y predecir a partir de datos univariados. Confiamos que la
discusión del ejercicio resuelto que se acompaña, el contenido del documento 'COMO
OPERAR CON MATLAB.PDF', así como las rutinas 'LR_CAL.M' y 'LR_PRED.M',
proveerán la información requerida para organizar los datos e implementar las rutinas.
También se proveen programas independientes ejecutables en QB, como alternativa para
quienes no puedan acceder a MATLAB: 'LR_CAL.EXE' y 'LR_PRED.EXE'. Para operarlos
puede consultarse el documento 'COMO OPERAR CON QB.PDF'.
Ejercicio resuelto
1) La Tabla 1 proporciona un ejemplo de datos de respuesta-concentración para su análisis,
incluyendo respuestas medidas por triplicado. Grafique los datos de respuesta en función de la
concentración y compruebe en forma visual que se desvían de la linealidad. Establezca un
límite superior del rango lineal en forma cualitativa, para luego compararlo con el calculado
mediante una prueba estadística apropiada.
12
Tabla 1. Concentraciones y respuestas para un rango en el que se sospecha
que existen desvíos de la linealidad.
Concentración Respuesta 1 Respuesta 2 Respuesta 3
del patrón
0,00 0,06 0,08 –0,06
1,00 1,44 1,56 1,41
2,00 2,82 2,76 2,90
3,00 4,15 4,20 4,08
4,00 5,29 5,46 5,52
5,00 6,61 6,54 6,69
6,00 7,79 7,70 7,69
7,00 8,89 8,97 8,83
8,00 10,03 9,88 9,77
9,00 10,84 10,91 10,65
10,00 11,87 11,81 11,90
Note que los valores de concentración están dados con una precisión de ±0,01, lo cual
implica un error relativo porcentual promedio de 0,01×100/5 = 0,2% (Tomamos 5 como el
valor promedio de las concentraciones de calibrado). Los valores de respuesta también están
informados con una incertidumbre de ±0,01 unidades, si bien un análisis cualitativo de la
variabilidad de los replicados indica que la incertidumbre en esta medición es mayor que lo
informado en la Tabla 1. Posteriormente haremos un análisis más detallado, pero en principio
es importante verificar que la incertidumbre relativa es mayor en la respuesta que en la
concentración.
Usuarios de MATLAB: los datos de la Tabla 1 están contenidos, en el formato apropiado
para ser estudiados por la rutina 'LR_CAL.M' de Matlab, en el archivo de texto
'DATOS_EJ_RES_COMPLETOS.TXT'.
Usuarios de QB: los datos están en el archivo de texto 'D_E_R_C.TXT', para ser
estudiados por el programa 'LR_CAL.EXE'.
2) La Tabla 2 muestra los mismos datos que la Tabla 1, restringidos hasta un límite
superior de concentración para el cual se cumple la linealidad (más adelante se muestra cómo
se llegó a esta conclusión).
13
Calcule los valores de la pendiente y ordenada al origen para la recta ajustada con los
datos de la Tabla 2.
3) Estime los desvíos estándar en la pendiente y ordenada al origen, e informe los valores
de A y B con el número correcto de cifras significativas.
4) La Tabla 3 muestra los valores de la respuesta para cuatro muestras incógnita, todos por
triplicado.
Los datos de la Tabla 3 están contenidos, en el formato apropiado para ser estudiados por
la rutina 'LR_PRED.M' de Matlab, en el archivo de texto 'DATOS_EJ_RES_TEST.TXT'.
Estime la concentración del analito en las cuatro muestras de la Tabla 3, calcule sus
desvíos estándar e informe el resultado con el número apropiado de cifras significativas.
Respuesta detallada
1) El análisis de estos datos mediante los programas LR_CAL.M (Matlab) o
LR_CAL.EXE (QB) indica que los datos no se comportan en forma lineal. En particular, se
obtiene un valor de Fexp de 8,88, con una probabilidad asociada pF de 0,001. La gráfica de los
residuos es informativa al respecto:
14
2) Los valores estimados, dados por las ecuaciones (1) y (2) son, para el ejemplo de la
Tabla 2, A = 1,3174 y B = 0,1237. Estos últimos números tienen, probablemente, más cifras
significativas que lo permitido por sus desvíos estándar. Para acotarlos al número correcto de
cifras es necesario estimar sus incertidumbres.
3) Los desvíos estándar calculados son sy/x = 0,1, sA = 0,01 y sB = 0,04. Lo correcto es
informar la pendiente y ordenada al origen de la recta ajustada del modo que sigue:
A = 1,32(1)
B = 0,12(4)
15
Puede notarse que la concentración predicha se acotó a dos cifras decimales significativas,
teniendo en cuenta que los desvíos estándar son todos aproximadamente de 0,05 unidades.
Nótese que los valores de s(xinc) son iguales en la Tabla 4 porque se informan con una sola
cifra significativa, aunque su cálculo detallado demuestra que difieren entre sí, de la manera
prevista por el efecto de la leva.
Es importante destacar también que el desvío estándar relativo (DSR) dado en la Tabla 4
es alto para la primera muestra, y razonablemente bajo para las otras. En el primer caso, la
concentración predicha es también baja. Estas consideraciones se relacionan con la mínima
concentración detectable por la técnica, que se considerará a continuación.
También pueden fijarse los intervalos de confianza alrededor de una predicción,
empleando los coeficientes de student de dos colas para un 95% de confianza y (m – 2) grados
de libertad. Por ejemplo, para la muestra No. 4 en la Tabla 4:
xinc = 3,51 ± t(p = 0,05; 16 GL) × s(xinc) = 3,51 ± 2,1 × 0,05 = 3,5 ± 0,1
Como puede verse en la figura anterior, la distribución de los residuos conserva aún
rastros de la falta de linealidad de los datos, pero la prueba F dice que esta impresión no es
estadísticamente relevante: Fexp = 1,58, pF = 0,21. La Tabla 5 ilustra el cálculo detallado de sy
para esta prueba.
En el presente ejemplo, la sensibilidad está dada por SEN = 1,32 (Unidades de
respuesta)×(Unidades de concentración)–1
Para el cálculo de la sensibilidad analítica se requiere una estimación del nivel de ruido
instrumental. Para los datos de la Tabla 2, p = 6, r = 3, sy = 0,08 (véase la Tabla 5 para el
detalle del cálculo).
16
Tabla 5. Parámetros requeridos para el cálculo de sy.
i j yij yi (yij – yi )2
1 0,06 0,0009
1 2 0,08 0,03 0,0025
3 –0,06 0,0081
1 1,44 0,0009
2 2 1,56 1,47 0,0081
3 1,41 0,0036
1 2,82 0,0001
3 2 2,76 2,83 0,0049
3 2,90 0,0049
1 4,15 0,0001
4 2 4,20 4,14 0,0036
3 4,08 0,0036
1 5,29 0,0169
5 2 5,46 5,42 0,0016
3 5,52 0,0100
1 6,61 0,0000
6 2 6,54 6,61 0,0049
3 6,69 0,0064
p r
17
Tabla 6. Rangos de concentración y estudio de la linealidad mediante la prueba F.
Rango de concentración Fexp pF
0-10 8,88 0,001
0-9 6,69 0,001
0-8 4,62 0,001
0-7 3,50 0,007
0-6 2,73 0,031
0-5 1,58 0,214
Estos resultados indican que a partir de una concentración de analito igual a 6 unidades se
pierde la linealidad. En realidad, la no-linealidad se mantiene. Debería decirse que a partir de
6 unidades de concentración no es posible distinguir la incertidumbre por falta la linealidad de
la incertidumbre intrínseca de la respuesta analítica.
La Tabla 7 resume las cifras de mérito calculadas.
Ejercicios propuestos
1) Se analiza una serie de muestras patrones mediante dos métodos analíticos, uno basado
en medidas de absorbancia y otro basado en medidas de fluorescencia. Los resultados se
muestran en la siguiente tabla:
Calcule las cifras de mérito para cada método. ¿Cuál de estos métodos puede considerarse
más sensible? ¿Qué parámetro(s) emplea para justificar la mayor sensibilidad de un método
sobre el otro?.
2) Se mide por triplicado una muestra incógnita, usando ambos métodos descriptos en el
problema anterior. Los resultados se presentan en la siguiente tabla:
18
Método A Método B
Respuesta Respuesta Respuesta Respuesta Respuesta Respuesta
1 2 3 1 2 3
0,25 0,26 0,25 25,2 25,1 25,3
Calcular la concentración del analito por ambos métodos, y estimar su desvío estándar.
¿Qué comentarios pueden hacerse respecto de estos resultados?
Caso A
Muestra Concentración Respuesta 1 Respuesta 2 Respuesta 3
1 0,000 0,78 0,80 0,82
2 0,198 3,38 3,44 3,51
3 0,392 5,75 6,16 6,01
4 0,583 8,53 8,51 8,68
5 0,769 10,97 11,04 10,89
6 0,950 13,40 13,08 13,37
Caso B
Muestra Concentración Respuesta 1 Respuesta 2 Respuesta 3
1 0,000 0,01 0,03 0,04
2 0,198 1,96 1,88 1,90
3 0,392 3,75 3,75 3,80
4 0,583 5,59 5,52 5,56
5 0,769 7,30 7,35 7,27
6 0,950 9,07 8,95 9,03
7 1,130 10,83 10,71 10,46
8 1,310 12,08 12,11 12,21
19
El 42,57 % de toda la estadística está equivocado.
Clase 2
Regresión lineal
20
Por otro lado, cuando se desean comparar dos métodos analíticos, se determina, por
ambos métodos, el contenido de un analito en una serie de muestras en las que su
concentración es variable (dentro del rango lineal de cada uno de ellos).
En ambos casos se trata de comparar parejas de valores que idealmente serían iguales, y
estudiar el posible desvío de esta situación ideal, en un contexto estadístico y con un cierto
nivel de confianza. Es por esta razón que ambos procedimientos se incluyen en la presente
clase.
21
max[s ( yi ) 2 ]
Fexp = (2)
min[s ( yi ) 2 ]
Este valor se compara luego con el valor crítico de tablas para n – 1 y n – 1 grados de
libertad (usualmente con el 95% de confianza). Si Fexp > Fcrit entonces se recomienda calcular
los parámetros A y B de la regresión con el método WLS que se describe más adelante.
22
son variables estadísticamente independientes, y que siempre existe un cierto grado de
correlación entre ellas.
El procedimiento correcto debe considerar el intervalo de confianza conjunto entre la
pendiente y la ordenada al origen. Este intervalo es una región en el plano de las dos variables
(pendiente y ordenada al origen) que tiene forma elíptica. Por este motivo, la prueba
estadística correcta consiste en investigar si el punto (1,0) está contenido en la región elíptica
de confianza conjunta de la pendiente y la ordenada al origen. La prueba se conoce como
EJCR (por elliptical joint confidence region). Específicamente, la región elíptica está
descripta por la siguiente ecuación:9
q q
q(β − B) 2 + 2(α − A)(β − B)∑ xi + (α − A) 2 ∑ xi2 = 2 s 2y / x F2,q −2 (3)
i =1 i =1
En la ecuación precedente, α y β son las variables que corresponden a las dos dimensiones
del plano en que se representa la región elíptica, y F2,q–2 es el valor del parámetro estadístico
F con 2 y q – 2 grados de libertad para un dado nivel de confianza (usualmente 95%).
Por lo tanto, debe dibujarse en un gráfico bidimensional la región anterior y verificar si
contiene al punto (1,0). Detalles de cómo se dibuja esta elipse en un caso particular se dan en
el ejercicio resuelto del documento que se acompaña. La Figura 2 ilustra este tipo de región
para un caso típico: si el punto (1,0) no está contenido dentro de la elipse, esto implica que el
método no es exacto.
Es importante remarcar que el tamaño de la elipse, que está controlado, entre otros
parámetros, por el desvío estándar de la regresión sy/x, da una idea de la precisión del método
analítico que se está probando. En este sentido, es importante utilizar un número significativo
de niveles de concentración para la prueba de exactitud, de manera que sy/x sea representativo
de la regresión. De lo contrario, si se emplean sólo unos pocos niveles de concentración, se
corre el riesgo de que la elipse abarque un área considerable, e incluya al punto ideal (1,0)
sólo por azar. Véase la Figura 3 para aclarar este punto.
Nótese que el valor de sy/x en este caso es similar al parámetro usualmente empleado en la
comparación de concentraciones predichas y nominales, llamado RMSE (por root mean
square error):
∑ ( y predicho − y nominal ) 2
RMSE = (4)
q
Se divide el numerador por q (y no por q – 1) debido a que RMSE no es un desvío
estándar, sino la raíz cuadrada de una media de desvíos.
23
0.2 0.2
Ordenada al origen
Ordenada al origen
0.0 0.0
-0.2 -0.2
1.0 1.1 1.0 1.1
Pendiente Pendiente
■
Ordenada al origen
Pendiente
Figura 3. Distintos tipos de elipses, de acuerdo con la exactitud y precisión: verde, exacta
y precisa; celeste, exacta e imprecisa; amarilla, inexacta e imprecisa; naranja, inexacta y
precisa. El cuadrado negro marca el punto ideal (1,0).
Regresión ponderada
Si los datos no cumplen con la prueba de homoscedasticidad, el análisis de los datos de
validación debe hacerse mediante regresión lineal ponderada. En este caso se calculan la
pendiente (A) y ordenada al origen (B) de la recta ajustada a la ecuación y = A x + B,
minimizando la siguiente suma ponderada de cuadrados (SC):
q
SC = ∑ wi ( yi − yˆ i ) 2 (5)
i =1
24
donde wi es el "peso" o "ponderación" aplicado a cada punto de la regresión, q el número de
puntos, yi el valor de la variable y en cada punto (los promedios yi de las réplicas) e y es el
promedio de los valores de la variable y. En el método OLS utilizado en calibración, la suma
de cuadrados no incluye peso o ponderación alguna.
Cuando los datos son heteroscedásticos, el peso wi se define como inversamente
proporcional a la variancia de la variable en el punto i:
1
wi = (6)
s ( yi ) 2
El efecto concreto del pesado de los datos en forma inversamente proporcional a su
variancia es dar mayor contribución, en la regresión, a los datos más precisos, y
comparativamente menor peso a los menos precisos.
Los valores estimados de A y B de una regresión lineal ponderada se calculan mediante las
siguientes ecuaciones:
q
∑ wi ( xi − x w )( yi − y w )
i =1
A= q
(7)
∑ wi ( xi − xw ) 2
i =1
B = y w – A xw (8)
donde xi es la concentración de cada uno de los q patrones de validación, y los parámetros xw
e y w son las coordenadas del centro de gravedad pesado por donde pasa la recta ajustada, que
están dadas por:
q
∑ wi xi
i =1
xw = q
(9)
∑ wi
i =1
q
∑ wi yi
i =1
yw = q
(10)
∑ wi
i =1
En el método WLS el parámetro sy/x (el desvío estándar de los residuos de la regresión)
está dado por:
q
∑ wi ( yi − yˆ i ) 2
i =1
sy/x = (11)
q−2
donde yi es la respuesta experimental, e ŷi representa la respuesta estimada en cada punto,
esto es, ŷi = A xi + B.
El lector podrá comprobar que si todos los wi son idénticos entre sí (homoscedasticidad
perfecta), las ecuaciones anteriores se reducen al caso OLS tratado en la Clase 1.
25
q q q
(β − B) 2 ∑ wi + 2(α − A)(β − B)∑ wi xi + (α − A) 2 ∑ wi xi2 = 2s 2y / x F2,q−2 (12)
i =1 i =1 i =1
26
Programas de computación
Usuarios de MATLAB: se provee acceso a la rutina EJCR.M que puede usarse para
aplicar los métodos OLS, WLS y BLS, y generar la elipse correspondiente.
Usuarios de QB: se provee acceso al programa EJCR.EXE, que realiza las operaciones
necesarias pero no grafica la elipse. Esta última puede obtenerse importando los datos
generados por el programa en un entorno gráfico apropiado.
Véase también el ejercicio resuelto detalladamente que se acompaña.
Ejercicio resuelto
1) La Tabla 1 muestra datos para analizar la exactitud de un método analítico. Determine si
el método es exacto mediante regresión lineal y estudio de la región elíptica de confianza
conjunta para A y B.
Tabla 2. Concentraciones halladas por dos métodos analíticos con sus desvíos
estándar.
Muestra Método 1 Desvío Método 2 Desvío
estándar estándar
1 0,05 0,03 0,06 0,06
2 5,16 0,02 5,02 0,05
3 9,91 0,02 10,00 0,04
4 14,90 0,01 15,20 0,02
5 19,80 0,02 19,90 0,03
6 24,90 0,01 25,00 0,04
7 30,00 0,03 30,00 0,06
Respuesta detallada
1) En primer lugar debemos determinar si los datos de la Tabla 1 son homoscedásticos.
Para ello calculamos el cociente:
max[s ( yi ) 2 ] (0,06) 2
Fexp = = =9
min[s ( yi ) 2 ] (0,02) 2
27
Dado que este último valor es mayor que el de tabla [Fcrit (95%,4,4) = 6,5] concluimos
que los datos son heteroscedásticos, y que debemos emplear el método WLS para el análisis
por regresión lineal. Calculamos entonces los pesos wi de cada dato, los que se reúnen en la
Tabla 3. El cálculo de cada peso se realiza mediante la ecuación:
qs ( yi ) −2
wi = q
∑ s( yi ) −2
i =1
De esta manera, se consigue que la suma de los pesos sea igual a q, lo que facilita los
cálculos.
Note que los pesos son mayores para datos con menor desvío estándar.
Para la muestra número 1, por ejemplo, tendremos:
7
(0,06) 2
w1 = = 0,33
1 1 1 1 1 1 1
+ + + + + +
(0,06) 2 (0,05) 2 (0,04) 2 (0,02) 2 (0,03) 2 (0,04) 2 (0,06) 2
Luego debemos calcular los valores de los diferentes productos de variables y pesos, que
se muestran en la Tabla 4.
28
q
∑ wi ( xi − x w )( yi − y w )
i =1
A= q
=
∑ wi ( xi − xw ) 2
i =1
q
∑ wi xi yi − vx w y w 2.064,3327 − 7 × 15,72 × 15,88
i =1
= = = 1,0022
q
2.046,0405 − 7 × (15,72) 2
∑ wi xi2 − vx w2
i =1
B = y w – A xw = 15,88 – 1,0022 × 15,72 = 0,12
Estos valores deben acotarse al número correcto de cifras significativas conociendo los
desvíos estándar correspondientes. Los desvíos estándar en la pendiente y la ordenada al
origen, estimadas por el método WLS de regresión lineal, están dados por ecuaciones
análogas a las empleadas en el método OLS, pero con los valores de x e y pesados
convenientemente:
sy/ x
sA =
Qxx
1 x w2
sB = s y / x +
m Qxx
donde sy/x se determina mediante la ecuación apropiada para datos pesados (WLS), tal como
se describió en la parte teórica:
q
∑ wi ( yi − yˆ i ) 2
i =1
sy/x = = 0,16
q−2
Por su parte, Qxx está dado por:
q
Qxx = ∑ wi xi2 − qx w2 = 316,2
i =1
A partir de estos parámetros, se obtiene (redondeando a una cifra significativa):
sA = 0,01
sB = 0,2
Por lo tanto, la pendiente y la ordenada al origen se informan como A = 1,00(1) y B =
0,1(2).
Para el estudio de la región elíptica, necesitamos los siguientes parámetros:
q=7
q
∑ wi xi = 110,0153
i =1
q
∑ wi xi2 = 2.046,0405
i =1
s 2y / x = 0,026
F2,q −2 = 8,6
Por lo tanto, la ecuación de la elipse estará dada por:
7(β − 0,1) 2 + 220,0306(α − 1)(β − 0,1) + 2.046,0405(α − 1) 2 = 0,44
29
La ecuación anterior tiene la siguiente forma:
a1 (α − A) 2 + a 2 (α − A)(β − B) + a3 (β − B) 2 = a 4
donde a1, a2, a3, a4, A y B son constantes y α y β son las variables. Los valores de las
constantes son:
a1 = 2,046×103
a2 = 220,03
a3 = 7
a4 = 0,44
A=1
B = 0,1
La ecuación describe una elipse en el plano (α,β). Para dibujar esta elipse es necesario
conocer sus límites en el eje de las abscisas (α). Estos límites se pueden calcular a partir de
las siguientes consideraciones. En primer lugar re-escribimos la ecuación anterior como de
segundo grado en (β – B):
a3 (β − B) 2 + a 2 (α − A)(β − B) + [a1 (α − A) 2 − a 4 ] = 0
Luego calculamos los valores de (β – B) a partir de la resolvente de segundo grado:
− a 2 (α − A) ± a 2 (α − A) 2 − 4a3 [a1 (α − A) 2 − a 4 ]
2
(β – B) =
2a 3
Observamos que sólo se obtendrán valores reales de (β – B) si se cumple que la expresión
dentro de la raíz cuadrada es positiva; los límites se encuentran cuando esta expresión se
iguala a cero:
a 2 2 (α − A) 2 − 4a3 [a1 (α − A) 2 − a 4 ] = 0
de donde se pueden calcular los límites superior e inferior de (α – A) como:
4a 3 a 4
LIM(α – A) = ± = ± 0,0373
− a 2 2 + 4a3 a1
Para construir una tabla de valores de α y β, y graficar la elipse se calculan los
correspondientes valores de β dentro de estos límites de α mediante la ecuación:
− a 2 (α − A) ± a 2 (α − A) 2 − 4a3 [a1 (α − A) 2 − a 4 )]
2
β=B+
2a 3
Ejemplos de pares de valores de α y β calculados con la ecuación anterior son:
α–A α β
–0,0373 0,9627 0,7110 0,6520
–0,0273 0,9727 0,6971 0,3516
–0,0173 0,9827 0,5903 0,1441
–0,0073 0,9927 0,4563 –0,0362
0,0027 1,0027 0,3027 –0,1970
0,0127 1,0127 0,1306 –0,3393
0,0227 1,0227 –0,0642 –0,4587
0,0327 1,0327 –0,3022 –0,5350
30
1
-1
0.96 0.98 1.00 1.02 1.04 1.06
Pendiente (α)
Se aprecia claramente que el punto ideal (1,0) está contenido en la elipse, por lo que el
método analizado es exacto.
Usuarios de MATLAB: los datos de la tabla están contenidos en el archivo de texto
'DATOS_EXACT_WLS.TXT', y organizados de tal modo que pueden estudiarse mediante la
rutina de MATLAB 'EJCR.M', de la manera descrita en la Clase 1. Esta rutina proporciona los
valores ajustados de pendiente y ordenada al origen, produce una figura con la
correspondiente elipse, y genera un archivo de texto que contiene los valores numéricos
necesarios para graficar la región elíptica mediante programas gráficos: la primera columna
de este archivo contiene los valores de pendiente y la segunda y tercera los valores de
ordenada al origen que corresponden a las dos mitades de la elipse.
Usuarios de QB: los datos están en el archivo 'D_E_WLS.TXT' para ser estudiados por
EJCR.EXE.
2) En este caso se trata de comparar dos métodos analíticos. Los resultados del análisis
mediante WLS son idénticos a los discutidos para la parte 1) (¿porqué?).
Cuando se realiza un análisis BLS se calculan los siguientes valores de pendiente y
ordenada al origen:
A = 1.00(1)
B = 0,1(2)
Nótese que son idénticos a los hallados mediante la técnica WLS. La explicación es que
los valores de la variable x (las concentraciones estimadas mediante el método analítico 1)
tienen desvíos estándar menores que los de y (las concentraciones estimadas mediante el
método analítico 2). Como consecuencia, es prácticamente lo mismo realizar el análisis
mediante WLS o mediante BLS.
Usuarios de MATLAB: los datos de la tabla están contenidos en el archivo de texto
'DATOS_COMPAR_BLS.TXT', y organizados de tal modo que pueden estudiarse mediante
la rutina de MATLAB 'EJCR.M', de la manera descrita en la Clase 1. Esta rutina proporciona
31
los valores ajustados de pendiente y ordenada al origen, produce una figura con la
correspondiente elipse, y genera un archivo de texto que contiene los valores numéricos
necesarios para graficar la región elíptica mediante programas gráficos: la primera columna
de este archivo contiene los valores de pendiente y la segunda y tercera los valores de
ordenada al origen que corresponden a las dos mitades de la elipse.
Usuarios de QB: los datos están en D_C_BLS.TXT.
Ejercicios propuestos
1) Los valores siguientes corresponden a la comparación entre las predicciones efectuadas
para la determinación de teofilina en sangre mediante un método espectrofotométrico,
comparado con un método de inmunofluorescencia polarizada (FPIA). No se determinaron las
muestras por triplicado debido a la cantidad insuficiente de muestra (sueros de pacientes
pediátricos). Sin embargo, se estima que los desvíos estándar promedio para cada método son:
0.4 μg ml−1 para el método FPIA y 0.9 μg ml−1 para el espectrofotométrico. Llevar a cabo el
análisis de comparación de métodos mediante la construcción de la elipse apropiada,
suponiendo que los desvíos estándar anteriores son constantes para todos los datos.
32
Muestra Nominal Método 1 Método 2 Método 3
1 190 173 214 208
2 87 80 86 107
3 23 26 29 46
4 13 6 14 28
5 38 19 28 50
6 150 142 145 160
7 26 33 16 47
8 58 67 60 80
9 125 146 126 146
10 65 63 67 75
11 90 89 92 120
12 160 158 172 174
13 48 41 52 61
14 75 64 68 92
15 0 10 11 26
16 0 5 8 21
17 0 3 7 30
18 0 11 7 27
33
Resoluciones a los ejercicios propuestos
Respuestas a los ejercicios propuestos en la clase 1
1) Empleando las ecuaciones de regresión lineal y cálculo de cifras de mérito expuestas en
la teoría de la clase 1, se obtienen los siguientes resultados respecto de la sensibilidad:
2) Las concentraciones predichas para la incógnita y sus desvíos estándar, usando ambos
métodos, son:
Método Concentración (desvío
estándar)
A 0,153(1)
B 0,1517(4)
34
La elección entre estos dos casos es un ejemplo de que no se puede tener todo en la vida:
habría que decidir qué es más importante para aplicaciones concretas, si el rango lineal
extendido o la mayor sensibilidad.
Vale la pena destacar el resultado que se obtendría mediante un análisis BLS, esto es,
considerando que tanto la variable x como la y están sujetas a incertidumbre:
Pendiente: 0.996
Ordenada al origen: 1.16
sy/x: 2.39
35
Como puede apreciarse en la figura siguiente, el resultado final en cuanto al estudio de la
comparación de los métodos es similar al hallado mediante el análisis OLS sencillo.
2) Se requiere graficar tres elipses, calculadas por OLS, que proporcionan visualmente
una buena impresión de la exactitud y precisión relativas de los tres métodos probados:
30
3
Ordenada al origen
20
10 1
2
0
-10
0.8 0.9 1.0 1.1
36
Pendiente
La conclusión es que el método más preciso es el 3 (menor tamaño de elipse), pero es muy
poco exacto (alejado del punto ideal). El método 2 es el más exacto, y además es más preciso
que el método 1.
37
Referencias
1. K. Danzer y L. A. Currie, Guidelines for calibration in analytical chemistry. Part 1.
Fundamentals and single component calibration, Pure & Appl. Chem. 1998, 70, 993-
1014.
2. W. P. Gardiner, Statistical analysis methods for chemists. A software-based approach,
The Royal Society of Chemistry, Cambridge, 1997.
3. J. N. Miller y J. C. Miller, Estadística y quimiometría para química analítica, 4ta.
Edición, Prentice Hall, Madrid, 2002.
4. C. A. Clayton, J. W. Hines y P. D. Elkins, Detection limits with specified assurance
probabilities, Anal. Chem. 1987, 59, 2506-2514.
5. L. A. Currie, Detection and quantification limits: origins and historical perspective, Anal.
Chim. Acta 1999, 391, 127-134.
6. L. A. Currie, Recommendations in Evaluation of Analytical Methods including
Detection and Quantification Capabilities, Pure Appl. Chem. 1995, 67, 1699-1723.
7. P. Wilrich, ISO/DIS 11843-1,2 (1995), Capability of Detection, ISO/TC69/SC6, ISO
Standard, 11843-1, 1977.
8. M. Valcárcel, Principios de química analítica, Springer-Verlag Ibérica, Barcelona, 1999,
p. 81.
9. A. G. González, M. A. Herrador y A. G. Asuero, Intra-laboratory testing of method
accuracy from recovery assays, Talanta 1999, 48, 729-736.
10. D. L. Massart, B. G. M. Vandeginste, L. M. C. Buydens, S. De Jong, P. J. Lewi y J.
Smeyers-Verbeke, Handbook of Chemometrics and Qualimetrics, Elsevier, Amsterdam,
1997, Capítulo 8.
11. Los términos homoscedástico/a y homoscedasticidad existen en el contexto del
"Diccionario Estadístico" que puede consultarse en http://www.estadistico.com/dic.html.
También se usan, en forma equivalente, homocedástico/a y homocedasticidad.
12. J. Riu y F. X. Rius, Assessing the accuracy of analyical methods using linear regression
with errors in both axes, Anal. Chem. 1996, 68, 1851-1857.
38