Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Regresion Lineal PDF
Regresion Lineal PDF
qumica analtica
Alejandro C. Olivieri
Tabla de Contenidos
CLASE 1
REGRESIN LINEAL
3
3
EJERCICIO RESUELTO
RESPUESTA DETALLADA
EJERCICIOS PROPUESTOS
CLASE 2
REGRESIN LINEAL
EJERCICIO RESUELTO
RESPUESTA DETALLADA
EJERCICIOS PROPUESTOS
RESOLUCIONES A LOS
EJERCICIOS PROPUESTOS
RESPUESTAS A LOS EJERCICIOS
PROPUESTOS EN LA CLASE 1
RESPUESTA A LOS EJERCICIOS
PROPUESTOS EN LA CLASE 2
REFERENCIAS
12
14
18
20
20
27
27
32
34
34
35
38
Clase 1
Regresin lineal
tomada
de
COMO OPERAR CON QB.PDF, documento de Adobe que explica el uso de los
programas en QB.
Preparacin de patrones
Preparacin de patrones
Una vez estimado el extremo superior del rango lineal de la tcnica, deben prepararse
patrones de concentracin conocida dentro de dicho rango, e incluyendo el valor cero de
concentracin del analito (blanco). Usualmente, se preparan varios patrones (como mnimo
cinco) con concentraciones igualmente espaciadas entre cero y el extremo superior del rango
lineal, y cada patrn se analiza por triplicado.
Debe ponerse especial cuidado en la preparacin de los patrones del analito para la
calibracin, de manera que las concentraciones de calibrado se conozcan con la mxima
precisin posible. Este requisito se relaciona con el hecho de que la recta de regresin se
ajusta mediante ecuaciones que suponen que los valores del eje x (concentraciones) tienen una
incertidumbre considerablemente menor que los del eje y (respuestas).
Slo a modo de ejemplo, si se realizan mediciones de absorbancia como respuesta,
podemos suponer que el nivel de incertidumbre en la respuesta puede ser de alrededor de
0,005 unidades de absorbancia. Si los valores de las respuestas son, en promedio, de 1 unidad
de absorbancia, esto implica un nivel relativo de incertidumbre de aproximadamente 0,5% en
la respuesta. Por lo tanto, se deben preparar patrones de calibrado cuyas concentraciones se
conozcan con un error menor al 0,5%. Preparar soluciones de calibrado, por ejemplo, con
incertidumbres del orden del 0,1% en promedio, requiere pesar ms de 100 mg de reactivo,
preparar soluciones en matraces calibrados de al menos 100 mL, tomar alcuotas con pipetas
aforadas calibradas, etc.
4
A=
Qxy
Qxx
( xi x )( yi y )
i =1
(1)
( xi
x)2
i =1
B = y Ax
(2)
donde xi es la concentracin de cada uno de los m patrones de calibrado, x es el promedio de
las concentraciones de calibrado, yi es la respuesta en cada punto e y es el promedio de las
respuestas de los patrones de calibrado.
Adems de los valores individuales de A y B, es importante tener una idea de su
incertidumbre asociada, ya que los datos instrumentales llevan asociados un error que
depende del ruido instrumental, y el ajuste por cuadrados mnimos slo provee estimaciones
de la pendiente y ordenada al origen. Los desvos estndar en los parmetros A y B se calculan
con las siguientes ecuaciones:
sy/ x
sA =
(3)
Qxx
1 x2
+
(4)
m Qxx
En las ecuaciones precedentes, el parmetro sy/x es el desvo estndar de los residuos de la
regresin y est dado por:
sB = s y / x
sy/x =
( yi y i ) 2
i =1
(5)
m2
donde yi es la respuesta experimental de cada patrn de calibrado e y i representa la respuesta
estimada en cada punto, esto es, y i = A xi + B. En la ecuacin (5) se emplean m 2 grados de
libertad, ya que hay m datos disponibles, y 2 parmetros estimados en la regresin (A y B).
Estos parmetros estadsticos dan tambin una idea de la bondad de la regresin. Es
deseable que sy/x sea lo ms pequea posible; no obstante su valor est limitado por el ruido
instrumental. La distribucin de los residuos, es decir, el modo en que los valores de (yi y i )
varan con la respuesta, cumple tambin un papel importante en el anlisis de la adecuacin
de los datos al modelo lineal, como veremos ms adelante.
m
colectivamente reciben el nombre de leva (del ingls leverage). La leva mide, de algn modo,
la "distancia" de la muestra incgnita al centro de la calibracin. Dado que la leva es mnima
cuando la concentracin de la incgnita es igual al promedio de las concentraciones de
calibrado (esto es, cuando xinc = x ), se concluye que el mtodo posee su mxima precisin en
este ltimo caso. De ah que se recomiende analizar muestras cuya concentracin de analito
sea cercana al centro de las concentraciones de calibrado. La extrapolacin a concentraciones
mucho mayores o menores que el promedio de la calibracin aumenta la leva y con ello el
error en la prediccin.
Otra conclusin que puede extraerse de la ecuacin (7) es que el efecto de la calibracin
sobre el error de prediccin ser tambin menor si m > n, es decir, cuando el nmero de
patrones de calibrado es superior al de rplicas empleadas para predecir.
En todo caso, el anlisis de la ecuacin (7) muestra que, para muestras no demasiado
alejadas del centro de la calibracin, y dado que en general se cumple que m > n, el error
estndar en la concentracin se puede aproximar por s(xinc) = sy/x / (A n1/2).
Debe notarse finalmente que el intervalo de confianza para la concentracin predicha
puede calcularse multiplicando el valor del desvo estndar dado por la ecuacin (7) por el
correspondiente coeficiente de student para un dado nivel de confianza (usualmente 95%) y
un nmero de grados de libertad igual a (m 2).
Sensibilidad de calibracin
Sensibilidad analtica
Lmite de deteccin
Lmite de cuantificacin
Rango dinmico
Rango lineal
Debe notarse que la expresin "cifras de mrito" es la traduccin correcta del ingls
figures of merit. Esta ltima no debe traducirse como "figuras de mrito".
Sensibilidad de calibracin
La sensibilidad de calibracin es igual a la pendiente de la recta de calibrado:
SEN = A
(8)
Indica la variacin de respuesta producida por una unidad de variacin de concentracin
del analito, y sus unidades son de seal concentracin1.
Sensibilidad analtica
La sensibilidad de calibracin no es adecuada para comparar dos mtodos analticos
cuando estos estn basados en respuestas de diferente naturaleza (por ejemplo, absorbancia y
fluorescencia, o absorbancia y medidas electroqumicas, etc.). Para ello es preferible utilizar
la llamada sensibilidad analtica , definida por la relacin entre la sensibilidad y el ruido
instrumental:
= SEN / sy
(9)
donde sy es una medida conveniente del nivel de ruido en la respuesta. Para estimar el nivel de
ruido pueden usarse dos procedimientos, que en teora deberan coincidir. En el primero, se
estima el ruido instrumental (sy) a travs de los desvos de las rplicas de las mediciones de
calibrado respecto de sus promedios:
p
( yij yi ) 2
sy =
i =1 j =1
(10)
m p
donde p es el nmero de niveles de concentracin estudiados en la recta, r es el nmero de
rplicas de cada punto, yij es el valor de la respuesta correspondiente a cada nivel y rplica, e
yi es el promedio de las respuestas de las rplicas para cada nivel de concentracin. En la
ecuacin (10), el nmero de grados de libertad es m p, ya que de los m datos disponibles, p
grados de libertad se reservan para el clculo de las p medias y i . Este clculo se ilustra en
forma detallada en el ejercicio resuelto que acompaa al presente documento.
En el segundo mtodo de estimacin del nivel de ruido, se lo estima como el desvo
estndar de los residuos de la regresin lineal, el parmetro ya definido sy/x [vase la ecuacin
(5)].
Si los datos estudiados cumplen la relacin lineal entre respuesta y concentracin, los dos
mtodos anteriormente descritos deben proveer resultados similares en cuanto a la estimacin
del ruido instrumental.
Lmite de deteccin
Es la mnima concentracin detectable de manera confiable por la tcnica. En la
definicin moderna, el lmite de deteccin (LOD) se calcula en funcin del desvo estndar de
la concentracin predicha para una muestra blanco (s0).4 Para estimar s0 se recurre a la
ecuacin (7), escrita del modo siguiente:
s y / x 1 1 ( xinc x ) 2
+ +
(11)
s(xinc) =
A
n m
Qxx
Si suponemos que se analiza una muestra por triplicado (lo ms usual es n = 3) en la que
el analito no est presente (xinc = 0), la ecuacin (11) se reduce a:
sy/ x 1 1 x 2
(12)
s0 =
+ +
A
3 m Q xx
aunque s0 ser diferente si se emplea un nmero diferente de rplicas. En todo caso, es
importante informar qu valor de n se considera en el clculo de s0 y por lo tanto del LOD.
Como se muestra en la Figura 1, el LOD se calcula mediante una prueba de hiptesis
estadstica. En primer lugar se fija una concentracin llamada nivel crtico (LC en la Figura 1),
a partir de la cual se toman decisiones respecto de la deteccin del analito. Para
concentraciones superiores a LC, existe una probabilidad de cometer el llamado error de
tipo I o falso positivo. Este ltimo consiste en aceptar errneamente la hiptesis alternativa,
admitiendo que el analito est presente cuando en realidad est ausente. Como se aprecia en la
Figura 1, la probabilidad de cometer este error de tipo I est dada por la zona sombreada de
azul (rea ), siendo la "distancia" de LC al cero de la escala igual al producto de s0 por el
coeficiente t,. Si se toma igual a 0,05, entonces una concentracin superior a LC tendr
slo un 5% de probabilidad de constituir un falso positivo.
Del mismo modo, existe una probabilidad de cometer un error de tipo II o falso
negativo, en el que se acepta errneamente la hiptesis nula, admitiendo que el analito est
ausente cuando en realidad est presente (zona sombreada de rojo en la Figura 1, con
probabilidad igual a ). Si se toma tambin como 0,05, la probabilidad de obtener un falso
negativo ser del 5%. En este caso la distancia de LC a la concentracin correspondiente a
dicho valor de es el producto del coeficiente t, por s0, considerando que este ltimo
parmetro es muy cercano al desvo estndar en la concentracin de una muestra blanco.
Puede notarse entonces que el valor de LOD depende de y , y de los desvos estndar
de las dos curvas gaussianas de la Figura 1. En general, ambas probabilidades se toman como
iguales 0,05, mientras que los desvos estndar se suponen ambos iguales a s0. De este modo,
el LOD est dado por:5
(13)
LOD = 2 t0,05,m2 s0
6
7
definicin que ha sido adoptada tambin por IUPAC e ISO. En la prctica, dado que m es un
nmero relativamente grande, el valor de (2t0,05,m2) tiende a 3,3, por lo que una ecuacin
aproximada para el lmite de deteccin es LOD = 3,3 s0.
Ntese que antiguamente se defina el LOD contemplando nicamente errores de tipo I,
como la concentracin correspondiente a una relacin seal/ruido igual a 3, lo que equivale a
fijar el lmite de deteccin como LOD = 3sbl / A, donde sbl es el desvo estndar en la seal
del blanco. En esta aproximacin, la probabilidad de cometer errores de tipo I era de 0,1%,
que corresponde a t0,001, = 3 (para un nmero muy grande de grados de libertad). Esta
definicin, ya abandonada por la IUPAC, no contempla los errores de tipo II.
(t, + t,) s0
Hiptesis nula:
analito ausente
Hiptesis
alternativa:
analito presente
a este nivel
LC
LOD
Prediccin
Lmite de cuantificacin
Es la mnima concentracin cuantificable en forma confiable. Este parmetro (LOQ) se
toma como la concentracin correspondiente a 10 veces el desvo estndar (en unidades de
concentracin) del blanco, con lo cual:
LOQ = 10 s0
(14)
De este modo, el desvo estndar relativo (DSR) para una concentracin igual al LOQ es
del 10%, nivel que se toma convencionalmente como el mximo DSR aceptable para
cuantificar el analito en una muestra.
Rango dinmico
Se considera que va desde la menor concentracin detectable (el LOD) hasta la prdida de
relacin entre respuesta y concentracin; vase la Figura 2, adaptada de la excelente obra de
Valcrcel.8 El rango dinmico es tambin el rango de aplicabilidad de la tcnica. En la zona
de prdida de la linealidad, podra aplicarse, en principio, un mtodo de regresin polinmica
para la calibracin (o algn otro de naturaleza no lineal), de modo que nada impide que dicha
zona sea utilizada con propsitos predictivos.
Rango lineal
Se considera que el rango lineal comprende desde la menor concentracin que puede
medirse (el LOQ) hasta la prdida de la linealidad (Figura 2). Una manera conveniente de
medir el cumplimiento de la linealidad es a travs de la relacin que existe entre la variancia
de la regresin, medida por (sy/x)2 [ecuacin (5)], y la del ruido instrumental, medida por (sy)2
[ecuacin (10)]. Si la primera es significativamente mayor que la segunda, se supone que hay
causas de desvo de la ley lineal que son estadsticamente superiores al ruido en la respuesta.
Para emplear esta prueba es esencial que se cumpla el supuesto bajo el cual se realiza el ajuste
lineal, esto es, que los errores en concentracin de calibrado sean menores que en respuesta.
De lo contrario, se acumularan en (sy/x)2 incertidumbres derivadas de la imprecisin en las
concentraciones de los patrones, que nada tienen que ver con el ruido instrumental o las
prdidas de la linealidad.
La prueba estadstica que se utiliza para determinar si los datos se ajustan a la ley lineal es
la F: en primer lugar se calcula un valor "experimental" de F, dado por:
9
(
s y / x )2
Fexp =
(s y )2
(15)
Luego se compara este valor con el crtico que se encuentra en tablas de F (de una cola)
para m 2 y m p grados de libertad, y un determinado nivel de confianza, por ejemplo 95%.
Si Fexp < F, se acepta que los datos se comportan linealmente. Alternativamente, se calcula la
probabilidad pF asociada a este valor de Fexp, y se considera que la prueba de linealidad es
aceptada si pF > 0,05. Esta prueba se describe en detalle en el trabajo de Danzer y Currie.1
Respuesta
Rango dinmico
Rango lineal
Prdida de la relacin
respuesta-concentracin
Extremo superior
del rango lineal
Concentracin
LOD
LOQ
10
Residuos
A
0
Residuos
B
0
Residuos
C
0
Concentracin
Figura 3. Residuos de la regresin. A) Comportamiento
lineal. B) Comportamiento no lineal. C) Comportamiento
lineal con alta incertidumbre en la concentracin de los
patrones.
Tambin es til, como en todo ajuste por cuadrados mnimos, examinar visualmente la
distribucin de los residuos de la regresin. Un grfico de residuos (yi A xi + B) en funcin
de xi puede ser muy informativo respecto de la presencia de no linealidades, ya que el valor de
Fexp puede resultar significativo no solamente porque la relacin entre las variables no sea
lineal, sino por incertidumbres en la preparacin de los patrones. La Figura 3 ilustra casos
representativos al respecto. En el caso A), el comportamiento es lineal: se espera que la
11
distribucin de los residuos sea al azar, y que la variabilidad interna de las rplicas a cada
nivel de concentracin sea comparable a la variabilidad global (precisamente este es el sentido
de la prueba estadstica F antes comentada). En el caso B) se aprecia visualmente que los
residuos poseen un comportamiento parablico, caso tpico de desvos de la ley lineal.
Finalmente, en el caso C), los residuos muestran una variabilidad global significativamente
mayor que la que presentan las rplicas a cada nivel. Esta situacin es tpica de la presencia de
mayor incertidumbre en las concentraciones nominales de los patrones de calibrado que en la
seal instrumental, aunque el sistema se comporte linealmente. De ah que se haya puesto
hincapi en la necesidad de contar con patrones cuya concentracin se conozca con mayor
precisin que el ruido instrumental. En general, sin embargo, la distribucin de los residuos
no es tan clara como los casos presentados en la Figura 3, por lo que es importante aplicar el
criterio estadstico F.
Debe notarse que no hemos empleado, en todo este documento, al parmetro r, el
coeficiente de correlacin, an cuando popularmente se recurre a l como prueba de
linealidad o de bondad del ajuste. En este sentido, vale la pena repetir textualmente el
siguiente pasaje del trabajo de Danzer y Currie: "el coeficiente de correlacin, que es una
medida de la relacin de dos variables azarosas, no tiene ningn significado en la calibracin
analtica, debido a que los valores de x no estn distribuidos al azar".1 El coeficiente de
correlacin se emplea para responder preguntas tales como: est correlacionada la
concentracin de antimonio con la de plomo en muestras de agua de una zona productora de
metales?. En este caso se trata de analizar si existe correlacin entre variables sobre las que el
operador tiene muy poco control.
Programas de computacin
Los mtodos descritos en esta clase pueden aplicarse con cualquier programa comercial
que sea capaz de efectuar una regresin por cuadrados mnimos. Los parmetros faltantes
pueden calcularse luego "a mano" con las ecuaciones provistas en este documento. En este
sentido, la obra de Gardiner2 hace una excelente descripcin del uso de la planilla de clculo
EXCEL para propsitos analticos en general, y para estudios mediante regresin univariada
en particular.
Para quienes deseen introducirse al mundo del entorno matricial MATLAB, esencial para
clculos avanzados en quimiometa, se proveen dos rutinas que calculan todos los parmetros
aqu descritos, y permiten calibrar y predecir a partir de datos univariados. Confiamos que la
discusin del ejercicio resuelto que se acompaa, el contenido del documento 'COMO
OPERAR CON MATLAB.PDF', as como las rutinas 'LR_CAL.M' y 'LR_PRED.M',
proveern la informacin requerida para organizar los datos e implementar las rutinas.
Tambin se proveen programas independientes ejecutables en QB, como alternativa para
quienes no puedan acceder a MATLAB: 'LR_CAL.EXE' y 'LR_PRED.EXE'. Para operarlos
puede consultarse el documento 'COMO OPERAR CON QB.PDF'.
Ejercicio resuelto
1) La Tabla 1 proporciona un ejemplo de datos de respuesta-concentracin para su anlisis,
incluyendo respuestas medidas por triplicado. Grafique los datos de respuesta en funcin de la
concentracin y compruebe en forma visual que se desvan de la linealidad. Establezca un
lmite superior del rango lineal en forma cualitativa, para luego compararlo con el calculado
mediante una prueba estadstica apropiada.
12
Calcule los valores de la pendiente y ordenada al origen para la recta ajustada con los
datos de la Tabla 2.
3) Estime los desvos estndar en la pendiente y ordenada al origen, e informe los valores
de A y B con el nmero correcto de cifras significativas.
4) La Tabla 3 muestra los valores de la respuesta para cuatro muestras incgnita, todos por
triplicado.
Tabla 3. Respuestas para cuatro muestras incgnita.
Muestra
Respuesta 1
Respuesta 2
0,65
0,69
1
2,13
2,20
2
3,41
3,55
3
4,71
4,82
4
Respuesta 3
0,75
2,05
3,52
4,70
Los datos de la Tabla 3 estn contenidos, en el formato apropiado para ser estudiados por
la rutina 'LR_PRED.M' de Matlab, en el archivo de texto 'DATOS_EJ_RES_TEST.TXT'.
Estime la concentracin del analito en las cuatro muestras de la Tabla 3, calcule sus
desvos estndar e informe el resultado con el nmero apropiado de cifras significativas.
5) Calcule las cifras de mrito del mtodo.
Respuesta detallada
1) El anlisis de estos datos mediante los programas LR_CAL.M (Matlab) o
LR_CAL.EXE (QB) indica que los datos no se comportan en forma lineal. En particular, se
obtiene un valor de Fexp de 8,88, con una probabilidad asociada pF de 0,001. La grfica de los
residuos es informativa al respecto:
14
2) Los valores estimados, dados por las ecuaciones (1) y (2) son, para el ejemplo de la
Tabla 2, A = 1,3174 y B = 0,1237. Estos ltimos nmeros tienen, probablemente, ms cifras
significativas que lo permitido por sus desvos estndar. Para acotarlos al nmero correcto de
cifras es necesario estimar sus incertidumbres.
3) Los desvos estndar calculados son sy/x = 0,1, sA = 0,01 y sB = 0,04. Lo correcto es
informar la pendiente y ordenada al origen de la recta ajustada del modo que sigue:
A = 1,32(1)
B = 0,12(4)
( xi x ) ( yi y )
8,39
2,97
0,30
0,37
2,81
7,98
8,34
2,79
0,33
0,39
3,06
7,81
8,69
3,01
0,26
0,33
3,15
8,18
Qxy = 69,17
15
Puede notarse que la concentracin predicha se acot a dos cifras decimales significativas,
teniendo en cuenta que los desvos estndar son todos aproximadamente de 0,05 unidades.
Ntese que los valores de s(xinc) son iguales en la Tabla 4 porque se informan con una sola
cifra significativa, aunque su clculo detallado demuestra que difieren entre s, de la manera
prevista por el efecto de la leva.
Es importante destacar tambin que el desvo estndar relativo (DSR) dado en la Tabla 4
es alto para la primera muestra, y razonablemente bajo para las otras. En el primer caso, la
concentracin predicha es tambin baja. Estas consideraciones se relacionan con la mnima
concentracin detectable por la tcnica, que se considerar a continuacin.
Tambin pueden fijarse los intervalos de confianza alrededor de una prediccin,
empleando los coeficientes de student de dos colas para un 95% de confianza y (m 2) grados
de libertad. Por ejemplo, para la muestra No. 4 en la Tabla 4:
xinc = 3,51 t(p = 0,05; 16 GL) s(xinc) = 3,51 2,1 0,05 = 3,5 0,1
5) Es importante analizar la grfica de los residuos para este caso.
16
1
2
3
1
2
3
1
2
3
1
2
3
1
2
3
1
2
3
0,06
0,08
0,06
1,44
1,56
1,41
2,82
2,76
2,90
4,15
4,20
4,08
5,29
5,46
5,52
6,61
6,54
6,69
(yij yi )2
0,0009
0,0025
0,0081
0,0009
0,0081
0,0036
0,0001
0,0049
0,0049
0,0001
0,0036
0,0036
0,0169
0,0016
0,0100
0,0000
0,0049
0,0064
0,03
1,47
2,83
4,14
5,42
6,61
p
( yij yi ) 2 = 0,081
Total
i =1 j =1
Ejercicios propuestos
1) Se analiza una serie de muestras patrones mediante dos mtodos analticos, uno basado
en medidas de absorbancia y otro basado en medidas de fluorescencia. Los resultados se
muestran en la siguiente tabla:
Concentraciones de patrones y respuestas obtenidas mediante dos mtodos analticos.
Concentracin
Mtodo A
Mtodo B
del patrn
Respuesta Respuesta Respuesta Respuesta Respuesta Respuesta
1
2
3
1
2
3
1,9
1,9
2,0
0,02
0,02
0,01
0,000
17,3
17,4
17,4
0,17
0,17
0,17
0,100
32,6
32,6
32,5
0,32
0,33
0,32
0,200
48,0
47,8
47,8
0,48
0,48
0,48
0,300
63,3
63,3
63,2
0,64
0,64
0,64
0,400
78,4
78,5
78,4
0,79
0,79
0,79
0,500
Calcule las cifras de mrito para cada mtodo. Cul de estos mtodos puede considerarse
ms sensible? Qu parmetro(s) emplea para justificar la mayor sensibilidad de un mtodo
sobre el otro?.
2) Se mide por triplicado una muestra incgnita, usando ambos mtodos descriptos en el
problema anterior. Los resultados se presentan en la siguiente tabla:
18
Respuesta
1
0,25
Mtodo A
Respuesta
2
0,26
Respuesta
3
0,25
Respuesta
1
25,2
Mtodo B
Respuesta
2
25,1
Respuesta
3
25,3
Calcular la concentracin del analito por ambos mtodos, y estimar su desvo estndar.
Qu comentarios pueden hacerse respecto de estos resultados?
Se recomienda emplear las rutinas de MATLAB 'LR_CAL.M' y 'LR_PRED.M' (o sus
versiones respectivas en QB) organizando los datos de los ejercicios propuestos de la manera
que se presenta en los archivos de texto correspondientes al ejercicio resuelto.
3) En el anlisis fluorimtrico de un compuesto, se realizan dos curvas de calibrado,
empleando dos longitudes de onda diferentes para la excitacin. En el caso A, la emisin del
compuesto est superpuesta con la dispersin Ramana del solvente, y el analista observa por
lo tanto la presencia de un blanco constante de intensidad significativa. Decide modificar la
longitud de onda de excitacin, en este caso generando los datos del caso B, donde el blanco
parece ser menor.
En la tabla siguiente se informan los datos de calibracin para cada caso, en sus
respectivos rangos lineales. Qu conclusiones pueden extraerse respecto de las cifras de
mrito de estos dos casos?
Muestra
1
2
3
4
5
6
Muestra
1
2
3
4
5
6
7
8
Concentracin
0,000
0,198
0,392
0,583
0,769
0,950
Caso A
Respuesta 1
0,78
3,38
5,75
8,53
10,97
13,40
Respuesta 2
0,80
3,44
6,16
8,51
11,04
13,08
Respuesta 3
0,82
3,51
6,01
8,68
10,89
13,37
Concentracin
0,000
0,198
0,392
0,583
0,769
0,950
1,130
1,310
Caso B
Respuesta 1
0,01
1,96
3,75
5,59
7,30
9,07
10,83
12,08
Respuesta 2
0,03
1,88
3,75
5,52
7,35
8,95
10,71
12,11
Respuesta 3
0,04
1,90
3,80
5,56
7,27
9,03
10,46
12,21
19
Clase 2
Regresin lineal
20
Por otro lado, cuando se desean comparar dos mtodos analticos, se determina, por
ambos mtodos, el contenido de un analito en una serie de muestras en las que su
concentracin es variable (dentro del rango lineal de cada uno de ellos).
En ambos casos se trata de comparar parejas de valores que idealmente seran iguales, y
estudiar el posible desvo de esta situacin ideal, en un contexto estadstico y con un cierto
nivel de confianza. Es por esta razn que ambos procedimientos se incluyen en la presente
clase.
( yij yi ) 2
s(yi) =
j =1
(1)
n 1
En la ecuacin (1), yij indica la concentracin para el patrn i en la rplica j, e yi es el
promedio de las n rplicas para el nivel i.
Debemos notar que una de las premisas para realizar un estudio por regresin lineal
simple es que la variancia de la variable y sea aproximadamente constante, u
homoscedstica.11 La Figura 1 muestra las diferencias entre una variancia homoscedstica y
otra heteroscedstica.
En la calibracin de datos analticos se supone que la distribucin del ruido instrumental
es constante a lo largo del rango de calibracin, o en otras palabras, que la respuesta analtica
es homoscedstica. Esto no es necesariamente as, sin embargo, si la variable y es la
concentracin predicha para patrones de validacin, y no la respuesta analtica.
Como se estudi en la Clase 1, el desvo estndar en la concentracin predicha mediante
una recta de calibrado no es constante para diferentes muestras, sino que vara con la
concentracin del analito. Es decir que, en principio, la variable y que estamos considerando
en esta clase no es homoscedstica. En estos casos, se recomienda realizar una regresin
lineal mediante cuadrados mnimos ponderados (WLS, por weighted least-squares) y no una
regresin ordinaria (OLS, por ordinary least-squares) como la empleada en la Clase 1.
Dado que el mtodo WLS es ms complicado que el OLS, lo recomendable es
previamente verificar si efectivamente la variancia no es constante, para utilizar el primero en
los casos en los que es estrictamente necesario. Una prueba de constancia de la variancia (o
prueba de la homoscedasticidad) puede realizarse mediante el uso del parmetro estadstico F,
calculando el valor "experimental" Fexp definido por el cociente entre el mximo y el mnimo
valor de las variancias en las rplicas de los patrones [se toma como medida de cada variancia
el valor de s(yi)2]:
21
max[s ( yi ) 2 ]
(2)
min[s ( yi ) 2 ]
Este valor se compara luego con el valor crtico de tablas para n 1 y n 1 grados de
libertad (usualmente con el 95% de confianza). Si Fexp > Fcrit entonces se recomienda calcular
los parmetros A y B de la regresin con el mtodo WLS que se describe ms adelante.
Fexp =
i =1
i =1
(3)
En la ecuacin precedente, y son las variables que corresponden a las dos dimensiones
del plano en que se representa la regin elptica, y F2,q2 es el valor del parmetro estadstico
F con 2 y q 2 grados de libertad para un dado nivel de confianza (usualmente 95%).
Por lo tanto, debe dibujarse en un grfico bidimensional la regin anterior y verificar si
contiene al punto (1,0). Detalles de cmo se dibuja esta elipse en un caso particular se dan en
el ejercicio resuelto del documento que se acompaa. La Figura 2 ilustra este tipo de regin
para un caso tpico: si el punto (1,0) no est contenido dentro de la elipse, esto implica que el
mtodo no es exacto.
Es importante remarcar que el tamao de la elipse, que est controlado, entre otros
parmetros, por el desvo estndar de la regresin sy/x, da una idea de la precisin del mtodo
analtico que se est probando. En este sentido, es importante utilizar un nmero significativo
de niveles de concentracin para la prueba de exactitud, de manera que sy/x sea representativo
de la regresin. De lo contrario, si se emplean slo unos pocos niveles de concentracin, se
corre el riesgo de que la elipse abarque un rea considerable, e incluya al punto ideal (1,0)
slo por azar. Vase la Figura 3 para aclarar este punto.
Ntese que el valor de sy/x en este caso es similar al parmetro usualmente empleado en la
comparacin de concentraciones predichas y nominales, llamado RMSE (por root mean
square error):
( y predicho y nominal ) 2
RMSE =
(4)
q
Se divide el numerador por q (y no por q 1) debido a que RMSE no es un desvo
estndar, sino la raz cuadrada de una media de desvos.
23
0.2
Ordenada al origen
Ordenada al origen
0.2
0.0
-0.2
0.0
-0.2
1.0
1.1
1.0
Pendiente
1.1
Pendiente
Ordenada al origen
Pendiente
Figura 3. Distintos tipos de elipses, de acuerdo con la exactitud y precisin: verde, exacta
y precisa; celeste, exacta e imprecisa; amarilla, inexacta e imprecisa; naranja, inexacta y
precisa. El cuadrado negro marca el punto ideal (1,0).
Regresin ponderada
Si los datos no cumplen con la prueba de homoscedasticidad, el anlisis de los datos de
validacin debe hacerse mediante regresin lineal ponderada. En este caso se calculan la
pendiente (A) y ordenada al origen (B) de la recta ajustada a la ecuacin y = A x + B,
minimizando la siguiente suma ponderada de cuadrados (SC):
q
SC =
wi ( yi y i ) 2
(5)
i =1
24
wi ( xi x w )( yi y w )
A=
i =1
wi ( xi
i =1
(7)
xw ) 2
(8)
B = y w A xw
donde xi es la concentracin de cada uno de los q patrones de validacin, y los parmetros xw
e y w son las coordenadas del centro de gravedad pesado por donde pasa la recta ajustada, que
estn dadas por:
q
wi xi
xw =
i =1
q
(9)
wi
i =1
q
wi yi
yw =
i =1
q
(10)
wi
i =1
En el mtodo WLS el parmetro sy/x (el desvo estndar de los residuos de la regresin)
est dado por:
q
wi ( yi y i ) 2
sy/x =
i =1
(11)
q2
donde yi es la respuesta experimental, e y i representa la respuesta estimada en cada punto,
esto es, y i = A xi + B.
El lector podr comprobar que si todos los wi son idnticos entre s (homoscedasticidad
perfecta), las ecuaciones anteriores se reducen al caso OLS tratado en la Clase 1.
B) 2
wi + 2( A)( B) wi xi + (
i =1
i =1
A) 2
wi xi2 = 2s 2y / x F2,q2
(12)
i =1
Programas de computacin
Usuarios de MATLAB: se provee acceso a la rutina EJCR.M que puede usarse para
aplicar los mtodos OLS, WLS y BLS, y generar la elipse correspondiente.
Usuarios de QB: se provee acceso al programa EJCR.EXE, que realiza las operaciones
necesarias pero no grafica la elipse. Esta ltima puede obtenerse importando los datos
generados por el programa en un entorno grfico apropiado.
Vase tambin el ejercicio resuelto detalladamente que se acompaa.
Ejercicio resuelto
1) La Tabla 1 muestra datos para analizar la exactitud de un mtodo analtico. Determine si
el mtodo es exacto mediante regresin lineal y estudio de la regin elptica de confianza
conjunta para A y B.
Tabla 1. Concentraciones nominales de patrones, y valores hallados por un
mtodo analtico (con sus desvos estndar).
Muestra
Nominal
Hallada
Desvo estndar
(promedio de
cinco rplicas)
0,06
0,06
0,05
1
0,05
5,02
5,16
2
0,04
10,00
9,91
3
0,02
15,20
14,90
4
0,03
19,90
19,80
5
0,04
25,00
24,90
6
0,06
30,00
30,00
7
2) La Tabla 2 muestra datos para la comparacin de dos mtodos analticos (promedios de
tres rplicas en cada caso), incluyendo los desvos estndar de cada uno. Compare los
resultados mediante regresin WLS y anlisis de la regin elptica conjunta.
Tabla 2. Concentraciones halladas por dos mtodos analticos con sus desvos
estndar.
Muestra
Mtodo 1
Desvo
Mtodo 2
Desvo
estndar
estndar
0,06
0,06
0,03
0,05
1
0,05
5,02
0,02
5,16
2
0,04
10,00
0,02
9,91
3
0,02
15,20
0,01
14,90
4
0,03
19,90
0,02
19,80
5
0,04
25,00
0,01
24,90
6
0,06
30,00
0,03
30,00
7
Respuesta detallada
1) En primer lugar debemos determinar si los datos de la Tabla 1 son homoscedsticos.
Para ello calculamos el cociente:
max[s ( yi ) 2 ] (0,06) 2
Fexp =
=
=9
min[s ( yi ) 2 ] (0,02) 2
27
Dado que este ltimo valor es mayor que el de tabla [Fcrit (95%,4,4) = 6,5] concluimos
que los datos son heteroscedsticos, y que debemos emplear el mtodo WLS para el anlisis
por regresin lineal. Calculamos entonces los pesos wi de cada dato, los que se renen en la
Tabla 3. El clculo de cada peso se realiza mediante la ecuacin:
qs ( yi ) 2
wi = q
s( yi ) 2
i =1
De esta manera, se consigue que la suma de los pesos sea igual a q, lo que facilita los
clculos.
Tabla 3. Datos xi, yi y pesos wi para exactitud de mtodos.
i
xi
yi
0,06
0,05
1
5,02
5,16
2
10,00
9,91
3
15,20
14,90
4
19,90
19,80
5
25,00
24,90
6
30,00
30,00
7
wi
0,33
0,48
0,75
3,00
1,33
0,75
0,33
Note que los pesos son mayores para datos con menor desvo estndar.
Para la muestra nmero 1, por ejemplo, tendremos:
7
(0,06) 2
w1 =
= 0,33
1
1
1
1
1
1
1
+
+
+
+
+
+
(0,06) 2 (0,05) 2 (0,04) 2 (0,02) 2 (0,03) 2 (0,04) 2 (0,06) 2
Luego debemos calcular los valores de los diferentes productos de variables y pesos, que
se muestran en la Tabla 4.
Tabla 4. Clculos parciales para el mtodo WLS.
i
wi xi
wi xi2
wi yi
0,0201
0,0008
0,0167
1
2,4165
12,8169
2,4839
2
7,5215
73,8671
7,4538
3
45,7307
667,9384
44,8281
4
26,6094
524,2178
26,4756
5
18,8037
466,3399
18,7285
6
10,0287
300,8596
10,0287
7
Total
110,0153
2.046,0405
111,1304
Con los resultados anteriores, calculamos:
xw = 110,0153 / 7 = 15,72
y w = 111,1304 / 7 = 15,88
28
wi xi yi
0,0010
12,4692
74,5380
681,3868
526,8653
468,2128
300,8596
2.064,3327
wi ( xi x w )( yi y w )
A=
i =1
wi ( xi
i =1
=
xw ) 2
wi xi yi vx w y w
=
i =1
wi xi2 vx w2
i =1
wi ( yi y i ) 2
i =1
sy/x =
= 0,16
q2
Por su parte, Qxx est dado por:
q
Qxx =
wi xi2 qx w2 = 316,2
i =1
wi xi = 110,0153
i =1
q
wi xi2 = 2.046,0405
i =1
s 2y / x = 0,026
F2,q 2 = 8,6
Por lo tanto, la ecuacin de la elipse estar dada por:
7( 0,1) 2 + 220,0306( 1)( 0,1) + 2.046,0405( 1) 2 = 0,44
29
( B) =
2a 3
Observamos que slo se obtendrn valores reales de ( B) si se cumple que la expresin
dentro de la raz cuadrada es positiva; los lmites se encuentran cuando esta expresin se
iguala a cero:
a 2 2 ( A) 2 4a3 [a1 ( A) 2 a 4 ] = 0
=B+
2a 3
Ejemplos de pares de valores de y calculados con la ecuacin anterior son:
A
0,0373
0,0273
0,0173
0,0073
0,0027
0,0127
0,0227
0,0327
0,9627
0,9727
0,9827
0,9927
1,0027
1,0127
1,0227
1,0327
0,7110
0,6971
0,5903
0,4563
0,3027
0,1306
0,0642
0,3022
0,6520
0,3516
0,1441
0,0362
0,1970
0,3393
0,4587
0,5350
30
Ordenada al origen ()
-1
0.96
0.98
1.00
1.02
1.04
1.06
Pendiente ()
Se aprecia claramente que el punto ideal (1,0) est contenido en la elipse, por lo que el
mtodo analizado es exacto.
Usuarios de MATLAB: los datos de la tabla estn contenidos en el archivo de texto
'DATOS_EXACT_WLS.TXT', y organizados de tal modo que pueden estudiarse mediante la
rutina de MATLAB 'EJCR.M', de la manera descrita en la Clase 1. Esta rutina proporciona los
valores ajustados de pendiente y ordenada al origen, produce una figura con la
correspondiente elipse, y genera un archivo de texto que contiene los valores numricos
necesarios para graficar la regin elptica mediante programas grficos: la primera columna
de este archivo contiene los valores de pendiente y la segunda y tercera los valores de
ordenada al origen que corresponden a las dos mitades de la elipse.
Usuarios de QB: los datos estn en el archivo 'D_E_WLS.TXT' para ser estudiados por
EJCR.EXE.
2) En este caso se trata de comparar dos mtodos analticos. Los resultados del anlisis
mediante WLS son idnticos a los discutidos para la parte 1) (porqu?).
Cuando se realiza un anlisis BLS se calculan los siguientes valores de pendiente y
ordenada al origen:
A = 1.00(1)
B = 0,1(2)
Ntese que son idnticos a los hallados mediante la tcnica WLS. La explicacin es que
los valores de la variable x (las concentraciones estimadas mediante el mtodo analtico 1)
tienen desvos estndar menores que los de y (las concentraciones estimadas mediante el
mtodo analtico 2). Como consecuencia, es prcticamente lo mismo realizar el anlisis
mediante WLS o mediante BLS.
Usuarios de MATLAB: los datos de la tabla estn contenidos en el archivo de texto
'DATOS_COMPAR_BLS.TXT', y organizados de tal modo que pueden estudiarse mediante
la rutina de MATLAB 'EJCR.M', de la manera descrita en la Clase 1. Esta rutina proporciona
31
los valores ajustados de pendiente y ordenada al origen, produce una figura con la
correspondiente elipse, y genera un archivo de texto que contiene los valores numricos
necesarios para graficar la regin elptica mediante programas grficos: la primera columna
de este archivo contiene los valores de pendiente y la segunda y tercera los valores de
ordenada al origen que corresponden a las dos mitades de la elipse.
Usuarios de QB: los datos estn en D_C_BLS.TXT.
Ejercicios propuestos
1) Los valores siguientes corresponden a la comparacin entre las predicciones efectuadas
para la determinacin de teofilina en sangre mediante un mtodo espectrofotomtrico,
comparado con un mtodo de inmunofluorescencia polarizada (FPIA). No se determinaron las
muestras por triplicado debido a la cantidad insuficiente de muestra (sueros de pacientes
peditricos). Sin embargo, se estima que los desvos estndar promedio para cada mtodo son:
0.4 g ml1 para el mtodo FPIA y 0.9 g ml1 para el espectrofotomtrico. Llevar a cabo el
anlisis de comparacin de mtodos mediante la construccin de la elipse apropiada,
suponiendo que los desvos estndar anteriores son constantes para todos los datos.
Muestra
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
32
Muestra
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
Nominal
190
87
23
13
38
150
26
58
125
65
90
160
48
75
0
0
0
0
Mtodo 1
173
80
26
6
19
142
33
67
146
63
89
158
41
64
10
5
3
11
Mtodo 2
214
86
29
14
28
145
16
60
126
67
92
172
52
68
11
8
7
7
Mtodo 3
208
107
46
28
50
160
47
80
146
75
120
174
61
92
26
21
30
27
33
Sensibilidad de calibracin
1,552
153.0
Sensibilidad analtica
4,3102
1,8103
Sensibilidad Sensibilidad
analtica
13,2
114,1
9,3
91,2
1/
LOD
LOQ
0,009
0,011
0,02
0,03
0,06
0,08
Rango
lineal
0,06-0,95
0,08-1,31
34
La eleccin entre estos dos casos es un ejemplo de que no se puede tener todo en la vida:
habra que decidir qu es ms importante para aplicaciones concretas, si el rango lineal
extendido o la mayor sensibilidad.
Vale la pena destacar el resultado que se obtendra mediante un anlisis BLS, esto es,
considerando que tanto la variable x como la y estn sujetas a incertidumbre:
Pendiente: 0.996
Ordenada al origen: 1.16
sy/x: 2.39
35
Ordenada al origen
30
3
20
10
2
0
-10
0.8
0.9
1.0
36
Pendiente
1.1
37
Referencias
1.
38