Introducción a la Quimiometría

TEMA 2: Introducción a la Quimiometría.
0. Definición de quimiometría.
“Disciplina química que utiliza métodos matemáticos y estadísticos para diseñar o seleccionar
procedimientos de medida y experimentos óptimos, proporcionando información química
relevante del análisis de los datos químicos y obtener conocimientos de los sistemas
químicos.”
La quimiometría consiste fundamentalmente en el proceso de producir datos significativos y
la extracción de información a partir de dichos datos.
De las metodologías matemáticas y estadísticas aplicadas en química analítica, en este tema
únicamente nos centraremos en las más sencillas: inferencia estadística paramétrica y
calibración univariante.
1. Tratamiento estadístico de datos. Comparación de varianzas y medias.
Definiciones
Población: conjunto de todos los casos o unidades experimentales (valores) que son objeto de
estudio estadístico.
Muestra (estadística): subconjunto de valores extraído aleatoriamente de una población.
Modelo de distribución: función matemática que describe la distribución de la población de
una variable en términos de frecuencia de los resultados frente al valor de la variable.
Exactitud
 Proximidad entre un valor medido y un valor verdadero de un mensurando.
 Grado de concordancia entre el resultado de una medición y un valor verdadero del
mensurando.
Mensurando: propiedad sujeta a medida.
Precisión
 Proximidad entre las indicaciones o los valores medidos obtenidos en mediciones
repetidas de un mismo objeto, o de objetos similares, bajo condiciones especificadas.
 Grado de concordancia de una serie de resultados obtenidos sobre la misma muestra
(homogénea) aplicando, de forma repetida e independiente, unas condiciones
experimentales establecidas (método analítico).
Repetibilidad: precisión de una serie de resultados, mutuamente independientes,
aplicando el mismo método de análisis, a una misma muestra, en el mismo laboratorio, con
los mismos equipos y reactivos, el mismo operador y en un intervalo corto de tiempo.
Precisión intermedia: precisión de una serie de resultados, mutuamente independientes,
obtenidos en un mismo laboratorio en unas mismas condiciones estipuladas (método de
análisis, muestra, operadores e instrumentación) separados por largos periodos de
tiempo.
Reproducibilidad: precisión de una serie de resultados, mutuamente independientes,
obtenidos mediante el mismo método de análisis y a una misma muestra, pero en
diferentes laboratorios, lo cual presupone distintos reactivos, equipos, condiciones
ambientales y operadores.
Error de medida
 Diferencia entre un valor medido de una magnitud y un valor de referencia.
 El error se considera que está constituido por dos componentes: una componente
aleatoria (error aleatorio) y una componente sistemática (error sistemático).
Error aleatorio
 Componente del error de la medida que, en mediciones repetidas, varía de manera
impredecible.
 Inherente a todas las medidas experimentales. Error indeterminado.
 Debido a variaciones imprevisibles e impredecibles de las magnitudes de influencia en
la medida, ya sean de carácter temporal o espacial, y cuyo efecto (efecto aleatorio) da
lugar a variaciones en las observaciones repetidas del mensurando.
 Su valor no permanece constante. Se distribuye simétricamente (gaussiana) alrededor
de la media muestral y su valor esperado (esperanza matemática) es siempre igual a
cero.
 No es posible eliminarlo en su totalidad, pero se puede minimizar incrementando el
número de medidas (réplicas).
 Afecta a la precisión del método de análisis.
Error sistemático
 Componente del error de la medida que, en mediciones repetidas, permanece
constante o varía de manera predecible.
 Debido a formas incorrectas de realizar las medidas, las cuales se repiten siempre de la
misma manera.
 Tienen una causa asignable (instrumento, método de análisis y/o personal). Error
determinado.
 Puede permanecer constante (independiente de la magnitud del mensurando) o variar
de una manera predecible y proporcional (dependiente de la magnitud del
mensurando), influyendo en el resultado final en un mismo sentido.
 Es independiente del número de medidas. No se puede minimizar incrementando el
número de medidas.
 Es detectado variando las condiciones de medida mediante un cambio intencionado de
la metodología o empleando patrones o materiales de referencia.
 En el caso de ser detectado e identificado (efecto sistemático) se debe corregir o
aplicar una corrección (factor de corrección) para compensarlo en el caso de que dicho
efecto sea suficientemente significativo frente a la exactitud requerida en la medición o
el resultado final.
 Afecta a la exactitud del método de análisis.
Estadística básica
“La estadística no nos dice si estamos en lo cierto, sino la probabilidad de equivocarnos.”
Estadística descriptiva: sintetiza la información aportada por las observaciones en una serie
de parámetros numéricos (media, mediana, moda, desviación estándar, etc.), dando una
descripción numérica de la población o de la muestra.
Inferencia estadística: infiere conclusiones sobre una población (parámetros poblacionales) a
partir de los parámetros descriptivos de la muestra (parámetros muestrales),
proporcionando medidas que cuantifican el grado de confianza puesto en tales conclusiones.
 Paramétrica: presupone un modelo matemático para la distribución de la población. Su
objetivo es estimar los parámetros del modelo de distribución de la muestra (media y
varianza), extrapolando los resultados a la población.
 No paramétrica (distribución libre): no presupone un modelo matemático definido
para la distribución de la población. Utiliza parámetros que no tienen relación con
ningún modelo de distribución (mediana, moda, recorrido, etc.).
Distribución normal o gaussiana
N ( μ , σ2)
Media:
N
1
μ= ∑ xi
N i=1
Varianza:
N
1
σ = ∑ ( x i−μ )
2 2
N i=1
Distribución normal estándar

La distribución normal estándar (o tipificada) permite relacionar variables continuas,
aleatorias, independientes e idénticamente distribuidas.
x −μ
z i= i
σ
( 2
)
x i N μ , σ → z i N (0,1)
Población vs. Muestra (estadística)
Población
 Totalidad del sistema objeto de estudio
 N datos (conjunto infinito)
 Definida por μ y σ 2
Muestra
 Porción representativa de la población
 n datos (n ≪ N )
 Definida por x y s2
Media muestral:
n
1
x= ∑ x i
n i =1
Varianza muestral:
n
1
2
s=
n−1 i=1
∑ ( x i−x )
2
x es un estimador no sesgado de μ
2 2
s es un estimador no sesgado de σ
Teorema central del límite
Al aumentar el número de datos (n ):
 La media ( x ) y dispersión ( s) de las muestras tienden a converger a μ y σ ,
respectivamente.
 La dispersión de la distribución de las medias muestrales (error estándar de la media,
s/ √ n) disminuye.
La distribución de las medias muestrales se aproxima a una distribución normal a medida que
aumenta el tamaño de la muestra e independientemente de la forma de la distribución de la
población original de las medidas individuales, siempre y cuando la frecuencia de los valores
extremos caiga rápidamente.
Distribución t de Student
La distribución t de Student representa la distribución de un número reducido de datos
aleatorios e independientes de una población (muestra).
 Grados de libertad ( ν): número de datos independientes que suministran información.
 Nivel de confianza (probabilidad) (p): probabilidad de que el intervalo de confianza
contenga el valor poblacional o verdadero.
 Nivel de significación (α ): probabilidad de rechazar la hipótesis nula ( H 0) cuando esta
es verdadera, error de tipo I o de falso positivo.
p= (1−α ) · 100 %
lím t α , ν =z α
ν→∞
La distribución t de Student se utiliza en inferencia estadística para establecer si:
 La media de una determinada muestra puede generalizarse a la población de la que se
asume, proviene o representa.
 Las medias de dos muestras son comparables y provienen de una misma población.
Distribución F de Snedecor
La distribución F de Snedecor representa la distribución de la relación de la varianza de dos
muestras.
1
F α ,ν , ν =
1 2
F 1−α , ν , ν
2 1
2
F α ,1 ,ν (1 cola )=t
2 α , ν 2( 2 colas )
Como la distribución F de Snedecor representa la distribución de la relación de dos varianzas,
se utiliza en inferencia estadística para establecer si:
 La varianza de dos muestras, normalmente distribuidas e independientes, son
comparables.
 Las medias de múltiples muestras, normalmente distribuidas, independientes y con la
misma varianza, son comparables (ANOVA).
Ensayo (test) de hipótesis
Procedimiento estadístico que permite decidir, en base a los resultados obtenidos, si una
afirmación sobre la distribución de una propiedad de una muestra puede generalizarse a la
población que representa, o bien, si dos o más descriptores muestrales son comparables.
El ensayo se resume en las siguientes etapas:
 Formular una hipótesis nula ( H 0) que podrá rechazarse o aceptarse pero nunca
demostrarse. Esta hipótesis es siempre de igualdad o no diferencia entre los
parámetros estadísticos evaluados, es decir, la ausencia de un efecto.
 Establecer un nivel de significación (α , o error de tipo I) para el ensayo, definido como
la probabilidad de rechazar H 0 cuando de hecho es verdadera (falso positivo), es decir,
el riesgo asumido de tomar la decisión errónea al rechazar H 0 y, por lo tanto, aceptar
una hipótesis alternativa ( H 1).
 Elegir una prueba estadística o de significación (función de distribución) en función
del parámetro estadístico considerado, la cual, a través de un parámetro de
adecuación, permite establecer la aceptación o el rechazo de H 0.
 En base al nivel de significación y la prueba estadística considerados, establecer un
valor de discrepancia del parámetro de adecuación para rechazar o aceptar H 0.
 Interpretar el resultado del ensayo de hipótesis en el contexto de la aplicación.
Ensayos de hipótesis de una cola y de dos colas
 Ensayo de dos colas (bilateral) : los valores se pueden desviar en ambos sentidos de la
distribución.
 Ensayo de una cola (unilateral): los valores solo se pueden desviar hacia un sentido de
la distribución.
Averiguar si un ensayo es unilateral o bilateral depende de cómo se establezca la hipótesis
alternativa ( H 1): desigualdad (dos colas), límite superior o inferior (una cola).
Ejemplos de ensayos unilaterales
 ¿Son los resultados del método A significativamente superiores (o inferiores) a los del
método B?
 ¿Es la concentración de analito superior al límite establecido por la legislación?
 Evaluar la estabilidad del principio activo del medicamento. (Pista: No puede ser
superior al 100%).
Ejemplos de ensayos bilaterales
 ¿Es la concentración del analito en las dos muestras significativamente diferente?
 ¿Son ambos métodos igual de precisos?
 ¿Difieren significativamente los resultados obtenidos por ambos métodos?
Distribución de dos colas: α es el área total en ambas colas.
Distribución de una cola: α es el área total en una cola.
En el caso de la distribución t de Student, por ejemplo, pueden establecerse las siguientes
relaciones:
t α ,ν (1 cola )=t 2 α , ν ( 2colas )
t α ,ν (2 colas )=t α /2 , ν ( 1cola )
p= (1−α ) · 100 %
Valor p (p-value)
 Probabilidad de obtener el resultado observado asumiendo que la hipótesis nula ( H 0)
es verdadera, pero no la probabilidad de que H 0 sea verdadera.
 Nivel de significación más pequeño a partir del cual se rechazaría H 0.
 Si el valor p, asociado al resultado observado, es igual o inferior al nivel de significación
(α ) establecido a priori, H 0 se rechaza. Por lo tanto, la diferencia entre lo observado y
lo esperado será significativa al nivel de significación establecido.
 Un valor p igual o inferior al nivel de significación ( α ) establecido implica, por lo tanto,
que la hipótesis alternativa ( H 1) es significativa y debemos aceptarla. Nivel de
significación más pequeño a partir del cual se aceptaría H 1.
valor p >α → se acepta H 0
valor p ≤ α → se rechaza H 0
Detección de errores sistemáticos: evaluación de la exactitud
Se utiliza un ensayo estadístico basado en la distribución t de Student para comprobar si hay
diferencias significativas de la media muestral ( x ) de una serie de n observaciones repetidas
(réplicas), con una determinada desviación estándar muestral ( s) y el valor verdadero o
aceptado ( μ):
H 0 : x=μ
s
μ= x ± t α , ν
√n
α : nivel de significación
ν : grados de libertad (n−1)
n |x−μ|
t exp=|x−μ| √ =
√
s s
2
n
t ≥ t
Si exp α ,ν →α >valor p → H
Se rechaza 0. Existe un error sistemático. El método no es exacto.
t <t
Si exp α , ν → α < valor p → Se acepta H 0. No existe un error sistemático. El método es exacto.
Comparación de la precisión de dos muestras
Se realiza a través de la varianza de cada una de las muestras.
2 2
H 0 : s 1=s2
Mediante el test F de Snedecor:
2
s
F exp= 12
s2
2 2
Siempre s1 > s2.
Grados de libertad: ν1 =n1−1, ν 2=n2−1.
Si F exp< F α , ν , ν → No existen diferencias significativas entre las varianzas.
1 2
Si F exp> F α , ν , ν → Existen diferencias significativas entre las varianzas.

1 2
La comparación estadística de la media muestral de dos grupos de muestras independientes

requiere, previamente, la comparación estadística de sus varianzas muestrales.
Comparación de dos medias muestrales
Varianzas poblacionales (σ 2) conocidas. Distribución normal ( z ).
Muestras independientes
El test solo es aplicable en los siguientes casos:
 Las distribuciones son simétricas y n1 >5 , n2 >5 .
 Las distribuciones son ligeramente sesgadas y n1 >10 , n2 >10 .
 Las distribuciones son irregulares y n1 >30 , n2 >30 .
H 0 : x1 =x 2
|x 1−x 2|
z exp=
σ (x −x ) 1 2
σ ( x − x )= √ σ x + σ x =
1 2
2
1
2
2
√ σ 12 σ 22
+
n1 n2
z exp=
|x 1−x 2|
√
σ 21 σ 22
+
n1 n2
=|x 1−x 2|
n2 σ 21 +n1 σ 22 √ n1 n 2
Varianzas muestrales ( s2) conocidas. Distribución t de Student.

Muestras independientes
Se compara la media de la repetición de una variable distribuida entre dos grupos de
muestras independientes.
H 0 : x1 =x 2
|x 1−x 2|
t exp=
s( x −x ) 1 2
Previamente, como hemos mencionado, hay que comparar sus varianzas:

2 2
H 0 : s 1=s2
Varianzas comparables
s( x −x ) =s pond
1 2
1 1
+
n1 n2
n
√
∑ νi s 2i
s2pond = i=1n
∑ νi
i=1
En el caso de dos varianzas:
2 ( n1 −1 ) s21 + ( n2−1 ) s 22
s pond =
n1+ n2−2
Grados de libertad ( ν): n1 −n2−2
Varianzas no comparables
√
2 2
s 1 s2
s( x −x ) = +
1 2
n1 n2
Grados de libertad:
( )
2
s 21 s22
+
n1 n2
ν=
() ()
2 2
s21 s 22
n1 n2
+
n1 −1 n2−1
Muestras apareadas o relacionadas
 Las observaciones de las dos muestras corresponden a diferentes objetos que se
analizan dos veces, como antes y después de un tratamiento, con dos métodos
diferentes, etc.
 Las poblaciones de ambas muestras no son homogéneas. Por lo tanto, las
observaciones de cada muestra no corresponden a réplicas de un mismo objeto.
 Cada objeto analizado presenta una variabilidad diferente (matriz o composición,
localización, etc.).
 Se calcula la diferencia individual para cada objeto ( x dif (i)=x 1 (i) −x 2(i)) y se comprueba si
la media de todas las diferencias es asimilable a cero: H 0 : x dif =0
t exp=|x dif |
√n
s dif
ν=n−1
Resumen de la comparación de dos medias muestrales
H 0 : x1 =x 2
Primero hay que comparar sus varianzas:
Varianzas poblacionales (σ 2) conocidas: distribución normal. Muestras independientes.
z exp ≥ z α ⇒ Se rechaza H 0
z exp < z α ⇒ Se acepta H 0
2
Varianzas muestrales ( s ) conocidas: distribución t de Student. Muestras independientes o
apareadas.
t exp ≥ t α ,ν ⇒ Se rechaza H 0
t exp <t α, ν ⇒ Se acepta H 0
Pruebas estadísticas de la t de Student
 Un único conjunto de resultados: determinar si es estadísticamente significativa la
diferencia entre el valor medio de una variable y su valor de referencia.
 Dos conjuntos de resultados independientes: determinar si es estadísticamente
significativo el valor medio de una variable medida en dos grupos independientes (no
hay asociación entre los resultados de ambos grupos).
 Dos conjuntos de resultados apareados: determinar si es estadísticamente significativa
la diferencia de una variable medida en distintos objetos (asociación o relación de los
resultados de ambos grupos).
2. Calibración univariante. Parámetros estadísticos.
Introducción a la calibración
Modelos mecanísticos, teóricos o funcionales
 Basados en consideraciones teóricas y el conocimiento fundamental de los
mecanismos físicos y/o químicos que gobiernan y explican el sistema.
 La interacción o relación teórica, supuestamente libre de error, de la(s) variable(s)
independiente(s) y la variable dependiente define la estructura exacta del modelo.
 Obtenidos mediante inferencia deductiva.
 Más restrictivos (exactos).
 Modelos deterministas.
Modelos empíricos
 Modelos estadísticos que describen el sistema en base al comportamiento de los
resultados de la variable dependiente al variar simultáneamente la(s) variable(s)
independiente(s) en un determinado dominio experimental.
 Obtenidos mediante inferencia deductiva.
 Menos restrictivos (flexibles).
 Limitan la interpretación del sistema al ser modelos locales.
Regresión lineal de mínimos cuadrados ordinaria
La regresión lineal de mínimos cuadrados ordinaria (OLS) asume que:
 El modelo de regresión es lineal y es correctamente especificado. Se observa una
tendencia lineal de la variable dependiente.
 El método asume que la incertidumbre de la variable independiente ( x ) es
significativamente nula y que toda la incertidumbre se encuentra en la variable
dependiente ( y ).
 Los residuales son independientes (no correlacionados) entre sí, lo que equivale a
decir que las observaciones de la variable dependiente son independientes entre sí.
2
 Los residuales se distribuyen normalmente con media cero y varianza σ 2 ( s y / x)
constante, es decir, se distribuyen aleatoriamente. ε i NID ( 0 , σ 2 )
 Los residuales son homocedásticos, es decir, la varianza (dispersión) de la variable
dependiente es comparable e independiente de la variable independiente.
y=a+bx +e
Minimización de la suma de los cuadrados de los residuales:
N N N
∑ e =∑ [ y i−( a+b x i ) ] =∑ ( y i −^y i )2=mínimo

2 2
i
i=1 i=1 i=1
Derivando parcialmente respecto de a y b , igualando a cero y resolviendo el sistema:
Ordenada en el origen
N N
1 1
a= ∑ y i−b ∑ x i= y−b x
N i=1 N i=1
Pendiente
N N N N
N ∑ ( x i y i )−∑ x i ∑ yi ∑ ( x i−x ) ( y i− y )
i=1 i=1 i=1
b= = i=1
( )
N N 2 N
N∑x −
2
i ∑ xi ∑ ( x i−x )2
i=1 i=1 i=1
ANOVA: Significancia de la regresión. Bondad del ajuste.

H 0 :b=0
S Ctotal =S C modelo + S C residuales (error )
Causa de la Suma de cuadrados ν Varianza ( s2) F exp
variación
N
1 S Cmodelo /1 2
smodelo
modelo ∑ ( ^
2
Modelo S C = y i− y ) 2
i=1 s residuales
N
N−2 S Cresiduales /(N−2)
S Cresiduales =∑ ( y i −^y i )
2
Residuales
i=1
N
N−1 S CTotal /(N −1)
Total S CTotal =∑ ( y i− y )2
i =1
N : número total de puntos del calibrado.
F exp> F α ,1 , N −2( 1 cola ) → Se rechaza H 0. El modelo propuesto es significativo y explica la
variabilidad de la variable dependiente.
N
S C modelo i=1 ∑ ( ^y i− y )2
r 2= = N
S C Total
∑ ( y i− y )2
i=1
Coeficiente de determinación: fracción (proporción) de la variabilidad de la variable
dependiente explicada por el modelo de regresión.
ANOVA: Falta o carencia de ajuste (LOF)
H 0 : ^y =a+ bx (No hay falta de ajuste en el modelo)
S Cresiduales (error )=S C LOF + S C PE
Causa de la Suma de cuadrados ν Varianza ( s2) F exp
variación
Falta de ajuste k
k −2 S C LOF /(k −2)
(LOF) S C LOF = ∑ ni ( ^y i− yi )
2
i=1
Error puro (PE) k ni
N−k S C PE /( N −k ) 2
s LOF
S C PE=∑ ∑ ( y ij − y i )
2
2
i=i j=1 s PE
N : número total de puntos de calibración.
k : número de niveles de la variable independiente.
ni : número de datos de cada nivel de la variable independiente.
k
k =N−∑ ( ni−1 )
i=1
F exp< F α , k−2, N −k (1 cola ) → Se acepta H 0. El modelo es compatible (adecuado) con los datos
experimentales (no está sesgado).
Grados de libertad
Total: N
 Media: 1
 Total ajustado por la media: N−1
o Modelo: P−1=1
o Residuales: N−P=N−2
 Falta de ajuste: k −P=k−2=N−R−2
 Error puro: N−k=R
k k
R=∑ ( ni−1 )=∑ r i
i=1 i=1
k
k =N−R=N−∑ r i
i=1
N : número total de puntos de calibración.
P : número de parámetros del modelo.
k : número de niveles de la variable independiente.
ni : número de datos de cada nivel de la variable independiente.
r i : número de réplicas de cada nivel de la variable independiente.
R : número total de réplicas.
Varianza de los residuales (varianza del modelo de regresión)
e 1= y 1− ^y 1
[ ]
N N N N
1 1 1
∑
s2y / x =
N −2 i=1
e2i =
N−2 i=1
∑ ( y i− ^y i )2 = ∑
N −2 i=1
( y i− y )2−b 2 ∑ ( xi −x ) 2 =¿
i=1
N −1 2 2 2
¿
N −2 y
( s −b s x )
Intervalo de confianza de los parámetros
Varianza de la pendiente (b ):
2 s2y / x s 2y / x
sb = N = → ( b ± t α ,N −2(2 colas) sb )
( N−1 ) s2x
∑ ( x i− x ) 2
i=1
Varianza de la ordenada en el origen (a ):
N
s2y/ x ∑ x 2i N
1
s2a = N
i =1
=s2b ∑ x → ( a ± t α , N −2( 2 colas ) s a )
N i=1 i
N ∑ ( x i−x )
2
i=1
Ensayo de significación de los parámetros
H 0 :b=0
|b|
t exp=
sb
H 0 :a=0
|a|
t exp=
sa
t exp <t α, N −2(2 colas) → Se acepta H 0. El parámetro es asimilable a cero.
t exp >t α, N −2(2 colas) → Se rechaza H 0. El parámetro es significativo.
¿Un valor grande asegura una relación lineal? No.
La curva de calibrado siempre debe dibujarse e inspeccionarse visualmente antes de
interpretar el valor del coeficiente de correlación.
Análisis gráfico de los residuales
e i= y i− ^yi
Permite comprobar si se cumplen las premisas de la regresión lineal de mínimos cuadrados
ordinaria:
- Desviaciones del modelo lineal.
- Homocedasticidad de los residuales.
- Independencia de los residuales.
- Normalidad de los residuales.
Análisis de datos discrepantes (anómalos)
Se define el residual estandarizado:
ei
z i= ,i=1,2 , … , N
s y /x
Si los residuales se distribuyen normalmente:
e i N ( 0 , s2y/ x ) → z i N (0,1)
Aproximadamente el 95% de los residuales estandarizados ( z i) estarán en el intervalo
(−2 ,+2).
Banda de confianza
^y 0=a+b x 0
( ^y 0 ± √ 2 F α ,2 , N−2 (1 cola) s estim(x=x ) )
0
( )
2
1 ( x−x )
s2estim =s2^y (x)=s2y/ x + N
N
∑ ( x i−x )2
i=1
Donde N es el número total de patrones (puntos del calibrado).

Mayor precisión si:
 x 0 cerca de x .
 N grande.
 Amplio intervalo de la variable independiente ( x ).
Banda de predicción o dispersión
^y 0=a+b x 0
( ^y 0 ± √ 2 F α ,2 , N −2 (1 cola) s predic ( x= x ) ) 0
( )
2
1 ( x−x )
s2predic =s2y / x 1+ + N
N
∑ ( x i−x )2
i=1
N : número total de patrones (puntos del calibrado)

Predicción (calibrado externo): interpolación de la variable dependiente
Una única alícuota (medida) de la muestra
y p=a+b ^x p
y p−a y p− y
^x p= =x+
b b
( x^ p ±t α , N−2 s ^x ) p
( )
2 2
2
2
s
y /x 1 ( x^ p−x ) s predic ( x=^x )
s =
^x p 1+ + N = p
b
2
N b
2
∑ ( x i−x ) 2
i=1
m alícuotas iguales e independientes de la muestra (réplicas)

m
1
y p= ∑ y p
m i=1 i
y −a y −y
^x p= p =x+ p
b b
( )
2
2
2
sy / x 1 1 ( x^ p−x )
s ^x = 2 + +
b m N Np
∑ ( x i−x ) 2
i=1
( x^ p ±t α , N−2 s ^x ) p
Una única muestra pesada:

fV
^x p → c^ muestra= x^ p
M
fV
s ^x → sc^ =s ^x
p muestra
M p
( c^ muestra ± t α, N −2 sc^ ) muestra
f : factor de dilución
V : volumen en el que se disuelve la muestra
M : masa pesada de la muestra (asumiendo que es sólida)
m
1
^x p= ∑ ^x p
m i=1 i
A partir de varias muestras pesadas (q):

fV
^x p → c^ p =^x p
Mi i i i
fV
s ^x → sc^ =s ^x
Mi pi pi pi
ν ^c p =N −2 i
Si m=1:
( )
2
2 s2y / x 1 ( x^ p −x )
s ^x = 2 1+ + N
i
b pi
N
∑ ( x i−x )2
i=1
q
1
c^ muestra= c^ = ∑ c^ p
q i=1 i
q
1
s2c^ =
q−1 i=1
∑ ( c^ p −c^ )2 i
ν r=q−1
Según la teoría de propagación de la incertidumbre:
2
s c^ 1 q 2
u ( c^ )= + ∑ s c^
2
q q i=1 pi
( c^ muestra ± t α , ν u ( c^ ) )
q
ν=ν r + ∑ ν c^ =( q−1 ) +q ( N −2 )
pi
i=1
N : número de patrones (puntos del calibrado)
q : número de muestras
Método de la adición estándar
¿En qué consiste?
Adición de cantidades conocidas y crecientes del analito que se desea determinar a alícuotas
iguales de la muestra a analizar.
¿Cuándo se aplica?
 Se sospecha de la presencia de interferencias de la matriz de la muestra (el conocido
efecto matriz), reacciones químicas o por ionización.
 La respuesta instrumental es lineal en el intervalo de concentración de analito
ensayado.
 El término independiente del calibrado externo no difiere significativamente de cero.
Desventajas
 Análisis previo de la muestra para poder asumir un cierto nivel de concentración del
analito.
 Disponer de una gran cantidad de muestra.
 Cada muestra requiere su propio calibrado de adición estándar.
 La extrapolación es menos precisa (mayor incertidumbre) que la interpolación).
Procedimiento experimental (calibrado metodológico)
 Adicionar una misma alícuota de la muestra en cada matraz.
 Añadir volúmenes crecientes de una disolución patrón del analito.
 Enrasar los matraces.
Concentración estimada e incertidumbre
Predicción: extrapolación en y=0.
a
^x p=
b
fV
( c^ muestra ± t α , N −2 sc^ ) =( x^ p ±t α , N−2 s x^ ) M
muestra p
( )
2
2 s2y / x 1 (− x^ p− x )
s ^x = 2 +
p
b N N
∑ ( x i−x )2
i=1
¿Cómo mejorar la precisión?

 Aumentando el número de adiciones (al menos N=6).
N
Maximizando ∑ ( xi −x ) (intervalo de concentración suficientemente amplio).
2

i=1
Comparación de dos modelos de regresión lineal
Comparación estadística de las pendientes de dos modelos de regresión lineal
Para establecer la existencia de diferencias significativas entre las pendientes de dos rectas de
calibrado, se utiliza una prueba de significación (test de hipótesis) basado en la distribución t
de Student para un determinado nivel de significación (α ):
H 0 :b1=b2
|b 1−b2|
t exp= 2 2
√ sb + sb 1 2
b 1 , b2 : pendientes de cada uno de los calibrados.

2 2
sb , s b : varianza de cada una de las pendientes.
1 2
N 1 , N 2: número de puntos de cada calibrado.

2 s2y / x
s= b N
∑ ( x i− x ) 2
i=1
Como en la comparación de dos medias muestrales, antes de establecer la existencia de
diferencias significativas entre las pendientes es necesario establecer, en primer lugar, si
existen diferencias significativas entre las varianzas de los residuales de ambos calibrados.
2 2
H 0 :s y / x(1 )=s y / x(2)
2 2
Asumiendo que s y / x(1) >s y / x(2):
s 2y/ x (1)
F exp= 2
s y/ x (2)
F exp se compara con el valor crítico o tabulado de la distribución F de Snedecor con N 1−2 y
N 2−2 grados de libertad, un determinado nivel de significación α y a dos colas.
Varianzas residuales comparables
F exp< F α , N −2 , N −2 → No existen diferencias significativas entre las varianzas.
1 2
( N 1−2 ) s2y / x(1) + ( N 2−2 ) s2y/ x(2)

s2y / x( pond)=
N 1+ N 2−4
( )
2 2 2 1 1 |b1−b2|
sb + sb =s y/ x (pond ) N + N ⇒ t exp = 2 2
1 2 1 2
∑ ( x i , 1−x 1) 2 ∑ ( x i ,2−x 2 )2 1
√ sb + sb
2
i=1 i=1
Valor crítico o tabulado: t tab=t α , N +N −4

1 2
t exp <t tab → Las pendientes (b 1 , b2 ) no difieren significativamente.

t exp ≥ t tab → Las pendientes (b 1 , b2 ) difieren significativamente.
Varianzas residuales no comparables
F exp> F α , N −2 , N −2 → Sí existen diferencias significativas entre las varianzas.
1 2
t tab=t α , ν
( s 2b +s 2b )
2
ν=
1 2
4 4
sb sb
+ 1 2
( N 1−2 ) ( N 2−2 )
|b 1−b2|
t exp= 2 2
√ sb + sb 1 2
t exp <t tab → Las pendientes (b 1 , b2 ) no difieren significativamente.

t exp ≥ t tab → Las pendientes (b 1 , b2 ) difieren significativamente.
Límite de detección (LOD)
IUPAC: Concentración o cantidad de un componente presente en un material para el que la
probabilidad de afirmar falsamente su ausencia es β , dada una probabilidad α de afirmar
falsamente su presencia en base a un criterio de detección establecido.
ICH: Concentración o cantidad mínima de un componente que puede ser detectada con
fiabilidad pero no necesariamente cuantificable como un valor exacto.
ISO: Concentración o cantidad neta verdadera de un componente que conduce, con una
certeza (1−β ), a la conclusión de que dicha concentración o cantidad de componente es
mayor que la de una muestra blanco.
AOAC: Concentración o cantidad más pequeña de un componente que puede ser medida con
una certeza estadística razonable.
USP: Concentración o cantidad más pequeña de un componente que puede ser detectada pero
no necesariamente cuantificada bajo las condiciones experimentales establecidas.
Se establece teniendo en cuenta dos tipos de errores:
 Error de tipo I (α , falso positivo): probabilidad de afirmar que un analito está presente
en la muestra cuando, de hecho, está ausente.
 Error de tipo II ( β , falso negativo): probabilidad de afirmar que un analito está ausente
en la muestra cuando, de hecho, está presente.
Si la distancia y LOD− y B=3 σ B , entonces α =β=0.067.
LOD : y LOD = y B +3 σ B
Nivel crítico: límite del blanco, LOB ( y LOB) → y LOB → β=0.5
Se asume que:
y B y y LOD se distribuyen normalmente.
σ B=σ LOD → Homocedasticidad.
Se interpola en el modelo del calibrado externo para calcular la concentración del LOD ( c LOD):
( y LOD −a )
c LOD=
b
y LOD= y B + z α (1 cola) σ B + z β (1 cola) σ LOD
Asumiendo homocedasticidad: ( σ B =σ LOD ) y α =β=0.05:
y LOD= y B +2 z 0.05 (1 cola ) σ B = y B +2 ·1.645 σ B = y B +3.3 σ B
¿Y si σ B , σ LOD son desconocidas?
σ B y σ LOD son aproximados por s B y s LOD, estimados a partir de m(≥ 10) medidas.
y LOD= y B +t α ,m−1 (1 cola) s B +t β ,m−1 (1 cola) s LOD
Asumiendo homocedasticidad: ( s B=s LOD ) y α =β=0.05:
y LOD= y B +2 t 0.05 , m−1(1 cola) s B
Se interpola en el modelo del calibrado externo para calcular la concentración del LOD ( c LOD).
Si la ordenada en el origen ( a ) no difiere significativamente de la señal media de la muestra
blanco ( y B) para un determinado nivel de confianza:
H 0 :a= y B → Aceptamos H 0
2 z 0.05 (1 cola) σ B 3.3 σ B
c LOD= =
b b
2 t 0.05, m−1 (1 cola) s B 3.6 s B
c LOD= =
b b
Límite de cuantificación (LOQ)
10 s B
c LOQ=
b

Introducción a la Quimiometría

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Introducción a la Quimiometría

Cargado por

Copyright:

Formatos disponibles

TEMA 2: Introducción a la Quimiometría.

Distribución normal estándar

Si F exp> F α , ν , ν → Existen diferencias significativas entre las varianzas.

La comparación estadística de la media muestral de dos grupos de muestras independientes

Varianzas muestrales ( s2) conocidas. Distribución t de Student.

Previamente, como hemos mencionado, hay que comparar sus varianzas:

∑ e =∑ [ y i−( a+b x i ) ] =∑ ( y i −^y i )2=mínimo

ANOVA: Significancia de la regresión. Bondad del ajuste.

Donde N es el número total de patrones (puntos del calibrado).

N : número total de patrones (puntos del calibrado)

m alícuotas iguales e independientes de la muestra (réplicas)

Una única muestra pesada:

( c^ muestra ± t α, N −2 sc^ ) muestra

A partir de varias muestras pesadas (q):

¿Cómo mejorar la precisión?

b 1 , b2 : pendientes de cada uno de los calibrados.

N 1 , N 2: número de puntos de cada calibrado.

( N 1−2 ) s2y / x(1) + ( N 2−2 ) s2y/ x(2)

Valor crítico o tabulado: t tab=t α , N +N −4

t exp <t tab → Las pendientes (b 1 , b2 ) no difieren significativamente.

t exp <t tab → Las pendientes (b 1 , b2 ) no difieren significativamente.

También podría gustarte