Documentos de Académico
Documentos de Profesional
Documentos de Cultura
0. Definición de quimiometría.
“Disciplina química que utiliza métodos matemáticos y estadísticos para diseñar o seleccionar
procedimientos de medida y experimentos óptimos, proporcionando información química
relevante del análisis de los datos químicos y obtener conocimientos de los sistemas
químicos.”
La quimiometría consiste fundamentalmente en el proceso de producir datos significativos y
la extracción de información a partir de dichos datos.
De las metodologías matemáticas y estadísticas aplicadas en química analítica, en este tema
únicamente nos centraremos en las más sencillas: inferencia estadística paramétrica y
calibración univariante.
1. Tratamiento estadístico de datos. Comparación de varianzas y medias.
Definiciones
Población: conjunto de todos los casos o unidades experimentales (valores) que son objeto de
estudio estadístico.
Muestra (estadística): subconjunto de valores extraído aleatoriamente de una población.
Modelo de distribución: función matemática que describe la distribución de la población de
una variable en términos de frecuencia de los resultados frente al valor de la variable.
Exactitud
Proximidad entre un valor medido y un valor verdadero de un mensurando.
Grado de concordancia entre el resultado de una medición y un valor verdadero del
mensurando.
Mensurando: propiedad sujeta a medida.
Precisión
Proximidad entre las indicaciones o los valores medidos obtenidos en mediciones
repetidas de un mismo objeto, o de objetos similares, bajo condiciones especificadas.
Grado de concordancia de una serie de resultados obtenidos sobre la misma muestra
(homogénea) aplicando, de forma repetida e independiente, unas condiciones
experimentales establecidas (método analítico).
Repetibilidad: precisión de una serie de resultados, mutuamente independientes,
aplicando el mismo método de análisis, a una misma muestra, en el mismo laboratorio, con
los mismos equipos y reactivos, el mismo operador y en un intervalo corto de tiempo.
Precisión intermedia: precisión de una serie de resultados, mutuamente independientes,
obtenidos en un mismo laboratorio en unas mismas condiciones estipuladas (método de
análisis, muestra, operadores e instrumentación) separados por largos periodos de
tiempo.
Reproducibilidad: precisión de una serie de resultados, mutuamente independientes,
obtenidos mediante el mismo método de análisis y a una misma muestra, pero en
diferentes laboratorios, lo cual presupone distintos reactivos, equipos, condiciones
ambientales y operadores.
Error de medida
Diferencia entre un valor medido de una magnitud y un valor de referencia.
El error se considera que está constituido por dos componentes: una componente
aleatoria (error aleatorio) y una componente sistemática (error sistemático).
Error aleatorio
Componente del error de la medida que, en mediciones repetidas, varía de manera
impredecible.
Inherente a todas las medidas experimentales. Error indeterminado.
Debido a variaciones imprevisibles e impredecibles de las magnitudes de influencia en
la medida, ya sean de carácter temporal o espacial, y cuyo efecto (efecto aleatorio) da
lugar a variaciones en las observaciones repetidas del mensurando.
Su valor no permanece constante. Se distribuye simétricamente (gaussiana) alrededor
de la media muestral y su valor esperado (esperanza matemática) es siempre igual a
cero.
No es posible eliminarlo en su totalidad, pero se puede minimizar incrementando el
número de medidas (réplicas).
Afecta a la precisión del método de análisis.
Error sistemático
Componente del error de la medida que, en mediciones repetidas, permanece
constante o varía de manera predecible.
Debido a formas incorrectas de realizar las medidas, las cuales se repiten siempre de la
misma manera.
Tienen una causa asignable (instrumento, método de análisis y/o personal). Error
determinado.
Puede permanecer constante (independiente de la magnitud del mensurando) o variar
de una manera predecible y proporcional (dependiente de la magnitud del
mensurando), influyendo en el resultado final en un mismo sentido.
Es independiente del número de medidas. No se puede minimizar incrementando el
número de medidas.
Es detectado variando las condiciones de medida mediante un cambio intencionado de
la metodología o empleando patrones o materiales de referencia.
En el caso de ser detectado e identificado (efecto sistemático) se debe corregir o
aplicar una corrección (factor de corrección) para compensarlo en el caso de que dicho
efecto sea suficientemente significativo frente a la exactitud requerida en la medición o
el resultado final.
Afecta a la exactitud del método de análisis.
Estadística básica
“La estadística no nos dice si estamos en lo cierto, sino la probabilidad de equivocarnos.”
Estadística descriptiva: sintetiza la información aportada por las observaciones en una serie
de parámetros numéricos (media, mediana, moda, desviación estándar, etc.), dando una
descripción numérica de la población o de la muestra.
Inferencia estadística: infiere conclusiones sobre una población (parámetros poblacionales) a
partir de los parámetros descriptivos de la muestra (parámetros muestrales),
proporcionando medidas que cuantifican el grado de confianza puesto en tales conclusiones.
Paramétrica: presupone un modelo matemático para la distribución de la población. Su
objetivo es estimar los parámetros del modelo de distribución de la muestra (media y
varianza), extrapolando los resultados a la población.
No paramétrica (distribución libre): no presupone un modelo matemático definido
para la distribución de la población. Utiliza parámetros que no tienen relación con
ningún modelo de distribución (mediana, moda, recorrido, etc.).
Distribución normal o gaussiana
N ( μ , σ2)
Media:
N
1
μ= ∑ xi
N i=1
Varianza:
N
1
σ = ∑ ( x i−μ )
2 2
N i=1
x es un estimador no sesgado de μ
2 2
s es un estimador no sesgado de σ
Teorema central del límite
Al aumentar el número de datos (n ):
La media ( x ) y dispersión ( s) de las muestras tienden a converger a μ y σ ,
respectivamente.
La dispersión de la distribución de las medias muestrales (error estándar de la media,
s/ √ n) disminuye.
La distribución de las medias muestrales se aproxima a una distribución normal a medida que
aumenta el tamaño de la muestra e independientemente de la forma de la distribución de la
población original de las medidas individuales, siempre y cuando la frecuencia de los valores
extremos caiga rápidamente.
Distribución t de Student
La distribución t de Student representa la distribución de un número reducido de datos
aleatorios e independientes de una población (muestra).
Grados de libertad ( ν): número de datos independientes que suministran información.
Nivel de confianza (probabilidad) (p): probabilidad de que el intervalo de confianza
contenga el valor poblacional o verdadero.
Nivel de significación (α ): probabilidad de rechazar la hipótesis nula ( H 0) cuando esta
es verdadera, error de tipo I o de falso positivo.
p= (1−α ) · 100 %
lím t α , ν =z α
ν→∞
La distribución t de Student se utiliza en inferencia estadística para establecer si:
La media de una determinada muestra puede generalizarse a la población de la que se
asume, proviene o representa.
Las medias de dos muestras son comparables y provienen de una misma población.
Distribución F de Snedecor
La distribución F de Snedecor representa la distribución de la relación de la varianza de dos
muestras.
1
F α ,ν , ν =
1 2
F 1−α , ν , ν
2 1
2
F α ,1 ,ν (1 cola )=t
2 α , ν 2( 2 colas )
Como la distribución F de Snedecor representa la distribución de la relación de dos varianzas,
se utiliza en inferencia estadística para establecer si:
La varianza de dos muestras, normalmente distribuidas e independientes, son
comparables.
Las medias de múltiples muestras, normalmente distribuidas, independientes y con la
misma varianza, son comparables (ANOVA).
Ensayo (test) de hipótesis
Procedimiento estadístico que permite decidir, en base a los resultados obtenidos, si una
afirmación sobre la distribución de una propiedad de una muestra puede generalizarse a la
población que representa, o bien, si dos o más descriptores muestrales son comparables.
El ensayo se resume en las siguientes etapas:
Formular una hipótesis nula ( H 0) que podrá rechazarse o aceptarse pero nunca
demostrarse. Esta hipótesis es siempre de igualdad o no diferencia entre los
parámetros estadísticos evaluados, es decir, la ausencia de un efecto.
Establecer un nivel de significación (α , o error de tipo I) para el ensayo, definido como
la probabilidad de rechazar H 0 cuando de hecho es verdadera (falso positivo), es decir,
el riesgo asumido de tomar la decisión errónea al rechazar H 0 y, por lo tanto, aceptar
una hipótesis alternativa ( H 1).
Elegir una prueba estadística o de significación (función de distribución) en función
del parámetro estadístico considerado, la cual, a través de un parámetro de
adecuación, permite establecer la aceptación o el rechazo de H 0.
En base al nivel de significación y la prueba estadística considerados, establecer un
valor de discrepancia del parámetro de adecuación para rechazar o aceptar H 0.
Interpretar el resultado del ensayo de hipótesis en el contexto de la aplicación.
Ensayos de hipótesis de una cola y de dos colas
Ensayo de dos colas (bilateral) : los valores se pueden desviar en ambos sentidos de la
distribución.
Ensayo de una cola (unilateral): los valores solo se pueden desviar hacia un sentido de
la distribución.
Averiguar si un ensayo es unilateral o bilateral depende de cómo se establezca la hipótesis
alternativa ( H 1): desigualdad (dos colas), límite superior o inferior (una cola).
Ejemplos de ensayos unilaterales
¿Son los resultados del método A significativamente superiores (o inferiores) a los del
método B?
¿Es la concentración de analito superior al límite establecido por la legislación?
Evaluar la estabilidad del principio activo del medicamento. (Pista: No puede ser
superior al 100%).
Ejemplos de ensayos bilaterales
¿Es la concentración del analito en las dos muestras significativamente diferente?
¿Son ambos métodos igual de precisos?
¿Difieren significativamente los resultados obtenidos por ambos métodos?
Distribución de dos colas: α es el área total en ambas colas.
Distribución de una cola: α es el área total en una cola.
En el caso de la distribución t de Student, por ejemplo, pueden establecerse las siguientes
relaciones:
t α ,ν (1 cola )=t 2 α , ν ( 2colas )
t α ,ν (2 colas )=t α /2 , ν ( 1cola )
p= (1−α ) · 100 %
Valor p (p-value)
Probabilidad de obtener el resultado observado asumiendo que la hipótesis nula ( H 0)
es verdadera, pero no la probabilidad de que H 0 sea verdadera.
Nivel de significación más pequeño a partir del cual se rechazaría H 0.
Si el valor p, asociado al resultado observado, es igual o inferior al nivel de significación
(α ) establecido a priori, H 0 se rechaza. Por lo tanto, la diferencia entre lo observado y
lo esperado será significativa al nivel de significación establecido.
Un valor p igual o inferior al nivel de significación ( α ) establecido implica, por lo tanto,
que la hipótesis alternativa ( H 1) es significativa y debemos aceptarla. Nivel de
significación más pequeño a partir del cual se aceptaría H 1.
valor p >α → se acepta H 0
valor p ≤ α → se rechaza H 0
Detección de errores sistemáticos: evaluación de la exactitud
Se utiliza un ensayo estadístico basado en la distribución t de Student para comprobar si hay
diferencias significativas de la media muestral ( x ) de una serie de n observaciones repetidas
(réplicas), con una determinada desviación estándar muestral ( s) y el valor verdadero o
aceptado ( μ):
H 0 : x=μ
s
μ= x ± t α , ν
√n
α : nivel de significación
ν : grados de libertad (n−1)
n |x−μ|
t exp=|x−μ| √ =
√
s s
2
n
t ≥ t
Si exp α ,ν →α >valor p → H
Se rechaza 0. Existe un error sistemático. El método no es exacto.
t <t
Si exp α , ν → α < valor p → Se acepta H 0. No existe un error sistemático. El método es exacto.
Comparación de la precisión de dos muestras
Se realiza a través de la varianza de cada una de las muestras.
2 2
H 0 : s 1=s2
Mediante el test F de Snedecor:
2
s
F exp= 12
s2
2 2
Siempre s1 > s2.
Grados de libertad: ν1 =n1−1, ν 2=n2−1.
Si F exp< F α , ν , ν → No existen diferencias significativas entre las varianzas.
1 2
σ ( x − x )= √ σ x + σ x =
1 2
2
1
2
2
√ σ 12 σ 22
+
n1 n2
z exp=
|x 1−x 2|
√
σ 21 σ 22
+
n1 n2
=|x 1−x 2|
n2 σ 21 +n1 σ 22 √ n1 n 2
√
2 2
s 1 s2
s( x −x ) = +
1 2
n1 n2
Grados de libertad:
( )
2
s 21 s22
+
n1 n2
ν=
() ()
2 2
s21 s 22
n1 n2
+
n1 −1 n2−1
Muestras apareadas o relacionadas
Las observaciones de las dos muestras corresponden a diferentes objetos que se
analizan dos veces, como antes y después de un tratamiento, con dos métodos
diferentes, etc.
Las poblaciones de ambas muestras no son homogéneas. Por lo tanto, las
observaciones de cada muestra no corresponden a réplicas de un mismo objeto.
Cada objeto analizado presenta una variabilidad diferente (matriz o composición,
localización, etc.).
Se calcula la diferencia individual para cada objeto ( x dif (i)=x 1 (i) −x 2(i)) y se comprueba si
la media de todas las diferencias es asimilable a cero: H 0 : x dif =0
t exp=|x dif |
√n
s dif
ν=n−1
Resumen de la comparación de dos medias muestrales
H 0 : x1 =x 2
Primero hay que comparar sus varianzas:
Varianzas poblacionales (σ 2) conocidas: distribución normal. Muestras independientes.
z exp ≥ z α ⇒ Se rechaza H 0
z exp < z α ⇒ Se acepta H 0
2
Varianzas muestrales ( s ) conocidas: distribución t de Student. Muestras independientes o
apareadas.
t exp ≥ t α ,ν ⇒ Se rechaza H 0
t exp <t α, ν ⇒ Se acepta H 0
Pruebas estadísticas de la t de Student
Un único conjunto de resultados: determinar si es estadísticamente significativa la
diferencia entre el valor medio de una variable y su valor de referencia.
Dos conjuntos de resultados independientes: determinar si es estadísticamente
significativo el valor medio de una variable medida en dos grupos independientes (no
hay asociación entre los resultados de ambos grupos).
Dos conjuntos de resultados apareados: determinar si es estadísticamente significativa
la diferencia de una variable medida en distintos objetos (asociación o relación de los
resultados de ambos grupos).
2. Calibración univariante. Parámetros estadísticos.
Introducción a la calibración
Modelos mecanísticos, teóricos o funcionales
Basados en consideraciones teóricas y el conocimiento fundamental de los
mecanismos físicos y/o químicos que gobiernan y explican el sistema.
La interacción o relación teórica, supuestamente libre de error, de la(s) variable(s)
independiente(s) y la variable dependiente define la estructura exacta del modelo.
Obtenidos mediante inferencia deductiva.
Más restrictivos (exactos).
Modelos deterministas.
Modelos empíricos
Modelos estadísticos que describen el sistema en base al comportamiento de los
resultados de la variable dependiente al variar simultáneamente la(s) variable(s)
independiente(s) en un determinado dominio experimental.
Obtenidos mediante inferencia deductiva.
Menos restrictivos (flexibles).
Limitan la interpretación del sistema al ser modelos locales.
Regresión lineal de mínimos cuadrados ordinaria
La regresión lineal de mínimos cuadrados ordinaria (OLS) asume que:
El modelo de regresión es lineal y es correctamente especificado. Se observa una
tendencia lineal de la variable dependiente.
El método asume que la incertidumbre de la variable independiente ( x ) es
significativamente nula y que toda la incertidumbre se encuentra en la variable
dependiente ( y ).
Los residuales son independientes (no correlacionados) entre sí, lo que equivale a
decir que las observaciones de la variable dependiente son independientes entre sí.
2
Los residuales se distribuyen normalmente con media cero y varianza σ 2 ( s y / x)
constante, es decir, se distribuyen aleatoriamente. ε i NID ( 0 , σ 2 )
Los residuales son homocedásticos, es decir, la varianza (dispersión) de la variable
dependiente es comparable e independiente de la variable independiente.
y=a+bx +e
Minimización de la suma de los cuadrados de los residuales:
N N N
( )
N N 2 N
N∑x −
2
i ∑ xi ∑ ( x i−x )2
i=1 i=1 i=1
S C modelo i=1 ∑ ( ^y i− y )2
r 2= = N
S C Total
∑ ( y i− y )2
i=1
Coeficiente de determinación: fracción (proporción) de la variabilidad de la variable
dependiente explicada por el modelo de regresión.
ANOVA: Falta o carencia de ajuste (LOF)
H 0 : ^y =a+ bx (No hay falta de ajuste en el modelo)
S Cresiduales (error )=S C LOF + S C PE
Causa de la Suma de cuadrados ν Varianza ( s2) F exp
variación
Falta de ajuste k
k −2 S C LOF /(k −2)
(LOF) S C LOF = ∑ ni ( ^y i− yi )
2
i=1
Error puro (PE) k ni
N−k S C PE /( N −k ) 2
s LOF
S C PE=∑ ∑ ( y ij − y i )
2
2
i=i j=1 s PE
N : número total de puntos de calibración.
k : número de niveles de la variable independiente.
ni : número de datos de cada nivel de la variable independiente.
k
k =N−∑ ( ni−1 )
i=1
F exp< F α , k−2, N −k (1 cola ) → Se acepta H 0. El modelo es compatible (adecuado) con los datos
experimentales (no está sesgado).
Grados de libertad
Total: N
Media: 1
Total ajustado por la media: N−1
o Modelo: P−1=1
o Residuales: N−P=N−2
Falta de ajuste: k −P=k−2=N−R−2
Error puro: N−k=R
k k
R=∑ ( ni−1 )=∑ r i
i=1 i=1
k
k =N−R=N−∑ r i
i=1
N : número total de puntos de calibración.
P : número de parámetros del modelo.
k : número de niveles de la variable independiente.
ni : número de datos de cada nivel de la variable independiente.
r i : número de réplicas de cada nivel de la variable independiente.
R : número total de réplicas.
Varianza de los residuales (varianza del modelo de regresión)
e 1= y 1− ^y 1
[ ]
N N N N
1 1 1
∑
s2y / x =
N −2 i=1
e2i =
N−2 i=1
∑ ( y i− ^y i )2 = ∑
N −2 i=1
( y i− y )2−b 2 ∑ ( xi −x ) 2 =¿
i=1
N −1 2 2 2
¿
N −2 y
( s −b s x )
Intervalo de confianza de los parámetros
Varianza de la pendiente (b ):
2 s2y / x s 2y / x
sb = N = → ( b ± t α ,N −2(2 colas) sb )
( N−1 ) s2x
∑ ( x i− x ) 2
i=1
Varianza de la ordenada en el origen (a ):
N
s2y/ x ∑ x 2i N
1
s2a = N
i =1
=s2b ∑ x → ( a ± t α , N −2( 2 colas ) s a )
N i=1 i
N ∑ ( x i−x )
2
i=1
Ensayo de significación de los parámetros
H 0 :b=0
|b|
t exp=
sb
H 0 :a=0
|a|
t exp=
sa
t exp <t α, N −2(2 colas) → Se acepta H 0. El parámetro es asimilable a cero.
t exp >t α, N −2(2 colas) → Se rechaza H 0. El parámetro es significativo.
¿Un valor grande asegura una relación lineal? No.
La curva de calibrado siempre debe dibujarse e inspeccionarse visualmente antes de
interpretar el valor del coeficiente de correlación.
Análisis gráfico de los residuales
e i= y i− ^yi
Permite comprobar si se cumplen las premisas de la regresión lineal de mínimos cuadrados
ordinaria:
- Desviaciones del modelo lineal.
- Homocedasticidad de los residuales.
- Independencia de los residuales.
- Normalidad de los residuales.
Análisis de datos discrepantes (anómalos)
Se define el residual estandarizado:
ei
z i= ,i=1,2 , … , N
s y /x
Si los residuales se distribuyen normalmente:
e i N ( 0 , s2y/ x ) → z i N (0,1)
Aproximadamente el 95% de los residuales estandarizados ( z i) estarán en el intervalo
(−2 ,+2).
Banda de confianza
^y 0=a+b x 0
( ^y 0 ± √ 2 F α ,2 , N−2 (1 cola) s estim(x=x ) )
0
( )
2
1 ( x−x )
s2estim =s2^y (x)=s2y/ x + N
N
∑ ( x i−x )2
i=1
( )
2
1 ( x−x )
s2predic =s2y / x 1+ + N
N
∑ ( x i−x )2
i=1
( )
2 2
2
2
s
y /x 1 ( x^ p−x ) s predic ( x=^x )
s =
^x p 1+ + N = p
b
2
N b
2
∑ ( x i−x ) 2
i=1
y −a y −y
^x p= p =x+ p
b b
( )
2
2
2
sy / x 1 1 ( x^ p−x )
s ^x = 2 + +
b m N Np
∑ ( x i−x ) 2
i=1
( x^ p ±t α , N−2 s ^x ) p
f : factor de dilución
V : volumen en el que se disuelve la muestra
M : masa pesada de la muestra (asumiendo que es sólida)
m
1
^x p= ∑ ^x p
m i=1 i
fV
s ^x → sc^ =s ^x
Mi pi pi pi
ν ^c p =N −2 i
Si m=1:
( )
2
2 s2y / x 1 ( x^ p −x )
s ^x = 2 1+ + N
i
b pi
N
∑ ( x i−x )2
i=1
q
1
c^ muestra= c^ = ∑ c^ p
q i=1 i
q
1
s2c^ =
q−1 i=1
∑ ( c^ p −c^ )2 i
ν r=q−1
Según la teoría de propagación de la incertidumbre:
2
s c^ 1 q 2
u ( c^ )= + ∑ s c^
2
q q i=1 pi
( c^ muestra ± t α , ν u ( c^ ) )
q
ν=ν r + ∑ ν c^ =( q−1 ) +q ( N −2 )
pi
i=1
N : número de patrones (puntos del calibrado)
q : número de muestras
Método de la adición estándar
¿En qué consiste?
Adición de cantidades conocidas y crecientes del analito que se desea determinar a alícuotas
iguales de la muestra a analizar.
¿Cuándo se aplica?
Se sospecha de la presencia de interferencias de la matriz de la muestra (el conocido
efecto matriz), reacciones químicas o por ionización.
La respuesta instrumental es lineal en el intervalo de concentración de analito
ensayado.
El término independiente del calibrado externo no difiere significativamente de cero.
Desventajas
Análisis previo de la muestra para poder asumir un cierto nivel de concentración del
analito.
Disponer de una gran cantidad de muestra.
Cada muestra requiere su propio calibrado de adición estándar.
La extrapolación es menos precisa (mayor incertidumbre) que la interpolación).
Procedimiento experimental (calibrado metodológico)
Adicionar una misma alícuota de la muestra en cada matraz.
Añadir volúmenes crecientes de una disolución patrón del analito.
Enrasar los matraces.
Concentración estimada e incertidumbre
Predicción: extrapolación en y=0.
a
^x p=
b
fV
( c^ muestra ± t α , N −2 sc^ ) =( x^ p ±t α , N−2 s x^ ) M
muestra p
( )
2
2 s2y / x 1 (− x^ p− x )
s ^x = 2 +
p
b N N
∑ ( x i−x )2
i=1
∑ ( x i− x ) 2
i=1
Como en la comparación de dos medias muestrales, antes de establecer la existencia de
diferencias significativas entre las pendientes es necesario establecer, en primer lugar, si
existen diferencias significativas entre las varianzas de los residuales de ambos calibrados.
2 2
H 0 :s y / x(1 )=s y / x(2)
2 2
Asumiendo que s y / x(1) >s y / x(2):
s 2y/ x (1)
F exp= 2
s y/ x (2)
F exp se compara con el valor crítico o tabulado de la distribución F de Snedecor con N 1−2 y
N 2−2 grados de libertad, un determinado nivel de significación α y a dos colas.
Varianzas residuales comparables
F exp< F α , N −2 , N −2 → No existen diferencias significativas entre las varianzas.
1 2
( )
2 2 2 1 1 |b1−b2|
sb + sb =s y/ x (pond ) N + N ⇒ t exp = 2 2
1 2 1 2
∑ ( x i , 1−x 1) 2 ∑ ( x i ,2−x 2 )2 1
√ sb + sb
2
i=1 i=1
t tab=t α , ν
( s 2b +s 2b )
2
ν=
1 2
4 4
sb sb
+ 1 2
( N 1−2 ) ( N 2−2 )
|b 1−b2|
t exp= 2 2
√ sb + sb 1 2