Está en la página 1de 17

QUÍMICA ANALÍTICA AVANZADA y QUIMIOMETRÍA

Aplicaciones de la estadística univariable clásica a problemas


diarios del laboratorio de análisis (cómo VALIDAR métodos de
análisis)
Química Analítica
José Manuel Andrade Garda
Universidade da Coruña

Validar = establecer mediante estudios sistemáticos de laboratorio que las


características técnicas de un método de análisis cumplen las especificaciones
relativas al uso previsto  Que el método da un resultado “fiable”
Seguridad
Robusto Respuesta

Exactitud Coste Calidad en


la medida

Relevancia
Rapidez
JMAG-QAAQ

Qué debe “validarse”: Equipos, instrumentos, material (reactivos), exactitud,


precisión, límites de detección y cuantificación, rango lineal de trabajo, incertidumbre,
integridad del software, integridad de los datos, mantenimiento, condiciones físicas,
personal, etc.
Emplear un método “oficial” ¡¡¡¡NO es garantía de que ya todo se hace correctamente!!!!

MISIONES DEL LABORATORIO

• LABORATORIO = una Empresa (parte) que da SERVICIOS


PROBLEMA:
Los científicos sabemos que la perfección no existe pero muchas veces nuestros
clientes no entienden esto.

Tratamos de paliar estos problemas repitiendo los experimentos … pero con nuestros
propios medios (usados para poner a punto el método)
JMAG-QAAQ

VALIDAR = hasta donde sea económica y técnicamente factible

ASUMIR QUE TENEMOS UN MÉTODO QUE PODEMOS USAR Y QUE


GENERA RESULTADOS EN UN CONJUNTO DE MUESTRAS
(RELATIVAMENTE GRANDE)
¿CÓMO LOS DESCRIBIMOS (RESUMIMOS) ??ESTADÍSTICA DESCRIPTIVA

TRABAJO PARA ALUMNOS  ESTUDIAR QUÉ ES (Y EL USO) UN HISTOGRAMA

Describir los conjuntos de datos:


1.- localizar el conjunto de datos en el espacio (primero fijan la escala)
2.- caracterizar esa localización por un número que representa todo el conjunto de datos
(“en promedio”), esto se llama TENDENCIA CENTRAL (hay varias opciones)
3.- describir cuánto se dispersan los datos en torno al valor característico central  esto
es la DISPERSIÓN
4.- describir la forma de la distribución
Ecuación de Gauss (distribución normal) JMAG-QAAQ

Para que su ecuación fuese universal, introdujo dos parámetros (constantes) que dependían del
conjunto de datos en particular:

µ = la tendencia central o valor más probable, le llamó media de la población, y se estima por la
media aritmética experimental de los datos; = para localizar exactamente el eje de la campana
σ2 = una medida de la dispersión de los datos = varianza de la población; se estima por SD2 =
varianza muestral (SD=desviación estándar … porque se calcula sobre datos estandarizados); fija el
tamaño lateral de la campana (a media altura)


 ( x )2 
 σ = ancho a mitad de altura
  1
1  2
 2

y ( x)  ·e 
 2
 2

Dividir por este factor


hace que el área bajo la µ = valor más probable
curva sea =1 (normaliza)

 1·z 2 

 
1  
y ( x)  Para evitar los efectos de las escalas se suele precalcular
 2 
·e
2 zi=(xi-media)/sd  datos estandarizados  distribución
normal tipificada (es la que se suele utilizar)
JMAG-QAAQ

Cuando las distribuciones no parecen Gaussianas (muy frecuente)  aplicación del teorema del
límite central ( la distribución conjunta de un número elevado de variables aleatorias tiende a ser
‘normal’).

Este teorema es lo que subyace en la aplicación rutinaria de los principios de estadística a las ciencias
experimentales –crítico para los científicos– .

2.3.- PARÁMETROS PARA DESCRIBIR CONJUNTOS DE DATOS


LA TENDENCIA CENTRAL
1.- Valor medio, media aritmética, media, promedio, … (asume distribución gausiana)

2.- Mediana

3.- Media geométrica

OJO!!: Media de medias


X
 (n ·X
1 1  n2 ·X 2  ...  nn ·X n )
n1  n2  ...  nn
LA DISPERSIÓN JMAG-QAAQ

1.- Rango o Intervalo


2.- Desviación estándar
NOTAS: 1: las SD no pueden sumarse, dividirse, etc. Necesitamos trabajar con la varianza, SD2
2: las calculadoras tienen dos teclas que deberán usarse dependiendo de si tenemos más o menos de 30
valores (<30n-1)
3: Usar todos los decimales posibles en los cálculos porque como se trabaja con varianzas los errores pueden ser
elevados. Redondear al final.

3.- Desviación estándar relativa (DER; RSD) (ex- coeficiente de variación CV)
4.- Skewness, g1 5.- Kurtosis, g2
Describe la simetría de la distribución Describe si la distribución es apuntada o chata

Simétrica (Gausiana) = 0 Distribución Gausiana = 0


Asimétrica (hacia la izquierda) < 0 Distribución apuntada (sin colas) > 0
Asimétrica (hacia la derecha) > 0 Distribución chata (con colas) < 0

g1 
 (x i  x)3
 (x  x)4
 3
i
n * SD 3 g2 4
n * SD

Como se suele “aceptar”  que la distribución de datos es “normal” (Gausiana) no se suelen indicar
los valores de Skewness ni Kurtosis [OJO, la Kurtosis también se puede definir sin “3”, la normal
tiene kurtosis =3 en ese caso]
3.- PRECISIÓN … comenzar por aquí JMAG-QAAQ

Mutua concordancia entre diferentes medidas realizadas sobre la misma muestras en


condiciones “idénticas”. Se interpreta como la dispersión de los valores experimentales en
torno a la media aritmética. Típicamente se estima como la SD.

La Precisión es un requisito fundamental, si un método / equipo, NO es preciso  descartarlo


(preciso respecto a … exigencias o nosotros)

Repetibilidad (r): grado de concordancia entre dos resultados independientes obtenidos por
el mismo trabajador, mismo equipo, mismos reactivos, en condiciones de trabajo “idénticas”
(análisis consecutivos). Suele considerarse como “SD a corto plazo” aunque en realidad es
r = 2*√2*SDcorto

Reproducibilidad (R): …idem… diferentes trabajadores, diferentes equipos, diferentes


reactivos, en diferentes condiciones de trabajo. Suele considerarse como “SD a largo plazo” y
responde más a la realidad del trabajo, se calcula como
R = 2*√2*SDlargo

Opciones intermedias  especificar claramente cálculos.

NOTA: El “2”  t-Student (n-1, 95%), asumiendo n muy grande, para el estudio particular de un laboratorio
puede ser más sensato usar la t en función del ‘n’ real que se tiene
JMAG-QAAQ
4.- VERACIDAD (EXACTITUD) (TRUENESS VS ACCURACY)

EXACTITUD VERACIDAD (Trueness) = grado de acuerdo entre el valor promedio de nuestras medidas y el
valor “cierto” (si existe, o uno aceptado como tal, uno proveniente de ejercicios interlaboratorio, etc.)
SESGO

TRES FORMAS PARA EVALUAR LA VERACIDAD EN LABORATORIOS

1.- MATERIALES CERTIFICADOS DE REFERENCIA


CRMs, son materiales (muestras reales, en general) que han sido analizados por un conjunto
elevado de laboratorios experimentados, en condiciones de control estadístico y cuyos
resultados pasan una serie de criterios estadísticos para alcanzar un valor “promedio” que se
certifica como cierto.
Debe usarse el CRM más similar posible a nuestras muestras (ojo matrices).
PROBLEMAS !!

2.- MÉTODOS DE REFERENCIA


Métodos aceptados a nivel internacional/nacional como “buenos” (si se aplican
correctamente); p.ej. EU, IUPAC, ISO, AOAC, etc. Tiene que realizarlo personal entrenado y
con experiencia.
JMAG-QAAQ

3.- EJERCICIOS INTERLABORATORIO


(4.-) SI NINGUNA DE LAS 3  se acepta calcular recuperaciones analíticas usando patrones

CUANDO SE APLICAN LOS LLAMADOS “TEST ESTADÍSTICOS” (MÁS


PROPIAMENTE, TEST DE HIPÓTESIS) ENTRAMOS EN EL TERRENO DE LA

INFERENCIA ESTADÍSTICA
5.- DETECCIÓN DE DATOS ANÓMALOS:
TEST Q DE DIXON  ALUMNOS
x  xsospechoso
TEST DE GRUBBS (G) Gexp erimental 
SD
Este es un test de una cola y se aplica SOLO SOBRE EL DATO MÁS DIFERENTE (en la
práctica suele hacerse sobre el mayor y el menor)

Se suele recomendar trabajar al 99 % de confianza (OJO)


Existen variantes para evaluar SIMULTANEAMENTE LOS VALORES MÁXIMO Y
MÍNIMO y para EVALUAR SIMULTÁNEAMENTE DOS POSIBLES ANÓMALOS
situados (AMBOS) EN LA PARTE SUPERIOR O INFERIOR DE LA MEDIA.
6.- TIPOS DE ERROR ESTADÍSTICO JMAG-QAAQ

• Los test estadísticos están basados en distribuciones de probabilidad de una


POBLACION de resultados (casi siempre Gaussiana)

 en los test de hipótesis lo que se hace es evaluar la (probabilidad de) veracidad del
enunciado del test (=Hipótesis Nula = Ho) … suele tratar de determinar si una
característica de la MUESTRA cumple alguna propiedad de la POBLACION de la que se
supone que procede.

• Para tomar una decisión estadística queremos fijar la probabilidad de acierto (p.ej.
95%) (=probabilidad de que la hipótesis nula sea cierta) y limitar el margen de error …

• PERO a la hora de equivocarnos, podemos errar de dos formas diferentes:

En general los tests estadísticos SOLO


CONSIDERAN EL riesgo de FALSOS El opuesto, error de tipo II
POSITIVOS. Éste es el error que viene indicado (falsos negativos) suele dejarse
incontrolado.
en las tablas y que nosotros elegimos.
JMAG-QAAQ

A) Aceptar la Ho cuando no debiésemos  podemos concluir que la Ho es probable,


cuando no lo es  p.ej.: aceptamos un dato cuando en realidad no debiésemos (en realidad,
es un anómalo)
= riesgo tipo II, tipo β, falsos negativos, error para el cliente (p.ej. Digo que no hay
problemas cuando los hay)

B) Rechazar Ho cuando no debiésemos  podemos concluir que la Ho no es probable,


cuando sí lo es  p.ej.: Rechazamos un dato cuando no debiésemos
= riesgo tipo I, tipo α, falsos positivos, error del fabricante (P.ej., digo que hay problemas
cuando no los hay)

VERDAD (desconocida)
Ho verdadera Ho falsa
(aceptar) (rechazar)
(Aceptar H1)
MI DECISIÓN Error tipo II (β)
Ho verdadera
(según cálculos OK Falso negativo
(aceptar)
con datos Error del cliente
experimentales)
Ho falsa Error tipo I (α)
(rechazar) Falso positivo OK
Acepto H1 Error del fabricante
7.- LOS INTERVALOS DE CONFIANZA: JMAG-QAAQ

7.1.- Concepto y definición


NO es posible conocer con total certidumbre los parámetros estadísticos de un conjunto de
resultados  RESUMEN < > TODO

Podemos ofrecer ESTIMACIONES y enmarcarlas en un intervalo en el cual tenemos una


alta confianza de encontrar el valor verdadero de ese parámetro

Por ejemplo, de una serie de resultados podemos decir que ...  el valor medio
experimental (xxx) es nuestra mejor estimación del valor promedio verdadero, el cual
pensamos que estará en el intervalo de valores … , al …% de confianza.

William Sealy Gosset 1908 publicó sus conclusiones bajo pseudónimo STUDENT

 si bien los valores medios calculados para subconjuntos diferentes, y de distinto tamaño,
tomados a partir de una serie de datos (de una misma fábrica) difieren entre sí, cuanto mayor
sea el tamaño de los subconjuntos mayor similitud existe entre las medias y de éstas con la
media teórica (de la distribución normal correspondiente).

 Student determinó que podía calcularse un factor que corregía la diferencia entre la
distribución experimental de los datos y la distribución teórica. Este factor depende de “n” y
del porcentaje de error de tipo I dispuestos a asumir.
7.1.- LOS INTERVALOS DE CONFIANZA: definición JMAG-QAAQ

La idea del “intervalo de confianza” la propusieron inicialmente para la media Neyman y


S.Pearson en 1950

El IC se define como el intervalo computado a partir de los valores de la muestra que incluye
el parámetro verdadero (pero desconocido) con una probabilidad especificada, la llamada
probabilidad de confianza (=nivel de confianza).

2.- INTERVALOS DE CONFIANZA: Cálculos y usos


Haciendo uso del factor de Student podemos definir un intervalo en torno al valor medio
experimental de tal forma que, al nivel de confianza elegido, estemos “seguros” de que contiene
el valor medio teórico. El intervalo es simétrico en torno a la media

Esto se puede utilizar para comparar una media experimental a un valor “teórico”
COMPARAR DOS MEDIAS JMAG-QAAQ

1°  COMPARAR VARIANZAS, para elucidar modalidad test Student a aplicar

TEST F-FISHER = calcular relación F = s12 / s22 (numerador, valor mayor)

Valor tabulado, n(numerador)-1 y n(denominador)-1 gdl (RECOMIENDA 99% CONFIANZA), 1 cola

Si Fexp < Ftab


 USAR “MODALIDAD A”

Si Fexp> Ftab,
 USAR “MODALIDAD B”

OJO!!!!
en ambos casos la aproximación estadística consiste en probar
Ho: si el intervalo de confianza asociado a la DIFERENCIA DE LAS MEDIAS
incluye al cero

TEST t de las diferencias  ALUMNOS


JMAG-QAAQ
t exp  ( 1  2 )  (x1  x 2 )/s (x1  x 2 )  (x1  x 2 )/ (s /n 1 )  ( s / n2 )
2
1
2
2

MODALIDAD A:

MODALIDAD B:
8.- ANÁLISIS DE LA VARIANZA, JMAG-QAAQ

COMPARAR MÁS DE DOS MEDIAS


El razonamiento es comparar varianzas (no las medias, directamente) para decidir si alguna media
tiene asociado un error excesivo y, por tanto, concluir que esa media tiene algún sesgo asociado y
NO es comparable al resto.

Los cálculos del ANOVA finalizan, pues, en un test F (Fexp > Ftab (%conf, n-1,n-1) 

Ho: no hay diferencias entre las varianzas ni entre las medias


Si hay evidencias para rechazar Ho … se acepta la alterantiva (H1) = las varianzas no son
comparables alguna media es diferente (gráficamente descubrir cuál).

 Factor: el fenómeno que puede causar diferencias entre las medias. Si sólo consideramos uno,
se llama ANOVA de una vía; 2  ANOVA de dos vías, etc. (no suele aplicarse >2 por la dificultad
interpretación)
Niveles: los diferentes “valores” del factor que se van a considerar
Replicado: cada dato de la serie, cada nivel del factor tiene sus propios “replicados”, que dan
lugar a las medias a comparar

Regla pnemotécnica para entender qué subyace


1. Calcular la varianza usando todos los datos (como si no hubiese niveles en el factor)
2. Calcular la varianza dentro de cada nivel y combinarlas
3. Calcular la varianza entre los niveles
4. Comparar 2 y 3 para determinar si alguna es diferente ( al menos, una media es diferente)
JMAG-QAAQ

Factor Replicados Suma por filas Media de cuadrados


Nivel 1 X11 X12 ---- X1a R1 R12 / a
Nivel 2 X21 X22 ---- X2a R2 R22 / b
---- -----
Nivel r Xr1 Xr2 ---- Xrc Rr Rr2 / c
T = suma SF = suma por niveles
= suma por columnas
S2 =∑Xij2 Término correcciones = T2/N

Fuente de variación Suma de cuadrados gdl Cuadrados Fexperimental Ftablas


promedio

Total (entre niveles) SQT=S2-TC VT=N-1 ----- ----- -----

Factor (dentro niveles) SQF=SF-TC VF=r-1 CMF=SQF/VF CMF/CMR F(cc%,VF,VR)


Residual SQR=SQT-SQF VR=VT-VF CMR=SQR/VR

También podría gustarte