Está en la página 1de 82

UD 2

Tratamiento de los resultados


analíticos

Módulo:
Calidad y Seguridad

Departamento
de FP Química
Tratamiento de los resultados analíticos

1. Quimiometría y Cualimetría. La estadística y el control de calidad.


2. La calidad de las medidas. Errores. Tipos, cuantificación y propagación de
errores.
3. Intervalo de confianza.
4. Expresión de los resultados analíticos
1. Cifras significativas
2. Reglas de redondeo
5. Rectas de regresión.
6. Estadística descriptiva
 Concepto de muestra y población.
 Variables estadísticas.
 Medidas de centralización y dispersión.
 Distribución de frecuencias.
 Tablas y gráficas
 Distribución normal.

1
Tratamiento de los resultados analíticos

7. Ensayos de significación
A. Rechazo de resultados dudosos
B. Comparación de dos varianzas
C. Comparación de un resultado con un valor de referencia
D. Comparación de las medias de dos series de medidas
E. Comparación de dos series de medidas emparejadas
F. Análisis de la varianza (ANOVA)

2
Bibliografía

• “Química Analítica” (7ª edición). Skoog, West, Holler y Crouch. Ed.


McGraw Hill. (cap. 5, 6 y 7).
• “Garantía de la Calidad en los Laboratorios Analíticos”. R. Compañó
Beltrán y A. Ríos Castro. Ed. Síntesis.
• “Estadística y Quimiometría para Química Analítica”. J.N. Miller y J.C.
Miller. Ed. Prentice Hall.
• “Quimiometría”. G. Ramis, M.C. García. Ed. Síntesis.
• “Calidad y Seguridad”. A. Moreno y C. Hidalgo. Ed. Síntesis.

3
1. QUIMIOMETRÍA Y CUALIMETRÍA

Quimiometría: Disciplina química que utiliza métodos matemáticos y


estadísticos para :
 (a) para diseñar o seleccionar procedimientos y experimentos óptimos de
medición.
 (b) para proporcionar información química máxima analizando datos
químicos.

Cualimetría: La ciencia de medir y cuantificar la calidad de todo tipo de objetos


y procesos.
El marco de la cualimetría consta de tres partes:
 Cualimetría general, que se ocupa de problemas y cuestiones, así como
métodos para medir y evaluar cualidades.
 Cualimetrías especiales de grandes agrupaciones de objetos, por ejemplo,
cualimetrías de productos, procesos, servicios, seguridad social, hábitat,
etc. a la altura de la calidad de vida de las personas.
 Cualimetría de ciertos tipos de productos, procesos y servicios, como
productos de ingeniería, proyectos de construcción, productos petrolíferos,
mano de obra, educación, etc.

4
Quimiometría y Cualimetría

Con el uso de la estadística y modelos estadísticos avanzados


podemos identificar, corregir y/o mejorar aquellos factores que
influyen en nuestra productividad final, mejorar la calidad y
aplicar la mejora continua de procesos.

Al mejorar la calidad:
● Se reduce el número de unidades defectuosas que deben
reprocesarse.
● Se elimininan tests, análisis e inspecciones.
● Se evita el rechazo de un producto o lote de producto.
● Se producen menos retrasos.
● Se aprovecha mejor el tiempo de máquinas y operarios.
● Se utilizan mejor los materiales.

5
Etapas básicas del proceso analítico

• Esquema básico del


proceso analítico:

Problema • Información cualitativa


analítico • Información cuantitativa

Muestreo
Medida Errores
Operaciones
previas • Magnitud

Determinación • Mensurando
analítica • Resultado: M±U
Tratamiento
de datos

Resultados Incertidumbre

6
2. CALIDAD DE LAS MEDIDAS. ERRORES.

• Exactitud: concordancia entre el valor medido y el valor


verdadero de la magnitud que se trata de medir. En ciertos
casos se necesita una mayor exactitud que en otros (análisis de
una caliza para uso industrial o el análisis de una materia prima
para un medicamento).
• Relacionado con el Error absoluto y el Error relativo.

• Precisión: grado de concordancia que existe entre un conjunto


de resultados obtenidos mediante las mismas condiciones
especificadas.
• Expresa el grado de reproducibilidad de las medidas.
• Relacionado con la desviación estándar y la desviación
estándar relativa o coeficiente de variación.
• Mejorar precisión por criterio de rechazo de resultados o
aumento de número de medidas

7
Calidad de las medidas

• Error: diferencia entre un valor medido de una magnitud y un


valor de referencia.
No se puede conocer con exactitud

• Crasos, accidentales o groseros.


• Sistemáticos.
• Aleatorios.

8
Errores en el proceso de medida

A. Errores crasos, accidentales o groseros.


 Fácilmente detectables no tienen incidencia en el resultado final ni
requieren ningún tipo de tratamiento estadístico ya que se suele
abandonar el ensayo. Avería de un instrumento, derramamiento de
muestra importante.
B. Errores sistemáticos
Son aquellos errores que pueden ser evitados o cuya magnitud puede ser
evaluada para realizar la corrección correspondiente.
Afectan a la exactitud.
Los errores sistemáticos dan lugar a una desviación, siempre en el mismo
sentido, de los resultados obtenidos respecto del valor verdadero. Pueden ser
constantes o proporcionales, es decir, independientes o dependientes de la
concentración del analito presente.
 Causa asignable. Pueden ser corregidos si se detecta la causa del error.
 Magnitud definida. Afectan de igual forma a todas las medidas, bien por
exceso o bien por defecto: introduce un sesgo en el resultado.
Sesgo: valor estimado de un error sistemático

9
Tipos de errores sistemáticos

• Errores de método: inherentes al método analítico utilizado, y


dependen de las características físico-químicas del sistema. En
análisis cuantitativo, las interferencias son una fuente de error
de método. En análisis gravimétrico pueden citarse como
fuentes de error la solubilidad de los precipitados o los
fenómenos de co-precipitación.

• Errores instrumentales: debidos a la mala calibración de los


instrumentos: balanzas, material volumétrico, etc.
Limitaciones de los instrumentos.

• Errores personales: debidos al analista, como por ejemplo,


trasvases de líquidos con poco cuidado, de forma que se
pierda parte de la muestra, mal enrase.

10
Errores sistemáticos según su efecto

* Errores constantes o aditivos:


presentan la misma magnitud.
(Pérdida por solubilización de
un precipitado).

* Errores proporcionales: la
magnitud medida aumenta o
disminuye conforme al tamaño
de la muestra (presencia de
interferencias).

11
Errores en el proceso de medida

C. Errores aleatorios
 Causa no asignable. Están presentes, en mayor o menor medida, en todas
las medidas que se realizan. Impredecibles.
 Afectan a la precisión.
 Son inherentes al proceso por lo que no se pueden eliminar. Se pueden
minimizar usando materiales y métodos de trabajo más precisos.
 Se manifiestan mediante la dispersión de los resultados obtenidos en una
serie de medidas repetidas.
 El efecto acumulativo de cada factor ocasiona que los datos de una serie
de mediciones repetidas fluctúen al azar alrededor de la media
distribuyéndose en forma de curva gaussiana, es decir siguen una
distribución normal.
 < al aumentar el nº de muestras.
 Ejemplos: fluctuación de la llama en absorción
atómica, polvo en cubetas, espejos, ruido de
fondo del equipo.

12
Ejemplos de errores

Corriente de aire  aleatorio


Pesada en balanza en diferentes posiciones  aleatorio
Caída y pérdida de parte de una muestra  Craso o accidental

Mala calibración del instrumento  sistemático

Interferencia al medir el Na por absorción atómica  sistemático


Error en el muestreo  aleatorio

Mal pipeteo por parte del analista  sistemático


Micropipeta mal calibrada  sistemático

Transcribir mal los datos de medición  aleatorio


Rotura de la bomba del HPLC  accidental o craso

Mal uso de fórmulas  sistemático

Cambio de temperatura donde se encuentra el equipo  aleatorio

13
Errores e incertidumbre
• Incertidumbre:
parámetro no negativo
que caracteriza la error
dispersión de los valores
atribuidos a un
mensurando, a partir de
sistemático aleatorio
la información que se
utiliza.

conocido desconocido

corregido remanente

Intervalo
Resultado ± Incertidumbre de
confianza
14
Cuantificación de los errores sistemáticos y aleatorios

• Error absoluto: • Error relativo: 𝑥𝑥𝑖𝑖 − 𝑥𝑥𝑟𝑟𝑟𝑟𝑟𝑟


𝑒𝑒𝑟𝑟𝑟𝑟𝑟𝑟 = x100
𝑒𝑒 = 𝑥𝑥𝑖𝑖 − 𝑥𝑥𝑟𝑟𝑟𝑟𝑟𝑟 𝑥𝑥𝑟𝑟𝑟𝑟𝑟𝑟

• El error sistemático se estima a partir del sesgo: 𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠 = 𝑥𝑥 − 𝑥𝑥𝑟𝑟𝑟𝑟𝑟𝑟

• El error aleatorio se cuantifica mediante algún parámetro de


dispersión, habitualmente la desviación estándar S (DESVEST).
 Medida analítica rápida y sencilla: puede ser útil realizar un
número elevado de medidas repetidas.
 Medida laboriosa: desviación estándar ponderada a partir de varias
series de medidas obtenidas de muestras similares, asumiendo
que todas las medidas realizadas están afectadas por las mismas
fuentes de error:

∑𝑗𝑗 ∑𝑖𝑖 (𝑥𝑥𝑖𝑖𝑖𝑖 − 𝑥𝑥𝑗𝑗 )2 ∑𝑗𝑗 �𝑛𝑛𝑗𝑗 − 1� · 𝑠𝑠𝑗𝑗2


𝑠𝑠𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝 = � = �
𝑛𝑛 − 𝑘𝑘 𝑛𝑛 − 𝑘𝑘

15
16
3. INTERVALO DE CONFIANZA

• Intervalo dentro del cual Límites de


se pueda suponer con confianza
cierta probabilidad que
se encuentra el valor LC M LC M ± LC
verdadero de una
medida.
Intervalo de confianza

• Nivel de significación α
• Nivel de confianza
95%

17
Cálculo del IC a partir de series de medidas
repetidas
• Se tienen en cuenta únicamente errores aleatorios. Se pueden dar
dos situaciones diferentes:
a) Se conoce la desviación estándar de la población estadística (σ): el
95% de un conjunto de valores distribuidos normalmente se
encuentran en el intervalo:

Operando y generalizando:

a) Se parte de una serie de medidas repetidas sobre una muestra de


análisis, pero se desconoce la desviación estándar de la población,
con lo que se cuenta únicamente con la desviación estándar de la
muestra estadística (s):

18
Distribución t de Student N≤30
Grados de libertad: N-1

N. de confianza: 80% 90% 95% 99%


N. de signif. (α): 0,2 0,1 0,05 0,01
1 3,078 6,314 12,706 63,657
2 1,886 2,920 4,303 9,925
3 1,638 2,353 3,182 5,841
Grados de libertad

4 1,533 2,132 2,776 4,604


5 1,476 2,015 2,571 4,032
6 1,440 1,943 2,447 3,707
7 1,415 1,895 2,365 3,499
8 1,397 1,860 2,306 3,355
9 1,383 1,833 2,262 3,250
10 1,372 1,812 2,228 3,169
∞ 1,282 1,645 1,960 2,576

19
Cálculo de IC. Ejemplo 1

20
Cálculo de IC. Ejemplo 2

21
4. EXPRESIÓN DE RESULTADOS ANALÍTICOS

• Cifras significativas:
 El resultado de una medida se debe presentar acompañado de su
incertidumbre y con todas sus cifras significativas. Son cifras
significativas todas aquellas conocidas con certeza más la primera
afectada por la incertidumbre.
a) Son significativos todos los dígitos distintos de cero. Los ceros
pueden o no ser significativos según la posición que ocupen.
b) Los ceros ubicados entre dígitos distintos de cero son significativos.
300.4 ---> 4 cifras significativas
c) Los ceros a la izquierda del primer dígito distinto de cero no son
significativos: sirven para situar el punto decimal; por ejemplo, el
valor 0,0124 tiene 3 cifras significativas.
0.000342 = 3.42 x 10-4 = 342 x 10-6 ---> 3cifras significativas
d) Los ceros situados al final pueden ser o no significativos, según la
precisión del instrumento que aporte la medida.

22
Cifras significativas en resultados de
combinaciones matemáticas

a) Sumas y restas: la incertidumbre del resultado no puede ser menor


que la del número con mayor incertidumbre. En la práctica esto
significa que el resultado final debe tener las mismas cifras
decimales que el sumando que menos decimales tenga.
Ejemplo: 12,4512 g + 43,18 g + 75,024 g = 130,66 g
El resultado tiene 2 decimales, como el segundo sumando.
b) Multiplicación y división: el resultado debe expresarse con el número
de cifras significativas suficiente como para que su incertidumbre
relativa sea comparable a la del factor con mayor incertidumbre
relativa. En la práctica esta regla se simplifica de manera que el
resultado tenga las mismas cifras significativas que el factor con
menor número de ellas.
Ejemplo: 3,8 g · (55,85/392,14) / 100·10-3 L = 5,4 g/L

23
Reglas de redondeo

• Un resultado analítico debe expresarse en la forma M ± U,


acompañado de la unidad de medida adecuada.
• La incertidumbre (U) debe expresarse con una sola cifra distinta de
cero, que se debe redondear al entero más próximo, más los ceros
necesarios para establecer la coma decimal.
• En ocasiones resulta conveniente expresar la incertidumbre con dos
cifras, en lugar de una, para evitar una pérdida excesiva de
información.
Ejemplo:
Una incertidumbre de ±0,138 que se redondea a ±0,1 implica una
distorsión del 28%; resulta conveniente expresar la incertidumbre
como ±0,14 (distorsión: 1,5%).

24
Reglas de redondeo

• La última cifra que se presente (tanto de la incertidumbre como del


valor central), debe redondearse al valor más próximo, teniendo en
cuenta las siguientes premisas:
 Una cifra se mantiene con su valor cuando la siguiente es 0-4.
 Una cifra se redondea al valor superior si la cifra siguiente es 6-9.
 Cuando al cifra siguiente es 5 existen varios criterios para llevar a
cabo el redondeo (siempre al alza, al azar), pero una regla sencilla
es redondear al número par más cercano; de esta forma se
elimina la tendencia a redondear en un sentido determinado.

• Es importante recalcar que no se deben realizar redondeos en las


medidas intermedias a partir de las que se calcula un resultado final,
ya que se puede producir una pérdida innecesaria de precisión.

25
Ejemplos cifras significativas y de redondeo

142,7  4 cifras significativas 1,427*102

9,2500*104  5 cifras significativas

0,000006302  4 cifras significativas 6,302*10-6

8,9984032+183,80= 192,7984032 192,80

4,3197*1012x 3,6*10-19  1,6*10-8

Pipeta 10mL ± 0,05 y balanza analítica 0,0105 g  2 cifras 25,02 ppm

26
Recomendaciones para la elaboración de tablas

• Cada tabla debe tener una leyenda autoexplicativa, que permita


entenderla sin tener que recurrir al texto. Por ejemplo:
 El uso de abreviaturas debe evitarse o, en caso de usarse, deben
ir explicadas.
 Cuando se proporcionen medidas, deben indicarse las unidades.
 Debe darse el tamaño de muestra para las medias tabuladas.
• Dentro de la tabla, las columnas deben ordenarse de un modo que
resulte lógico y comprensible, y que permita una comparación fácil de
los datos.
• Debe procurarse no dejar espacios vacíos en las tablas. En caso de
que no sea posible, debes distinguir claramente cuando se trata de un
valor cero (0) y cuando se trata de falta de datos (-).
• Su uso debe ser racional. No se deben presentar datos innecesarios.
Tampoco se debe hacer un uso abusivo: muchas veces varias tablas
pueden fusionarse en una sola en la que figure toda la información
relevante.

27
Recomendaciones para la elaboración de tablas y
gráficas
62,2% Método A Método B
Tamaño
muestra Cu presente Medida Error abs. Error relat. Medida Error abs. Error relat.
(mg) (mg) (mg) (mg) (%) (mg) (mg) (%)
150,6 93,7 91,0 -2,7 -2,85% 90,5 -3,2 -3,39%
420,5 261,6 258,8 -2,8 -1,05% 252,4 -9,2 -3,50%
825,1 513,2 510,6 -2,6 -0,51% 496,0 -17,2 -3,35%
1512,0 940,5 937,8 -2,7 -0,28% 908,6 -31,9 -3,39%
Valor medio del error: -2,7 Valor medio del error: -3,41%

0
Error absoluto (mg) -5
Método A
-10

-15

-20

-25 Método B
-30

-35
0 500 1000 1500 2000

Tamaño de muestra (mg)

28
Recomendaciones para la elaboración de gráficas

• Una gráfica debe contener toda la información necesaria para su


comprensión:
 Debe tener un título corto y conciso.
 Las variables que se representan deben estar identificadas en los
títulos de los ejes, incorporando también la unidad de medida.
 Los ejes deben tener la escala adecuada.
 En caso de que sea necesario se puede utilizar una leyenda. Ésta
debe ser colocada en un recuadro pequeño y en una zona en la
que no interfiera con los datos representados.
• Deben carecer de “ruido gráfico” (fondos con colores oscuros,
sombras, líneas o formas innecesarias). Las líneas de división pueden
ayudar a leer y comparar los valores representados, pero no se debe
abusar de ellas, y en todo caso deben ser tenues
• No deben emplearse más gráficas de las necesarias. Si varias de ellas
están relacionadas es mejor presentar varias series de datos en una
sola gráfica, siempre que la presentación conjunta sea comprensible.

29
5. RECTAS DE REGRESIÓN.

• Modelo matemático que expresa la correlación entre la concentración


del analito y el valor de la señal que proporciona el instrumento.
• Habitualmente esta correlación es lineal.
• Regresión lineal por mínimos cuadrados con el que se construye la
recta de calibrado:

Y = m*x + b

b: ordenada en origen (señal blanco)


m: pendiente. Sensibilidad del método
y: señal instrumental
x: concentración

30
Recta de regresión

[ppm] Señal [Cu] y = 0,0194x + 0,014


0 0,01 0.45
R² = 0,998

5 0,12 0.4
0.35

Absorbancia
10 0,2 0.3

15 0,31 0.25
0.2
20 0,4 0.15
0.1
0.05
0
0 5 10 15 20 25

ppm

X= (y - 0,014) / 0,0194  [ppm]

31
Ejemplos de interpretaciones
erróneas de r

• R2 coeficiente de determinación.
Explica la Bondad del ajuste.
Entre 0 y 1 (1 perfecto)
• R coeficiente de correlación.
Entre -1 y 1. Válido >0,99
Mide relación lineal entre 2 variables

a) Valor de r cercano a 1, pero regresión no


lineal:
b) Valor de r=0, no hay relación lineal, pero
sí un ajuste a otro modelo no lineal:

32
6. ESTADÍSTICA DESCRIPTIVA

Describir y resumir la información representada por un conjunto de


resultados analíticos.
Población: totalidad del sistema objeto de estudio.
Muestra: porción representativa de la población.
Muestra estadística: muestra que ha sido sometida a una serie
de observaciones experimentales, dando lugar a una serie de
resultados.

• Variables estadísticas: cada una de las propiedades o cualidades


que presenta una población.
 Variables cualitativas, categóricas o atributos. No expresable
numéricamente.
 Variables cuantitativas (> interés en lab). Se le puede asignar un
valor en forma numérica.

33
Relación entre la muestra analítica y la muestra estadística

Muestreo y
preparación
de la
muestra Muestra
estadística:
n resultados

Población
estadística:
-------------
----------

34
Medidas de centralización y de dispersión

A. Medidas de centralización: datos correspondientes a una variable.


 Media aritmética
 Mediana: valor central de un conjunto de valores ordenados de
menor a mayor. Punto medio distribución de frecuencias.
 Moda: valor que más se repite.

B. Medidas de dispersión: grado de variabilidad o dispersión.


 Rango, amplitud o recorrido: diferencia entre el mayor y menor
de los valores muestrales.
 Varianza: cuadrado de la desviación estándar.
 Desviación estándar: muestra la dispersión de los resultados.
 Desviación estándar relativa (DER, RSD) o coeficiente de variación
(CV): mide la dispersión en relación a la magnitud de la medida.
(%)

35
Medidas de centralización y de dispersión

En laboratorio número
de muestras pequeños.
Se utiliza s

36
Estadística descriptiva: funciones Excel

• Funciones estadísticas de Excel para estadística descriptiva:

37
Distribución de frecuencias. Histograma

 Número muy elevado de datos de una muestra. Consiste en


distribuir esos datos en tablas de distribución de frecuencias.
 Se contabiliza la frecuencia de aparición de cada valor.
 Un histograma es una representación gráfica de una variable en
forma de barras, donde la superficie/altura de cada barra es
proporcional a la frecuencia de los valores representados, ya sea
en forma diferencial o acumulada.

38
Histograma

Útil agrupar los datos en clases: intervalos definidos por unos límites de
clase.
Conveniente utilizar una marca de clase, calculada como el valor central
de la misma, para representar a todos los datos agrupados en una
clase.
Pasos para elaborar una distribución de frecuencias:

a) Determinar el número de clases (K). Entre 5 y 20 de la


misma amplitud
K= N (para N<200)

b) Determinar el tamaño de clase (C): ancho de cada intervalo.


C= Rango/K Rango= Máximo-Mínimo
C mejor múltiplo de 2 ó de 5

39
Histograma

c) Establecer los límites de clase: primer intervalo el valor más


pequeño, estableciendo el límite inferior en múltiplo de 2 ó 5. el límite
superior se establece sumando al inferior el tamaño de clase C y así
sucesivamente.
d) Elaborar tabla o gráfica de distribuidor de frecuencias. La forma más
habitual es mediante un diagrama de barras donde en el eje de abcisas
se representa la variable y en el eje de ordenadas la frecuencia.
El tamaño de cada barra debe ser constante en su base.

Marcar la primera casilla de la columna de frecuencias Función


FRECUENCIA meter la tabla de datos (DATOS)Meter LSC
(GRUPOS) arrastrar hasta abajo F2CTRL+SHIFT+INTRO
Para Histograma seleccionar la columna de frecuencias y en gráfico de
barras.

40
valores Nº datos 50 Frecuencia
46 93 Nº clases 7,1 LIC MC LSC f
80 75 0 10 20 1
85 70 Máximo 167 20 30 40 5
93 98 Mínimo 13 40 50 60 9
56 70 Rango 154 60 70 80 12
75 121 80 90 100 9
93 138 Tamaño de clase 21,8 100 110 120 6
13 24 * redondeando 20 120 130 140 5
159 53 140 150 160 2
70 58 160 170 180 1
129 35
98 53
167 50
113 115 Histograma 1
29 50
14
159 101
139 63 12
85 52 10
Frecuenca

28 106 8
65 138
6
35 78
95 59 4
80 76 2
111 68
0
86 102 10 30 50 70 90 110 130 150 170
Marca de clase

41
Distribución normal o de Gauss

• Uno de los modelos de distribución de frecuencias más usados.

• Si se repite una determinación un gran número de veces, y los


errores son aleatorios, los resultados tienden a agruparse en torno a
un valor medio. Cuantas más veces se repita la experiencia, más se
ajustan los valores a una distribución gaussiana.

Características básicas:
a) Presenta simetría alrededor de un valor máximo central, que
corresponde a la media aritmética de la población (μ),
coincidiendo además con la mediana y la moda de la distribución.
b) La curva de distribución normal es asintótica con respecto al eje
de abscisas, es decir, la distribución de los datos va de +∞ a -∞.

42
Distribución normal o de Gauss

c) La curva de distribución presenta puntos de inflexión en los


valores μ ± σ, es decir, a una desviación estándar por debajo y
por encima de la media de la distribución la curva pasa de
cóncava a convexa y viceversa.

d) En las curvas de distribución normal, independientemente del


valor de μ y σ, se cumple que intervalos definidos por μ ± n·σ
comprenden un porcentaje constante de la población (y del área
total bajo la curva de la distribución).

Conociendo sigma (s), se puede predecir el error indeterminado


asociado a una medida con una determinada probabilidad o nivel de
confianza.

43
Curva de distribución normal o campana de Gauss

Hace posible conocer la proporción exacta de valores que caen dentro de un


intervalo determinado
44
Distribución normal estándar

• Existen infinitas posibilidades de µ y σ. Para simplificar se puede


trabajar con la Variable normal estándar (z) o distribución normal
estándar acumulada:

z 0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9

-3,0 0,0013 0,0019 0,0026 0,0035 0,0047 0,0062 0,0082 0,0107 0,0139 0,0179

-2,0 0,0228 0,0287 0,0359 0,0446 0,0548 0,0668 0,0808 0,0968 0,1151 0,1357

-1,0 0,1587 0,1841 0,2119 0,2420 0,2743 0,3085 0,3446 0,3821 0,4207 0,4602

0,0 0,5000 0,5398 0,5793 0,6179 0,6554 0,6915 0,7257 0,7580 0,7881 0,8159

1,0 0,8413 0,8643 0,8849 0,9032 0,9192 0,9332 0,9452 0,9554 0,9641 0,9713

2,0 0,9772 0,9821 0,9861 0,9893 0,9918 0,9938 0,9953 0,9965 0,9974 0,9981

3,0 0,9987 0,9990 0,9993 0,9995 0,9997 0,9998

45
Distribución normal con Excel

• DISTR.NORM(x;media;desv_estándar;acum): devuelve la función de


distribución normal, de media y desviación estándar especificada,
para un valor x de la variable, es decir, el área bajo la curva desde -
∞ al valor x; dicho de otra forma: la fracción de datos por debajo de
x, o lo que es lo mismo, la probabilidad (p) de que un dato cualquiera
de la distribución sea menor que x.
• DISTR.NORM.INV(probabilidad; media; desv_estándar): devuelve el
valor de la variable, perteneciente a una distribución normal de media
y desviación estándar especificadas, para la que la función de
distribución toma un valor determinado de probabilidad.
• DISTR.NORM.ESTAND(z): devuelve el valor de la función de
distribución normal estándar (p) para un valor z de la variable
normalizada.
• DISTR.NORM.ESTAND.INV(probabilidad): devuelve el valor de la
variable normalizada (z) para la que la función de distribución normal
estándar toma un valor p (probabilidad).

46
7. ENSAYOS DE SIGNIFICACIÓN

• Ensayo de significación o de contraste de hipótesis:


 Pruebas estadísticas destinadas a poner de manifiesto el grado de
significación de las diferencias que se obtienen al comparar entre
sí dos o más parámetros.
 Sirven para comparar variables entre distintas muestras.
• La mera presencia de errores aleatorios provoca que dos muestras
estadísticas extraídas de la misma población den lugar a resultados
analíticos distintos.
• Situaciones habituales en las que son aplicables los ensayos de
significación:
 Comparación de los resultados aportados por dos métodos de
análisis distintos.
 Comparación de un resultado analítico con un valor de referencia.
 Comparación de la precisión, en términos de desviación estándar,
que presentan dos métodos o dos grupos de resultados.
 Aceptación o rechazo de resultados dudosos.
3
ENSAYOS DE SIGNIFICACIÓN

• Si la distribución de la muestra es normal se aplican los


llamados tests paramétricos. Si la distribución no puede
asumirse normal se aplican las pruebas no paramétricas.
• Los tests paramétricos son más potentes y dan más
información que los no paramétricos, por lo que, si pueden
usarse, se prefieren. El uso indiscriminado de muestras de
distribución fuera de la normalidad conlleva el peligro de
obtener conclusiones erróneas.
• Con pocos datos es preferible si no es difícil, ni conlleva un alto
coste de tiempo y dinero, realizar más determinaciones para
poder aplicar pruebas paramétricas al lograr una distribución
normal. El teorema del límite nos dice que si el tamaño de la
muestra es suficiente, la distribución siempre tiende a ser
normal.
• Siempre se plantea hipótesis nula (H0) e hipótesis alternativa
(H1)
4
Metodología
• Primero se plantean un problema estadístico con dos hipótesis
excluyentes:

Hipótesis nula (H0): µ = µ0


 No hay cambio, no hay diferencia  no hay diferencias
significativas entre los estadísticos de las muestras comparadas.
Las diferencias se deben a algún error aleatorio y no existen
errores sistemáticos.
Hipótesis alternativa (H1):
o Bilateral: Los parámetros que se comparan son diferentes.

▫ µ ≠ µ0

o Unilateral: un parámetro es superior o inferior a otro. La diferencia se


da en un solo sentido
 µ > µ0
 µ < µ0
 La diferencia entre los valores comparados sí es significativa.
Puede ser unilateral o bilateral.
5
Metodología
• Una vez establecidas las hipótesis:
a) A partir de los datos que son objeto de comparación se calcula el
valor de un determinado parámetro descriptor de la muestra o
muestras estadísticas.
b) Para el mismo parámetro anterior se establece un valor crítico
que depende de los grados de libertad y del nivel de significación
(α) con el que se desea realizar la evaluación.
c) Se compara el valor calculado (Xcal)y el valor crítico (Xcrí) del
parámetro estadístico:

• Si Xcal < Xcrí se acepta H0: la diferencia NO es


significativa.
• Si Xcal > Xcrí se rechaza H0: la diferencia es significativa.

6
Nivel de significación alfa

• El nivel de significación alfa (α)representa la probabilidad de


rechazar H0 siendo éste verdadero: Error tipo I o Alfa

• En los laboratorios este error supone un falso positivo sí se


quiere comprobar la ausencia de un analito.

• La probabilidad de cometer este error depende del nivel de


significación al aplicar la hipótesis.

• Error tipo II: cuando se acepta la H0 siendo falsa.

• Si se quiere minimizar errores hay que disminuir α (0,01)


 P 99% de nivel de confianza.

7
1. Rechazo de resultados dudosos

• Estas pruebas deben aplicarse con anterioridad a cualquier otra


herramienta estadística para evitar la propagación del posible error.
• Existen varios test.
• Recomendaciones previas a la aplicación del test:
1. Revisar los datos para localizar el posible error.
2. Tener en cuenta la precisión del método de medida para
asegurarse de que el resultado evaluado es realmente dudoso.
3. Si el conjunto de resultados es pequeño puede ser preferible
repetir la medida, si esta posibilidad no es costosa.
4. Si el conjunto de datos es muy pequeño (por ejemplo n=3), la
utilización de la mediana como valor central implica directamente
desechar los valores extremos.

8
Rechazo de resultados dudosos

• Hipótesis nula: el dato anómalo (x*) pertenece a la misma población


estadística que el resto de los datos (H0: x*=resto), mientras que
• Hipótesis alternativa puede ser bilateral (H1: x*≠resto), o unilateral
(H1: x*>resto, o bien H1: x*<resto).

• La metodología es similar en todas las pruebas para el rechazo de


datos anómalos:
1. Identificación del dato dudoso (máximo o mínimo).
2. Cálculo de un parámetro estadístico asociado a este dato: P*
3. Establecer el valor crítico para este parámetro en función de α y
del número de datos (valores tabulados): Ptab
4. Comparación del valor calculado en (2) con el valor crítico (o
tabulado) establecido en (3): si P* > Ptab se desecha H0, y por
consiguiente se rechaza el resultado dudoso.

9
Prueba k·s

• Este ensayo es aplicable a series con un gran número de datos, en


las que se pueda asumir que éstos se distribuyen de forma normal.
 Se identifica al valor dudoso, x*

 Se calcula 𝒙 y s sin tener en cuenta x*.


 Se calcula z* (distancia de x* a 𝑥ҧ en unidades de s):

𝑥∗ − 𝑥
𝑧∗ =
𝑠

• Se compara z* con el valor de la variable normalizada, ztab , (en tabla


t student para N ∞), para un nivel de significación crítico (riesgo de
incurrir en un falso rechazo; por defecto, 0,05). Si z*>ztabse rechaza
x*.

10
Pruebas de Dixon

• Test de Dixon: series pequeñas de datos.

1. Se disponen los datos en orden de menor a mayor.


2. Se decide si el más pequeño o el más grande es sospechoso de
ser discrepante.
3. Se selecciona el riesgo que se quiere tomar para un falso
rechazo.

 Q* se compara con Qtab, tabulado en función de N y α.


 Si Q* > Qtab se rechaza el dato dudoso.

x *  x próximo
Q* 
recorrido

11
Pruebas de Grubbs

• Test de Grubbs:

 Recomendado por ISO para ensayos de intercomparación.


 Gran robustez (capacidad el método para permanecer
inalterado por pequeñas variaciones).
 G* se compara con Gtab, tabulado en función de N y α.
 Si G* > Gtab se rechaza el dato dudoso.
 La media y la desviación estándar se calculan incluyendo al
valor dudoso.

x * x
G* 
s

12
Tabla de Qtab y Gtab de dos colas

Número de Qtab Gtab


medidas α=0,05 α=0,01 α=0,05 α=0,01
3 0,970 0,994 1,155 1,155
4 0,829 0,926 1,481 1,496
5 0,710 0,821 1,715 1,764
6 0,625 0,740 1,887 1,973
7 0,568 0,680 2,020 2,139
8 0,526 0,634 2,126 2,274
9 0,493 0,598 2,215 2,387
10 0,466 0,568 2,290 2,482

13
Ejemplo de rechazo de datos dudosos

14
2. Comparación de varianzas: prueba F

• En esta prueba se plantea la comparación entre los parámetros


de dispersión de dos series de medidas, concretamente las
varianzas muestrales (S12 y S22). Es aplicable en los siguientes
casos:

 Comparar las posibles diferencias en la precisión que


ofrecen dos métodos, dos laboratorios o dos analistas
diferentes.
 Comparar las varianzas de dos muestras estadísticas con
objeto de poner de manifiesto que provienen de una
población con una varianza homogénea; se dice entonces
que las dos muestras estadísticas son homocedásticas. En
caso contrario se habla de muestras heterogéneas u
heterocedásticas.

15
• Homogeneidad de los datos:
 Homocedásticos: homogéneo
 Heterocedásticos: no homogéneos

16
Pruebas unilaterales y bilaterales

Pruebas bilaterales o de dos colas


• Una prueba de dos colas se asocia a una hipótesis alternativa para
la cual se desconoce el signo de la potencial diferencia. Por ejemplo,
supongamos que deseamos comparar las medias de dos muestras A y
B. Antes de diseñar el experimento y ejecutar la prueba, esperamos
que si se resalta una diferencia entre las dos medias, realmente no
sabemos si A debería ser superior a B o a la inversa. Esto nos lleva a
elegir una prueba de dos colas, asociada a la siguiente hipótesis
alternativa: Ha: media(A) ≠ media(B). Las pruebas de dos colas
son con diferencia las más utilizadas.
Pruebas unilaterales o de una cola
• Una prueba de una cola normalmente está asociada a una hipótesis
alternativa para la cual se conoce el signo de la potencial diferencia
antes de ejecutar el experimento y la prueba. la hipótesis alternativa
referida a una prueba de una cola podría redactarse así: media(A) <
media(B) o media(A) > media(B), dependiendo de la dirección
esperada de la diferencia.

17
Pruebas unilaterales
Ejemplo: cuando se están ensayando la hipótesis de que un proceso es
mejor que otro (que es diferente a ensayar si un proceso es mejor o peor que
otro).

18
Comparación de varianzas: prueba F

• Hipótesis nula, H0: s12 = s22 . Las varianzas no son


significativamente diferentes.

• Hipótesis alternativa
 Unilateral, H1: s12 > s22, o bien s12 < s22 . Una varianza es
mayor o menor que otra.
 Bilateral, H1: s12 ≠ s22 . Varianzas distintas.

• 1º Paso calcular F: Fcal = s12 / s22 (Fcal debe ser > 1)

• 2º Se compara con Ftab tabulada en función de α y grados de


libertad.

• Si Ftab > Fcal precisión no significativamente diferente.

• En la tabla de F g.l numerador y denominador n-1

19
Valores de Ftab para un ensayo bilateral (α=0,05)

α=0,05 g.l. del numerador


2 colas 1 2 3 4 5 6 7 8 9 10
1 647,8 799,5 864,2 899,6 921,8 937,1 948,2 956,7 963,3 968,6
2 38,5 39,0 39,2 39,2 39,3 39,3 39,4 39,4 39,4 39,4
g.l. del denominador

3 17,4 16,0 15,4 15,1 14,9 14,7 14,6 14,5 14,5 14,4
4 12,2 10,6 10,0 9,6 9,4 9,2 9,1 9,0 8,9 8,8
5 10,0 8,4 7,8 7,4 7,1 7,0 6,9 6,8 6,7 6,6
6 8,8 7,3 6,6 6,2 6,0 5,8 5,7 5,6 5,5 5,5
7 8,1 6,5 5,9 5,5 5,3 5,1 5,0 4,9 4,8 4,8
8 7,6 6,1 5,4 5,1 4,8 4,7 4,5 4,4 4,4 4,3
9 7,2 5,7 5,1 4,7 4,5 4,3 4,2 4,1 4,0 4,0
10 6,9 5,5 4,8 4,5 4,2 4,1 3,9 3,9 3,8 3,7

20
Prueba F con Excel

• DIST.F.INV(α; g.l. 1: g.l. 2): devuelve el valor de la distribución F, es


decir Fcri, para un ensayo unilateral (derecha).
 Para utilizar esta función en un análisis bilateral: introducir un
nivel de significación α’= α /2 (en una prueba bilateral el nivel de
significación se reparte entre las dos colas de la distribución).

• DIST.F(Fcal; g.l. 1; g.l. 2): devuelve el nivel de significación α


asociado al valor F calculado para un análisis unilateral (DISTR.F.CD
para cola derecha; DISTR.F.N para izquierda).
 Para un análisis bilateral el nivel de significación correspondería a
un valor doble del anterior: 2α.

• PRUEBA.F(matriz 1; matriz 2): devuelve α asociado al valor F


calculado a partir de dos series de datos para un análisis bilateral.
 Para aplicar esta función a un análisis unilateral el nivel de
significación sería la mitad del anterior: α /2.

21
Ejemplo de comparación de varianzas
• Se desea comparar la precisión que presentan dos métodos de
análisis diferentes para la determinación de fluoruros en aguas. Las
medidas obtenidas en la aplicación de ambos métodos a una muestra
determinada se muestran en la tabla inferior. ¿Es significativamente
diferente la precisión de ambos métodos?

• No presentan precisión significativamente diferente

22
3. Comparación de un resultado con
un valor de referencia: prueba t y prueba z
• Es aplicable a situaciones como las siguientes:
 Comprobar la evidencia de error sistemático en una medida
experimental.
 Decidir si una medida supera, o no, un valor determinado, que
puede ser, por ejemplo, una referencia legal.

• Hipótesis nula: H0: 𝑥=x


ҧ ref. Implica que la diferencia entre el resultado
experimental y el valor de referencia se debe únicamente a errores
aleatorios.
• Hipótesis alternativa:
 Bilateral: H1: 𝑥≠x
ҧ ref
 Unilateral: H1: 𝑥>x
ҧ ref o 𝑥<x
ҧ ref

• Desviación estándar poblacional (σ) conocida: se compara z


• Desviación estándar poblacional (s) desconocida: se compara t
23
Comparación de un resultado con
un valor de referencia: prueba t y prueba z (2)
• Cálculo de los estadísticos t y z:
𝑥𝑟𝑒𝑓 − 𝑥 𝑥𝑟𝑒𝑓 − 𝑥
𝑡𝑐𝑎𝑙 = 𝑧𝑐𝑎𝑙 =
𝑠Τ 𝑛 𝜎Τ 𝑛
• Si tcal < ttab se acepta H0.
• Valores críticos de t y z:
 ttab = f(α; g.l.)  tabla o función DISTR.T.INV
 ztab = f(α)  tabla o función DISTR.NORM.ESTAND.INV

• Otra opción: calcular el nivel de significación (αcal o p) correspondiente


a los valores calculados y compara con el nivel crítico (habitualmente
0,05):
 A partir de tcal  DISTR.T
 A partir de zcal  DISTR.NORM.ESTAND
 Directamente mediante la función PRUEBA.Z

24
t student unilateral. Grados libertad n-1

25
Ejemplo: Comparación de una medida con un valor de
referencia
• La legislación establece un límite de 50 mg/L para la concentración de nitratos
en aguas de consumo humano. El análisis de las muestras obtenidas en cinco
puntos distintos de una red de abastecimiento arroja los resultados que se
muestran a continuación. ¿Existen evidencias de que se haya sobrepasado el
límite legal?
* Se plantea hipótesis alternativa unilateral ≠ Xref

* tcal > ttab  La hipótesis nula (los resultados obtenidos no


superan el valor legal) debe ser rechazada.
Hay evidencia de errores sistemáticos.
26
Ejemplo: Comparación de un resultado con un
valor de referencia (σ conocida)
• Se ha realizado un análisis por triplicado de un alimento para
determinar el contenido en un determinado aditivo (resultados en
tabla siguiente), del cual la legislación marca un límite de 100 mg/kg.
La desviación estándar de las medidas obtenidas con el método
aplicado es de 4 mg/kg. ¿Supera el contenido de aditivo el límite
legal?

* Z cal < Z tab  La hipótesis nula no debe ser rechazada. La diferencia


entre el valor experimental y el de referencia por errores aleatorios.
27
4. Comparación de las medias de dos series
de medidas
• Algunos ejemplos de casos en los que se aplica este test son:
 Comparación de los resultados obtenidos por dos métodos
distintos sobre la misma muestra.
 Comparación de los resultados de dos muestras distintas.
• H0 supone que la diferencia se debe a errores aleatorios.
• Muestras homocedásticas:
𝑥1 − 𝑥2 𝑛1 − 1 𝑠12 + (𝑛2 − 1)𝑠22
𝑡𝑐𝑎𝑙 = 𝑠=
𝑠· 1Τ𝑛1 + 1Τ𝑛2 𝑛1 + 𝑛2 − 2

 Número de grados de libertad: n1+n2-2.

• Muestras heterocedásticas:

𝑥1 − 𝑥2 𝑠12Τ𝑛1 + 𝑠22Τ𝑛2 2
𝑡𝑐𝑎𝑙 = 𝑔. 𝑙. = 2 −2
𝑠12Τ𝑛1 + 𝑠22Τ𝑛2 𝑠1 Τ𝑛1 2Τ 𝑛1 + 1 + 𝑠22Τ𝑛2 2 Τ 𝑛2 + 1

28
Comparación de las medias de dos series de
medidas: funciones útiles
• Además de las funciones anteriormente vistas (DISTR.T y
DISTR.T.INV) resulta muy útil la función PRUEBA.T:

• PRUEBA.T(matriz1; matriz2; colas; tipo): esta función devuelve el


nivel de significación de la diferencia entre las series representadas
por matriz1 y matriz2, asociado a la prueba t de Student, en función
del número de colas de la hipótesis alternativa (colas: 1 o 2) y del
tipo de comparación que se plantea:
 (1) datos pareados (se verá esta prueba en el siguiente apartado)
 (2) comparación de medias con varianza homogénea
 (3) comparación de medias con varianza heterogénea

29
Ejemplo: Comparación de dos medias
experimentales

Ftab > Fcal Se acepta H0  precisión no significativamente diferente


ttab < tcal Se rechaza H0 . Aunque los métodos tienen una precisión
similar , ofrecen resultados significativamente diferentes.
30
5. Comparación de dos series de medidas
emparejadas (datos pareados)

• En esta prueba los resultados que constituyen cada una de las series
no pertenecen a las mismas muestras estadísticas, por lo que no es
posible determinar un valor medio de cada serie: en este caso se
plantea la comparación entre cada pareja de datos.
• Esta prueba es aplicable en situaciones como las siguientes:
 Comparación de los resultados que se obtienen al aplicar dos
métodos distintos sobre un grupo de muestras independientes,
cada una de las cuales dará lugar a una pareja de resultados.
 Comparación de los resultados obtenidos a partir de dos muestras
distintas que varían con el tiempo, de forma que se obtienen
parejas de resultados correspondientes a medidas realizadas sobre
las dos muestras a un tiempo determinado.
 Comparación de los resultados que se obtienen al analizar varias
muestras distintas antes y después de aplicar sobre ellas una
determinada operación.

31
Comparación de dos series de medidas
emparejadas (datos pareados)
• En esta prueba H0 establece que el valor medio de las diferencias
entre cada pareja de datos no es significativamente distinto de cero:
𝑑𝑖 = 0, donde di es la diferencia entre cada pareja de valores.

𝑑𝑖
𝑡𝑐𝑎𝑙 =
𝑠𝑑 Τ 𝑛

 N es el número de parejas de datos y sd la desviación estándar de


las diferencias.

• El valor de ttabse determina para n-1 grados de liberad, un nivel de


significación determinado, y teniendo en cuenta el número de lados al
que se plantea H1.
• Al igual que en la comparación de medias de dos series de medidas,
la función PRUEBA.T permite la aplicación de este test de forma más
simple que mediante los cálculos anteriores.

32
Ejemplo: Comparación de dos series de medidas
emparejadas
• Se pretende comprobar la eficacia de la implantación de un sistema
de ventilación para reducir el riesgo de exposición a ciclohexano en
una industria de extracción de aceite de semillas:

• Hipótésis alternativa H1.


• tcal>t crí se acepta la H1  diferencia significativa
33
6. Análisis de la varianza (ANOVA)

• Cuando se pretende comparar más de dos resultados obtenidos como


el promedio de una serie de medidas, se hace necesaria la aplicación
de otra herramienta estadística: análisis de la varianza (ANOVA).

• Ejemplos de situaciones en las que es aplicable este análisis:


 Comparación de los resultados obtenidos por varios laboratorios al
analizar una misma muestra en un ejercicio de intercomparación.
 Comparación de los resultados obtenidos en un laboratorio por
más de dos métodos o por más de dos analistas distintos.
 Comparación de los resultados que se obtienen al llevar a cabo
diversos cambios en las condiciones de trabajo (temperaturas,
tiempos, pH, etc.) que afectan a la aplicación de un método de
análisis.

34
Análisis de la varianza (ANOVA)

• Para que los resultados de un ANOVA sean correctos se deben


cumplir, al menos en un grado adecuado, los siguientes requisitos:
 Cada serie de datos debe ser independiente de las demás.
 Las medidas de cada serie deben distribuirse de forma normal.
 Las varianzas de cada serie deben ser homogéneas, es decir, no
deben ser significativamente diferentes.

• Se explica la aplicación de ANOVA a la comparación de medias


provenientes de muestras estadísticas del mismo tamaño.

• H0: establece que la dispersión de las medidas dentro de cada serie y


la dispersión de las medias de cada serie se deben ambas a una
varianza común, originada por la presencia de errores aleatorios. Esta
varianza común «varianza del error aleatorio»

35
Análisis de la varianza (ANOVA)

• Varianza intra-series: media de las varianzas de cada serie; g.l.=q-1.


2
𝑠𝑖𝑛𝑡𝑟𝑎 = Σ 𝑠𝑗2Τ𝑞

• Varianza inter-series: recoge la influencia de los factores controlados


(distintos laboratorios, métodos, analistas o condiciones de trabajo),
se calcula a partir de la varianza de las medias de cada serie;
g.l.= q(n-1)
2 2
𝑠𝑖𝑛𝑡𝑒𝑟 = 𝑛 · 𝑠𝑚

 𝑠𝑗2 es la varianza de cada serie


 𝑞 es el número de series
 𝑠𝑚2 es la varianza del conjunto de medias de todas las series

 𝑛 es el número de medidas que constituyen cada serie

• Las dos varianzas anteriores se comparan mediante un test F de un


lado

36
Ejemplo ANOVA

• Se desea saber si el tiempo de calcinación de la muestra afecta


significativamente al resultado que se obtiene en la determinación de
la fibra bruta en un alimento de origen vegetal. La siguiente tabla
muestra el % en peso de fibra, a 4 tiempos de calcinación diferentes:

37

También podría gustarte