Está en la página 1de 71

Estadística descriptiva

aplicada a la química
analítica
«Los hechos son implacables,; las estadísticas son mucho más flexibles» – Mark
Twain.

«43,8% de las estadísticas no valen nada» - Anónimo.


Errores en el análisis químico

• Diferencias existentes entre un valor “verdadero” o conocido con el valor


experimental.

• La incertidumbre estimada, asociada a una medida o a un experimento.

Algunos conceptos importantes


O Exactitud: es la proximidad de la medida del valor “verdadero” o aceptado.
(Repetibilidad)

O Precisión: Es la proximidad de los resultados en relación a los demás resultados


obtenidos exactamente en las mismas condiciones. (Reproducibilidad)
• Precisión y Exactitud

Que tan cercano del


valor real se
Reproducibilidad encuentra un valor
de un resultado medido

Las medidas muy exactas, suelen ser precisas.


Las medidas muy precisas, no necesariamente son exactas.
Precisión y Exactitud
Precisión y Exactitud

Formas de expresar la exactitud:

Error absoluto: E = xi - xt
(donde xt = valor verdadero o aceptado y xi = valor experimental)

x −x
Error relativo: E = i t  100%
r x
t
Precisión y Exactitud

Formas de expresar la precisión:

• Desviación estándar

• Varianza

• Coeficiente de variación

• Desviación estándar relativa

• Dispersión o rango
Tipos de errores

Determinados Son conocidos


Pueden ser corregidos
«Sistemáticos» Afectan la exactitud

Origen no definida
Tipos de errores Indeterminados Tratados
estadísticamente
«Aleatorios» Afectan la precisión

Llevan a la obtención
«Crasos o de valores anómalos o
accidentales» atípicos que difieren de
los demás
Tipos de errores

• Determinados: Sistemáticos
Se pueden evitar o corregir , pueden ser constantes
como en el caso de una pesa descalibrada que se usa
para realizar todas las mediciones.

Este error, se podría cuantificar y corregir


Tipos de errores

• Determinados: Sistemáticos
❑ Errores Instrumentales : Causados por el
comportamiento no ideal de un instrumento por falta
de calibraciones o por el uso de condiciones.

❑Errores Operativos: Errores personales , se


pueden reducir con el cuidado del analista.

Ejem: Errores matemáticos al hacer cálculos


Transvasar una solución Prejuicios al estimar mediciones
Secado incompleto de una muestra
Tipos de errores

• Determinados: Sistemáticos
❑Errores del método: Surgen del comportamiento
químico y físico no ideal de sistemas analíticos Son los
errores más graves en un análisis.

• Coprecipitación de impurezas
• Ligera solubilidad de un precipitado
• Reacciones laterales
• Reacciones incompletas
• Impurezas en los reactivos
Tipos de errores

• El efecto de los errores sistemáticos


❑ Errores constantes: Son independientes del tamaño
de la muestra que esta siendo

❑Errores proporcionales: Disminuyen o


aumentan en la misma proporción del
tamaño de la muestra.
Tipos de errores

Instrumentales Calibración

Detección de los errores


Personales Cuidado y disciplina
sistemáticos

Análisis de referencia
Método Determinación de un blanco
Comparar con otro método
Tipos de errores
• Indeterminados: Existen en todas las medidas, nunca pueden ser
totalmente eliminados y son muchas veces, la mayor fuente de
incertidumbre en una determinación.

O Pueden someterse a un tratamiento estadístico que permita saber cuál


es el valor más probable y también la precisión de una serie de medidas.

Estos errores se revelan por pequeñas diferencia en mediciones


sucesivas hechas por el MISMO ANALISTA bajo condiciones
prácticamente idénticas y no se puede predecirRepresentación:
ni estimar.
Ruido
Deben eléctrico
seguir la
en
distribución
el instrumentode
Gauss
ESTADÍSTICA

• Se encarga de estudiar poblaciones

Grupo de individuos, objetos o medidas


que tienen una característica de interés

Muestra: Es un conjunto de medidas


seleccionadas a partir de la población.

Población de datos: Todos los datos > 30

Muestra de datos: Todos los datos hasta 30 (Representa la


población)
ESTADÍSTICA

Población

Muestra: ciudades
representativas
Curva de error Gaussiana

Cuando el mismo procedimiento es aplicado a un numero muy grande de


errores individuales, esto resulta en una curva que es llamada curva gaussiana
o curva normal de error.

Presenta una distribución simétrica de los datos en torno de la media de un


conjunto infinito de datos.

Cuando la variación de un conjunto de datos es estrictamente aleatoria, la


línea que une los puntos en la gráfica se asemeja al perfil de una campana.

Errores aleatorios contenidos en resultados analíticos siguen una distribución


gaussiana
Curva de error Gaussiana
Un fabricante controló el tiempo de duración de 4768
lámparas eléctricas.
Número de lámparas

Duración (h)
Curva de error Gaussiana

Curva de Gauss o
curva normal de
Número de lámparas

error.

Curva que
mejor se
ajusta a los
datos.

Duración (h)
Curva de error Gaussiana

• La gráfica de cualquier número finito de datos se ajusta a la curva de


Gauss.

• A medida que hayan más puntos de medida, la curva se hace más


lisa.
Conjunto Conjunto
infinito finito de
de datos datos

Media
poblacional µ 𝑋ത
Tiende a

Desviación Aumento en
estándar el número de s
poblacional  datos
Curva de error Gaussiana

Un conjunto de lámparas
con baja «» de su
tiempo de vida , proviene
s de un proceso de
s s fabricación con mayor
uniformidad que otro
𝑋ത 𝑋ത
conjunto de lámparas con
«» más grande.
Curva de error Gaussiana
Media de la muestra ≠ media de la población
Medidas de Dispersión
• Desviación estándar de la población (σ):

2 σ𝑁
𝑖=1 𝑥𝑖 − µ
2
σ=
𝑁

O Desviación estándar de la muestra (S):

 (x )
N 2
−x
i
i =1
s=
N −1
Medidas de Dispersión
• Varianza (S2):

 (x )
N 2
−x
i
i =1
s =
2

N −1
O Desviación estándar relativa (RSD):

𝑆
DSR =
𝑋
Medidas de Dispersión
• Coeficiente de variación (CV):

s
CV =   x 100%
x

O Rango (R):

R = Mayor valor – Menor valor


Medidas de Centralización
• Media aritmética o valor medio: Indica la localización de un valor central de un
conjunto de datos usando para tal, el valor medio del conjunto.

 xi
i=1
x =
N
O Mediana: Es el valor que se encuentra en el centro del conjunto cuando ordenados
de manera creciente.

1; 1; 1; 1; 2; 2; 2; 2; 3; 3; 4; 4; 4; 4; 4; 9

O Moda: Los valores que aparecen con mayor frecuencia del conjunto de datos.
Investigar
• Medidas de posición.

O Propiedades de la desviación estándar.


Ejemplo:

Supongamos que se han realizado cuatro mediciones, 821, 783, 834 y


855.

Halle el promedio y la desviación estándar.


Rta/
Ejemplo:

Supongamos que se han realizado cuatro mediciones, 321, 292, 315 y


320.

Halle el promedio y la desviación estándar.


Rta/

El promedio y la desviación estándar deben terminar en el mismo


decimal. Ejem
Promedio: 423,3 desviación S: 15,2 no: 15,21
La dispersión (amplitud y rango de variación)

Es la diferencia entre los valores máx y mínimo.

La dispersión de:

126.2, 127.5, 127.1 125.9 y 126.4

Valores máx y min (127.5 - 125.9)=1.6


Determinación del intervalo de confianza
El intervalo de confianza para la media de un conjunto de replicas
de resultados analíticos es el rango de valores entre los cuales se
espera que la media de la población este contenida con una cierta
probabilidad.

✓ Cuando σ es conocido o S es una buena estimativa de σ

Intervalo dentro del cual


podría caer el valor
verdadero dentro de una
probabilidad dada.

Z = Variable estadística (en tablas), se debe conocer el nivel de


confianza. Es la desviación de la media de un dato relativo a una
desviación estándar.
Determinación del intervalo de confianza
Determinación del intervalo de confianza
✓ Cuando se desconoce σ.

t = Variable estadística que depende del nivel de confianza (N.C) y


el numero de grados de libertad (GL). GL = N - 1
Determinación del intervalo de confianza
Intervalo de confianza

La probabilidad de qué el valor real


caiga dentro del intervalo:
Probabilidad o nivel de confianza
(%)

La probabilidad de equivocarnos :
Nivel de significancia.
Ejemplo:
Supongamos que mediante análisis repetidos se han encontrados los
siguientes valores de contenido porcentual de carbohidrato en una
glicoproteína: 12.6, 11.9, 13.0, 12.7 y 12.5. Encontrar los intervalos de
confianza en los niveles de probabilidad de 95 y 90 % para el contenido
de carbohidratos

Intervalo de confianza al nivel del 95%

Estos cálculos significan que hay un 95% de probabilidad de que la medida


real, , se encuentre en el intervalo que va de 12.04 a 13.04
¿?
Determinación del intervalo de confianza
Un Químico obtuvo los siguientes datos para el porcentaje de alcohol de
una muestra de sangre % C2H5OH: 0,084; 0,089 y 0,079. Calcule el
intervalo de confianza a 95 % para la media considerando

a) Que los tres resultados obtenidos son la única indicación de la precisión


del método.

b) Que, a partir de la experiencia previa con centenas de muestras,


sabemos que la desviación estándar del método s = 0,005% de C2H5OH es
una buena estimativa de σ.
Pruebas de Hipótesis
• Pruebas estadísticas de comparación.
La comparación de los valores de un conjunto de resultados "con el valor
verdadero" o "con los valores de otros conjuntos de resultados" permite
verificar la precisión y precisión del método analítico, o si es mejor que otro.

✓ Se establece una hipótesis.


Ho (hipótesis nula): Las dos cantidades comparadas son iguales.

Ha (hipótesis alterna): Las dos cantidades comparadas difieren.

El termino nulo significa que no debe existir diferencia entre el valor verdadero
y el observado
Comparación de dos medias con la
prueba t
• La prueba t se utiliza para comparar un grupo de medidas
con otro, a fin de decidir si son "diferentes" o no.

➢ Comparación entre una media experimental y un valor


"conocido“.

➢ Comparar dos medidas experimentales;

➢ Comparación de parejas de datos.


Comparación entre una medida
experimental 𝑋ത y un valor “verdadero”
• Prueba z para grandes muestras.
Si un gran numero de resultados se encuentran disponibles, entonces S
es una buena estimativa de σ y la prueba z es adecuado. El
procedimiento que es usado es resumido a seguir:
➢Presentar la hipótesis nula: H0: 𝑋ത = µ
𝑋ത −µ
➢ Formular la prueba estadística: 𝑧 = 𝑁
σ
➢ Presentar la hipótesis alternativa: Ha: 𝑋ത ≠ µ
➢ comparar el z calculado con el z tabulado
z calculado < z tabulado
La Hipótesis nula es aceptada
Comparación entre una medida
experimental 𝑋ത y un valor “verdadero”
• Prueba t para una muestra pequeña.

➢Presentar la hipótesis nula: H0: 𝑋ത = µ


𝑋ത −µ
➢ Formular la prueba estadística: t = 𝑁
𝑆
➢ Presentar la hipótesis alternativa: Ha: 𝑋ത ≠ µ
➢ comparar el t calculado con el t tabulado
t calculado < t tabulado

La Hipótesis nula es aceptada


Comparación entre una medida
experimental 𝑋ത y un valor “verdadero”
• Una muestra de carbón fue adquirida como un material de referencia
certificado por el Instituto Nacional de Estándares y Tecnología (NIST) en los
Estados Unidos, que contiene 3.19% en masa de azufre. Se probo un nuevo
método analítico para verificar si el valor conocido se puede reproducir o
no. Los valores medidos son 3.29; 3.22; 3.30 y 3.23% en masa de azufre,
dando un promedio de 3.26% y una desviación estándar de 0.04%. ¿Esta
respuesta está de acuerdo con la cantidad proporcionada por NIST?
Considerar un limite de confianza del 95%.
Comparación entre dos medias
experimentales
• Cuando un nuevo método analítico esta siendo desarrollado, es común
compararse la media y precisión del nuevo método con las del método de
referencia.

𝑋ത 1 −𝑋ത 2
t=
𝑁1+𝑁2
𝑆𝑐𝑜𝑚𝑏
𝑁1𝑁 2

𝑁1−1 𝑆12 + 𝑁2−1 𝑆22


Scomb = 𝑁1+𝑁2 − 2
Si t calculado < t tabulado

La Hipótesis nula es aceptada


Comparación entre dos medias
experimentales
• La homogeneidad de la concentración de cloruros en un agua de
un lago es evaluada mediante el análisis de porciones de agua
extraídas de la superficie y del fondo del lago, obteniéndose los
siguientes resultados (em ppm de cloruros).

Superficie Fondo
26,3 26,22
26,43 26,32
26,28 26,2
26,19 26,11
26,49 26,42

Aplique la prueba t en un N.C 95% para determinar si hay diferencia


entre la superficie y el fondo.
Comparación de parejas de datos
• Se usan dos métodos diferentes para hacer medidas simples en
varias muestras diferente.

d
tcalculado = n
sd

(di − d ) 2
sd =
n −1
Comparación de parejas de datos
• Un nuevo procedimiento automático para la determinación de glucosa
en suero sanguíneo (Método A) será comparado con el método
establecido (Método B). Ambos métodos son realizados en muestras
de sangre de los mismos pacientes para eliminar variabilidades entre
los pacientes. Los resultados que siguen confirman una diferencia entre
los métodos en un nivel de confianza de 95%?

Paciente Método A Método B


1 1044 1028
2 720 711
3 845 820
4 800 795
5 957 935
6 650 639
Comparación de Varianzas
• Usado para comparar las precisiones de dos grupos de datos, como, por ejemplo, los resultados de dos métodos de análisis diferentes
o resultados de dos laboratorios diferentes.

H0: S12 = S22


Ha: S12 ≠ S22

Para esto se utiliza la prueba F.

La variable estadística F.

𝑆12
F=
𝑆2 2

El mayor valor de S es siempre colocado en el numerador, lo que hace con queel valor de F sea siempre mayor que 1.

Si F calculado < F tabulado

La Hipótesis nula es aceptada


Comparación de Varianzas
Detección de errores crasos

• Cuando realizadas varias medidas de una misma grandeza,


un resultado puede diferir considerablemente de los demás.

• El objetivo es saber si ese resultado debe ser rechazado o


no, ya que afectara la media.

• Cuando el error puede ser a tribuido a algún accidente


ocurrido durante el análisis. El resultado debe ser rechazado.

• Sin embrago cuando el resultado sospechosso (discrepante)


no puede ser atribuido a ninguna causa definida de error. Su
rechazo debe ser decidido por criterios estadísticos.
Rechazo de datos de una serie

Nivel de confianza: la probabilidad de que el valor verdadero caiga


dentro del intervalo de confianza s, se expresa en % (90%, 95%...)

ഥ → de significancia de 0,05 (ó 5%), tenemos un


Cuando se elige el 𝑋nivel
95% de confianza de que hemos adoptado la decisión correcta y una
probabilidad de 0,05 de que sea falsa.
¿Cómo determinar si un valor es valor atípico y cómo
decidir si debe continuar o no con el análisis de datos?

Uno de los problemas en el análisis de datos es manejar los valores


atípicos dentro de un grupo de datos:

Un valor atípico es una observación con un valor que no parece


corresponderse con el resto de valores en el grupo de datos.
¿Cómo determinar si un valor es valor atípico y cómo
decidir si debe continuar o no con el análisis de datos?
Por lo general surgen dos preguntas:

1. ¿Es este valor realmente un valor atípico?

2. ¿Puedo eliminar este valor y continuar con el


análisis de datos?

Las pruebas estadísticas se utilizan para


identificar valores atípicos, no para retirarlos del
grupo de datos
Un dato que
creemos
«atípico»

No se debe retirar, a menos que una investigación halle la


causa probable para esta acción.
Si en la investigación no se encuentra una causa
probable ¿qué debe hacerse?

• Realizar un análisis de datos con el valor atípico y sin


el.

Si las conclusiones son diferentes,


entonces se considera que el valor
atípico tiene influencia y esto
debería indicarse en el informe Una de las Pruebas
estadísticas utilizadas es
La prueba de Dixon
La prueba de Dixon

• Utiliza relaciones de las diferencias entre datos que


parecen atípicos comparados con los valores del grupo
de datos.

Esta prueba está diseñada para detectar un único valor


atípico en un grupo de datos, y por lo tanto no es adecuada
para la detección de múltiples valores atípicos.
La prueba de Dixon

• a: Diferencia entre el # sospechoso y su vecino más cercano .


• w: Diferencia entre los valores extremos (mayor- menor)
• Q: Índice de Dixon

Q= a/w
La prueba de Dixon

Pasos
1. Ordenar los datos.

2. Encontrar la diferencia entre el dato atipico y su vecino mas cercano (a).

3. Encontrar la diferencia entre el dato mayor y el menor de la serie de datos


(w).

4. Calcular el índice de Dixon (Q).

5. Buscar en la tabla el valor del índice de Dixon con un N.C establecido.

Si Q calculado > Q tabulado se rechaza el dato


Prueba de Dixon (Prueba Q)

Ejemplo:
Tomemos los datos:
5.3 3.1 4.9 3.9 7.8 4.7 4.3

1. Ordenamos en forma creciente:


3.1 3.9 4.3 4.7 4.9 5.3 7.8
Prueba de Dixon

• Ejemplo:
Tomemos los datos:
5.3 3.1 4.9 3.9 7.8 4.7 4.3

1. Ordenamos:
• 3.1 3.9 4.3 4.7 4.9 5.3 7.8
2. Buscamos el valor atípico 7.8
3. Vecino más próximo 5.3
4. Valor mayor 7.8
5. Valor menor 3.1
Prueba de Dixon

• El tamaño de la muestra es 7, y la relación utilizada es el espacio entre el


valor atípico 7.8 y su vecino más próximo 5.3 dividido por el espacio
entre los valores más grandes y más pequeños en el grupo.

Hallamos el índice de Dixon


Q = (7.8 - 5.3) = 0.532
(7.8 - 3.1)
Este valor se compara
con el valor crítico que
se encuentra tabulado.
• El valor se declara valor atípico si supera ese valor
crítico.

Si,
Q calculado  Q tabulado.
Se rechaza el dato
CL : nivel de confianza
SL: nivel de significancia 
Para un n= 7 y un riesgo del 10%,el valor en la tabla es
de 0.507.

El índice de Dixon 0.532 excede este valor crítico,


indicando que el valor 7.8 es atípico
Prueba de Dixon

• La prueba de Dixon se usa en un número pequeño de


datos y detecta elementos que se encuentran
sesgados o que son extremos.

El trabajo realizado por Verma y Quiroz, introdujo nuevas tablas


de valores críticos, extendiéndose hasta 100 el tamaño de la
muestra. (pruebas)
Ejercicio

• Se informó el siguiente conjunto de análisis de cloruro en alícuotas


separadas de un suero combinado 103, 114, 106 y 107 meq/L. Un
valor resulta sospechoso. Realizar el cálculo a 95% de confianza. ¿Se
podría rechazar el dato que parece atípico?
Prueba de Grubbs

• Usado para identificar valores discrepantes de una población normal


cuya distribución tiende a la normalidad.

➢ Prueba G’: Para un valor extremo.


➢ Prueba G’’ Para dos valores extremos en lados opuestos.
➢ Prueba G’’’ Para pares de valores discrepantes del mismo lado.
ҧ 𝑛|
|𝑥−𝑥 ҧ 1|
|𝑥−𝑥
G’alto= o G’bajo=
𝑆 𝑆

Donde 𝑥ҧ 𝑒𝑠 𝑙𝑎 𝑚𝑒𝑑𝑖𝑎 𝑦 𝑆 𝑒𝑠 𝑙𝑎 𝑑𝑒𝑠𝑣𝑖𝑎𝑐𝑖𝑜𝑛 𝑒𝑠𝑡𝑎𝑛𝑑𝑎𝑟 𝑥1 𝑒 𝑥𝑛


𝑠𝑜𝑛 𝑣𝑎𝑙𝑜𝑟𝑒𝑠 𝑒𝑥𝑡𝑟𝑒𝑚𝑜𝑠 (𝑚𝑎𝑠 𝑏𝑎𝑗𝑜 𝑦 𝑚𝑎𝑠 𝑎𝑙𝑡𝑜)
Prueba de Grubbs

𝑥𝑛 −𝑥1|
G’’= 𝑆

𝑁−3 𝑆2 𝑁−2 𝑏𝑎𝑗𝑜 𝑁−3 𝑆2 𝑁−2 𝑎𝑙𝑡𝑜


G’’’bajo= (𝑁−1)𝑆2
G’’’alto= (𝑁−1)𝑆2

Donde S2(N-2)bajo es la varianza de un conjunto sin los dos datos extremos


bajos.

Donde S2(N-2)alto es la varianza de un conjunto sin los dos datos extremos altos.

S2: Varianza del conjunto


Prueba de Grubbs

H0 es aceptado, o sea, se incluye el valor testado en el conjunto si:

G’ cal < G’ tab ; G’’ cal < G’’ tab; G’’’cal < G’’’ tab

Ejemplo: Las masa de 7 muestras, que deben ser similares son indicadas
abajo:

Masa (mg) = 150; 147; 153; 153; 184; 159; 156

También podría gustarte