Está en la página 1de 36

Tratamiento estadístico de

los datos
Ciclo académico, de nivel virtual: 2023-I
Asignatura: Química Analítica
Universidad Nacional de Trujillo
Facultad de Ingeniería Química – Departamento de Química
Dr. Noé Costilla Sánchez
Introducción
• Las medidas experimentales siempre tienen una variabilidad
por lo que no se pueden sacar conclusiones con total
certeza. La Estadística nos proporciona herramientas para
aceptar conclusiones que tienen un alta probabilidad de ser
correctas y de rechazarlas cuando no lo sean. Algunas de las
aplicaciones más comunes del tratamiento estadístico son:
• (a) Determinar el intervalo de confianza de la medición,
• (b) Determinar el número de réplicas de la medición a un
cierto nivel de probabilidad,
Introducción
• (c) Estimar la probabilidad de que, (1) un promedio
experimental y un valor real ó (2) dos promedios de datos
son diferentes,
• (d) Determinar a un nivel de probabilidad dado, si la
precisión de 2 conjuntos de mediciones son diferentes,
• (e) El análisis de varianza, para evaluar mas de 2 muestras,
• (f) Decidir si se acepta o conserva un resultado en un
conjunto de mediciones,
• (g) Muestreo, calibración y estandarización.
Introducción
• Algunos conceptos ó términos a recordar o conocer:
• La media ó promedio, x : es la medida de tendencia central, media de
dos o más mediciones.
• La mediana, M: es el resultado medio cuando los datos se describen
en orden creciente o decreciente
• La precisión, indica la reproducibilidad de las medidas o cercanía de
los resultados con otros obtenidos de la misma manera. La precisión
se mide con la desviación estándar, la varianza y el coeficiente de
variación. N
• La desviación estándar para muestras, s: 
i 1
( xi  x ) 2

s 
N  1
Introducción
• Exactitud: se define como la proximidad del valor medido al valor verdadero. Se
mide mediante el error absoluto(EA) o relativo(ER),
• EA = Valor calculado - Valor verdadero ;
• ER = EA x 100/Valor verdadero
• Cifras significativas: de un número son todos los dígitos que se conocen con
certeza más el primer dígito incierto. Como regla general de redondeo según sea
el caso, la cifra en cuestión si es 5 o más transforma al dígito anterior en una
unidad. Ejemplo el número 2.345 debe tener 3 cifras significativas el número se
transforma en 2.35.
• El valor que acompaña a todo número o resultado de una suma, resta,
multiplicación, división, etc. se conoce como desviación estándar absoluta ó
incertidumbre absoluta. Por ejemplo en la escritura del número 4.10(±0.02) indica
que su desviación estándar o incertidumbre absoluta tiene el valor de ±0.02.
Introducción
• La incertidumbre relativa o desviación estándar relativa, es igual a la desviación
estándar absoluta sobre el valor del número,
• I. relativa = I. absoluta/Valor del número
• Sumas y rectas: el resultado tendrá el mismo número de cifras significativas que
el sumando que tiene la mayor incertidumbre absoluta.
• Ejemplo: y = 2.15 (±0.02) - 0.75(±0.03) + 3.4(±0.2)
• El tercer término tiene la mayor incertidumbre relativa por lo tanto el resultado
tendrá 2 cifras significativas. La incertidumbre absoluta del resultado,
• sy = [s12 + s22 + s32 + ….. + sn2 ]0.5
• sy = [0.022 + 0.032 + 0.22]0.5 = 0.2032
• y = 4.80 = 4.8 (±0.2)
Introducción
• Multiplicaciones y divisiones: el resultado tendrá el mismo número
de cifras significativas que de aquel que tiene la mayor incertidumbre
relativa
• Ejemplo: y = 2.15 (±0.02) x 0.75(±0.03)/3.4(±0.2) = 0.4742647
• I. relativas: 2/215 ; 3/75 ; 2/34 ; este último término tiene la
mayor incertidumbre relativa, por lo tanto el resultado tendrá 2 c.f.
• IR = [(s1/Valor1)2 + (s2/Valor2)2 + (s3/Valor3)2 + …. + (sn/Valorn)]0.5
• IR = sy/y = [(2/215)2 + (3/75)2 + (2/34)2]0.5 = 0.07174079
• sy = 0.07174079 x 0.4742647 = 0.034024
• y = 0.47 ((±0.03)
Introducción
• Error absoluto = EA = xi - x verdadero
• Error relativo = ER = EA / x verdadero
• Error sistemático ó determinado, tiene un valor definido y una causa
asignable, que afecta la exactitud del resultado. Estos errores se pueden
corregir. Se consideran tres tipos:
(a) Instrumentales: causado por ejemplo, por la falta de calibración del
instrumento de análisis.
(b) Método: causado por ejemplo por la utilización de un método no
adecuado para la medición de un analito.
(c) Personal: causado por ejemplo por un analista en la lectura errónea de
una medición
Introducción
• La predisposición de un método analítico puede ser identificado
recurriendo a los siguientes pasos:
(a) El empleo de muestras estándar, como los materiales de referencia
certificados (MRC), los cuales contienen uno ó más analitos en
concentraciones conocidas. Estas sustancias la venden instituciones como
la National Institute of Standards and Technology (NIST), con la certificación
de que contienen concentraciones específicas de uno ó más analitos.
(b) Un segundo método: si no se dispone de la sustancia patrón, se
puede utilizar paralelamente un método analítico independiente, el cual
debe ser lo más diferente posible que el método en uso. Se debe conocer
estadísticamente la aceptación del método independiente.
Introducción
(c) Determinaciones de muestra blanco: una muestra blanco es aquella
que contiene los reactivos y disolventes utilizados en la determinación
menos la especie ó analito en estudio. Las determinaciones de blancos
revelan errores debidos a contaminantes e interferentes y recipientes
utilizados en el análisis. Al final se corrigen los resultados con la medición
con analito.
(d) Variación del tamaño de la muestra: la utilización de una mayor o
menor cantidad de muestra. Esto se mide mediante el error.
• Errores aleatorios o indeterminados: son aquellos que no se pueden
eliminar totalmente y con frecuencia son la principal fuente de
incertidumbre en una determinación. Todas las mediciones tienen errores
aleatorios.
Introducción
• Tratamiento estadístico del error aleatorio: el análisis estadístico de los
datos analíticos se basa en la suposición de que los errores aleatorios
siguen una distribución gaussiana como se muestra en la Fig. 1
La curva de Gauss, tiene las siguientes
propiedades:
(a) La forma de la curva de la distribución
depende de sus 2 parámetros: la media
poblacional, μ; y la desviación estándar de la
Población, σ
(b) La media indica la posición de la campana,
la gráfica se desplaza a lo largo del eje x.
(c) A mayor desviación la curva será más plana,
dado que la distribución, en este caso presenta
una mayor variabilidad
(d) La curva es simétrica respecto a la media Fig. 1: Curva normal de error
Introducción
• La cantidad, (xi - μ) en la ecuación de la Fig. 1 es la desviación de los
valores individuales xi con respecto a la media poblacional, μ
• La cantidad z representa la desviación de un resultado con respecto
a la media poblacional relacionada con la desviación estándar. Por lo
general se indica en las Tablas de estadística debido a que es una
cantidad adimensional. La expresión de z = (x - μ)/σ
• Cuando, x - μ = σ ; z = σ. Cuando, x - μ = 2σ ; z = 2σ y asi
respectivamente.
• Se deduce que el área bajo la curva de Gauss, en un 68.3%
corresponde al intervalo de ± 1σ, en un 95.4% corresponde al
intervalo de ± 2σ, y un 99.7% corresponde al intervalo de ± 3σ
Desviación estándar de los resultados calculados
• Desviación estándar de una suma o una resta: aplicando la teoría de
propagación de errores, por ejemplo para lo siguiente,
y(±sy) = a(±sa) + b(±sb) - c(±sc)
• sy, sa, sb y sc, son las desviaciones estándar absolutas de los
componentes de la operación matemática y sy se calcula así,
2 2 2
sy  sa  sb  sc

• Desviación estándar de una multiplicación y división: se emplean las


desviaciones estándar relativas. Para el siguiente ejemplo,
y(±sy) = a(±sa) x b(±sb) / c(±sc)
sy / y  ( s a / a ) 2  ( sb / b ) 2  ( s c / c ) 2
Desviación estándar de los resultados calculados
• Desviación estándar para cálculos exponenciales: por ejemplo para la
expresión siguiente, y = ax
sy/y = x (sa /a)
• Desviación estándar para logaritmos y antilogaritmos,
logaritmos, y = log a
sy = 0.434 (sa /a)
antilogaritmos, y = antilogaritmo a
sy/y = 2.303 sa
Intervalo de confianza
• El intervalo de confianza de la media, IC, son los valores dentro de los
cuales se espera que este la media poblacional, μ con una
probabilidad dada. Sus límites, se denominan límites de confianza.
• Para una medición: IC de μ = x ± zσ
• Para “N” mediciones: IC de μ = x ± zσ/ N
x

• Para conjuntos pequeños no se usa la desviación estándar “σ” sino


“s”, y se usa en este caso el parámetro estadístico “t” conocida como
la t de Student, que se define similarmente como el valor de “z”.
• t = (x - μ)/s ó t = ( x - μ) N /s
• Para conjuntos pequeños o muestras el intervalo de confianza es,
• IC de μ = x ± t s/ N
Pruebas de hipótesis
• Las pruebas de hipótesis son la base de muchas decisiones que se toman en
cuenta en la ciencia y en la ingeniería. Para explicar una observación se
propone un modelo hipotético. El cual tiene que ser probado
experimentalmente para determinar su validez. Las pruebas de hipótesis se
emplean para determinar si los resultados de tales experimentos sustentan
dicho modelo. Si los resultados no sustentan el modelo, se rechaza la
hipótesis y se busca otra.
• Los científicos y los ingenieros deben juzgar a menudo si la diferencia
numérica es el resultado de una diferencia real (un error sistemático) o es
consecuencia de errores aleatorio inevitables en todas las mediciones. Las
pruebas que se utilizan se conoce como HIPÓTESIS NULA, en la que se
supone que las cantidades numéricas que se comparan de hecho, son las
mismas.
Pruebas de hipótesis
• En una prueba de hipótesis se considera siempre dos posibles
resultados contradictorios: la primera, la hipótesis nula H0 afirma que
μ = μ0; la segunda, la hipótesis alternativa Ha, puede ser expresada de
distintas maneras.
• Ejemplo, interesa conocer si la concentración de Pb en una descarga
de agua industrial excede el límite máximo permisible de 0.05 ppm .
Esto se expresa así: H0: μ = 0.05 ppm, Ha: μ > 0.05 ppm
• Ejemplo, el contenido de Pb en un desechos industrial es de 0.02 ppm
ppm, si no interesa saber si el nivel de Pb es mayor o menor que 0.02
ppm, la prueba se expresa así, H0 : μ = 0.02 ppm y Ha: μ ≠ 0.02 ppm
Pruebas de hipótesis
• El procedimiento para evaluar valores pequeños se realiza con la
prueba estadística de la t de Student, de la manera siguiente:
(1) Expresar la hipótesis: H0 : μ = μ0
(2) Presente la prueba estadística, t = ( x - μ) N /s
(3) Establezca la hipótesis alterna
Para Ha: μ ≠ μ0, rechace H0, si t ≥ tcrit ó t ≤ - tcrit (prueba de 2 colas)
Para Ha: μ > μ0, rechace H0, si t ≥ tcrit
Para Ha: μ < μ0, rechace H0, si t ≤ - tcrit
Pruebas de hipótesis
• Las pruebas de hipótesis son base de muchas decisiones a nivel científico y en
ingeniería. A fin de explicar una observación se propone un modelo
hipotético, el cual se pone a prueba experimentalmente para determinar su
validez. Si los resultados de los experimentos no sustentan al modelo, se
rechaza y se busca una nueva hipótesis.
• Los profesionales lo utilizan para juzgar si una diferencia numérica resulta de
errores aleatorios inevitables en todas las medidas o de errores sistemáticos.
• Por ejemplo la hipótesis nula plantea que dos o más cantidades observadas
son iguales.
• Las pruebas de hipótesis que emplean los químicos son la comparación de: (1)
la media de un conjunto de datos experimentales frente a lo que se considera
el valor verdadero, (2) la media de dos conjuntos y (3) parejas de datos.
Comparación de un valor medido con un valor conocido
• Ejemplo: se compró una muestra de carbón de material estándar de
referencia, certificado por NIST, que contenía 3.19% de azufre. Se quería
ensayar un nuevo método analítico para ver si reproducía el valor conocido.
Los valores fueron 3.29, 3.22, 3.30 3.23% de azufre. Concuerda este
resultado con el valor conocido.
• Solución: Aquí, H0: μ = 3.19 %, y Ha : μ ≠ 3.19%
• expresión a utilizar, tcalculado = ( -xμ) /s N
• x = 3.260 % ; s = 0.041 %
• tcalculado = (3.260 - 3.19)(4)1/2/0.041 = 3.41
• De tabla, tcritico = 3.182 ( GL = 4 – 1 = 3, a nivel de 95%)
• Estadísticamente no se reproduce el valor conocido, es mayor.
Comparación de dos promedios
• Supongamos que tenemos dos conjuntos con N1 y N2 ambos replicados.
Donde la hipótesis nula afirma que los dos promedios son idénticos y que
la diferencia entre ellos se debe a errores aleatorios, por lo tanto, H0 : μ1
= μ2. Luego la hipótesis alterna, Ha : μ1 ≠ μ2 , por lo que la prueba será de
dos colas. También la hipótesis alterna puede ser, Ha : μ1 < μ2 ó Ha : μ1 >
μ2, y usar una prueba de una cola. Aquí en nuestra asignatura aplicaremos
como si fuera de dos colas.
• Emplearemos la expresión deducida para este caso,
x1  x 2 N1 x N 2
t calculada 
scombinada N1  N 2
• scombinada se calcula con la siguiente expresión,
Comparación de dos promedios
• s12 ( N1  1)  s 22 ( N 2  1)
scombinada 
N1  N 2  2
• Donde:
• x1 : promedio de los replicados del conjunto 1
• x 2 : promedio de los replicados del conjunto 2
• s1 : desviación estándar del conjunto 1
• s2 : desviación estándar del conjunto 2
• Grados de libertad = N1 + N2 - 2
• Luego se compara, si, tcalculado ≤ tcrítico los conjuntos son similares
Comparación de parejas de datos
• En la prueba t para parejas, la desviación estándar, sd, es la desviación
estándar de las diferencias de las parejas de datos de los conjuntos.
La hipótesis nula es, H0: μd = Δ0, quien es un valor específico que se
intenta probar, frecuentemente es cero. El valor de la variable
estadística es,
d  0
• t calculado  N
sd

• Donde, d , es el promedio de las diferencias de las parejas de datos,


igual a d  di / N .
• La hipótesis alterna, Ha : podría ser, μd ≠ Δ0, μd < Δ0 ó μd > Δ0
Comparación de desviaciones estándar con la prueba F
• La prueba F, para 2 poblaciones o 2 muestras pequeñas se basa en la
hipótesis nula en que sus varianzas son iguales, H0 : s12 = s22 . La prueba
estadística F, se define como la relación de las varianzas muestrales, F =
s12 / s22 , donde s1 es la varianza mayor, se compara con el valor crítico de
F para un determinado nivel de significación.
• La prueba F para el caso de dos extremos, Ha : s12 ≠ s22 . Para el caso de un
extremo o cola, la hipótesis alterna puede ser, Ha : s12 > s22 ó Ha : s12 < s22
• En la tabla para valores de F, por ejemplo al nivel de confianza de 95%, en
la parte superior están indicados los valores para s1 y en la parte lateral
izquierda se encuentra los valores s2. En ambos se muestran también los
grados de libertad. Con ello definimos el valor de F crítico o tabulado.
La prueba Q, ó Prueba de rechazo
• Es una prueba sencilla utilizada en la
estadística para decidir si se conserva o
Datos Qcritico, N datos y nivel de
rechaza un resultado discordante. Hay que
confianza
ordenar los datos de una manera creciente y
luego se obtienen cociente Q, comenzando X1 Qm = (X2 - X1)/( X6 - X1)
con el dato menor y de acuerdo a este valor X2 Si Qm < Qcritico se conserva
Q, al Nº de datos y al nivel de confianza se X3 el dato observado
compara con el Q crítico, si es menor o igual X4 QM = (X6 – X5)/( X6 - X1)
se conserva el dato, si no se rechaza. Para el X5 Si QM < Qcritico se conserva
caso, si se rechaza X1, para evaluar X6, el X6 el dato observado
número de datos, N es ahora 5 y Qcritico será
otro valor y asi se prosigue hasta que no hay
datos que rechazar ni menor ni mayor.
Análisis de la varianza (ANOVA)
• El análisis de la varianza, cuyas siglas en ingles es ANOVA, se emplea para
verificar si existe diferencia de uno más factores al comparar las medias de 3 ó
más poblaciones o muestras en diferentes niveles de los factores. El ANOVA
se aprovecha de los métodos de diseño experimental para el planeamiento y
ejecución de los experimentos.
• Al comparar “I” medias poblaciones o muestras de un factor, μ1, , μ1, μ1,……, μI, la
hipótesis nula H0 tiene la forma:
• H0 : μ1 = μ2 = μ3 = ……. = μI
• y la hipótesis alterna es, Ha : al menos dos de las muestras son diferentes. Las
medias y varianzas muestreales de las I poblaciones son respectivamente,
• 2 2 2 2
x1 , x 2 , x 3 , ..... , x I y s1 , s 2 , s3 , ..... , s I
Análisis de la varianza (ANOVA)
• Para las estimaciones siguientes es necesario determinar el gran
promedio, x , con la siguiente expresión,
•  N1   N2   N3   NI 
x    x1    x2    x 3  ......    xI
 N   N   N   N 
• El gran promedio también se calcula sumando todos los datos y
dividirla entre el número de datos.
• Para la relación de las varianzas con la prueba F, se requiere las
siguientes sumas de cuadrados
(1) Suma de cuadrados debido al factor (SCF):
SCF  N1 ( x1  x) 2  N 2 ( x 2  x) 2  N 3 ( x 3  x) 2  ....  N I ( x I  x) 2
Análisis de la varianza (ANOVA)
(2) Suma de los cuadrados debido al error (SCE):
SCE  s12 ( N1  1)  s 22 ( N 2  1)  s32 ( N 3  1)  ......  s I2 ( N I  1)
(3) La suma de los cuadrados totales se obtiene al sumar SCF y SCE
• SCT = SCF + SCE
(4) La suma total de los cuadrados también puede derivarse de
(N – 1)s2 , donde s2 es la varianza muestral de todos los puntos de
datos
(5) Los grados de libertad para cada suma,
• SCT = SCF + SCE
• (N - 1) (I - 1) (N - I) : GRADOS DE LIBERTAD
Análisis de la varianza (ANOVA)
(6) Los cuadrados medios:
• CMF = SCF/(I - 1); CME = SCE/(N - I)
• En caso que el efecto del factor sea significativo, CMF es mayor que
CME. La variable estadística de prueba es el valor F, calculado como
sigue,
• F = CMF/CME
• La prueba de la hipótesis se completa al comparar el valor de F recién
calculado frente al valor crítico al nivel de significancia, α. Se rechaza
H0 si F excede al valor crítico.
Análisis de la varianza (ANOVA)
• (7) La Tabla resumida de ANOVA

Fuente de Suma de Grados de Media de los F


variación cuadrados libertad (g/L) cuadrados
(SC) (MC)
Entre grupos SCF I - 1 MCF MCF /MSC
(factor efecto) = SCF/(I - 1)

Intragrupal SCE N - I MCE  


(error) = SCE/(N - I)

Total SCT N - 1    
¿Qué resultados son diferentes con el, ANOVA?
• Si el ANOVA señala diferencias, es frecuente interesarse por esta
diferencia. Uno de los más sencillos es el método de la diferencia
significativa media (DSM). La expresión es,

2 x CME
DSM  t
Ng
• Ng, es el número de replicas en cada grupo los cuales deben ser
iguales. El valor de t de Student debe tener (N - I) grados de libertad.
CME, es el cuadrado medio del error.
• Ejemplo: 5 analistas obtuvieron en mmol de calcio por triplicado cuyo
promedio se resume en la Sgte. Tabla. Hay diferencia en los datos de
los analistas. Datos adicionales: CMF = 8.451 y CME = 0.409.
Determine que analista difieren entre si a un nivel de confianza
¿Qué resultados son diferentes con el, ANOVA?
• del 95%.
Analista 1 Analista 2 Analista 3 Analista 4 Analista 5

• 10.5 9.0 12.5 8.7 11.833


• Solución: en primer lugar se ordenan los promedios y se obtiene de
tablas el valor de t (N = 3x5 = 15y Nº grupos I = 5; Grados de libertad
• = 15 – 5 = 10 y t = 2.23; al nivel del 95%)

Analista 4 Analista 2 Analista 1 Analista 5 Analista 3

• 8.7 DMS9.0 = 2.23 (210.5


x 0.409/3)1/2 = 1.16 12.5
11.833

• Se calculan las diferencias entre las medias y se compara con 1.16


¿Qué resultados son diferentes con el, ANOVA?
• 12.5(3) - 8.7(4) = 3.8 (Diferencia significativa)
• 11.833(5) - 8.7(4) = 3.133 (D. significativa)
• 10.5(1) - 8.7(4) = 1.8 (D. significativa)
• 9.0(2) - 8.7(4) = 0.3 (No hay D. significativa)
• Los analistas 1, 3 y 5 difieren del analista 4
• 12.5(3) - 9.0(2) = 3.5 (Diferencia significativa)
• 11.833(5) - 9.0(2) = 2.133 (D. significativa)
• 10.5(1) - 9.0(2) = 1.5 (D. significativa)
• Los analistas 1, 3 y 5 difieren del analista 2
• 12.5(3) - 10.5(1) = 2.0 (Diferencia significativa)
• 11.833(5) - 10.5(1) = 1.333 (D. significativa)
• Los analistas 3 y 5 difieren del analista 1
¿Qué resultados son diferentes con el, ANOVA?
• 12.5(3) - 8.7(4) = 3.8 (Diferencia significativa)
• 11.833(5) - 8.7(4) = 3.133 (D. significativa)
• 10.5(1) - 8.7(4) = 1.8 (D. significativa)
• 9.0(2) - 8.7(4) = 0.3 (No hay D. significativa)
• Los analistas 1, 3 y 5 difieren del analista 4
• 12.5(3) - 9.0(2) = 3.5 (Diferencia significativa)
• 11.833(5) - 9.0(2) = 2.133 (D. significativa)
• 10.5(1) - 9.0(2) = 1.5 (D. significativa)
• Los analistas 1, 3 y 5 difieren del analista 2
• 12.5(3) - 10.5(1) = 2.0 (Diferencia significativa)
• 11.833(5) - 10.5(1) = 1.333 (D. significativa)
• Los analistas 3 y 5 difieren del analista 1
Número de muestras de laboratorio
• Lista la muestra de laboratorio, ahora es necesario definir
cuántas muestras se tomarán para el análisis.
• Conocida la desviación estándar de muestreo, σs, se
puede emplear la siguiente. Expresión para emplear “t”,
• IC = + t ss /
x N
• El último término de la expresión representa la
incertidumbre absoluta, que al dividirla entre el
promedio se calcula la incertidumbre relativa, σr que se
puede tolerar a un cierto nivel de confianza,
• σr = t ss/ ; N = t2 ss2/ σr2
2
x N x
Número de muestras de laboratorio
• Ejemplo: en la determinación de Cu en una muestra de agua de mar dio un
valor medio de 77.81 μg/L y una desviación estándar ss de 1.74 μg/L .
(Nota: se mantienen las cifra significativas porque estos resultados se
utilizarán más adelante en un cálculo). ¿Cuántas muestras se deben
analizar para obtener una desviación estándar relativa en los resultados de
1.7% con un nivel de confianza de 95%?
• Solución: se asume tamaño de muestras infinito, luego el valor de “t” de
1.96. σr = 0.017, ss = 1.74, promedio = 77.81
• N = (1.96)2(1.74)2/(0.017)2 x (77.81)2 = 6.65
• En la Tabla para “t”, GL = 7-1 = 6, le corresponde un valor de t de 2.45.
Reemplazamos este valor en la expresión
• N = (2.45)2(1.74)2/(0.017)2 x (77.81)2 = 10.39
• En la Tabla para “t”, GL = 10-1 = 6, corresponde un valor de t de 2.26.
Reemplazamos este valor en la expresión
• N = (2.26)2(1.74)2/(0.017)2 x (77.81)2 = 8.84
• Prácticamente, N = 9. Es decir se deben analizar 9 muestras.

También podría gustarte