Está en la página 1de 40

TALLER V IRTUAL

ESTADÍSTICA
APLICADA AL
LABORATORIO
Introducción a la inferencia
estadı́stica
Cristhian Paredes

Contenido

1. Pruebas de comparación de varianzas

2. Comparación entre varias medias muestrales: ANOVA

3. Comparación de varias varianzas muestrales

4. Pruebas de datos anómalos

5. Análisis de covarianza
Pruebas de comparación de varianzas
Prueba χ2

Pruebas de comparación de varianzas


Varianza muestral contra un valor de referencia

(n − 1)s2
χ2 = (1)
σ2
Función de densidad de probabilidad

0 5 10 15 20 25
χ2 (ν = 7)

La distribucón χ2 es sensible a los grados de libertad (ν = n − 1).


1
Pruebas de comparación de varianzas
Varianza muestral contra un valor de referencia
Pruebas bilaterales:

H0 : s2 = σ 2 H1 :s2 6= σ 2 (2)

Pruebas unilaterales:
¿Una nueva técnica mejora la repetibilidad de nuestro proceso?

H0 : s2 = σ 2 H1 :s2 < σ 2 (3)

¿Un nuevo analista produce resultados más dispersos de lo que produce


normalmente un analista experimentado?

H0 : s2 = σ 2 H1 :s2 > σ 2 (4)

Pruebas de comparación de varianzas


Varianza muestral contra un valor de referencia
Pruebas bilaterales:

H0 : s2 = σ 2 H1 :s2 6= σ 2 (2)

Pruebas unilaterales:
¿Una nueva técnica mejora la repetibilidad de nuestro proceso?

H0 : s2 = σ 2 H1 :s2 < σ 2 (3)

¿Un nuevo analista produce resultados más dispersos de lo que produce


normalmente un analista experimentado?

H0 : s 2 = σ 2 H1 :s2 > σ 2 (4)

2
Pruebas de comparación de varianzas
Varianza muestral contra un valor de referencia
Pruebas bilaterales:

H0 : s2 = σ 2 H1 :s2 6= σ 2 (2)

Pruebas unilaterales:
¿Una nueva técnica mejora la repetibilidad de nuestro proceso?

H0 : s2 = σ 2 H1 :s2 < σ 2 (3)

¿Un nuevo analista produce resultados más dispersos de lo que produce


normalmente un analista experimentado?

H0 : s 2 = σ 2 H1 :s2 > σ 2 (4)

Ejemplo práctico
Comparación de una varianza muestral contra un valor de referencia

Dispersión de los resultados de mercurio total en pescado

La fracción másica de mercurio total en νHg [mg kg−1 ]


pescado debe ser determinada con una 517
dispersión máxima de 5 % (desviación 445
estándar relativa). 520
Establecer si los resultados de medición de 517
mercurio total del primer ejemplo práctico 479
cumplen con el criterio de desviación 391
estándar relativa. 418
447

3
Ejemplo práctico
Comparación de una varianza muestral contra un valor de referencia

Dispersión de los resultados de mercurio total en pescado

...una dispersión máxima de 5 %...


νHg [mg kg−1 ]
H0 : RSD = 5 % H1 : RSD > 5 % (5) 517
445
s 520
RSD = ; s2 = (RSD · x̄)2 (6) 517

479
391
H0 : s2 = (5 % · x̄)2 (7) 418
2 2 447
H1 : s > (5 % · x̄) (8)

Realizar el procedimiento en https://crparedes.shinyapps.io/validaR/


4

Pruebas de comparación de varianzas


Prueba F de Fisher
Pruebas de comparación de varianzas
Varianza muestral contra otra varianza muestral
s12
F = (9)
s22

Función de densidad de probabilidad


0 1 2 3 4 5
F (ν1 = 8, ν1 = 7)

La distribucón F de Fisher es sensible a dos grados de libertad (ν1 = n1 − 1 y ν2 = n2 − 1).


5

Pruebas de comparación de varianzas


Varianza muestral contra otra varianza muestral

Pruebas bilaterales:

H0 : s12 = s22 H1 :s12 6= s22 (10)

Pruebas unilaterales:

H0 : s12 = s22 H1 :s12 < s22 (11)

H0 : s12 = s22 H1 :s12 > s22 (12)

6
Ejemplo práctico
Dispersión de los resultados de extracción del ion litio de una salmuera

Recobro de ion litio con dos sistemas de extractantes diferentes

(Ejemplo 2) El desempe;o de unos nuevos


extractantes para el recobro de ión litio se
compararó con el de unos extractantes Reclab [ %] Reccom [ %]
comerciales...
87.5 86.8
Para efectos prácticos la extracción es igual 87.1 86.9
de eficiente con ambos sistemas. Ahora 87.5 87.4
queremos saber si de pronto los nuevos 87.5 87.1
extractantes producen resultados menos 87.3 86.7
dispersos que cuando se usan los 86.9 86.7
extractantes comerciales. 87.0 86.8
2 2 2 2
H0 : slab = scom H1 :slab < scom

Realizar el procedimiento en https://crparedes.shinyapps.io/validaR/


7

Comparación entre varias medias muestrales


ANOVA: ¿Análisis de varianza?
Comparación entre varias medias muestrales
Análisis de varianza
58

56

54

52

Concentración (mmol kg−1)


50

H0 : x1 = x2 = ... = xk (13)
H1 : xi 6= xj , para al menos una pareja i, j (14)

Comparación entre varias medias muestrales


Análisis de varianza
58

56

54

52
Concentración (mmol kg−1)

50

H0 : x1 = x2 = ... = xk (13)
H1 : xi 6= xj , para al menos una pareja i, j (14)

8
Comparación entre varias medias muestrales
Análisis de varianza
58

56

54

52

Concentración (mmol kg−1)


50

H0 : x1 = x2 = ... = xk (13)
H1 : xi 6= xj , para al menos una pareja i, j (14)

Comparación entre varias medias muestrales


Análisis de varianza

49 51 53 55 57 59
Concentración (mmol kg−1)

9
Comparación entre varias medias muestrales
ANOVA de una vı́a para datos independientes

Variabilidad total = Variabilidad por el agrupamiento + Variabilidad residual


= Variabilidad explicada por el factor +
Variabilidad no explicada por el factor

Varianza total = Varianza entre los niveles + Varianza dentro de los niveles

( xi − µ)2
P
σ2 = (15)
n


⊐ Totales = ⊏
⊐ Tratamiento + ⊏
⊐ Residuales (16)
X X X

⊏ ⊏
P P
⊐ Residuales es lo mismo que ⊐ Dentro de los grupos
10

Comparación entre varias medias muestrales


ANOVA de una vı́a para datos independientes

Variabilidad total = Variabilidad por el agrupamiento + Variabilidad residual


= Variabilidad explicada por el factor +
Variabilidad no explicada por el factor

Varianza total = Varianza entre los niveles + Varianza dentro de los niveles

2 ( xi − µ)2
P
σ = (15)
n


⊐ Totales = ⊏
⊐ Tratamiento + ⊏
⊐ Residuales (16)
X X X

⊏ ⊏
P P
⊐ Residuales es lo mismo que ⊐ Dentro de los grupos
10
Comparación entre varias medias muestrales
ANOVA de una vı́a para datos independientes

Variabilidad total = Variabilidad por el agrupamiento + Variabilidad residual


= Variabilidad explicada por el factor +
Variabilidad no explicada por el factor

Varianza total = Varianza entre los niveles + Varianza dentro de los niveles

( xi − µ)2
P
σ2 = (15)
n


⊐ Totales = ⊏
⊐ Tratamiento + ⊏
⊐ Residuales (16)
X X X

⊏ ⊏
P P
⊐ Residuales es lo mismo que ⊐ Dentro de los grupos
10

Comparación entre varias medias muestrales


ANOVA de una vı́a para datos independientes

Variabilidad total = Variabilidad por el agrupamiento + Variabilidad residual


= Variabilidad explicada por el factor +
Variabilidad no explicada por el factor

Varianza total = Varianza entre los niveles + Varianza dentro de los niveles

2 ( xi − µ)2
P
σ = (15)
n


⊐ Totales = ⊏
⊐ Tratamiento + ⊏
⊐ Residuales (16)
X X X

⊏ ⊏
P P
⊐ Residuales es lo mismo que ⊐ Dentro de los grupos
10
Comparación entre varias medias muestrales
ANOVA de una vı́a para datos independientes

Variabilidad total = Variabilidad por el agrupamiento + Variabilidad residual


= Variabilidad explicada por el factor +
Variabilidad no explicada por el factor

Varianza total = Varianza entre los niveles + Varianza dentro de los niveles

( xi − µ)2
P
σ2 = (15)
n


⊐ Totales = ⊏
⊐ Tratamiento + ⊏
⊐ Residuales (16)
X X X

⊏ ⊏
P P
⊐ Residuales es lo mismo que ⊐ Dentro de los grupos
10

Comparación entre varias medias muestrales


ANOVA de una vı́a para datos independientes
Sumas de cuadrados
∼ totales (SStot ): ∼ debidos al tratamiento (SStrat ): ∼ residuales SSres :


⊐ Totales ⊏
⊐ Tratamiento ⊏
⊐ Residuales
X X X

Cada dato respecto a la media Cada promedio grupal respecto a la Cada dato respecto a la media
general. media general. de su grupo.

nj k nj
(xj,i − x̄¯ )2 (nj (x̄i − x̄¯ )2 ) (xj,i − x̄j )2
X
k X X X
k X

j=1 i=1 j=1 j=1 i=1

νSStrat = k − 1 νSSres = N − m
νSStot = N − 1
k es el número de grupos, ni es el número de datos en el i-ésimo grupo, N es el número
de datos totales, x̄i es el promedio del i-ésimo grupo y x̄¯ es el promedio general.
11
Comparación entre varias medias muestrales
ANOVA de una vı́a para datos independientes
Sumas de cuadrados
∼ totales (SStot ): ∼ debidos al tratamiento (SStrat ): ∼ residuales SSres :


⊐ Totales ⊏
⊐ Tratamiento ⊏
⊐ Residuales
X X X

Cada dato respecto a la media Cada promedio grupal respecto a la Cada dato respecto a la media
general. media general. de su grupo.

nj k nj
(xj,i − x̄¯ )2 (nj (x̄i − x̄¯ )2 ) (xj,i − x̄j )2
X
k X X X
k X

j=1 i=1 j=1 j=1 i=1

νSStrat = k − 1 νSSres = N − m
νSStot = N − 1
k es el número de grupos, ni es el número de datos en el i-ésimo grupo, N es el número
de datos totales, x̄i es el promedio del i-ésimo grupo y x̄¯ es el promedio general.
11

Comparación entre varias medias muestrales


ANOVA de una vı́a para datos independientes
Sumas de cuadrados
∼ totales (SStot ): ∼ debidos al tratamiento (SStrat ): ∼ residuales SSres :


⊐ Totales ⊏
⊐ Tratamiento ⊏
⊐ Residuales
X X X

Cada dato respecto a la media Cada promedio grupal respecto a la Cada dato respecto a la media
general. media general. de su grupo.

nj k nj
(xj,i − x̄¯ )2 (nj (x̄i − x̄¯ )2 ) (xj,i − x̄j )2
X
k X X X
k X

j=1 i=1 j=1 j=1 i=1

νSStrat = k − 1 νSSres = N − m
νSStot = N − 1
k es el número de grupos, ni es el número de datos en el i-ésimo grupo, N es el número
de datos totales, x̄i es el promedio del i-ésimo grupo y x̄¯ es el promedio general.
11
Comparación entre varias medias muestrales
ANOVA de una vı́a para datos independientes
Sumas de cuadrados
∼ totales (SStot ): ∼ debidos al tratamiento (SStrat ): ∼ residuales SSres :


⊐ Totales ⊏
⊐ Tratamiento ⊏
⊐ Residuales
X X X

Cada dato respecto a la media Cada promedio grupal respecto a la Cada dato respecto a la media
general. media general. de su grupo.

nj k nj
(xj,i − x̄¯ )2 (nj (x̄i − x̄¯ )2 ) (xj,i − x̄j )2
X
k X X X
k X

j=1 i=1 j=1 j=1 i=1

νSStrat = k − 1 νSSres = N − m
νSStot = N − 1
k es el número de grupos, ni es el número de datos en el i-ésimo grupo, N es el número
de datos totales, x̄i es el promedio del i-ésimo grupo y x̄¯ es el promedio general.
11

Comparación entre varias medias muestrales


ANOVA de una vı́a para datos independientes
Sumas de cuadrados
∼ totales (SStot ): ∼ debidos al tratamiento (SStrat ): ∼ residuales SSres :


⊐ Totales ⊏
⊐ Tratamiento ⊏
⊐ Residuales
X X X

Cada dato respecto a la media Cada promedio grupal respecto a la Cada dato respecto a la media
general. media general. de su grupo.

nj k nj
(xj,i − x̄¯ )2 (nj (x̄i − x̄¯ )2 ) (xj,i − x̄j )2
X
k X X X
k X

j=1 i=1 j=1 j=1 i=1

νSStrat = k − 1 νSSres = N − m
νSStot = N − 1
k es el número de grupos, ni es el número de datos en el i-ésimo grupo, N es el número
de datos totales, x̄i es el promedio del i-ésimo grupo y x̄¯ es el promedio general.
11
Comparación entre varias medias muestrales
ANOVA de una vı́a para datos independientes

Sumas medias de cuadrados


∼ totales: ∼ debidos al tratamiento: ∼ residuales:

SStot SStrat SSres


MStot = MStrat = MSres =
N −1 k −1 N −k

Suma media de cuadrados por tratamiento MStrat


= (17)
Suma media de cuadrados residuales MSres
MStrat
∼ F (ν1 = k − 1, ν2 = N − k) (18)
MSres

12

Comparación entre varias medias muestrales


ANOVA de una vı́a para datos independientes

Sumas medias de cuadrados


∼ totales: ∼ debidos al tratamiento: ∼ residuales:

SStot SStrat SSres


MStot = MStrat = MSres =
N −1 k −1 N −k

Suma media de cuadrados por tratamiento MStrat


= (17)
Suma media de cuadrados residuales MSres
MStrat
∼ F (ν1 = k − 1, ν2 = N − k) (18)
MSres

12
Comparación entre varias medias muestrales
ANOVA de una vı́a para datos independientes

Sumas medias de cuadrados


∼ totales: ∼ debidos al tratamiento: ∼ residuales:

SStot SStrat SSres


MStot = MStrat = MSres =
N −1 k −1 N −k

Suma media de cuadrados por tratamiento MStrat


= (17)
Suma media de cuadrados residuales MSres
MStrat
∼ F (ν1 = k − 1, ν2 = N − k) (18)
MSres

12

Comparación entre varias medias muestrales


ANOVA de una vı́a para datos independientes

Tabla de ANOVA:

SS DF MS F valor p
Tratamiento SStrat νSStrat MStrat MStrat /MSres valor p
Residuales SSres νSSres MSres

El valor p lo comparamos con en valor de significancia que escogimos para


la prueba:

H0 : x1 = x2 = ... = xk (19)
H1 : xi 6= xj , para al menos una pareja i, j (20)

13
Comparación entre varias medias muestrales
ANOVA de una vı́a para datos independientes

Tabla de ANOVA:

SS DF MS F valor p
Tratamiento SStrat νSStrat MStrat MStrat /MSres valor p
Residuales SSres νSSres MSres

El valor p lo comparamos con en valor de significancia que escogimos para


la prueba:

H0 : x1 = x2 = ... = xk (19)
H1 : xi 6= xj , para al menos una pareja i, j (20)

13

Ejemplo práctico
ANOVA de una vı́a para evaluar efecto matriz

Efecto matriz en la cuantificación de un analito


Para evaluar si los demás componentes
de la matriz en la que está presente un
analito afecta su concentración aparente
se enriquecieron blancos de distintas Mat 1 Mat 2 Mat 3 Mat 4
matrices a un mismo nivel de
52.4 51.4 52.6 55.4
concentración y se cuantificó el analito
54.5 54.0 51.0 55.5
de interés.
51.9 54.5 48.5 57.5
Se desea conocer si alguna de las 58.0 54.2 53.8 57.2
matrices afecta la determinación del 54.8 52.4
analito en cuestión. 56.0
H0 : x1 = x2 = ... = xk
H1 : xi 6= xj

Realizar el procedimiento en https://crparedes.shinyapps.io/validaR/


14
Análisis de varianza
Supuestos del modelo

• Independencia: Las observaciones deben ser aleatorias y los grupos


deben ser independientes entre sı́.

• Ausencia de anómalos: No debe haber datos anómalos significativos dentro


de los grupos.

• Normalidad: La variable de interés debe seguı́r una distribución


normal dentro de cada grupo.

• Homocedasticidad: La varianza de cada grupo debe ser homogénea.

15

Análisis de varianza
Supuestos del modelo

• Independencia: Las observaciones deben ser aleatorias y los grupos


deben ser independientes entre sı́.

• Ausencia de anómalos: No debe haber datos anómalos significativos dentro


de los grupos.

• Normalidad: La variable de interés debe seguı́r una distribución


normal dentro de cada grupo.

• Homocedasticidad: La varianza de cada grupo debe ser homogénea.

15
Análisis de varianza
Supuestos del modelo

• Independencia: Las observaciones deben ser aleatorias y los grupos


deben ser independientes entre sı́.

• Ausencia de anómalos: No debe haber datos anómalos significativos dentro


de los grupos.

• Normalidad: La variable de interés debe seguı́r una distribución


normal dentro de cada grupo.

• Homocedasticidad: La varianza de cada grupo debe ser homogénea.

15

Análisis de varianza
Supuestos del modelo

• Independencia: Las observaciones deben ser aleatorias y los grupos


deben ser independientes entre sı́.

• Ausencia de anómalos: No debe haber datos anómalos significativos dentro


de los grupos.

• Normalidad: La variable de interés debe seguı́r una distribución


normal dentro de cada grupo.

• Homocedasticidad: La varianza de cada grupo debe ser homogénea.

15
Análisis de varianza
Pruebas Post-hoc de comparación múltiple

H0 : x1 = x2 = ... = xk H1 : xi 6= xj

Si el valor p es menor a la significancia de la prueba (α) hay evidencia para


concluı́r a un determinado nivel de confianza que xi 6= xj para al menos una
pareja de grupos.

ANOVA no nos dice cuales parejas son las que son diferentes y hacer pruebas t
de a dos grupos en dos grupos es muy inconveniente porque la probabilidad de
cometer un error tipo I se infla.

La solución son las pruebas post hoc

16

Análisis de varianza
Pruebas Post-hoc de comparación múltiple

H0 : x1 = x2 = ... = xk H1 : xi 6= xj

Si el valor p es menor a la significancia de la prueba (α) hay evidencia para


concluı́r a un determinado nivel de confianza que xi 6= xj para al menos una
pareja de grupos.

ANOVA no nos dice cuales parejas son las que son diferentes y hacer pruebas t
de a dos grupos en dos grupos es muy inconveniente porque la probabilidad de
cometer un error tipo I se infla.

La solución son las pruebas post hoc

16
Análisis de varianza
Pruebas Post-hoc de comparación múltiple

H0 : x1 = x2 = ... = xk H1 : xi 6= xj

Si el valor p es menor a la significancia de la prueba (α) hay evidencia para


concluı́r a un determinado nivel de confianza que xi 6= xj para al menos una
pareja de grupos.

ANOVA no nos dice cuales parejas son las que son diferentes y hacer pruebas t
de a dos grupos en dos grupos es muy inconveniente porque la probabilidad de
cometer un error tipo I se infla.

La solución son las pruebas post hoc

16

Pruebas de comparación post hoc


Diferencia mı́nima significativa (LSD) de Fisher
En esta prueba se usa el nivel de confianza empleado en el ANOVA para establecer una
diferencia entre grupos que se considera significativa. Los tratamientos se agrupan juntos si
la diferencia entre sus medias es menor a la que se definio como mı́nima significativa.

Diferencias honestas significativas (HSD) de Tukey


Esta prueba calcula intervalos de confianza para las diferencias entre todas las parejas po-
sibles y estima la probabilidad (valor p) de que cada una de estas diferencias pueda incluı́r
el cero.

Prueba de rangos múltiples de Duncan


Esta prueba es similar a la prueba LSD de Fisher solo que se usan varias diferencias mı́nimas
significativas que dependen de si los grupos a comparar son contiguos o si tienen grupos
intermedios.

17
Pruebas de comparación post hoc
Diferencia mı́nima significativa (LSD) de Fisher
En esta prueba se usa el nivel de confianza empleado en el ANOVA para establecer una
diferencia entre grupos que se considera significativa. Los tratamientos se agrupan juntos si
la diferencia entre sus medias es menor a la que se definio como mı́nima significativa.

Diferencias honestas significativas (HSD) de Tukey


Esta prueba calcula intervalos de confianza para las diferencias entre todas las parejas po-
sibles y estima la probabilidad (valor p) de que cada una de estas diferencias pueda incluı́r
el cero.

Prueba de rangos múltiples de Duncan


Esta prueba es similar a la prueba LSD de Fisher solo que se usan varias diferencias mı́nimas
significativas que dependen de si los grupos a comparar son contiguos o si tienen grupos
intermedios.

17

Pruebas de comparación post hoc


Diferencia mı́nima significativa (LSD) de Fisher
En esta prueba se usa el nivel de confianza empleado en el ANOVA para establecer una
diferencia entre grupos que se considera significativa. Los tratamientos se agrupan juntos si
la diferencia entre sus medias es menor a la que se definio como mı́nima significativa.

Diferencias honestas significativas (HSD) de Tukey


Esta prueba calcula intervalos de confianza para las diferencias entre todas las parejas po-
sibles y estima la probabilidad (valor p) de que cada una de estas diferencias pueda incluı́r
el cero.

Prueba de rangos múltiples de Duncan


Esta prueba es similar a la prueba LSD de Fisher solo que se usan varias diferencias mı́nimas
significativas que dependen de si los grupos a comparar son contiguos o si tienen grupos
intermedios.

17
Pruebas de comparación post hoc
Diferencia mı́nima significativa (LSD) de Fisher
En esta prueba se usa el nivel de confianza empleado en el ANOVA para establecer una
diferencia entre grupos que se considera significativa. Los tratamientos se agrupan juntos si
la diferencia entre sus medias es menor a la que se definio como mı́nima significativa.

Diferencias honestas significativas (HSD) de Tukey


Esta prueba calcula intervalos de confianza para las diferencias entre todas las parejas po-
sibles y estima la probabilidad (valor p) de que cada una de estas diferencias pueda incluı́r
el cero.

Prueba de rangos múltiples de Duncan


Esta prueba es similar a la prueba LSD de Fisher solo que se usan varias diferencias mı́nimas
significativas que dependen de si los grupos a comparar son contiguos o si tienen grupos
intermedios.

17

Ejemplo práctico
Pruebas post hoc en ANOVA de una vı́a para evaluar efecto matriz

Efecto matriz en la cuantificación de un analito

(Ejemplo 6) Se encontró que los


cambios de matriz tienen un
efecto estadı́sticamente Mat 1 Mat 2 Mat 3 Mat 4
significativo sobre la
52.4 51.4 52.6 55.4
concentración aparente del
54.5 54.0 51.0 55.5
analito considerado (valor p
51.9 54.5 48.5 57.5
ANOVA: 0.0205).
58.0 54.2 53.8 57.2
Se desea conocer que matrices 54.8 52.4
en particular presentan 56.0
diferencias estadı́sticamente
significativas entre sı́.

Realizar el procedimiento en https://crparedes.shinyapps.io/validaR/


18
Comparación de varias varianzas muestrales
Pruebas de Cochran, de Hartley, de Bartlett y de Levenne.

Comparación de varias varianzas muestrales

Uno de los supuestos del ANOVA habla de las varianzas de los grupos:
• Homocedasticidad: La varianza de cada grupo debe ser homogénea.

La prueba χ2 nos permite comparar una varianza muestral contra un valor de


referencia.
La prueba F de Fisher nos permite comparar dos varianzas muestrales.

Necesitamos pruebas de contrastes que nos permitan comparar las


varianzas de varias muestras estadı́sticas a la vez.

19
Comparación de varias varianzas muestrales

Uno de los supuestos del ANOVA habla de las varianzas de los grupos:
• Homocedasticidad: La varianza de cada grupo debe ser homogénea.

La prueba χ2 nos permite comparar una varianza muestral contra un valor de


referencia.
La prueba F de Fisher nos permite comparar dos varianzas muestrales.

Necesitamos pruebas de contrastes que nos permitan comparar las


varianzas de varias muestras estadı́sticas a la vez.

19

Comparación de varias varianzas muestrales

Uno de los supuestos del ANOVA habla de las varianzas de los grupos:
• Homocedasticidad: La varianza de cada grupo debe ser homogénea.

La prueba χ2 nos permite comparar una varianza muestral contra un valor de


referencia.
La prueba F de Fisher nos permite comparar dos varianzas muestrales.

Necesitamos pruebas de contrastes que nos permitan comparar las


varianzas de varias muestras estadı́sticas a la vez.

19
Comparación de varias varianzas muestrales

Uno de los supuestos del ANOVA habla de las varianzas de los grupos:
• Homocedasticidad: La varianza de cada grupo debe ser homogénea.

La prueba χ2 nos permite comparar una varianza muestral contra un valor de


referencia.
La prueba F de Fisher nos permite comparar dos varianzas muestrales.

Necesitamos pruebas de contrastes que nos permitan comparar las


varianzas de varias muestras estadı́sticas a la vez.

19

Comparación de varias varianzas muestrales


Prueba de varianzas anómalas de Cochran
Se divide la varianza más grande entre la suma de todas las varianzas grupales y el resultado
presenta una distribución C de Cochran que permite evaluar si la varianza más grande del
grupo es anómala.
s2
(21)
2
C = Pkmax
i=1 si

Prueba de Hartley
Se divide la varianza más grande entre la varianza más pequeña. El resultado presenta una
distribución Fmax de Hartley que permite evaluar si las varianzas son homogéneas.
2
smax
Fmax = 2
(22)
smin

La prueba de Cochran es la mejor para poblaciones asimétricas


Estas pruebas simples asumen que los grupos son todos del mismo tamaño.
20
Comparación de varias varianzas muestrales
Prueba de varianzas anómalas de Cochran
Se divide la varianza más grande entre la suma de todas las varianzas grupales y el resultado
presenta una distribución C de Cochran que permite evaluar si la varianza más grande del
grupo es anómala.
s2
(21)
2
C = Pkmax
i=1 si

Prueba de Hartley
Se divide la varianza más grande entre la varianza más pequeña. El resultado presenta una
distribución Fmax de Hartley que permite evaluar si las varianzas son homogéneas.
2
smax
Fmax = 2
(22)
smin

La prueba de Cochran es la mejor para poblaciones asimétricas


Estas pruebas simples asumen que los grupos son todos del mismo tamaño.
20

Comparación de varias varianzas muestrales


Prueba de varianzas anómalas de Cochran
Se divide la varianza más grande entre la suma de todas las varianzas grupales y el resultado
presenta una distribución C de Cochran que permite evaluar si la varianza más grande del
grupo es anómala.
s2
(21)
2
C = Pkmax
i=1 si

Prueba de Hartley
Se divide la varianza más grande entre la varianza más pequeña. El resultado presenta una
distribución Fmax de Hartley que permite evaluar si las varianzas son homogéneas.
2
smax
Fmax = 2
(22)
smin

La prueba de Cochran es la mejor para poblaciones asimétricas


Estas pruebas simples asumen que los grupos son todos del mismo tamaño.
20
Comparación de varias varianzas muestrales
Prueba de Levene
Es equivalente a realizar un ANOVA de las distancias (Zi ) entre los individuos de cada grupo
respecto a una medida de tendencia central (la media aritmética o la mediana):
Pk 2
N −k i=1 ni (Zi − Z )
W = Pk Pni (23)
k − 1 i=1 j=1 (Zi − Zij )2

El estadı́stico W sigue una distribución F de Fisher con N − k y k − 1 grados de libertad.

Prueba de Bartlett
Es de las primeras pruebas que se propusieron para evaluar homogeneidad de varianzas. El
estadı́stico T de Bartlett sigue una distribución χ2 con k − 1 grados de libertad.
P
(N − k ) ln Sp2 − ki=1 ((ni − 1) ln Si2 )
T = P 1 1
(24)
1 + 3k1−3 (( ki=1 n −1 ) − N−k )
i

21

Comparación de varias varianzas muestrales


Prueba de Levene
Es equivalente a realizar un ANOVA de las distancias (Zi ) entre los individuos de cada grupo
respecto a una medida de tendencia central (la media aritmética o la mediana):
Pk 2
N −k i=1 ni (Zi − Z )
W = Pk Pni (23)
k − 1 i=1 j=1 (Zi − Zij )2

El estadı́stico W sigue una distribución F de Fisher con N − k y k − 1 grados de libertad.

Prueba de Bartlett
Es de las primeras pruebas que se propusieron para evaluar homogeneidad de varianzas. El
estadı́stico T de Bartlett sigue una distribución χ2 con k − 1 grados de libertad.
P
(N − k) ln Sp2 − ki=1 ((ni − 1) ln Si2 )
T = P 1 1
(24)
1 + 3k1−3 (( ki=1 n −1 ) − N−k )
i

21
Ejemplo práctico
Pruebas de comparación de varias varianzas

Efecto matriz en la cuantificación de un analito


(Ejemplo 6) Se concluyó que
los cambios de matriz tienen un
efecto estadı́sticamente
Mat 1 Mat 2 Mat 3 Mat 4
significativo sobre la
concentración aparente del 52.4 51.4 52.6 55.4
analito considerado (valor p 54.5 54.0 51.0 55.5
ANOVA: 0.0205). 51.9 54.5 48.5 57.5
58.0 54.2 53.8 57.2
Evalúe la pertinencia de la
54.8 52.4
asunción de homocedasticidad
56.0
en los grupos utilizando las
diferentes pruebas para
múltiples varianzas.

Realizar el procedimiento en https://crparedes.shinyapps.io/validaR/


22

Pruebas de datos anómalos


Criterios de Dixon y de Grubbs
Pruebas de datos anómalos

23

Pruebas de datos anómalos


Criterio Q de Dixon

Rango entre el dato anómalo y su valor más cercano


Q= (25)
Rango de todos los datos

Los datos deben ordenarse de menor a mayor: x1 , x2 , ..., xn−1 , xn .

|x1 − x2 |
Q= (26)
xn − x1

xn − xn−1
Q= (27)
xn − x1

El estadı́stico Q de Dixon tiene supropia distribución.

Aplican los mismos conceptos de grados de libertad y nivel de significancia estadı́stica.


24
Pruebas de datos anómalos
Criterio Q de Dixon

Rango entre el dato anómalo y su valor más cercano


Q= (25)
Rango de todos los datos

Los datos deben ordenarse de menor a mayor: x1 , x2 , ..., xn−1 , xn .

|x1 − x2 |
Q= (26)
xn − x1

xn − xn−1
Q= (27)
xn − x1

El estadı́stico Q de Dixon tiene supropia distribución.

Aplican los mismos conceptos de grados de libertad y nivel de significancia estadı́stica.


24

Pruebas de datos anómalos


Criterio Q de Dixon

Rango entre el dato anómalo y su valor más cercano


Q= (25)
Rango de todos los datos

Los datos deben ordenarse de menor a mayor: x1 , x2 , ..., xn−1 , xn .

|x1 − x2 |
Q= (26)
xn − x1

xn − xn−1
Q= (27)
xn − x1

El estadı́stico Q de Dixon tiene supropia distribución.

Aplican los mismos conceptos de grados de libertad y nivel de significancia estadı́stica.


24
Pruebas de datos anómalos
Criterio Q de Dixon

Rango entre el dato anómalo y su valor más cercano


Q= (25)
Rango de todos los datos

Los datos deben ordenarse de menor a mayor: x1 , x2 , ..., xn−1 , xn .

|x1 − x2 |
Q= (26)
xn − x1

xn − xn−1
Q= (27)
xn − x1

El estadı́stico Q de Dixon tiene supropia distribución.

Aplican los mismos conceptos de grados de libertad y nivel de significancia estadı́stica.


24

Pruebas de datos anómalos


No siempre los datos sospechosos son datos aislados a un solo extremo

25
Pruebas de datos anómalos
Criterios de Grubbs
Gij : i datos anómalos en el extremo inferior y j datos en el extremo superior.
s2 s2
G01 = n2 G10 = 12 (28)
s s
2
sn, 2
n−1 s1, 2
G02 = G20 = (29)
s2 s2
2
s1, n
G11 = (30)
s2
2
donde s2 es la varianza del conjunto de datos y s{i, j} es la varianza del conjunto
excluyendo los valores en el subı́ndice.

Los datos deben ordenarse de menor a mayor: x1 , x2 , ..., xn−1 , xn .


Cada estadı́stico Gij tiene supropia distribución.
NTC 3529-2 (ISO 5725-2:2019). Accuracy of measurement methods and results.
26

Pruebas de datos anómalos


Criterios de Grubbs
Gij : i datos anómalos en el extremo inferior y j datos en el extremo superior.
s2 s2
G01 = n2 G10 = 12 (28)
s s
2
sn, 2
n−1 s1, 2
G02 = G20 = (29)
s2 s2
2
s1, n
G11 = (30)
s2
2
donde s2 es la varianza del conjunto de datos y s{i, j} es la varianza del conjunto
excluyendo los valores en el subı́ndice.

Los datos deben ordenarse de menor a mayor: x1 , x2 , ..., xn−1 , xn .


Cada estadı́stico Gij tiene supropia distribución.
NTC 3529-2 (ISO 5725-2:2019). Accuracy of measurement methods and results.
26
Pruebas de datos anómalos
Criterios de Grubbs
Gij : i datos anómalos en el extremo inferior y j datos en el extremo superior.
s2 s2
G01 = n2 G10 = 12 (28)
s s
2
sn, 2
n−1 s1, 2
G02 = G20 = (29)
s2 s2
2
s1, n
G11 = (30)
s2
2
donde s2 es la varianza del conjunto de datos y s{i, j} es la varianza del conjunto
excluyendo los valores en el subı́ndice.

Los datos deben ordenarse de menor a mayor: x1 , x2 , ..., xn−1 , xn .


Cada estadı́stico Gij tiene supropia distribución.
NTC 3529-2 (ISO 5725-2:2019). Accuracy of measurement methods and results.
26

Pruebas de datos anómalos


Criterios de Grubbs
Gij : i datos anómalos en el extremo inferior y j datos en el extremo superior.
s2 s2
G01 = n2 G10 = 12 (28)
s s
2
sn, 2
n−1 s1, 2
G02 = G20 = (29)
s2 s2
2
s1, n
G11 = (30)
s2
2
donde s2 es la varianza del conjunto de datos y s{i, j} es la varianza del conjunto
excluyendo los valores en el subı́ndice.

Los datos deben ordenarse de menor a mayor: x1 , x2 , ..., xn−1 , xn .


Cada estadı́stico Gij tiene supropia distribución.
NTC 3529-2 (ISO 5725-2:2019). Accuracy of measurement methods and results.
26
Pruebas de datos anómalos
Criterios de Grubbs
Gij : i datos anómalos en el extremo inferior y j datos en el extremo superior.
s2 s2
G01 = n2 G10 = 12 (28)
s s
2
sn, 2
n−1 s1, 2
G02 = G20 = (29)
s2 s2
2
s1, n
G11 = (30)
s2
2
donde s2 es la varianza del conjunto de datos y s{i, j} es la varianza del conjunto
excluyendo los valores en el subı́ndice.

Los datos deben ordenarse de menor a mayor: x1 , x2 , ..., xn−1 , xn .


Cada estadı́stico Gij tiene supropia distribución.
NTC 3529-2 (ISO 5725-2:2019). Accuracy of measurement methods and results.
26

Ejemplo práctico
Comparación de media muestral contra valor de referencia

Mercurio total en pescado

La fracción másica de mercurio total en νHg [mg kg−1 ]


pescado debe ser menor a 500 mg kg−1 para
que el producto pueda ser considerado como 517
seguro para consumo humano. 445
520
Se tienen unos resultados de medición de 517
mercurio total en una muestra aleatoria de 479
pescados que van a ser comercializados y se 391
desea conocer si la serie de datos contiene 418
algún dato sospechoso de ser anómalo. 447

27
TALLER V IRTUAL
ESTADÍSTICA
APLICADA AL
LABORATORIO
Introducción a la inferencia
estadı́stica
Cristhian Paredes

Análisis de covarianza
ANCOVA
Análisis de covarianza (ANCOVA)
Ejemplo práctico

Estabilidad de un catión en recipientes de distintos materiales:

Se almacena una disolución de un


catión en recipientes de distintos Tiempo Conc. relativa del cation
materiales. Cada mes se determina (meses) Recip. 1 Recip. 2 Recip. 3 Recip. 4
la concentración del catión y los 0 1.00 1.00 1.00 1.00
valores relativos a la concentración 1 0.98 0.98 1.01 0.96
inicial se muestran en la tabla. Se 2 0.99 0.96 0.99 0.94
quiere conocer si hay diferencia 3 0.96 0.93 0.98 0.93
entre los distintos materiales en 4 0.93 0.91 0.98 0.94
cuanto al efecto que tienen sobre la 5 0.94 0.93 0.96 0.92
estabilidad de la disolución.

28

Análisis de covarianza

1.00

0.96
Concentración relativa

0.92

0.88

#1 #2 #3 #4 0 2 4
Material recipiente Tiempo (meses)

29
Análisis de covarianza

1.00

0.96

Concentración relativa
0.92

0.88

0 1 2 3 4 5
Tiempo (meses)

30

Análisis de covarianza

1.00

0.96
Concentración relativa

0.92

0.88

0 1 2 3 4 5 0 2 4
Tiempo (meses) Tiempo (meses)

31
Análisis de covarianza

1.00

0.02

0.96

0.00

Residual

Concentración relativa
0.92

−0.02

0.88

#1 #2 #3 #4 #1 #2 #3 #4
Material recipiente Material recipiente

32

Análisis de covarianza

Supuestos del análisis


Linearidad entre la covariable y la
0.02
variable respuesta
Homogeneidad entre las pendientes
de regresión
0.00
Residual

Normalidad de la variable respuesta


(normalidad de los residuales de
regresión)
−0.02
Homocedasticidad entre los grupos
Ausencia de anómalos significativos
en los grupos
#1 #2 #3 #4
Material recipiente

33
Taller Virtual
Estadı́stica Aplicada al
Laboratorio
24 al 28 de mayo de 2021

También podría gustarte