Está en la página 1de 42

ANÁLISIS DE

VARIANZA

SEMANA 13
SESIÓN 25-26
RESULTADO DE APRENDIZAJE DE LA SESIÓN

Al finalizar la sesión, el estudiante interpreta ANOVA


de una vía usando la fórmula correcta y apreciando la
importancia en la investigación.
REFLEXIÓN DESDE LA EXPERIENCIA
Suponga que desea averiguar si el tiempo promedio de alivio para el dolor de cabeza en un grupo de sujetos
varia según la marca de la tableta(A,B,C,D,E)

Variable dependiente: Tiempo de alivio( horas)


Variable independiente (Factor): Marca de la tableta
Niveles del factor: A,B,C,D
Unidad de análisis: Los sujetos que toman las tabletas para aliviar su dolor de cabeza.

Por tal motivo, de cada uno de los grupos estudiados se seleccionaron aleatoriamente algunas personas y a
cada una se les preguntó: ¿Cuál es el tiempo de alivio? Los resultados obtenidos se muestran a continuación:

Grupo 1: Tableta A Grupo 2: Tableta B Grupo 3: Tableta C Grupo 4: Tableta D

Juan 5,2 Juana 9.2 Silvia 7.8 Juliana 3,3 Carola 4,2
Lucia 7.8 Daniel 8.3 Francisco 5.9 Edith 3.8
Sonia 8.1 Carmen 6 Franco 2.6 Lily 4,5 Perci: 1.4
Carlos 6.3 Julia 9.4 Lucia 3.1 Dora 7.9 Rodrigo 4.8
Romelia 3.4 Francisco 8.1 Gladis 3.4 Mayra 5.8 Marcia 4.9

De acuerdo a lo observado en estas muestras, ¿ el tiempo promedio de alivio de los sujetos varía según
la marca de la tableta?
REFLEXIÓN DESDE LA EXPERIENCIA

Responde en el Padlet las siguientes


preguntas

• ¿Qué tipo de prueba conoce para comparar dos medias


poblacionales?

• ¿Qué entiendes por experimento?

• Si se desea comparar tres o más medias poblacionales


¿Qué prueba utilizarías?
EL ANÁLISIS DE VARIANZA (ANOVA)

ANOVA es un método de prueba de igualdad de tres o más medias poblaciones


por medio del análisis de las varianza muestrales.
Este método permite descomponer la variabilidad total en dos componentes de
variación, uno debido a un factor en particular estudiado(entre) y otro debido al
azar (dentro).
VARIABILIDAD TOTAL

VARIABILIDAD VARIABILIDAD
ENTRE DENTRO DE
GRUPOS LOS GRUPOS

TRATAMIENTOS ERROR
EXPERIMENTAL
NOTA:

Las técnicas iniciales del análisis de varianza fueron


desarrolladas por el estadístico y genetista R.A. Fisher en
los años 1920 y 1930 y es algunas veces conocido como
“Anova de Fisher” o “análisis de varianza de Fisher”, debido
al uso de la distribución F de Fisher como parte del
contraste de hipótesis.

https://bit.ly/3IV4Ad3

Ronald Fisher (1890-1962)


PRINCIPIOS BÁSICOS DE UN DISEÑO EXPERIMENTAL

REPETICIÓN DEL EXPERIMENTO

ALEATORIEDAD FORMACIÓN DE BLOQUE

VALIDEZ DE LA
ESTIMACIÓN Y
REDUCCION DEL
ERROR EXPERIMENTAL
TÉRMINOS BÁSICOS
• EXPERIMENTO.
• TRATAMIENTO.
• VARIABLE RESPUESTA.
• UNIDAD EXPERIMENTAL
• ERROR EXPERIMENTAL.
TÉRMINOS BÁSICOS
Experimento: Es cualquier proceso o actividad que da origen a un resultado o una
observación en el cual se crean pruebas con el fin de verificar uno o varias hipótesis
relacionadas con un fenómeno determinado.

Factor: Es una variable controlado por el investigador y se desea medir su efecto sobre
la variable independiente, un factor puede tener varios niveles.

Tratamiento: Un tratamiento es un efecto que se desea estudiar. Viene a ser el nivel


particular de un factor, que deben imponerse a una unidad experimental dentro del
marco del diseño seleccionado.

Variable respuesta: Es la característica que desea evaluar como resultado de la


aplicación de los tratamientos.

Unidad experimental: Es el elemento al cual se le aplica el tratamiento.


ERROR EXPERIMENTAL

Es la diferencia observada en los valores de la variable respuesta de cada una de


las unidades experimentales por una acción diferente a la de los tratamientos.

Fuentes de error experimental


• Principal: Varianza entre las unidades experimentales
• Secundarias: Errores de medición y falta de control de factores o variables
importantes no incluidas en el experimento.

Formas de reducir el error experimental


• Utilizando el diseño experimental adecuado.
• Seleccionando minuciosamente el material experimental.
• Incrementando el número de repeticiones en el experimento.
LA DISTRIBUCIÓN F
La distribución F es una distribución continua de
muestreo de la relación de dos variables aleatorias
independientes con distribuciones de chi-cuadrada,
cada una dividida entre sus grados de libertad.

La distribución F es asimétrica hacia la derecha y es


descrita por los grados de libertad de su numerador
(ν1) y denominador (ν2).

Las siguientes gráficas muestran el efecto de los


diferentes valores de grados de libertad en la forma https://bit.ly/3hSggBC
de la distribución.
Tabla 1: VALORES F DE LA DISTRIBUCION F DE FISHER
MODELOS DE CLASIFICACIÓN DE UN SOLO FACTOR
COMPLETAMENTE ALEATORIZADOS
El modelo de clasificación de un solo factor completamente aleatorizado es:
𝑦𝑖𝑗 = µ + 𝛼𝑗 + ε𝑖𝑗 (i=1,2,…………. 𝑛𝑖 , j=1,2,………………𝑘)

𝑦𝑖𝑗 : Denota la i- ésima unidad experimental sujeta al j-ésimo tratamiento


µ : es la media general o media total
𝛼𝑗 : es el j- ésimo tratamiento
ε𝑖𝑗 :error experimental causados por todos los factores desconocidos
En el modelo de clasificación de un factor completamente aleatorizado los valores 𝑦𝑖𝑗 se
registran en la siguiente tabla.
Tratamientos
1 2 … i … k
𝑦11 𝑦21 … 𝑦 … 𝑦𝑘1
Donde: 𝑖1

𝑦12 𝑦22 … 𝑦𝑖2 … 𝑦𝑘2


𝑇◼𝑗 : es la suma de datos de la muestra j.
𝑦13 𝑦23 … 𝑦𝑖3 … 𝑦𝑘3
𝑇◼◼ : es la suma total de datos de las k
𝑦14 𝑦24 … 𝑦𝑖4 … 𝑦𝑘4
muestras.
⋮ ⋮ … ⋮ … ⋮
n: es el total de observaciones en las k
𝑦1𝑛1 𝑦2𝑛2 … 𝑦𝑖𝑛𝑖 … 𝑦𝑘𝑛𝑘
muestras.
Total 𝑇◼1 𝑇◼2 … 𝑇◼i … 𝑇◼k 𝑇◼◼
𝑦ത◼𝑗 :es la media de la muestra j.
𝒏𝒊 𝑛1 𝑛2 … 𝑛𝑖 … 𝑛𝑘 n
𝑦ത◼◼ : media total muestral. Medias 𝑦ത◼1 𝑦ത◼2 … 𝑦ത◼i … 𝑦ത◼k 𝑦ത◼◼
CUADRO ANOVA
Los resultados obtenidos de la descomposición de la varianza total se resumen en la
siguiente tabla:
Fuente de Grados de Cuadrados
Suma de cuadrados Fcal
variación libertad medios
k 2 2
T◼◼ T◼j SCTra
Tratamiento k–1 SCTra = ෍ − CMTra =
𝑛𝑗 𝑛 𝑘−1 𝑪𝑴𝑻𝒓𝒂
j=1 𝑭𝒄𝒂𝒍 =
SCE 𝑪𝑴𝑬
Error n–k SCE = SCT − SCTra CME =
𝑛−𝑘
𝑘 𝑟 2
T◼◼
Total n–1 SCT = ෍ ෍ 𝑦ij2 −
𝑛
j=1 i=1

Donde:
SCTra = Suma de cuadrados del tratamiento.
SCE = Suma de cuadrados del error.
SCT = Suma de cuadrado del total.
CMTra = Cuadrado medio del tratamiento.
CME = Cuadrado medio del error.
PASOS PARA REALIZAR LA PRUEBA DE ANÁLISIS DE
VARIANZA
La prueba de análisis de varianza se resume en los siguientes pasos:
Paso 1 (Plantee las hipótesis de prueba)
H0 : μ1 = μ2 = μ3 = ⋯ = μk
H1 : 𝐴𝑙 𝑚𝑒𝑛𝑜𝑠 𝑢𝑛 𝜇𝑖 es diferente
Paso 2 (Establezca el nivel de significancia) 𝜶
Paso 3 (Calcule el valor del estadístico de prueba)
CMTra
Fcal = ~ 𝐹(1−𝛼;𝑘−1; 𝑛−𝑘)
CME
Paso 4 (Establezca la región de rechazo)

Si 𝐹𝑐 pertenece a la región critica (𝐹𝑐 Є RC)


entonces se recha Ho
No rechazo Ho Rechazo Ho

F(1- α,k-1,n-k)
Paso 5 (Concluya de acuerdo al enunciado del problema)
SUPUESTOS DEL MODELO
Aditividad: Los efectos del modelo son aditivos.
Linealidad: Las relaciones entre los efectos del modelo son lineales.
Normalidad: Los errores del modelo deben seguir una distribución normal con media
cero y varianza 2.

Prueba de normalidad de los errores del modelo con Anderson-Darling


Hipótesis
H0 : Los errores 𝐬𝐢𝐠𝐮𝐞𝐧 una distribución Normal.
H1 : Los errores 𝐧𝐨 𝐬𝐢𝐠𝐮𝐞𝐧 una distribución Normal.
Decisión
Si p-valor es menor que el nivel de significancia, se rechaza H0.
SUPUESTOS DEL MODELO

Independencia: Los resultados obtenidos en el experimento son independientes


entre sí.
Homogeneidad de varianzas: Las diferentes poblaciones generadas por la
aplicación de los diferentes tratamientos tienen varianzas iguales.

Prueba de homogeneidad de varianzas con Bartlett


Hipótesis
H0 : Las varianzas en los k tratamientos son iguales.
(𝐻0 : 𝜎12 = 𝜎22 = 𝜎32 = ⋯ = 𝜎𝑘2 )
H1 : Al menos una de las varianzas en los k tratamientos es diferente.
(𝐻1 : 𝜎𝑖2 ≠ 𝜎𝑗2 𝑝𝑎𝑟𝑎 𝑎𝑙 𝑚𝑒𝑛𝑜𝑠 𝑢𝑛 𝑝𝑎𝑟 𝑖, 𝑗)
Decisión
Si p-valor es menor que el nivel de significancia, se rechaza H0.
Ejemplo 1
Se toman muestras aleatorias de siete estudiantes universitarios de las secciones A,
B y C del primer año, que asisten a una clase de Estadística para los Negocios. La
tabla adjunta muestra las calificaciones obtenidas en el examen final.

Estudiantes de Estudiantes de Estudiantes de


primer año A primer año B primer año C
82 71 64
93 62 73
61 85 87
74 94 91
69 78 56
70 66 78
53 71 87

Determinar a un nivel de significancia de 0.05 si las calificaciones promedio de


los tres grupos son iguales
Estudiantes de Estudiantes de Estudiantes de
primer año A primer año B primer año C
82 71 64
93 62 73
61 85 87
74 94 91
69 78 56
70 66 78
53 71 87
Total 502 527 536 1565
𝑛𝑖 7 7 7 21
Medias 71.71 75.29 76.57 223.57
2
𝑇∎∎ 15652
SCT = σ𝑘𝑖=1 σ𝑛𝐽=1
𝑖 2
𝑥𝑖𝑗 − = 822 + 712 + 642 + 932 + ⋯+ 872 −
𝑛 21
SCT=2901.24
2 2
𝑇 𝑇∎∎ 5022 5272 5362 15652
SCTR=σ𝑘𝑖=1 𝑛𝑖∎ − = + + −
𝑖 𝑛 7 7 7 21
SCTR=88.67
SCE=𝑆𝐶𝑇 − 𝑆𝐶𝑇𝑅=2812.57
1.Planteamiento de hipótesis
𝐻0 : µ1 = µ2 = µ3 (Las calificaciones promedio de los tres grupos son iguales)
𝐻1 : Al menos una de las calificaciones promedio es diferente
2.Nivel de significancia
α=0.05
Fuente de Suma de Grados de Cuadrados Razón F
3.Estadígrafo o estadístico
Variación Cuadrados libertad Medios calculada
Tratamiento 88.67 2 44.33 0.28
Error 2812.57 18 156.25
Total 2901.24 20
4.Regla de decisión

Región Crítica
Primero se encuentra el valor crítico que es F(1- α,k-1,n-k)=F(0.95,2,18)=3.55
La región critica es: (3.55, +∞)

Como el estadístico de prueba no pertenece a la región critica ( 𝐹𝑐 ∉ Rc ) por lo tanto no se rechaza 𝐻0

5. Conclusión
Finalmente hay suficiente evidencia estadística para afirmar que las calificaciones promedio de
los tres grupos son iguales a un nivel de significancia del 0.05
SCTR=88.67

SCE=2812.57

SCT=2901.24
𝐹𝑐 = 0.28
PASO 1: HIPÓTESIS

𝐻0 : µ1 = µ2 = µ3 (Las calificaciones promedio de los tres grupos son iguales)


𝐻1 : Al menos una de las calificaciones promedio es diferente

PASO 2: NIVEL DE SIGNIFICANCIA


α=0.05

PASO 3: DECISIÓN

𝐹𝑐 =0.28
𝐹𝑡𝑎𝑏𝑢𝑙𝑎𝑟 =3.55

Como el estadístico de prueba no pertenece a la región critica( 𝐹𝑐 ∉ 𝑅𝐶 ) entonces no se rechaza Ho

PASO 4: CONCLUSIÓN
Finalmente hay suficiente evidencia estadística para afirmar que las calificaciones promedio de los tres grupos
son iguales a un nivel de significancia del 0.05
Ejemplo 2
Se toman muestras aleatorias independientes de seis profesores ayudantes, cuatro
profesores asociados y cinco profesores titulares, que estimen la cantidad de tiempo
que dedicaron a sus responsabilidades, los docentes fuera del aula la semana pasada.
La tabla adjunta muestra los resultados en horas
Ayudante Asociado Titular
7 15 11
12 12 7
11 15 6
15 8 9
9 7
14

Determinar a un nivel de significancia de 0.05 si el tiempo promedio


que dedicaron los docentes a sus responsabilidades fuera del aula la
semana pasada es la misma.
Ayudante Asociado Titular
7 15 11
12 12 7
11 15 6
15 8 9
9 7
14
Total 68 50 40 158
n 6 4 5 15
Medias 11.33 12.50 8 31.83
2
𝑇∎∎ 1582
SCT = σ𝑘𝑖=1 σ𝑛𝐽=1
𝑖 2
𝑥𝑖𝑗 − = 72 + 152 + 112 + 122 + ⋯+ 142 −
𝑛 15
SCT=145.73
2 2
𝑇 𝑇∎∎ 682 502 402 1582
SCTR=σ𝑘𝑖=1 𝑛𝑖∎ − = + + −
𝑖 𝑛 6 4 5 15
SCTR=51.40
SCE=𝑆𝐶𝑇 − 𝑆𝐶𝑇𝑅=94.33
1.Planteamiento de hipótesis
𝐻0 : µ1 = µ2 = µ3 (El tiempo promedio que dedicaron los docentes a sus responsabilidades fuera
del aula la semana pasada es el mismo)
𝐻1 : Al menos uno de los tiempo promedio que dedicaron los docentes a sus responsabilidades
fuera del aula la semana pasada es diferente.
2. Nivel de significancia
α=0.05
Fuente de Suma de Grados de Cuadrados Razón F
3. Estadígrafo o estadístico Variación Cuadrados libertad Medios calculada
Tratamiento 51.40 2 25.70 3.27
Error 94.33 12 7.86
Total 145.73 14
4. Regla de decisión

Región Crítica
Primero se encuentra el valor crítico que es F(1- α,k-1,n-k)=F(0.95,2,12)=3.89
La región critica es: (3.89, +∞)
Como el estadístico de prueba no pertenece a la región critica( 𝐹𝑐 ∉ 𝑅C ) entonces no se rechaza Ho

5. Conclusión
Finalmente hay suficiente evidencia estadística para afirmar que el tiempo promedio que dedicaron los
docentes a sus responsabilidades fuera del aula la semana pasada es la mismo.
SCTR=51.4

SCE=94.333

SCT=145.73

𝐹𝑐 = 3.27
PASO 1: HIPÓTESIS

𝐻0 : µ1 = µ2 = µ3 (El tiempo promedio que dedicaron los docentes a sus responsabilidades fuera del aula
la semana pasada es el mismo)
𝐻1 : Al menos uno de los tiempo promedio que dedicaron los docentes a sus responsabilidades fuera del
aula la semana pasada es diferente.

PASO 2: NIVEL DE SIGNIFICANCIA


α=0.05
PASO 3: DECISIÓN

𝐹𝑐 =3.27
𝐹𝑡𝑎𝑏𝑢𝑙𝑎𝑟 =3.89
Como el estadístico de prueba no pertenece a la región critica( 𝐹𝑐 ∉ 𝑅𝐶 ) entonces no se rechaza Ho

PASO 4: CONCLUSIÓN
Finalmente hay suficiente evidencia estadística para afirmar que el tiempo promedio que dedicaron los
docentes a sus responsabilidades fuera del aula la semana pasada es la misma con un nivel de
significancia del 0.05.
APLIQUEMOS LO APRENDIDO

Método I Método II Método III 1.- Los miembros de un equipo ciclista se


15 14 13 dividen al azar en tres grupos que entrenan
16 13 12 con métodos diferentes. El primer grupo
14 15 11 realiza largos recorridos a ritmo pausado, el
15 16 14 segundo grupo realiza series cortas de alta
17 11 intensidad y el tercero trabaja en el
gimnasio con pesas y se ejercita en el
pedaleo de alta frecuencia. Después de un
mes de entrenamiento se realiza un test de
rendimiento consistente en un recorrido
cronometrado de 9 Km. Los tiempos
empleados fueron los siguientes.
A un nivel de confianza del 95% ¿Puede
considerarse que los tres métodos producen
resultados equivalentes?
2.- Se hace un estudio sobre la efectividad de tres marcas de spray para matar
moscas. Para ello, cada producto se aplica a un grupo de 100 moscas, y se cuenta
el número de moscas muertas expresado en porcentajes. Se hacen seis réplicas y
los resultados obtenidos se muestran a continuación:

Marca de spray
A B C
72 55 64
65 59 74
67 68 61
75 70 58
62 53 51
73 50 69
a) Formule la hipótesis adecuada y el modelo estadístico.
b) ¿Existe diferencia entre la efectividad promedio de los
productos en spray?
3.- Se han considerado seis máquinas diferentes para la fabricación de sellos de
gomas y se están comparando con respecto a la resistencia a la tensión del producto.
Se utiliza una muestra aleatoria de cuatro sellos hechos con cada máquina para
determinar si la resistencia media a la tensión varia de una máquina a otra.
A continuación se presentan las medidas de la resistencia a la tensión en kilogramos
por centímetro cuadrado.
Máquina
1 2 3 4 5 6
17.5 16.4 20.3 14.6 17.8 18
16.9 19 15.7 16.7 19.2 16
15.8 17.8 17.8 20.8 16.5 17.9
18 15.4 18.9 18.9 20 20.8
Realiza el análisis de varianza a un nivel de significancia de 0.05 e
indique si la resistencia promedio a la tensión de las seis máquinas
difiere o no de manera significativa.
4.- Los datos que se presentan en la siguiente tabla representa el número de horas
de alivio proporcionadas por cinco marcas diferentes de tabletas para el dolor de
cabeza administradas a 25 sujetos que tenias fiebre de 38°C o más. Realice el
análisis de varianza y a un nivel de significancia de 0.05, pruebe la hipótesis de que
las cinco marcas proporcionan el mismo número medio de horas de alivio.

Tabletas
A B C D E
5.2 9.2 3.3 2.4 7.1
7.8 7.8 5.9 3.8 6.6
8.1 8.3 2.6 4.5 9.3
6.3 6 3.1 1.4 4.2
3.4 9.4 7.9 4.8 7.6
5.- Una nutricionista ha realizado un Dieta 1 Dieta 2 Dieta 3
estudio con tres tipos de dieta, para lo cual
seleccionó 9 pacientes a los que se les 5 2 6
asignó un tipo de dieta y después de un 6 3 5
mes se registraron las pérdidas de peso 4 4
en cada paciente (véase la tabla). A un
4
nivel de significancia de 0.05.
¿Se puede concluir que existe una
diferencia en el promedio de pérdida de
peso de las tres dietas?
INTEGREMOS LO APRENDIDO

• ¿En que consiste la técnica del


ANOVA?

• ¿Qué es un factor?

• ¿Cuáles son los requisitos para


realizar el ANOVA?
INTEGREMOS LO APRENDIDO

• ¿Qué es lo que más te ha gustado de la


sesión desarrollada?

• ¿Qué es lo que aún puedes mejorar para


realizar el Anova?

https://bit.ly/3pKZIzI
• ¿Cómo puedes aplicar lo aprendido en la
sesión a tu vida profesional?
Actividad Asincrónica (virtual)

Resolver el cuestionario virtual de la


semana 13.
Referencias Bibliográficas
SECCIÓN DE REFERENCIA
SECCIÓN DE REFERENCIA

También podría gustarte