Documentos de Académico
Documentos de Profesional
Documentos de Cultura
para Investigaciones
Sociales
Análisis de la Varianza
(ANOVA)
Conceptos Básicos
ANOVA de un Factor
ANOVA de dos Factores
Conceptos Básicos
Conceptos Básicos
Ejemplos de Contexto
Ejemplo 1
Se desea saber si existen diferencias en los ingresos entre varios grupos raciales /
étnicos.
Ejemplo 2
Se desea saber si los grupos religiosos varían en la cantidad de hijos que tienen.
Nota
La característica que diferencia a las poblaciones (o tratamientos) se llama factor en
estudio y las distintos poblaciones (o tratamientos) se conocen como niveles del factor.
Conceptos Básicos
Análisis de Varianza (ANOVA)
Método estadístico que se utiliza para realizar pruebas de hipótesis de que
existen diferencias significativas entre las medias de tres o más poblaciones.
Nota
El término tratamiento se usa porque las primeras aplicaciones del análisis de
varianza involucraron experimentos agrícolas en los que diferentes parcelas de
tierras agrícolas fueron tratadas con diferentes fertilizantes, tipos de semillas,
insecticidas (“tratamiento” o factor).
ANOVA de un Factor
Requisitos
1. Las poblaciones tienen distribuciones que son aproximadamente normales.
2. Las poblaciones tienen la misma varianza σ2 (o la misma desviación estándar
σ).
3. Las muestras son muestras aleatorias simples de datos cuantitativos.
4. Las muestras son independientes entre sí.
5. Las diferentes muestras son de poblaciones que se encuentran categorizadas
de una sola manera.
ANOVA de un Factor
Procedimiento
Paso 1: Establezca la hipótesis nula y la hipótesis alternativa.
Paso 4: Obtenga una conclusión con base en los siguientes criterios que usan el nivel
de significancia α:
Rechazar la H0: Si el valor P <= α, rechace la hipótesis nula de la igualdad de
medias y concluya que al menos una de las medias poblacionales es diferente de las
demás.
No rechazar la H0: Si el valor P > α, no rechace la hipótesis nula de la igualdad de
medias.
Prueba de Tukey
Prueba que se usa después de un resultado estadísticamente significativo para un análisis
de varianza para determinar qué medias de grupo son significativamente diferentes entre sí.
Notas
Una prueba de comparación múltiple entre pares de medias, hace ajustes para superar el
problema de tener un nivel de significancia que aumenta a medida que se incrementa el
número de pruebas individuales.
La frase “estadísticamente significativa” simplemente significa que los resultados de
nuestra prueba de hipótesis han permitido rechazar la hipótesis nula.
ANOVA de un Factor
ANOVA de un factor (EJEMPLO)
Afirmación
Las personas que laboran en negocios o empresas de hasta 20 personas, de 21 a 500 personas, y
de más de 500 personas trabajan un número diferente de horas a la semana en promedio, en su
ocupación principal.
Datos
Encuesta ENAHO, segundo trimestre 2020, módulo 500 Empleo.
Pregunta p513t: ¿Cuántas horas trabajó la semana pasada, en su ocupación principal, total?
Pregunta p512a: En su trabajo, negocio o empresa, incluyéndose ud., ¿laboraron:
ANOVA de un Factor
ANOVA de un factor (EJEMPLO)
Generación de la variable: tamaño de negocio o empresa
* variable de tamaño de negocio o empresa
label define grupo 1 "hasta 20 personas" 2 "de 21 a 500 personas" 3 "más de 500
personas"
gen tempre = p512a
replace tempre = 1 if (p512a == 1)
replace tempre = 2 if (p512a >= 2 & p512a <= 4)
replace tempre = 3 if (p512a == 5)
label var tempre "Tamaño de negocio o empresa"
label value tempre grupo
1.00
1.00
0.75
0.75
0.75
Normal F[(p513t-m)/s]
Normal F[(p513t-m)/s]
Normal F[(p513t-m)/s]
0.50
0.50
0.50
0.25
0.25
0.25
0.00
0.00
0.00
0.00 0.25 0.50 0.75 1.00 0.00 0.25 0.50 0.75 1.00 0.00 0.25 0.50 0.75 1.00
Empirical P[i] = i/(N+1) Empirical P[i] = i/(N+1) Empirical P[i] = i/(N+1)
ANOVA de un Factor
ANOVA de un factor (EJEMPLO)
Verificación de Requisitos
2. Los tres grupos tienen desviaciones estándar que no son muy diferentes, por lo que las tres
varianzas poblacionales parecen ser aproximadamente las mismas.
* medidas de dispersión
tabstat p513t, stats(range sd variance cv iqr n) by (tempre)
ANOVA de un Factor
ANOVA de un factor (EJEMPLO)
Verificación de Requisitos
3. Con base en el diseño de la ENAHO, podemos tratar las muestras como muestras aleatorias
simples
4. Las muestras son independientes entre sí; el número de horas trabajadas a la semana en
promedio, en su ocupación principal no se corresponden de ninguna manera.
5. Las tres muestras son de poblaciones categorizadas de acuerdo con el número de personas
que laboran en el negocio o empresa (hasta 20 personas, de 21 a 500 personas, y más de 500
personas).
Paso 1
Ho: µ1 = µ2 = µ3
Ha: Al menos una de las medias es diferente de las demás.
Donde:
µ1 Número de horas trabajadas a la semana en promedio, por personas que laboran en
negocios o empresas de hasta 20 personas.
µ2 Número de horas trabajadas a la semana en promedio, por personas que laboran en
negocios o empresas de 21 a 500 personas.
µ3 Número de horas trabajadas a la semana en promedio, por personas que laboran en
negocios o empresas de más de 500 personas.
Paso 2
α = 0.05
ANOVA de un Factor
ANOVA de un factor (EJEMPLO)
Procedimiento
Paso 3
* análisis de varianza de un factor
oneway p513t tempre
Valor P
Valor P
Paso 4
Debido a que el valor P de 0.0000 es menor que el nivel de significancia α = 0.05,
rechazamos la hipótesis nula.
Paso 5
Concluimos que hay suficiente evidencia para respaldar la afirmación de que las personas
que laboran en negocios o empresas de hasta 20 personas, de 21 a 500 personas, y de más
de 500 personas trabajan un número diferente de horas a la semana en promedio, en su
ocupación principal.
ANOVA de un Factor
ANOVA de un factor (EJEMPLO)
Prueba de Comparación Múltiple
Valor P
El ANOVA de dos factores compara las diferencias de las medias de los grupos
en que se han dividido en dos variables independientes (llamadas factores). El
propósito principal de un ANOVA bidireccional es comprender si existe una
interacción entre las dos variables independientes en la variable dependiente.
ANOVA de dos Factores
Requisitos
1. Normalidad. Para cada celda, los valores muestrales provienen de una
población con una distribución que es aproximadamente normal.
2. Variación. Las poblaciones tienen la misma varianza σ2 (o desviación
estándar σ).
3. Muestreo. Las muestras son muestras aleatorias simples de datos
cuantitativos.
4. Independencia. Las muestras son independientes entre sí.
5. Bifactorial. Los valores muestrales se clasifican de dos maneras.
6. Diseño equilibrado. Todas las celdas tienen el mismo número de valores
muestrales.
ANOVA de dos Factores
Procedimiento
Paso 1: Efecto de interacción
Probar la hipótesis nula de que no hay interacción entre los dos factores
Paso 4: Obtenga una conclusión con base en los siguientes criterios que usan el nivel
de significancia α:
Conclusión
1. Rechazar H0: Si el valor P <= α, rechace la hipótesis nula de no efecto del
factor de fila. Concluya que hay un efecto del factor de fila.
2. No rechazar H0: Si el valor P > α, no se puede rechazar la hipótesis nula de
que no hay efecto del factor de fila. Concluya que no hay efecto del factor de
fila.
ANOVA de dos Factores
Procedimiento
Factor de columna
Para el factor de columna, pruebe la hipótesis nula H0: No hay efectos del factor
de columna (es decir, los valores de columna provienen de poblaciones con la
misma media).
Conclusión
1. Rechazar H0: Si el valor P <= α, rechace la hipótesis nula de no efecto del
factor de columna. Concluya que hay un efecto del factor de columna.
2. No rechazar H0: Si el valor P > α, no se puede rechazar la hipótesis nula de no
efecto del factor de columna. Concluya que no hay efecto del factor de
columna.
ANOVA de dos Factores
ANOVA de dos factores (EJEMPLO)
Afirmación
El número de horas trabajadas a la semana en promedio, en su ocupación
principal, se ve influenciado por los efectos combinados del tamaño del
negocio o empresa donde laboran las personas y su edad.
Datos
Encuesta ENAHO, segundo trimestre 2020, módulo 500 Empleo.
Pregunta p513t: ¿Cuántas horas trabajó la semana pasada, en su
ocupación principal, total?
Pregunta p512a: En su trabajo, negocio o empresa, incluyéndose ud.,
¿laboraron:
Pregunta p208a: ¿Qué edad tienen en años cumplidos?
ANOVA de dos Factores
ANOVA de dos factores (EJEMPLO)
Generación de la variables: tamaño de negocio o empresa y rango de edad
* variable de tamaño de negocio o empresa
label define grupo 1 "hasta 20 personas" 2 "de 21 a 500 personas" 3 "más de 500
personas"
gen tempre = p512a
replace tempre = 1 if (p512a == 1)
replace tempre = 2 if (p512a >= 2 & p512a <= 4)
replace tempre = 3 if (p512a == 5)
label var tempre "Tamaño de negocio o empresa"
label value tempre grupo
Hasta 20 personas y de 14 a 24 años de 21 a 500 personas y de 14 a 24 años más de 500 personas y de 14 a 24 años
1.00
1.00
1.00
0.75
0.75
0.75
Normal F[(p513t-m)/s]
Normal F[(p513t-m)/s]
Normal F[(p513t-m)/s]
0.50
0.50
0.50
0.25
0.25
0.25
0.00
0.00
0.00
0.00 0.25 0.50 0.75 1.00 0.00 0.25 0.50 0.75 1.00 0.00 0.25 0.50 0.75 1.00
Empirical P[i] = i/(N+1) Empirical P[i] = i/(N+1) Empirical P[i] = i/(N+1)
Hasta 20 personas y de 25 a 44 años de 21 a 500 personas y de 25 a 44 años más de 500 personas y de 25 a 44 años
1.00
1.00
1.00
0.75
0.75
0.75
Normal F[(p513t-m)/s]
Normal F[(p513t-m)/s]
Normal F[(p513t-m)/s]
0.50
0.50
0.50
0.25
0.25
0.25
0.00
0.00
0.00
0.00 0.25 0.50 0.75 1.00 0.00 0.25 0.50 0.75 1.00 0.00 0.25 0.50 0.75 1.00
Empirical P[i] = i/(N+1) Empirical P[i] = i/(N+1) Empirical P[i] = i/(N+1)
ANOVA de dos Factores
ANOVA de dos factores (EJEMPLO)
Verificación de Requisitos
2. Los seis grupos tienen desviaciones estándar que no son muy diferentes, por lo que las seis
varianzas poblacionales parecen ser aproximadamente las mismas.
Paso 1
Ho: (αβ)ij = 0, ∀i, ∀j
Ha: Al menos una interacción es diferente de las demás.
Donde:
αβ Interacción entre el tamaño del negocio o empresa, y el grupo de edad.
i Personas que laboran en negocios o empresas de hasta 20 personas (1), de 21 a 500
personas (2) y de más de 500 personas (3).
j Personas cuya edad es 14 a 24 años (1) y 25 a 44 años (2).
Paso 2
α = 0.05
ANOVA de dos Factores
ANOVA de dos factores (EJEMPLO)
Procedimiento
Paso 3
* análisis de varianza de dos factores
anova p513t tempre##gedad
Efecto fila
Efecto columna
Interacción
ANOVA de dos Factores
ANOVA de dos factores (EJEMPLO)
Procedimiento
Paso 4
Concluimos que no hay evidencia suficiente para respaldar la afirmación de que el número
de horas trabajadas a la semana en promedio, en la ocupación principal de las personas se
vean afectadas por una interacción entre el grupo de edad y el tamaño del negocio o
empresa donde labora. No parece haber un efecto de interacción.
ANOVA de dos Factores
ANOVA de dos factores (EJEMPLO)
Procedimiento
Como la evidencia muestra que no hay efecto de interacción, entonces debemos proceder
con las siguientes dos pruebas de hipótesis:
Paso 5
Concluimos que hay evidencia suficiente para respaldar la afirmación de que existen efectos
del tamaño del negocio o empresa donde labora la persona en el número de horas
trabajadas a la semana en promedio, en la ocupación principal de las personas
ANOVA de dos Factores
ANOVA de dos factores (EJEMPLO)
Procedimiento
Paso 5
Concluimos que no hay evidencia suficiente para respaldar la afirmación de que existen
efectos de la edad de la persona en el número de horas trabajadas a la semana en
promedio, en su ocupación principal.
ANOVA de dos Factores
ANOVA de un factor (Comandos en Stata)