Está en la página 1de 42

Métodos Estadísticos

para Investigaciones
Sociales
Análisis de la Varianza
(ANOVA)
Conceptos Básicos
ANOVA de un Factor
ANOVA de dos Factores
Conceptos Básicos
Conceptos Básicos
Ejemplos de Contexto
Ejemplo 1
Se desea saber si existen diferencias en los ingresos entre varios grupos raciales /
étnicos.
Ejemplo 2
Se desea saber si los grupos religiosos varían en la cantidad de hijos que tienen.

Características de los ejemplos


1. Hay dos variables: variable independiente (VI) y variable dependiente (VD).
Ejemplo 1: VI: grupo racial / étnico, VD: ingreso.
Ejemplo 2: VI: grupo religioso, VD: cantidad de hijos.
2. La variable independiente tiene más de dos categorías.
3. La variable dependiente es cuantitativa (discreta o continua) o cualitativa ordinal.
4. Se quiere medir un posible efecto de la variable independiente sobre la variable
dependiente.
Ejemplo 1: ingreso = efecto(grupo racial / étnico)
Ejemplo 2: cantidad de hijos = efecto(grupo religioso)
Conceptos Básicos
Otros Ejemplos de Contexto
Ejemplo 3
Se desea saber si existen diferencias en las puntuaciones del IQ de desempeño entre
niños según su nivel de plomo en la sangre (bajo, medio, alto)
Ejemplo 4
Se desea saber si la identificación con un grupo afecta el bienestar subjetivo de la
persona.
Ejemplo 5
Se desea saber si la frecuencia media de pulso en los hombres varían en tres grupos
de edad.

Nota
La característica que diferencia a las poblaciones (o tratamientos) se llama factor en
estudio y las distintos poblaciones (o tratamientos) se conocen como niveles del factor.
Conceptos Básicos
Análisis de Varianza (ANOVA)
Método estadístico que se utiliza para realizar pruebas de hipótesis de que
existen diferencias significativas entre las medias de tres o más poblaciones.

A veces, el ANOVA se denomina prueba general porque prueba si hay diferencias


de la media la variable dependiente entre las categorías de la variable
independiente, pero no indica qué categorías tienen diferencias significativas
entre sí.

El análisis de varianza fue desarrollado por R. A. Fisher (1890-1962) para


problemas en estudios biológicos.
Conceptos Básicos
Distribución F
Hay una distribución F diferente para cada par diferente de grados de libertad en
el numerador y en el denominador.
1. La distribución F no es simétrica. Está sesgada a la derecha.
2. Los valores de la distribución F no pueden ser negativos.
3. La forma exacta de la distribución F depende de los dos diferentes grados de
libertad.
ANOVA de un Factor
ANOVA de un Factor
Definición
El análisis de varianza (ANOVA) de un factor es un método para probar si existen
diferencias entre tres o más medias poblacionales mediante el análisis de las
varianzas muestrales.
El análisis de varianza de un factor se utiliza con datos categorizados con un
factor (o tratamiento), por lo que hay una característica que se usa para separar
los datos muestrales en diferentes categorías.

Nota
El término tratamiento se usa porque las primeras aplicaciones del análisis de
varianza involucraron experimentos agrícolas en los que diferentes parcelas de
tierras agrícolas fueron tratadas con diferentes fertilizantes, tipos de semillas,
insecticidas (“tratamiento” o factor).
ANOVA de un Factor
Requisitos
1. Las poblaciones tienen distribuciones que son aproximadamente normales.
2. Las poblaciones tienen la misma varianza σ2 (o la misma desviación estándar
σ).
3. Las muestras son muestras aleatorias simples de datos cuantitativos.
4. Las muestras son independientes entre sí.
5. Las diferentes muestras son de poblaciones que se encuentran categorizadas
de una sola manera.
ANOVA de un Factor
Procedimiento
Paso 1: Establezca la hipótesis nula y la hipótesis alternativa.

Paso 2: Seleccione el nivel de significancia α.

Paso 3: Obtenga resultados que incluyan el estadístico de prueba y el valor P.

Paso 4: Obtenga una conclusión con base en los siguientes criterios que usan el nivel
de significancia α:
 Rechazar la H0: Si el valor P <= α, rechace la hipótesis nula de la igualdad de
medias y concluya que al menos una de las medias poblacionales es diferente de las
demás.
 No rechazar la H0: Si el valor P > α, no rechace la hipótesis nula de la igualdad de
medias.

Paso 5. Exprese de nuevo la decisión en términos no técnicos.


ANOVA de un Factor
Prueba de Comparación Múltiple
 Cuando se concluye que hay suficiente evidencia para rechazar la afirmación de igualdad
de las medias poblacionales, no se puede concluir por ANOVA que cualquier media
particular es diferente de las demás.
 Se necesita otro método que pueda usarse para identificar las medias específicas que son
diferentes.

Prueba de Tukey
Prueba que se usa después de un resultado estadísticamente significativo para un análisis
de varianza para determinar qué medias de grupo son significativamente diferentes entre sí.

H0: µi = µj , i,j: 1, …, número de grupos, e i ≠ j

Notas
 Una prueba de comparación múltiple entre pares de medias, hace ajustes para superar el
problema de tener un nivel de significancia que aumenta a medida que se incrementa el
número de pruebas individuales.
 La frase “estadísticamente significativa” simplemente significa que los resultados de
nuestra prueba de hipótesis han permitido rechazar la hipótesis nula.
ANOVA de un Factor
ANOVA de un factor (EJEMPLO)
Afirmación
Las personas que laboran en negocios o empresas de hasta 20 personas, de 21 a 500 personas, y
de más de 500 personas trabajan un número diferente de horas a la semana en promedio, en su
ocupación principal.

Datos
Encuesta ENAHO, segundo trimestre 2020, módulo 500 Empleo.
 Pregunta p513t: ¿Cuántas horas trabajó la semana pasada, en su ocupación principal, total?
 Pregunta p512a: En su trabajo, negocio o empresa, incluyéndose ud., ¿laboraron:
ANOVA de un Factor
ANOVA de un factor (EJEMPLO)
Generación de la variable: tamaño de negocio o empresa
* variable de tamaño de negocio o empresa
label define grupo 1 "hasta 20 personas" 2 "de 21 a 500 personas" 3 "más de 500
personas"
gen tempre = p512a
replace tempre = 1 if (p512a == 1)
replace tempre = 2 if (p512a >= 2 & p512a <= 4)
replace tempre = 3 if (p512a == 5)
label var tempre "Tamaño de negocio o empresa"
label value tempre grupo

* medidas de tendencia central por tamaño de negocio o empresa


tabstat p513t, stats(mean median min max n) by (tempre)
ANOVA de un Factor
ANOVA de un factor (EJEMPLO)
Verificación de Requisitos
1. Los tres grupos de negocios o empresas parecen tener distribuciones que son
aproximadamente normales como lo indican los gráficos de probabilidad normal.

* determinación si las muestras provienen de una distribución normal


pnorm p513t if tempre == 1, title("Hasta 20 personas")
pnorm p513t if tempre == 2, title("De 21 a 500 personas")
pnorm p513t if tempre == 3, title("Más de 500 personas")

Hasta 20 personas De 21 a 500 personas Más de 500 personas


1.00

1.00

1.00
0.75

0.75

0.75
Normal F[(p513t-m)/s]

Normal F[(p513t-m)/s]

Normal F[(p513t-m)/s]
0.50

0.50

0.50
0.25

0.25

0.25
0.00

0.00

0.00
0.00 0.25 0.50 0.75 1.00 0.00 0.25 0.50 0.75 1.00 0.00 0.25 0.50 0.75 1.00
Empirical P[i] = i/(N+1) Empirical P[i] = i/(N+1) Empirical P[i] = i/(N+1)
ANOVA de un Factor
ANOVA de un factor (EJEMPLO)
Verificación de Requisitos

2. Los tres grupos tienen desviaciones estándar que no son muy diferentes, por lo que las tres
varianzas poblacionales parecen ser aproximadamente las mismas.

* medidas de dispersión
tabstat p513t, stats(range sd variance cv iqr n) by (tempre)
ANOVA de un Factor
ANOVA de un factor (EJEMPLO)
Verificación de Requisitos
3. Con base en el diseño de la ENAHO, podemos tratar las muestras como muestras aleatorias
simples
4. Las muestras son independientes entre sí; el número de horas trabajadas a la semana en
promedio, en su ocupación principal no se corresponden de ninguna manera.
5. Las tres muestras son de poblaciones categorizadas de acuerdo con el número de personas
que laboran en el negocio o empresa (hasta 20 personas, de 21 a 500 personas, y más de 500
personas).

Los requisitos se satisfacen.


ANOVA de un Factor
ANOVA de un factor (EJEMPLO)
Procedimiento

Paso 1
Ho: µ1 = µ2 = µ3
Ha: Al menos una de las medias es diferente de las demás.

Donde:
µ1 Número de horas trabajadas a la semana en promedio, por personas que laboran en
negocios o empresas de hasta 20 personas.
µ2 Número de horas trabajadas a la semana en promedio, por personas que laboran en
negocios o empresas de 21 a 500 personas.
µ3 Número de horas trabajadas a la semana en promedio, por personas que laboran en
negocios o empresas de más de 500 personas.

Paso 2
α = 0.05
ANOVA de un Factor
ANOVA de un factor (EJEMPLO)
Procedimiento

Paso 3
* análisis de varianza de un factor
oneway p513t tempre

Valor P

Valor P

Adicionalmente, se muestra el resultado de una prueba de hipótesis para varianzas iguales


en los tres grupos (llamada "prueba de Bartlett para varianzas iguales").
El valor P alto de esta prueba permite asumir que las varianzas de los grupos son iguales.
ANOVA de un Factor
ANOVA de un factor (EJEMPLO)
Procedimiento

Paso 4
Debido a que el valor P de 0.0000 es menor que el nivel de significancia α = 0.05,
rechazamos la hipótesis nula.

Paso 5
Concluimos que hay suficiente evidencia para respaldar la afirmación de que las personas
que laboran en negocios o empresas de hasta 20 personas, de 21 a 500 personas, y de más
de 500 personas trabajan un número diferente de horas a la semana en promedio, en su
ocupación principal.
ANOVA de un Factor
ANOVA de un factor (EJEMPLO)
Prueba de Comparación Múltiple

* identificación del grupo con media diferente a los demás


pwmean p513t, over(tempre) mcompare (tukey) effects

Valor P

Los tres pares de comparaciones son significativamente diferentes entre sí.


ANOVA de un Factor
ANOVA de un factor (Comandos en Stata)

Análisis de varianza de un factor


oneway variable_dependiente variable_independente [, tabulate]

Identificación del grupo con media diferente a los demás


pwmean variable_dependiente, over(variable_independente)
mcompare (tukey) effects
ANOVA de dos Factores
ANOVA de dos Factores
Ejemplos de Contexto
Ejemplo 1
Se desea saber si existen diferencias en los ingresos entre varios grupos raciales /
étnicos.
Ejemplo 2
Se desea saber si los grupos religiosos varían en la cantidad de hijos que tienen.

Características de los ejemplos


1. Hay dos variables: variable independiente (VI) y variable dependiente (VD).
Ejemplo 1: VI: grupo racial / étnico, VD: ingreso.
Ejemplo 2: VI: grupo religioso, VD: cantidad de hijos.
2. La variable independiente tiene más de dos categorías.
3. La variable dependiente es cuantitativa (discreta o continua) o cualitativa ordinal.
4. Se quiere medir un posible efecto de la variable independiente sobre la variable
dependiente.
Ejemplo 1: ingreso = efecto(grupo racial / étnico)
Ejemplo 2: cantidad de hijos = efecto(grupo religioso)
ANOVA de dos Factores
Definición
Existe una interacción entre dos factores si el efecto de uno de ellos cambia para
diferentes categorías del otro factor.

El ANOVA de dos factores compara las diferencias de las medias de los grupos
en que se han dividido en dos variables independientes (llamadas factores). El
propósito principal de un ANOVA bidireccional es comprender si existe una
interacción entre las dos variables independientes en la variable dependiente.
ANOVA de dos Factores
Requisitos
1. Normalidad. Para cada celda, los valores muestrales provienen de una
población con una distribución que es aproximadamente normal.
2. Variación. Las poblaciones tienen la misma varianza σ2 (o desviación
estándar σ).
3. Muestreo. Las muestras son muestras aleatorias simples de datos
cuantitativos.
4. Independencia. Las muestras son independientes entre sí.
5. Bifactorial. Los valores muestrales se clasifican de dos maneras.
6. Diseño equilibrado. Todas las celdas tienen el mismo número de valores
muestrales.
ANOVA de dos Factores
Procedimiento
Paso 1: Efecto de interacción
Probar la hipótesis nula de que no hay interacción entre los dos factores

Paso 2: Seleccione el nivel de significancia α.

Paso 3: Obtenga resultados que incluyan el estadístico de prueba y el valor P.

Paso 4: Obtenga una conclusión con base en los siguientes criterios que usan el nivel
de significancia α:

 Rechazar la H0: Si el valor P <= α, rechace la hipótesis nula de no interacción.


Concluya que hay un efecto de interacción.
 No rechazar la H0: Si el valor P > α, no se puede rechazar la hipótesis nula de que
no hay interacción entre los dos factores. Concluya que no hay efecto de interacción.
ANOVA de dos Factores
Procedimiento
Paso 5: Efectos de fila / columna
 Si concluimos que hay un efecto de interacción, entonces debemos detenernos
ahora; no deberíamos continuar con las dos pruebas adicionales. (Si hay una
interacción entre factores, no deberíamos considerar los efectos de ninguno de
los factores sin tener en cuenta los del otro).
 Si concluimos que no hay efecto de interacción, entonces debemos proceder
con las siguientes dos pruebas de hipótesis.
ANOVA de dos Factores
Procedimiento
Factor de fila
Para el factor de fila, pruebe la hipótesis nula H0: no hay efectos del factor de fila
(es decir, los valores de fila son de poblaciones con la misma media).

Conclusión
1. Rechazar H0: Si el valor P <= α, rechace la hipótesis nula de no efecto del
factor de fila. Concluya que hay un efecto del factor de fila.
2. No rechazar H0: Si el valor P > α, no se puede rechazar la hipótesis nula de
que no hay efecto del factor de fila. Concluya que no hay efecto del factor de
fila.
ANOVA de dos Factores
Procedimiento
Factor de columna
Para el factor de columna, pruebe la hipótesis nula H0: No hay efectos del factor
de columna (es decir, los valores de columna provienen de poblaciones con la
misma media).

Conclusión
1. Rechazar H0: Si el valor P <= α, rechace la hipótesis nula de no efecto del
factor de columna. Concluya que hay un efecto del factor de columna.
2. No rechazar H0: Si el valor P > α, no se puede rechazar la hipótesis nula de no
efecto del factor de columna. Concluya que no hay efecto del factor de
columna.
ANOVA de dos Factores
ANOVA de dos factores (EJEMPLO)
Afirmación
El número de horas trabajadas a la semana en promedio, en su ocupación
principal, se ve influenciado por los efectos combinados del tamaño del
negocio o empresa donde laboran las personas y su edad.

Datos
Encuesta ENAHO, segundo trimestre 2020, módulo 500 Empleo.
 Pregunta p513t: ¿Cuántas horas trabajó la semana pasada, en su
ocupación principal, total?
 Pregunta p512a: En su trabajo, negocio o empresa, incluyéndose ud.,
¿laboraron:
 Pregunta p208a: ¿Qué edad tienen en años cumplidos?
ANOVA de dos Factores
ANOVA de dos factores (EJEMPLO)
Generación de la variables: tamaño de negocio o empresa y rango de edad
* variable de tamaño de negocio o empresa
label define grupo 1 "hasta 20 personas" 2 "de 21 a 500 personas" 3 "más de 500
personas"
gen tempre = p512a
replace tempre = 1 if (p512a == 1)
replace tempre = 2 if (p512a >= 2 & p512a <= 4)
replace tempre = 3 if (p512a == 5)
label var tempre "Tamaño de negocio o empresa"
label value tempre grupo

* variable de grupos de edad


label define grupo2 1 "14 a 24 años" 2 "25 a 44 años"
gen gedad=(p208a <= 24)
replace gedad=2 if (gedad == 0)
label var gedad "Grupo de edad"
label value gedad grupo2
ANOVA de dos Factores
ANOVA de dos factores (EJEMPLO)
Verificación de Requisitos
1. Los seis grupos parecen tener distribuciones que son aproximadamente normales como lo
indican los gráficos de probabilidad normal.
* determinación si las muestras provienen de una distribución normal
pnorm p513t if tempre == 1 & gedad == 1, title("Hasta 20 personas y de 14 a 24 años")
pnorm p513t if tempre == 1 & gedad == 2, title("Hasta 20 personas y de 25 a 44 años")
pnorm p513t if tempre == 2 & gedad == 1, title("de 21 a 500 personas y de 14 a 24 años")
pnorm p513t if tempre == 2 & gedad == 2, title("de 21 a 500 personas y de 25 a 44 años")
pnorm p513t if tempre == 3 & gedad == 1, title("más de 500 personas y de 14 a 24 años")
pnorm p513t if tempre == 3 & gedad == 2, title("más de 500 personas y de 25 a 44 años")

Hasta 20 personas y de 14 a 24 años de 21 a 500 personas y de 14 a 24 años más de 500 personas y de 14 a 24 años
1.00

1.00

1.00
0.75

0.75

0.75
Normal F[(p513t-m)/s]

Normal F[(p513t-m)/s]

Normal F[(p513t-m)/s]
0.50

0.50

0.50
0.25

0.25

0.25
0.00

0.00

0.00
0.00 0.25 0.50 0.75 1.00 0.00 0.25 0.50 0.75 1.00 0.00 0.25 0.50 0.75 1.00
Empirical P[i] = i/(N+1) Empirical P[i] = i/(N+1) Empirical P[i] = i/(N+1)

Hasta 20 personas y de 25 a 44 años de 21 a 500 personas y de 25 a 44 años más de 500 personas y de 25 a 44 años
1.00

1.00

1.00
0.75

0.75

0.75
Normal F[(p513t-m)/s]

Normal F[(p513t-m)/s]

Normal F[(p513t-m)/s]
0.50

0.50

0.50
0.25

0.25

0.25
0.00

0.00

0.00

0.00 0.25 0.50 0.75 1.00 0.00 0.25 0.50 0.75 1.00 0.00 0.25 0.50 0.75 1.00
Empirical P[i] = i/(N+1) Empirical P[i] = i/(N+1) Empirical P[i] = i/(N+1)
ANOVA de dos Factores
ANOVA de dos factores (EJEMPLO)
Verificación de Requisitos
2. Los seis grupos tienen desviaciones estándar que no son muy diferentes, por lo que las seis
varianzas poblacionales parecen ser aproximadamente las mismas.

3. Las muestras son muestras aleatorias simples de personas.


4. Las muestras son independientes entre sí; las personas no están relacionadas de ninguna
manera.
5. Los valores muestrales se categorizan de dos maneras (tamaño del negocio o empresa, y grupo
de edad)
6. Todas las celdas tienen el mismo número (46) de valores muestrales.

Los requisitos se satisfacen.


ANOVA de dos Factores
ANOVA de dos factores (EJEMPLO)
Procedimiento

Paso 1
Ho: (αβ)ij = 0, ∀i, ∀j
Ha: Al menos una interacción es diferente de las demás.

Donde:
αβ Interacción entre el tamaño del negocio o empresa, y el grupo de edad.
i Personas que laboran en negocios o empresas de hasta 20 personas (1), de 21 a 500
personas (2) y de más de 500 personas (3).
j Personas cuya edad es 14 a 24 años (1) y 25 a 44 años (2).

Paso 2
α = 0.05
ANOVA de dos Factores
ANOVA de dos factores (EJEMPLO)
Procedimiento

Paso 3
* análisis de varianza de dos factores
anova p513t tempre##gedad

Efecto fila
Efecto columna
Interacción
ANOVA de dos Factores
ANOVA de dos factores (EJEMPLO)
Procedimiento

Paso 4

Debido a que el valor P de 0.8079 es mayor que el nivel de significancia α = 0.05, no


rechazamos la hipótesis nula.

Concluimos que no hay evidencia suficiente para respaldar la afirmación de que el número
de horas trabajadas a la semana en promedio, en la ocupación principal de las personas se
vean afectadas por una interacción entre el grupo de edad y el tamaño del negocio o
empresa donde labora. No parece haber un efecto de interacción.
ANOVA de dos Factores
ANOVA de dos factores (EJEMPLO)
Procedimiento

Como la evidencia muestra que no hay efecto de interacción, entonces debemos proceder
con las siguientes dos pruebas de hipótesis:

Paso 5

Factor de fila (tamaño del negocio o empresa donde labora)


H0: No hay efectos del factor de fila (es decir, los valores de fila son de poblaciones con las
mismas medias).

Debido a que el valor P de 0.0000 es menor que el nivel de significancia α = 0.05,


rechazamos la hipótesis nula.

Concluimos que hay evidencia suficiente para respaldar la afirmación de que existen efectos
del tamaño del negocio o empresa donde labora la persona en el número de horas
trabajadas a la semana en promedio, en la ocupación principal de las personas
ANOVA de dos Factores
ANOVA de dos factores (EJEMPLO)
Procedimiento

Paso 5

Factor de Columna (rango de edad)


H0: No hay efectos del factor de columna (es decir, los valores de columna son de
poblaciones con las mismas medias).

Debido a que el valor P de 0.1351 es mayor que el nivel de significancia α = 0.05, no


rechazamos la hipótesis nula.

Concluimos que no hay evidencia suficiente para respaldar la afirmación de que existen
efectos de la edad de la persona en el número de horas trabajadas a la semana en
promedio, en su ocupación principal.
ANOVA de dos Factores
ANOVA de un factor (Comandos en Stata)

Análisis de varianza de dos factores


anova variable_dependiente factor_fila##factor_columna
COMUNICACIÓN PERMANENTE CON LA ESCUELA

Correo de la Escuela del INEI


enei@inei.gob.pe

Área de Campus Virtual


Campus.virtual@inei.gob.pe

Para poder atenderte mejor puedes contactarnos al 433-3127 anexo 102-103 o


escribirnos a: enei@inei.gob.pe

Pasaje Hernán Velarde 285 Lima (Altura cuadra 1 y 2 de la Av Arequipa)

También podría gustarte