Conceptos para Interpretar ANOVA

Conceptos clave para el análisis de varianza de
ANOVA de un solo factor
1. N
El tamaño de la muestra (N) es el número total de observaciones en cada grupo.
El tamaño de la muestra afecta el intervalo de confianza y la potencia de la prueba.

Generalmente, una muestra más grande produce un intervalo de confianza más
estrecho. Con un tamaño de muestra más grande, la prueba también tendrá más
potencia para detectar una diferencia.
2. Media
La media describe cada grupo con un valor simple que identifique el centro de los
datos. Es la suma de todas las observaciones con un grupo dividida entre el número de
observaciones en ese grupo.
La media de cada muestra proporciona una estimación de la media de cada población.

Las diferencias entre las medias de muestra son las estimaciones de las diferencias
entre las medias de población.
Debido a que cada diferencia en las medias de los grupos se basa en los datos de una
muestra y no de toda la población, no se puede estar seguro de que sea igual a la
diferencia en las poblaciones. Para obtener un mejor sentido de la diferencia
poblacional, puede utilizar el intervalo de confianza.
3. Desviación estándar (S)
S representa la desviación estándar de la distancia entre los valores de datos y los

valores ajustados. S se mide en las unidades de la respuesta.
Utilice S para evaluar qué tan bien el modelo describe la respuesta. S se mide en las
unidades de la variable de respuesta y representa la distancia que separa a los valores
de los datos de los valores ajustados. Mientras más bajo sea el valor de S, mejor será
descrita la respuesta por el modelo. Sin embargo, un valor de S bajo no indica por sí
solo que el modelo cumple con los supuestos del modelo. Debe examinar las gráficas
de residuos para verificar los supuestos.
La desviación estándar es la medida de dispersión más común, que indica qué tan
dispersos están los datos con respecto a la media. El símbolo σ (sigma) suele utilizarse
para representar la desviación estándar de una población. El símbolo s se utiliza para
representar la desviación estándar de una muestra.
Profesora Patricia Castro Ch.

Investigación de mercados, primer semestre 2019
La desviación estándar utiliza las mismas unidades que la variable. Un valor de
desviación estándar más alto indica una mayor dispersión de los datos. Una buena
regla general para una distribución normal es como sigue:
 Aproximadamente un 68 % de los valores caen en una desviación estándar de

la media.
 un 95 % de los valores caen en dos desviaciones estándar.
 un 99.7 % de los valores caen en tres desviaciones estándar.
La desviación estándar de la muestra de un grupo es una estimación de la desviación

estándar de la población de ese grupo. Las desviaciones estándar se utilizan para
calcular los intervalos de confianza y los valores p. Las desviaciones estándar de la
muestra dan como resultado intervalos de confianza menos precisos (más amplios) y
baja potencia estadística.
4. Intervalo de confianza de las medias de grupo (IC de 95%)
Estos intervalos de confianza (IC) son rangos de valores que probablemente contienen
la media real de cada población. Los intervalos de confianza se calculan usando la
desviación estándar agrupada.
Puesto que las muestras son aleatorias, es poco probable que dos muestras de una
población produzcan intervalos de confianza idénticos. Sin embargo, si se repite la
muestra muchas veces, un determinado porcentaje de los intervalos de confianza
resultantes incluirá el parámetro de población desconocido. El porcentaje de estos
intervalos de confianza que contiene el parámetro es el nivel de confianza del
intervalo.
El intervalo de confianza consta de las dos partes siguientes:
a) Estimación de punto
La estimación de punto es la estimación del parámetro que se calcula a partir de los

datos de la muestra. El intervalo de confianza está centrado alrededor de este valor.
b) Margen de error
El margen de error define la amplitud del intervalo de confianza y es determinado por

la variabilidad observada en la muestra, el tamaño de la muestra y el nivel de
confianza. Para calcular el límite superior del intervalo de confianza, el margen de error
se suma a la estimación de punto. Para calcular el límite inferior del intervalo de
confianza, el margen de error se resta de la estimación de punto.
Utilice el intervalo de confianza para evaluar la estimación de la media de la población

para cada grupo.
Por ejemplo, con un nivel de confianza de 95%, usted puede estar 95% seguro de que
el intervalo de confianza contiene la media del grupo. El intervalo de confianza ayuda a
evaluar la significancia práctica de los resultados. Utilice su conocimiento especializado
para determinar si el intervalo de confianza incluye valores que tienen significancia
práctica para su situación. Si el intervalo es demasiado amplio para ser útil, considere
aumentar el tamaño de la muestra.

c) Medias
En estos resultados, cada mezcla tiene un intervalo de confianza para su dureza

media. Los resultados de las comparaciones múltiples de estos datos muestran que la
Mezcla 4 es significativamente más dura que la Mezcla 2. Que la Mezcla 4 sea más
dura que la Mezcla 2 no demuestra que la mezcla 4 sea lo suficientemente dura para el
uso previsto de la pintura. El intervalo de confianza para la media de grupo es mejor
para juzgar si la Mezcla 4 es lo suficientemente dura.
5. Desv. Est. agrupada
La desviación estándar agrupada es un estimado de la desviación estándar común para

todos los niveles. La desviación estándar agrupada es la desviación estándar de todos
los puntos de los datos alrededor de la media del grupo (no de la media general).
Grupos más grandes tienen una influencia proporcionalmente mayor en la estimación
general de la desviación estándar agrupada.
Un valor de desviación estándar más alto indica una mayor dispersión de los datos. Un
valor más alto produce intervalos de confianza menos precisos (más amplios) y baja
potencia estadística.
Ejemplo de una desviación estándar agrupada
Supongamos que su estudio tiene los cuatro grupos, tal como se muestra en la tabla
siguiente:

Los primeros tres grupos tienen el mismo tamaño (n=50) con desviaciones estándar
de aproximadamente 3. El cuarto grupo es mucho más grande (n=200) y tiene una
desviación estándar mayor (6.8). Puesto que la desviación estándar agrupada utiliza
un promedio ponderado, su valor (5.488) está más cerca de la desviación estándar del
grupo más grande.
6. Grados de libertad
Los grados de libertad (GL) son la cantidad de información suministrada por los datos
que usted puede "gastar" para estimar los valores de parámetros de población
desconocidos y calcular la variabilidad de esas estimaciones. Este valor se determina
según el número de observaciones de la muestra y el número de parámetros del
modelo.
Si incrementa el tamaño de la muestra, obtendrá más información sobre la población

y, por consiguiente, los grados de libertad de los datos aumentarán. Si agrega
parámetros al modelo (por ejemplo, aumentando el número de términos en una
ecuación de regresión), "gastará" información de los datos y reducirá los grados de
libertad disponibles para estimar la variabilidad de las estimaciones de parámetros.
Los grados de libertad también se utilizan para caracterizar una distribución específica.
Muchas familias de distribuciones, como t, F o chi-cuadrada, utilizan los grados de
libertad para especificar cuál distribución t, F o chi-cuadrada específica es apropiada
para diferentes tamaños de muestra y diferentes números de parámetros del modelo.
Por ejemplo, la siguiente figura muestra las diferencias entre distribuciones de chi-
cuadrada con diferentes grados de libertad.
7. Contribución
La contribución muestra el porcentaje con el que cada fuente en la tabla Análisis de

varianza contribuye a las sumas de cuadrados secuenciales totales (SC Sec.).
Interpretación
Porcentajes mayores indican que la fuente representa más de la variación en la

respuesta.

8. Sumas ajustadas de los cuadrados
El R2 es el porcentaje de variación en la respuesta que es explicada por el modelo. Se

calcula como 1 menos la relación de la suma de los cuadrados del error (que es la
variación que no es explicada por el modelo) a la suma total de los cuadrados (que es
la variación total en el modelo).
Interpretación
Utilice el R2 para determinar qué tan bien se ajusta el modelo a los datos Mientras
mayor sea el valor de R2, mejor se ajustará el modelo a los datos. El R2 siempre está
entre 0% y 100%.
Considere los siguientes problemas cuando interprete el valor R2:
El R2 siempre se incrementa cuando usted agrega predictores adicionales a un modelo.

Por ejemplo, el mejor modelo de cinco predictores siempre tendrá un R2 que será al
menos tan alto como el mejor modelo de cuatro predictores. Por lo tanto, el R2 es más
útil cuando se comparan modelos del mismo tamaño.
Las muestras pequeñas no proporcionan una estimación precisa de la fuerza de la

relación entre la respuesta y los predictores. Si necesita que el R2 sea más preciso,
debe utilizar una muestra más grande (generalmente, 40 o más).
El R2 es solo una medida de qué tan bien el modelo se ajusta a los datos. Incluso
cuando un modelo tenga un R2 alto, usted deberá revisar las gráficas de residuos para
verificar que el modelo cumpla con los supuestos del modelo.
9. Cuadrados medios ajustados
R-cuad.(ajustado)
El R2 ajustado es el porcentaje de la variación en la respuesta que es explicada por el

modelo, ajustado para el número de predictores en el modelo relativo al número de
observaciones. El R2 ajustado se calcula como 1 menos la relación del cuadrado medio
del error (MSE) con el cuadrado medio total (CM Total).
Utilice el R2 ajustado cuando desee comparar modelos que tengan diferentes números
de predictores. El R2 siempre aumenta cuando se agrega un predictor al modelo,
incluso cuando no haya una mejora real en el modelo. El valor de R2 ajustado
incorpora el número de predictores del modelo para ayudar a elegir el modelo correcto.
10.Valor F
En la tabla Análisis de varianza aparece un valor F para cada término:
Valor F para el modelo o los términos
El valor F es la estadística de prueba usada para determinar si el término está asociado

con la respuesta.

Valor F para la prueba de falta de ajuste
El valor F es la estadística de prueba usada para determinar si al modelo le están

faltando los términos de orden superior que incluyan los predictores en el modelo
actual.
Interpretación
Un valor F suficientemente grande indica que el término o el modelo es significativo.
Si desea usar el valor F para determinar si puede rechazar la hipótesis nula, compare
el valor F con su valor crítico.
11.Valor p
El valor p es una probabilidad que mide la evidencia en contra de la hipótesis nula. Las
probabilidades más bajas proporcionan una evidencia más fuerte en contra de la
hipótesis nula.
Interpretación
Utilice el valor p indicado en la salida del ANOVA para determinar si las diferencias
entre algunas de las medias son estadísticamente significativas.
Para determinar si cualquiera de las diferencias entre las medias es estadísticamente

significativa, compare el valor p con el nivel de significancia para evaluar la hipótesis
nula. La hipótesis nula indica que las medias de población son todas iguales. Por lo
general, un nivel de significancia (denotado como α o alfa) de 0.05 funciona
adecuadamente. Un nivel de significancia de 0.05 indica un riesgo de 5% de concluir
que existe una diferencia cuando no hay una diferencia real.
 Valor p ≤ α: Las diferencias entre algunas de las medias son estadísticamente

significativas
Si el valor p es menor que o igual al nivel de significancia, usted rechaza la hipótesis

nula y concluye que no todas las medias de población son iguales. Utilice su
conocimiento especializado para determinar si las diferencias son significativas desde
el punto de vista práctico. Para obtener más información, vaya a Significancia
estadística y práctica.
 Valor p > α: Las diferencias entre las medias no son estadísticamente

significativas
Si el valor p es mayor que el nivel de significancia, usted no cuenta con suficiente

evidencia para rechazar la hipótesis de que las medias de población son todas iguales.
Verifique que la prueba tenga suficiente potencia para detectar una diferencia que sea
significativa desde el punto de vista práctico. Para obtener más información, vaya a
Aumentar la potencia de una prueba de hipótesis.

12.Valor p ajustado
El valor p ajustado indica cuales pares dentro de una familia de comparaciones son
significativamente diferentes. El ajuste limita la tasa de error por familia al nivel de
significancia que usted especifique. Si usted utiliza un valor p regular para
comparaciones múltiples, la tasa de error por familia aumenta con cada comparación
adicional.
Es importante considerar la tasa de error por familia al realizar comparaciones

múltiples, porque las probabilidades de cometer un error de tipo I para una serie de
comparaciones son mayores que la tasa de error para una comparación individual.
Interpretación
Si el valor p ajustado es menor que alfa, rechace la hipótesis nula y concluya que la
diferencia entre las medias de un par de grupo es estadísticamente significativa. El
valor p ajustado también representa la menor tasa de error por familia en la cual se
rechaza una hipótesis nula en particular.
13.R-cuad.(pred)
El R2 pronosticado se calcula con una fórmula que equivale a eliminar

sistemáticamente cada una de las observaciones del conjunto de datos, estimando la
ecuación de regresión y determinando hasta qué punto el modelo predice la
observación eliminada. El valor del R2 de predicción varía entre 0 y 100 %.
Interpretación
Utilice el R2 pronosticado para determinar qué tan bien el modelo predice la respuesta
para nuevas observaciones. Los modelos que tienen valores más grandes de R2
pronosticado tienen mejor capacidad de predicción.
Un R2 pronosticado que sea sustancialmente menor que el R2 puede indicar que el

modelo está sobreajustado. Un modelo sobreajustado se produce cuando se agregan
términos para efectos que no son importantes en la población. El modelo se adapta a
los datos de la muestra y, por lo tanto, es posible que no sea útil para hacer
predicciones acerca de la población.
El R2 pronosticado también puede ser más útil que el R2 ajustado para comparar
modelos, porque se calcula con observaciones que no se incluyen en el cálculo del
modelo.
Por ejemplo, un analista de una consultora financiera desarrolla un modelo para

predecir condiciones de mercado futuras. El modelo luce prometedor porque tiene un

R2 de 87%. Sin embargo, el R2 pronosticado es solamente de 52%, lo cual indica que
el modelo puede estar sobreajustado.
14. Pruebas individuales de Fisher para las diferencias de las medias
Use los intervalos de confianza individuales para identificar las diferencias

estadísticamente significativas entre las medias de grupo, para determinar los posibles
rangos de las diferencias y para determinar si las diferencias son significativas desde el
punto de vista práctico. La tabla Pruebas individuales de Fisher muestra un conjunto
de intervalos de confianza para la diferencia entre los pares de medias.
El nivel de confianza individual es el porcentaje de veces que un solo intervalo de

confianza incluye la diferencia real entre un par de medias de grupo, cuando se repite
el estudio. Los intervalos de confianza individuales solo están disponibles para el
método de Fisher. Todos los otros métodos de comparación producen intervalos de
confianza simultáneos.
Controlar el nivel de confianza individual es poco común, porque no se controla el nivel

de confianza simultáneo, que suele incrementarse hasta niveles inaceptables. Si no se
controla el nivel de confianza simultáneo, la probabilidad de que al menos un intervalo
de confianza no contenga la diferencia real aumenta con el número de comparaciones.
El intervalo de confianza de la diferencia consta de las dos partes siguientes:
 Estimación de punto
La estimación de punto es la diferencia entre un par de medias y se calcula a
partir de los datos de la muestra. El intervalo de confianza se centra en este
valor.
 Margen de error
El margen de error define la amplitud del intervalo de confianza y es
determinado por la variabilidad observada en la muestra y el nivel de confianza.
Para calcular el límite superior del intervalo de confianza, el margen de error se
suma a la estimación de punto. Para calcular el límite inferior del intervalo de
confianza, el margen de error se resta de la estimación de punto.
 Interpretación
Use los intervalos de confianza para evaluar las diferencias entre medias de
grupo.

Ejemplo:
15.Hipótesis nula e hipótesis alternativa
ANOVA de un solo factor es una prueba de hipótesis que evalúa dos enunciados
exclusivos acerca de dos o más medias de población. Estos dos enunciados se
denominan hipótesis nula e hipótesis alternativa. Una prueba de hipótesis utiliza los
datos de la muestra para determinar si se puede rechazar la hipótesis nula.
Para ANOVA de un solo factor, las hipótesis de la prueba son las siguientes:
 La hipótesis nula (H0) es que no todas las medias grupales son iguales.
 La hipótesis alternativa (HA) es que no todas las medias grupales son iguales.

Interpretación
Compare el valor p con el nivel de significancia para determinar si rechaza la hipótesis

nula.
16.Nivel de significancia
El nivel de significancia (denotado por alfa o α) es el nivel máximo aceptable de riesgo

de rechazar la hipótesis nula cuando la hipótesis nula es verdadera (error tipo I).
Interpretación
Utilice el nivel de significancia para decidir si rechaza o no rechaza la hipótesis nula

(H0). Cuando el valor p es menor que el nivel de significancia, la interpretación habitual
es que los resultados son estadísticamente significativos y usted rechaza H0.
En cuanto a ANOVA de un solo factor, usted rechaza la hipótesis nula cuando hay
suficiente evidencia para concluir que no todas las medias son iguales.
17.Valor t
El valor t es un estadístico de prueba que mide la relación entre la diferencia en las

medias y el error estándar de la diferencia.
Interpretación
Usted puede utilizar el valor t para determinar si puede rechazar la hipótesis nula, que
indica que la diferencia en las medias es 0. Sin embargo, la mayoría de las personas
utiliza el valor p, porque es más fácil de interpretar.
18.Coeficiete de correlación de Pearson
El Coeficiente de Correlación de Pearson es una medida de la correspondencia

o relación lineal entre dos variables cuantitativas aleatorias. En palabras más
simples se puede definir como un índice utilizado para medir el grado de
relación que tienen dos variables, ambas cuantitativas.

Teniendo dos variables, la correlación facilita que se hagan estimaciones del valor de
una de ellas, con conocimiento del valor de la otra variable.
Este coeficiente es una medida que indica la situación relativa de los sucesos respecto
a las dos variables, es decir, representa la expresión numérica que indica el grado de
correspondencia o relación que existe entre las 2 variables. Estos números varían entre
límites de +1 y -1.
¿Cómo se calcula?
Para contar con una guía que permita:
 Establecer la variación contigua de las dos variables

 Comparar los distintos casos entre sí
Para ello se hace uso del coeficiente de correlación de Pearson, definido como la
covarianza que se da entre dos variables tipificadas y se calcula con la siguiente
expresión:
¿Cómo ese interpreta el coeficiente de correlación de Pearson?
Su dimensión indica el nivel de asociación entre las variables.
Cuando es menor a cero (r < 0) Se dice que hay correlación negativa: Las
variables se correlacionan en un sentido inverso.
A valores altos en una de las variables, le suelen corresponder valores bajos en

la otra variable y viceversa. Cuánto el valor esté más próximo a -1 dicho
coeficiente de correlación más evidente será la covariación extrema.
Si r= -1 se habla de correlación negativa perfecta, la cual supone una

determinación absoluta entre ambas variables, en sentido directo coexiste una
relación lineal perfecta de pendiente negativa.
Cuando es mayor a cero (r > 0) Se dice que hay correlación positiva: Ambas
variables se correlacionan en un sentido directo.
A valores altos en una de las variables, le corresponden valores altos en la otra

variable e igualmente en una situación inversa sucede con los valores bajos.

Cuánto más próximo a +1 se encuentre el coeficiente de correlación más
evidente será la covariación.
Si r = 1 Se habla de correlación positiva perfecta, la cual supone una

determinación absoluta entre las variables, en sentido directo coexiste una
relación lineal perfecta de pendiente positiva).
Cuando es igual a cero (r = 0) Se dice que las variables están incorrectamente

relacionadas, no puede es posible establecer algún sentido de covariación.
No existe relación lineal, pero esto no implica necesariamente que las variables
sean independientes, pudiendo existir relaciones no lineales entre las variables.
Cuando las dos variables son independientes se dice que no están

correlacionadas, aunque el resultado de reciprocidad no es necesariamente
cierto.
Para concluir se puede decir que se ve más difícil de lo que resulta ser, sobre
todo si se cuenta con tecnología avanzada, pues hoy día existen múltiples
programas que facilitan esta labor de cálculo e interpretación del coeficiente de
Pearson.
18. Chi cuadrado
Una prueba de chi-cuadrada es una prueba de hipótesis que compara la

distribución observada de los datos con una distribución esperada de los datos.
Existen varios tipos de pruebas de chi-cuadrada:
 Prueba de bondad de ajuste de chi-cuadrada
Utilice este análisis para probar qué tan bien una muestra de datos categóricos
se ajusta a una distribución teórica.
Por ejemplo, usted puede comprobar si un dado es justo, lanzando el dado

muchas veces y utilizando una prueba de bondad de ajuste de chi-cuadrada
para determinar si los resultados siguen una distribución uniforme. En este
caso, el estadístico de chi-cuadrada cuantifica qué tanto varía la distribución
observada de los conteos con respecto a la distribución hipotética.

 Pruebas de chi-cuadrada de asociación e independencia
Los cálculos para estas pruebas son iguales, pero la pregunta que se está
tratando de contestar puede ser diferente.
 Prueba de asociación: Utilice una prueba de asociación para determinar

si una variable está asociada a otra variable. Por ejemplo, determine si
las ventas de diferentes colores de automóviles dependen de la ciudad
donde se venden.
 Prueba de independencia: Utilice una prueba de independencia para
determinar si el valor observado de una variable depende del valor
observado de otra variable. Por ejemplo, determine si el hecho de que
una persona vote por un candidato no depende del sexo del elector.
19.ANOVA
Un análisis de varianza (ANOVA) prueba la hipótesis de que las medias de dos o más
poblaciones son iguales. Los ANOVA evalúan la importancia de uno o más factores al
comparar las medias de la variable de respuesta en los diferentes niveles de los
factores. La hipótesis nula establece que todas las medias de la población (medias de
los niveles de los factores) son iguales mientras que la hipótesis alternativa establece
que al menos una es diferente.
Para ejecutar un ANOVA, debe tener una variable de respuesta continua y al menos un
factor categórico con dos o más niveles. Los análisis ANOVA requieren datos de
poblaciones que sigan una distribución aproximadamente normal con varianzas iguales
entre los niveles de factores. Sin embargo, los procedimientos de ANOVA funcionan
bastante bien incluso cuando se viola el supuesto de normalidad, a menos que una o
más de las distribuciones sean muy asimétricas o si las varianzas son bastante
diferentes. Las transformaciones del conjunto de datos original pueden corregir estas
violaciones.
Por ejemplo, usted diseña un experimento para evaluar la durabilidad de cuatro

productos de alfombra experimentales. Usted coloca una muestra de cada tipo de
alfombra en diez hogares y mide la durabilidad después de 60 días. Debido a que está
examinando un factor (tipo de alfombra), usted utiliza un ANOVA de un solo factor.

Si el valor p es menor que el nivel de significancia, entonces usted concluye que al
menos una media de durabilidad es diferente. Para información más detallada sobre
las diferencias entre medias específicas, utilice un método de comparaciones múltiples
como el de Tukey.
El nombre "análisis de varianza" se basa en el enfoque en el cual el procedimiento

utiliza las varianzas para determinar si las medias son diferentes. El procedimiento
funciona comparando la varianza entre las medias de los grupos y la varianza dentro
de los grupos como una manera de determinar si los grupos son todos parte de una
población más grande o poblaciones separadas con características diferentes.
20.Modelo lineal general
para determinar si las medias de dos o más grupos son diferentes. Puede incluir
factores aleatorios, covariables o una combinación de factores cruzados y anidados.
También puede usar la regresión escalonada como ayuda para determinar el modelo.
Luego podrá usar el modelo para predecir los valores de nuevas observaciones,
identificar la combinación de valores predictores que en conjunto optimicen uno o más
valores ajustados y crear gráficas de superficie, gráficas de contorno y gráficas
factoriales.
NOTA
Para un modelo con factores aleatorios, normalmente se utiliza Ajustar modelo de

efectos mixtos para poder usar el método de estimación de máxima verosimilitud
restringida (REML).
El GLM es un procedimiento ANOVA en el cual los cálculos se realizan utilizando un

enfoque de regresión de mínimos cuadrados para describir la relación estadística entre
uno o más predictores y una variable de respuesta continua. Los predictores pueden
ser factores y covariables. El GLM codifica los niveles de los factores como variables
indicadoras usando un esquema de codificación 1, 0, - 1, aunque usted puede
cambiarlo por un esquema de codificación binario (0, 1). Los factores pueden ser
cruzados o anidados, fijos o aleatorios. Las covariables pueden estar cruzadas entre sí
o cruzadas con factores, o pueden estar anidadas dentro de factores. El diseño puede
ser balanceado o no balanceado. El GLM puede realizar comparaciones múltiples entre
las medias de los niveles de los factores para hallar diferencias significativas.

EJEMPLO DE MODELO LINEAL GENERAL
Puesto que los valores p son menores que cualquier nivel de significancia razonable,
existe evidencia de que los dos predictores y su interacción ejercen un efecto
significativo sobre la resistencia. Además, el modelo explica el 99.73% de la varianza.
El coeficiente de la covariable, temperatura, indica que la resistencia media aumenta
en 83.87 unidades por cada incremento de un grado en la temperatura cuando todos
los demás predictores se mantienen constantes. Para el factor aditivo, la media del
nivel 1 se encuentra 24.40 unidades por debajo de la media general, mientras que el
nivel 2 se encuentra 27.87 unidades por debajo de la media general. El nivel 3 es el
valor de referencia, y por ello no se muestra. Usted puede calcular la media de los
niveles de los factores de referencia sumando todos los coeficientes de los niveles de
un factor (excluyendo la intersección) y multiplicando por - 1. En este caso, está 52.27
((-24.40-27.87) * -1) unidades por encima de la media general.


Conceptos para Interpretar ANOVA

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Conceptos para Interpretar ANOVA

Cargado por

Copyright:

Formatos disponibles

Conceptos clave para el análisis de varianza de

ANOVA de un solo factor

El tamaño de la muestra (N) es el número total de observaciones en cada grupo.

El tamaño de la muestra afecta el intervalo de confianza y la potencia de la prueba.

La media de cada muestra proporciona una estimación de la media de cada población.

3. Desviación estándar (S)

S representa la desviación estándar de la distancia entre los valores de datos y los

Profesora Patricia Castro Ch.

 Aproximadamente un 68 % de los valores caen en una desviación estándar de

La desviación estándar de la muestra de un grupo es una estimación de la desviación

4. Intervalo de confianza de las medias de grupo (IC de 95%)

El intervalo de confianza consta de las dos partes siguientes:

La estimación de punto es la estimación del parámetro que se calcula a partir de los

El margen de error define la amplitud del intervalo de confianza y es determinado por

Utilice el intervalo de confianza para evaluar la estimación de la media de la población

Profesora Patricia Castro Ch.

En estos resultados, cada mezcla tiene un intervalo de confianza para su dureza

5. Desv. Est. agrupada

La desviación estándar agrupada es un estimado de la desviación estándar común para

Ejemplo de una desviación estándar agrupada

Profesora Patricia Castro Ch.

Si incrementa el tamaño de la muestra, obtendrá más información sobre la población

La contribución muestra el porcentaje con el que cada fuente en la tabla Análisis de

Porcentajes mayores indican que la fuente representa más de la variación en la

Profesora Patricia Castro Ch.

El R2 es el porcentaje de variación en la respuesta que es explicada por el modelo. Se

Considere los siguientes problemas cuando interprete el valor R2:

El R2 siempre se incrementa cuando usted agrega predictores adicionales a un modelo.

Las muestras pequeñas no proporcionan una estimación precisa de la fuerza de la

9. Cuadrados medios ajustados

El R2 ajustado es el porcentaje de la variación en la respuesta que es explicada por el

En la tabla Análisis de varianza aparece un valor F para cada término:

Valor F para el modelo o los términos

El valor F es la estadística de prueba usada para determinar si el término está asociado

Profesora Patricia Castro Ch.

El valor F es la estadística de prueba usada para determinar si al modelo le están

Un valor F suficientemente grande indica que el término o el modelo es significativo.

Para determinar si cualquiera de las diferencias entre las medias es estadísticamente

 Valor p ≤ α: Las diferencias entre algunas de las medias son estadísticamente

Si el valor p es menor que o igual al nivel de significancia, usted rechaza la hipótesis

 Valor p > α: Las diferencias entre las medias no son estadísticamente

Si el valor p es mayor que el nivel de significancia, usted no cuenta con suficiente

Profesora Patricia Castro Ch.

Es importante considerar la tasa de error por familia al realizar comparaciones

El R2 pronosticado se calcula con una fórmula que equivale a eliminar

Un R2 pronosticado que sea sustancialmente menor que el R2 puede indicar que el

Por ejemplo, un analista de una consultora financiera desarrolla un modelo para

Profesora Patricia Castro Ch.

14. Pruebas individuales de Fisher para las diferencias de las medias

Use los intervalos de confianza individuales para identificar las diferencias

El nivel de confianza individual es el porcentaje de veces que un solo intervalo de

Controlar el nivel de confianza individual es poco común, porque no se controla el nivel

El intervalo de confianza de la diferencia consta de las dos partes siguientes:

Profesora Patricia Castro Ch.

15.Hipótesis nula e hipótesis alternativa

Profesora Patricia Castro Ch.

Compare el valor p con el nivel de significancia para determinar si rechaza la hipótesis

El nivel de significancia (denotado por alfa o α) es el nivel máximo aceptable de riesgo

Utilice el nivel de significancia para decidir si rechaza o no rechaza la hipótesis nula

El valor t es un estadístico de prueba que mide la relación entre la diferencia en las

18.Coeficiete de correlación de Pearson

El Coeficiente de Correlación de Pearson es una medida de la correspondencia

Profesora Patricia Castro Ch.