Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Diseño de experimentos
y análisis de varianza
CONTENIDO
LA ESTADÍSTICA
EN LA PRÁCTICA:
BURKE MARKETING
SERVICES, INC.
13.1 INTRODUCCIÓN AL DISEÑO
DE EXPERIMENTOS Y AL
ANÁLISIS DE VARIANZA
Obtención de datos
Suposiciones para el análisis
de varianza
Análisis de varianza: una visión
conceptual general
13.2 ANÁLISIS DE VARIANZA
Y EL DISEÑO
COMPLETAMENTE
ALEATORIZADO
Estimación de la varianza
poblacional entre tratamientos
Estimación de la varianza
poblacional dentro de
los tratamientos
Comparación de las estimaciones
de las varianzas: la prueba F
La estadística en la práctica
LA ESTADÍSTICA en LA PRÁCTICA
BURKE MARKETING SERVICES, INC.*
CINCINNATI, OHIO
Burke Marketing Services, Inc., es una de las empresas de
investigación de mercado con más experiencia. Cada día
Burke presenta más propuestas, sobre más proyectos, que
cualquier otra empresa de investigación de mercado en el
mundo. Apoyada con la última tecnología, Burke ofrece
una amplia variedad de posibilidades de investigación, con
lo que da solución a casi cualquier problema de marketing.
En un estudio reciente una empresa solicitó los servi-
cios de Burke para evaluar una nueva versión de un cereal
para niños. Por razones de confidencialidad aquí se nom-
brará a ésta como empresa Anon. La empresa Anon consi-
deraba que los cuatro factores principales que intervenían
en el sabor del cereal eran Burke emplea pruebas de degustación para obtener
información de lo que los clientes esperan de un pro-
1. La proporción entre trigo y maíz en el cereal. ducto. ©JLP/Sylvia Torres/CORBIS.
2. El tipo de edulcorante: azúcar, miel o edulcorante
artificial.
3. La presencia o ausencia de trocitos con sabor a fruta. varianza. De los resultados de los análisis se concluyó lo
4. El tiempo de cocción, largo o corto. siguiente:
Burke diseñó un experimento para determinar el efecto de • La relación entre trigo y maíz y el tipo de
estos cuatro factores en el sabor del cereal. Por ejemplo, edulcorante influyeron de manera importante en la
hizo una prueba con una determinada proporción de trigo evaluación del sabor.
y maíz, con azúcar como edulcorante, trocitos de sabor a • Los trocitos con sabor a fruta, en realidad tuvieron
fruta y tiempo corto de cocción; hizo otra prueba en la cual un efecto negativo sobre el sabor del cereal.
varió únicamente la proporción de trigo y maíz y dejó igual • El tiempo de cocción no tuvo ninguna influencia
todos los demás factores, y así sucesivamente. Después un sobre el sabor.
grupo de niños probó los cereales y dio su opinión acerca
Con esta información Anon pudo identificar los factores
del sabor de cada uno.
que intervenían en la obtención del sabor del cereal.
El método estadístico empleado para estudiar los datos
El diseño experimental empleado por Burke y el
obtenidos de las pruebas de degustación fue el análisis de
posterior análisis de varianza sirvieron para hacer una
*. recomendación en el diseño del producto. En este capítulo
se verá cómo se realizan estos procedimientos.
A sir Ronald Alymer Fisher En este capítulo se presentan dos tipos de diseños de experimentos: un diseño completamente
(1890-1962) se le atribuye aleatorizado y un diseño de bloques aleatorizado. Para cada tipo de diseño se indica cómo usar
la invención de la rama de
la estadística conocida co-
el procedimiento estadístico conocido como análisis de varianza (ANOVA, por sus siglas en
mo diseño de experimentos. inglés) para analizar los datos de una variable. El ANOVA también se usa para analizar los datos
Además de sus aportacio- obtenidos mediante un estudio observacional. Por ejemplo, se verá que el ANOVA también se usa
nes a la estadística, fue un en los diseños completamente aleatorizados para probar la igualdad de tres o más medias
científico sobresaliente en poblacionales de datos obtenidos mediante un estudio observacional.
el campo de la genética.
En la primera sección se presentan los principios de un estudio experimental y cómo
emplearlos en un diseño completamente aleatorizado. En la segunda sección se muestra cómo usar
el ANOVA para analizar los datos de un diseño de experimentos completamente aleatorizado.
En la última sección se estudia el diseño de bloques aleatorizado.
Observe que en este experimento sólo se obtendrá una medición (un dato) para cada método
de armar el sistema de filtración. Para obtener más datos para cada método, se necesita repetir o
replicar el proceso experimental básico. Considere que en lugar de tomar al azar sólo a tres tra-
bajadores, se toman 15 trabajadores, y a cada cinco trabajadores se les asigna en forma aleatoria
uno de los métodos para armar el sistema de filtración. Como cada uno de estos métodos es
asignado a cinco trabajadores, se dice que se obtienen cinco réplicas. El proceso de replicación
es otro principio importante en el diseño de experimentos. En la figura 13.1 se presenta el diseño
completamente aleatorizado para el experimento de Chemitech.
Obtención de datos
Una vez satisfechos con el diseño del experimento, se procede a obtener y analizar los datos. En
el caso de Chemitech, se les explicará a los trabajadores cómo emplear el método que les ha sido
asignado y empezarán a armar los sistemas de filtración con ese método. En la tabla 13.1 se
presenta el número de unidades armadas por cada empleado en una semana. En esta tabla se
dan también la media muestral, la varianza muestral y la desviación estándar muestral obtenidas
con cada método de ensamblado. Así, la media muestral del número de unidades producidas con
el método A es 62; la media muestral con el método B es 66 y la media muestral usando el método
C es 52. De acuerdo con estos datos, parece que con el método B se obtienen más unidades por
semana que con los otros dos métodos.
Lo que importa es si las tres medias muestrales observadas difieren lo suficiente para poder
concluir que las medias de las poblaciones correspondientes a estos tres métodos son diferentes.
Para expresar esto en términos estadísticos se introduce la notación siguiente.
Método
archivo A B C
en CD
Chemitech
58
64
58
69
48
57
55 71 59
66 64 47
67 68 49
Media muestral 62 66 52
Varianza muestral 27.5 26.5 31.0
Desviación estándar muestral 5.244 5.148 5.568
Aunque nunca se podrá saber cuáles son los verdaderos valores de μ1, μ2 y μ3, se van a usar las
medias muestrales para probar las hipótesis siguientes.
Si la hipótesis nula es verdadera, H0: μ1 = μ 2 = μ3, se usa la variabilidad entre las medias
muestrales para estimar σ 2. Primero, observe que si se satisfacen las suposiciones para el
13.1 Introducción al diseño de experimentos y al análisis de varianza
2
σ2 =σ
x n
x3 μ x2 x1
Si la hipótesis nula es verdadera, H0: μ1 = μ2 = μ3, se usa la variabilidad entre las medias
muestrales para estimar σ 2. Primero, observe que, si se satisfacen las suposiciones para el análisis
de varianza, cada una de las muestras provendrá de la misma distribución normal con media μ y
varianza σ 2. Recuerde que la distribución muestral de la media muestral x̄ de una muestra
aleatoria simple de tamaño n tomada de una población normal tendrá una distribución normal con
media μ y desviación estándar σ 2/n. En la figura 13.2 se ilustra una distribución muestral.
Por tanto, si la hipótesis nula es verdadera, se considera cada una de las tres medias muestrales,
x̄ 1 = 62, x̄ 2 = 66 y x̄ 3 = 52 como valores obtenidos aleatoriamente de la distribución muestral que
aparece en la figura 13.2. En este caso la media y la varianza de los tres valores x̄ se usa para
estimar la media y la varianza de la distribución muestral. Si los tamaños de las muestras son iguales,
como en el caso de Chemitech, la mejor estimación de la media de la distribución muestral de
x̄ es la media o el promedio de las medias muestrales. Por tanto, en el experimento de Chemitech,
una estimación de la media de la distribución muestral de x̄ es
A esta estimación se le conoce como media muestral general. Una estimación de la varianza de
la distribución muestral de x̄ , σ 2, se obtiene de la varianza de las tres medias
muestrales.
Capítulo 13 Diseño de experimentos y análisis de varianza
x3 μ3 μ1 x1 x2 μ 2
distribución muestral de x̄ . Para ilustrar lo que ocurre cuando H0 es falsa, suponga que las medias
poblacionales son diferentes. Observe que como las tres muestras provienen de poblaciones
normales con medias diferentes, darán tres distribuciones muestrales diferentes. En la figura 13.3
se muestra que en este caso las medias muestrales no están tan cerca unas de otras, como cuan-
do la H0 es verdadera. Entonces, sx̄2 será mayor, haciendo que la estimación de σ 2 sea mayor. En
general, cuando las medias poblacionales no son iguales, la estimación entre tratamientos
sobreestimará la varianza poblacional σ 2.
La variación dentro de cada una de las muestras también tiene efecto sobre la conclusión a
la que se arriba con el análisis de varianza. Cuando se toma una muestra aleatoria simple de cada
población, cada una de las varianzas muestrales proporciona un estimador insesgado de σ 2. Por
tanto, se combinan o juntan las estimaciones individuales de σ 2 en una estimación general. A la
estimación de σ 2 obtenida de esta manera se le conoce como estimación conjunta o dentro de los
tratamientos de σ 2. Como cada varianza muestral proporciona una estimación de σ 2 que se basa
sólo en la variación dentro de cada muestra, a la estimación de σ 2 dentro de los tratamientos no
le afecta que las medias poblacionales sean o no iguales.
13.1 Introducción al diseño de experimentos y al análisis de varianza
Si los tamaños de las muestras son iguales, la estimación dentro de los tratamientos de σ 2 se
obtiene del promedio de las varianzas muestrales. En el experimento de Chemitech se obtiene
H0: μ1 = μ2 = . . . = μk
Ha: No todas las medias poblacionales son iguales
donde
Se supone que de cada una de las k poblaciones o tratamientos se toma una muestra aleatoria sim-
ple de tamaño nj. Para los datos muestrales, sean
(
La media muestral general que se denota x̄ , es la suma de todas las observaciones dividida entre
la cantidad total de todas las observaciones. Es decir,
donde
nT = n1 + n2 + . . . + nk (13.4)
Si todas las muestras son de tamaño n, n T = kn; en este caso, la ecuación 13.3 se reduce a
13.2 Análisis de varianza y el diseño completamente aleatorizado
En otras palabras, si todas las muestras son del mismo tamaño, la media muestral general es el
promedio de las k medias muestrales.
En el experimento de Chemitech, como todas las muestras constaban de n = 5 observaciones, la
media muestral general se puede calcular empleando la fórmula 13.5. De acuerdo con los datos de
la tabla 13.1 se tiene lo siguiente.
62 + 66 + 52
x̄ = = 60
3
Si la hipótesis nula es verdadera (μ1 = μ 2 = μ3 = μ), la media muestral general, 60, es la mejor
estimación de la media poblacional μ.
(13.6)
500 Capítulo 13 Diseño de experimentos y análisis de varianza
𝐶𝑀𝑇𝑅 260
𝐹= = = 9.18
𝐶𝑀𝐸 28.33
Los grados de libertad para el numerador son k - 1 = 3 - 1 = 2 y los grados de libertad para el
denominador son nT - k = 15 - 3 = 12. Como la hipótesis nula sólo se rechazará si se obtiene
un valor grande para el estadístico de prueba, el valor-p será el área en la cola superior de la
distribución F a la derecha del estadístico de prueba F = 9.18. En la figura se muestra la
distribución muestral de F = CMTR/CME, el valor del estadístico de prueba y el área en la
cola superior de esta prueba de hipótesis.
F = 9.18
13.2 Análisis de varianza y el diseño completamente aleatorizado 501
Se Rechaza ya que el valor de F calculado es mayor que el valor de F encontrado en la tabla. Por
lo que se concluye que las medias no son iguales.
Tabla de ANOVA
Para presentar de manera adecuada los cálculos anteriores se usa una tabla conocida como tabla
para el análisis de varianza o tabla ANOVA. En la tabla 13.2 se muestra la forma general de una
tabla ANOVA para un diseño completamente aleatorizado. En la tabla 13.3 se presenta la tabla
ANOVA correspondiente al experimento de Chemitech. A la suma de los cuadrados de la fuente
de variación que se indica como “Total” se le conoce como suma de cuadrados del total (STC).
Observe que los resultados del experimento de Chemitech indican que STC = SCTR + SCE y
que los grados de libertad que corresponden a esta suma total de cuadrados es la suma de los gra-
dos de libertad correspondientes a la suma de cuadrados debidos a los tratamientos más la suma
de cuadrados debidas al error.
Cabe hacer notar que la STC dividida entre los grados de libertad nT - 1 no es otra cosa que
la varianza muestral general que se obtendría si se considerara la muestra de las 15 observaciones
como un solo conjunto de datos. Si se considera todo el conjunto de datos como una sola
muestra, la fórmula para calcular la suma de cuadrados del total, STC, es
Se puede demostrar que estos resultados observados para el análisis de varianza en el caso
del experimento de Chemitech aplican también a otros problemas. Es decir,
El análisis de varianza pue- En otras palabras, STC se parte en dos sumas de cuadrados: la suma de cuadrados debidas a los
de entenderse como un tratamientos y la suma de cuadrados debidas al error. Observe, además, que los grados de
procedimiento estadístico libertad que corresponden a la STC, nT - 1, se pueden partir en grados de libertad
de partición de la suma
total de los cuadrados en correspondientes a SCTR, k - 1 y en grados de libertad correspondientes a SCE, nT - k. El
componentes separados. análisis de varianza se puede ver como el proceso de partición de la suma total de cuadrados
y los grados de libertad en sus fuentes correspondientes: tratamiento y error. Al dividir las
sumas de cuadrados entre los correspondientes grados de libertad, se obtienen las estimaciones
de la varianza, el valor de F y el F tabla empleados en la prueba de hipótesis de igualdad entre
las medias poblacionales.
13.2 Análisis de varianza y el diseño completamente aleatorizado 503
.
Ejercicios
Métodos
1. Los datos siguientes se obtuvieron de un diseño completamente aleatorizado.
TRATAMIENTO
A B C
162 142 126
142 156 122
165 124 138
145 142 140
148 136 150
174 152 128
Media muestral 156 142 134
2. En un diseño completamente aleatorizado, para cada uno de los cinco niveles del factor se usa-
ron siete unidades experimentales. Complete la tabla ANOVA siguiente.