Está en la página 1de 22

Diseño completamente al

UNIDAD II
azar (DCA)
Fundamentos del DCA
El diseño completamente al azar (DCA), es el más simple de todos los diseños
que se utilizan para comparar dos o más tratamientos, dado que sólo consideran
dos fuentes de variabilidad: los tratamientos y el error aleatorio.

Este diseño se llama completamente al azar porque todas las corridas


experimentales se realizan en orden aleatorio completo. De esta manera, si
durante el estudio se hacen en total N pruebas, éstas se corren al azar, de manera
que los posibles efectos ambientales y temporales se vayan repartiendo
equitativamente entre los tratamientos.

Es decir, todas las unidades experimentales son independientes y tienen la


misma probabilidad de recibir cualquiera de los tratamientos.
Supongamos que se tienen 𝑘 poblaciones o tratamientos, independientes y con medias
desconocidas 𝜇 , 𝜇 , …, 𝜇 , así como varianzas también desconocidas pero que se suponen
iguales 𝜎 𝜎 … 𝜎 𝜎 . Las poblaciones pueden ser 𝑘 métodos de producción, 𝑘
tratamientos, 𝑘 grupos, etc., y sus medias se refieren o son medidas en términos de la
variable de respuesta.
Tratamientos
𝑻𝟏 𝑻𝟏 𝑻𝟏 … 𝑻𝒌
𝑌 𝑌 𝑌 … 𝑇
𝑌 𝑌 𝑌 … 𝑇
𝑌 𝑌 𝑌 … 𝑇
. . . … .
. . . … .
. . . … .
𝑌 𝑌 𝑌 … 𝑇

El elemento 𝑌 en esta tabla es la j‐ésima observación que se hizo en el tratamiento 𝑖; 𝑛 es el


tamaño de la muestra las repeticiones observadas en el tratamiento 𝑖.
• Es recomendable utilizar el mismo número de repeticiones ( 𝑛 𝑛 ) en cada
tratamiento, a menos que hubiera alguna razón para no hacerlo.

• Cuando 𝑛 𝑛 para toda i se dice que el diseño es balanceado.

• El número de tratamientos 𝑘 es determinado por el investigador y depende del


problema particular de que se trata.

• El número de observaciones por tratamiento (𝑛) debe escogerse con base en la


variabilidad que se espera observar en los datos, así como en la diferencia mínima
que el experimentador considera que es importante detectar.

• Por lo general se recomiendan entre 5 y 30 mediciones en cada tratamiento.


Notación de puntos
• Sirve para representar de manera abreviada cantidades numéricas que se pueden calcular a
partir de los datos experimentales.
Tratamientos
𝑻𝟏 𝑻𝟏 𝑻𝟏 … 𝑻𝒌
𝑌 𝑌 𝑌 … 𝑇
𝑌 𝑌 𝑌 … 𝑇
𝑌 𝑌 𝑌 … 𝑇
. . . … .
. . . … .
. . . … .
𝑌 𝑌 𝑌 … 𝑇

• 𝑌 representa la j‐ésima observación que se hizo en el tratamiento 𝑖, con 𝑖 1,2, … , 𝑘 y


𝑗 1,2, … 𝑛
• Las expresiones de interés son las siguientes:
𝑌 · = Suma de las observaciones del tratamiento i.
𝑌 · = Media de las observaciones del i‐ésimo tratamiento
𝑌·· = Suma total de las 𝑁 𝑛 𝑛 ⋯ 𝑛 mediciones
𝑌·· = media global o promedio de todas las observaciones.

• Luego, la expresión matemática, se puede escribir como:

∑ 𝑌 𝑌··
𝑌· 𝑌 ; 𝑌· ; 𝑌·· 𝑌 𝑦 𝑌·· ;𝑖 1,2, … , 𝑘
𝑛 𝑁

Donde 𝑁 ∑ 𝑛 es el total de las observaciones


Modelo
Estadístico y
supuestos
• En caso de que los tratamientos tengan efecto, las observaciones 𝑌 de la tabla se podrán
describir con el modelo estadístico lineal dado por:
𝑌 𝜇 𝜏 𝜀 (2.1)

• donde 𝜇 es el parámetro de escala común a todos los tratamientos (llamado media global); 𝜏 es
un parámetro que mide el efecto del tratamiento 𝑖 y 𝜀 es el error atribuible a la medición 𝑌 .

• La media global 𝜇 funciona como punto de referencia con respecto al cual se comparan las
respuestas medias de los tratamientos
• Si la respuesta media de un tratamiento particular 𝜇 es “muy diferente” de la respuesta
media global (𝜇), podemos sospechar que existe un efecto de dicho tratamiento.
• La diferencia que deben tener las medias entre sí para concluir que hay un efecto (que
los tratamientos son diferentes), se obtiene con un análisis de varianza (ANOVA).
Análisis de varianza
(ANOVA)
El análisis de varianza (ANOVA) es la técnica central en el análisis de datos
experimentales.

La idea general de esta técnica es separar la variación total en las partes con las que
contribuye cada fuente de variación en el experimento.

En el caso del DCA, se separan la variabilidad debida a los tratamientos y la debida


al error.

No hay efecto de tratamiento Si hay efecto de tratamiento

Variabilidad Variabilidad Variabilidad debida a Variabilidad


debida a debida a error tratamientos debida a
tratamientos error

Separación de la variación total en sus componentes en un DCA


• El objetivo del análisis de varianza en el DCA es probar la hipótesis de igualdad de los
tratamientos con respecto a la media de la correspondiente variable de respuesta:
𝐻 :𝜇 𝜇 ⋯ 𝜇 𝜇 (2.2)
𝐻 :𝜇 𝜇 para algún 𝑖 𝑗

La cual se puede escribir en forma equivalente como:


𝐻 :𝜏 𝜏 ⋯ 𝜏 0 (2.3)
𝐻 :𝜏 0 para algún 𝑖

Donde 𝜏 es el efecto del tratamiento 𝑖 sobre la variable de respuesta.


Si se acepta 𝐻 , se confirma que los efectos sobre la respuesta de los 𝑘 tratamientos son
estadísticamente nulos (iguales a cero), y en caso de rechazar se estaría concluyendo que
al menos un efecto es diferente de cero.
Para probar la hipótesis dada por las relaciones (2.2) o (2.3) mediante la técnica de ANOVA, lo
primero es descomponer la variabilidad total de los datos en sus dos componentes: la variabilidad
debida a tratamientos y la que corresponde al error aleatorio, como se hace a continuación.
Una medida de la variabilidad total presente está dada por la suma total de cuadrados:

𝑌··
𝑆𝐶 𝑌 𝑌·· 𝑌
𝑁

Al sumar y restar adentro del paréntesis la media del tratamiento i, 𝑌 · :

𝑆𝐶 𝑌 𝑌· 𝑌· 𝑌··

Y desarrollando el cuadrado, la SCT se puede partir en dos componentes como:

𝑆𝐶 𝑛 𝑌· 𝑌·· 𝑌 𝑌·

Donde el primer componente es la suma de cuadrados de tratamientos (SCTRAT) y el segundo es la


suma de cuadrados del error (SCE).
𝑆𝐶 𝑆𝐶 𝑆𝐶 (2.4)

Como hay un total de 𝑁 ∑ 𝑛 observaciones, la 𝑆𝐶 tiene 𝑁 1 grados de libertad. Hay k


tratamientos o niveles del factor de interés, así que 𝑆𝐶 tiene 𝑘 1 grados de libertad,
mientras que la 𝑆𝐶 tiene 𝑁 𝑘. Los grados de libertad que corresponden a los términos de la
igualdad (2.4) cumplen una relación similar dada por:
𝑁 1 𝑘 1 𝑁 𝑘

Las sumas de cuadrados divididas entre sus respectivos grados de libertad se llaman cuadrados
medios. Los dos que más interesan son el cuadrado medio de tratamientos y el cuadrado medio
del error, que se denotan por:
𝑆𝐶 𝑆𝐶
𝐶𝑀 y 𝐶𝑀
𝑘 1 𝑁 𝑘
• Los valores esperados de los cuadrados medios están dados por:
∑ 𝑛𝜏
𝐸 𝐶𝑀 𝜎 𝑦 𝐸 𝐶𝑀 𝜎 (2.5)
𝑁 𝑘

• En estas expresiones se aprecia que cuando la hipótesis nula es verdadera, ambos cuadrados
medios estiman la varianza (𝜎 ), ya que el segundo término de la expresión para el
𝐸 𝐶𝑀 sería igual a cero.

• Con base en este hecho se construye el estadístico de prueba como sigue:

Se sabe que 𝑆𝐶 y 𝑆𝐶 son independientes, por lo que 𝑆𝐶 /𝜎 y 𝑆𝐶 /𝜎 son dos


variables aleatorias independientes con distribución ji-cuadrada con N – k y k – 1 grados de
libertad, respectivamente.
Entonces, bajo el supuesto de que la hipótesis 𝐻 (2.2 y 2.3) es verdadera, el estadístico
𝐶𝑀
𝐹 (2.6)
𝐶𝑀

Sigue una distribución F con (k – 1) grados de libertad en el numerador y (N – k) grados de


libertad en el denominador. De las ecuaciones (2.5) y (2.6) se deduce que
si 𝐹 es grande, se contradice la hipótesis de que no hay efectos de tratamientos; en cambio,
si 𝐹 es pequeño se confirma la validez de 𝐻 .

Así, para un nivel de significancia 𝛼 prefijado, se rechaza 𝐻 si 𝐹 𝐹 , ,

Donde 𝐹 , , es el percentil 1 𝛼 100 de la distribución F.


También se rechaza 𝐻 𝑣𝑎𝑙𝑜𝑟 𝑝 es el área bajo la distribución 𝐹 , , a la derecha del
estadístico 𝐹 , es decir, el 𝑣𝑎𝑙𝑜𝑟 𝑝 𝑃 𝐹 𝐹
Tabla de ANOVA para el Diseño completamente al azar (DCA)
FV SC GL CM F0 Ftab
𝑆𝐶
𝑌· 𝑌·· 𝐶𝑀 𝐶𝑀
Tratamientos 𝑆𝐶 k-1 𝑘 1 --
𝑛 𝑁 𝐶𝑀

𝑆𝐶
𝑆𝐶 𝑆𝐶 𝑆𝐶 𝐶𝑀
Error N-k 𝑁 𝑘

𝑆𝐶
Total 𝑌·· N-1
𝑌
𝑁
En esta tabla, las abreviaturas significan lo siguiente: FV = Fuente de variabilidad
(efecto), SC = Suma de cuadrados, GL = Grados de libertad, CM = Cuadrado medio,
𝐹 = Estadístico de prueba, Ftab = Valor de F de Fisher.
Distribución F

Es una función de densidad de


probabilidad que se utiliza
especialmente en el análisis de
varianza y es una función de la
relación de dos variables
aleatorias independientes
Anotaciones
• El análisis de varianza se hace por cada variable que se analiza.
• Por ejemplo: si en un ensayo de tipos de fertilizantes en una variedad “x” de un
cultivo, se evalúan 3 variables (altura del cultivo, calidad del fruto o semilla y
rendimiento), se deberá hacer un análisis de varianza para cada variable.
Ejercicio 1. Comparación de cuatro tipos de cuero.

Un fabricante de calzado desea mejorar la calidad de las suelas, las cuales se pueden hacer con uno
de los cuatro tipos de cuero A, B, C y D disponibles en el mercado.
Para ello, prueba los cueros con una máquina que hace pasar los zapatos por una superficie abrasiva;
la suela de éstos se desgasta al pasarla por dicha superficie. Como criterio de desgaste se usa la
pérdida de peso después de un número fijo de ciclos. Se prueban en orden aleatorio 24 zapatos, seis
de cada tipo de cuero.
Los datos (en miligramos) sobre el desgaste de cada tipo de cuero se muestran en la tabla.

¿existen diferencias entre el desgaste promedio de los diferentes tipos de cuero?


La respuesta a esta pregunta es el resultado de contrastar las hipótesis:
𝐻 :𝜇 𝜇 𝜇 𝜇 𝜇
𝐻 :𝜇 𝜇 para algún 𝑖 𝑗

Tabla de ANOVA
FV SC GL CM F0 Ftab
Tipo de cuero 7,019.46 3 2,339.82 22.76 3.098
Error 2,056.50 20 102.82
Total 9,075.96 23

Con un nivel de significancia  = 0.05, dado que F0 > Ftab se rechaza 𝐻 y se acepta que al
menos un par de tipos de cuero tienen un desgaste promedio diferente.
La variación total en 24 datos de este experimento fue de 9,075.96.
7,019.46 se debe a las diferencias entre los tipos de cuero y
2,056.50 corresponde a la diferencia entre los cueros del mismo tipo.
Así, vemos que las diferencias debido al tipo de cuero es de 2,339.82 y que el error es de 102.82; por lo
tanto, la primera es 22.76 veces más grande que la segunda, lo cual indica que las diferencias
observadas entre los tipos de cuero son significativas y que no se deben a pequeñas variaciones
muestrales (error).
Tarea 1 (Entregar 20/02/2023)
• Un silvicultor comparó los efectos de cinco tratamientos de
preparación del terreno sobre el crecimiento inicial en altura
de plántulas de Pinus patula Schltdl. et Cham.
• Estableció 25 parcelas aplicando u tratamiento a 5 parcelas
seleccionadas al azar; la plantación fue realizada
manualmente y, al final de cinco años, se midió la altura de
todos los pinos y se calculó la altura promedio de cada
parcela, resultando lo siguiente:
Tratamiento
A B C D E
4.5 4.8 3.9 3.3 4.2
4.2 4.2 3.6 3.9 3.6
3.6 3.9 3.3 3 3.6
3.9 4.5 3.6 3.6 3
3.9 4.2 3 3.3 3.3

También podría gustarte