Está en la página 1de 17

UNIDAD VI:

DISEÑO EXPERIMENTAL. ANÁLISIS DE VARIANZA

INVESTIGACIÓN Y PLANIFICACIÓN DE EXPERIMENTOS


La investigación puede definirse en forma amplia como el estudio sistemático de algún
fenómeno con el fin de descubrir nuevos hechos o principios. El procedimiento para la
investigación se conoce generalmente como método científico, el cual, aunque difícil de definir
con precisión, contiene los siguientes elementos:
1) HECHOS OBSERVADOS: Se comienza con la observación, a través de la cual se
establecen diversos factores.
2) HIPÓTESIS: La consideración del conjunto de hechos conduce al establecimiento de
una hipótesis (una idea provisoria de cómo los hechos han de ser interpretados y
explicados).
3) EXPERIMENTO: El experimento es un ensayo destinado a probar la validez de la
hipótesis propuesta.
4) RESULTADOS Y SU INTERPRETACIÓN: Los resultados del experimento
establecen hechos adicionales. La interpretación de estos nuevos hechos a la luz de
lo ya conocido, conduce al apoyo, rechazo o alteración de la hipótesis y de ese modo
se vuelve nuevamente a través de la misma serie de pasos.
El experimento es un instrumento, de investigación, utilizado para descubrir algo
desconocido o para comprobar un principio o una hipótesis. Es un paso importante del método
científico y las preguntas que éste aspira a contestar serán fundamentales para el rechazo o
no de una hipótesis.
Para resolver los problemas que enfrenta un agrónomo, por regla general, se requiere
de un experimento. En el experimento más simple habrá sólo dos tratamientos: la nueva
práctica y la vieja. Un experimento más complicado puede incluir varias proporciones o
métodos de aplicación de la misma práctica. Aún más complejos son aquellos experimentos
en que los efectos de diversas prácticas se estudian simultáneamente.
Cualquiera que sea el diseño del experimento, su propósito es suministrar un medio de
realizar observaciones que puedan utilizarse para formular generalizaciones plausibles acerca
de la práctica objeto de estudio. Llegar a tales generalizaciones es un problema típico de
razonamiento inductivo.
A menudo escucharán la expresión "problemas en los que los datos se apartan de las
leyes de la causalidad exacta". Tal situación es casi universal en el campo de la agricultura.
No importa cuánto sepa un científico sobre nutrición o fisiología, no podría predecir con
exactitud cuál será el aumento de peso de una res o la cosecha de una parcela de papas bajo
un conjunto dado de condiciones. Variaciones aleatorias, debidas a una multitud de causas,
siempre harán variar los resultados, sin importar la cantidad de esfuerzo hecho para controlar
todos los factores conocidos.
El término aleatorio resulta difícil de definir, pero aún sin una clara definición, todos
sabemos lo que significa, en grado suficiente como para considerar su importancia en lo que a
efectos sobre los resultados biológicos se refiere. Cuando el elemento aleatorio forma parte de
un problema, se introducen dificultades reales. Éstas resultan mucho más serias en el campo
del razonamiento inductivo que en el del razonamiento deductivo.

Cátedra de Estadística y Diseño, Facultad de Ciencias Agrarias, UNMdP 71


El investigador no debe desalentarse en sus intentos por responder preguntas a través
de observaciones y experimentos; no obstante, deberá darse cuenta de que sus respuestas
no son nunca absolutas. Deberá hacer generalizaciones con precaución y sólo después de
efectuar cuidadosas observaciones y de ejercitar los mejores sistemas de razonamiento bajo
su control.
La mayoría de los agrónomos ven rápidamente la necesidad de análisis estadístico
para sentar una base objetiva de evaluación. Algunos ejemplos pueden resultar útiles. Si
cosechamos dos áreas iguales de trigo en un campo, el grano producido en estas áreas rara
vez será igual; el peso de los frutos de árboles adyacentes difícilmente es el mismo; el
aumento diario de peso de dos animales de la misma especie y raza, casi siempre difiere. Las
diferencias de este tipo entre cultivos o animales son debidas a diferencias genéticas y
ambientales más allá del control razonable de un investigador. Estas diferencias constituyen lo
que se denomina error experimental donde error no se refiere a estar equivocado sino a que
con él se representa la variabilidad entre unidades experimentales.
Reconocida la existencia de esta variabilidad, se entiende la dificultad para evaluar una
nueva práctica, mediante su aplicación a una unidad experimental única y su comparación con
otra unidad que es similar, pero no tratada. El efecto de la nueva práctica se confunde con la
variabilidad no determinada de la unidad experimental. Así, un experimento con una sola
repetición suministra una medición incompleta del efecto del tratamiento; además, dado que
no existen dos unidades experimentales tratadas, esto no suministra mediciones del error
experimental. La estadística supera estas dificultades, requiriendo la recolección de datos
experimentales que permitan una estimación imparcial de los efectos del tratamiento y la
evaluación de las diferencias del tratamiento a través de pruebas de hipótesis basadas en
mediciones del error experimental.
A través del diseño experimental, se proveen métodos para reducir o controlar el error.
Ello se logra:
1) seleccionando material homogéneo y/o condiciones medio-ambientales uniformes.
2) dividiendo el material en grupos homogéneos.
3) refinando las técnicas experimentales.
4) midiendo variables relacionadas para hacer uso del análisis de covarianza.
Los efectos de los tratamientos son estimados mediante la aplicación de los mismos a,
por lo menos, dos unidades experimentales (por regla general a más de dos), y promediando
los resultados para cada tratamiento. Las pruebas de significación determinan la probabilidad
de que las diferencias entre tratamientos pudieran haber ocurrido solamente por casualidad.
En el planeamiento y la conducción de un experimento hay un gran número de
consideraciones que deben ponderarse cuidadosamente para que el experimento sea exitoso.
Los pasos más importantes a dar son:
1) Definición del problema.
2) Determinación de los objetivos.
3) Análisis crítico del problema y de los objetivos.
4) Selección de tratamientos.
5) Selección de material experimental.
6) Selección de la unidad experimental y del número de repeticiones.
7) Selección del diseño experimental.
8) Control de los efectos entre unidades adyacentes.
9) Consideración acerca de los datos que se van a tomar.
10) Esbozo del análisis estadístico y del resumen de los resultados.
11) Conducción del experimento.
12) Análisis de los datos e interpretación de los resultados.
13) Elaboración de un completo, legible y correcto informe de la investigación.

Cátedra de Estadística y Diseño, Facultad de Ciencias Agrarias, UNMdP 72


Nótese que la mayoría de los pasos anteriormente citados no son estadísticos; sin
embargo, el análisis estadístico constituye una parte importante de la experimentación. La
estadística ayuda al investigador a concebir su experimento y a evaluar objetivamente los
datos numéricos resultantes.
Un experimento bien planeado está caracterizado por:
1) Simplicidad. La selección de tratamientos y la disposición experimental deberán hacerse
del modo más simple posible y deberán ser consistentes con los objetivos de experimento.
2) Grado de precisión. Deberá haber una gran probabilidad de que el experimento sea capaz
de medir diferencias entre tratamientos con los grados de precisión fijados por el
experimentador. Esto implica un diseño apropiado y un número suficiente de repeticiones.
3) Ausencia de error sistemático. Debe planearse el experimento para asegurar que las
unidades experimentales que reciben un tratamiento no difieren sistemáticamente de aquéllas
que reciben otro tratamiento, de modo que pueda obtenerse una estimación imparcial de cada
efecto de tratamiento.
4) Rango de validez de las conclusiones. Las conclusiones deben tener un rango de validez
claro y determinado. Un experimento replicado en el tiempo y en el espacio incrementará el
rango de validez de las conclusiones que podrían sacarse del mismo.
5) Cálculo del grado de incertidumbre. En cualquier experimento existe siempre algún grado
de incertidumbre en cuanto a la validez de las conclusiones. El experimento deberá ser
concebido de modo que resulte posible calcular la probabilidad de obtener los resultados
observados debido únicamente al azar.

DEFINICIONES BÁSICAS DEL DISEÑO EXPERIMENTAL


Resulta necesario dar algunas definiciones básicas de los términos empleados en
relación con el diseño experimental.
FACTOR: Se entiende por factor al objeto de prueba en un experimento diseñado y se refiere
a aquello que se va a someter a prueba y es controlado por el experimentador. El factor es lo
que hace clasificar a las observaciones obtenidas en una experiencia según un criterio. Por
ejemplo: diferentes clases de fertilizantes, diferentes dosis de un mismo fertilizante, distintas
dietas, diferentes sistemas de labranza, etc. A cada una de las categorías del factor se la
denomina nivel.
TRATAMIENTO: Se define al tratamiento como cada combinación de niveles de los factores.
En caso de contar con un solo factor, cada uno de los niveles del factor constituye un
tratamiento.
MATERIAL EXPERIMENTAL: Es el conjunto de elementos con que cuenta un experimentador
para llevar a cabo su experiencia y que recibirán los tratamientos. Por ejemplo: los animales
que utilizará en una prueba de engorde, el lote de terreno para un ensayo de fertilización, etc.
UNIDAD EXPERIMENTAL: Es aquella parte del material experimental que recibe la aplicación
de un solo tratamiento. Por ejemplo: un animal en una prueba de engorde, la parcela de
terreno que recibirá un determinado nivel de fertilización, etc.

PRINCIPIOS BÁSICOS DEL DISEÑO EXPERIMENTAL


Todo diseño experimental debe cumplir tres principios básicos: repetición,
aleatorización y control local. La importancia de su cumplimiento radica en que permite
obtener, mediante un procedimiento objetivo, datos confiables que reflejen los efectos de los
tratamientos que se desean evaluar, permitiendo separar dichos efectos de otras posibles

Cátedra de Estadística y Diseño, Facultad de Ciencias Agrarias, UNMdP 73


fuentes de variación. Su caracterización es:
1) REPETICIÓN: Este principio establece que todo tratamiento se efectúa dos o más
veces. Su función es suministrar una estimación del error experimental. El número de
repeticiones que se requerirán en un experimento en particular depende de la
magnitud de las diferencias que deseamos detectar y de la variabilidad de los datos
con los que estamos trabajando. Considerando estos dos aspectos al inicio del
experimento, evitaremos muchas equivocaciones.
2) ALEATORIZACIÓN: Este principio establece que la asignación de tratamientos a
unidades experimentales se efectúe de modo que todas las unidades consideradas
tengan igual probabilidad de recibir cualquier tratamiento. Su función es asegurar
estimaciones imparciales de las medias de tratamiento y del error experimental.
3) CONTROL LOCAL: Este principio establece que debe asegurarse, en la mayor
medida posible, que las variaciones entre los datos se deban a variaciones en los
tratamientos y no a otras causas. Su función es también asegurar estimaciones
imparciales de las medias de tratamiento y del error experimental.
En general, el basamento estadístico de un diseño experimental tiende a la obtención
de datos confiables, los cuales, luego del análisis correspondiente, puedan ser
interpretados con la mayor objetividad posible. Ello se traduce, entre otras cosas, en
variaciones en los tratamientos y no a otras causas. Se deben tomar todos los
recaudos (haciendo uso del principio de control local) para que luego no queden dudas
de los resultados que se obtienen. Se refiere a los recaudos que deben tomarse antes
de iniciar el experimento y durante la conducción del mismo. Respuestas oportunas a
interrogantes tales como
a) ¿Son parecidas las parcelas?
b) ¿Afectará el sexo de los animales el resultado final?
c) ¿Qué alcance se pretende para las conclusiones?
d) ¿Qué maquinarias se necesitan?
traen aparejado siempre un diseño que se adecua mejor a cada situación; respetando
simultáneamente consideraciones prácticas y estadísticas y, también, consideraciones
de tipo económico. No hacer uso del control local trae consecuencias lamentables que
no pueden remediarse a posteriori.

DISEÑO COMPLETAMENTE ALEATORIZADO (DCA)


Es el diseño básico, todos los demás diseños pueden obtenerse a partir de este,
aplicando restricciones en la distribución de los niveles de tratamiento al material experimental.
Es útil cuando el material experimental es esencialmente homogéneo, esto es,
cuando las variaciones entre unidades experimentales son muy pequeñas. Por ejemplo, en
experiencias de laboratorio o de invernáculo donde las condiciones son mantenidas
constantes por el investigador; o en experiencias de campo o con animales donde las
condiciones medio ambientales son muy semejantes.
El proceso de aleatorización de los niveles de tratamiento se hace sin ninguna
restricción sobre todo el material experimental, salvo la condición de que cada nivel aparezca
repetido un número n de veces (n>1). El mismo se puede llevar a cabo mediante una tabla de
números al azar u otros sistemas de asignación aleatoria.
Suponga que se cuenta con 15 unidades experimentales, las que deben recibir la
aplicación de tres niveles de tratamiento. Se asignan los valores 1, 2 y 3 a los niveles de

Cátedra de Estadística y Diseño, Facultad de Ciencias Agrarias, UNMdP 74


tratamiento. Luego se colocan en un bolillero 5 bolillas con el número 1, 5 bolillas con el
número 2, y 5 con el número 3 (en general, se repite el número de tratamiento tantas veces
como repeticiones de él se decidan hacer). Luego se extraen las bolillas una a una y a cada
una de las unidades experimental se le aplica el tratamiento que indique la bolilla (en lugar del
bolillero se puede usar también una tabla de números al azar o un programa de computación
que pueda aleatorizar).
Condiciones:
1) Los niveles de tratamiento son asignados completamente al azar.
2) Cada unidad experimental tiene la misma probabilidad de recibir cualquier tratamiento.
3) Hay homogeneidad entre las unidades experimentales.
4) Cada observación yij es el resultado de una unidad experimental que recibió un tratamiento.
5) Cada tratamiento se debe repetir un número determinado de veces (y más de una vez).
6) El número de repeticiones de cada tratamiento puede ser constante o variable.
7) En experimentos pequeños donde la mayor precisión de otros diseños no compensa la
pérdida de grados de libertad del error experimental, debe usarse el diseño completamente
aleatorizado.
8) Es conveniente utilizar este diseño cuando es probable que una parte apreciable de las
unidades experimentales se destruya o no responda.
Ventajas:
El diseño completamente aleatorizado es flexible, en forma tal que el número de
repeticiones y niveles de tratamiento solamente están limitados por el número de unidades
experimentales disponibles. El número de repeticiones de cada tratamiento puede ser variable,
aunque es conveniente que permanezca constante.
El análisis de los datos es muy simple, aún cuando el número de repeticiones es
variable.
La falta de información ocasionada por un dato perdido es pequeña en relación con
otros diseños. El número de grados de libertad para el error experimental es máximo.
Desventajas:
Algunas veces resulta insuficiente. Como no hay restricción alguna para la
aleatorización, el error experimental incluye todas las variaciones entre las unidades
experimentales, excepto la del tratamiento.
Conviene solamente para un número pequeño de tratamientos y un material
experimental homogéneo. Cuando el número de niveles de tratamiento es muy grande se
requiere una cantidad considerable de material experimental, lo que aumenta
considerablemente la variación entre ellas.
Si la variación del material es relativamente grande es posible encontrar algún otro
diseño que provea, para el mismo número de repeticiones, una mayor precisión.

Modelo matemático:
Supongamos que se realizó un DCA para evaluar el comportamiento de t variedades
de trigo, cada una repetida n veces. La evaluación se realizará midiendo los rendimientos de
cada variedad en cada parcela. Designaremos con yij al rendimiento de la i-ésima variedad
que fue sembrada en la j-ésima parcela (i=1, ... , t ; j=1, ... , n). Se puede pensar que las
mediciones de cada variedad (los rendimientos) son una muestra aleatoria de una distribución
normal con media µi y varianza σ e la cual debe suponerse constante para todo i. En
2

consecuencia, se puede escribir:

Cátedra de Estadística y Diseño, Facultad de Ciencias Agrarias, UNMdP 75


yij = µi + eij
Pero, si se considera que todos los yij son mediciones de rendimiento de un mismo
cultivo, ese conjunto de mediciones debe tener una media general (simbólicamente µ) y se
puede definir un efecto τi = µi - µ, llamado efecto de la i-ésima variedad. Así,
µi = µ + τi quedando el modelo:
yij = µ + τi + eij donde i = 1,...,t j = 1,...,n
En general, para el diseño completamente aleatorizado, el modelo matemático es de la
siguiente forma:
yij = µ + τi + eij i = 1,....,t
j = 1,....,n
donde:
yij es la observación de la variable respuesta correspondiente al i-ésimo nivel de
tratamiento y la j-ésima repetición.
µ es la media general de la variable respuesta.
τi es el efecto del i-ésimo nivel de tratamiento.
eij es el error aleatorio correspondiente a la ij-ésima observación.
Este modelo se denomina "Modelo Lineal". En este caso está en su forma más simple,
pues hay un solo factor controlado (la variedad) y se dice que los datos están clasificados
según un único criterio de clasificación: la variedad a la cual pertenece la medición del
rendimiento.
En general, si µi es la media de la i-ésima población, se tiene:

1 t
µ= ∑ µi
t i =1

τi = µi - µ
eij = y ij - µ - τ i = y ij - µ i
Para el modelo anterior se debe suponer que:

1) eij ~ NI  0 , σ e  , con σ e cons tan te ∀i , donde NI indica que son independientes y con
2 2

 
distribución normal.
t

2) Los τi son parámetros desconocidos que cumplen que ∑τ


i =1
i =0

El supuesto 2) es el adecuado cuando la población de la cual se extraen las


observaciones constituye el conjunto total de poblaciones de interés y se denomina "Modelo I
o modelo a efectos fijos".

ANÁLISIS DE VARIANZA. MODELO A EFECTOS FIJOS.

DATOS BALANCEADOS Y DESBALANCEADOS.


Si se tienen dos muestras, una que ha dado como resultado las mediciones 9 y 11 y
otra con las mediciones 19 y 21; se puede calcular el promedio y la varianza en cada una de
ellas como sigue:

Cátedra de Estadística y Diseño, Facultad de Ciencias Agrarias, UNMdP 76


2 2
9 +11 2 (9 - 10 ) +(11 - 10 )
y1• = = 10 S1 = =2
2 1
2 2
19 + 21 2 (19 - 20 ) +(21- 20 )
y 2• = = 20 S = 2 =2
2 1
Si se hubiesen tenido los datos de una única muestra (9, 11, 19, 21) se tendría un
promedio y •• = 15 y una varianza S2 = 34,66. Esta última S sería solamente atribuible al error
2

aleatorio. Mientras que, en la realidad, esa variabilidad se obtuvo de las diferencias entre las
medias de las muestras, que son medias de muestras de dos poblaciones distintas. Como
consecuencia de esto se puede definir el Análisis de Varianza diciendo que: "Dado un
conjunto de observaciones, obtenidas bajo la acción de varias causas asignables de variación,
o bien, bajo factores controlables, se puede particionar la variabilidad total presente en estas
observaciones en varias fuentes independientes, unas atribuibles a los factores controlables y
un remanente, atribuido única y exclusivamente al error aleatorio. El Análisis de la varianza no
sólo permite particionar las fuentes de variación sino también llegar a probar si esas
variaciones son significativas o no".
Retomemos el ejemplo en que se cuenta con los rendimientos de t variedades de trigo,
cada variedad medida n veces. Se tendrá un cuadro de la forma:
Variedad 1 i t
Mediciones
1 y11 yi1 yt1
. . . .
. . . .
. . . .
j y1j yij ytj
. . . .
. . . .
. . . .
n y1n yin ytn
TOTAL y1• yi• yt • . y••
Medias y1• yi• yt • y••
donde:
yij es el j-ésimo rendimiento de la i-ésima variedad:
n
y i• = ∑ y ij Es el rendimiento total de la i-ésima variedad.
j=1
n

y
∑y ij
Es el rendimiento promedio de la i-ésima variedad.
y i• = i• =
j=1

n n
t t n
y•• = ∑ yi• = ∑∑ yij Es el rendimiento total general.
i =1 i =1 j =1

y•• 1 t 1 t n
y•• = = ∑ yi• = ∑∑ yij Es el rendimiento promedio general
tn tn i =1 tn i =1 j =1

Cátedra de Estadística y Diseño, Facultad de Ciencias Agrarias, UNMdP 77


La tabla de datos correspondiente a una prueba bajo un diseño completamente
aleatorizado tiene una de las siguientes estructuras:

Tratamientos 1 2 ... t 1 2 ... t


y11 y21 ... yt1 y11 y21 ... yt1
. . . . . . . .
Observaciones . . . . . . . .
. . . . . . . .

y1n1 y2 n2 ... yt nt y1n y2n ... ytn

Totales y1• y2• ... yt • y1• y2• ... yt •

Nº de repeticiones n1 n2 ... nt n n ... n


ni variable (desbalanceado) n fijo (balanceado)

y•• = ∑ yi• y•• = ∑ yi•


i i

N = ∑ ni N = tn

Resulta necesario introducir las siguientes abreviaturas y ecuaciones:


SC = Suma de Cuadrados
SC TOTAL = SC T = ∑∑ ( y ij - y •• )
2

i j

Si se suma y se resta la media de cada grupo:

SCT = ∑∑( yij - yi• + yi• - y•• )


2

i j

= ∑∑( yij - yi• ) +∑∑( yi• - y•• ) +(doble producto=0)


2 2

i j i j

(1) (2)
(1) es la SCdentro de grupos = SCerror = SCE
(2) es la SCentre grupos = SCtratamientos = SCTRAT
Según las distintas variantes existentes, el análisis se realiza de la siguiente manera:

A. Modelo I. Datos balanceados.


El análisis de varianza (ANOVA) para el modelo I tiene como objeto llegar a probar las
hipótesis:
H0: τi = 0 para i = 1, 2, ..., t (no hay efecto diferencial de niveles de tratamiento en la variable
respuesta, lo que es equivalente a decir: todos los niveles de
tratamiento tienen igual promedio poblacional para la variable
respuesta)
H1: algún τi ≠ 0 (hay efecto diferencial de niveles de tratamiento)
con α: nivel de significación.
Para ello necesitamos:

Cátedra de Estadística y Diseño, Facultad de Ciencias Agrarias, UNMdP 78


SCTRAT que tiene (t - 1) grados de libertad (GL)
SCE que tiene (tn - t) = (t(n - 1)) grados de libertad
SCT que tiene (tn - 1) grados de libertad
Ecuaciones que simplifican el cálculo:

∑y i•
2

SC TRAT = i
− FC
n

SC T = ∑∑ y ij - FC
2

i j

2
y
donde: FC (factor de corrección) FC = ••
tn
SC E = SC T - SC TRAT
Cuadrados Medios: CM = SC/GL
SCTRAT
CM TRAT =
( t - 1)

CM E = SC E
( t ( n − 1) )
Fuentes de Variación: FV
Con ellas podemos construir el siguiente:
Cuadro de Análisis de Varianza
FV SC GL CM F
entre grupos SCTRAT t-1 CMTRAT CMTRAT/CME
(Tratamientos)
dentro de grupos SCE t(n - 1) CME −−−−−−−−−
(Error)
Total SCT tn - 1 −−−−−− −−−−−−−−−

CM TRAT
FTRAT = es el estadístico que nos permite probar las hipótesis. La región crítica es
CM E
RC = { FTRAT / FTRAT > F (t -1);t(n-1);1-α }

Entonces rechazamos H0 cuando FTRAT > FTABLA


No rechazar H0 significa concluir que no existen diferencias significativas entre los
promedios de la variable respuesta según los niveles de tratamiento puestos a prueba;
generalmente se simboliza con las letras n.s. al lado del cálculo F realizado en el análisis de
varianza.
Rechazar H0 representa la existencia de diferencias significativas entre los promedios
de la variable respuesta según los niveles de tratamiento puestos a prueba, y, generalmente,
se simboliza con un asterisco (*) o dos asteriscos (**) al lado del valor de F, según se haya
trabajado con un nivel de significación del 5% o del 1%, respectivamente.

Cátedra de Estadística y Diseño, Facultad de Ciencias Agrarias, UNMdP 79


Una forma alternativa de presentar los resultados e indicar la significación es dando el
valor p. En un análisis de varianza, el valor p es la probabilidad de obtener un valor del
estadístico igual o mayor al obtenido luego de realizar los cálculos, asumiendo que H0 es
verdadera. Si dicho valor p supera al valor α prefijado, no se rechaza la hipótesis nula,
mientras que un valor p menor al valor α prefijado, indica que se rechazará la hipótesis nula.
Las conclusiones se refieren solamente a los niveles de tratamiento puestos a prueba.
El análisis, por ahora, se completa con el cálculo del Coeficiente de Variación
Porcentual (CV%), el cual relativiza la variación no controlada de los datos, dentro de los
niveles de tratamiento, con respecto al promedio general de la variable respuesta y da una
idea de la precisión de las observaciones de esa prueba experimental. Se calcula como:

CM E
CV% = x 100
y ••

B. MODELO I. Datos desbalanceados.


Sólo se agregará lo que cambia en los cálculos respecto al caso balanceado, a saber:
y y••
yi• = i• y•• =
ni ∑ ni
2
y•• yi2•
FC = SCTRAT = ∑ − FC
∑ ni ni

SCT tiene (Σni - 1) grados de libertad


SCE tiene (Σni - t) grados de libertad
SCE
CM E =
(Σ ni − t )

{
R.C. = FTRAT / FTRAT 〉 F ( t −1);( Σni − t ); 1−α }
Todos los análisis de varianza deben culminar con una conclusión aplicada y el cálculo
del correspondiente Coeficiente de Variación.
EJEMPLO: Diseño completamente aleatorizado. Modelo I. Datos balanceados.
Se cuenta con los datos provenientes de un DCA en el que se probaron 4 alimentos aplicados
a lotes de pollitos y se desea evaluar si estos alimentos producen diferentes aumentos de
peso (en gramos), utilizando un nivel de significación del 1%. Los datos, después de un
período de alimentación, fueron los siguientes:
Alimentos
Lotes 1 2 3 4
1 55 61 42 169
2 49 112 97 137
3 42 30 81 169
4 21 89 95 85
5 52 63 92 154
TOTALES 219 355 407 714 1695
MEDIAS 43,8 71,0 81,4 142,8 84,75
Como se desean comparar sólo esos 4 alimentos, estamos ante un modelo I.

Cátedra de Estadística y Diseño, Facultad de Ciencias Agrarias, UNMdP 80


El modelo matemático es
yij = µ + τi + eij i = 1,...,4 j = 1,...,5
donde:
yij es el aumento de peso (en g.) del j-ésimo lote que recibió el i-ésimo alimento
µ es la media de aumento de peso
τi es el efecto del i-ésimo alimento
eij es el error aleatorio asociado al j-ésimo lote que recibió el i-ésimo alimento.
H0: τ1 = τ2 = τ3 = τ4 = 0 No hay aumentos de peso diferenciales según los alimentos
utilizados
H1: algún τi ≠ 0 Hay aumentos de peso diferenciales según los alimentos utilizados
α = 0,01
2 2
y 1695
FC = •• = = 143.651,25
tn 4×5
4 5
SCT = ∑ ∑y 2
ij − FC = ( 55)2 + (49) 2 + ... + (154 ) 2 −143.651, 25 = 37.793, 75
i =1 j =1

4
yi2• ( 219 ) 2 + ... + ( 714 ) 2
SCTRAT = ∑ − FC = − 143.651, 25 = 26.234,95
i =1 n 5

SCE = SCT - SCTRAT = 37.793,75 - 26.234,95 = 11.588,8


Cuadro de Análisis de Varianza
FV SC GL CM F
Entre alimentos 26234,95 t-1 = 3 8744,9833 12,105
Dentro de grupos o 11558,80 t(n-1) = 16 722,4250 --
error
TOTAL 37793,75 tn-1 = 19 -- --
R.C. = {FTRAT / FTRAT 〉 F ( t −1); t ( n −1);1−α } como F3; 16; 0,99 = 5,29
R.C. = { FTRAT / FTRAT 〉 5, 29}

CM TRAT 8.744, 9833


FTRAT = = =12,105
CM E 722, 4250

Como 12,105 > 5,29 (es decir, FTRAT ∈ RC), se rechaza la hipótesis nula y se concluye que
hay diferencias en el aumento de peso promedio de los pollitos según el alimento utilizado.

CM E 722, 425
CV% = x 100  CV % = ×100 = 32%
y •• 84, 75
La variación no controlada es de un 32% con respecto a la media de aumento de peso,
es decir, la variación dentro de los lotes de pollitos y que no se debe a los alimentos
corresponde a un 32% del aumento de peso promedio.

Cátedra de Estadística y Diseño, Facultad de Ciencias Agrarias, UNMdP 81


INTERPRETACIÓN GRÁFICA DE LA PARTICIÓN DE LA VARIABILIDAD TOTAL
El siguiente gráfico muestra los datos obtenidos de un DCA, con t = 3 y n = 4, y los
promedios de cada tratamiento. En particular, para la tercer repetición del tratamiento B
(codificado como tratamiento 2) se obtuvo y 23 = 19,3 , la media del tratamiento B fue y 2• = 17 ,8
y la media general, y•• = 11,5 . En el gráfico se puede observar como el aporte de dicha
observación a la SCTOTAL se particiona en sus respectivos aportes a SCTRAT y SCE .
20

y23

SCError y23 − y2 .
18

y2 .
16

SCTrat y2 . − y.. y23 − y.. SCTotal


Variable respuesta

14
12

y.. = 11,5
10
8
6

Trat_A Trat_B Trat_C

Tratamientos

DISEÑO EN BLOQUES COMPLETOS ALEATORIZADOS (DBCA)


Cuando se dispone de material experimental heterogéneo, las unidades
experimentales que del mismo se generen serán, por consecuencia, heterogéneas; por lo
tanto, éstas deberán ser cuidadosamente agrupadas, de manera que el número de unidades
experimentales dentro de cada grupo sea igual al número de niveles de tratamiento. A tales
grupos de unidades experimentales se les llama "Bloques", de allí la denominación del
diseño.
El objeto de agrupar las unidades experimentales en un bloque es controlar la
variación entre ellas, permitiendo así conocer los verdaderos efectos de los niveles de
tratamiento. La variabilidad entre bloques debe ser lo más grande posible.
En resumen, al bloquear debe tenerse especial cuidado en que las unidades
experimentales que componen cada bloque sean heterogéneas entre bloques y
homogéneas dentro de cada bloque.

Cátedra de Estadística y Diseño, Facultad de Ciencias Agrarias, UNMdP 82


La variabilidad entre bloques no afecta las diferencias entre niveles de tratamiento
puesto que cada nivel de tratamiento aparece en cada uno de los bloques.
En experimentación de campo cada bloque normalmente consiste de un grupo de
parcelas compactas y cercanas. El criterio que se sigue para la construcción de bloques debe
suponer, en todos los casos, el conocimiento previo del material experimental de que se
dispone y, además, tener el concepto claro de qué es lo que se quiere inferir. La construcción
de bloques reviste singular importancia. Por ejemplo, en el caso que se quiera controlar la
heterogeneidad del terreno: los bloques deben ser construidos perpendicularmente al
"gradiente de heterogeneidad" y, dentro de cada bloque, las unidades experimentales deben
estar en forma paralela al gradiente mencionado. De esta forma, se logra el interés de obtener
homogeneidad dentro de cada bloque y heterogeneidad entre ellos.
Por ejemplo: se quiere evaluar el rendimiento de 7 variedades de cebada y se dispone
para el ensayo de un terreno que tiene una pendiente del 2% (2 metros de desnivel por cada
100 metros de longitud), ¿cómo se procede en este caso? Lo primero que se debe preguntar
es si esa diferencia de altura en el terreno tiene alguna incidencia en el rendimiento de la
cebada. La respuesta es afirmativa y el por qué es muy simple. Las diferencias de altura en
los suelos están siempre vinculadas al distinto grado de fertilidad de los mismos, los cuales
producirán distintos efectos en el rendimiento de las variedades de cebada.
A los efectos del estudio, esta fuente de variación debe ser controlada y la forma de
hacerlo es mediante la construcción de bloques. Estos se deben construir en forma
perpendicular a la dirección de la pendiente (o sea, a la dirección del gradiente de
heterogeneidad). Una vez hecho esto, se delimitarán dentro de cada bloque las unidades
experimentales en forma paralela a la dirección de la pendiente. El por qué de esto último es
que, de existir alguna pequeña diferencia entre el borde superior e inferior del bloque afecta
del mismo modo a todos los niveles de tratamiento que contiene el bloque, garantizando así la
total homogeneidad dentro del bloque.

100 metros de longitud


I
II 2 metros de desnivel
III

Dirección de la 2 5 3 4 7 1 6 Bloque I
pendiente:
variación de
fertilidad Bloque II

Bloque III

En experiencias con animales la agrupación puede hacerse por características tales


como: distinto peso inicial, distinta edad, distinta raza, distinto sexo, distintas condiciones del
animal, etc.
Es de hacer notar el balance que existe en este diseño. Cada nivel de tratamiento
aparece una sola vez en cada bloque y cada bloque contiene todos los niveles de tratamiento.
El hecho que cada bloque contenga a todos los niveles de tratamientos es lo que le da el
nombre de COMPLETO. Dentro de cada bloque debe hacerse una asignación aleatoria de los
niveles de tratamiento a las unidades experimentales (realizando una nueva aleatorización en
cada bloque). Esto es lo que le da el nombre de ALEATORIZADO.

Cátedra de Estadística y Diseño, Facultad de Ciencias Agrarias, UNMdP 83


El DBCA es el diseño utilizado con mayor frecuencia y tiene más ventajas que otros
diseños. Generalmente, es posible agrupar las unidades experimentales de forma que se
obtenga mayor precisión y control que en un diseño completamente aleatorizado. No hay
restricción ni en el número de niveles de tratamiento ni en el de bloques. El análisis de los
datos es simple.
El peligro real es la mala ubicación de los bloques en el campo o la mala distribución
dentro de los bloques de los niveles de tratamiento, para lo cual se exige una aleatorización
independiente en cada bloque.
Una de las desventajas es que, cuando el número de niveles de tratamiento es muy
grande, no es posible encontrar material experimental tan homogéneo para cada bloque, y
esa posible heterogeneidad dentro de los bloques pasa a integrar el error experimental.
Modelo matemático:
Para un DBCA, el modelo matemático tiene la siguiente forma:
yij =µ + τi + γj + eij i = 1,...,t; j = 1,...,n
donde:
yij es la observación de la variable respuesta correspondiente al i-ésimo tratamiento en
el j-ésimo bloque
µ es el promedio general de la variable respuesta
τi es el efecto del i-ésimo tratamiento
γj es el efecto del j-ésimo bloque
eij es el error aleatorio correspondiente a la ij-ésima observación

ANOVA PARA UN DBCA:


Para este diseño la Suma de Cuadrados Total tiene tn-1 grados de libertad y puede
descomponerse en:
1) Suma de Cuadrados para Tratamientos con (t-1) grados de libertad.
2) Suma de Cuadrados para Bloques con (n-1) grados de libertad.
3) Suma de Cuadrados de Error con (t-1)(n-1) grados de libertad.
En comparación con el diseño completamente aleatorizado, la separación de la Suma
de Cuadrados entre Bloques de la Suma de Cuadrados del Error produce como resultado
la disminución del Cuadrado Medio Residual o de Error, y el Error tiene (n-1) grados de
libertad menos. Esta pérdida de grados de libertad se compensa y se recupera en forma muy
considerable si los bloques están bien hechos. En ese caso, el tener mucha diferencia entre
bloques produce una notable disminución en el Error Experimental. Como consecuencia, se
logra una mayor sensibilidad en las pruebas de hipótesis para evaluar los efectos de
tratamientos. También se obtiene una mayor precisión, que puede llamarse mayor exactitud,
en las estimaciones de las diferencias entre medias de tratamiento.
Estructura y análisis de los datos
Las hipótesis a probar serán las mismas que las de un DCA, modelo I. La estructura
de una tabla de datos provenientes de este diseño tendrá la forma:

Cátedra de Estadística y Diseño, Facultad de Ciencias Agrarias, UNMdP 84


TABLA DE DATOS
TRATAMIENTOS 1 2 ... t TOTAL MEDIA
BLOQUES
1 y1 1 y2 1 ... yt 1 y•1 y•1
2 y1 2 y2 2 ... yt 2 y•2 y•2
. . . . . .
. . . . . .
. . . . . .
n y1 n y2 n ... yt n y• n y• n
TOTAL y1• y2• ... yt • y••

MEDIA y1• y2• ... yt • y••

Para poner a prueba las hipótesis con un nivel de significación α, se realizarán los
siguientes cálculos para obtener el cuadro de ANOVA:

∑ y i•
2
y••2
FC = SC TRAT = - FC
tn n
∑ y •2 j SC T = ∑∑ y ij - FC
2

SC BLOQ = - FC i j
t
SC E = SC T - SC TRAT - SC BLOQ SCTRAT tiene (t - 1) grados de libertad

SCBLOQ tiene (n - 1) grados de libertad SCT tiene (tn - 1) grados de libertad

SCE tiene (t - 1)(n - 1) grados de libertad CM TRAT = SC TRAT /(t - 1)

CM BLOQ = SC BLOQ /(n - 1) CM E = SC E /(t - 1)(n - 1)


Cuadro de Análisis de Varianza
FV SC GL CM F
Entre tratamientos SCTRAT t-1 CMTRAT CMTRAT/CME
Entre bloques SCBLOQ n-1 CMBLOQ CMBLOQ/CME
Error SCE (t-1)(n-1) CME ----
Total SCT tn-1 ---- ----

RC = { F TRAT / F TRAT > F (t -1);(t -1)(n-1);1-α } . Entonces, se rechaza Ho cuando FTRAT > FTABLA.

La forma de concluir respecto de los tratamientos es igual que en el diseño


completamente aleatorizado.

CM E
El coeficiente de variación porcentual es CV % = × 100 , que es una medida de
y ••
la variación no controlada relativizada al valor medio de la variable respuesta, y se puede
considerar como una medida de la precisión de la experiencia.
También se puede analizar la eficiencia del bloqueo (con respecto a un DCA)

Cátedra de Estadística y Diseño, Facultad de Ciencias Agrarias, UNMdP 85


comparando el valor FBLOQ con el valor 1. Si FBLOQ > 1 se dice que bloquear fue más eficiente
que no hacerlo.
Ejemplo:
Supongamos que se cuenta con un lote de terreno con una pendiente, en el cual se
desean poner a prueba tres niveles de distancia entre surcos y evaluar su efecto sobre el
rendimiento de un cultivo de soja. Dado que la pendiente puede originar diferencias en el
rendimiento, se decide realizar un ensayo utilizando un diseño en bloques completos
aleatorizados. Los bloques estarán dispuestos en forma perpendicular a la pendiente y es
posible realizar 4. En cada uno de los bloques se asignará aleatoriamente a las tres parcelas
que los componen, los niveles de tratamiento (distancia entre surcos). Los rendimientos
obtenidos (en kg/parcela) se muestran en la siguiente tabla:

Bloques Total
Distancias e/surcos I II III IV
Baja 330 288 295 313 1226
Media 372 340 343 341 1396
Alta 359 337 373 302 1371
Total 1061 965 1011 956 3993
El modelo matemático es yij = µ + τ i + γ j + eij i = 1, 2,3 j = 1,K ,4
donde:
yij es el rendimiento observado en la parcela del j-ésimo nivel de pendiente
(bloque) que fue sembrada a la i-ésima distancia entre surcos
µ es el rendimiento promedio
τi es el efecto en el rendimiento de la i-ésima distancia entre surcos
γj es el efecto en el rendimiento del j-ésimo nivel de pendiente
eij es el error aleatorio asociado a la ij-ésima observación
Dado que esas tres distancias son las únicas de interés, las hipótesis a poner a prueba
son:
H0: τi = 0 ∀ i ( i = 1, 2, 3) No hay diferencias en el rendimiento debidas a las diferentes
distancia entre surcos.
H1: algún τi ≠ 0 Hay diferencias en el rendimiento según la distancia entre
surcos utilizada.
Para obtener el cuadro de ANOVA, realizamos los siguientes cálculos:
2
y•• 39932
FC = = = 1328670, 75
tn 3× 4
SCT = ∑ ∑y 2
ij − FC = 3302 + 2882 + K + 302 2 − FC
i j

= 1337535 − 1328670, 75 = 8864, 25


∑ yi2• 12262 + 13962 + 13712
SCTRAT = i
− FC = − 1328670, 75
n 4
= 1332883, 25 − 1328670, 75 = 4212,5

Cátedra de Estadística y Diseño, Facultad de Ciencias Agrarias, UNMdP 86


∑ y•2 j
j 10612 + 9652 + 10112 + 9562
SCBLOQ = − FC = − FC
t 3
= 1331001 − 1328670, 75 = 2330, 25

SCE = SCT − SCTRAT − SCBLOQ = 8864, 25 − 4212,5 − 2330, 25 = 2321, 5

CUADRO DE ANOVA
FV SC GL CM F
Entre distancias 4212,50 2 2106,25 5,44
Entre bloques 2330,25 3 776,75 2,01
Error 2321,50 6 386,92 -
Total 8864,25 11 - -
RC = { FTRAT / FTRAT > F2 ; 6 ; 0.95 = 5,14 }
Como 5,44 > 5,14 ( FTRAT > FTABLA), entonces se rechaza H0. Podemos concluir que el
rendimiento difiere según la distancia entre surcos utilizada.
El coeficiente de variación porcentual es CV% = 5,91%, es decir, la variación no
controlada corresponde aproximadamente a un 6% del rendimiento medio de soja.
Respecto al bloqueo, como 2,01 > 1, puede decirse que el bloqueo fue eficiente.

Bibliografía:
Steel, R. G. D. y Torrie J. H (1988) Bioestadística Principios y Procedimientos. McGraw-Hill
México. Capítulos 6, 7 y 9.
Box, G. E. P. Hunter, W. G. y Hunter, J. S. (1999) Estadística para investigadores,
Introducción al Diseño de experimentos, Análisis de datos y Construcción de modelos.
Editorial Reverté S.A. Capítulos 6 y 7.
Kuehl, R. O. (2001) Diseño de experimentos. Segunda ed. Thomson International. Capítulos 1,
2 y 8.
Montgomery, D. C. (1991) Diseño y análisis de experimentos. Grupo Editorial Iberoamérica.
Capítulos 1, 2, 3 y 5.

Cátedra de Estadística y Diseño, Facultad de Ciencias Agrarias, UNMdP 87

También podría gustarte