Está en la página 1de 7

UNIVERSIDAD NACIOANAL AGRARIA SEDE CAMOAPA

ASIGNATURA:
EXPERIMENTACION AGROPECUARIA Y FORESTAL
INGENIERIA AGRONÓMICA
DOCENTE: EFRAÍN JIRÓN ARAGÓN

Unidad IV. Fundamento del Análisis de Varianza


Objetivos
 Interpretar la definición del análisis de varianza (ANDEVA) y del modelo
aditivo lineal (MAL).
 Conocer la aceptación o rechazo de las hipótesis a través de la prueba de F del
ANDEVA.
 Conocer las fórmulas operacionales del ANDEVA y la presentación de sus
resultados.
 Conocer las aplicaciones del ANDEVA.

Contenido
Introducción
Modelo aditivo lineal
Arreglo de muestras
Procedimientos para determinar las sumas de cuadrados
Prueba de hipótesis a través de F (ANDEVA)
Formulas operacionales
Supuestos del ANDEVA
Forma de presentación del análisis de varianza
Aplicación del análisis de varianza

4.1. Introducción.
Desde el punto de vista práctico, el menor número de tratamientos en el experimento más
sencillo comprende la comparación entre dos tratamientos, en este caso los criterios
utilizados se basan en las pruebas de “t” y “z”. Sin embargo, pudo haberse utilizado la
prueba de F o análisis de varianza. Este último procedimiento se emplea cuando se
comparan varias muestras (tratamientos) extraídos al azar y en forma independiente, de
poblaciones normales con varianza común.
Es comúnmente conocido que la variabilidad total de una población no es consecuencia de
un solo factor, sino el resultado de cierto número de causas independientes. El análisis de
varianza (ANDEVA) es un procedimiento aritmético que consiste en partir la variabilidad
total de un conjunto de observaciones en conocidas fuentes de variación y en causas
desconocidas de variación.

1
Significa que la variabilidad total de un población se puede descomponer en diferentes partes, lo
que corresponde a los factores conocidos (los tratamientos) y la variabilidad restante, que no es
posible medir en un experimento, que es ajena al control razonable del experimentador, constituye
el error experimental. Su valor cuantitativo proporciona un indicador sobre la mayor o menor
precisión con que se ha realizado el trabajo experimental de donde proceden las observaciones.
El análisis de varianza es el método más generalizado en la experimentación agrícola y los demás
estudios biológicos por ser más preciso, flexible y de más fácil aplicación. Por medio de la
descomposición de la variabilidad total en sus diferentes componentes, se puede determinar si
existen diferencias significativas o no, entre los tratamientos objeto de estudio.
Esta es la principal utilidad del método conocido como Análisis de Varianza ideado por Sir Ronald
Fischer, matemático estadístico inglés que contribuyó grandemente al actual desarrollo científico-
técnico debido a que el ANDEVA es una herramienta muy útil en muchas disciplinas del saber
humano y en investigaciones en que se aplican la observación y la experimentación.

4.2. Modelo Aditivo Lineal. (M.A.L.)


Es un modelo matemático que representa la constitución de una observación como una media
general más un elemento aleatorio de variación.
Cualquier observación de una población puede expresarse por medio de una media más un cierto
error.
𝒀𝒊𝒋 = 𝝁 + 𝝉𝒊 + 𝜺𝒊𝒋
Donde:
i = 1,2, … … … … … … t tratamientos
j = 1,2, … … … … … … n observaciones.
Yij = La j − ésima observación del i − ésimo tratamiento.
μ = media general (efecto común a cualquier observación).
τi = efecto del i − ésimo tratamiento.
εij = efecto aleatorio de variación.

Las suposiciones que se hagan de la media 𝝁 y del error 𝜺𝒊𝒋 , variarán con el problema que se tenga.
Sin embargo, debe existir una suposición mínima y ésta es, que 𝒀𝒊𝒋 debe obtenerse al azar, es decir,
los errores de muestreo 𝜺𝒊𝒋 deben ser aleatorios. Los términos de 𝜺𝒊𝒋 se supone que pertenecen a
una población de 𝜺𝒊𝒋 que tiene media cero.

Como las observaciones se obtienen al azar, este procedimiento asegura independencia de los
errores de muestreo, condición fundamental en esta teoría para hacer inferencias válidas sobre una
población. Tales supuestos acerca del Modelo Aditivo Lineal pueden resumirse de la siguiente
forma:
1. Los errores de muestreo 𝜺𝒊𝒋 , siguen la distribución normal con media cero y
varianza S2e , esto es (O, S2e), donde S2e es la varianza común dentro de los
tratamientos.
2. También se asume ∑ 𝝉𝒊 = 𝟎, de manera que 𝝉𝒊 sigue la distribución normal con
media cero y varianza S2t, esto es, (O, S2t), donde S2t es la varianza entre
tratamientos.

2
El análisis estadístico de las variables obtenidas en un experimento usualmente consiste en verificar
la 𝐻𝑜: ∑ 𝝉𝒊 = 𝟎. Si la hipótesis nula es verdadera, no existen efectos de tratamientos y cada
observación Yij está compuesta de su media poblacional y el elemento aleatorio de variación.
Se usa la prueba de "F" o análisis de varianza suponiendo que t poblaciones c/u representando un
tratamiento extraído al azar de cada población pudiendo hacer estimaciones de las medias de
tratamientos y la media general realizando nj observaciones iguales para cada tratamiento
Esquema de arreglo de las muestras aleatorias

Muestra 1 Muestra 2 Muestra 3 Muestra i Muestra “t”


(trat. 1) (trat. 2) (trat. 3) (trat. i) (trat. “t”)
Y11 Y21 Y31 Yi1 Yt1
Y12 Y22 Y32 Yi2 Yt2
Y13 Y23 Y33 Yi3 Yt3
Y14 Y24 Y34 Yi4 Yt4
. . . . .
. . . . .
Y1n Y2n Y3n Yin Ytn

Totales Y1. Y2. Y3. Yi. Yt.→ Y..


Gran Total.
Medias Y1./n Y2./n Y3./n Yi./n Yt./n
Medias 𝑌̅1. 𝑌̅2. 𝑌̅3. 𝑌̅i. 𝑌̅t.→ 𝑌̅
Media General

𝑌̅𝑖 = ∑ 𝑌𝑖𝑗 /𝑛

𝑌̅. . = ∑ ∑ 𝑌𝑖𝑗 /𝑛𝑡 ; 𝑜 𝑏𝑖𝑒𝑛 ∑ 𝑌̅𝑖. /𝑡 ; 𝑁 = 𝑛𝑡

4.3.1. Procedimiento para determinar la suma de cuadrados.


El Modelo Aditivo Lineal indica que, cada observación está compuesta por una media
general, más un efecto debido a los tratamientos, más los términos propios de la variación
aleatoria (el error experimental). En síntesis el M.A.L. indica que:
𝒀𝒊𝒋 = 𝝁 + 𝝉𝒊 + 𝜺𝒊𝒋
También es conocido el supuesto de que se desean verificar, partiendo del razonamiento
“reductio ad absurdum”; esto es, que no hay efecto de tratamientos planteado en la
hipótesis:

𝑯𝒐 : 𝝉𝟏 = 𝝉𝟐 = 𝝉𝟑 = ⋯ . 𝝉𝒕 𝒐 𝒃𝒊𝒆𝒏 ∑ 𝝉𝒊 = 𝒐

3
Si la Ho es cierta, entonces 𝒀𝒊𝒋 = 𝝁 + 𝜺𝒊𝒋 , esto indicaría que los tratamientos rinden en promedio lo
mismo y que las diferencias presentes son casuales o aleatorias. Pero bien, es eso lo que
precisamente se desea verificar, mediante la prueba de F. que consiste sencillamente en una
relación de varianzas, donde:
F = s2t /s2e ; siendo conocido que una varianza es: s2 = SC/gl.
Por lo tanto, el procedimiento a desarrollar es determinar las Sumas de Cuadrados (S.C) respectivas,
para con el uso de los grados de libertad (gl) conocidos, obtener los estimadores de s2 y efectuar la
relación necesaria. A partir del esquema para el arreglo de las muestras presentadas anteriormente
se deducen algunos términos básicos muy importantes:
a) La media general (𝒀 ̅ ..) estima a 𝝁
b) La media de cada tratamiento (𝒀 ̅ 𝒊 .) estima el efecto de cada uno de los tratamientos.
c) La suma de las diferencias entre (𝒀 ̅ 𝒊 . −𝒀
̅ . . ) permite estimar la suma de cuadrados entre
tratamientos; esto es, que permite estimar la suma de cuadrados de 𝝉𝒊 .
d) La sumatoria de las diferencias entre (Yij - 𝒀 ̅ i.) permite estimar la suma de cuadrados dentro
de tratamientos, es decir, la suma de cuadrados del error experimental (𝜺𝒊𝒋 ).
El dominio de estos cuatro términos es muy importante debido a que el M.A.L. en función de
parámetros es prácticamente desconocido, solamente una estimación es la que se puede obtener a
partir de los datos experimentales. Esta estimación permitirá realizar generalizaciones correctas, si
se cumplen los supuestos del ANDEVA. Todo lo antes explicado puede plantearse en términos
matemáticos de la forma siguiente:
𝒀𝒊𝒋 = 𝝁 + 𝝉𝒊 + 𝜺𝒊𝒋 … … … … … . 𝒆𝒄. (𝟏)  𝑬𝒄𝒖𝒂𝒄𝒊ó𝒏 𝒅𝒆 𝒑𝒂𝒓á𝒎𝒆𝒕𝒓𝒐𝒔.
̅ .. + (𝒀
𝒀𝒊𝒋 = 𝒀 ̅ 𝒊. − 𝒀
̅ .. ) + (𝒀
̅ 𝒊𝒋 − 𝒀
̅ 𝒊. ) … … 𝒆𝒄. (𝟐) 𝑬𝒄𝒖𝒂𝒄𝒊ó𝒏 𝒅𝒆 𝑬𝒔𝒕𝒂𝒅í𝒔𝒕𝒊𝒄𝒐𝒔.
̅ .. = (𝒀
𝒀𝒊𝒋 − 𝒀 ̅ 𝒊. − 𝒀
̅ .. ) + (𝒀
̅ 𝒊𝒋 − 𝒀
̅ 𝒊. ) … … 𝒆𝒄. (𝟑) 𝑬𝒄𝒖𝒂𝒄𝒊ó𝒏 𝒅𝒆 𝑬𝒔𝒕𝒂𝒅í𝒔𝒕𝒊𝒄𝒐𝒔.

La ecuación 3 se puede interpretar así: la desviación de cualquier información con respecto a la


media general puede descomponerse en dos partes:
a- La desviación de la media de los tratamientos con respecto a la media general.
b- La desviación de las observaciones con respecto a la media de su tratamiento.
Para determinar las sumas de cuadrados necesarias para realizar el ANDEVA se manipula
matemáticamente la ecuación (3). Debe recordarse que desviaciones elevadas al cuadrado
constituyen suma de cuadrados. Se le aplica sumatoria y se eleva al cuadrado cada uno de los
miembros de la ecuación (3); finalmente se desarrolla el binomio establecido, para obtener la
ecuación fundamental del ANDEVA.
̅ .. )𝟐 = ∑ ∑[(𝒀
∑ ∑(𝒀𝒊𝒋 − 𝒀 ̅ 𝒊. − 𝒀 ̅ 𝒊. )]𝟐 … . . 𝒆𝒄. (𝟒)
̅ .. ) + (𝒀𝒊𝒋 − 𝒀

2
∑ ∑(𝑌𝑖𝑗 − 𝑌̅.. )2 = ∑ ∑(𝑌̅𝑖. − 𝑌̅.. )2 + (𝑌𝑖𝑗 − 𝑌̅𝑖. ) +

2 ∑ ∑[(𝑌̅𝑖. − 𝑌̅.. ) ∗ (𝑌𝑖𝑗 − 𝑌̅𝑖. )] … 𝑑𝑜𝑛𝑑𝑒: 2 ∑ ∑[(𝑌̅𝑖. − 𝑌̅.. ) ∗ (𝑌𝑖𝑗 − 𝑌̅𝑖. )] = 0


Por lo tanto:
𝟐
̅ .. )𝟐 = ∑ ∑(𝒀
∑ ∑(𝒀𝒊𝒋 − 𝒀 ̅ 𝒊. − 𝒀
̅ .. )𝟐 + (𝒀𝒊𝒋 − 𝒀
̅ 𝒊. ) … … … … 𝒆𝒄. (𝟓)

Esta última ecuación recibe el nombre de: “Ecuación Fundamental del Análisis de Varianza” y
se interpreta como:

4
La SC Total = SC de tratamientos + SC del Error
La búsqueda de las sumas de cuadrados (S.C) son un medio y no un fin. Son necesarias las
S.C., para luego relacionarlas con sus grados de libertad (gl) respectivos y obtener los
estimadores de varianza que realmente evaluarán la variabilidad presente en los datos
experimentales. Recuérdese que una s2 = S.C./gl.; por lo tanto, si cada término de la
ecuación fundamental del ANDEVA se divide entre sus gl, se obtiene una ecuación en
función de varianzas; entonces al dividir :
SC Total/nt-1; SC Entre Tratamientos/t-1; SC Dentro de Tratamientos/t(n-1)
Se obtienen tres estimadores de varianzas, que expresan el concepto básico del ANDEVA:
S2Total = S2Entre tratamiento + S2Dentro de tratamiento

4.3.2. Prueba de hipótesis a través de F (ANDEVA)


Se ha partido la variabilidad total de un conjunto de observaciones, tanto en fuentes conocidas de
variación como en fuentes extrañas de variación; estas son, de acuerdo al procedimiento
desarrollado:
a. A partir de las medias muestrales, dado por:
𝑺𝟐𝒕𝒓𝒂𝒕 = ∑ ∑(𝒀 ̅ 𝒊𝒋 − 𝒀
̅ .. )𝟐 /𝒕 − 𝟏  𝑽𝒂𝒓𝒊𝒂𝒃𝒊𝒍𝒊𝒅𝒂𝒅 𝒆𝒏𝒕𝒓𝒆 𝒕𝒓𝒂𝒕𝒂𝒎𝒊𝒆𝒏𝒕𝒐𝒔

b. A partir de los individuos de las “t” muestras, dado por :


𝑺𝟐𝒆𝒓𝒓𝒐𝒓 = ∑ ∑(𝒀𝒊𝒋 − 𝒀 ̅ .. )𝟐 /𝒕(𝒏 − 𝟏) =  𝑽𝒂𝒓𝒊𝒂𝒃𝒊𝒍𝒊𝒅𝒂𝒅 𝑨𝒍𝒆𝒂𝒕𝒐𝒓𝒊𝒂

La prueba de F es una razón entre dos varianzas y se utiliza para determinar si dos estimaciones de
varianzas independientes, pueden ser admitidas como estimadores de una misma varianza. De ahí
que, una prueba de significación para las diferencias entre “t” medias muestrales (tratamientos), es
decir, probar la hipótesis nula de igualdad de tratamientos, se podría determinar mediante la razón
de los dos estimados de varianzas anteriores, esto es precisamente la prueba de F.
De esta forma, si se tienen “t” muestras extraídas al azar de poblaciones con medias desconocidas y
varianzas iguales, y se plantea la hipótesis:
𝑯𝒐 : 𝝁 𝟏 = 𝝁 𝟐 = 𝝁 𝟑 = ⋯ … … … = 𝝁 𝒕
𝑯𝒂 = 𝑵𝒐 𝒕𝒐𝒅𝒂𝒔 𝒍𝒂𝒔 𝒎𝒆𝒅𝒊𝒂𝒔 𝒔𝒐𝒏 𝒊𝒈𝒖𝒂𝒍𝒆𝒔.
Entonces el estadístico F con (t-1) y t(n-1) grados de libertad, puede usarse:
S2 a partir de medias  variabilidad entre tratamientos
F = --------------------
S2 a partir de individuos  variabilidad aleatoria.

El estimador de S2 obtenido a partir de individuos, no es afectado por medio de las medias


muestrales (media general); mientras que, S2 obtenida de las medias si puede estar afectada,
producto de cada muestra representa un tratamiento distinto, que son en los cuales se está interesado
en examinar su efecto. El cociente de la relación entre estos 2 estimadores de la varianza expresa
dos posibles resultados cualitativos diferentes sumamente importantes, a saber:

5
a) El estadístico Fc es relativamente grande (mayor que 1), consecuencia de un numerador
relativamente grande, debido a que las diferencias entre las medias muestrales (medias
de tratamientos) es bien marcada. Esto conduce a interpretar que la variación entre
tratamientos es significativa, lo cual implica rechazar la hipótesis nula (Ho) y concluir
que las diferencias observadas entre las medias muestrales (tratamientos) no son
casuales sino reales.

b) El estadístico Fc es relativamente pequeño (menor que 1), o aproximado a 1,


consecuencia de un numerador pequeño o bien bastante parecido al denominador, lo
cual se debe a que las diferencias entre las medias muestrales (tratamientos) no es tan
relevante. Esto conduce a interpretar que la variación entre tratamientos no es tan
significativa, lo cual implica aceptar la hipótesis nula (Ho) y concluir que las
diferencias observadas entre los tratamientos, si bien existen, no son reales sino
aleatorias; es decir, es propia de la variabilidad innata de los organismos vivos o del
manejo experimental de los mismos.

4.4. Fórmulas Operacionales del ANDEVA


1. 𝑆𝐶 𝑇𝑜𝑡𝑎𝑙 = ∑ ∑(𝑌𝑖𝑗 + 𝑌.. )2 = ∑ ∑ 𝑌𝑖𝑗 2 − (𝑌.. )2 /𝑛𝑡 ……. ec. (6)

2. 𝑆𝐶 𝐸𝑛𝑡𝑟𝑒 𝑡𝑟𝑎𝑡𝑎𝑚𝑖𝑒𝑛𝑡𝑜 = ∑ ∑(𝑌𝑖. + 𝑌.. )2 = ∑ ∑ 𝑌𝑖. 2 /𝑛 − (𝑌.. )2 /𝑛𝑡 …. ec. (7)

3. Sc dentro de tratamiento = SC Total – SC Entre tratamiento …… ec. (8).

4.5. Supuestos del análisis de varianza.


4.5.1. Independencia
El supuesto se refiere a que los términos del error no están correlacionados. Puesto que
parcelas adyacentes de un campo tienden a estar más estrechamente relacionadas entre sí,
que parcelas separadas utilizando técnicas de azarización, el investigador hace todo lo
posible para que la correlación entre errores no afecte a ningún tratamiento en particular. La
mayor seguridad contra cualquier violación de este supuesto consiste en llevar a cabo una
buena azarización de acuerdo al diseño experimental a usar. De no ser así, los resultados
podrían no reflejar imparcialmente los efectos de los tratamientos. La no aleatoriedad puede
muy bien reflejarse en falta de independencia de los datos o en heterogeneidad de los
varianzas o en la anormalidad de la distribución.

4.5.2. Normalidad
Este supuesto significa que si se grafican todos los valores del error se obtendría una
distribución normal. La consecuencia de la no normalidad no son graves si la desviación es
moderada; sólo distribuciones muy asimétricas afectan considerablemente los efectos de
significación.

4.2.3. Homogeneidad de varianza.


Este supuesto se refiere a que las variaciones del error dentro de tratamientos son
homogéneas entre sí, puesto que en el ANDEVA se tiene como hipótesis nula que todas las

6
muestras (tratamientos) provienen de la misma población. La homogeneidad de las
varianzas es frecuente en ciertos tipos de experimentos agrícolas.

4.5.4. Aditividad
Para cada diseño experimental existe un modelo matemático denominado M.A.L., el cual
explica que los efectos principales del modelo son aditivos; es decir:
Para un D.C.A. , este modelo es: 𝒀𝒊𝒋 = 𝝁 + 𝝉𝒊 + 𝜺𝒊𝒋
Para un B.C.A. , este modelo es: 𝒀𝒊𝒋 = 𝝁 + 𝝉𝒊 + 𝜷𝒋 + 𝜺𝒊𝒋
El aspecto importante que debe notarse en estos modelos es que los términos se suman, a
medida que se adicionan otras fuentes de variación en estudio.

4.6. Forma de presentación del análisis de varianza.


Si F calculado es significativo, es costumbre indicarse con un asterisco, escrito en la parte
derecha superior del valer respectivo, y es altamente significativo, con dos asteriscos.
Presentación del ANDEVA
Fuente de variación Suma de Grados de Cuadrado Fc
cuadrados libertad Medio
Entre Muestras SCEM t-1 SCEM/t-1 CMEM/CMDM
Dentro de Muestras SCDM t(n-1) SCDM/t(n-1)
Total SCT tn – 1

4.7. Aplicación del análisis de varianza.


Las posibilidades de uso del análisis de varianza son ilimitadas en los diversos campos
donde se haga uso de la experimentación de fenómenos sujetos a variación. En todas las
aplicaciones, generalmente las fuentes de variación entre muestras es conocido como
tratamientos y dentro de muestras como error.
Para ilustración, Caballero W. (1975), cita algunos ejemplos donde puede usarse el análisis
de varianza:
 Efecto de variedades y diferentes dosis de fertilización nitrogenada sobre el
rendimiento de un cultivo determinado.

 Efecto de diversas raciones alimenticias sobre la ganancia de peso en animales.

 Efecto de toxicidad y poder residual de productos químicos sobre insectos, etc.