Documentos de Académico
Documentos de Profesional
Documentos de Cultura
1 2004
E. León
RESUMEN
SUMMARY
In the present review an enumeration has been made on the evolution of methods for
estimation of variance components from its beginning to present times. A special
emphasis is made in the main methods (ANOVA, REML, GIBBS) which have been
23
Revista Computadorizada de Producción Porcina Vol: 11 No. 1 2004
employed during last years, its advantages and constraints, as well as the main statistic
softwares supporting it, and applied in present times.
Tabla de contenido
Introducción, 24
Un recorrido por la historia de los métodos de estimación de componentes de varianza, 25
ANOVA-Mínimos cuadrados, 26
Método III de Henderson, 27
Máxima verosimilitud restringida (REML), 28
Métodos bayesianos, 31
El muestreo de Gibas, 32
Referencias, 32
INTRODUCCIÓN
Este tipo de análisis presenta varios problemas importantes cuando se trata de datos
provenientes de esquemas de selección en varias generaciones y tomados en
condiciones ambientales no controladas. Estos problemas aparecen enumerados en la
tabla 1.
24
Revista Computadorizada de Producción Porcina Vol: 11 No. 1 2004
Las primeras referencias que se conocen de estimación de efectos fijos fueron informadas
por Legendre (1806) y Gauss (1809), reconocidos como los padres independientes del
método de mínimos cuadrados (Plackett 1972; Searle 1989). Scheffé (1956) informaba
como un hecho de gran interés, que ambos trabajos, al igual que la primera aparición de
estudios de componentes de varianza de Airy (1861) y Chauvenet (1863) aparecieron en
libros de astronomía.
A estos intentos iniciales del siglo XIX, le siguieron los trabajos de genética cuantitativa
desarrollados por Fisher en la Estación Experimental de Rothamsted (Fisher 1918; 1922).
El propio Fisher (1925), informó lo que significó una de las grandes contribuciones a los
modelos de componentes de varianza, que en sus inicios se conoció como método de
estimación de análisis de varianza (ANOVA). Sus trabajos pueden expresarse (con la
terminología moderna) como un modelo aleatorio de clasificación simple para datos
balanceados.
A los trabajos de Fisher le siguieron los de Tippet (1931) que esclareció y extendió el
método de estimación ANOVA y mostró algunos estimadores explícitos (Tippet 1937).
También Yates y Zacopanay (1935) realizaron pruebas de campo en cereales con
modelos de orden mayor, mientras Newman et al (1935) consideraba la eficiencia de los
diseños de bloques al azar y cuadrado latino, y hacia extensivo el uso de modelos lineales
(incluyendo modelos mixtos) en lo que se considera la primera aparición reconocida de
los modelos mixtos (Searle 1989).
Por otra parte, aunque Newman et al (1935) empleaba el término “componentes de error”
y Fisher (1935) el de “componentes de variación”, es Daniels (1939) quien emplea por
primera vez el término ”componentes de varianza”. Este trabajo de Daniels, y uno de
Winsor y Clark (1940) pueden ser considerados el sólido comienzo de los trabajos de
componentes de varianza de los últimos 50 años (Searle 1989). A estos trabajos les
siguió Snedecor (1940) con una discusión de los estimados de correlaciones intraclases,
parecido al informado por Fisher (1938). También por estos años Jackson (1939) utilizó
por primera vez la palabra “efecto”, tan comúnmente empleada en la actualidad en los
modelos lineales, y describió su modelo con un factor aleatorio y otro no aleatorio, en
clara referencia a un modelo mixto, aunque no le denomina por este término, lo cual no
ocurriría hasta ocho años más tarde por Eisenhart (1947).
25
Revista Computadorizada de Producción Porcina Vol: 11 No. 1 2004
humanos, ganado vacuno, cerdos, carneros y pollos. Un trabajo muy importante sobre el
desarrollo en los años subsiguientes es el de Khuri y Sahai (1985).
Ahora bien, la mayoría de estas aplicaciones genéticas eran con datos no balanceados o
desequilibrados. En este sentido, Henderson (1953) constituye el trabajo clásico sobre
estimación de componentes de varianza para datos no balanceados (Searle 1989). Con
posterioridad a este trabajo, vino un período de evaluaciones de estos métodos, entre
ellas las deCrump (1951), Searle (1956, 1961, 1968) y Blischke (1966, 1968).
Son precisamente los métodos REML, los más empleados en la última década en lo que a
estimación de parámetros genéticos se refiere. Sin embargo, en los últimos años los
métodos bayesianos unidos a técnicas de cálculo como el muestreo de Gibbs se han
extendido al área de la estimación de componentes de varianzas con excelentes
resultados (Sorensen et al 1994). Ya en el sexto congreso mundial de genética aplicada a
la producción animal, la gran mayoría de los trabajos presentados en la sección
“Estimación de parámetros genéticos”, versaban sobre esta temática (Wang 1998; Hofer y
Ducrocq 1998; Korsgaard 1998; Rodriguez-Zas et al 1998; Lund y Jensen 1998, entre
otros), lo cual debe tenerse en cuenta para futuros trabajos en esta área de estimación de
parámetros genéticos.
ANOVA-MINIMOS CUADRADOS
Debe tenerse en cuenta que las propiedades para datos equilibrados son el ser
insesgados, que haya una mínima varianza, y la existencia de probabilidad de
estimaciones negativas.
26
Revista Computadorizada de Producción Porcina Vol: 11 No. 1 2004
Para describir el método como tal, se puede tomar la formulación general de un modelo
mixto:
Y = Xb + Za + e
Y = Wb + e donde:
W=[X Z] y b= ß
a
Entre los principales paquetes de programas que implementan este tipo de análisis se
encuentra el HARVEY (Harvey 1990).
27
Revista Computadorizada de Producción Porcina Vol: 11 No. 1 2004
En los últimos años, la técnica REML ha sido el método disponible más preciso para
alcanzar buenos resultados en la estimación de parámetros genéticos, pues tiene en
cuenta las relaciones entre los animales y da valor a la selección y al desecho (Gianola et
al 1986; Hill y Meyer, 1988). Sin embargo, la REML requiere computacionalmente de un
modelo animal individual (Graser et al 1987; Meyer 1986a). Varias estrategias pueden ser
utilizadas, particularmente para análisis de rasgo múltiple, como las transformaciones
canónicas, las cuales transforman rasgos correlacionados en no correlacionados que
pueden utilizarse en el análisis univariado (Itoh e Iwaisaki 1990). Las virtudes y defectos
de la técnica REML aparecen en la tabla 5.
28
Revista Computadorizada de Producción Porcina Vol: 11 No. 1 2004
Este último aspecto dependerá en gran medida del procedimiento o algoritmo de cálculo
que se utilice para maximizar la verosimilitud y obtener las estimaciones de los
componentes de varianza. Si bien todos los algoritmos se basan en procesos iterativos,
los mismos difieren en la estrategia de cálculo, lo cual se traduce en la velocidad de
convergencia (número de iteraciones requeridas para obtener la solución), necesidades
de cálculo (limitante para grandes masas de datos) y en la restricción de obtener o no
estimas dentro del espacio paramétrico en cada iteración (condición para obtener
estimadores ML).
En sentido general, no hay algoritmo que prevalezca sobre los otros y existen varios
trabajos de comparación de los mismos, entre ellos, los de Meyer (1986b), Groeneveld y
Kovac (1990), Misztal (1994a,b), Madsen et al (1994), Thompson (1995) y Johnson y
Thompson (1995). En la tabla 6 se muestran los principales métodos de cálculo y
algoritmos alternativos empleados en el área de la mejora genética animal.
1. Algoritmos libres de derivadas o DF (derivate free en inglés), según Harville (1977) y Meyer (1988)
Requieren de más iteraciones (lenta convergencia) y pueden tener problemas en cuanto a las
necesidades de cálculo cuando el número de parámetros a estimar aumenta
29
Revista Computadorizada de Producción Porcina Vol: 11 No. 1 2004
Johnson y Thompson (1995) notaron que en ambas expresiones, una vez desarrolladas,
las trazas eran promedios y realizaron una simplificación algebraica de modo que se
puede realizar su cómputo de manera más sencilla en la mayoría de los casos. A esta
simplificación denominaron matriz de información promedio (AI) y de manera general el
algoritmo es considerado un intermedio entre el Newton-Raphson y el Fisher-Scoring. Su
formulación es:
Ellos mismos (Johnson y Thompson 1995) encontraron que este método convergía cinco
veces más rápido que el DFREML y 15 veces más rápido que el EM-REML. Ello se debía
a su habilidad en el cálculo de esta matriz de información promedio, que le facilita una
rápida convergencia (Madsen et al 1994; Johnson y Thompson 1995; Jensen y Madsen
1996; y Jensen et al 1997). Como conclusión se refiere que los algoritmos libres de
derivadas (DF) requieren de más iteraciones que los de primeras derivadas (EM) o de
segundas derivadas (NR o AI).
30
Revista Computadorizada de Producción Porcina Vol: 11 No. 1 2004
METODOS BAYESIANOS
La idea base de la teoría bayesiana consiste en considerar que tanto los parámetros (en
este caso las varianzas) como los efectos aleatorios y los datos tienen distribuciones
asociadas. De esta forma, cualquier información que se posea sobre la probabilidad de
los valores de los parámetros puede introducirse en proceso de estimación y aumentar la
calidad de información disponible y, por tanto, la precisión de las estimaciones. Por
ejemplo, si se trata de estimar una varianza, se sabe que la probabilidad de valores
negativos es nula y además se puede saber alrededor de qué valores esperamos que
esté el verdadero valor por experimentos previos o referencias bibliográficas. Así como la
estimación REML hace uso de la función de verosimilitud, o funciones que describen la
probabilidad de observar unos valores de la variable medida dados los parámetros
desconocidos, la inferencia bayesiana hace uso de la distribución posterior obtenida a
partir de la función de verosimilitud, que describe la información contenida en los datos
con respecto al parámetro de interés, y de la distribución a priori que se asigna a los
parámetros.
31
Revista Computadorizada de Producción Porcina Vol: 11 No. 1 2004
Sin embargo, llevar a cabo estas estimaciones de forma analítica o por métodos
numéricos es normalmente imposible, especialmente en nuestro caso, cuando trabajamos
con grandes masas de datos. Existen en la actualidad diferentes algoritmos basados en la
utilización de la técnica de muestreo aleatorio o de Montecarlo, que facilitan la obtención
de las distribuciones marginales sobre las que se llevará a cabo la inferencia. El algoritmo
más empleado en nuestra área es el de muestreo de Gibbs.
EL MUESTREO DE GIBBS
REFERENCIAS
Airy, G.B. 1861. On the Algebraical and Numerical Theory of Errors of Observations and
Combinations of Observations. MacMillan Company. Londres
Anderson, R.D. 1978. Studies on the estimation of variance components. Ph.D Thesis.
Cornell University. Ithaca
32
Revista Computadorizada de Producción Porcina Vol: 11 No. 1 2004
Anderson, R.D. y Bancroft, T.A. 1952. Statistical Theory in Research. McGraw-Hill. New York
Boldman, K.G., Kriese, L.A., Van Vleck, L.D., Van Tassell, C.P. y Kachman, S.D. 1995. A
manual for use of MTDFREML. A set of programs to obtain estimates of variances and
covariance. ARS, USDA. Washington D.C.
Caraballo, M.J. 1997. Estima de componentes de varianza. Kn: VII Curso Internacional sobre
Mejora Genética Animal. Madrid, pp 38
Caraballo, M.J. 1998. Estima de componentes de varianza. In: VIII Curso Internacional sobre
Mejora Genética Animal. Madrid, pp 47
Chauvenet, W. 1863. A manual of Spherical and Practical Astronomy: Theory and use of
Astronomical Instruments. Philadelphia. Lippincott.
Crump, S.L. 1951. The present status of variance components analysis. Biometrics, 7:1-16.
Daniels, H.E. 1939. The estimation of components of variance. Journal of the Royal Statistics
Society, 6:186-197
Dempster, A.P., Laird, N.M. y Rubin, D.B. 1977. Maximum likelihood from incomplete data via
tha EM algorithm. Journal of the Royal Statistics Society, 39:1-38
Eisenhart, C. 1947. The assumptions underlying the analysis of variance. Biometrics, 3:1-21
Falconer, D.S. 1989. Introduction to Quantitative Genetics. Longman Group. Harlow. Londres
Fisher, R.A. 1918. The correlation between relatives on the supposition of Mendelian
inheritance. Transactions of the Royal Society (Edinburgh), 52:399-433
Fisher, R.A. 1922. On the mathematical foundations of theoretical. Transactions of the Royal
Society (London) 222:309-368
Fisher, R.A. 1925. Statistical Methods for Research Workers (1st edition). Oliver and Boyd.
Edinburgh
Fisher, R.A. 1935. Discussion of Newman at al. 1935. Journal of the Royal Society. Serie B,
2:154-155
Fisher, R.A. 1938. Statistical methods for research workers (7st edition). Oliver and Boyd.
Edinburgh
33
Revista Computadorizada de Producción Porcina Vol: 11 No. 1 2004
Gauss, K.F. 1809. Theoria Motus Corporum Celestrium in Sectionibus Conics Solem
Ambientium. Perthes and Besser. Hamburg
Gianola, D., Foulley, J.L. y Fernando, R.L. 1986. Prediction of breeding value when variance
are not knowm. Genetics and Selective Evolution, 18:475-484
Graser, H.V., Smith, S.P. y Tier, B. 1987. A derivative-free approach for estimating
variance components in animal model by REML. Journal of Animal Science, 64:1362-1370
Hartley, H.O. y Rao, J.N.K. 1967. Maximum Likelihood estimation for the mixed analysis of
variance model. Biometrika, 54:93-108
Harvey, W.R. 1990. User's Guide for LSMLMW, Mixed Model Least-squares and Maximun
Likelihood Computer Program. The Ohio State University Press. Columbus
Harville, D.A. 1977. Maximum likelihood approaches to variance component estimation and
to related problems. Journal of American Statistics Association, 72:320-340
Hill, W.G. y Meyer, K. 1988. Developments in methods for breeding value and parameter
estimation in livestock. In: Animal Breeding Opportunity. An Occasional Publication of the
British Society of Animal Production jointly with the British Poultry Breeders Roundtable,
12:81-98
Itoh, Y. e Iwaisaki, H. 1990. Restricted best lineal unbiased prediction using canonical
transformation. Genetics and Selective Evolution, 22:339-347
Jackson, R.W.B. 1939. Reliability of mental tests. British Journal of Psychology. 29:267-287
Jensen, J. y Madsen, P. 1996. A User's Guide to DMU, a Package for Analyzing Multivariate
Mixed Models. National Institute of Animal Science, Research Center Foulum. Tjele
34
Revista Computadorizada de Producción Porcina Vol: 11 No. 1 2004
Johnson, D.L. y Thompson, R. 1995. REML estimation of variance components for univariate
animal models using sparse matrix techniques and average information. Journal of Dairy
Science, 78: 449-456
Jurado, J.J. 1997. Modelos Mixtos. In: VII Curso Internacional sobre Mejora Genética Animal.
Madrid, pp 38
Khuri, A.I. y Sahai, H. 1985. Variance components analysis: a selective literature survey.
International Statistical Review, 53:259-300
Legendre, L.R. 1806. Noevelles méthodes pour la détermination des orbites des cometes.
Courcier. Paris
Meyer, K. 1986a. REML to estimate genetic parameters-in practice. Proceedings of the 3rd
World Congress of Genetics Applied to Livestock Production, 12:454-459
Meyer, K. 1986b. Between algorithms: a short cut restricted maximum likelihood procedure to
estimate variance components. Journal of Dairy Science, 691904-1916
Patterson, H.D. y Thompson, R. 1971. Recovery of inter-block information when block size
are unequal. Biometrika, 58:545-554
35
Revista Computadorizada de Producción Porcina Vol: 11 No. 1 2004
Plackett, R.L. 1972. Studies in the history of probability and statistic. The discovery of the
method of least squares. Biometrika, 59:239-251
Rao, C.R. 1971. Estimation of variance and covariance components-MINQUE theory. Journal
of Multivariate Analysis, 1:257-275
Scheffé, H. 1956. Alternative method for tha analysis of variance. Annals of Mathematics and
Statistics, 27:251-271
Schaeffer, L.R. 1986. Estimation of variance components under a selection model. Journal of
Dairy Science, 70:661-671
Searle, S.R. 1956. Matrix methods in components of variance and covariance analysis.
Annals of Mathematics and Statistics, 27:737-748
Searle, S.R. 1961. Variance components in the unbalanced two-way nested classification.
Annals of Mathematics and Statistics, 32:1161-1166
Searle, S.R. 1968. Another look at Henderson’s methods of estimating variance components.
.Biometrics, 24:749-778
Searle, S.R. 1988. Mixed models and unbalanced data: wherefrom, whereat and whereto?
Statistics: Theory and Methods, 17:935-968
Searle, S.R. 1989. Variance components- some history and a summary account of estimation
methods. Journal of Animal Breeding and Genetics, 106:41-62
Searle, S.R., Casella, G. y McCulloch, C.E. 1992. Variance Components. John Wiley and
Sons, New York
Sorensen, D., Andersen, S., Jensen, J., Wang, C.S. y Gianola, D. 1994. Inference about
genetic parameters using Gibbs sampler. In: Proceedings of the 5th World Congress of
Genetics Applied to Livestock Production, 18:321-328
Thompson, W.A. 1962. The problem of negative estimates of variance components. Annals
of Mathematics and Statistics, 33:273-289
Thompson, R. 1995. Estimation of multivariate genetic parameters. In: 46th Annual Meeting of
the European Association of Animal Production. Prague
Tippet, L.H.C. 1931. The methods of Statistic. (1st edition). William and Norgate. Londres
36
Revista Computadorizada de Producción Porcina Vol: 11 No. 1 2004
Tippet, L.H.C. 1937. The methods of Statistic. (2st edition). William and Norgate. Londres
Wang, C.S. 1998. Implementation issues in Bayesian analysis in animal breeding. In:
Proceedings of the 6th World Congress of Genetics Applied to Livestock Production, 25: 481
Winsor, C.P. y Clarke, G.L. 1940. Statistical study of variation in the catch of plankton nets.
Journal of Marine Research, 3:1-34
Yates, F. y Zacopanay, I. 1935. The estimation of the efficiency of sampling with special
reference to sampling for yield in cereal experiments. Journal of Agricultural Science, 25:545-
577
37