Está en la página 1de 15

Revista Computadorizada de Producción Porcina Vol: 11 No.

1 2004

MÉTODOS DE ESTIMACIÓN DE COMPONENTES DE VARIANZA EN POBLACIONES.


UNA RESEÑA HISTÓRICA

E. León

Instituto de Investigaciones Porcinas


Gaveta Postal No.1, Punta Brava
La Habana. Cuba
email: eltanti@yahoo.com

RESUMEN

Los métodos de estimación de componentes de varianza han experimentado un notable


desarrollo a partir de la necesidad de conocer aspectos de gran interés de las
poblaciones, como es el caso de los parámetros genéticos de gran utilidad en la
evaluación y selección de rebaños genéticos. En este sentido se trabaja en eliminar las
problemáticas que han ido surgiendo y cada día los métodos y algoritmos son más
precisos y los modelos se ajustan más a la realidad.

En la presente revisión se hace un recorrido por la evolución de los métodos de


estimación de componentes de varianza desde sus inicios hasta nuestros días. Se hace
especial énfasis en los principales métodos (ANOVA, REML, GIBBS) que se han
empleado en los últimos años, las virtudes y limitaciones de los mismos, así como los
principales paquetes estadísticos que los implementan y que se aplican en la actualidad.

Palabras claves: componentes de varianza, parámetros genéticos, evaluación, selección,


modelo

Título corto: Estimación de componentes de varianza en poblaciones

THE ESTIMATION OF VARIANCE COMPONENTS IN POPULATIONS. A HISTORICAL REVIEW

SUMMARY

The methods for estimation of variance components have experienced an outstanding


development taking into account the needs for knowing aspects of great interest from
populations, as it is the case of genetic parameters of great usefulness in the evaluation
and selection or genetic herds. In this sense, work is conducting for the elimination of
constraints therefore arising and everyday the methods al algorithms are more precise and
the models fit even more to reality.

In the present review an enumeration has been made on the evolution of methods for
estimation of variance components from its beginning to present times. A special
emphasis is made in the main methods (ANOVA, REML, GIBBS) which have been

23
Revista Computadorizada de Producción Porcina Vol: 11 No. 1 2004

employed during last years, its advantages and constraints, as well as the main statistic
softwares supporting it, and applied in present times.

Key words: variance component, genetic parameters, evaluation, selection, model

Short title: Estimation of variance components in populatios

Tabla de contenido

Introducción, 24
Un recorrido por la historia de los métodos de estimación de componentes de varianza, 25
ANOVA-Mínimos cuadrados, 26
Método III de Henderson, 27
Máxima verosimilitud restringida (REML), 28
Métodos bayesianos, 31
El muestreo de Gibas, 32
Referencias, 32

INTRODUCCIÓN

En todo programa de evaluación genética se requiere de estimados confiables de los


parámetros genéticos de la población (Guerra et al 1992), valores imprescindibles en el
diseño y evaluación de esquemas alternativos de selección y en la elaboración de índices
de selección.

El problema que se plantea es asignar un valor a las varianzas y covarianzas de la


población con la que se trabajará, a partir de los cuales pueden estimarse parámetros de
interés, como son la heredabilidad (h2) o las correlaciones genéticas (rg). La tarea
consiste en estimar unos parámetros desconocidos a partir de una base de datos y un
modelo adecuado, que permita encontrar los valores más próximos posibles a los valores
verdaderos de las varianzas. En términos estadísticos, se trata de buscar estimadores
óptimos de las varianzas, es decir de mínimo sesgo y mínima varianza (Caraballo 1997).
Luego, a partir de ellos, se pueden determinar los parámetros genéticos de la población,
los cuales resultan de vital importancia en cualquier programa de mejora genética,
especialmente en la evaluación y la selección de un rebaño genético (Jurado 1997).

Este tipo de análisis presenta varios problemas importantes cuando se trata de datos
provenientes de esquemas de selección en varias generaciones y tomados en
condiciones ambientales no controladas. Estos problemas aparecen enumerados en la
tabla 1.

Tabla 1. Problemas presentados en análisis de poblaciones


1. Las estimacioness son válidas cuando hay una sola generación de selección
2. Sesgos por selección, ambiente común, efectos maternos, efectos ambientales no
comunes
3. Utilización ineficiente de toda la información disponible
4. Estimación de componentes no genéticos

24
Revista Computadorizada de Producción Porcina Vol: 11 No. 1 2004

A continuación se brinda una breve panorámica de la evolución de los métodos de


estimación de componentes de varianza, realizada a partir de cinco trabajos de gran
relevancia en el tema, y que fueron publicados por Scheffé (1956), Anderson (1978),
Searle (1988), Searle (1989) y Wang (1998). Posteriormente se abordan los principales
métodos de estimación de componentes de varianza, para lo cual se tomó como
principales materiales de consulta y referencia, los textos del tema “Estimación de
Componentes de Varianza” impartidos en el VII y VIII Curso Internacional sobre Mejora
Genética Animal (Caraballo 1997; 1998).

UN RECORRIDO POR LA HISTORIA DE LA ESTIMACION DE COMPONENTES DE


VARIANZA

Las primeras referencias que se conocen de estimación de efectos fijos fueron informadas
por Legendre (1806) y Gauss (1809), reconocidos como los padres independientes del
método de mínimos cuadrados (Plackett 1972; Searle 1989). Scheffé (1956) informaba
como un hecho de gran interés, que ambos trabajos, al igual que la primera aparición de
estudios de componentes de varianza de Airy (1861) y Chauvenet (1863) aparecieron en
libros de astronomía.

A estos intentos iniciales del siglo XIX, le siguieron los trabajos de genética cuantitativa
desarrollados por Fisher en la Estación Experimental de Rothamsted (Fisher 1918; 1922).
El propio Fisher (1925), informó lo que significó una de las grandes contribuciones a los
modelos de componentes de varianza, que en sus inicios se conoció como método de
estimación de análisis de varianza (ANOVA). Sus trabajos pueden expresarse (con la
terminología moderna) como un modelo aleatorio de clasificación simple para datos
balanceados.

A los trabajos de Fisher le siguieron los de Tippet (1931) que esclareció y extendió el
método de estimación ANOVA y mostró algunos estimadores explícitos (Tippet 1937).
También Yates y Zacopanay (1935) realizaron pruebas de campo en cereales con
modelos de orden mayor, mientras Newman et al (1935) consideraba la eficiencia de los
diseños de bloques al azar y cuadrado latino, y hacia extensivo el uso de modelos lineales
(incluyendo modelos mixtos) en lo que se considera la primera aparición reconocida de
los modelos mixtos (Searle 1989).

Por otra parte, aunque Newman et al (1935) empleaba el término “componentes de error”
y Fisher (1935) el de “componentes de variación”, es Daniels (1939) quien emplea por
primera vez el término ”componentes de varianza”. Este trabajo de Daniels, y uno de
Winsor y Clark (1940) pueden ser considerados el sólido comienzo de los trabajos de
componentes de varianza de los últimos 50 años (Searle 1989). A estos trabajos les
siguió Snedecor (1940) con una discusión de los estimados de correlaciones intraclases,
parecido al informado por Fisher (1938). También por estos años Jackson (1939) utilizó
por primera vez la palabra “efecto”, tan comúnmente empleada en la actualidad en los
modelos lineales, y describió su modelo con un factor aleatorio y otro no aleatorio, en
clara referencia a un modelo mixto, aunque no le denomina por este término, lo cual no
ocurriría hasta ocho años más tarde por Eisenhart (1947).

Muchos de los avances en esta área de estimación de componentes de varianza, fueron


motivados por problemas prácticos. Los genetistas, particularmente, se convirtieron en los
principales usuarios de los modelos de componentes de varianza para aplicarlos a

25
Revista Computadorizada de Producción Porcina Vol: 11 No. 1 2004

humanos, ganado vacuno, cerdos, carneros y pollos. Un trabajo muy importante sobre el
desarrollo en los años subsiguientes es el de Khuri y Sahai (1985).

Ahora bien, la mayoría de estas aplicaciones genéticas eran con datos no balanceados o
desequilibrados. En este sentido, Henderson (1953) constituye el trabajo clásico sobre
estimación de componentes de varianza para datos no balanceados (Searle 1989). Con
posterioridad a este trabajo, vino un período de evaluaciones de estos métodos, entre
ellas las deCrump (1951), Searle (1956, 1961, 1968) y Blischke (1966, 1968).

Los problemas para datos desequilibrados fueron superados en el período de 1967-1972


cuando tres diferentes (pero similares) métodos fueron desarrollados (tabla 2).

Tabla 2. Metódos para resolver problemas para datos desequilibrados


1. Estimación de máxima verosimilitud (ML), basada en asumir la normalidad de los datos,
desarrollada por Hartley y Rao (1967)
2. Estimación de máxima verosimilitud restringida (REML), inicialmente desarrollada por
Anderson y Bancroft (1952) y Thompson (1962) para datos balanceados, y extendida a
diseños de bloques o datos no balanceados en general por Paterson y Thompson (1971)
3. Estimación insesgada de mínimos cuadrados bajo normalidad (MINQUE) de Lamotte
(1973) y Rao (1971)

Son precisamente los métodos REML, los más empleados en la última década en lo que a
estimación de parámetros genéticos se refiere. Sin embargo, en los últimos años los
métodos bayesianos unidos a técnicas de cálculo como el muestreo de Gibbs se han
extendido al área de la estimación de componentes de varianzas con excelentes
resultados (Sorensen et al 1994). Ya en el sexto congreso mundial de genética aplicada a
la producción animal, la gran mayoría de los trabajos presentados en la sección
“Estimación de parámetros genéticos”, versaban sobre esta temática (Wang 1998; Hofer y
Ducrocq 1998; Korsgaard 1998; Rodriguez-Zas et al 1998; Lund y Jensen 1998, entre
otros), lo cual debe tenerse en cuenta para futuros trabajos en esta área de estimación de
parámetros genéticos.

ANOVA-MINIMOS CUADRADOS

El análisis de varianza (ANOVA) es una técnica estadística que consiste en descomponer


la variabilidad total observada, expresada como suma de cuadrados total, en otras sumas
de cuadrados asociadas a los factores que han sido incluidos en el modelo. La finalidad
primera del ANOVA era la de comparar medias asociadas a diferentes tratamientos o
niveles de factores que incidían en la producción o dato observado. Posteriormente, se vio
la utilidad del ANOVA como vía de estimación de componentes de la varianza asociados
a los factores aleatorios del modelo.

Debe tenerse en cuenta que las propiedades para datos equilibrados son el ser
insesgados, que haya una mínima varianza, y la existencia de probabilidad de
estimaciones negativas.

En la mayoría de los casos de análisis de datos provenientes de esquemas de mejora, no


se produce la situación de tener un diseño equilibrado, donde cada nivel de los factores

26
Revista Computadorizada de Producción Porcina Vol: 11 No. 1 2004

que intervienen en le modelo tienen el mismo número de observaciones. Además, existen


modelos que contienen un número más o menos elevado de factores ambientales,
considerados frecuentemente como fijos, y factores genéticos aleatorios. Es este
entonces un análisis de datos desequilibrados bajo modelos mixtos. En estos casos, la
extensión de la técnica de ANOVA para estimar componentes de varianza, fue propuesta
por Henderson (1953) y se conocen con el nombre de métodos I, II y III de Henderson.

Las tres variantes o métodos de Henderson (1953) se basan en el mismo principio, la


utilización de formas cuadráticas asociadas a la tabla ANOVA, que igualadas a su valor
esperado proporcionan estimadores de los componentes de varianza asociados a los
factores aleatorios del modelo. El método I utiliza formas cuadráticas análogas a las
clásicamente empleadas en ANOVA, pero adaptadas al caso desequilibrado. El Método II
es una adaptación del Método I que toma en cuenta la existencia de efectos fijos en el
modelo. El Método III usa las sumas de cuadrados derivadas de ajustar el modelo original
y submodelos del mismo. Este es el método de aplicación más general a cualquier tipo de
modelo y el que utiliza de manera general en los principales paquetes de programas
estadísticos.

METODO III DE HENDERSON

Para describir el método como tal, se puede tomar la formulación general de un modelo
mixto:

Y = Xb + Za + e

El mismo se podría representar de la forma:

Y = Wb + e donde:

W=[X Z] y b= ß
a

Las caracterísiticas del procedimiento en este método aparecen tabuladas en la tabla 3, y


sus propiedades son el ser insesgado, no hay mínima varianza, las estimaciones son
negativas, es desconocida la distribución de los estimadores, y finalmente, no existe un
único procedimiento.

Tabla 3. Procedimiento del método III de Henderson


1. Obtener las formas cuadráticas (y’By)
2. Obtener las esperanzas de las formas cuadráticas E(y’By)
3. Igualar las formas cuadráticas a las esperanzas de sus formas cuadráticas
4. Resolver el sistema de ecuaciones en los componentes de varianza resultantes

Entre los principales paquetes de programas que implementan este tipo de análisis se
encuentra el HARVEY (Harvey 1990).

27
Revista Computadorizada de Producción Porcina Vol: 11 No. 1 2004

MAXIMA VEROSIMILITUD RESTRINGIDA (REML)

El método de máxima verosimilitud (ML, Maximum Likelihood en inglés), es un método


clásico de estimación de parámetros (no necesariamente varianzas) asociados a
funciones de densidad o probabilidad de variables aleatorias. La verosimilitud asociada a
una muestra de variables aleatorias es la función de densidad conjunta de estas variables
para los valores observados, considerada como una función de los parámetros que la
definen. Los estimadores máximo verosímiles (ML) son los valores de los parámetros que
hacen máxima la probabilidad (verosimilitud), con la restricción de que los mismos deben
estar dentro del llamado espacio paramétrico o rango de variación natural del parámetro.

Se plantea que el estimador ML suele producir estimaciones sesgadas de la varianza porque


no tiene en cuenta los grados de libertad, que se pierden al estimar la media. Para evitar este
problema surgió la idea de los estimadores de máxima verosimilitud restringida (REML,
Restricted Maximum Likelihood). Esta idea introducida de acuerdo con Searle (1989) por
Thompson (1962) y formalizada de forma general para diseños desequilibrados y
distribución normal por Patterson y Thompson (1971), consiste en factorizar la verosimilitud
completa en dos partes independientes, una de las cuales no contiene la media,
asumiendo que por usar esta parte de la verosimilitud no se pierde información con
respecto a usar la verosimilitud completa. La verosimilitud restringida, se corresponde en
realidad con la verosimilitud asociada a una combinación lineal de las observaciones,
cuya media es nula y cumple las condiciones mencionadas anteriormente (ser un factor
independiente del otro con el que se reproduce la verosimilitud completa y no suponer
pérdida de información con respecto a usar los datos originales). Las propiedades del
método se muestran en la tabla 4.

Tabla 4. Propiedades del método de máxima verosimilitud restringida (REML)


1. Es estimador de funciones de parámetros
2. Las propiedades son asintóticas
3. Las propiedades son consistentes: con muestras suficientemente grandes
son prácticamente insesgados
4. Son eficientes: son la mínima varianza que pueden tener los estimadores
1
insesgados de la verosimilitud
5. Distribución normal
6. Control de sesgo debido a la selección: los estimadores ML son los mismos si se
usan las distribuciones derivadas con o sin selección, siempre que los datos en
que se ha basado ésta se incluyan en el análisis (Thompson 1973; Schaeffer
1986; Fernando y Gianola 1990)
1
Las caracterísiticas de consistencia y eficiencia hacen que las mismas sean
óptimas desde el punto de vista de minimizar el sesgo y la varianza para muestras
suficientemente grandes

En los últimos años, la técnica REML ha sido el método disponible más preciso para
alcanzar buenos resultados en la estimación de parámetros genéticos, pues tiene en
cuenta las relaciones entre los animales y da valor a la selección y al desecho (Gianola et
al 1986; Hill y Meyer, 1988). Sin embargo, la REML requiere computacionalmente de un
modelo animal individual (Graser et al 1987; Meyer 1986a). Varias estrategias pueden ser
utilizadas, particularmente para análisis de rasgo múltiple, como las transformaciones
canónicas, las cuales transforman rasgos correlacionados en no correlacionados que
pueden utilizarse en el análisis univariado (Itoh e Iwaisaki 1990). Las virtudes y defectos
de la técnica REML aparecen en la tabla 5.

28
Revista Computadorizada de Producción Porcina Vol: 11 No. 1 2004

Tabla 5. Virtudes y defectos de la técnica REML


Virtudes
1. Proporciona las mismas soluciones que el ANOVA para datos equilibrados
2. Porpociona siempre estimaciones dentro del espacio paramétrico
3. Las propiedades estadísticas son mejores que los métodos de Henderson
4. Hay control del sesgo debido a la selección
Defectos
1. Difícil de computar
2. Require de procedimientos iterativos
3. El garantizar la convergencia no es seguro

Este último aspecto dependerá en gran medida del procedimiento o algoritmo de cálculo
que se utilice para maximizar la verosimilitud y obtener las estimaciones de los
componentes de varianza. Si bien todos los algoritmos se basan en procesos iterativos,
los mismos difieren en la estrategia de cálculo, lo cual se traduce en la velocidad de
convergencia (número de iteraciones requeridas para obtener la solución), necesidades
de cálculo (limitante para grandes masas de datos) y en la restricción de obtener o no
estimas dentro del espacio paramétrico en cada iteración (condición para obtener
estimadores ML).

En sentido general, no hay algoritmo que prevalezca sobre los otros y existen varios
trabajos de comparación de los mismos, entre ellos, los de Meyer (1986b), Groeneveld y
Kovac (1990), Misztal (1994a,b), Madsen et al (1994), Thompson (1995) y Johnson y
Thompson (1995). En la tabla 6 se muestran los principales métodos de cálculo y
algoritmos alternativos empleados en el área de la mejora genética animal.

Tabla 6. Principales métodos de cálculo y algoritmos alternativos para la mejora genética


animal

1. Algoritmos libres de derivadas o DF (derivate free en inglés), según Harville (1977) y Meyer (1988)
Requieren de más iteraciones (lenta convergencia) y pueden tener problemas en cuanto a las
necesidades de cálculo cuando el número de parámetros a estimar aumenta

2. Algoritmos de primeras derivadas o EM (expectation maximization en inglés), de acuerdo con


Dempster et al (1977)
De convergencia lenta, no da la precisión de las estimaciones

3. Algoritmos de segundas derivadas


Exigentes de cálculo, rápida convergencia, convergencia no garantizada y producen una estimación de
la varianza del estimador

Los algoritmos de segundas derivadas, se dividen a su vez en tres métodos: Newton


Raphson, Fisher Scoring e Información Promedio (AI, average information en inglés). Los
tres se basan en el empleo de primeras y segundas derivadas para encontrar los
estimados de parámetros genéticos que maximizan la función de verosimilitud. Si se toma
el algoritmo de la función REML descrito por Graser et al (1987):

L = -1/2 ( C + ln /V/ + ln / x’V-1x / + y’Py ), donde

P = V-1 - V-1x (x’V-1x) -1 x’V-1

29
Revista Computadorizada de Producción Porcina Vol: 11 No. 1 2004

En particular Newton-Raphson emplea una matriz de segundas derivadas denominada


Hessiana (H) para maximizar la función de verosimilitud. En el Fisher Scoring, H es
reemplazada por un valor esperado de la misma (E[H]), donde –E[H] se denomina matriz
de información. Ambas matrices H y E[H] pueden escribirse según Searle et al (1992) de
la siguiente manera:
2
H = ∂ L = ½ tr (P∂V P∂V) – y’ (P∂V P∂V) Py
∂θi ∂θj ∂θi ∂θj ∂θi ∂θj

E[H] = -½ tr (P∂V P∂V)


∂θi ∂θj

Johnson y Thompson (1995) notaron que en ambas expresiones, una vez desarrolladas,
las trazas eran promedios y realizaron una simplificación algebraica de modo que se
puede realizar su cómputo de manera más sencilla en la mayoría de los casos. A esta
simplificación denominaron matriz de información promedio (AI) y de manera general el
algoritmo es considerado un intermedio entre el Newton-Raphson y el Fisher-Scoring. Su
formulación es:

AI= ½ ( H + E[H] ) = -½ y’ (P∂V P∂V) Py


∂θi ∂θj

Ellos mismos (Johnson y Thompson 1995) encontraron que este método convergía cinco
veces más rápido que el DFREML y 15 veces más rápido que el EM-REML. Ello se debía
a su habilidad en el cálculo de esta matriz de información promedio, que le facilita una
rápida convergencia (Madsen et al 1994; Johnson y Thompson 1995; Jensen y Madsen
1996; y Jensen et al 1997). Como conclusión se refiere que los algoritmos libres de
derivadas (DF) requieren de más iteraciones que los de primeras derivadas (EM) o de
segundas derivadas (NR o AI).

Los principales programas que implementan la metodología REML se relacionan a


continuación (tabla 7).

Tabla 7. Programas que implementan la metodología REML

1. VCE (Groeneveld 1997): es un programa para la estimación de componentes de varianza. El


mismo en su actual versión permite 3 métodos de cálculo: REML usando gradiente analítico
(primeras derivadas), REML por Montecarlo EM y Muestreo Gibbs. Este paquete de programas
es gratuito para su uso con fines de investigación

2. AIREML (Johnson 1993): consta de 4 programas para la estimación de componentes de varianza


por el método REML, bajo el algoritmo de cálculo de matriz de información promedio (Average
Information en inglés) con segundas derivadas del procedimiento quasi-Newton

3. DFREML (Meyer 1988): Es un paquete de programas para la estimación de componentes de


varianza empleando el algoritmo libre de derivadas. Este sistema también autoriza su empleo
de manera gratuita con fines de investigación

4. DMUAI (Jensen y Madsen 1996): Es un sistema para estimar componentes de varianza,


empleando matriz de información promedio.

5. MTDFREML (Boldman et al 1995): Es un conjunto de programas para la estimación de


componentes de varianza para análisis multivariado por algoritmo libre de derivadas (DF-
REML)

30
Revista Computadorizada de Producción Porcina Vol: 11 No. 1 2004

METODOS BAYESIANOS

La estimación máximo verosímil (REML) presenta algunas limitaciones, como es el caso


de la estimación de parámetros de interés en presencia de parámetros parásitos (como es
el caso de la estimación de componentes de varianza cuando desconocemos la media de
la distribución), en cuyos casos se requiere de recurrir a verosimilitudes restringidas, no
siempre fáciles de deducir. Así mismo la distribución de los estimadores solo es conocida
de forma asintótica y la obtención de intervalos de confianza puede producir intervalos
“absurdos” que contengan valores del parámetro fuera del espacio paramétrico.

En estos casos la estimación bayesiana proporciona un marco de trabajo más flexible y


general. Así mismo gracias al desarrollo de técnicas de muestreo de Monte Carlos, la
estimación bayesiana puede ser computacionalmente más asequible que la utilización de
técnicas REML especialmente cuando se usan modelos más complejos.

La idea base de la teoría bayesiana consiste en considerar que tanto los parámetros (en
este caso las varianzas) como los efectos aleatorios y los datos tienen distribuciones
asociadas. De esta forma, cualquier información que se posea sobre la probabilidad de
los valores de los parámetros puede introducirse en proceso de estimación y aumentar la
calidad de información disponible y, por tanto, la precisión de las estimaciones. Por
ejemplo, si se trata de estimar una varianza, se sabe que la probabilidad de valores
negativos es nula y además se puede saber alrededor de qué valores esperamos que
esté el verdadero valor por experimentos previos o referencias bibliográficas. Así como la
estimación REML hace uso de la función de verosimilitud, o funciones que describen la
probabilidad de observar unos valores de la variable medida dados los parámetros
desconocidos, la inferencia bayesiana hace uso de la distribución posterior obtenida a
partir de la función de verosimilitud, que describe la información contenida en los datos
con respecto al parámetro de interés, y de la distribución a priori que se asigna a los
parámetros.

El teorema de Bayes da la expresión básica para calcular la distribución a posteriori de los


parámetros, θ, sobre los que se quiere hacer la inferencia, dada la información observada,
y:

f(θ/y) = f(y/θ) f(θ) , donde


f(y)

f(y/θ) es la verosimilitud asociada a los datos, dados los parámetros de interés


f(θ) es la información a priori sobre dichos parámetros
f(y) es la función de probabilidad marginal de los datos para cualquier valor de los
parámetros

La estimación y otros aspectos de la inferencia sobre los parámetros de interés (test de


hipótesis, intervalos de confianza, et cetera) se hace a partir de la distribución posterior.
Por ejemplo, una estimación de los parámetros de interés se puede hacer a partir de la
media de la distribución posterior, θ = E(f(θ/y)), o de la moda, θ = Maxf(θ/y), o de la
mediana.

31
Revista Computadorizada de Producción Porcina Vol: 11 No. 1 2004

Sin embargo, llevar a cabo estas estimaciones de forma analítica o por métodos
numéricos es normalmente imposible, especialmente en nuestro caso, cuando trabajamos
con grandes masas de datos. Existen en la actualidad diferentes algoritmos basados en la
utilización de la técnica de muestreo aleatorio o de Montecarlo, que facilitan la obtención
de las distribuciones marginales sobre las que se llevará a cabo la inferencia. El algoritmo
más empleado en nuestra área es el de muestreo de Gibbs.

EL MUESTREO DE GIBBS

Mediante el muestreo de Gibbs se pueden obtener muestras de distribución conjunta de


varias variables (f(x,y,z)), así como de las distribuciones marginales (f(x), f(y), f(z)) cuando
se conocen las distribuciones condicionales (f(x/y,z), f(y/x,z), f(z/x,y), o bien, f(x,y/z),
f(x,z/y), f(y,z/x). El muestreo de Gibbs consiste en:

1. Inicializar para valores de las variables x=x0, y=y0, z=z0


2. Extraer muestras xi de f(x/y i-1,z i-1)
yi de f(y/x i,z i-1)
zi de f(z/x i,y i)
3. Repetir el paso 2 k veces.
4. Cuando k tiende a infinito, entonces:
(xk, yk, zk) ~ f(x,y,z) muestra de la distribución conjunta
xk ~ f(x) ; yk ~ f(y) ; zk ~ f(z) muestras de las distribuciones marginales

5. Repetir del paso 1 al 3 m veces.


6. Al final del proceso se obtienen m muestras xi k, yi k, zi k i=1,..., m

Una vez que se tiene un número suficientemente elevado de muestras (m tiende a


infinito), se pueden obtener diferentes medidas de interés sobre la distribución marginal
mediante el teorema ergódico (ley de los grandes números). A partir del mismo se pueden
obtener las funciones de la media, la varianza, et cétera.

La implementación del muestreo de Gibbs para realizar la inferencia bayesiana se trata


desde el punto de vista computacional, en la resolución de las ecuaciones BLUP un
elevado número de veces (hasta que se tienen suficientes puntos para obtener la
distribución posterior), lo que computacionalmente suele ser más asequible que la
implementación de los métodos REML, que requieren la inversión de matrices de gran
tamaño, con un elevado costo computacional.

En el trabajo de Wang et al (1993) se ilustra el tipo de información que suministra un


análisis bayesiano vía muestreo de Gibbs sobre los parámetros de interés.

REFERENCIAS

Airy, G.B. 1861. On the Algebraical and Numerical Theory of Errors of Observations and
Combinations of Observations. MacMillan Company. Londres

Anderson, R.D. 1978. Studies on the estimation of variance components. Ph.D Thesis.
Cornell University. Ithaca

32
Revista Computadorizada de Producción Porcina Vol: 11 No. 1 2004

Anderson, R.D. y Bancroft, T.A. 1952. Statistical Theory in Research. McGraw-Hill. New York

Blischke, W.R. 1966. Variance of estimates of variance components in a three way


classification. Biometrics, 22:553-565

Boldman, K.G., Kriese, L.A., Van Vleck, L.D., Van Tassell, C.P. y Kachman, S.D. 1995. A
manual for use of MTDFREML. A set of programs to obtain estimates of variances and
covariance. ARS, USDA. Washington D.C.

Caraballo, M.J. 1997. Estima de componentes de varianza. Kn: VII Curso Internacional sobre
Mejora Genética Animal. Madrid, pp 38

Caraballo, M.J. 1998. Estima de componentes de varianza. In: VIII Curso Internacional sobre
Mejora Genética Animal. Madrid, pp 47

Chauvenet, W. 1863. A manual of Spherical and Practical Astronomy: Theory and use of
Astronomical Instruments. Philadelphia. Lippincott.

Crump, S.L. 1951. The present status of variance components analysis. Biometrics, 7:1-16.

Daniels, H.E. 1939. The estimation of components of variance. Journal of the Royal Statistics
Society, 6:186-197

Dempster, A.P., Laird, N.M. y Rubin, D.B. 1977. Maximum likelihood from incomplete data via
tha EM algorithm. Journal of the Royal Statistics Society, 39:1-38

Eisenhart, C. 1947. The assumptions underlying the analysis of variance. Biometrics, 3:1-21

Falconer, D.S. 1989. Introduction to Quantitative Genetics. Longman Group. Harlow. Londres

Fernando, R.N. y Pianola, D. 1990. Statistical inferences in populations undergoing selection


or non-random mating. In: Advances in Satistical Methods for Genetic Improvement of
Livestock. Ed. Gianola y Hammond, p 437-449

Fisher, R.A. 1918. The correlation between relatives on the supposition of Mendelian
inheritance. Transactions of the Royal Society (Edinburgh), 52:399-433

Fisher, R.A. 1922. On the mathematical foundations of theoretical. Transactions of the Royal
Society (London) 222:309-368

Fisher, R.A. 1925. Statistical Methods for Research Workers (1st edition). Oliver and Boyd.
Edinburgh

Fisher, R.A. 1935. Discussion of Newman at al. 1935. Journal of the Royal Society. Serie B,
2:154-155

Fisher, R.A. 1938. Statistical methods for research workers (7st edition). Oliver and Boyd.
Edinburgh

33
Revista Computadorizada de Producción Porcina Vol: 11 No. 1 2004

Gauss, K.F. 1809. Theoria Motus Corporum Celestrium in Sectionibus Conics Solem
Ambientium. Perthes and Besser. Hamburg

Gianola, D., Foulley, J.L. y Fernando, R.L. 1986. Prediction of breeding value when variance
are not knowm. Genetics and Selective Evolution, 18:475-484

Graser, H.V., Smith, S.P. y Tier, B. 1987. A derivative-free approach for estimating
variance components in animal model by REML. Journal of Animal Science, 64:1362-1370

Groeneveld, E. y Kovac, M. 1990. A note on multiple solutions in multivariate restricted


maximum likelihood covariance components estimation. J. Dairy Sci. 73:2221-2229.

Groeneveld, E. 1998. Componentes de varianza REML. In: VIII Curso Internacional


sobre Mejora Genética Animal. VCE v.4.2. Madrid, pp 20

Hartley, H.O. y Rao, J.N.K. 1967. Maximum Likelihood estimation for the mixed analysis of
variance model. Biometrika, 54:93-108

Harvey, W.R. 1990. User's Guide for LSMLMW, Mixed Model Least-squares and Maximun
Likelihood Computer Program. The Ohio State University Press. Columbus

Harville, D.A. 1977. Maximum likelihood approaches to variance component estimation and
to related problems. Journal of American Statistics Association, 72:320-340

Henderson, C.R. 1953. Estimation of variance and covariance components. Biometrics,


9:226-252.

Hill, W.G. y Meyer, K. 1988. Developments in methods for breeding value and parameter
estimation in livestock. In: Animal Breeding Opportunity. An Occasional Publication of the
British Society of Animal Production jointly with the British Poultry Breeders Roundtable,
12:81-98

Hofer, A. y Ducrocq, V.P. 1998. Accuracy of Laplace's method to marginalize posterior


densities of parameters of a multiple trait animal model. In: Proceedings of the 6th World
Congress of Genetics Applied to Livestock Production 25:489

Itoh, Y. e Iwaisaki, H. 1990. Restricted best lineal unbiased prediction using canonical
transformation. Genetics and Selective Evolution, 22:339-347

Jackson, R.W.B. 1939. Reliability of mental tests. British Journal of Psychology. 29:267-287

Jensen, J. y Madsen, P. 1996. A User's Guide to DMU, a Package for Analyzing Multivariate
Mixed Models. National Institute of Animal Science, Research Center Foulum. Tjele

Jensen, J., Mantysaari, E.A., Madsen, P. y Thompson, R. 1997. REML estimation of


co(variance) components in multivariate mixed linear models using average information.
Journal of Indian Science of Agricultural Statistics, 49:215-236

Johnson, D.L. 1993. AIREML. Livestock Improvement Corporation. Hamilton

34
Revista Computadorizada de Producción Porcina Vol: 11 No. 1 2004

Johnson, D.L. y Thompson, R. 1995. REML estimation of variance components for univariate
animal models using sparse matrix techniques and average information. Journal of Dairy
Science, 78: 449-456

Jurado, J.J. 1997. Modelos Mixtos. In: VII Curso Internacional sobre Mejora Genética Animal.
Madrid, pp 38

Korsgaard, I.R., Sorensen, D.A. y Gianola, D. 1998. Multivariate analysis of censored


normal, ordered categorical and gaussian traits using Gibbs sampling and data
augmentation. In: Proceedings of the 6th World Congress of Genetics Applied to Livestock
Production, 25: 493

Khuri, A.I. y Sahai, H. 1985. Variance components analysis: a selective literature survey.
International Statistical Review, 53:259-300

LaMotte, L.R. 1973. Quadratic estimation of variance components. Biometrics, 29:310-330

Legendre, L.R. 1806. Noevelles méthodes pour la détermination des orbites des cometes.
Courcier. Paris

Lund, M. y Jensen, C.S. 1998. Multivariate updating of genotypes in a Gibbs sampling


algorithm in the mixed inheritance model. In: Proceedings of the 6th World Congress of
Genetics Applied to Livestock Production, 25: 521

Madsen, P., Jensen, J. y Thompson, R. 1994. Estimation of co(variance) componente by


REML in multivariate mixed linear model using average of observed and expected
information. In: Proceedings of the 5th World Congress of Genetics Applied to Livestock
Production. Gueph, 22:19-22

Meyer, K. 1986a. REML to estimate genetic parameters-in practice. Proceedings of the 3rd
World Congress of Genetics Applied to Livestock Production, 12:454-459

Meyer, K. 1986b. Between algorithms: a short cut restricted maximum likelihood procedure to
estimate variance components. Journal of Dairy Science, 691904-1916

Meyer, K. 1988. DFREML- A set of programs to estimate variance components under


an individual animal model. Journal of Dairy Science, 71(supplement 2):33-34

Misztal, I. 1994a. Comparison of computing properties of derivate and derrivate-free


algorithms in variance components estimation by REML. Zeitschrift für Tierzucht und
Zuechtungsbiologies 111: 346-355

Misztal, I. 1994b. Comparison of software packages in animal breeding. In: Proceedings of


the 5th World Congress of Genetics Applied to Livestock Production. Gueph, 22:3-10

Newman, J.K., Iwaszkiewicz, C. y Kolodziejczyk, S.T. 1935. Statistical problems in


agricultural experimentation. Journal of the Royal Statistics Society, 2:107-154

Patterson, H.D. y Thompson, R. 1971. Recovery of inter-block information when block size
are unequal. Biometrika, 58:545-554

35
Revista Computadorizada de Producción Porcina Vol: 11 No. 1 2004

Plackett, R.L. 1972. Studies in the history of probability and statistic. The discovery of the
method of least squares. Biometrika, 59:239-251

Rao, C.R. 1971. Estimation of variance and covariance components-MINQUE theory. Journal
of Multivariate Analysis, 1:257-275

Rodriguez-Zas, S.L., Gianola, D. y Shook, G.E. 1998. Bayesian analysis of nonlinear


mixed effects models for somatic cell score lactation patterns in Holsteins. In: Proceedings
of the 6th World Congress of Genetics Applied to Livestock Production, 25: 497

Scheffé, H. 1956. Alternative method for tha analysis of variance. Annals of Mathematics and
Statistics, 27:251-271

Schaeffer, L.R. 1986. Estimation of variance components under a selection model. Journal of
Dairy Science, 70:661-671

Searle, S.R. 1956. Matrix methods in components of variance and covariance analysis.
Annals of Mathematics and Statistics, 27:737-748

Searle, S.R. 1961. Variance components in the unbalanced two-way nested classification.
Annals of Mathematics and Statistics, 32:1161-1166

Searle, S.R. 1968. Another look at Henderson’s methods of estimating variance components.
.Biometrics, 24:749-778

Searle, S.R. 1988. Mixed models and unbalanced data: wherefrom, whereat and whereto?
Statistics: Theory and Methods, 17:935-968

Searle, S.R. 1989. Variance components- some history and a summary account of estimation
methods. Journal of Animal Breeding and Genetics, 106:41-62

Searle, S.R., Casella, G. y McCulloch, C.E. 1992. Variance Components. John Wiley and
Sons, New York

Snedecor, G.W. 1940. Statistical Methods. 3rd Edition, Ames

Sorensen, D., Andersen, S., Jensen, J., Wang, C.S. y Gianola, D. 1994. Inference about
genetic parameters using Gibbs sampler. In: Proceedings of the 5th World Congress of
Genetics Applied to Livestock Production, 18:321-328

Thompson, W.A. 1962. The problem of negative estimates of variance components. Annals
of Mathematics and Statistics, 33:273-289

Thompson, R. 1973. The estimation of variance and covariance components with an


application when records are subject to culling. Biometrics, 29:527-550

Thompson, R. 1995. Estimation of multivariate genetic parameters. In: 46th Annual Meeting of
the European Association of Animal Production. Prague

Tippet, L.H.C. 1931. The methods of Statistic. (1st edition). William and Norgate. Londres

36
Revista Computadorizada de Producción Porcina Vol: 11 No. 1 2004

Tippet, L.H.C. 1937. The methods of Statistic. (2st edition). William and Norgate. Londres

Wang, C.S., Rutledge, D. y Gianola, D. 1993. Implementation issues in Bayesian analysis


in animal breeding. In: Proceedings of the 6th World Congress of Genetics Applied to
Livestock Production, 25:481

Wang, C.S. 1998. Implementation issues in Bayesian analysis in animal breeding. In:
Proceedings of the 6th World Congress of Genetics Applied to Livestock Production, 25: 481

Winsor, C.P. y Clarke, G.L. 1940. Statistical study of variation in the catch of plankton nets.
Journal of Marine Research, 3:1-34

Yates, F. y Zacopanay, I. 1935. The estimation of the efficiency of sampling with special
reference to sampling for yield in cereal experiments. Journal of Agricultural Science, 25:545-
577

37

También podría gustarte